Blog-JP

AutoMLの普及は、データサイエンティスト時代の終わりを意味するか?

McKinsey Analyticsは、機械学習の自動化(AutoML)の進化について「Rethinking AI talent strategy as AutoML comes of Age 」(AutoMLの登場によるAI人材戦略の再定義)という記事を発表しました。

McKinseyは、AutoMLツールの広がりとともに、データサイエンス人材について根本的に新しい考え方が必要になると主張しています。データサイエンスプロセスを自動化したAutoMLプラットフォームの活用は、ドメイン知識を持ったビジネス部門など、データサイエンティスト以外の幅広いユーザー層に拡大します。重要なポイントは、企業はデータサイエンティストの人材不足の補充にすべてのリソースを投入するのではなく、今後10年間の人材プールで多くの割合を占めることになるであろう、AutoMLの実践者部隊の育成についても注力する必要があることです。

CIO、データサイエンス、アナリティクスのリーダーは、AI人材戦略を根本的に見直す必要があります。COVID-19(新型コロナウィルス感染症)のパンデミックにより不確実性をます経済状況で、より限られた予算と人材でより多くの業務を行わなければならないプレッシャーは、「AutoML革命」を更に促進することになります。

なぜAutoMLへの関心が爆発的に高まっているのでしょうか?特に中小企業にはどのような影響があるのでしょうか?また、データサイエンティストにはどのようなことが起きるのでしょうか?

世界的にAI(人工知能)に基づくインテリジェンス革命が勢いを増しており、大企業では既にAIや機械学習を業務へ活用するための試みが広がっています。金融の不正検知、計画外のダウンタイム削減、需要予測など、AIを活用した予測アプリケーションを構築しようという波が各産業に押し寄せています。これを実現するには、多数のデータサイエンティストを雇う必要がありました。
2018年7月に行われたLinkedInの調査では、米国で約15万人のデータサイエンティストが不足していることが報告されています。企業がデータサイエンスと機械学習を活用したデジタルトランスフォーメーションを推進する中で、データサイエンスを様々な業務に導入することは容易ではないことが証明されていました。また、データサイエンスを活用できるのは、大企業がほとんどでした。中小企業にはデータインフラがなく、多数のデータサイエンティストを雇用するだけの資金力がありませんでした。もう一つの重大な課題は、AIや機械学習のプロジェクトを完了させるために必要な時間が通常数ヶ月以上にも及びに及ぶことと、AIや機械学習のノウハウ、データパイプライン管理、またモデルを本番環境へデプロイするためスキルを持った人材が圧倒的に不足していることでした。

企業にはビジネス部門の要求に応じた様々なデータサイエンスプロジェクトがあり、各プロジェクトにおいて負荷の高いデータ操作が必要とされることを考えると、データサイエンスの組織を作り、そしてそれを維持することは容易ではありません。AutoMLは、データサイエンスに関するこれら幾つかの課題に対するソリューションとなりえます。機械学習モデル構築に必要な手間のかかる反復的なステップを自動化し、手作業に伴うエラーとやり直しの作業を排除し、さらに本番環境へのモデル適用にかかる時間を短縮します。 

データサイエンスプロジェクトには、データサイエンティスト、機械学習エンジニア、ソフトウェアアーキテクト、BIアナリスト、またドメインエキスパートと複数の専門分野から構成されるチームが必要です。以下のデータサイエンスのワークフローの図が示すように、データサイエンティストはデータの準備、モデリング、パラメータ調整にほとんどの時間を費やしています(図の上段)。AutoMLツールの登場により、データサイエンスプロジェクトの実行に必要な人材構成が変化しました(図の下段)。

JPBlog2-a

第一世代のAutoMLプラットフォーム(AutoML 1.0)は、モデルを自動構築し、それを検証するために設計されていました。現在でも利用されていますが、これらの従来のプラットフォームは、機械学習の要素のみが自動化されており、データサイエンスのプロセスの中で最も時間と労力を要するデータ準備や特徴量設計は自動化されていませんでした。次世代プラットフォームと呼ばれるAutoML 2.0は、データ準備から特徴量設計、モデル構築、本番環境へのデプロイまで、エンドツーエンドでの自動化を実現します。これにより、開発チームは機械学習モデルの開発とデプロイに必要な時間を数ヶ月から数日に短縮することができます。AutoML 2.0プラットフォームは、何百ものユースケースに対応し、BI(Business Intelligence)ユーザーやデータエンジニアがAIを開発することを可能とし、またデータサイエンティストの作業を効率化させることで、企業のAI活用の取組みを劇的に加速させます。

データサイエンス全体を自動化することで、企業はプロジェクト毎に多くの熟練したデータサイエンティストやエンジニアチームに投資する必要がなくなります。また、AutoML 2.0は、いわゆる「市民データサイエンティスト」を強化し、データサイエンティストだけでなく、BIユーザーやビジネスアナリストでもAI / 機械学習プロジェクトを実行できるようにします。データに基づく意思決定や規制・コンプライアンスの要求に対して、AutoML 2.0の導き出す解釈性のある特徴量は、組織が説明責任を果たす助けとなります。透明性の高い結果はドメインエキスパートがモデルを素早く理解する助けとなり、AIを開発・活用するためのプロセスの有効性と効率性が向上します。この「AIの民主化」によって、あらゆる規模の企業が機械学習をビジネス導入し、最速で市場へ投入する機会を得ます。既存のBIユーザーやデータの専門家を強化することで、データサイエンティストへの依存を緩和し、コスト、ROI、規模など複数の面でデジタルトランスフォーメーションを実現する際の障害に対処することができます。AIでBIを強化することで、小規模な企業でも運用コスト削減、品質向上、顧客離反防止に役立て、新たな収益源を生み出すことができます。

それはデータサイエンティストの未来に何を意味するのでしょうか?AutoMLでデータサイエンティストという職業が不要になるという考えは大げさです。データサイエンティストは、ミッションクリティカルであり、非常に高い精度を必要とするような、大変複雑でユニークなユースケースを扱うために常に需要があります。McKinseyは、純粋に技術的なデータサイエンティストは長期的にはまだ需要がありますが、現在の予測よりもその需要がはるかに減少するだろうと分析しています。アナリティクスの専門家は、企業が今後5年間にデータサイエンティストとAutoML両方の専門知識を持った人材戦略を構築していく中で、AutoMLを使いこなせる人材の需要はデータサイエンティストの需要の2倍になると予測しています。