A Data Scientist at work

Al/械学習を導入した企業の8割が失敗。成功させる5つのコツとは?

5月 26, 2021

調査会社のGartnerによれば、データ分析やビジネスインテリジェンス(BI)を活用している企業のうち、2022年までにビジネス上の成果を出せる見込みがあるのはたったの20%であるというデータが出ているのはご存じでしょうか?

また、北米大手のVentureBeat AIによれば、データサイエンスの導入を検討した企業のうち、実用までに至っているのは13%しかありません。

とりわけ、AI/MLのプロジェクトにいたっては、12%とさらに低い数字となっています。
こうした事実は、データ分析、データサイエンス、機械学習の導入が難しいことを物語っています。
しかし、なぜ多くのプロジェクトが失敗に終わるのでしょうか?

この記事では、AI/MLを活用してビジネスで成功させるためのコツを5つご紹介します。

問題とゴールを明確にして、データ分析を行うものに優先順位を付ける

データ分析を検討する際にまず考えるべきことは、「どの問題をデータ分析で解決するのか」という取捨選択とその優先順位の決定です。
理由は3つあります。

たいていの会社では、同時に多くの問題を抱えているため
問題すべてを同じタイミングで対処できることはまずありません。
したがって、まず「何を行うべきか(そして、何を行わないのか)」を決める必要があります。

人工知能は万能薬ではないため
「どんな問題もAIに任せれば解決する」というわけではありません。
AIが得意とするのは、いわゆる「ビッグデータ」と呼ばれる巨大なデータ群から、人の目では発見の難しいデータの共通性や特徴を分析する作業です。
また、AIはあくまで分析のみを行います。
分析した結果をもとに意思決定を行うのはあくまで人間であるということを理解する必要があります。

データ分析はとても時間がかかるため
一般的には、一つのテーマについて分析するだけでも、何ヶ月もの時間がかかります。
そのため、複数の課題を抱えている場合、その分だけプロジェクトは長期化してしまいます。
そして、ビジネスとして行う以上、タイムリミットがあるケースがほとんどです。
したがって、「どのような問題を抱えているのか」、「どのような状態になれば問題を解決したと言えるのか」、そして「問題を解決するのには、何をどの順番で行う必要があるのか」を最初に明確化する必要があります。

AI/MLで分析しやすいデータを用意する

成功の鍵はデータの質にあります。
多くの企業では、次のような理由からデータ分析を行いやすいデータが揃っていません。

  • データの質が偏っている
  • そもそもデータ量が少ない
  • データに多くのノイズが乗っている(不必要なデータが混入している)
  • データが構造化されていない・分析できるフォーマットになっていない

したがって、まずはデータを分析しやすい形に整理する必要があります。
データの整理には、次のような方法が一般的です。

データレイクの用意
データレイクとは、構造化・非構造化データを一元管理するリポジトリ(保管場所)のことです。

データクレンジング
破損したデータ、不正確なデータ、無関係のデータを特定していく手法のことです。

データアーキテクトとデータフォーマットの共通化
.csv、.json、場合によってはエクセルの.xlsxなどでデータをバラバラに管理している場合、これらを可能な限り統一し、またデータを構造化し、関連付けをします。

データプレパレーションツールによる標準化
「データプレパレーション(データ準備)」というのは、データ分析を行う前にデータを収集したり整理したりする作業のことをいいます。
この作業には大変な手間がかかりますが、専用のツールを使用することで、この負担を軽減できます。

データパイプラインを整備する

データパイプラインとは、データを目的にとって利用しやすいように処理・加工するための一連プロセスの流れのことです。
そして、このパイプラインを可能な限り整備することで、プロセスのスピードアップを図れます。
前述の通り、基本的にデータというのはさまざまなフォーマットで異なるデータベースに散らばっています。
したがって、それらからデータを抽出・統合する場合、データベースごとにデータの整理や再フォーマットが必要になります。
しかし、フォーマットやデータベースごとに異なる作業を行う必要があるため、プロセスが複雑になりやすくなります。
また、AI/MLの場合は、分析の目的に従って複数の異なるデータを掛け合わせて変数を作り出す、固有の作業も発生します(この作業は、「特徴量設計」と呼ばれ、手作業で大量のSQLコードを書くのが一般的です)。
実際、データ分析を行う上でのボトルネックはここで発生することが多いため、データパイプラインを整備してできるだけシンプルに保つことで、作業のスピードアップを見込めます。
弊社のdotDataプラットフォームは、世界初の特徴量自動設計技術によって、AI/MLのための特徴量の作成・データパイプライン構築を自動化し、AI/MLのワークフロー全体を簡素化します。

モデルの精度と解釈可能性のバランスを考える/ホワイトボックスモデルを採用する

モデルの予測精度と解釈可能性はトレードオフである

モデルの予測精度というのは、モデルの出力する将来予測を、実際の結果と比較した場合に、どの程度あったっているかを示します。モデルの解釈可能性というのは、「予測モデルが予測値を出力されるまでのプロセスが人間にとってどれだけわかりやすいのか」を言います。
そして、この2つはトレードオフの関係にあることから、目的に応じてその最適なバランスを決定する必要があります。
たとえば、複雑な数学的な変換や機械学習のモデルを駆使することで予測精度を高めることができますが、「予測結果がどのように導き出されたのか」については人間にとって理解しづらくなります(解釈可能性が低くなる)。
一方、シンプルな特徴量や機械学習モデルを利用して解釈可能性を上げた場合は、結果が出力されるまでの過程は人間にとってわかりやすくなりますが、予測精度は低下する傾向にあります。

ホワイトボックスモデルでプロセスの透明性を確保する

ホワイトボックスモデルというのは、AI/MLが出力した結果について、「なぜそのような結論を出したのか」という説明が可能なモデルのことを言います。
対立する概念に、ブラックボックスモデルがあります。
これはホワイトボックスモデルとは対照的に、AIが出した結論に対する説明がありません(ブラックボックス化されている)。
従来のAIの場合、ブラックボックスモデルが主流ですが、前述の通り、根拠や結果に至るプロセスが不明確なことから、出力された結果に対して間違った解釈や意思決定を行ってしまうおそれがあります。
こうしたリスクは、プロセスが透明化されているホワイトボックスモデルを採用することで下げることが可能です。

dotDataであれば、どちらの作業も自動化できる

dotDataプラットフォームは、モデルの精度と解釈可能性のバランスを自動で調整機能が実装されており、モデルの複雑度と精度を確認しながら、利用者に最も適したバランスを選ぶことができます。これは、企業においてAIを意思決定に利用するために非常に重要なポイントです。

最適な方法でモデルを業務適用する

「モデル(或いはAI)の業務適用」とは、実験環境やサンドボックス環境で開発されたモデルを、本番環境(実際の業務で運用する際の環境)で移行し、日々の業務データを元に予測を実行し、それを業務システムへ反映する一連のプロセスです。
しかし、AIを業務適用するためには、本番品質のモデル再実装から業務システムへの結合に時間とコストがかかり、業務システムへの組み込みが完成する頃には、データの性質が変わりモデルが劣化している、或いは外部環境の変化によりユースケース自体が有効ではないということが起こります。
実際、単一のモデルを本番環境に導入する作業を行うだけでも数ヶ月以上かかってしまうことが一般的です。
また、モデルの運用の際には、「リアルタイム予測」(個別の予測は小さいが予測スピードがはやい)か「バッチ予測」(予測のスピードは遅いが、毎回の予測が大規模)かによって、データパイプラインの組み方、必要なインフラ、コストや開発期間などが異なります。

dotDataプラットフォームでは、自動的に本番適用可能なAPIを生成し、またAIモデルを「コンテナ化」することで、モデルの業務適用期間を大幅に短縮することが可能です。

しかし、いずれにしてもAI/MLのプロジェクトは、業務適用までを見据えた事前の計画が重要です。業務適用までの道筋を持ってプロジェクトを進めることで、予期せぬ後戻りのリスクや、本番環境に対する要求の不一致といったリスクを回避し、AI/MLを最大限に業務で活用することができます。

シェアする

dotData

dotData Inc.

dotData独自の技術である特徴量自動設計は、データサイエンスおよびAI開発工程の最も難しい部分である特徴量設計と事業適用化を自動化します。それにより、企業のAI・機械学習プロジェクトにかかる時間を短縮させ、より高いビジネス価値を生み出します。詳細はdotdata.com、Twitter、LinkedInからご確認いただけます。