生成AIによる企業におけるテキスト分析の進化と活用事例

  • データ分析
  • 生成AI

1. 企業におけるテキストデータの活用

企業が日々蓄積するデータの多くは、数値データだけでなく、メール、営業日報、コールセンターの記録、社内文書などのテキストデータが含まれます。これらのデータは非構造化データと呼ばれ、構造が無いために分析しづらい一方で業務改善や意思決定に役立つ隠れたインサイトが含まれている可能性が高いです。従来では、テキストマイニングツールを活用し、自然言語処理(NLP)技術によってテキストデータを解析する方法が採用されていましたが、以前のNLP技術を活用したテキストマイニングは主に単語や文の統計的性質に基づいて処理されることが多く、文脈の深い理解には限界がありました。

しかし、近年の生成AIの登場により、BERTやGPTといった高度なモデルがテキストの意味やコンテキストをより深く理解し、それに基づく分析が可能になっています。生成AIは、従来の自然言語処理技術では困難だった文脈の理解や、複雑な情報の抽出・整理を容易にすることで、企業のテキストデータ活用に新たな可能性をもたらしています。この進化により、テキストマイニングの手法も大きく変わり、単なる統計分析にとどまらず、より高度な洞察を得るためのツールへと発展しています。次世代のテキストマイニングを活用することで、従来技術では困難だった文脈の理解や、複雑な情報の抽出・整理を容易にし、企業のテキストデータ活用に新たな革新を生み出します。

本ブログでは、企業におけるテキストデータ活用の中でも、特にテキストデータの分析に焦点をあて、具体的な事例を紹介するとともに、従来の自然言語処理技術と生成AIを用いたテキスト分析との違いや、それぞれの利点・課題について掘り下げ、その実用性や使い分けのポイントについても詳しく解説します。

2. 活用事例

テキストデータの分析は、企業のさまざまな分野で活用され、業務改善や意思決定の質を向上させています。以下に、具体的な事例を紹介します。

2.1 営業日報による商談成否の要因分析

営業担当者が記録する営業日報には、商談の進捗状況や顧客の反応が詳細に書かれています。これらのテキストデータを分析することで、成功する商談の特徴や、失敗につながる要因を特定できます。例えば、特定のキーワード(価格交渉、競合比較、導入時の課題など)が頻出する商談の成約率を分析し、勝率の高い営業トークや顧客の関心ポイントを可視化することが可能です。また、特定の条件(業界、企業規模、意思決定プロセス)ごとに成功確率の高い営業戦略を導き出すことができます。

2.2 コールセンターのお客様の声分析による解約予兆の特定

コールセンターには、顧客からの問い合わせやクレームが日々蓄積されています。これらのデータをテキスト分析することで、顧客の不満や要望を抽出し、解約の予兆を特定することが可能です。例えば、解約に至った顧客が過去にどのような発言をしていたかを分析し、頻繁に登場するフレーズ(「使いづらい」「料金が高い」「サポートが遅い」など)を特定することで、早期にリスクを察知できます。センチメント分析や共起分析を用いることで、ネガティブな感情の強さや、解約を示唆する発言を分類し、適切なフォローアップ施策を講じることができます。

2.3 人事評価や社員アンケート分析による従業員エンゲージメントの向上

社員のモチベーションや職場環境の課題を把握するために、人事評価やアンケート結果の分析が重要視されています。従来、数値化された評価指標をもとに分析することが一般的でしたが、テキストデータの分析により、社員の自由記述から組織の課題をより深く理解できます。従来、テキストデータは定性データと呼ばれ数値化が困難でしたが、例えば、「上司との関係」「キャリア成長の機会」「ワークライフバランス」といったテーマごとに分類し、整理することで定量データとして扱い、エンゲージメント向上の阻害要因を特定できます。さらに、ネガティブなフィードバックがどの部署で多いのか、どの要素が離職リスクを高めるのかを分析することで、より戦略的な人事施策を打ち出すことが可能です。

2.4 IR資料のテキスト分析による投資家コミュニケーションの強化

企業が発表する決算報告書やIR向け資料には、投資家が企業の成長性やリスクを評価するための重要な情報が含まれています。定量データとこれらのテキストを分析することで、投資家の関心や反応を予測し、効果的なコミュニケーション戦略を構築できます。例えば、過去のIR資料と株価の変動を比較し、ポジティブな表現やネガティブな表現が投資家の意思決定にどのような影響を与えるかを分析することが可能です。また、競合企業のIR資料と比較し、自社のポジショニングを明確化することで、より説得力のある情報発信を行うことができます。

これらの事例から、テキストデータの分析が企業の課題解決や業務改善に大きく貢献することがわかります。2.1から2.4は活用事例の一部に過ぎず、テキストデータ分析の活用可能性はさらに幅広く存在します。例えば、製造業における品質管理のための作業報告分析、医療分野での電子カルテのテキスト分析による診断補助、法律分野での契約書や判例分析によるリスク評価など、業界ごとに多様な応用が考えられます。適切な分析手法を導入することで、より深い洞察を得て、戦略的な意思決定を支援することが可能です。

3. 自然言語処理に基づくテキスト分析の代表的な手法

N-gram

N-gramは、テキストを連続するN個の単語や文字の単位に分割して分析する手法です。特に、単語やフレーズの頻出パターンを把握するのに役立ちます。例えば、顧客のレビューやコールセンターの会話データを分析し、頻出するフレーズを特定することで、特定の商品に関する評価傾向や問題点を抽出できます。N-gramの欠点として、単語の文脈を考慮しないため、長文の意味を正確に捉えることが難しい点が挙げられます。また、Nの値が小さすぎると文脈の理解が浅くなり、大きすぎるとデータスパースネス(データの不足)が発生しやすくなります。

トピックモデリング

トピックモデリングは、大量のテキストデータやサイトから文書に潜むテーマ(トピック)を自動的に抽出する手法です。代表的なアルゴリズムとしてLDA(Latent Dirichlet Allocation)があり、異なる文書群の中で共通するトピックを分類するのに活用されます。例えば、社内の問い合わせ履歴を分析し、よくある質問のカテゴリーを特定することで、FAQの最適化に活用できます。トピックモデリングの欠点として、トピックの解釈が必ずしも直感的でない場合があることが挙げられます。また、教師なし学習であるため、結果の品質がアルゴリズムのパラメータ調整や前処理の精度に大きく依存します。

Word/Document Embedding

Word/Document Embeddingは、単語や文書をベクトル形式に変換する技術で、文脈の類似性や関係性を数値的に表現することが可能です。代表的な手法にはWord2VecやBERTなどがあります。この技術を用いることで、例えば、求人情報と応募者の履歴書を比較し、適切なマッチングを自動化することができます。Word/Document Embeddingの欠点は、学習データに依存するため、ドメイン固有のデータに対しては適切な意味表現が得られない可能性があることです。

4. 生成AIによるテキスト意味特徴量の抽出

従来のNLPに基づいたテキスト解析の共通する短所として、単語の出現のような統計的な性質を分析しており、必ずしもその背後にある意味やコンテキストまでは理解できていない点が挙げられます。例えば、「製品A, 訪問」というN-gramを考えた場合に、「製品Aに関してお客様を訪問した」、「製品Aに関してお客様を訪問しようとしたが予定が合わなかった」は、全く意味が異なりますが、N-gram表現としては同じになってしまいます。結果として、テキストから抽出された特徴の解釈が難しくなり、元の文章を辿って確認をしないと、施策の立案や意思決定が難しくなるという課題があります。

そこで、当社dotDataでは、このような文章をAIに解釈させ、テキストに含まれる意味を抽出する、というアプローチを開発しています。例えば、営業日報のデータで成約率を分析するケースであれば、「営業とお客さんは面談できているか?」「お客さんに紹介している商品は何か?」という意味を特徴化することで、精度と解釈性の両面で、従来のテキスト特徴量よりもよい洞察が得られる可能性があります。

テキスト分析

実際にどんな精度でこれが実現できるのか実例を見てみましょう。ここでは具体的なデータを用いたタスクとして、大学に対する不満データを使用して、述べられている不満が、

  • 食事・カフェテリアに関する不満
  • オンライン授業に関する不満
  • 学生課に関する不満
  • 就職機会に関する不満
  • アクティビティ・イベントに関する不満
  • 健康問題・福祉に関する不満
  • その他の不満

のどのカテゴリに属するかの分類を実施しました(生成AIが推定した不満の分類結果が、意味ラベルとして特徴化されます)。この評価では、ランダムに抽出した215件のテキストに対し、dotDataの生成AIによる意味抽出結果と、人間が分類した結果と比較しました(人間による分類を正解として、生成AIによる意味抽出結果を評価)。

最新の4つの生成AIモデルをdotDataのテキスト意味特徴ツールに接続した評価結果が以下の表となります。モデルにより若干の差はあるものの、ほぼ人間が分類したものと同じ分類ができていることがわかります(なお、Claude 3では、精度が70%程度と大きく劣化したため、最新のLLMの進化が伺えます)。

なお、誤分類のケースを見ると、

[誤分類例1]
文書:「キャンパスの自動販売機がよく故障していて不便です。」
人間による分類:「食事・カフェテリアに関する不満」
AIによる分類:「その他の不満」

[誤分類例2]
文書:「キャンパスの多様性をありがたく思っていますが、時々、異なる文化的グループの間に理解が欠けているように感じます。もっとお互いに交流し、学び合う機会が増えればいいのにと思います。」
人間による分類:「その他の不満」
AIによる分類:「アクティビティ・イベントに関する不満」

のように、人間でも完全な判断が難しいというケースが多いようです。

このように、生成AIを利用したテキストからの意味抽出は非常に強力なツールとなり得ますが、現状ではコスト面の課題があります。以下の表は、dotDataの意味特徴量の抽出ツールで、10万文書x1000文字のテキストに10種類の意味ラベルを付与する際にかかるコストを整理しました。

利用する生成AIによって10倍以上のコスト差があり、また10万文書に対するコストの絶対値として高いと見るか低いと見るかはアプリケーション次第ですが、無制限に使えるコスト感ではないため、目的をしっかりと定めて利用する必要がありそうです(なお、比較として、N-gram特徴などは、同規模のテキストデータであれば、無視できる程度のコストで実行することができるため、意味まで抽出可能な高精度な推論は魅力的である一方で、コストやスケーラビリティとしては従来の自然言語処理に基づく方法にも利点があります)。

dotDataの提供する、生成AIによる意味特徴抽出ツールは、単に生成AIによって意味ラベルを付与するだけではなく、企業での利用を想定して、以下のような機能が備わっています。

  • AIによる意味ラベルの推薦:テキストから抽出したい意味は、コンテキスト依存ですが、データセットを入力すると、テキストの内容から「どのような意味を抽出するとよいか」について、AIが自動的に分析して推薦してくれる機能です。これによって、ユーザーは、抽出すべき意味に素早くあたりをつけることができ、テキスト分析や、分析対象のデータに一定不慣れでも、簡単にテキストから意味を抽出することができます。
  • 意味抽出精度の高速で低コストの評価:抽出可能な意味やその抽出精度は、ユーザーがプロンプトとして与える「意味の定義」の正確性に依存します。プロンプトを事前に正確に定義することは難しく、必然的に結果を見ながらのチューニングを伴いプロセスとなりますが、そこで生成AIのコスト(上述)が問題となります。dotDataの提供する、生成AIによる意味特徴抽出ツールは、全量データにプロンプトを適用する前に、低コストかつ高速に意味ラベルの精度評価をしながら、ユーザーがプロンプトをチューニングするための機能が備わっています。
  • dotDataの特徴量自動設計との連携:テキストからの意味特徴の抽出は、それ自体が有用な情報となりますが、それらの情報を加工することで、さらに深い洞察を抽出することができます。例えば、「1ヶ月間で、サービス品質に関する不満を3回以上、サポートに問い合わせたお客様は、その後3ヶ月以内に、サービスを退会する可能性が高まる」と言った形で、サポートのお問い合わせから「サービス品質に関する不満」という意味を抽出した上で、それをユーザーごとに1ヶ月間集計をした特徴は、解約の強い予兆となる特徴と言えます。

5. まとめ

本稿で紹介した従来の自然言語処理と生成AIを組み合わせたテキスト分析の事例から、今後は大規模言語モデルのさらなる性能向上や推論コストの最適化が見込まれ、企業が抱える膨大なテキストデータを深く分析するハードルは一層下がると考えられます。これにより、従来のNLP技術を補完しながら文脈や意味を考慮した高度な洞察を得る手法が定着し、企業におけるテキストデータの新たな活用方法が生まれるでしょう。企業としては、目的に応じた生成AI活用や、意味抽出の精度評価・運用ノウハウを蓄積することで、テキストデータの価値を最大限に引き出しながら、より的確な意思決定やイノベーションを推進できる未来が期待されます。

Yukitaka Kusumura, Ph.D.
Yukitaka Kusumura, Ph.D.

dotDataの共同創業者で、首席リサーチエンジニア。AIを活用した特徴量設計の研究開発を統括。機械学習、自然言語処理、ビッグデータエンジニアリングなどデータサイエンスに関する研究に10年以上従事。工学博士。

dotDataのAIプラットフォーム

dotData Insight 業務部門が自ら洞察を導き出す

dotData Insightは、事業部門が主役のビジネスアナリティクスを実現する革新的なデータ分析プラットフォームです。業務データに隠れたパターン(特徴量)を、BIツールのような直感的で使いやすいインターフェースを通じて提供します。dotData独自のAIが解析するデータの特徴を、生成AIの「世界知識」で補完し、実用的なビジネス仮説を生み出します。この融合により、業務部門は、データの洞察を直感的に理解し、新しいビジネス仮説を立て、戦略立案や施策実行をより効果的に行うことができます。

dotData Feature Factory 特徴量をアセット化し全てのAI/BIを強化

dotData Feature Factoryは、データサイエンティストやIT部門が、企業がキュレーションされたデータ(すなわち特徴量)を開発するために、データ加工に関するノウハウを再利用可能なアセットとして蓄積する仕組みを提供します。データ中心に構築される特徴量空間から、アルゴリズムによってデータに隠れたパターン(特徴量)を発見し、特徴量発見のスピードと効率、再利用性と再現性、専門家間の連携、品質と透明性を向上させます。dotData Feature Factoryは、機械学習モデルによる予測、ビジネスインテリジェンス(BI)によるデータ可視化、或いはマーケティングオートメーションのような、全てのデータアプリケーションを強化します。