AIモデルの比較評価 – GPT-4o, Llama 3.1, Claude 3.5 on Bedrock

  • データ分析
  • 生成AI
  • AI開発

1. AIモデルの進化

近年、生成AIの進化は飛躍的に進んでおり、特に大規模言語モデル(LLM)の発展は目覚ましいものがあります。GPT-3が登場した2020年以降、AIモデルはより高精度で柔軟なテキスト生成を可能にする方向へと進化してきました。GPT-3.5、GPT-4といったOpenAIのモデルの発展に加え、AnthropicのClaudeシリーズ、MetaのLlamaシリーズ、Google DeepMindのGeminiシリーズなど、各社が競争を繰り広げています。

この進化の背景には、モデルサイズの増加や学習データの拡充、そして推論速度や効率性の向上が挙げられます。モデルサイズの増加によって高度な推論が可能になり、学習データの拡充によってAIの知識範囲や応答の精度が向上しました。また、推論速度の最適化には量子化技術の導入や並列処理が活用されており、特にFP8量子化やカスタムアクセラレータの利用によって、推論の実行速度とリソース消費の最適化が進んでいます。さらに、最新のモデルではテキストだけでなく、画像や音声も処理可能なマルチモーダル対応が強化され、より高度な情報処理が可能になっています。

近年は数多くのLLMが登場し、各社は技術的な特徴や独自の強みを前面に押し出しています。たとえば、精度の向上を重視するモデルや推論速度を最適化したモデル、コストパフォーマンスに優れたモデルなど、さまざまな用途に応じた選択肢が広がっています。しかし、選択肢が増えた一方で、ユーザーにとってどのモデルを採用すべきか判断が難しくなっているのも事実です。精度や速度、コスト、セキュリティ、運用の自由度など多岐にわたる要素を総合的に検討する必要があり、単純な比較だけでは決められないケースも増えています。

本ブログでは、dotData Insightの開発において、OpenAIのGPT-4o、Amazon Bedrock上のClaude 3.5 Sonnet、そして自己ホスト型のLlama-3.1-70B-Instructを比較し、それぞれの精度、速度、コスト、セキュリティ、キャパシティの観点から評価した結果を解説します。

2. GPT-4o、Llama3.1、Claude 3.5

ここでは、各モデルの概要と、本評価における比較対象について説明します。

GPT-4o(OpenAI)

OpenAIが提供するGPT-4oは、従来のGPT-4に比べて大幅に速度とコストの最適化が施されたモデルです。GPT-4oはマルチモーダル対応が強化されており、テキストに限らず画像や音声を処理する能力を備えています。モデルの訓練には膨大なデータが活用され、トークンごとの最適化が行われています。

API経由で利用できることから導入が容易であり、運用やメンテナンスの負担を大幅に軽減できる点が強みです。OpenAIのクラウドインフラを活用できるため、常に最新のモデルアップデートを受けられるほか、高水準のセキュリティ対策や負荷分散機能が提供されるため、ユーザーはインフラ管理の手間を最小限に抑えることができます。

Claude 3.5 Sonnet(Anthropic / Amazon Bedrock)

Claude 3.5は、Anthropicが開発した大規模言語モデルで、安全性と倫理的なバイアス対策に重点を置いた設計が特徴です。長いコンテキストウィンドウをサポートしているため、大量の履歴を保持したまま推論を行うことができ、特に対話型アプリケーションとの相性が良いとされています。

Amazon Bedrock上で提供されているため、AWS環境との連携が容易です。これによりスケーラビリティやコスト管理がしやすくなる一方、API経由でしか利用できないため、リアルタイムの最適化や大規模カスタマイズには制限がある可能性があります。今回の評価では、Amazon Bedrockを通じてClaude 3.5 Sonnetを利用しました。

Llama-3.1-70B-Instruct(Meta / AWS上にホスティング)

Llama-3.1-70B-Instructは、Metaが提供するオープンソースの大規模言語モデルであり、自己ホストが可能な点が大きな強みです。700億パラメータを有しており、特に指示応答(Instruct)タスクに最適化されています。FP8量子化に対応しているため、推論を高速化しつつ、メモリ使用量の削減も期待できます。

自己ホスト環境では、インフラの選定や推論エンジンの構成が重要になります。今回の評価では、Llama-3.1-70B-InstructをFP8量子化したモデルをg5.12xlargeで動作させ、推論エンジンとしてvLLMを採用することで高速化とメモリ効率の向上を図りました。

3. dotData Insightの生成AIによる特徴量の読み解き

dotData Insightは、dotDataの独自のAIが、業務目的と強く相関する業務データの重要なパターン(特徴量)を抽出します。そして、データからわかる統計的な事実としての「特徴量」を、生成AIの知識で補完し、実用的なビジネス仮説の検討を支援します。この融合により、業務部門はデータの洞察を直感的に理解し、新しいビジネス仮説を立て、戦略立案や施策実行をより効果的に行うことができます。より具体的には、dotData Insightは、特徴量の説明文(dotDataのAIが自動生成)や特徴量・目的変数の分布に関する情報を生成AIのプロンプトの一部として入力し、特徴量の解釈やビジネス仮説立案を実行します。

消費者ローンに関するデータを使い、債務不履行の確率が高くなる顧客の特徴量をdotData Insightで分析した例を使い具体的に見ていきましょう。dotData Insightが発見した特徴量および、dotData Insightに組み込まれた生成AIによるビジネス仮説立案の例を以下に示します。

特徴量:「直近3年間、申請対象が’モバイル機器’の過去ローン申込数が1件以上あるとローンの債務不履行率が1.1倍に上昇する」

解釈:「携帯電話購入のための頻繁な借入」

ビジネス仮説:「直近3年間で携帯電話購入のためのローン申込履歴がある顧客は、最新のスマートフォンを頻繁に購入する傾向があります。これは、必要以上の消費行動や衝動買いを示唆し、財務管理能力が低い可能性があります。結果として、複数のローンの返済負担が重なり、収入に対する債務比率が高くなることで、不履行のリスクが増加します。」

解釈を見ると、特徴量で言及されているモバイル機器は一般的には携帯電話のことを指しており、さらに申込数が1件以上とは、頻繁に借り入れを行っている顧客を指している、ということがわかります。つまり、この特徴量は、携帯電話購入のために頻繁に借入を行う人たちのことを指していると、よりイメージがつく解釈が得られます。また、携帯電話購入のための頻繁な借入が、なぜ債務不履行につながるかの仮説が、説明されています。頻繁な借入から、複数ローンの返済負担が重なり不履行となる具体的な仮説が示されており、対策を検討する上での有用性が高まります。

このように、dotData Insightでは、dotDataのAIの発見する特徴量と生成AIを掛け合わせることで、有用な仮説をユーザーに提供しますが、仮説生成の品質は生成AIの能力に大きく依存します。次章では、dotData Insightの開発の中で実施した、GPT-4o、Llama 3.1、Claude 3.5の比較について、具体的な評価結果を解説します。

4. 評価結果

評価の観点

GPT-4o、Llama 3.1、Claude 3.5の比較は、以下の観点から多面的に評価を実施しました。

  • 精度:ビジネス仮説立案が、人間からみて妥当な結果と言えるか?(定性評価)
  • 速度:推論にかかった時間
  • コスト:推論の実行にかかる費用
  • セキュリティ:閉塞網での利用や、日本リージョンでの利用の可否
  • キャパシティ:TokenやAPIアクセス数に対する制限

評価結果

精度

精度は、各LLMの回答を主観的に評価をしたため、まずは各LLMが生成した具体的な回答を見てみます。dotData Insightがデータから導き出した「住宅ローンの不履行率が高くなる条件:過去3年間に新規顧客が’true’である過去のローン申し込みがある」について、各LLMに仮説を立てさせた結果を以下に示します。

GPT-4oの回答:OK

「新規顧客は、金融機関に対して十分な信用履歴を持っていないことが多いため、信用リスクが高くなります。過去にローン申込がある場合でも、信用履歴が短いため、返済能力や信用度を正確に評価するのが難しく、不履行のリスクが高まります。」

Llama 3.1の回答:NG

「新規顧客が過去にローン申込をしていて、その申込が承認されたことがある場合、信用履歴が良くない可能性があります。このため、不履行のリスクが高くなります。過去のローン申込が承認されたことがある顧客は、将来も不履行する可能性が高いため、不履行率が高くなります。」

Claude 3.5の回答:OK

「直近3年間に新規顧客として過去ローン申込のレコードがある顧客は、比較的信用履歴が浅いと考えられます。信用履歴が短いため、返済能力や信用度の正確な評価が難しく、結果として不履行リスクが高くなります。長期的な返済実績がないため、予期せぬ経済的困難に直面した際の対応力も未知数であり、不履行率の上昇につながっています。」

GPT-4oとClaude 3.5は、ともに「新規顧客」という点を重視し、信用履歴の短さや評価の難しさを指摘しています。これは、金融機関が新規顧客のリスクを評価する際の一般的な考え方と一致しており、妥当なビジネス仮説と考えられます。一方で、Llama 3.1の回答は、GPT-4oやClaude 3.5とは異なり、過去のローン申し込みが承認されたことがある顧客は、将来も不履行する可能性が高いと述べています。この点は、一般的な考え方とは逆であり、違和感があります。

上記のようなビジネス仮説立案を10パターン実施し、違和感のあった回答数の比較を以下に示します。

GPT-4oLlama 3.1Claude 3.5
違和感のある回答数0/103/101/10

この結果から、精度の面ではGPT-4oとClaude 3.5が優位であることが伺えます。一方で、Llama3.1は、特徴量のビジネス解釈という本アプリケーションでは、他のLLMと比較して違和感のある回答が多い傾向にあります。

速度

1回のビジネス仮説立案生成にかかる時間の比較を以下に示します。

GPT-4oLlama 3.1Claude 3.5
応答時間(秒)1.96.65.8

3つのLLMの速度を比較した結果、GPT-4oが最も高速で、応答時間は1.9秒でした。Claude 3.5は5.8秒、Llama3.1は6.6秒でした。この結果から、GPT-4oは他の2つのモデルと比較して、応答速度において優位性があることがわかります。

コスト

10パターンのビジネス仮説立案生成にかかったコストの比較を以下に示します。

GPT-4oLlama 3.1Claude 3.5
料金(ドル)0.065 ※10.15 ※20.069 ※1

※1 GPT-4oはOpenAIの料金(参照元)、Claude 3.5はAWS Bedrock アジアパシフィック(東京)リージョンでの料金(参照元)で計算されています。
※2 Llama 3.1は、AWSのアジアパシフィック(東京)リージョンで、 g5.12xlarge インスタンスを使い動作させた料金(参照元)で、vLLMの起動やモデルのロード時間を除き、純粋に推論のみにかかった時間での金額での算出です。

コストの観点から3つのLLMを比較した結果、GPT-4oとClaude 3.5が料金面で優位であることがわかります。GPT-4oは10リクエストあたり0.065ドル、Claude 3.5は0.069ドルで利用できます。一方、Llama 3.1は10リクエストあたり0.15ドルと、他の2つのモデルと比較してコストが高くなっています。

また、Llama 3.1は自己ホストで評価したため、インスタンスの稼働時間に対して料金が発生します。リクエストを処理していない時間も金額がかかり続けるため、ある程度以上のリクエスト数が見込めなければ、コスト効率がさらに悪くなる可能性があります。GPT-4oとClaude 3.5は、API経由での利用となるため、利用トークン数に応じた従量課金制です。そのため、Llama 3.1と比較して、無駄なコストが発生しにくく、コスト効率が良いと言えます。

セキュリティ

閉塞網での利用や、日本リージョンでの利用の可否の比較を以下に示します。

GPT-4oLlama 3.1Claude 3.5
閉塞網での利用不可
日本リージョンでの閉塞網での利用不可

Llama 3.1は自己ホストが可能であるため、閉塞網での利用や日本リージョンでの利用が可能です。また、Claude 3.5はAWS内において日本リージョンを含め、閉塞網での利用が可能です。一方、OpenAIのGPT-4oは、インターネット経由のアクセスとなるため、閉塞網での利用ができません。(AzureOpenAIを使うことで、Azure内での閉塞網での利用が可能ですが、特に日本リージョンでは閉塞網での利用が現在できません。日本リージョンで利用可能なGPT-4oはグローバル標準モデルであるため、データが他のリージョンに転送される可能性があります。参照元

キャパシティ

TokenやAPIアクセス数に対する制限に関する比較を以下に示します。

GPT-4oLlama 3.1Claude 3.5
1分間のリクエスト数10K ※1無し ※220 ※3
1分間のトークン数2M ※1無し ※2200K ※3

※1 OpenAI tier4 organizationでの上限値。(参照元
※2 自己ホストのため制限はありませんが、リクエスト数やトークン数が増えると応答時間が長くなるため、1台のマシンで処理できるリクエスト数には実質的に上限が存在します。dotData Insightのビジネス仮説立案は、同時3リクエストで応答時間が10秒を超えてきており、リアルタイム性を考慮すると同時3リクエスト程度がg5.12xlarge(1台)の実質的なキャパシティーと考えられます。
※3 AWS Bedrock アジアパシフィック(東京)リージョンでの上限値。(参照元

キャパシティの観点から3つのLLMを比較した結果、GPT-4oは1分間のリクエスト数とトークン数において、Claude 3.5よりも大きなキャパシティを持つことがわかります。ただし、OpenAIは閉塞網で利用できないことに注意が必要です。一方、Claude 3.5は、日本を含め閉塞網で利用可能ですが、特に日本では1分間のリクエスト数が20、トークン数が200Kと上限が小さいことに注意が必要です。Llama 3.1は自己ホストのため、リクエスト数やトークン数に制限はありませんが、リクエスト数の増加に伴い応答時間が長くなるため実質的な上限は存在します。(※2参照)

5. 結論

現時点では、精度・速度・コスト・セキュリティ・キャパシティのいずれにおいても、単一のLLMがすべてを圧倒する状況には至っていないため、利用目的やビジネス要件に応じて複数のモデルを使い分けることが重要と考えられます。特に、金融や医療などの高度なセキュリティ要件が求められる分野では自己ホスト型のLLMを選択する価値が高い一方、短期的な開発スピードや柔軟性が必要とされる場合にはクラウドサービス型のLLMが有効です。

dotDataでも、各製品がOpenAIやBedrockなど複数のモデルを切り替えられるように整備しており、ユーザーが自社の要件に最適なLLMを選択できるようにし、高い精度を要する場合、コストを抑えたい場合、あるいはセキュアな閉塞網での利用が必須の場合など、多種多様なニーズに対応しています。今後は、モデル自体の性能向上だけでなく、リージョンやAPIアクセスの選択肢も増えていくことが予想されるため、最適なLLMを選択するプロセスはより複雑化していくかもしれません。しかし、その分だけビジネスでの活用可能性は広がると考えられ、AIの利活用が一層進む未来に備えて、継続的なモニタリングと評価を実施することが重要です。

Hiroshi Tamano, Ph.D.
Hiroshi Tamano, Ph.D.

これまでAI、機械学習分野の研究に従事し、2021年からdotDataに参加。 現在は、製品dotData Insightの分析コア技術のTechリードとして分析技術の開発を牽引。 統計科学博士。

dotDataのAIプラットフォーム

dotData Insight 業務部門が自ら洞察を導き出す

dotData Insightは、事業部門が主役のビジネスアナリティクスを実現する革新的なデータ分析プラットフォームです。業務データに隠れたパターン(特徴量)を、BIツールのような直感的で使いやすいインターフェースを通じて提供します。dotData独自のAIが解析するデータの特徴を、生成AIの「世界知識」で補完し、実用的なビジネス仮説を生み出します。この融合により、業務部門は、データの洞察を直感的に理解し、新しいビジネス仮説を立て、戦略立案や施策実行をより効果的に行うことができます。

dotData Feature Factory 特徴量をアセット化し全てのAI/BIを強化

dotData Feature Factoryは、データサイエンティストやIT部門が、企業がキュレーションされたデータ(すなわち特徴量)を開発するために、データ加工に関するノウハウを再利用可能なアセットとして蓄積する仕組みを提供します。データ中心に構築される特徴量空間から、アルゴリズムによってデータに隠れたパターン(特徴量)を発見し、特徴量発見のスピードと効率、再利用性と再現性、専門家間の連携、品質と透明性を向上させます。dotData Feature Factoryは、機械学習モデルによる予測、ビジネスインテリジェンス(BI)によるデータ可視化、或いはマーケティングオートメーションのような、全てのデータアプリケーションを強化します。