dotData Feature Factory

データ中心の特徴量自動設計がデータサイエンスを革新する

dotData Py AutoFE for Data Scientists

企業のデータを変革

dotData Feature Factoryは、企業のデータサイエンスチームがキュレーションされたデータ(すなわち特徴量)を開発するために、データ加工に関するノウハウを再利用可能なアセットとして蓄積する仕組みを提供し、企業におけるデータの扱い方を根本的に変えるものです。データ中心に自動構築される特徴量空間から、アルゴリズムによってデータに隠れたパターン(特徴量)を発見し、特徴量発見のスピードと効率、再利用性と再現性、専門家間の連携、品質と透明性を向上します。dotData Feature Factoryは、企業データにおけるサイロ(縦割り構造)を破壊し、データから最大限の価値を引き出します。

Prepare Tables as. Data Frames
ステップ1

データを「データフレーム」として準備する

データを「データフレーム」として準備する

複数のデータソース、データレイク、データウェアハウスに接続し、データフレームとしてデータを読み込み

  • クラウドのデータストレージ(Amazon Redshift、Google Big Query、Snowflake、MS Azure Synapseなど)、データウェアハウス(Oracle、Teradata、MS SQL Server)、ローカルファイルからPythonのデータフレームとしてデータをロード
  • データ型の自動検出とデータスキーマの自動推論 
  • データフレーム間の関係(分析エンティティ・リレーション)を定義し、複数テーブルを接続
  • 時間方向に特徴量を探索するためには、時間エンティティ・リレーションを利用
Run Feature Factory
ステップ2

dotData Feature Factoryを実行する

ターゲット変数と特徴量の探索元となる(複数の)ソーステーブルを指定し、dotData Feature Factoryを実行

  • 不正な値や外れ値の処理、データの正規化、欠損値、ターゲットラベルのマッピングの誤りなど、データを自動的にクレンジング
  • dotData独自のアルゴリズムに基づいて数値、カテゴリ、時系列、テキスト、空間データから、数百万もの特徴量仮説を生成・探索し、特徴量の過学習、共線性、ドリフト、冗長性などの問題を解決
  • 特徴量空間と探索基準をカスタマイズし、独自のドメイン特徴量を追加
Gain Insights
ステップ3

特徴量とインサイトを発見する

特徴量を繰り返し、探索的に評価

  • 特徴量のリーダーボードにより、ターゲット変数と最も関連性が高く、安定した特徴量を確認
  • 自動生成された特徴量の説明文により、各特徴量の意味を定性的に理解
  • 相関係数、特徴量ごとのAUC、特徴量重要度、局所性などに基づいて、特徴量を定量的に理解
  • 特徴量テーブルをデータフレームとして抽出し、組み込みの可視化ツールまたは任意のPython可視化ライブラリを使用して各特徴量を可視化
Extract Features
ステップ4

特徴量の抽出と検証を繰り返す

dotData Feature Factoryを用いて特徴量をさまざまな角度から繰り返し抽出し、高品質かつ高次の特徴量を発見

  • 発見した特徴量を、ドメイン知識に合うように書き換えカスタマイズ
  • データを追加して、新たな実験を実行。複数の実験から得られた特徴量を組み合わせ
  • すべてのデータ変換の手順と特徴量空間の詳細がブラックボックス化されることなく確認可能
  • モジュール化された実行により、任意のステップから実験を開始し、検証を繰り返す
Feature Pipeline
ステップ5

特徴量を本番環境に展開する

本番のアプリケーションで使われる特徴量を生成・蓄積し、継続的にアップデート

  • 特徴量とその説明文、メトリック、スキーマを、Databricks、Snowflake、AWS SageMakerなどの特徴量ストアへとエクスポート
  • 特徴量パイプラインを自動生成し、手動の特徴量クエリの実装が不要
  • 特徴量パイプラインをワンコマンドでdotData Opsに展開し、最新のデータで特徴量を再計算し、特徴量の品質とドリフトを監視することで、特徴量の品質を確保

Databricks

dotData Feature Factoryを、Databricksの機械学習ワークベンチへ統合

Azure Synapse

dotData Feature FactoryをAzure Synapse上に展開して特徴量を探索

Amazon EMR

dotData Feature FactoryをAmazon EMRをバックエンドとしてスケーラブルに実行

Pip Install

dotData Feature Factoryをpipインストール。ノートパソコン上でも動作

三井住友銀行どのようにして導き出される特徴量を100倍に増やしたのか

世界最大の銀行の1つである三井住友銀行は、特徴量設計への投資を検討していました。そして、投資の費用対効果を最大限まで高めたいと考えていたことから、dotDataの採用に至りました。その結果、導き出される特徴量の数が年間2,000個から200万個まで増加しました。三井住友銀行で何を具体的に行ったのかについては、 ケーススタディからご確認いただけます。

read-the-report@2x

特長

マルチソース、マルチテーブルの特徴量設計

様々なデータソースに接続して、特徴量空間を拡張し、複数表からの特徴量の抽出を可能に

SQL不要

dotData Feature Factoryは、SQLを記述することなく、複雑な特徴量を自動探索・生成し、データサイエンティストの作業を大幅に効率化

データ加工の自動化

時間がかかり、ミスの発生しやすいデータ加工を、分析データベースに手順として記述し、自動のデータクレンジングによってデータ準備を自動化

時系列特徴量

ラグ、周期性、イベントなど、多次元の時間特徴量を、データリークを自動的に防止しながら探索

特徴量設計を再利用可能なアセット化

データ加工と特徴量変換の全てのステップを分析データベースへ記録し、特徴量に関する「ノウハウ」を再利用可能なアセットとして蓄積

企業のビッグデータに対応

dotData Feature Factoryは数十のテーブル、数千のカラム、数十億のレコードを持つ、企業のビッグデータに対応

インサイトと説明可能性

特徴量の説明文やリーダーボードによって提供される定性的・定量的な情報が特徴量の透明性と説明性を保証し、ビジネスの洞察を導き出す

本番品質での特徴量パイプライン

複数のソーステーブルから特徴量を生成するためのパイプラインを、本番品質で自動生成