用語集

データ・ドリフト

機械学習におけるデータドリフトの種類、原因、解決策をご紹介します。堅牢なAIモデルのためにデータドリフトを検出し、緩和する方法を学びます。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

データ・ドリフトは機械学習(ML)において一般的な課題であり、モデルの訓練に使用される入力データの統計的特性が、生産時や推論時にモデルが遭遇するデータと比較して時間の経過とともに変化する。この乖離は、学習中にモデルが学習したパターンが、もはや実世界の環境を正確に表していない可能性があることを意味し、パフォーマンスと精度の低下につながります。データのドリフトを理解し管理することは、人工知能(AI)システム、特に自律走行車や金融予測のような動的な状況で動作するシステムの信頼性を維持するために不可欠です。

データ・ドリフトが重要な理由

データ・ドリフトが発生すると、過去のデータに基づいてトレーニングされたモデルは、新しい未知のデータに対する予測の効率が低下します。このようなパフォーマンスの低下は、意思決定の誤り、ビジネス価値の低下、または機密性の高いアプリケーションにおける重大な障害を引き起こす可能性があります。例えば、物体検出用にトレーニングされたモデルは、照明条件やカメラアングルがトレーニングデータから大きく変化すると、物体を見逃すようになるかもしれません。ドリフトを早期に検出し、Ultralytics HUBのようなプラットフォームを使用してモデルの再トレーニングや更新などの修正アクションを実行し、パフォーマンスを維持するためには、モデルの継続的なモニタリングが重要です。データのドリフトを無視すると、次のような洗練されたモデルでさえもすぐに壊れてしまいます。 Ultralytics YOLOのような洗練されたモデルであっても、すぐに陳腐化してしまいます。

データ・ドリフトの原因

データ・ドリフトにはいくつかの要因がある:

  • 現実世界での変化:外部イベント、季節性(例:休日のショッピングパターン)、またはユーザー行動のシフトは、データ分布を変更する可能性があります。
  • データソースの変更:データ収集方法、センサーの較正、または上流のデータ処理パイプラインの変更は、ドリフトを引き起こす可能性がある。例えば、コンピュータビジョンシステムのカメラハードウェアの変更。
  • 特徴の変化:入力フィーチャの関連性や定義は、時間の経過とともに変化する可能性がある。
  • データの質の問題:欠損値、外れ値、データ収集や処理中に生じたエラーなどの問題が蓄積し、ドリフトを引き起こす可能性がある。データ品質を維持することが最も重要である。
  • 上流モデルの変更:あるモデルが他のモデルの出力に依存している場合、上流モデルの変更が下流モデルのデータドリフトを引き起こす可能性がある。

データ・ドリフトと関連概念

データ・ドリフトとは、主に入力データの分布の変化に関するものである。 X モデリングにおける変数)。関連概念とは区別される:

  • コンセプト・ドリフト これは人間関係の変化を指す。 入力データとターゲット変数 Y 変数)。例えば、電子メールの特徴自体は統計的に類似していたとしても、スパムメールの定義は時間の経過とともに変化する可能性があります。データドリフトはインプットに焦点を当てますが、コンセプトドリフトはモデルが予測しようとする基本的なパターンやルールに焦点を当てます。さらに詳しく コンセプト・ドリフト検出.
  • 異常検知これは、標準または予想されるパターンと著しく異なる個々のデータポイントを特定することを含む。異常は時にドリフトを示すが、データ・ドリフトとは、孤立した異常値だけでなく、データ分布全体のより広範で体系的な変化を指す。

これらの違いを理解することは、効果的なMLOpsを実践する上で極めて重要である。

実世界での応用

データ・ドリフトは、MLモデルが展開される様々な領域に影響を与える:

  • 金融サービス詐欺師が新たな手口を開発するにつれて、詐欺検知モデルがドリフトする可能性がある。信用スコアリング・モデルは、借り手の行動に影響を与える経済状況の変化により、ドリフトする可能性がある。金融におけるコンピュータ・ビジョン・モデルについて読む。
  • 小売業とEコマース: レコメンデーション・システムは、消費者トレンドの変化、季節性、プロモーション・イベントなどの影響を受ける可能性がある。サプライチェーンの力学や顧客の需要パターンが変化すれば、在庫管理モデルも変化する可能性がある。
  • ヘルスケア 腫瘍検出に使用されるような医療画像解析用のモデルは、新しい画像処理装置やプロトコルが導入されるとドリフトする可能性があり、Imagenetのようなプラットフォームから取得した元のトレーニングデータセットと比較して画像の特性が変化します。
  • 製造:機器の摩耗や破損が予想と異なったり、運転条件が変わったりすると、予知保全モデルがずれる可能性がある。製造業におけるAIを探る。

データドリフトの検出と緩和

データ・ドリフトの検出と対処には、いくつかのテクニックが必要である:

  • パフォーマンスのモニタリング: 精度リコールF1スコアなどの主要なモデル・メトリクスを経時的に追跡することで、ドリフトによって引き起こされる可能性のあるパフォーマンス劣化を示すことができます。TensorBoardのようなツールは、これらのメトリクスを可視化するのに役立ちます。
  • 統計的モニタリング:統計的検定を適用して、入力データとトレーニングデータの分布を比較すること。一般的な方法には、コルモゴロフ・スミルノフ検定、母集団安定度指数(PSI)、カイ二乗検定などがある。
  • モニタリングツール: PrometheusGrafanaEvidently AINannyMLのような観測可能性に特化したプラットフォームやツールを活用し、本番環境でMLモデルを監視するために設計されている。また、Ultralytics HUBは、同社のプラットフォームを通じてトレーニングされデプロイされたモデルを監視するための機能も提供している。
  • 緩和戦略:
    • 再トレーニング:最近のデータでモデルを定期的に再トレーニングします。Ultralytics HUBは再トレーニングのワークフローを容易にします。
    • オンライン学習:新しいデータが到着すると、モデルを段階的に更新する(ノイズの影響を受けやすいので注意が必要)。
    • データの増強入力データの変動に対してモデルをよりロバストにするために、トレーニング中にテクニックを使用すること。
    • ドメイン適応:モデルを新しいデータ分布に明示的に適応させる技術を採用する。
    • モデルの選択:データの変化に対して本質的にロバストなモデルを選択する。ロバストトレーニングのためのモデルトレーニングのヒントを探る。

データのドリフトを効果的に管理することは、以下のようなフレームワークで構築されたAIシステムを確実に稼働させるために不可欠なプロセスです。 PyTorchまたは TensorFlowのようなフレームワークで構築されたAIシステムの信頼性を維持し、運用期間を通じて価値を提供するために不可欠な継続的プロセスです。

すべて読む