用語集

アクティブ・ラーニング

少ないラベルで精度を向上させる、費用対効果の高い機械学習手法、能動学習をご覧ください。AIトレーニングにどのような変化をもたらすかをご覧ください!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

能動学習は機械学習(Machine Learning:ML)の中の特殊なサブフィールドであり、学習アルゴリズムが、しばしば「オラクル」または人間のアノテータと呼ばれるユーザに対して、新しいデータポイントのラベルを要求するための対話的なクエリを行う権限を与えられている。事前にラベル付けされた大規模なデータセットに依存する従来の教師あり学習とは異なり、能動学習は、最も情報量の多いラベル付けされていないインスタンスを戦略的に選択して注釈を付けることにより、最小限のラベル付け作業で高いモデル性能を達成することを目的としている。このアプローチは、ラベル付けされたデータの取得にコストがかかる、時間がかかる、あるいは専門家の知識が必要であるような領域において特に有用である。

アクティブ・ラーニングの仕組み

アクティブ・ラーニングのプロセスは、通常、反復サイクルに従う:

  1. 初期トレーニング:モデル、例えば Ultralytics YOLOのようなモデルは、最初にラベル付けされた小さなデータセットで学習される。
  2. クエリ:現在学習済みのモデルは、ラベル付けされていないデータのプールを分析し、特定のクエリー戦略を使用して、最も有益または不確実であると考えられるデータポイントを選択する。
  3. 注釈:これらの選択されたデータポイントは、ラベリングのために人間のアノテーター(オラクル)に提示される。ここでは効果的なデータ収集とアノテーションの実践が重要である。
  4. 再トレーニング:新たにラベル付けされたインスタンスが学習セットに追加される。
  5. 反復:モデルは拡張されたラベル付きデータセットで再学習され、このサイクル(ステップ2-5)は、所望の精度レベルに達するか、ラベリングバジェットを使い果たすか、性能向上の収穫逓増を観察するなどの停止基準が満たされるまで繰り返される。

クエリー戦略

アクティブ・ラーニングの核心は、クエリー戦略(次にクエリーするラベル付けされていないデータ・ポイントを選択する方法)にある。一般的な戦略は以下の通りである:

  • 不確実性サンプリング:モデルが予測に最も自信のない事例を選択すること。これはおそらく最も一般的な戦略である。詳細は、Burr Settlesによるこのような学術的な調査にあります。
  • クエリー・バイ・コミッティー(QBC):複数のモデル(委員会)をトレーニングし、委員会メンバーが予測について最も意見が一致しないインスタンスを選択する。
  • 期待されるモデル変化:ラベルがわかっている場合に、モデルパラメータに最も大きな変化をもたらすであろうインスタンスを選択する。

関連性とメリット

アクティブ・ラーニングは、MLモデル開発の大きなボトルネックとなりがちなデータ・ラベリングの負担を大幅に軽減します。最もインパクトのあるデータポイントにアノテーションを集中させることで、チームは以下のことが可能になります:

  • 大幅に少ないラベル数で、同等またはそれ以上のモデル性能を実現。
  • 専門家によるアノテーションにかかるコストを削減
  • モデル開発のライフサイクルをスピードアップ。
  • 困難な例や曖昧な例に焦点を当てることで、よりロバストなモデルを構築する。

実世界での応用

アクティブ・ラーニングは様々な分野で応用されている:

  1. 医療画像解析: 医療画像における腫瘍検出のようなタスクにおいて、能動学習システムは放射線科医に最も曖昧なX線やMRIスキャンを提示することができ、専門家の時間の価値を最大化し、診断AIの開発を加速させる。これは、ヘルスケアAIソリューションの改善にとって極めて重要である。
  2. 自然言語処理(NLP): センチメント分析や名前付きエンティティ認識のようなタスクの場合、アクティブラーニングは不確実なテキストスニペット(ソーシャルメディアの投稿やカスタマーレビューなど)を人間のレビュー用に選択することができ、ランダムにデータをサンプリングするのに比べ、少ない手動ラベリングでモデルのパフォーマンスを急速に向上させることができます。

アクティブ・ラーニングと関連概念

  • 教師あり学習:完全にラベル付けされた既存のデータセットに完全に依存する。学習中にラベリングするデータを対話的に選択することはない。
  • 半教師あり学習:ラベル付けされたデータとラベル付けされていないデータの両方を使用するが、通常、特定のラベルを積極的に問い合わせるのではなく、データの構造に関する仮定(クラスタリングや多様体仮定など)に基づいて、ラベル付けされていないデータを自動的に活用する。詳細は「半教師あり学習」の用語解説を参照。
  • 強化学習:環境との試行錯誤的な相互作用を通じて、報酬やペナルティを受け取りながら学習する。アクティブ・ラーニングのように効率的なデータ・ラベリングではなく、最適な行動の学習に重点を置く。強化学習については、用語集をご覧ください。

ツールと実装

アクティブラーニングの実装には、MLモデルをアノテーションツールと統合し、データワークフローを管理する必要がある。以下のようなプラットフォーム DagsHubのようなプラットフォームは、彼らのYOLO VISION 2023の講演で議論されたように、能動学習パイプラインを構築するためのツールを提供している。Label Studioのようなアノテーションソフトウェアは、これらのパイプラインに統合することができる。データセットと学習済みモデルを効率的に管理することは非常に重要であり、Ultralytics HUBのようなプラットフォームは、開発サイクル全体を通してデータセットと モデルを整理するためのインフラを提供する。

すべて読む