用語集

アクティブ・ラーニング

少ないラベルで精度を向上させる、費用対効果の高い機械学習手法、能動学習をご覧ください。AIのトレーニングをどのように変えるかをご覧ください!

能動学習は、機械学習(ML)における特殊な学習手法であり、学習アルゴリズムが新しいデータポイントにラベルを付けるために、ユーザーや他の情報源(「オラクル」)に対話的に問い合わせることができる。核となる考え方は、モデルが学習するデータを選択できれば、少ない学習データでより高い精度を達成できるというものである。これは、データのラベリングにコストがかかったり、時間がかかったり、専門家の知識が必要だったりするような領域では特に価値がある。データセット全体を一度にラベリングする代わりに、能動学習では最も「有益な」サンプルを優先的にラベリングするため、モデルの学習プロセスがはるかに効率的になる。

アクティブ・ラーニングの仕組み

アクティブ・ラーニングのプロセスは循環的で、しばしばヒューマン・イン・ザ・ループのワークフローと表現される。通常、次のようなステップを踏む:

  1. 初期モデルのトレーニングUltralytics YOLO11検出器のようなモデルは、最初にラベル付けされた小さなデータセットでトレーニングされます。
  2. ラベルなしデータの照会:部分的に学習されたモデルは、ラベル付けされていない大規模なデータプールに対して予測を行うために使用される。これらの予測に基づいて、モデルは最も「不確実」なサンプルのサブセットを選択する。
  3. 人間の注釈:これらの不確かなサンプルは人間の専門家(オラクル)に提示され、正しいラベルを提供する。
  4. データセットの拡張:新たにラベル付けされたサンプルがトレーニングセットに追加される。
  5. 再トレーニング:モデルは更新されたより大きなデータセットで再トレーニングされる。このサイクルは、モデルの性能が望ましい閾値に達するか、ラベリング予算がなくなるまで繰り返される。

このプロセスの鍵はクエリー戦略にある。一般的な戦略には、不確実性サンプリング(モデルが最も自信のないインスタンスを選択する)、委員会別クエリー(複数のモデルを使用し、それらが不一致のインスタンスを選択する)、または期待されるモデル変化の推定が含まれます。これらの概要については、このアクティブラーニングの調査を参照してください。

実世界での応用

アクティブ・ラーニングは、専門家によるアノテーションがボトルネックとなっている専門分野では非常に効果的である。

  • 医用画像解析:医療スキャンからがんなどの病気を検出するためにAIをトレーニングする場合、何百万枚もの画像が利用できるかもしれないが、放射線科医の時間は限られている。ランダムな画像にラベル付けをさせる代わりに、能動学習システムは、最も曖昧なケースや稀なケースをピンポイントでレビューすることができる。これにより、専門家の労力を最も必要なところに集中させ、脳腫瘍検出のようなタスクのための高精度モデルの開発を加速させることができる。この分野の研究では、生物医学的画像セグメンテーションに関するこのような研究に詳述されているように、ラベリング作業の大幅な削減が示されている。
  • 自律走行自律走行車の知覚システムは、数え切れないほどの運転シナリオをカバーする膨大かつ多様なデータセットでトレーニングされなければならない。能動学習は、収集された走行データから、障害物に部分的に隠れた歩行者や異常気象など、現在の物体検出モデルが苦手とする「エッジケース」を特定することができる。これらの困難なシーンを優先的にアノテーションすることで、開発者はモデルの堅牢性と安全性をより効果的に向上させることができる。

アクティブ・ラーニングと関連概念

アクティブ・ラーニングを、同じくラベルなしデータを利用する他の学習パラダイムと区別することは重要だ:

  • 半教師付き学習:学習時にラベル付けされたデータとラベル付けされていないデータの両方を同時に使用する。能動学習とは異なり、特定のインスタンスに対して選択的にラベルを問い合わせるのではなく、利用可能なすべてのラベルなしデータを受動的に利用する。
  • 自己教師あり学習:ラベル付けされていないデータから、事前のタスク(例えば、画像のマスクされた部分を予測する)を作成することで表現を学習する。アクティブ・ラーニングがラベルのオラクルに依存するのに対し、事前学習段階では人間の注釈を必要としない。DeepMindはこの分野を幅広く探求してきた
  • 強化学習:環境との相互作用を通じて、試行錯誤しながら学習する。アクティブ・ラーニングのような明示的なラベルの問い合わせは行わない。
  • フェデレーテッド・ラーニング:データをローカルに保ちながら、分散化されたデバイス間でモデルをトレーニングすることに重点を置き、主にデータ・プライバシーの懸念に対処する。能動学習:効率的なラベル取得に焦点を当てる。これらの技術を組み合わせることもできる。

ツールと実装

能動学習を実装するには、MLモデルをアノテーションツールと統合し、データのワークフローを管理する必要がある。scikit-learnのようなフレームワークはいくつかの機能を提供するが、特定のタスクに特化したライブラリも存在する。Label Studioのようなアノテーションソフトウェアは、能動学習パイプラインに統合することができ、アノテーターがクエリされたサンプルにラベルを提供することができる。進化するデータセットと学習済みモデルの効果的な管理は非常に重要であり、Ultralytics HUBのようなプラットフォームは、開発ライフサイクルを通じてこれらの資産を整理するためのインフラストラクチャを提供します。高度なML技術の実装に関する詳細については、Ultralytics GitHubリポジトリをご覧ください。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク