少ないラベルで精度を向上させる、費用対効果の高い機械学習手法、能動学習をご覧ください。AIトレーニングにどのような変化をもたらすかをご覧ください!
能動学習は機械学習(Machine Learning:ML)の中でも特殊なサブフィールドであり、学習アルゴリズムが、しばしば「オラクル」またはヒューマンアノテーターと呼ばれるユーザーに、新しいデータポイントのラベルを要求するために対話的に問い合わせを行うことができる。一般的に事前にラベル付けされた大規模なデータセットを必要とする従来の教師あり学習とは異なり、能動学習は、大幅に少ないラベル付け作業で高いモデル性能を達成することを目的としている。これは、最も情報量の多い未ラベルのインスタンスを戦略的に選択してアノテーションを行うことで実現される。このアプローチは、医療画像解析や複雑な自然言語処理(NLP)タスクのように、ラベル付きデータの取得にコストがかかり、時間がかかり、専門的な知識が必要な領域で特に有用である。核となる考え方は、モデルにデータラベリングプロセスをガイドさせることであり、モデルの精度を向上させるために最もインパクトのあるところに人間の労力を集中させることである。
アクティブ・ラーニングのプロセスは、一般的に反復サイクルに従うため、対象となるデータによってモデルを段階的に改善することができる:
アクティブラーニングの有効性は、クエリー戦略(ラベル付けされていないデータポイントの中から、次にラベル付けすべきものを選択するためのアルゴリズム)に大きく依存する。目標は、一度ラベル付けされれば、モデル性能の最大の改善につながる可能性が高いサンプルを選択することである。一般的な戦略には以下が含まれる:
ストラテジーの包括的な概観は、バー・セットルズ氏のアクティブ・ラーニング文献調査などのリソースで見ることができる。
アクティブラーニングは、ロバストなディープラーニング(DL)モデル開発の大きなボトルネックとなりがちなデータラベリングに関連する負担とコストを大幅に削減します。アノテーション作業を戦略的に集中させることで、チームは以下のことが可能になります:
能動学習は、ラベル付けされたデータが制約となる様々な分野で応用されている:
アクティブ・ラーニングを、同じくラベルなしデータを利用する他の学習パラダイムと区別することは重要だ:
能動学習の実装には、MLモデルとアノテーションツールの統合やデータワークフローの管理が含まれることが多い。scikit-learnのようなフレームワークやライブラリはいくつかの機能を提供するが、特定のタスクに特化したライブラリも存在する。Label Studioのようなアノテーションソフトウェアは、能動学習パイプラインに統合することができ、アノテーターがクエリされたサンプルにラベルを提供することを可能にする。以下のようなプラットフォーム DagsHub DagsHub Active Learning Pipelinesに関するYOLO VISION 2023の講演で述べられているように、 DagsHub ようなプラットフォームは、このようなパイプラインを構築・管理するためのツールを提供している。進化するデータセットと学習済みモデルの効果的な管理は非常に重要であり、Ultralytics HUBのようなプラットフォームは、開発ライフサイクルを通じてこれらの資産を整理するためのインフラを提供します。Ultralytics GitHubリポジトリを探索し、高度なML技術の実装に関する議論やリソースのためにUltralytics コミュニティに参加してください。