Ultralytics YOLOで画像分類を発見:最先端のツールを使ってヘルスケア、農業、小売業などのカスタムモデルをトレーニング。
画像分類はコンピュータビジョン(CV)の基本的なタスクであり、あらかじめ定義されたカテゴリセットから画像全体に単一の特定のラベルを割り当てることを含む。主な目的は、画像の主な対象を特定し、それに応じて分類することである。例えば、分類モデルは画像を分析し、"猫"、"犬"、"車 "といったラベルを出力する。このタスクは、より複雑な多くのCVアプリケーションの基礎を形成し、機械学習(ML)のコアコンポーネントである。このプロセスは、大規模なラベル付きデータセットから識別特徴を学習するアルゴリズム、特に畳み込みニューラルネットワーク(CNN)に依存している。
画像分類モデルは教師あり学習を使って訓練され、すでに正しいクラスが手動でラベル付けされた膨大な数の画像が与えられる。学習中、ニューラルネットワークは各カテゴリーに関連するパターン、テクスチャー、形状、色の組み合わせを識別するように学習する。この学習はバックプロパゲーションと呼ばれるプロセスによって達成され、予測値と実際のラベルの差を最小化するためにモデルの内部パラメータ(重み)を調整する。
最近の分類モデルは、多くの層を持つディープラーニングアーキテクチャを使用していることが多い。初期のレイヤーは、エッジや角のような単純な特徴を認識するように学習し、より深いレイヤーは、目、車輪、顔のような、より複雑な構造を識別するためにこれらを組み合わせる。ネットワークの最終層は通常、ソフトマックス関数を使用して、可能性のある各クラスの確率スコアを生成する。最も高い確率を持つクラスが最終的な予測として選ばれる。このプロセスの鍵は特徴抽出であり、モデルが分類タスクに最も有益な特徴を自動的に学習する。
画像分類は、視覚認識作業を自動化し、規模を拡大するために、多くの産業で使用されている。2つの顕著な例がある:
他のコンピュータ・ビジョン・タスクと密接に関連しているが、画像分類には明確な目的がある。それと区別することが重要である:
要約すると、分類は画像に何が写っているかを示し、検出は何が どこに写っているかを示し、セグメンテーションはシーン内のすべてのものの詳細なピクセルレベルのマップを提供する。
オブジェクト検出で有名なUltralytics YOLOモデルは、画像分類タスクにも優れています。YOLO11のような最先端のモデルは、直感的なUltralytics Pythonパッケージやコード不要のUltralytics HUBプラットフォームを使って、カスタムデータセット上で簡単にトレーニングや微調整ができます。
YOLO11のドキュメントには、モデルトレーニングのヒントや、画像分類のためのYOLO11の使い方の詳細なガイドなど、豊富なリソースが用意されています。開発者は、ImageNet、CIFAR-100、Caltech-101のようなベンチマークデータセットで事前にトレーニングされたモデルを活用したり、ゼロから新しいモデルをトレーニングすることができます。最新の進歩に興味のある方には、Papers With Codeのようなリソースが、トップパフォーマンスモデルの包括的な概要を提供しています。また、標準的なベンチマークでYOLOモデルのパフォーマンスを比較することもできます。PyTorchや TensorFlowのようなフレームワークは、これらのモデルを構築しトレーニングするための基盤を提供します。