グリーンチェック
クリップボードにコピーされたリンク

Ultralytics YOLO11 従来のYOLO モデルの比較

Ultralytics YOLOv8、YOLOv9、YOLOv10、Ultralytics YOLO11 比較し、これらのモデルが2023年から2025年にかけてどのように進化・改善したかを理解する。

日常業務の自動化から、リアルタイムで情報に基づいた意思決定の支援まで、人工知能(AI)は様々な産業の未来を再構築している。AIの中でも特に魅力的な分野のひとつが、ビジョンAIとして知られるコンピューター・ビジョンだ。これは、機械が人間のように視覚データを分析・解釈できるようにすることに焦点を当てている。 

具体的には、コンピュータ・ビジョン・モデルは、安全性と効率性の両方を高めるイノベーションを推進している。例えば、これらのモデルは、歩行者を検知する自動運転車や、24時間体制で敷地内を監視する監視カメラに使用されている。 

最もよく知られているコンピュータビジョンモデルには、YOLO (You Only Look Once)モデルがあり、リアルタイムの物体検出能力で知られている。時が経つにつれてYOLO モデルは改良され、新しいバージョンが出るたびに性能が向上し、柔軟性が増しています。

新しいバージョン Ultralytics YOLO11は、インスタンスのセグメンテーション、画像分類、姿勢推定、複数オブジェクトの追跡など、さまざまなタスクを、これまで以上に優れた精度、速度、精度で処理できる。

この記事では Ultralytics YOLOv8とYOLOv9、YOLOv10、Ultralytics YOLO11 比較し、これらのモデルがどのように進化してきたかを知る。それぞれの主な特徴、ベンチマーク結果、パフォーマンスの違いを分析します。さっそく始めよう!

Ultralytics YOLOv8概要

2023年1月10日にUltralytics 社からリリースされたYOLOv8、以前のYOLO モデルと比べて大きな進歩を遂げた。リアルタイムで正確な検知を行うために最適化され、十分に検証されたアプローチと革新的なアップデートが組み合わされ、より良い結果をもたらしている。

物体検出だけでなく、インスタンス分割、ポーズ推定、OBB(Oriented bounding boxes)物体検出、画像分類などのコンピュータビジョンタスクもサポートしています。YOLOv8 8のもう一つの重要な特徴は、Nano、Small、Medium、Large、Xの5つの異なるモデルバリエーションが用意されていることである。

YOLOv8 、その汎用性と強力な性能により、セキュリティシステム、スマートシティ、ヘルスケア、産業オートメーションなど、実世界の多くのアプリケーションで使用することができる。

図1.YOLOv8スマートシティでの駐車場管理。

YOLOv88の主な特徴

YOLOv8その他の主な特徴を詳しく見てみよう:

  • 検出アーキテクチャの強化:YOLOv8 改良されたCSPDarknetバックボーンを使用している。このバックボーンは、特徴抽出(モデルが正確な予測を行うのに役立つ重要なパターンや詳細を入力画像から特定し、キャプチャするプロセス)に最適化されている。

  • 検出ヘッド:つまり、あらかじめ設定されたバウンディングボックス形状(アンカー)に依存せず、代わりにオブジェクトの位置を直接予測するように学習します。分離されたセットアップにより、物体が何であるかを分類するタスクと、物体がどこにあるかを予測する(回帰)タスクは別々に処理されるため、精度の向上と学習のスピードアップに役立ちます。

  • 精度とスピードのバランス:このモデルは、高速な推論時間を維持しながら驚異的な精度を達成しており、クラウド環境とエッジ環境の両方に適している。

  • ユーザーフレンドリー:YOLOv8 簡単に始められるように設計されており、Ultralytics Python パッケージを使って数分で予測を始め、結果を見ることができます。

YOLOv9は計算効率に重点を置く

YOLOv9は、台湾中央研究院情報科学研究所のChien-Yao WangとHong-Yuan Mark Liaoによって2024年2月21日にリリースされた。オブジェクト検出やインスタンス分割などのタスクをサポートしている。 

このモデルは Ultralytics YOLOv5をベースとし、2つの大きな革新を導入しています:プログラム可能な勾配情報(PGI)と一般化された効率的なレイヤー集約ネットワーク(GELAN)です。 

PGIは、YOLOv9がレイヤーを通してデータを処理する際に重要な情報を保持するのを助け、より正確な結果をもたらします。一方、GELANはモデルがレイヤーを使用する方法を改善し、パフォーマンスと計算効率を高めます。これらのアップグレードのおかげで、YOLOv9は、コンピューティング・リソースが制限されがちなエッジ・デバイスやモバイル・アプリでのリアルタイム・タスクを処理できる。

図2.GELANがYOLOv9の精度をどのように向上させるかを理解する。

YOLOv9の主な特徴

ここでは、YOLOv88のその他の主な機能の一部を垣間見ることができる:

  • 高い精度と効率:YOLOv9は、多くの計算能力を消費することなく高い検出精度を実現するため、リソースが限られている場合に最適な選択肢となる。
  • 軽量モデル:YOLOv9の軽量モデルのバリエーションは、エッジやモバイルの展開に最適化されています。
  • 使いやすい: YOLOv9はUltralytics Python パッケージでサポートされているため、コードでもコマンドラインでも、様々な環境で簡単にセットアップ、実行することができる。

YOLOv10はNMSフリーの物体検出を可能にする

YOLOv10は清華大学の研究者によって2024年5月23日に発表され、リアルタイムの物体検出に焦点を当てている。重複検出を排除するために使用される後処理ステップである非最大抑制(NMS)の必要性を削除し、全体的なモデル設計を改良することで、以前のYOLO バージョンの制限に取り組んでいる。その結果、最先端の精度を達成しながら、より高速で効率的な物体検出が可能になりました。

これを可能にする重要な部分は、一貫したデュアルラベル割り当てとして知られる学習アプローチである。これは2つの戦略を組み合わせたもので、1つは複数の予測を同じオブジェクトから学習させるもの(1対多)、もう1つは最良の1つの予測を選択することに重点を置くもの(1対1)である。どちらの戦略も同じマッチング・ルールに従うので、モデルはそれ自身で重複を避けるように学習するので、NMSは必要ない。

図3.YOLOv10は一貫したデュアルラベル割り当てをNMSなしトレーニングに使用する。

YOLOv10のアーキテクチャはまた、より効率的に特徴を学習するために改良されたCSPNetバックボーンと、異なるレイヤーからの情報を組み合わせるPAN(Path Aggregation Network)ネックを使用しており、小さな物体から大きな物体まで検出する能力が向上している。これらの改良により、YOLOv10を製造、小売、自律走行などの実際のアプリケーションに使用することが可能になった。

YOLOv10の主な特徴

YOLOv10のその他の目立った特徴は以下の通り:

  • ラージカーネル畳み込み: ラージカーネル畳み込み: このモデルはラージカーネル畳み込みを使用して、画像のより広い領域からより多くのコンテキストをキャプチャし、シーン全体をよりよく理解するのに役立ちます。
  • 部分的自己注意モジュール: このモデルは、部分的な自己注意モジュールを組み込むことで、計算パワーをあまり使わずに画像の最も重要な部分に焦点を当て、パフォーマンスを効率的に向上させる。
  • ユニークなモデルバリエーション: ナノ、スモール、ミディアム、ラージ、Xという通常のYOLOv10サイズに加えて、YOLOv10b(バランス)と呼ばれる特別バージョンもある。幅広のモデルで、各レイヤーでより多くの機能を処理するため、スピードとサイズのバランスを保ちながら精度を向上させることができる。
  • ユーザーフレンドリー:YOLOv10はUltralytics Python パッケージと互換性があり、使いやすい。

Ultralytics YOLO11:スピードと精度の向上

今年9月30日、Ultralytics 毎年恒例のハイブリッド・イベント「YOLO Vision 2024(YV24)」で、YOLO シリーズの最新モデルのひとつであるYOLO11 正式に発表した。

このリリースでは、以前のバージョンから大幅な改良が加えられた。YOLO11 、より速く、より正確で、非常に効率的です。YOLOv8 11では、物体検出、インスタンス分割、画像分類など、YOLOv8 ユーザーが慣れ親しんでいるコンピュータ・ビジョンのタスクをすべてサポートしています。また、YOLOv8 ワークフローとの互換性も維持されているため、ユーザーはスムーズに新バージョンに移行することができます。

その上、YOLO11 11は、軽量なエッジ・デバイスから強力なクラウド・システムまで、幅広いコンピューティング・ニーズを満たすように設計されている。このモデルは、オープンソース版とエンタープライズ版の両方が用意されており、さまざまなユースケースに適応できる。

医療用画像や人工衛星の検出のような精密作業だけでなく、自律走行車、農業、ヘルスケアなど幅広い用途に最適な選択肢である。

図4.Ultralytics YOLO11 使用してトラフィックを検出、カウント、追跡。

YOLO11主な特徴

その他、YOLO11ユニークな特徴をいくつか紹介しよう:

  • 高速で効率的な検出: YOLO11 、性能を損なうことなく最終予測層のスピードに焦点を当て、最小限のレイテンシで設計された検出ヘッドを搭載している。
  • 特徴抽出の向上:最適化されたバックボーンとネックアーキテクチャが特徴抽出を強化し、より正確な予測につながる。
  • プラットフォームを超えたシームレスな展開:YOLO11 、エッジデバイス、クラウドプラットフォーム、NVIDIA GPU上で効率的に動作するように最適化されており、さまざまな環境に適応します。

COCOデータセットによるYOLO モデルのベンチマーク

さまざまなモデルを検討する際、その特徴を見るだけで比較するのは必ずしも容易ではない。そこで登場するのがベンチマークです。すべてのモデルを同じデータセット上で実行することで、そのパフォーマンスを客観的に測定し、比較することができます。各モデルがCOCOデータセット上でどのようなパフォーマンスを発揮するか見てみましょう。

YOLO モデルを比較すると、各新バージョンは精度、スピード、柔軟性に関して顕著な改善をもたらしている。特にYOLO11mは、YOLOv8m22%少ないパラメータを使用するため、より軽量で高速な実行が可能となり、飛躍的な進歩を遂げました。また、サイズが小さいにもかかわらず、COCOデータセットでより高い平均精度(mAP)を達成している。この指標は、モデルがどの程度物体を検出し、ローカライズしているかを測定するもので、mAPが高いほど、より正確な予測を意味します。 

図5.COCOデータセットによるYOLO11 他のYOLO モデルのベンチマーク。

YOLO モデルをビデオでテストし比較する

これらのモデルが実際の状況でどのように機能するかを探ってみよう。

YOLOv8、YOLOv9、YOLOv10、YOLO11比較するために、信頼度スコア0.3(モデルは、物体を正しく識別できたと少なくとも30%確信が持てる場合にのみ検出を表示する)、公平な評価のために画像サイズ640を使用して、同じ交通ビデオで4つすべてを実行した。物体の検出と追跡の結果、検出精度、速度、精度の重要な違いが浮き彫りになりました。 

YOLO11 最初のフレームから、YOLOv10が見逃したトラックのような大型車両を捉えた。YOLOv8 YOLOv9はまずまずの性能を示したが、照明条件や物体の大きさによってばらつきがあった。小型で遠方の車両は、YOLO11 顕著な改善が見られたものの、どのモデルでも課題として残った。

図6. YOLOv8、YOLOv9、YOLOv10、YOLO11比較。

スピードに関しては、どのモデルも1フレームあたり10~20ミリ秒の間で動作し、50FPSを超えるリアルタイムタスクに対応するのに十分な速さだった。一方、YOLOv8 YOLOv9は、ビデオ全体を通して安定した信頼性の高い検出を提供した。興味深いことに、低遅延用に設計されたYOLOv10は、より高速であったが、特定のオブジェクトタイプの検出において、いくつかの矛盾が見られた。 

一方、YOLO1111は、スピードと正確さのバランスがよく、その正確さが際立っていた。どのモデルもすべてのフレームで完璧なパフォーマンスを発揮したわけではないが、横並びで比較した結果、YOLO11 総合的に最高のパフォーマンスを発揮したことは明らかだ。 

コンピュータ・ビジョンのタスクに最適なYOLO モデルは?

プロジェクトにどのモデルを選択するかは、そのプロジェクト固有の要件に依存する。例えば、スピードを優先するアプリケーションもあれば、より高い精度が要求されたり、展開の制約に直面したりするアプリケーションもあります。 

もう一つの重要な要素は、どのようなコンピュータビジョンタスクに取り組む必要があるかということです。さまざまなタスクに対してより幅広い柔軟性を求めるのであれば、YOLOv8 YOLO11 良い選択肢となる。

YOLOv8 YOLO11 どちらを選ぶかは、あなたのニーズ次第です。YOLOv8 、コンピュータ・ビジョンの初心者で、より大きなコミュニティ、より多くのチュートリアル、サードパーティとの幅広い統合を重視するなら、堅実な選択肢です。 

一方、より良い精度とスピードで最先端のパフォーマンスを求めるのであれば、YOLO11 方が良い選択だが、新しいリリースのためコミュニティが小さく、統合も少ない。

要点

Ultralytics YOLOv8 Ultralytics YOLO11、YOLO モデルシリーズの進化は、よりインテリジェントなコンピュータビジョンモデルへの一貫したプッシュを反映しています。YOLO 各バージョンは、スピード、正確さ、精度の面で有意義なアップグレードをもたらします。 

コンピュータ・ビジョンが進歩し続ける中、これらのモデルは、物体検出から自律システムまで、実世界の課題に対する信頼性の高いソリューションを提供している。YOLO モデルの継続的な開発は、この分野がどれほど進歩してきたか、そして今後どれほど多くのことが期待できるかを示している。

AIについてもっと知りたい方は、GitHubリポジトリをご覧いただき、私たちのコミュニティーにご参加ください。製造業におけるビジョンAIから ヘルスケアにおけるコンピュータビジョンまで、業界を超えた進歩を発見してください。今すぐビジョンAIプロジェクトを始めるために、ライセンスオプションをチェックしてください。

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう