グリーンチェック
クリップボードにコピーされたリンク

YOLO12の解説:実際のアプリケーションと使用例

最新のコンピュータビジョンモデル、YOLO12をご覧ください!アテンションセントリックアーキテクチャとFlashAttentionテクノロジーが、業界を超えた物体検出タスクをどのように強化するかをご覧ください。

コンピュータ・ビジョンは人工知能(AI)の一分野であり、機械が画像や映像を理解するのを助ける。AIの研究者や開発者は常に限界に挑戦しているため、この分野は驚くべきスピードで進歩している。AIコミュニティは常に、モデルをより速く、より賢く、より効率的にすることを目指している。最新のブレークスルーのひとつが、2025年2月18日にリリースされたYOLO (You Only Look Once)モデルシリーズの最新作、YOLO12だ。

YOLO12は、バッファロー大学、SUNY(ニューヨーク州立大学)、中国科学院大学の研究者によって開発された。ユニークな新しいアプローチとして、YOLO12は注意メカニズムを導入し、すべてを均等に処理するのではなく、画像の最も重要な部分に集中することを可能にしている。 

また、フラッシュアテンション(FlashAttention)という、より少ないメモリで処理を高速化する技術や、エリアアテンションメカニズム(area attention mechanism)も搭載しており、人間が自然に中心的な物体に集中する方法を模倣するように設計されている。

これらの改善により、YOLO12nはYOLOv10nより2.1%精度が向上し、YOLO12mはYOLO11mより+1.0%精度が向上した。YOLO12nはYOLOv10nより9%遅く、YOLO12mはYOLO11mより3%遅い。

図1.YOLO12による物体検出の例。

この記事では、YOLO12は何が違うのか、以前のバージョンと比較してどうなのか、どこに適用できるのかを探る。

YOLO12発表までの道のり

YOLO モデルシリーズは、リアルタイムの物体検出のために設計されたコンピュータビジョンモデルのコレクションである。時間の経過とともに、各バージョンはスピード、精度、効率の点で向上してきました。

例えば Ultralytics YOLOv52020年にリリースされたUltralytics YOLOv5は、カスタムトレーニングやデプロイが迅速かつ容易であったため、広く使用されるようになった。その後 Ultralytics YOLOv8は、インスタンスのセグメンテーションやオブジェクトの追跡といったコンピュータ・ビジョン・タスクの追加サポートを提供することで、これを改善した。 

最近では Ultralytics YOLO11は、スピードと精度のバランスを保ちながら、リアルタイム処理を改善することに重点を置いた。例えば、YOLO11mは、YOLOv8m22%少ないパラメータを持ちながら、物体検出モデルの評価に広く使われているベンチマークであるCOCOデータセットにおいて、より優れた検出性能を実現した。

これらの進化に基づき、YOLO12は視覚情報の処理方法にシフトを導入した。画像のすべての部分を均等に扱うのではなく、最も関連性の高い部分に優先順位をつけ、検出精度を向上させる。簡単に言えば、YOLO12はこれまでの改良に加え、より正確な検出を目指しているのだ。

YOLO12の主な特徴

YOLO12は、リアルタイム処理速度はそのままに、コンピュータビジョンタスクを強化するいくつかの改良を導入しています。ここでは、YOLO12の主な機能の概要を紹介する:

  • アテンション中心のアーキテクチャ:YOLO12は、画像のあらゆる部分を均等に扱うのではなく、最も重要な部分に焦点を当てます。これにより、精度が向上し、不要な処理が削減されるため、乱雑な画像であっても、よりシャープで効率的な検出が可能になります。
  • フラッシュアテンションズYOLO12は、より少ないメモリ使用量で画像解析を高速化します。FlashAttention(メモリ効率の高いアルゴリズム)により、データ処理を最適化し、ハードウェアの負担を軽減し、リアルタイムタスクをよりスムーズで信頼性の高いものにします。
    ‍。
  • Residual Efficient Layer Aggregation Networks(R-ELAN):YOLO12は、R-ELANを使用してレイヤーをより効率的に編成し、モデルのデータ処理と学習方法を改善します。これにより、学習がより安定し、物体認識がよりシャープになり、計算要件が低くなるため、さまざまな環境で効率的に動作します。

これらの機能が実際にどのように機能するかを理解するために、ショッピングモールを考えてみよう。YOLO12は、買い物客を追跡し、鉢植えや販促看板などの店舗装飾を識別し、置き忘れや放置された商品を発見するのに役立つ。 

アテンションセントリックアーキテクチャにより、最も重要な細部に集中することができ、FlashAttentionにより、システムに負荷をかけることなく、すべてを迅速に処理することができます。これにより、モール運営者はセキュリティの向上、店舗レイアウトの整理、全体的なショッピング体験の向上が容易になります。

図2.YOLO12を使ったショッピングモール内の物体の検出。

しかし、YOLO12には考慮すべき制限もある:

  • トレーニング時間が遅い:YOLO12はそのアーキテクチャーにより、YOLO11比べ、より多くのトレーニング時間を必要とする。
  • エクスポートの課題:ユーザーによっては、YOLO12モデルをエクスポートする際、特に特定の展開環境に統合する際に、困難に遭遇する可能性があります。

YOLO12のパフォーマンスベンチマークを理解する

YOLO12には複数のバリエーションがあり、それぞれが異なるニーズに最適化されている。小型バージョン(ナノとスモール)はスピードと効率を優先し、モバイル機器やエッジコンピューティングに最適です。中型と大型のバージョンは速度と精度のバランスを取り、YOLO12x(特大)は産業オートメーション、医療用画像処理、高度監視システムなどの高精度アプリケーション向けに設計されている。

これらのバリエーションにより、YOLO12はモデル・サイズに応じて異なるレベルのパフォーマンスを提供する。ベンチマークテストによると、YOLO12の特定のバリエーションは、YOLOv10とYOLO11 精度で上回り、より高い平均平均精度(mAP)を達成している。 

しかし、YOLO12m、YOLO12l、YOLO12xのように、YOLO11画像処理が遅いモデルもあり、検出精度と速度のトレードオフが見られる。にもかかわらず、YOLO12は依然として効率的であり、他の多くのモデルよりも少ないパラメータしか必要としないが、それでもYOLO11多くのパラメータを使用する。このため、生のスピードよりも精度が重要な用途に最適です。

図3. Ultralytics YOLO11 YOLO12の比較。

YOLO12をUltralytics Python パッケージで使う

YOLO12は、Ultralytics Python パッケージによってサポートされており、使いやすく、初心者にも専門家にも利用しやすい。わずか数行のコードで、ユーザーは事前に訓練されたモデルをロードし、画像や動画に対して様々なコンピュータビジョンタスクを実行し、カスタムデータセットでYOLO12を訓練することができます。Ultralytics Python パッケージは、プロセスを合理化し、複雑なセットアップ手順を不要にします。

例えば、YOLO12を物体検出に使う手順を以下に示す:

  • Ultralytics パッケージをインストールする:最初に、YOLO12を効率的に実行するために必要なツールを提供するUltralytics Python パッケージをインストールする。これにより、すべての依存関係が正しくセットアップされる。
  • 事前にトレーニングされたYOLO12モデルをロードする:タスクに必要な精度とスピードのレベルに基づいて、適切なYOLO12バリアント(ナノ、スモール、ミディアム、ラージ、エクストララージ)を選択する。
  • 画像またはビデオを提供します:分析したい画像またはビデオファイルを入力します。YOLO12は、リアルタイム検出のために、ライブビデオ・フィードを処理することもできます。
  • 検出プロセスを実行します:モデルは視覚データをスキャンし、オブジェクトを識別し、それらの周囲にバウンディングボックスを配置します。検出された各オブジェクトに予測クラスと信頼スコアでラベルを付ける。
  • 検出設定を調整します:
    ‍ 信頼しきい値などのパラメータを変更して、検出精度と性能を微調整することもできます。
  • 出力の保存または使用:検出されたオブジェクトを含む処理された画像やビデオは、保存したり、アプリケーションに統合して、さらなる分析、自動化、意思決定を行うことができます。

これらのステップにより、YOLO12は監視や小売店の追跡から医療画像や自律走行車まで、さまざまな用途に簡単に使用できる。

YOLO12の実用的なアプリケーション

YOLO12は、物体検出、インスタンス分割、画像分類、姿勢推定、指向性物体検出(OBB)をサポートしているため、実世界のさまざまなアプリケーションで使用できる。 

図4.YOLO12は、物体検出やインスタンス分割などのタスクをサポートしている。

しかし、先に説明したように、YOLO12モデルはスピードよりも精度を優先しているため、以前のバージョンと比べると画像処理に若干時間がかかる。このトレードオフにより、YOLO12は、リアルタイムのスピードよりも精度が重視されるような用途に理想的なモデルとなっている:

  • メディカルイメージング:YOLO12は、X線やMRIの腫瘍や異常を高精度で検出するためのカスタム・トレーニングが可能で、診断のために精密な画像解析を必要とする医師や放射線科医にとって有用なツールとなっている。
    ‍。
  • 製造業における品質管理:
    ‍ 生産工程で製品の欠陥を特定するのに役立ち、無駄を省き効率を向上させながら、高品質の製品のみを市場に送り出すことを保証する。
  • 科学捜査分析:法執行機関は、YOLO12を微調整して監視カメラの映像を分析し、証拠を収集することができます。
    ‍ 犯罪捜査では、重要な詳細を特定するために正確さが不可欠です。
  • 精密農業:農家はYOLO12を使って、作物の健康状態を分析し、病気や害虫の発生を検出し、土壌の状態をモニターすることができる。正確な評価は農業戦略の最適化に役立ち、より良い収穫と資源管理につながります。

YOLO12を始める

YOLO12を実行する前に、お使いのシステムが必要な要件を満たしていることを確認することが重要です。

技術的には、YOLO12はどんな専用GPU (Graphics Processing Unit)でも動作します。デフォルトでは、FlashAttentionを必要としないため、FlashAttentionなしでもほとんどのGPU システムで動作します。しかし、FlashAttentionを有効にすることは、大きなデータセットや高解像度の画像を扱う場合に特に有効で、処理速度の低下を防ぎ、メモリ使用量を減らし、処理効率を向上させるのに役立ちます。 

FlashAttentionを使用するには、以下のシリーズのNVIDIA GPU 必要です:Turing(T4、Quadro RTX)、Ampere(RTX 30シリーズ、A30、A40、A100)、Ada Lovelace(RTX 40シリーズ)、またはHopper(H100、H200)。

ユーザビリティとアクセシビリティを考慮し、Ultralytics Python パッケージはまだFlashAttention推論をサポートしていません。YOLO12を使い始め、そのパフォーマンスを最適化するための詳細については、 Ultralytics 公式ドキュメントをご覧ください。

要点

コンピュータ・ビジョンの進歩に伴い、モデルの精度と効率が向上しています。YOLO12は、注意中心の処理とFlashAttentionにより、物体検出、インスタンス分割、画像分類などのコンピュータビジョンタスクを改善し、メモリ使用を最適化しながら精度を高めます。

同時に、コンピュータ・ビジョンはこれまで以上に身近なものとなりました。YOLO12は、Ultralytics Python パッケージを通じて簡単に使用でき、スピードよりも精度に重点を置いているため、医療用画像処理、工業用検査、ロボット工学など、精度が重要なアプリケーションに適しています。

AIに興味がありますか?GitHub リポジトリを訪れて私たちのコミュニティと交流してください。自動運転車における AI農業におけるコンピュータビジョンなどの分野におけるイノベーションをソリューションページでご覧ください。ライセンスオプションをチェックして、Vision AI プロジェクトを実現しましょう。🚀

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう