グリーンチェック
クリップボードにコピーされたリンク

Ultralytics YOLO11 アンカーなし探知機であることの利点

Ultralytics YOLO11 がどのようにアンカーフリーの物体検出をサポートしているか、またこのモデルアーキテクチャが様々なアプリケーションにもたらす利点を理解する。

ビジョンAIモデルの歴史を振り返ってみると、物体検出という概念は、画像やビデオ内の物体を識別して位置を特定するコンピュータビジョンの中核タスクとして、1960年代から存在していた。しかし、今日の最先端技術革新における重要な意義は、物体検出技術とモデル・アーキテクチャが当時から進歩し、急速に改善されてきたことにある。 

前回の記事では、物体検出の進化と、Ultralytics YOLO モデルに至る道について説明した。今日は、この旅のより具体的なマイルストーン、つまりアンカー・ベースの検出器からアンカー・フリーの検出器へのジャンプを探ることに焦点を当てよう。 

アンカー・ベースの検出器は、「アンカー」と呼ばれるあらかじめ定義されたボックスを頼りに、画像内の物体の位置を予測します。これに対して、アンカーを使わない検出器では、このような定義済みのボックスを省略し、代わりに物体の位置を直接予測します。

この変化は単純で論理的な変化のように見えるかもしれませんが、実際には物体検出の精度と効率の大幅な向上につながりました。この記事では、次のような進歩を通じて、アンカーなし検出器がコンピュータ・ビジョンをどのように作り変えたかを理解します。 Ultralytics YOLO11.

アンカー探知機とは?

アンカー・ベースのディテクターは、アンカーと呼ばれるあらかじめ定義されたボックスを使用して、画像内のオブジェクトの位置を特定します。このアンカーは、画像上に配置されたサイズや形状の異なるボックスのグリッドと考えてください。そしてモデルは、検出したオブジェクトに合わせてこれらのボックスを調整する。例えば、モデルが車を識別した場合、車の位置とサイズをより正確に一致させるためにアンカーボックスを修正する。

各アンカーは画像内のオブジェクトに関連付けられ、学習中、モデルはオブジェクトの位置、サイズ、縦横比によりよく一致するようにアンカーボックスを調整する方法を学習する。これにより、モデルは異なるスケールや向きの物体を検出できるようになる。しかし、適切なアンカーボックスのセットを選択するには時間がかかり、微調整の過程ではエラーが発生しやすい。

図1.アンカー・ボックスとは?

YOLOv4のようなアンカーベースの検出器は、多くのアプリケーションでうまく機能してきましたが、いくつかの欠点があります。例えば、アンカーボックスは、形や大きさの異なるオブジェクトと常にうまく整列するとは限らないため、小さなオブジェクトや不規則な形状のオブジェクトを検出することが難しくなります。また、アンカーボックスのサイズを選択し、微調整するプロセスには時間がかかり、手作業が必要になります。これとは別に、アンカーベースのモデルは、あらかじめ定義されたボックスがこれらの複雑なシナリオにうまく適応しないことがあるため、オクルードやオーバーラップしているオブジェクトの検出に苦労することが多い。

アンカーを使わない物体検出へのシフト

アンカーフリー検出器は、CornerNetやCenterNetのようなモデルで2018年に注目され始め、事前に定義されたアンカーボックスの必要性を排除することで、物体検出に新たなアプローチを取った。異なるサイズや形状のアンカーボックスに依存して物体の位置を予測する従来のモデルとは異なり、アンカーフリーのモデルは物体の位置を直接予測する。物体の中心などの重要なポイントや特徴に焦点を当てることで、検出プロセスを簡素化し、より高速で正確な検出を実現します。

アンカーなしモデルが一般的にどのように機能するかは以下の通りだ:

  • キーポイント検出:あらかじめ定義されたボックスを使用する代わりに、中心や特定の角など、オブジェクトの重要なポイントを特定するモデルもあります。これらのキーポイントは、モデルがオブジェクトの位置や大きさを把握するのに役立ちます。
  • センター 予測:物体の中心を予測することに重点を置いたモデルもある。一旦中心が特定されると、モデルはそこからオブジェクト全体のサイズと位置を予測することができる。
  • ヒートマップ回帰:多くのアンカー・フリー・モデルは、各ピクセルがオブジェクトの可能性のある位置を表すヒートマップを使用します。ヒートマップの値が強いほど、オブジェクトがその地点に存在するという確信度が高いことを示します。
図2.アンカーベースの検出とアンカーなしの検出の比較。

アンカー・フリー・モデルはアンカー・ボックスに依存しないため、設計がシンプルになる。これは、計算効率が高いことを意味する。複数のアンカーボックスを処理する必要がないため、物体をより迅速に検出することができる。これは、自律走行やビデオ監視のようなリアルタイム・アプリケーションにおいて重要な利点となる。 

また、アンカーを使わないモデルは、小さなオブジェクトや不規則なオブジェクト、あるいはオクルージョンがあるオブジェクトを扱うのに非常に適している。アンカーボックスに合わせるのではなく、キーポイントを検出することに重点を置いているため、より柔軟性があります。そのため、アンカーベースのモデルでは失敗する可能性のある、乱雑で複雑な環境でも物体を正確に検出することができる。

Ultralytics YOLO11:アンカーなし探知機

もともとはスピードと効率のために設計されたYOLO モデルは、徐々にアンカーベースの手法からアンカーフリーの検出へと移行し、YOLO11 のようなモデルは、より高速で柔軟性が高く、幅広いリアルタイムアプリケーションに適している。

YOLO 、アンカーフリーのデザインがどのように進化してきたかを簡単に紹介しよう:

  • Ultralytics YOLOv5u:アンカーフリーのスプリットUltralytics ヘッドが導入され、事前に定義されたアンカーボックスの必要性がなくなりました。その代わりに、このモデルは画像内のオブジェクトの位置を直接予測し、プロセスを簡素化し、柔軟性と速度を向上させます。
  • YOLOv6:アンカー支援トレーニング(AAT)と呼ばれる新しい手法が採用され、トレーニング中のみアンカーが使用される。これにより、学習時にはアンカーに基づく手法の構造の恩恵を受けながら、実行時にはアンカーを使用しない検出を行うことで、より高速で適応性の高いモデルを実現しました。
  • Ultralytics YOLOv8:アンカー・フリーのスプリットUltralytics ・ヘッドを使用することで、アンカー・フリーの検出に完全に切り替えた。これにより、特にアンカーボックスにうまく収まらない小さな物体や奇妙な形状の物体に対して、モデルがより高速かつ正確になりました。
  • Ultralytics YOLO11:YOLOv8のアンカーフリーアプローチをベースに、アンカーボックスを完全に排除することで検出をさらに最適化。その結果、動物の行動モニタリングや小売店分析などのリアルタイム・アプリケーションにおいて、より高速で正確な検出が可能になります。
図3.Ultralytics YOLOv8 とUltralytics YOLO11 の比較。

実世界での応用YOLO11

YOLO11 を使用したアンカーレス検出の利点の好例は、自律走行車である。自動運転車では、歩行者、他の車両、障害物を迅速かつ正確に検出することが安全のために極めて重要です。YOLO11'sのアンカーフリーアプローチは、事前に定義されたアンカーボックスに依存するのではなく、歩行者の中心や他の車両の境界のようなオブジェクトのキーポイントを直接予測することにより、検出プロセスを簡素化します。 

図4.YOLO11 におけるアンカーなし検出の利点(Image By Author)。

YOLO11 は、各オブジェクトにグリッド状のアンカーを調整したりフィットさせたりする必要がない。その代わりに、主要な特徴に焦点を当てることで、より速く、より効率的になる。例えば、歩行者が車両の進路に足を踏み入れた場合、YOLO11 、たとえ人が部分的に隠れていたり動いていたりしても、キーポイントをピンポイントで特定することで、その位置を素早く特定することができる。アンカーボックスなしで様々な形状やサイズに適応する能力により、YOLO11 、より確実に、より高速で物体を検出することができる。これは自律走行システムにおけるリアルタイムの意思決定に不可欠である。

YOLO11のアンカーフリーの能力が際立つ他の用途には、以下のようなものがある:

  • 小売と在庫管理:YOLO11 、積み重ねられたり、一部が塞がれたりしている場合でも、棚上の商品を簡単に監視できます。これにより、より迅速で正確な在庫追跡が可能になり、ミスを減らすことができます。
  • メディカルイメージング:YOLO11 、医療スキャンで腫瘍やその他の異常を検出する医療分野でも有効である。不規則な形状の物体を扱うことができるため、複雑な症状の診断精度を向上させることができる。
  • 野生動物モニタリング:野生動物の研究では、YOLO11 、密林や厳しい地形で動物を追跡し、研究者が行動を監視したり、絶滅危惧種を保護したりするのに役立つ。
  • スポーツアナリティクス:YOLO11 は、スポーツイベント中に選手、ボールの動き、その他の要素をリアルタイムで追跡し、チーム、コーチ、放送局に貴重な洞察を提供するために使用することができます。

アンカーなしモデルを使用する際の注意点

YOLO11 のようなアンカーフリーのモデルには多くの利点がありますが、一定の限界があります。主な実用上の考慮点の1つは、アンカーなしモデルでさえも、オクルージョンや重なりの大きいオブジェクトに苦労することがあるということです。その根拠は、コンピュータ・ビジョンは 人間の視覚を再現することを目的としており、私たちがオクルージョンのあるオブジェクトを識別するのに苦労することがあるように、AIモデルも同様の課題に直面することがあるからです。

もう一つの興味深い要因は、モデル予測の処理に関連している。アンカーなしモデルのアーキテクチャーは、アンカーベースよりも単純であるが、場合によっては、さらなる洗練が必要となる。例えば、重複する予測をクリーンアップしたり、混雑したシーンでの精度を向上させるために、非最大抑制NMS)のような後処理技術が必要になる場合がある。

AIの未来に錨を下ろすYOLO11

アンカー・ベースの検出からアンカー・フリーの検出への移行は、物体検出において大きな進歩である。YOLO11 のようなアンカーフリーのモデルでは、プロセスが簡素化され、精度と速度の両方の向上につながります。

YOLO11 を通して、自動運転車、ビデオ監視、医療用画像処理など、高速かつ正確な検出が重要なリアルタイム・アプリケーションにおいて、アンカーを使用しない物体検出がいかに優れているかを見てきました。このアプローチにより、YOLO11 、さまざまなオブジェクトのサイズや複雑なシーンにより容易に適応することができ、多様な環境においてより優れたパフォーマンスを発揮します。

コンピュータビジョンが進化し続けるにつれ、物体検出はより速く、より柔軟で、より効率的になっていくだろう。

GitHub リポジトリを探索し、魅力的なコミュニティに参加して、AI に関するあらゆる最新情報を入手しましょう。Vision AIが製造業や 農業などの分野にどのような影響を与えているかをご覧ください。

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう