物体検出の進化を発見する：YOLOからYOLO11へ

コンピュータ・ビジョンは人工知能（AI）の一分野であり、人間が現実世界を認識するのと同じように、機械に画像や映像を見て理解させることに重点を置いている。人間にとって物体の認識や動作の識別はごく自然なことですが、機械がこれらのタスクを行うには、特殊で専門的なコンピュータ・ビジョンの技術が必要となります。例えば、コンピュータ・ビジョンの重要なタスクのひとつに物体検出があり、これは画像やビデオ内の物体を識別し、位置を特定することを含む。

1960年代から、研究者たちはコンピューターが物体を検出する方法の改良に取り組んできた。テンプレートマッチングのような初期の手法は、あらかじめ定義されたテンプレートを画像上でスライドさせ、一致するものを見つけるというものだった。革新的ではあったが、これらのアプローチは物体の大きさ、向き、照明の変化に苦戦していた。今日では、Ultralytics YOLO11のような高度なモデルがあり、オクルージョン物体として知られる、小さくて部分的に隠れた物体でさえも、驚くほどの精度で検出することができる。

コンピュータビジョンが進化し続ける中で、これらの技術がどのように発展してきたかを振り返ることは重要である。この記事では、物体検出の進化を探り、YOLO（You Only Look Once）モデルの変容に光を当てます。始めよう！

コンピュータ・ビジョンの起源

物体検出に入る前に、コンピュータ・ビジョンがどのように始まったかを見てみよう。コンピュータビジョンの起源は、1950年代後半から1960年代初頭にかけて、科学者たちが脳が視覚情報をどのように処理するかを探求し始めた頃に遡る。研究者のデイビッド・ヒューベルとトーステン・ヴィーゼルは、猫を使った実験で、脳がエッジや線のような単純なパターンに反応することを発見した。これが特徴抽出の考え方の基礎となった。視覚システムは、より複雑なパターンに移る前に、エッジのような画像内の基本的な特徴を検出して認識するという概念である。

__wf_reserved_inherit — 図1.猫の脳がライトバーにどのように反応するかを学ぶことは、コンピューター・ビジョンにおける特徴抽出の発展に役立った。

‍

同じ頃、物理的な画像をデジタル形式に変換する新技術が登場し、機械が視覚情報をどのように処理するかに関心が集まった。1966年、マサチューセッツ工科大学（MIT）のサマー・ビジョン・プロジェクトは、物事をさらに推し進めた。このプロジェクトは完全には成功しなかったが、画像の前景と背景を分離できるシステムを作ることを目指していた。ビジョンAIコミュニティの多くにとって、このプロジェクトは科学分野としてのコンピュータビジョンの正式な始まりとなった。

物体検出の歴史を理解する

1990年代後半から2000年代前半にかけてコンピュータビジョンが進歩するにつれ、物体検出の手法はテンプレートマッチングのような基本的な手法から、より高度なアプローチへと変化していった。一般的な手法のひとつがハールカスケードで、顔検出などのタスクに広く使われるようになった。スライディングウィンドウで画像をスキャンし、画像の各セクションでエッジやテクスチャなどの特定の特徴をチェックし、これらの特徴を組み合わせて顔などのオブジェクトを検出する。Haar Cascadeは以前の方法よりもはるかに高速だった。

‍

これと並行して、HOG（Histogram of Oriented Gradients）やSVM（Support Vector Machines）といった手法も導入された。HOGは、スライディングウィンドウの手法を使って、画像の小さなセクションで光と影がどのように変化するかを分析し、その形状に基づいて物体を識別するのに役立った。次にSVMがこれらの特徴を分類し、物体の同一性を判断する。これらの手法は精度を向上させたが、実世界の環境では依然として苦戦を強いられ、今日の手法と比較すると速度も遅かった。

リアルタイムの物体検出の必要性

2010年代、ディープラーニングと畳み込みニューラルネットワーク（CNN）の台頭は、物体検出に大きな変化をもたらした。CNNは、コンピュータが大量のデータから重要な特徴を自動的に学習することを可能にし、検出の精度を格段に高めた。

R-CNN（Region-based Convolutional Neural Network）のような初期のモデルは、精度を大きく向上させ、旧来の方法よりも正確に物体を識別するのに役立った。

しかし、これらのモデルは画像を多段階で処理するため時間がかかり、自動運転車やビデオ監視のような分野でのリアルタイムアプリケーションには実用的ではなかった。

スピードアップに焦点を当て、より効率的なモデルが開発された。Fast R-CNNやFaster R-CNNのようなモデルは、関心領域の選択方法を改良し、検出に必要なステップ数を削減することで役立った。これによって物体検出は速くなったが、即座に結果を必要とする多くの実世界のアプリケーションにとっては、まだ十分な速さではなかった。リアルタイム検出への要求の高まりは、速度と精度の両方をバランスさせることができる、より高速で効率的なソリューションの開発を後押ししました。

‍

YOLO（一度しか見ない）モデル：大きな節目

YOLOは、画像や動画中の複数の物体をリアルタイムで検出することで、コンピュータ・ビジョンを再定義した物体検出モデルであり、従来の検出方法とは全く異なるユニークなものである。YOLOのアーキテクチャは、検出された各物体を個別に分析する代わりに、物体検出を単一のタスクとして扱い、CNNを使用して物体の位置とクラスの両方を一度に予測する。

このモデルは、画像をグリッドに分割し、各パーツがそれぞれのエリア内の物体の検出を担当することで機能する。各セクションに対して複数の予測を行い、信頼性の低い結果をフィルタリングし、正確なものだけを残す。

‍

YOLOがコンピュータ・ビジョン・アプリケーションに導入されたことで、物体検出は以前のモデルよりもはるかに高速かつ効率的になった。その速度と正確さから、YOLOは製造、ヘルスケア、ロボット工学などの産業におけるリアルタイム・ソリューションとして急速に普及した。

もうひとつ重要な点は、YOLOがオープンソースであったため、開発者や研究者が継続的に改良を加え、さらに進化したバージョンを生み出すことができたということだ。

YOLOからYOLO11への道

YOLOモデルは、バージョンアップを重ねるごとに着実に進化してきた。性能の向上とともに、これらの改良により、さまざまな技術経験レベルの人々にとって使いやすいモデルとなっている。

例えば、Ultralytics YOLOv5が導入されたとき、PyTorchによってモデルのデプロイがよりシンプルになり、より幅広いユーザーが高度なAIを扱うことができるようになった。精度と使いやすさを両立させ、コーディングの専門家でなくても、より多くの人が物体検出を実装できるようになった。

‍

Ultralytics YOLOv8は、インスタンスのセグメンテーションのようなタスクのサポートを追加し、モデルをより柔軟にすることで、この進歩を継続した。基本的なアプリケーションにも、より複雑なアプリケーションにもYOLOを使いやすくなり、さまざまなシナリオで役立つようになった。

最新モデルのUltralytics YOLO11では、さらなる最適化が行われました。精度を向上させながらパラメーターの数を減らすことで、リアルタイムのタスクに対してより効率的になりました。経験豊富な開発者でも、AI初心者でも、YOLO11は簡単に利用できる物体検出への高度なアプローチを提供します。

YOLO11を知る：新機能と改善点

Ultralyticsの年次ハイブリッドイベント、YOLO Vision 2024（YV24）で発表されたYOLO11は、物体検出、インスタンス分割、画像分類、姿勢推定など、YOLOv8と同じコンピュータビジョンタスクをサポートしています。そのため、ユーザーはワークフローを調整することなく、この新モデルに簡単に切り替えることができる。さらに、YOLO11のアップグレードされたアーキテクチャは、予測をより正確にします。実際、YOLO11mはCOCOデータセットにおいて、YOLOv8mより22%少ないパラメータで、より高い平均精度（mAP）を達成しています。

YOLO11はまた、スマートフォンなどのエッジデバイスから、より強力なクラウドシステムまで、さまざまなプラットフォーム上で効率的に動作するように構築されている。この柔軟性により、リアルタイム・アプリケーションのさまざまなハードウェア・セットアップでスムーズなパフォーマンスが保証される。その上、YOLO11はより高速で効率的であるため、計算コストを削減し、推論時間を短縮します。Ultralytics Pythonパッケージまたはコード不要のUltralytics HUBのいずれを使用していても、YOLO11を既存のワークフローに統合するのは簡単です。

YOLOモデルと物体検出の未来

リアルタイム・アプリケーションやエッジAIにおける高度な物体検出の影響は、すでに業界全体で感じられるようになっている。石油・ガス、ヘルスケア、小売などの分野でAIへの依存度が高まる中、高速かつ高精度な物体検出への需要は高まり続けている。YOLO11は、コンピューティング・パワーが限られたデバイスでも高性能な検出を可能にすることで、この需要に応えることを目指している。

エッジAIが成長するにつれて、YOLO11のような物体検出モデルは、スピードと精度が重要な環境におけるリアルタイムの意思決定にさらに不可欠になると思われる。設計と適応性の継続的な改善により、物体検出の未来は、さまざまなアプリケーションにさらなる革新をもたらすことになりそうだ。

要点

物体検出は、シンプルな手法から今日のような高度なディープラーニング技術へと進化し、長い道のりを歩んできました。YOLOモデルはこの進歩の中核を担い、さまざまな業界でより高速で正確なリアルタイム検出を実現してきました。YOLO11は、この遺産を基に、効率を改善し、計算コストを削減し、精度を向上させることで、さまざまなリアルタイム・アプリケーションにとって信頼できる選択肢となっています。AIとコンピュータ・ビジョンの継続的な進歩により、物体検出の未来は明るく、速度、精度、適応性においてさらなる改善の余地がある。

AIに興味がありますか？私たちのコミュニティで学び続けましょう！GitHubリポジトリで、製造業やヘルスケアなどの業界でAIを使ってどのように革新的なソリューションを生み出しているかをご覧ください。🚀

物体検出の進化とウルトラリティクスのYOLOモデル

コンピュータ・ビジョンの起源

物体検出の歴史を理解する

リアルタイムの物体検出の必要性

YOLO（一度しか見ない）モデル：大きな節目

YOLOからYOLO11への道

YOLO11を知る：新機能と改善点

YOLOモデルと物体検出の未来

要点

このカテゴリの続きを読む

Ultralytics YOLO11による空港地上業務のモニタリング

Ultralytics YOLO11でスマート監視を強化

Ultralytics YOLO11でスマートフィットネス技術を実現

AIの未来
を一緒に作りましょう！

物体検出の進化とウルトラリティクスのYOLOモデル

コンピュータ・ビジョンの起源

物体検出の歴史を理解する

リアルタイムの物体検出の必要性

YOLO（一度しか見ない）モデル：大きな節目

YOLOからYOLO11への道

YOLO11を知る：新機能と改善点

YOLOモデルと物体検出の未来

要点

このカテゴリの続きを読む

Ultralytics YOLO11による空港地上業務のモニタリング

Ultralytics YOLO11でスマート監視を強化

Ultralytics YOLO11でスマートフィットネス技術を実現

AIの未来を一緒に作りましょう！

AIの未来
を一緒に作りましょう！