オブジェクト検出の進化を振り返りましょう。YOLO (You Only Look Once)モデルがここ数年でどのように進化したかに焦点を当てます。
コンピュータ・ビジョンは人工知能(AI)の一分野であり、人間が現実世界を認識するのと同じように、機械に画像や映像を見て理解させることに重点を置いている。人間にとって物体の認識や 動作の識別はごく自然なことですが、機械がこれらの作業を行うには、特殊で専門的なコンピュータ・ビジョンの技術が必要になります。例えば、コンピュータ・ビジョンの重要なタスクのひとつに物体検出があり、これは画像やビデオ内の物体を識別し、位置を特定することを含む。
1960年代から、研究者たちはコンピューターが物体を検出する方法の改良に取り組んできた。テンプレートマッチングのような初期の手法は、あらかじめ定義されたテンプレートを画像上でスライドさせ、一致するものを見つけるというものだった。革新的ではあったが、これらのアプローチは物体の大きさ、向き、照明の変化に苦戦していた。今日では Ultralytics YOLO11のような高度なモデルがあり、オクルード・オブジェクトと呼ばれる小さくて部分的に隠れたオブジェクトでさえも、驚くほどの精度で検出することができる。
コンピュータビジョンが進化し続ける中で、これらの技術がどのように発展してきたかを振り返ることは重要である。この記事では、物体検出の進化を探り、YOLO (You Only Look Once)モデルの変容に光を当てます。始めよう!
物体検出に入る前に、コンピュータ・ビジョンがどのように始まったかを見てみよう。コンピュータビジョンの起源は、1950年代後半から1960年代初頭にかけて、科学者たちが脳が視覚情報をどのように処理するかを探求し始めた頃に遡る。研究者のデイビッド・ヒューベルとトーステン・ヴィーゼルは、猫を使った実験で、脳がエッジや線のような単純なパターンに反応することを発見した。これが特徴抽出の考え方の基礎となった。視覚システムは、より複雑なパターンに移る前に、エッジのような画像内の基本的な特徴を検出して認識するという概念である。
同じ頃、物理的な画像をデジタル形式に変換する新技術が登場し、機械が視覚情報をどのように処理するかに関心が集まった。1966年、マサチューセッツ工科大学(MIT)のサマー・ビジョン・プロジェクトは、物事をさらに推し進めた。このプロジェクトは完全には成功しなかったが、画像の前景と背景を分離できるシステムを作ることを目指していた。ビジョンAIコミュニティの多くにとって、このプロジェクトは科学分野としてのコンピュータビジョンの正式な始まりとなった。
1990年代後半から2000年代前半にかけてコンピュータビジョンが進歩するにつれ、物体検出の手法はテンプレートマッチングのような基本的な手法から、より高度なアプローチへと変化していった。一般的な手法のひとつがハールカスケードで、顔検出などのタスクに広く使われるようになった。スライディングウィンドウで画像をスキャンし、画像の各セクションでエッジやテクスチャなどの特定の特徴をチェックし、これらの特徴を組み合わせて顔などのオブジェクトを検出する。Haar Cascadeは以前の方法よりもはるかに高速だった。
これと並行して、HOG(Histogram of Oriented Gradients)やSVM(Support Vector Machines)といった手法も導入された。HOGは、スライディングウィンドウの手法を使って、画像の小さなセクションで光と影がどのように変化するかを分析し、その形状に基づいて物体を識別するのに役立った。次にSVMがこれらの特徴を分類し、物体の同一性を判断する。これらの手法は精度を向上させたが、実世界の環境では依然として苦戦を強いられ、現在の手法と比べると速度も遅かった。
2010年代、ディープラーニングと 畳み込みニューラルネットワーク(CNN)の台頭は、物体検出に大きな変化をもたらした。CNNは、コンピュータが大量のデータから重要な特徴を自動的に学習することを可能にし、検出の精度を格段に高めた。
R-CNN(Region-based Convolutional Neural Network)のような初期のモデルは、精度を大きく向上させ、旧来の方法よりも正確に物体を識別するのに役立った。
しかし、これらのモデルは画像を多段階で処理するため時間がかかり、自動運転車や ビデオ監視のような分野でのリアルタイムアプリケーションには実用的ではなかった。
スピードアップに焦点を当て、より効率的なモデルが開発された。Fast R-CNNやFaster R-CNNのようなモデルは、関心領域の選択方法を改良し、検出に必要なステップ数を削減することで役立った。これによって物体検出は速くなったが、即座に結果を必要とする多くの実世界のアプリケーションにとっては、まだ十分な速さではなかった。リアルタイム検出への要求の高まりは、速度と精度の両方をバランスさせることができる、より高速で効率的なソリューションの開発を後押ししました。
YOLOは、画像や動画中の複数の物体のリアルタイム検出を可能にすることで、コンピュータ・ビジョンを再定義した物体検出モデルであり、従来の検出方法とはまったく異なる。検出された各物体を個別に分析する代わりに、YOLO'のアーキテクチャは物体検出を単一のタスクとして扱い、CNNを使用して物体の位置とクラスの両方を一度に予測する。
このモデルは、画像をグリッドに分割し、各パーツがそれぞれのエリア内の物体の検出を担当することで機能する。各セクションに対して複数の予測を行い、信頼性の低い結果をフィルタリングし、正確なものだけを残す。
コンピュータ・ビジョン・アプリケーションに YOLO を導入することで、以前のモデルよりもはるかに高速で効率的な物体検出が可能になった。その速度と精度の高さから、YOLO は、製造、ヘルスケア、ロボット工学などの産業におけるリアルタイム・ソリューションとして急速に普及した。
もうひとつ重要な点は、YOLO がオープンソースであったため、開発者や研究者が継続的に改良を加えることができ、さらに進化したバージョンが生まれたことだ。
YOLO モデルは、各バージョンの改良を積み重ねながら、時間をかけて着実に改良されてきた。性能の向上とともに、これらの改良により、さまざまな技術的経験を持つ人々がモデルを使いやすくなっている。
例えば Ultralytics YOLOv5が導入されたことで、モデルの展開がよりシンプルになった。 PyTorchこれにより、より幅広いユーザーが高度なAIを扱えるようになった。精度と使いやすさを両立させ、コーディングの専門家でなくても、より多くの人が物体検出を実装できるようになったのだ。
Ultralytics YOLOv8 は、インスタンスのセグメンテーションのようなタスクのサポートを追加し、モデルをより柔軟にすることで、この進歩を継続した。YOLO 、基本的なアプリケーションからより複雑なアプリケーションまで使いやすくなり、さまざまなシナリオで活用できるようになった。
最新モデルでは Ultralytics YOLO11では、さらなる最適化が図られている。精度を向上させながらパラメータ数を減らすことで、リアルタイムのタスクに対してより効率的になりました。経験豊富な開発者であれ、AI初心者であれ、YOLO11 は、簡単に利用できる物体検出への高度なアプローチを提供します。
YOLO11 Ultralytics' の年次ハイブリッド・イベント、YOLO Vision 2024 (YV24) で発表された、 と同じYOLOv8コンピュータ・ビジョン・タスク(オブジェクト検出、インスタンス・セグメンテーション、画像分類、ポーズ推定など)をサポートしています。そのため、ユーザーはワークフローを調整する必要なく、この新しいモデルに簡単に切り替えることができます。さらに、 のアップグレードされたアーキテクチャにより、予測精度がさらに向上しています。実際、YOLO11m はYOLO11COCO データセットにおいて、 より 22%少ないパラメータで、より高い平均精度(mAP)を達成している。YOLOv8m
YOLO11 はまた、スマートフォンなどのエッジデバイスからより強力なクラウドシステムまで、さまざまなプラットフォーム上で効率的に動作するように構築されています。この柔軟性により、リアルタイム・アプリケーションの異なるハードウェア・セットアップ間でのスムーズなパフォーマンスが保証される。その上、YOLO11 はより高速かつ効率的で、計算コストを削減し、推論時間を短縮する。Ultralytics Python パッケージを使用している場合でも、ノーコードのUltralytics HUB を使用している場合でも、既存のワークフローに簡単に統合することができます。 YOLO11既存のワークフローに簡単に統合できる。
リアルタイム・アプリケーションやエッジAIに対する高度な物体検出の影響は、すでに業界全体で感じられるようになっている。石油・ガス、ヘルスケア、小売などの分野でAIへの依存度が高まる中、高速かつ高精度な物体検出の需要は高まり続けている。YOLO11 、コンピューティング・パワーが限られたデバイスでも高性能な検出を可能にすることで、この需要に応えることを目指している。
エッジAIが成長するにつれて、YOLO11 のような物体検出モデルは、スピードと精度が重要な環境におけるリアルタイムの意思決定にさらに不可欠になると思われる。設計と適応性の継続的な改善により、物体検出の未来は、さまざまなアプリケーションにさらなる革新をもたらすことになりそうだ。
物体検出は、シンプルな手法から今日のような高度なディープラーニング技術へと進化し、長い道のりを歩んできた。YOLO モデルは、この進歩の中核を担い、さまざまな業界において、より高速で正確なリアルタイム検出を実現してきた。YOLO11 は、この遺産を基に、効率性の向上、計算コストの削減、精度の向上を実現し、さまざまなリアルタイムアプリケーションにとって信頼できる選択肢となっている。AIとコンピュータビジョンの継続的な進歩により、物体検出の未来は明るいと思われ、速度、精度、適応性においてさらなる改善の余地がある。
AIに興味がありますか?私たちのコミュニティで学び続けましょう!GitHubリポジトリで、製造業やヘルスケアなどの業界でAIを使ってどのように革新的なソリューションを生み出しているかをご覧ください。🚀