物体検出について、AIにおけるその重要性、そしてYOLO11 ようなモデルが自動運転車、ヘルスケア、セキュリティなどの産業をどのように変革しているかについて学ぶ。
多くの業界で、人工知能(AI)ソリューションの業務への導入が急速に進んでいる。現在利用可能な数多くのAI技術の中でも、コンピュータ・ビジョンは最も人気のある技術の一つである。コンピュータ・ビジョンはAIの一分野であり、コンピュータが人間のように画像や映像の内容を見て理解できるようにするものである。機械が物体を認識し、パターンを識別し、見ているものを理解することを可能にする。
コンピュータビジョンの世界市場規模は、2032年までに1,757億2,000万ドルに成長すると推定されている。コンピュータ・ビジョンには、ビジョンAIシステムが視覚データを分析・解釈するための様々なタスクが含まれる。コンピュータ・ビジョンで最も広く使用され、不可欠なタスクの1つは物体検出である。
物体検出は、視覚データ中の物体の位置特定と分類に重点を置く。例えば、コンピューターに牛の画像を見せると、牛を検出し、その周囲にバウンディングボックスを描くことができる。この能力は、動物の監視、自動運転車、監視などの実世界での応用に役立つ。
では、物体検出はどうすればできるのか?ひとつの方法は、コンピューター・ビジョンのモデルを使うことだ。例えば Ultralytics YOLO11は、物体検出のようなコンピュータビジョンタスクをサポートするコンピュータビジョンモデルである。
このガイドでは、物体検出とその仕組みについて説明します。また、物体検出とUltralytics YOLO11実際のアプリケーションについても説明します。
物体検出は、画像やビデオ内の物体を識別し、位置を特定するコンピュータ・ビジョンのタスクである。これは2つの重要な質問に答えるものである:画像にどのような物体が写っているか」と「どこに写っているか」である。
物体検出は、2つの重要なステップを含むプロセスと考えることができる。1つ目の「オブジェクトの分類」では、学習したパターンに基づいて猫、車、人などを識別するなど、システムがオブジェクトを認識し、ラベル付けする。2つ目のローカライゼーションは、オブジェクトの周囲にバウンディングボックスを描画することでオブジェクトの位置を決定し、画像内のどこに表示されるかを示す。これらのステップを組み合わせることで、機械はシーン内の物体を検出し、理解することができる。
物体検出のユニークな点は、物体を認識し、その位置を正確に特定する能力である。他のコンピュータビジョンのタスクは、異なる目標に焦点を当てています。
例えば、画像分類は画像全体にラベルを割り当てる。一方、画像セグメンテーションは、異なる要素のピクセルレベルでの理解を提供する。一方、物体検出は認識と位置特定を組み合わせたものである。そのため、複数の物体をリアルタイムで数えるようなタスクに特に有効である。
コンピュータ・ビジョンの様々な用語を調べていると、物体認識と物体検出が同じように感じられるかもしれません。この違いを理解するには、顔検出と顔認識を見るのが良い方法です。
顔検出は物体検出の一種である。画像内の顔の存在を識別し、バウンディングボックスを用いてその位置をマークする。これは、"画像内のどこに顔があるか?"という質問に答えるものである。この技術は、自動的に顔に焦点を合わせるスマートフォンのカメラや、人がいることを検知するセキュリティカメラで一般的に使用されている。
一方、顔認識は物体認識の一種である。単に顔を検出するだけでなく、固有の特徴を分析し、データベースと比較することで誰の顔かを特定する。これは、"この人は誰?"という質問に答えるものだ。これは、Face IDで携帯電話のロックを解除したり、身元を確認する空港のセキュリティシステムを支える技術である。
簡単に言えば、物体検出は物体を見つけ、位置を特定し、物体認識は物体を分類し、識別する。
YOLO11ような多くの物体検出モデルは、顔検出をサポートするように設計されているが、顔認識はサポートしていない。YOLO11 、画像内の顔の存在を効率的に識別し、その周囲にバウンディングボックスを描画することができるため、監視システム、群衆モニタリング、自動写真タグ付けなどの用途に役立つ。ただし、誰の顔であるかは判別できない。YOLO11 、FacenetやDeepFaceのような顔認識のために特別に訓練されたモデルと統合することで、単一のシステムで検出と識別の両方を可能にすることができる。
物体検出の仕組みについて説明する前に、まずコンピュータがどのように画像を解析するのかを詳しく見てみよう。コンピュータは、私たちと同じように画像を見るのではなく、画像をピクセルと呼ばれる小さな正方形のグリッドに分解する。各ピクセルには、コンピュータが視覚データを解釈するために処理できる色と明るさの情報が含まれている。
これらのピクセルの意味を理解するために、アルゴリズムは、形状、色、およびそれらのピクセルの近さに基づいて、意味のある領域にそれらをグループ化する。YOLO11ような物体検出モデルは、これらのピクセルグループのパターンや特徴を認識することができる。
例えば、自動運転車は私たちと同じように歩行者を見るのではなく、歩行者の特徴と一致する形やパターンを検出する。これらのモデルは、ラベル付けされた画像データセットによる広範なトレーニングに依存しており、車、交通標識、人などのオブジェクトの特徴的な特性を学習することができる。
典型的な物体検出モデルには、バックボーン、ネック、ヘッドの3つの主要部分がある。バックボーンは画像から重要な特徴を抽出する。頭部は物体の位置を予測し、分類する。
最初の検出が行われると、精度を向上させ、冗長な予測をフィルタリングするために後処理技術が適用される。例えば、重複するバウンディングボックスが削除され、最も関連性の高い検出のみが保持されます。また、信頼度スコア(検出された物体が特定のクラスに属することをモデルがどの程度確信しているかを表す数値)が検出された各物体に割り当てられ、モデルの予測の確実性を示します。
最後に、検出されたオブジェクトの周囲に描かれたバウンディング・ボックスと、予測されたクラス・ラベルおよび信頼度スコアが出力される。これらの結果は、実際のアプリケーションに使用することができる。
現在では、多くのコンピュータビジョンモデルが利用可能であり、最も人気のあるモデルのいくつかは、Ultralytics YOLO モデルです。これらのモデルは、そのスピード、正確さ、多用途性で知られています。長年にわたり、これらのモデルはより速く、より正確になり、より幅広いタスクに対応できるようになりました。今回の Ultralytics YOLOv5のリリースにより、PyTorchようなフレームワークの導入が容易になり、より多くの人が深い専門知識を必要とせずに高度なVision AIを使用できるようになりました。
この基盤の上に Ultralytics YOLOv8は、インスタンスのセグメンテーション、ポーズ推定、画像分類などの新機能を導入した。そして今、YOLO11 11はさらに進化し、複数のタスクでより優れたパフォーマンスを発揮します。YOLO11mは、YOLOv8m22%少ないパラメータで、COCOデータセットでより高い平均精度(mAP)を達成しました。簡単に言えば、YOLO11 、より少ないリソースで、より高い精度で物体を認識することができ、より高速で信頼性の高いものとなっています。
YOLO11 、AIの専門家であろうと、これから始めようとしている方であろうと、コンピュータ・ビジョン・アプリケーションのためのパワフルかつユーザーフレンドリーなソリューションを提供します。
ビジョンAIモデルのトレーニングは、コンピューターが画像や動画を認識・理解できるようにすることである。しかし、トレーニングには時間がかかります。ゼロから始めるのではなく、すでに一般的なパターンを認識している事前に訓練されたモデルを使用することで、転移学習は物事をスピードアップします。
例えば、YOLO11 既にCOCOデータセットで訓練されており、このデータセットには多様な日常的オブジェクトが含まれている。この事前に訓練されたモデルをさらにカスタムトレーニングすることで、元のデータセットに含まれていないような特定の物体を検出することができる。
YOLO11 カスタム・トレーニングするには、検出したいオブジェクトの画像を含むラベル付きデータセットが必要だ。例えば、食料品店でさまざまな種類の果物を識別するモデルを構築したい場合、リンゴ、バナナ、オレンジなどのラベル付き画像を含むデータセットを作成することになる。データセットが準備できたら、バッチサイズ、学習率、エポックなどのパラメータを調整しながらYOLO11 学習させ、パフォーマンスを最適化することができる。
このアプローチにより、企業はYOLO11 訓練して、製造業における欠陥部品から保護プロジェクトにおける野生生物まで、あらゆるものを検出させることができ、自社のニーズにぴったり合ったモデルを作ることができる。
次に、物体検出の実際の使用例と、物体検出がさまざまな業界にどのような変化をもたらしているかを見てみよう。
自動運転車は、物体検出などのコンピューター・ビジョン・タスクを使用して、安全にナビゲートし、障害物を回避する。この技術は、歩行者、他の車両、穴ぼこ、道路の危険などを認識するのに役立ち、周囲の状況をよりよく理解することを可能にする。常に環境を分析することで、迅速な判断を下し、交通を安全に移動することができる。
X線、MRI、CTスキャン、超音波検査などの医療用画像診断技術は、人体の非常に詳細な画像を作成し、病気の診断や治療に役立てる。これらのスキャンは、放射線科医や病理医などの医師が病気を発見するために注意深く分析しなければならない大量のデータを生成する。しかし、すべての画像を詳細に確認するには時間がかかり、人間の専門家は疲労や時間の制約のために細部を見逃すことがある。
YOLO11 ような物体検出モデルは、臓器、腫瘍、異常など、医療スキャンにおける主要な特徴を高い精度で自動的に識別することで支援することができる。カスタム・トレーニングされたモデルは、バウンディング・ボックスで懸念領域を強調表示することができ、医師が潜在的な問題に迅速に集中できるようにします。これにより、作業負荷が軽減され、効率が向上し、迅速な洞察が得られます。
オブジェクト・トラッキングは、YOLO11サポートするコンピュータ・ビジョン・タスクであり、リアルタイムのモニタリングとセキュリティの強化を可能にする。これは、オブジェクトを識別し、フレームをまたいでその動きを継続的に追跡することで、オブジェクト検出を基盤としています。この技術は、様々な環境における安全性を向上させる監視システムで広く使用されています。
例えば、学校や託児所では、オブジェクト・トラッキングが子どもたちを監視し、迷子の防止に役立つ。セキュリティ・アプリケーションでは、制限区域への侵入者を検知したり、群衆の過密状態や不審な行動を監視したり、不正な行動が検知された場合にリアルタイムでアラートを送信したりする上で重要な役割を果たします。YOLO11トラッキング・システムは、物体の動きを追跡することで、セキュリティを強化し、監視を自動化し、潜在的な脅威への迅速な対応を可能にします。
ここでは、物体検出がさまざまな業界にもたらす主なメリットを紹介する:
これらの利点は、オブジェクト検出がさまざまなユースケースにどのような影響を与えるかを浮き彫りにする一方で、その実装に伴う課題を考慮することも重要である。主な課題をいくつか紹介しよう:
物体検出は、機械が画像やビデオ内の物体を検出し、位置を特定するのに役立つ、コンピュータ・ビジョンにおける画期的なツールである。自動運転車からヘルスケアまで、さまざまな分野で使用されており、作業をより簡単、安全、効率的にします。YOLO11ような新しいモデルにより、企業はカスタムオブジェクト検出モデルを簡単に作成し、特殊なコンピュータビジョンアプリケーションを作成することができます。
プライバシーの問題や物体が視界から隠れるなどの課題はあるが、物体検出は信頼できる技術である。タスクを自動化し、視覚データをリアルタイムで処理し、他のVision AIツールと統合するその能力は、最先端のイノベーションに欠かせないものとなっている。
詳しくは、GitHub リポジトリをご覧いただき、コミュニティにご参加ください。ソリューションのページで、自動運転車の AIや農業のコンピュータビジョンなどの分野のイノベーションをご覧ください。 yolo ライセンスオプションをチェックして、Vision AIプロジェクトを実現しましょう。🚀