オブジェクト検出は、AIシステムが画像やビデオ内のオブジェクトを識別し、位置を特定することを可能にするコンピュータビジョン技術です。この技術は、単に画像を分類するだけにとどまらず、物体の正確な位置を特定し、その周囲にバウンディングボックスを描画することで、ビジュアルシーンにおける物体の「何」と「どこ」の両方を提供する。この機能は多くのAIアプリケーションの基本であり、機械が人間の視覚に近い方法で視覚世界を認識し、相互作用することを可能にする。
物体検出にはいくつかの重要な概念があり、これらのシステムがどのように機能するかを理解する上で極めて重要である。バウンディングボックスとは、検出された物体の周囲に描かれる矩形の枠のことで、物体の位置を視覚的に明確に表現する。もう一つの重要な指標はIntersection over Union (IoU)で、これは予測されたバウンディングボックスとグラウンドトゥルースのバウンディングボックスの重なりを測定し、検出の精度を評価するのに役立ちます。さらに、平均平均精度(mAP)は、複数のクラスにわたる精度と想起の両方を考慮することで、物体検出モデルの全体的なパフォーマンスを評価するために使用されます。
オブジェクト検出のアーキテクチャには、主に1段検出器と 2段検出器の2種類があります。Ultralytics YOLO のような1段検出器は、スピードと効率を重視して設計されており、画像全体を1回のパスで処理し、バウンディングボックスとクラス確率を同時に予測します。このため、迅速な処理が不可欠なリアルタイム・アプリケーションに最適です。対照的に、2ステージ検出器は、まず領域プロポーザルを生成し、次にこれらの領域を分類する。
物体検出は強力な技術であるが、関連するコンピュータ・ビジョンのタスクと区別することが重要である。画像分類では、画像全体に1つのラベルを割り当てることで、存在する主なオブジェクトやシーンを示す。セマンティック・セグメンテーションは、画像の各ピクセルを事前に定義されたカテゴリに分類することで、シーンの詳細なマップを提供する。一方、物体検出は、画像内の複数の物体を分類するだけでなく、バウンディングボックスを用いてそれらの位置を正確に特定することで、両方の側面を兼ね備えている。
物体検出はさまざまな産業で幅広く応用されており、ビジネスのあり方を変え、日常生活を向上させている。その代表的な例を2つ紹介しよう:
自動車産業において、物体検知は自律走行車の開発に不可欠である。自動運転車は、歩行者、他の車両、信号機、道路標識などをリアルタイムで識別・追跡するため、物体検知に依存している。これにより、車両は安全にナビゲートし、ブレーキ、加速、車線変更のタイミングなど、情報に基づいた判断を下すことができる。正確で迅速な物体検知は、自律走行システムの安全性と信頼性を確保するために不可欠です。自動運転車のAIについて詳しくはこちら。
物体検知は、様々なプロセスを自動化・改善することで、小売業界にも革命をもたらしている。例えば、自動化された小売店のチェックアウトでは、物体検知システムはショッピングカートに入れられた商品を識別し、自動的に請求システムを更新してチェックアウトプロセスを合理化することができる。これにより、待ち時間を短縮して顧客体験を向上させるだけでなく、在庫管理を改善し、ミスを減らすこともできる。さらに、物体検出は棚の監視にも使用でき、商品が適切に在庫され、陳列されていることを確認できます。
物体検出モデルを開発・展開するためのツールやフレームワークがいくつか提供されている。 Ultralytics YOLOUltralytics YOLO モデル(YOLOv8 など)は、ユーザフレンドリかつ効率的に設計されており、開発者はリアルタイムの物体検出モデルを簡単に学習・展開することができます。さらに、OpenCVは、画像およびビデオ処理用の関数の包括的なライブラリを提供しており、堅牢な物体検出アプリケーションの構築に不可欠です。
Ultralytics HUBは、大規模なコーディングを行うことなくオブジェクト検出を探求する人々のために、モデルのトレーニングとデプロイのためのノーコードプラットフォームを提供しています。これにより、様々なレベルの技術的専門知識を持つユーザーが、プロジェクトでオブジェクト検出の力を活用することができます。