X
YOLO Vision 2024 is here!
YOLO Vision 24
2024年9月27日
YOLO Vision 24
Free hybrid event
グリーンチェック
クリップボードにコピーされたリンク

コンピュータ・ビジョンの応用の仕組みを探る

コンピュータ・ビジョンの応用について深く掘り下げます。また、物体検出やセグメンテーションなど、様々なコンピュータ・ビジョンのタスクについても解説します。

コンピュータ・ビジョン・モデルの歴史を探ったとき、コンピュータ・ビジョンがどのように進化してきたか、そして今日の高度なビジョン・モデルに至る道筋を見た。現代のモデルは Ultralytics YOLOv8のような最新のモデルは、複数のコンピュータビジョンタスクをサポートし、様々なエキサイティングなアプリケーションで使用されています。 

この記事では、コンピュータビジョンとビジョンモデルの基礎について見ていきます。この記事では、コンピュータ・ビジョンと視覚モデルの基本的な仕組みと、様々な業界におけるその応用例について説明します。コンピュータビジョンの技術革新は至る所にあり、私たちの世界を静かに形作っています。ひとつひとつ解明していきましょう! 

コンピュータ・ビジョンとは?

人工知能(AI)は、人間の知能の一部を再現することを目的とした多くの技術を包括する用語である。そのようなAIのサブフィールドのひとつに、コンピューター・ビジョンがある。コンピューター・ビジョンは、機械に周囲の状況を見たり、観察したり、理解したりできる目を与えることに焦点を当てている。 

人間の視覚と同じように、コンピュータ・ビジョン・ソリューションは物体を区別し、距離を計算し、動きを検出することを目的としている。しかし、視覚と理解を助けるために生涯にわたる経験を持っている人間とは異なり、コンピューターは膨大な量のデータ、高解像度カメラ、複雑なアルゴリズムに依存している。 

図1.人間の視覚とコンピュータの視覚の比較。

コンピュータ・ビジョン・システムは、画像や動画などの視覚データを驚異的なスピードと精度で処理・解析することができる。膨大な量の視覚情報を迅速かつ正確に分析する能力により、コンピュータ・ビジョンは製造業から 医療に至るまで、さまざまな業界で強力なツールとなっている。

様々なコンピュータ・ビジョン・タスクをサポートするビジョン・モデル

コンピュータビジョンモデルは、あらゆるコンピュータビジョンアプリケーションの中核です。これは基本的に、機械に視覚情報を解釈・理解する能力を与えるために設計された、深層学習技術を駆使した計算アルゴリズムです。ビジョンモデルは、画像分類から 物体検出まで、重要なコンピュータビジョンタスクを可能にします。これらのタスクとユースケースを詳しく見てみましょう。 

画像分類

画像分類では、画像をあらかじめ定義されたクラスやカテゴリに分類し、ラベル付けする。視覚モデル YOLOv8のような視覚モデルは、ラベル付けされた画像の大規模なデータセットで学習することができる。学習中、モデルは各クラスに関連するパターンと特徴を認識するよう学習する。一旦学習されると、その特徴を分析し、学習されたパターンと比較することで、新しい未見の画像のカテゴリを予測することができる。 

図2.画像分類の例。

画像の分類にはさまざまな種類がある。例えば、医療画像を扱う場合、2値分類を使用して、画像を健康か病気のような2つのグループに分けることができます。もう1つのタイプは多クラス分類です。これは画像を多くのグループに分類するのに役立ちます。例えば、農場の動物を豚、ヤギ、牛のように分類することができます。あるいは、動物を哺乳類と鳥類に分類し、さらにライオン、トラ、ワシ、スズメなどの種に分類するように、動物をグループとサブグループに分類したいとします。

物体検出

物体検出とは、コンピュータ・ビジョンを用いて画像やビデオ・フレーム内の物体を識別し、位置を特定するプロセスである。物体検出は、物体の周囲にバウンディングボックスを描く「物体定位」と、各物体のカテゴリを識別する「物体分類」の2つのタスクで構成される。バウンディングボックスの注釈に基づき、ビジョンモデルは各オブジェクトカテゴリに特有のパターンと特徴を認識することを学習し、新しい未見の画像におけるこれらのオブジェクトの存在と位置を予測することができる。 

図3.YOLOv8 サッカー場での選手検出に使用される物体検出。

物体検出は、スポーツから海洋生物学に至るまで、さまざまな業界で多くの使用例がある。例えば、小売業では、アマゾンのJust Walk Outテクノロジーが物体検出を利用して、顧客が手に取った商品を特定することでチェックアウトを自動化している。コンピューター・ビジョンとセンサー・データの組み合わせにより、顧客は商品を手に取り、列に並ぶことなく店を出ることができる。 

その仕組みを詳しく見てみよう:

  • 天井に設置されたカメラが店内を動き回る客をとらえ、その映像はビジョンモデルによってリアルタイムで処理される。
  • オブジェクト検出は、顧客が手に取ってカゴに入れた商品を正確に検出し、それに応じて仮想カートを更新するために使用される。
  • 棚に設置された重量センサーが、商品の取り出しや入れ替えを検知し、精度を向上させる。
  • 顧客が店を出る際、物体検知と顔認識技術を使って顧客が店を出たことを確認し、クレジットカードなどの支払い情報を使って自動的に請求することができる。

セマンティック・セグメンテーションとインスタンス・セグメンテーション

セマンティックセグメンテーションとインスタンスセグメンテーションは、画像を意味のあるセグメントに分割するためのコンピュータビジョンのタスクである。セマンティックセグメンテーションは、意味的な意味に基づいてピクセルを分類し、カテゴリ内のすべてのオブジェクトを同じラベルを持つ単一のエンティティとして扱います。これは、"空 "や "海 "のような数えられないオブジェクトや、"葉 "や "草 "のようなクラスタのラベル付けに適している。

一方、インスタンスセグメンテーションは、検出された各オブジェクトに一意のラベルを割り当てることで、 同じクラスの異なるインスタンスを区別することができます。インスタンスセグメンテーションは、オブジェクトの数と独立性が重要な、数えられるオブジェクトのセグメンテーションに使用できます。これにより、より正確な識別と区別が可能になります。

図4.セマンティックセグメンテーションとインスタンスセグメンテーションの例。

セマンティックセグメンテーションとインスタンスセグメンテーションの対比を、自動運転車に関連する例でより明確に理解することができる。セマンティックセグメンテーションは、シーンの内容を理解する必要があるタスクに適しており、自律走行車では、横断歩道や交通標識など、道路上の特徴を分類するために使用できる。一方、インスタンスセグメンテーションは、自律走行車において、個々の歩行者、車両、障害物を識別するために使用できる。 

ポーズ推定

ポーズ推定は、画像やビデオ内のオブジェクトのポーズのキーポイントを検出し、追跡することに焦点を当てたコンピュータビジョンのタスクです。人間のポーズ推定に最も一般的に使用され、キーポイントには肩や膝などの領域が含まれます。人間のポーズを推定することは、様々なアプリケーションにとって重要な行動や動作を理解し、認識するのに役立ちます。

図5. YOLOv8 を使った姿勢推定の例。

スポーツの世界では、選手の動きを分析するためにポーズ推定を利用することができる。NBAでは、試合中の選手の動きやポジションを研究するためにポーズ推定を使っている。肩、肘、膝、足首などの重要なポイントを追跡することで、ポーズ推定は選手の動きに関する詳細な洞察を提供します。これらの洞察は、コーチがより良い戦略を立て、トレーニングプログラムを最適化し、試合中にリアルタイムで調整を行うのに役立つ。また、データは選手の疲労や怪我のリスクを監視し、選手の健康とパフォーマンス全体を向上させるのに役立ちます。

配向バウンディングボックスによる物体検出

Oriented Bounding Boxes Object Detection(OBB)は、回転した長方形を使用して、画像内のオブジェクトを正確に識別し、位置を特定します。画像の軸に合わせる標準的なバウンディングボックスとは異なり、OBBはオブジェクトの向きに合わせて回転します。そのため、完全な水平や垂直ではないオブジェクトに特に有効です。OBBは、混雑した環境での重なりを防ぐために、回転したオブジェクトを正確にピンポイントで分離するのに適しています。

図6.YOLOV8 を用いた、ボートの航空画像上での配向バウンディングボックス検出の例。

海上監視では、船舶の識別と追跡がセキュリティと資源管理の鍵となる。OBB検出は、船舶が密集していたり、様々な角度を向いている場合でも、船舶の正確な位置特定に使用できます。航路の監視、海上交通の管理、港湾業務の最適化に役立ちます。また、ハリケーンや原油流出などの災害発生後、船舶やインフラの損傷を迅速に特定・評価することで、災害対応にも役立ちます。

物体追跡

これまで、画像を扱うコンピュータビジョンのタスクについて説明してきた。オブジェクト追跡は、ビデオのフレーム全体を通してオブジェクトを追跡することができるコンピュータビジョンタスクです。検出アルゴリズムを用いて最初のフレームでオブジェクトを特定することから始まり、ビデオ中を移動するオブジェクトの位置を連続的に追跡します。オブジェクトトラッキングには、正確なトラッキングを維持するために、オブジェクト検出、特徴抽出、動き予測などの技術が含まれます。

図7.YOLOv8 、魚を追跡する。

YOLOv8 のような視覚モデルは、海洋生物学における魚の追跡に使用できる。水中カメラを使って、研究者は自然の生息地における魚の動きや行動を監視することができる。このプロセスは、最初のフレームで個々の魚を検出することから始まり、ビデオ全体を通してその位置を追跡する。魚の追跡は、回遊パターン、社会行動、環境との相互作用を科学者が理解するのに役立つ。また、魚の分布と豊度に関する洞察を提供することで、持続可能な漁業を支援する。

コンピュータ・ビジョンの最終章

コンピュータ・ビジョンは、私たちのテクノロジーの使い方や世界との関わり方を積極的に変化させている。ディープラーニングモデルと複雑なアルゴリズムを使用して画像やビデオを理解することにより、コンピュータビジョンは産業界が多くのプロセスを合理化するのに役立っています。物体検出や物体追跡のようなコンピュータビジョンのタスクは、これまで想像もつかなかったようなソリューションを生み出すことを可能にしています。コンピュータ・ビジョンの技術が向上し続けるにつれて、将来はさらに多くの革新的なアプリケーションが登場することでしょう! 

一緒に学び、成長しましょう!当社のGitHubリポジトリで、AIへの貢献をご覧ください。自動運転車や 農業などの産業をAIでどのように再定義しているかをご覧ください。🚀

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう