用語集

画像認識

画像認識によってAIがどのようにビジュアルを分類・理解し、ヘルスケア、小売、セキュリティなどのイノベーションを推進しているかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

画像認識は、人工知能(AI)とコンピュータ・ビジョン(CV)の重要な一分野であり、機械が画像やビデオから視覚情報を識別・解釈することを可能にする。単にピクセルを見るだけでなく、視覚データ内に描かれた物体、人物、シーン、行動などのコンテンツを理解することが含まれる。この技術は無数のアプリケーションの基礎を形成し、システムが人間と同様の方法で世界を「見て」理解することを可能にする。

画像認識の仕組み

画像認識はその中核において、機械学習(ML)、特に深層学習(DL)アルゴリズムに大きく依存している。畳み込みニューラルネットワーク(CNN)は、画像から特徴の空間的階層を自動的かつ適応的に学習するように設計された、基本的な構成要素である。このプロセスでは通常、ImageNetデータセットのような、ラベル付けされた画像の膨大なデータセットでモデルを学習する。トレーニング中、モデルは特定の視覚的パターンや特徴を異なるラベルやカテゴリに関連付けることを学習する。一度学習すれば、モデルは新しい未見の画像を分析し、その中に存在する物体や概念を予測することができる。

関連用語との区別

他のコンピュータ・ビジョン・タスクと関連しているが、画像認識には特有のニュアンスがある:

実世界での応用

画像認識は、様々な産業における幅広いアプリケーションを支えている:

  • ヘルスケア 医療画像解析に使用され、放射線科医がX線、CTスキャン、MRIから腫瘍や骨折などの異常を検出するのを助け、早期診断につながる可能性がある。例えば、医療画像における腫瘍検出などのタスクのためにモデルをトレーニングすることができる。
  • 小売業バーコードなしで商品を識別する自動レジシステム、在庫レベルの監視による小売店の在庫管理の強化、店舗での顧客行動の分析などのアプリケーションを可能にします。
  • セキュリティと監視:本人確認や入退室管理のための顔認識システムに電力を供給し、ビデオフィードから侵入や異常な行動を検出し、盗難防止のためのコンピュータビジョンなどのシステムに貢献する。
  • 自律走行車: 自動運転車のAIが歩行者、他の車両、信号、道路標識を認識し、安全なナビゲーションを可能にするために不可欠。
  • コンテンツモデレーション:ソーシャルメディア・プラットフォームやオンライン・サービスは、画像認識を用いて、AI倫理の原則に基づき、ディープフェイクやポリシー違反の画像など、不適切または有害なコンテンツを自動的に検出し、フィルタリングする。

ツールとテクノロジー

画像認識システムの開発には、多くの場合、専用のツールやフレームワークを使用する必要がある。OpenCVのようなライブラリーは必要不可欠な画像処理機能を提供し、一方 PyTorchTensorFlowなどのディープラーニングフレームワークは、複雑なニューラルネットワークモデルの作成とトレーニングのためのビルディングブロックを提供する。Ultralytics HUBのようなプラットフォームは、認識や分類タスクに使用されるものを含め、コンピュータビジョンモデルのトレーニング、デプロイ、管理のプロセスを合理化します。

すべて読む