用語集

画像認識

画像認識によってAIがどのようにビジュアルを分類・理解し、ヘルスケア、小売、セキュリティなどのイノベーションを推進しているかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

画像認識は、人工知能(AI)とコンピュータ・ビジョン(CV)の重要な一分野であり、機械が画像やビデオから視覚情報を識別・解釈することを可能にする。単にピクセルを見るだけでなく、視覚データ内に描かれた物体、人物、シーン、行動などのコンテンツを理解することが含まれる。この技術は無数のアプリケーションの基礎を形成し、システムが人間と同様の方法で世界を「見て」理解することを可能にする。

画像認識の仕組み

画像認識はその中核において、機械学習(ML)、特に深層学習(DL)アルゴリズムに大きく依存している。畳み込みニューラルネットワーク(CNN)は、画像から特徴の空間的階層を自動的かつ適応的に学習するように設計された、基本的な構成要素である。このプロセスでは通常、有名なImageNetデータセットのような、ラベル付けされた画像の膨大なデータセットでモデルを学習する。学習中、モデルは特定の視覚的パターンや特徴(エッジ、テクスチャ、形状など)を異なるラベルやカテゴリに関連付けることを学習する。ResNetのようなアーキテクチャーは、このようなタスクのパフォーマンスを大幅に向上させます。一旦学習されると、モデルは新しい未見の画像を分析し、その中に存在する物体や概念を予測することができます。これらの概念の理解は、Deep Learning Specializationのようなリソースを通じて深めることができます。分類にはImageNetが重要ですが、COCOのようなデータセットも、より広範な視覚理解タスクには不可欠です。効果的なモデル学習には、慎重な計画と実行が必要です。

関連用語との区別

画像認識は、他のコンピュータ・ビジョン・タスクに関連する一方で、いくつかの特定の能力を包含する、より広い用語として使用されることが多い。より狭いタスクと区別することが重要である:

画像認識は、特に画像の分類を指すこともあるが、多くの場合、画像コンテンツを理解する幅広い能力を意味し、アプリケーションのニーズによっては、検出やセグメンテーションを伴うこともある。

実世界での応用

画像認識は、様々な産業における幅広いアプリケーションを支えている:

この分野は、Computer Vision and Pattern Recognition Conference (CVPR)のような場やComputer Vision Foundation (CVF) のような組織で共有される研究によって常に進化しています。Google Cloud AI Blog で実践的な洞察をお読みください。

ツールとトレーニング

画像認識アプリケーションの開発では、多くの場合、専用のライブラリやフレームワークを使用する。主なテクノロジーは以下の通り:

すべて読む