用語集

コンピュータビジョン(CV)

コンピュータ・ビジョンでAIの可能性を解き放て!物体検出、ヘルスケア、自動運転車、そしてそれ以上の分野での役割を探求してください。詳細はこちら

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

コンピュータ・ビジョン(CV)は、人工知能(AI)の中の専門分野で、コンピュータやシステムがデジタル画像、ビデオ、その他の視覚入力から意味のある情報を導き出すことを可能にする。基本的には、人間の視覚的理解を再現し、機械が視覚データに基づいて「見て」、解釈し、意思決定できるようにすることを目的としている。これには、複雑なアルゴリズムとディープラーニング(DL)モデルを使用して視覚情報を処理し、オブジェクトを認識し、シーンを理解し、高レベルの洞察を抽出することが含まれる。明るさの調整やフィルターの適用など)画像データの強化や操作に主眼を置く単純な画像処理とは異なり、コンピュータービジョンは視覚内のコンテンツや コンテキストを理解しようとするものである。

AIと機械学習における重要性

コンピュータ・ビジョンは、現代の多くのAIや機械学習(ML)システムにとって基本的なものであり、視覚認識を通じて機械が物理的な世界と対話し、理解するために必要な機能を提供する。人間の視覚野に着想を得た畳み込みニューラルネットワーク(CNN)のような技術の登場は、CVに革命をもたらした。これらのネットワークは、膨大な量の視覚データから階層的な特徴を自動的に学習するモデルを可能にし、様々なコンピュータビジョンタスクの精度の大幅な向上につながった。この進歩により、以前は実現不可能であった高度なアプリケーションが可能になり、CVは現在のAI開発の礎石となり、我々の未来を変えるAIのユースケースの重要な原動力となっている。

主要概念と課題

コンピュータビジョンは、視覚データからさまざまなタイプの情報を抽出することを目的とした幅広いタスクを包含する。核となるタスクには次のようなものがある:

コンピュータ・ビジョンと関連分野の比較

コンピュータビジョンを関連分野と区別することは有益である:

  • 画像処理:低レベルでの画像操作に重点を置いており、多くの場合、CVの前処理として行われる。OpenCVのようなライブラリを使ったノイズ除去、コントラスト強調、フィルタリングなどがある。画像処理はピクセルを修正しますが、必ずしも画像の内容を解釈するわけではありません。コンピュータビジョンと画像処理の主な違いについては、こちらをご覧ください。
  • マシンビジョン(MV):CVと重複するが、MVは通常、自動検査、プロセス制御、ロボットガイダンスのための産業環境におけるビジョン技術の応用を指す。MVシステムは多くの場合、制御された環境で特定の照明とカメラのセットアップを行い、製造における品質検査のような特定のタスクのための信頼性とスピードに重点を置いています。マシンビジョンの詳細

テクノロジーとフレームワーク

コンピュータ・ビジョン・アプリケーションの開発は、様々なツール、ライブラリ、フレームワークに依存している:

  • ライブラリ OpenCV (Open Source Computer Vision Library)は、画像処理や古典的なCVタスクのための膨大なアルゴリズムコレクションを提供する基礎的なライブラリです。その他のライブラリには、Python 画像操作のためのPillowや、画像処理アルゴリズムのためのScikit-imageなどがある。
  • ディープラーニングフレームワークPyTorchおよび TensorFlowは、CVで使用されるものを含め、ディープラーニングモデルの構築とトレーニングのための主要なフレームワークです。
  • モデル YOLO Only Look Once)のような最先端のモデルは、効率的なリアルタイムの物体検出を提供する。ResNetのようなアーキテクチャは一般的なバックボーンであり、Vision Transformers(ViT)は新しいクラスのモデルとして脚光を浴びています。さまざまなYOLO モデルの性能を比較してください。
  • プラットフォーム: Ultralytics HUBのようなツールは、CVモデルのトレーニング、デプロイ、管理のプロセスを合理化し、クラウドトレーニングやデータセット管理のような機能を提供する。その他のプラットフォーム RoboflowWeights & Biasesなどのプラットフォームは、データ注釈や実験追跡のための補完的なツールを提供している。

実世界での応用

コンピュータビジョンのアプリケーションは、様々な分野でますます普及しています:

すべて読む