用語集

コンボリューション

物体検出、画像認識、医療用画像処理などのタスクを正確に実行できるようにする、コンピュータ・ビジョンにおける畳み込みがどのようにAIに力を与えるかを学ぶ。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

畳み込みは、多くのコンピュータ・ビジョン・アプリケーションにおける基本的な操作であり、畳み込みニューラルネットワーク(CNN)の主要な構成要素である。カーネルとも呼ばれるフィルターを画像などの入力に適用し、特定の特徴を抽出する。このプロセスにより、元の入力における特徴の存在を強調する特徴マップが作成される。畳み込みは、モデルがエッジ、テクスチャ、形状などのパターンを識別するのに役立ち、これは物体検出画像認識医療画像解析などのタスクに不可欠である。

畳み込みの仕組み

畳み込み処理では、入力データ上でフィルタをスライドさせる。各位置で、フィルターは入力の対応する部分と要素ごとの乗算を行う。これらの乗算の結果は合計され、出力特徴マップに1つの値が生成される。入力全体にわたってこの処理を繰り返すことで、フィルタの設計に基づく特定の特徴を強調した新しい表現が作成される。例えば、垂直エッジを検出するように設計されたフィルタは、垂直エッジが強調された特徴マップを生成します。フィルタは、単純なエッジから複雑なパターンまで、さまざまな特徴を検出するように設計することができる。

畳み込みの主な構成要素

いくつかの重要なコンポーネントが畳み込み演算を定義している:

  • フィルター(カーネル):入力データから特徴を抽出するための小さな行列。各フィルタは特定の種類の特徴を検出するように設計されている。
  • 特徴マップ:畳み込み演算の出力で、フィルターによって検出された特徴の存在を強調する。フィーチャーマップはニューラルネットワークの下流のタスクに不可欠である。
  • ストライド:フィルターが各ステップで移動するピクセル数。ストライドを大きくすると特徴マップは小さくなる。
  • パディング:特徴マップのサイズを制御するために、入力の周囲に余分なピクセルを追加すること。パディングは、出力サイズを縮小することなく、入力のエッジにフィルタを適用できるようにします。

畳み込みの応用

畳み込みは、様々なAIや機械学習アプリケーション、特にコンピュータビジョンで広く使われている。以下に2つの顕著な例を挙げる:

1.物体検出

物体検出において、畳み込みは画像内の物体を識別し、位置を特定するのに役立つ。次のようなモデル Ultralytics YOLOのようなモデルは、画像から階層的な特徴を抽出するために畳み込みレイヤーを使用する。これらの特徴は、複数の物体を検出し、バウンディングボックスを使用してその位置を決定するために使用される。例えば、自動運転車では、コンボリューションによって歩行者、交通標識、他の車両を検出することができます。自動運転技術におけるビジョンAIの役割については、こちらをご覧ください。

2.メディカルイメージング

コンボリューションは、X線やMRIなどの医療画像の解析において重要な役割を果たす。畳み込みレイヤーを適用することで、AIモデルは腫瘍や骨折などの異常を高い精度で検出することができる。これらの技術は、放射線科医がより迅速かつ正確に病気を診断できるよう支援するため、医療画像解析に使用されている。

コンボリューションと関連概念

コンボリューションは、プーリングや特徴抽出のような関連する概念とともに議論されることが多い。畳み込みがフィルタを適用することで特徴を抽出するのに対して、プーリングはダウンサンプリングによって特徴マップの次元を減らします。特徴抽出は、コンボリューションとプーリングの両方を包含する、より広い用語であり、生データから意味のある情報を導き出す他の技術も含まれる。

実世界でのメリット

畳み込みは、その効率性と柔軟性により、現代のAIアプリケーションにおいて不可欠なものとなっている。Ultralytics HUBのようなプラットフォームにより、ユーザーはリアルタイムの物体認識やビデオ監視などのタスクにコンボリューションを活用したモデルをトレーニングし、展開することができる。さらに、GPUの使用などの最適化により、大規模なデータセットの高速処理とスケーラビリティが可能になり、コンボリューションは実世界のアプリケーションで実用的なものとなっている。

すべて読む