畳み込みは、多くのコンピュータ・ビジョン・アプリケーションにおける基本的な操作であり、畳み込みニューラルネットワーク(CNN)の主要な構成要素である。カーネルとも呼ばれるフィルターを画像などの入力に適用し、特定の特徴を抽出する。このプロセスにより、元の入力における特徴の存在を強調する特徴マップが作成される。畳み込みは、モデルがエッジ、テクスチャ、形状などのパターンを識別するのに役立ち、これは物体検出、画像認識、医療画像解析などのタスクに不可欠である。
畳み込み処理では、入力データ上でフィルタをスライドさせる。各位置で、フィルターは入力の対応する部分と要素ごとの乗算を行う。これらの乗算の結果は合計され、出力特徴マップに1つの値が生成される。入力全体にわたってこの処理を繰り返すことで、フィルタの設計に基づく特定の特徴を強調した新しい表現が作成される。例えば、垂直エッジを検出するように設計されたフィルタは、垂直エッジが強調された特徴マップを生成します。フィルタは、単純なエッジから複雑なパターンまで、さまざまな特徴を検出するように設計することができる。
いくつかの重要なコンポーネントが畳み込み演算を定義している:
畳み込みは、様々なAIや機械学習アプリケーション、特にコンピュータビジョンで広く使われている。以下に2つの顕著な例を挙げる:
物体検出において、畳み込みは画像内の物体を識別し、位置を特定するのに役立つ。次のようなモデル Ultralytics YOLOのようなモデルは、画像から階層的な特徴を抽出するために畳み込みレイヤーを使用する。これらの特徴は、複数の物体を検出し、バウンディングボックスを使用してその位置を決定するために使用される。例えば、自動運転車では、コンボリューションによって歩行者、交通標識、他の車両を検出することができます。自動運転技術におけるビジョンAIの役割については、こちらをご覧ください。
コンボリューションは、X線やMRIなどの医療画像の解析において重要な役割を果たす。畳み込みレイヤーを適用することで、AIモデルは腫瘍や骨折などの異常を高い精度で検出することができる。これらの技術は、放射線科医がより迅速かつ正確に病気を診断できるよう支援するため、医療画像解析に使用されている。
コンボリューションは、プーリングや特徴抽出のような関連する概念とともに議論されることが多い。畳み込みがフィルタを適用することで特徴を抽出するのに対して、プーリングはダウンサンプリングによって特徴マップの次元を減らします。特徴抽出は、コンボリューションとプーリングの両方を包含する、より広い用語であり、生データから意味のある情報を導き出す他の技術も含まれる。
畳み込みは、その効率性と柔軟性により、現代のAIアプリケーションにおいて不可欠なものとなっている。Ultralytics HUBのようなプラットフォームにより、ユーザーはリアルタイムの物体認識やビデオ監視などのタスクにコンボリューションを活用したモデルをトレーニングし、展開することができる。さらに、GPUの使用などの最適化により、大規模なデータセットの高速処理とスケーラビリティが可能になり、コンボリューションは実世界のアプリケーションで実用的なものとなっている。