用語集

コンボリューション

物体検出、画像認識、医療用画像処理などのタスクを正確に実行できるようにする、コンピュータ・ビジョンにおける畳み込みがどのようにAIに力を与えるかを学ぶ。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

畳み込みは、人工知能、特にコンピュータビジョン(CV)の分野で広く使われている基本的な数学演算である。畳み込みは畳み込みニューラルネットワーク(CNN)の核となる構成要素であり、これらのネットワークは画像などのグリッド状のデータから階層的なパターンを効果的に学習することができる。このプロセスでは、しばしばカーネルと呼ばれる小さなフィルターを入力信号や画像に適用し、特徴マップとして知られる出力を生成する。これらの特徴マップは、カーネルによって検出されたエッジ、テクスチャ、形状などの特定のパターンを強調する。

畳み込みの仕組み

小さな虫眼鏡(カーネル)を大きな画像(インプット)の上で滑らせることを想像してほしい。それぞれの位置で、虫眼鏡は画像の小さなパッチに焦点を合わせる。畳み込み演算は、カーネルによって定義された重みを使って、そのパッチ内のピクセル値の重み付き合計を計算する。この1つの計算値が出力特徴マップの1ピクセルとなる。カーネルは入力画像全体をシステマティックに一歩一歩スライドさせ(「ストライド」と呼ばれるパラメータで定義)、完全な特徴マップを作成する。異なるカーネルは異なる特徴を検出するように設計されています。例えば、あるカーネルは水平方向のエッジを検出し、別のカーネルはコーナーを検出するかもしれません。1つのレイヤーで複数のカーネルを使うことで、CNNは入力から豊富な特徴セットを抽出することができる。スタンフォード大学のCS231nコースのCNNに関するノートのようなリソースで、このプロセスを視覚的に説明することができます。

畳み込みの主な構成要素

  • 入力データ:入力データ:通常、マルチチャンネル画像(RGBチャンネルなど)、または前のレイヤーからの出力特徴マップ。
  • カーネル(フィルター):検出する特徴を定義する小さな重みの行列。これらの重みはモデルの学習過程で学習される。
  • 特徴マップ:畳み込み演算の出力で、検出された特徴の存在と空間的位置を表す。
  • ストライド:カーネルが各ステップで入力上をシフトするピクセル数。
  • パディング:出力特徴マップの空間寸法を制御するために、入力画像の境界の周りにピクセル(通常はゼロ)を追加すること。

畳み込みの応用

畳み込み層は、現代のAIアプリケーションの多くに不可欠である:

1.物体検出

物体検出では、CNNは畳み込みを使って、バウンディングボックスを用いて画像内の物体とその位置を特定する。次のようなモデル Ultralytics YOLOのようなモデルは、さまざまなスケールで特徴を抽出するために畳み込み層に大きく依存しており、さまざまな物体の検出を効率的に行うことができる。これは、歩行者、自動車、交通標識をリアルタイムで検出することが安全にとって不可欠な自律走行車のようなアプリケーションにとって非常に重要です。車載AIソリューションの詳細はこちら

2.医用画像解析

畳み込みは医療画像解析に役立っており、放射線技師がX線、CT、MRIなどのスキャン画像を解析するのに役立っている。CNNを使ったAIモデルは、腫瘍や骨折などの微妙な異常を、しばしば人間の専門家だけよりも速く、時には正確に検出することができる。例えば、腫瘍検出にYOLOv11を使用すると、この能力が実証されます。ヘルスケアにおけるAIソリューションの詳細をご覧ください。

コンボリューションと関連概念

畳み込みは、ニューラルネットワークの中で他の操作や概念と一緒に使われることが多い:

  • プーリング:畳み込みが特徴を抽出する一方で、プーリングレイヤー(マックスプーリングやアベレージプーリングなど)は特徴マップの空間次元を縮小(ダウンサンプリング)する。これにより、計算負荷が軽減され、小さな空間変化に対してよりロバストな特徴表現が可能になります。プーリングは領域内の特徴を要約し、コンボリューションはそれらを抽出します。詳細はCNNのプーリング層について説明したリソースにある。
  • 特徴抽出:これは、生データを機械学習に使用可能な数値的特徴に変換するプロセスを指す、より広い用語である。畳み込みは、特にCNNにおいて、格子状のデータから自動的に特徴を抽出するための、特殊で非常に効果的な手法である。
  • 完全連結レイヤー:局所的にカーネルを適用し、重みを共有する畳み込み層とは異なり、完全連結層は、前の層のすべての ニューロンを現在の層のすべてのニューロンに接続する。この層は通常、CNNアーキテクチャの最後に現れ、畳み込み層とプーリング層によって抽出された高レベルの特徴に基づいて、分類または回帰を実行する。ニューラル・ネットワーク(NN)の基本については、こちらをご覧ください。

畳み込みを理解することは、Ultralytics HUBで利用可能なものを含め、多くの最先端のAIモデルが視覚情報をどのように解釈しているかを把握するための鍵となる。以下のようなフレームワーク PyTorchTensorFlowなどのフレームワークは、畳み込み演算の効率的な実装を提供している。OpenCVのようなライブラリも、ぼかしや鮮明化のような従来の画像処理タスクにコンボリューションを利用している。

すべて読む