物体検出、画像認識、医療用画像処理などのタスクを正確に実行できるようにする、コンピュータ・ビジョンにおける畳み込みがどのようにAIに力を与えるかを学ぶ。
畳み込みは、人工知能、特にコンピュータビジョン(CV)の分野で広く使われている基本的な数学演算である。畳み込みは畳み込みニューラルネットワーク(CNN)の核となる構成要素であり、これらのネットワークは画像などのグリッド状のデータから階層的なパターンを効果的に学習することができる。このプロセスでは、しばしばカーネルと呼ばれる小さなフィルターを入力信号や画像に適用し、特徴マップとして知られる出力を生成する。これらの特徴マップは、カーネルによって検出されたエッジ、テクスチャ、形状などの特定のパターンを強調する。
小さな虫眼鏡(カーネル)を大きな画像(インプット)の上で滑らせることを想像してほしい。それぞれの位置で、虫眼鏡は画像の小さなパッチに焦点を合わせる。畳み込み演算は、カーネルによって定義された重みを使って、そのパッチ内のピクセル値の重み付き合計を計算する。この1つの計算値が出力特徴マップの1ピクセルとなる。カーネルは入力画像全体をシステマティックに一歩一歩スライドさせ(「ストライド」と呼ばれるパラメータで定義)、完全な特徴マップを作成する。異なるカーネルは異なる特徴を検出するように設計されています。例えば、あるカーネルは水平方向のエッジを検出し、別のカーネルはコーナーを検出するかもしれません。1つのレイヤーで複数のカーネルを使うことで、CNNは入力から豊富な特徴セットを抽出することができる。スタンフォード大学のCS231nコースのCNNに関するノートのようなリソースで、このプロセスを視覚的に説明することができます。
畳み込み層は、現代のAIアプリケーションの多くに不可欠である:
物体検出では、CNNは畳み込みを使って、バウンディングボックスを用いて画像内の物体とその位置を特定する。次のようなモデル Ultralytics YOLOのようなモデルは、さまざまなスケールで特徴を抽出するために畳み込み層に大きく依存しており、さまざまな物体の検出を効率的に行うことができる。これは、歩行者、自動車、交通標識をリアルタイムで検出することが安全にとって不可欠な自律走行車のようなアプリケーションにとって非常に重要です。車載AIソリューションの詳細はこちら
畳み込みは医療画像解析に役立っており、放射線技師がX線、CT、MRIなどのスキャン画像を解析するのに役立っている。CNNを使ったAIモデルは、腫瘍や骨折などの微妙な異常を、しばしば人間の専門家だけよりも速く、時には正確に検出することができる。例えば、腫瘍検出にYOLOv11を使用すると、この能力が実証されます。ヘルスケアにおけるAIソリューションの詳細をご覧ください。
畳み込みは、ニューラルネットワークの中で他の操作や概念と一緒に使われることが多い:
畳み込みを理解することは、Ultralytics HUBで利用可能なものを含め、多くの最先端のAIモデルが視覚情報をどのように解釈しているかを把握するための鍵となる。以下のようなフレームワーク PyTorchや TensorFlowなどのフレームワークは、畳み込み演算の効率的な実装を提供している。OpenCVのようなライブラリも、ぼかしや鮮明化のような従来の画像処理タスクにコンボリューションを利用している。