畳み込みニューラルネットワーク(CNN)は、主に画像や動画などのグリッド状のデータを処理するために設計された、特殊なタイプのニューラルネットワーク(NN)である。従来のニューラルネットワークとは異なり、CNNは畳み込みの原理を活用して、入力データから特徴の空間階層を自動的に学習する。このため、コンピュータ・ビジョン(CV)のタスクに非常に効果的であり、機械が視覚情報を解釈する方法を大幅に進歩させ、現代の多くの人工知能(AI)アプリケーションに力を与えている。
コア・コンポーネントと機能
CNNは通常、視覚入力から情報を抽出・処理するために協働する複数の異なる層で構成される:
- 畳み込みレイヤー:コアとなる構成要素。入力画像全体にフィルター(カーネル)を適用し、エッジ、コーナー、テクスチャーなどの特定のパターンを強調する特徴マップを作成する。畳み込み演算により、ネットワークはタスクに関連する特徴を学習する。
- 活性化関数:畳み込み層の後に適用され、ReLU(Rectified Linear Unit)やLeaky ReLUのような関数は非線形性を導入し、ネットワークがデータのより複雑な関係を学習できるようにする。さまざまな活性化関数の詳細については、こちらをご覧ください。
- プーリングレイヤー:これらのレイヤーは、特徴マップの空間次元(幅と高さ)を減らし、計算負荷を軽減し、学習した特徴を位置の変動に対してよりロバストにするのに役立ちます。一般的なプーリング技法には、マックスプーリングやアベレージプーリングがあり、プーリング手法の概要などのリソースで詳しく説明されています。
- 完全接続層:これらの層は、畳み込み層とプーリング層によって抽出された高レベルの特徴を、標準的なフィードフォワード・ニューラル・ネットワークの層と同様に、分類または回帰タスクに使用する。
他のニューラルネットワークとの主な違い
CNNは他のニューラルネットワークと基本的な概念を共有しながらも、ユニークな特徴を持っている:
- 空間階層学習:CNNはその畳み込み層と局所受容野のおかげで、画像のようなデータ中の空間パターンや階層を認識することに優れている。標準的なNNは入力特徴を独立に扱うことが多く、空間的な文脈が失われる。
- パラメータ共有:フィルターは畳み込み層で入力画像全体にわたって共有されるため、完全接続ネットワークに比べてパラメータ数が大幅に削減され、効率が向上する。
- ユースケース・フォーカスCNNは画像やビデオ解析タスクに最適なアーキテクチャである。対照的に、リカレント・ニューラル・ネットワーク(RNN)は、自然言語処理(NLP)や時系列分析のためのテキストのようなシーケンシャルなデータに適しています。
実世界での応用
CNNは多くの領域で目覚ましい成功を収めている。以下はその顕著な2つの例である:
- 医療画像解析:CNNは、X線、CTスキャン、MRIを解析し、腫瘍や骨折のような微妙な異常を検出することで、医療専門家を支援する。これにより、より迅速で正確な診断が可能になる可能性があり、ヘルスケアにおけるAIに大きく貢献している。PubMed Centralのようなプラットフォームで利用可能な研究に見られるように、研究は限界に挑戦し続けている。
- 自律走行車:自動運転車は、リアルタイムの物体検出(歩行者、自動車、交通標識の識別)と画像セグメンテーション(道路車線、障害物の理解)のためにCNNに大きく依存している。この視覚認識は、複雑な環境での安全なナビゲーションに不可欠であり、自動運転車におけるAIの中核を形成している。