用語集

カプセルネットワークス(CapsNet)

カプセルネットワーク(CapsNets)を発見しよう:空間階層と特徴関係に優れた画期的なニューラルネットワークアーキテクチャ。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

CapsNetsと呼ばれるカプセルネットワークは、従来の畳み込みニューラルネットワーク(CNN)のいくつかの限界に対処するために設計された新しいタイプのニューラルネットワークアーキテクチャであり、特に画像内の空間階層と特徴間の関係を扱うことができる。プーリング演算によるスカラー出力を使用するCNNとは異なり、CapsNetsは特徴を表現するためにベクトルを使用するため、物体の向きや相対的な空間位置に関するより詳細な情報を捉えることができる。この能力により、CapsNetsは画像認識のような、物体の姿勢や空間的関係を理解することが重要なタスクにおいて特に効果的となる。

コア・コンセプト

CapsNetsは「カプセル」という概念を導入している。カプセルとは、活動ベクトル が物体や物体の一部など、特定のタイプの実体のさまざまな特性を表すニューロン のグループである。アクティビティ・ベクトルの長さは、エンティティが存在する確率を表し、その方向は、インスタンス化のパラメータ(例えば、位置、サイズ、方向)をエンコードする。あるレベルのアクティブなカプセルは、変換行列を介して、上位レベルのカプセルのインス タンス化パラメータの予測を行う。複数の予測が一致すると、上位レベルのカプセルがアクティブになる。このプロセスは "routing-by-agreement "として知られている。

畳み込みニューラルネットワーク(CNN)との主な違い

CapsNetsと畳み込みニューラルネットワーク(CNN)はどちらもコンピュータビジョン(CV)タスクで使用されるが、空間情報を処理するアプローチにおいて大きく異なる:

  • 特徴の表現:CNNは特徴を表現するのにスカラー値を使うが、CapsNetsはベクトルを使うため、物体の姿勢や特性に関するより詳細な情報を捉えることができる。
  • プーリング操作:CNNはしばしばマックス・プーリングを使うが、これは正確な空間情報の損失につながる。CapsNetsはダイナミック・ルーティングを使うことでこれを回避し、空間階層を保持する。
  • 等価性:CapsNetsは視点の変化に対して等変であるように設計されている。CNNは本質的に等変でないため、同様の結果を得るためにはデータ増強のようなテクニックが必要となる。

カプセル・ネットワークの利点

CapsNetsは従来のCNNに比べていくつかの利点がある:

  • 空間階層の取り扱いの向上:特徴をベクトルとして表現することで、CapsNetsはオブジェクトの部分間の空間的関係をよりよく理解することができる。
  • アフィン変換に対するロバスト性の強化:CapsNetsは、大規模なデータ補強を必要とせずに、様々な変形(回転、拡大縮小など)の下でオブジェクトを認識することができる。
  • より少ないデータでより良い汎化:CapsNetsは詳細な特徴情報を捉えることができるため、CNNと比較して少ない学習例で優れたパフォーマンスを達成できることが多い。

実世界での応用

カプセル・ネットワークは様々なアプリケーションで有望視されており、ディープラーニング(DL)分野を発展させる可能性を示している:

  • 医療画像 医療画像解析において、CapsNetsは異なる解剖学的構造間の空間的関係をよりよく理解することで、病気の診断精度を向上させることができる。例えば、腫瘍の形状、大きさ、臓器内の相対的な位置を分析することで、腫瘍をより正確に検出・分類することができる。
  • 自律走行車CapsNetsは、特に様々な視点やオクルージョンのような困難な条件下での物体検出と認識を改善することで、自律走行車の知覚システムを強化することができる。これにより、より安全で信頼性の高いナビゲーションが可能になります。
  • 顔認識顔認識システムにおいて、CapsNetsは、ポーズや表情が変化しても、顔の特徴間の空間的関係を正確に捉えることで、よりロバストな性能を提供することができる。

課題と今後の方向性

CapsNetsはその長所にもかかわらず、CNNに比べて計算複雑度が高く、アーキテクチャや学習手順を最適化するためのさらなる研究が必要であるなどの課題も抱えている。現在進行中の研究は、動的ルーティングの効率改善、新しいカプセルタイプの探求、画像認識以外の幅広いタスクへのCapsNetsの適用に重点を置いている。

人工知能(AI)の分野が進化を続ける中、カプセル・ネットワークは、よりロバストで汎用性の高いニューラルネットワーク・モデルを作成するための新たな可能性を提供する、エキサイティングな開発分野である。詳細な空間情報をキャプチャし、変換を処理する能力により、コンピュータ・ビジョンやその他のAIアプリケーションを進化させる貴重なツールとなっている。最先端のAIモデルを探求することに興味がある人のために、Ultralytics YOLO モデルは、この分野の最新の進歩のいくつかを組み込んだ最先端の物体検出アーキテクチャを提供します。さらに、Ultralytics HUBは、これらのモデルをトレーニングおよびデプロイするためのプラットフォームを提供し、高度なAIソリューションの開発と応用をさらに促進します。

すべて読む