用語集

バックボーン

ディープラーニングにおけるバックボーンの役割を発見し、ResNetやViTのようなトップアーキテクチャを探求し、実際のAIアプリケーションを学ぶ。

ディープラーニング、特にコンピュータビジョン（CV）の分野では、「バックボーン」とは、ニューラルネットワーク（NN）モデルの初期の基礎となる層のセットを指す。その主な目的は特徴抽出であり、画像のような生の入力データを処理し、コンパクトで有益な表現に変換することである。この表現はしばしば特徴マップと呼ばれ、入力から本質的なパターン、テクスチャー、形状を捉える。より高度な推論が行われる前に、最初の解釈を行う。この基礎的な処理は、その後のタスクのために視覚情報を理解し解釈するモデルの全体的な能力にとって重要である。

コア機能

典型的なバックボーンは、畳み込み層、プーリング層（空間次元を縮小する）、活性化関数（非線形性を導入する）を含む一連の層から構成される。入力データがこれらの層を通過するにつれて、ネットワークは徐々に階層的な特徴を学習する。初期の層はエッジや角のような単純な要素を検出し、より深い層はこれらの単純な特徴を組み合わせて、より複雑な構造、物体の一部、そして最終的には物体全体を認識する。バックボーンによって生成される出力は、元の入力から重要な情報を要約した高レベルの特徴マップのセットである。このプロセスは、データの意味的な意味を保持しながら、データの次元を効果的に削減し、多くの成功した深層学習モデルの基礎を形成する。

コンピュータ・ビジョン・モデルにおける役割

物体検出、インスタンス分割、姿勢推定などのタスク用に設計された高度なコンピュータビジョンモデルでは、バックボーンが本質的な特徴表現を提供する。しばしば「ネック」（特徴量の精緻化と集約を行う）と「ヘッド」（最終的なタスク予測を行う）と呼ばれる後続のコンポーネントは、バックボーンによって抽出された特徴量の上に構築される。例えば、検出ヘッドは、これらの洗練された特徴量を使用して、検出されたオブジェクトとそれらに対応するクラスの周囲のバウンディングボックスを予測する。バックボーンはこれらの後段とは異なり、入力データから強力な、多くの場合汎用的な特徴表現を生成することに主眼を置いている。一般的な手法としては、ImageNetのような大規模なデータセットで事前に訓練されたバックボーンを使用し、転送学習を使用して特定の下流タスク用に微調整することで、訓練プロセスを大幅に高速化する。

一般的なバックボーン・アーキテクチャ

いくつかの確立されたニューラルネットワークアーキテクチャは、特徴抽出における有効性が実証されているため、バックボーンとして頻繁に採用されている：

ResNet（残差ネットワーク）：より深いネットワークの学習を可能にするために残差結合を導入し、消失勾配問題に対処。(論文：arXiv:1512.03385）。
VGG：小さな（3x3）畳み込みフィルタを使ったシンプルで均一なアーキテクチャで知られる。(論文：arXiv:1409.1556）。
モバイルネット効率性と低レイテンシーを重視した、モバイルおよび組み込みビジョンアプリケーション向けの設計。(論文：arXiv:1704.04861）。
EfficientNet：ネットワークの深さ、幅、解像度を一様にスケーリングする複合スケーリング法を使用して、最適な効率を実現します。(論文: arXiv:1905.11946）。
ヴィジョン・トランスフォーマー（ViT）：元々NLPで成功したTransformerアーキテクチャを画像パッチのシーケンスに直接適用する。(論文：arXiv:2010.11929）。
CSPDarknet：クロスステージ・パーシャルネットワークを組み込んだダークネットの一種で、以下のようなモデルで効果的に使用されている。 Ultralytics YOLOv5などで効果的に使用され、スピードと精度のバランスをとっている。

バックボーンの選択は、速度、計算コスト（FLOPs）、精度など、モデルの性能特性に大きな影響を与えることが、さまざまなモデルの比較で明らかになっています。次のようなフレームワークがあります。 PyTorchや TensorFlow OpenCVのようなライブラリとともに、PyTorchやTensorFlowのようなフレームワークは、これらのバックボーンを実装し、利用するために不可欠なツールです。Ultralytics HUBのようなプラットフォームは、異なるバックボーンを持つモデルの使用プロセスをさらに簡素化する。