用語集

バックボーン

ディープラーニングにおけるバックボーンの役割を発見し、ResNetやViTのようなトップアーキテクチャを探求し、実際のAIアプリケーションを学ぶ。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

ディープラーニング、特にコンピュータビジョン(CV)の分野では、「バックボーン」とは、ニューラルネットワーク(NN)モデルの初期の基礎となる層のセットを指す。その主な目的は特徴抽出であり、画像のような生の入力データを処理し、コンパクトで有益な表現に変換することである。この表現はしばしば特徴マップと呼ばれ、入力から本質的なパターン、テクスチャー、形状を捉える。より高度な推論が行われる前に、最初の解釈を行う。この基礎的な処理は、その後のタスクのために視覚情報を理解し解釈するモデルの全体的な能力にとって重要である。

コア機能

典型的なバックボーンは、畳み込み層、プーリング層(空間次元を縮小する)、活性化関数(非線形性を導入する)を含む一連の層から構成される。入力データがこれらの層を通過するにつれて、ネットワークは徐々に階層的な特徴を学習する。初期の層はエッジや角のような単純な要素を検出し、より深い層はこれらの単純な特徴を組み合わせて、より複雑な構造、物体の一部、そして最終的には物体全体を認識する。バックボーンによって生成される出力は、元の入力から重要な情報を要約した高レベルの特徴マップのセットである。このプロセスは、データの意味的な意味を保持しながら、データの次元を効果的に削減し、多くの成功した深層学習モデルの基礎を形成する。

コンピュータ・ビジョン・モデルにおける役割

物体検出インスタンス分割姿勢推定などのタスク用に設計された高度なコンピュータビジョンモデルでは、バックボーンが本質的な特徴表現を提供する。しばしば「ネック」(特徴量の精緻化と集約を行う)と「ヘッド」(最終的なタスク予測を行う)と呼ばれる後続のコンポーネントは、バックボーンによって抽出された特徴量の上に構築される。例えば、検出ヘッドは、これらの洗練された特徴量を使用して、検出されたオブジェクトとそれらに対応するクラスの周囲のバウンディングボックスを予測する。バックボーンはこれらの後段とは異なり、入力データから強力な、多くの場合汎用的な特徴表現を生成することに主眼を置いている。一般的な手法としては、ImageNetのような大規模なデータセットで事前に訓練されたバックボーンを使用し、転送学習を使用して特定の下流タスク用に微調整することで、訓練プロセスを大幅に高速化する。

一般的なバックボーン・アーキテクチャ

いくつかの確立されたニューラルネットワークアーキテクチャは、特徴抽出における有効性が実証されているため、バックボーンとして頻繁に採用されている:

バックボーンの選択は、速度、計算コスト(FLOPs)、精度など、モデルの性能特性に大きな影響を与えることが、さまざまなモデルの比較で明らかになっています。次のようなフレームワークがあります。 PyTorchTensorFlowOpenCVのようなライブラリとともに、PyTorchやTensorFlowのようなフレームワークは、これらのバックボーンを実装し、利用するために不可欠なツールです。Ultralytics HUBのようなプラットフォームは、異なるバックボーンを持つモデルの使用プロセスをさらに簡素化する。

バックボーンと関連用語の区別

バックボーンをニューラルネットワーク全体やその他の特定のコンポーネントと混同しないことが重要だ:

  • ニューラルネットワーク全体:バックボーンは、より大きなネットワーク・アーキテクチャの一部分(通常は最初の特徴抽出部分)に過ぎない。ネットワーク全体には、タスク固有の予測を担当するネックとヘッドも含まれる。
  • 検出ヘッド:これはオブジェクト検出モデルの最終部分で、特徴量(バックボーンとネックの両方で処理されることが多い)を受け取り、バウンディングボックス座標とクラス確率を出力する。より汎用的なバックボーンとは異なり、タスクに特化している。
  • 特徴抽出器: バックボーンは特徴抽出器だが、「特徴抽出器」という用語は、特徴を抽出するネットワークのあらゆる部分、あるいはディープラーニング以外の独立した特徴抽出アルゴリズム(SIFTやHOGなど)を指すこともある。最新のディープラーニングアーキテクチャの文脈では Ultralytics YOLOのような最新のディープラーニングアーキテクチャの文脈では、「バックボーン」は特に最初の畳み込みベースを指す。

実世界での応用

バックボーンは、数え切れないほどのAIアプリケーションの基本コンポーネントである:

  1. 自律走行: 自動運転車のシステムは、カメラやLiDARセンサーからの入力を処理するために、堅牢なバックボーン(ResNetやEfficientNetの亜種など)に大きく依存している。抽出された特徴により、車両、歩行者、信号、車線の検出と分類が可能になり、Waymoなどの企業が開発したシステムに見られるように、安全なナビゲーションと意思決定に不可欠です。
  2. 医療画像解析:ヘルスケアAIソリューションでは、X線、CT、MRIなどの医療スキャンを解析するためにバックボーンが使用される。例えば、DenseNetのようなバックボーンは、肺炎の兆候を検出するために胸部X線から特徴を抽出したり、腫瘍の可能性を特定するためにCTスキャンから特徴を抽出したりする(「Radiology: AI」の関連研究)。これにより、放射線科医が診断や治療計画を立てる際に役立ちます。Ultralytics YOLO11のようなUltralyticsモデルは、強力なバックボーンを活用することで、腫瘍検出のようなタスクに適応させることができる。
すべて読む