用語集

バックボーン

ディープラーニングにおけるバックボーンの役割を発見し、ResNetやViTのようなトップアーキテクチャを探求し、実際のAIアプリケーションを学ぶ。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

ディープラーニング、特にコンピュータービジョンの領域では、「バックボーン」という用語は、特徴抽出を担うニューラルネットワークの重要な部分を指す。バックボーンは、ネットワークの残りの部分が構築される土台のようなものだと考えてほしい。バックボーンは画像などの生の入力データを受け取り、それを特徴マップとして知られる構造化されたフォーマットに変換する。これらの特徴マップは、エッジ、テクスチャ、形状など、入力に関する重要な情報をキャプチャし、モデルが複雑な視覚データを理解・解釈できるようにする。基本的な機械学習の概念に精通しているユーザーにとって、バックボーンは、入力データの階層的表現を学習するニューラルネットワークの初期層として理解することができる。

バックボーンの役割と重要性

バックボーンは、ディープラーニングモデルの全体的な性能と効率を決定する上で重要な役割を果たす。これは通常、畳み込み演算、プーリング、アクティブ化の複数のレイヤーで構成される。畳み込み層は入力データから特徴を抽出する役割を担い、プーリング層は特徴マップの空間的な次元を縮小し、モデルをより計算効率の高いものにする。活性化関数はネットワークに非線形性を導入し、複雑なパターンの学習を可能にする。バックボーンの出力である特徴マップは、物体検出のための検出ヘッドや 画像セグメンテーションのためのセグメンテーションモジュールなど、ネットワークの後続部分に供給される。バックボーンによって抽出された特徴の質は、モデルが意図したタスクを正確に実行する能力に直接影響する。

一般的なバックボーン・アーキテクチャ

いくつかのバックボーン・アーキテクチャは、様々なタスクにおいて有効であるため、コンピュータ・ビジョンの分野で人気を博している。注目すべき例としては、以下のようなものがある:

  • 残差ネットワーク(ResNet): ResNetは残差結合の概念を導入し、消失勾配問題を緩和することで非常に深いネットワークの学習を可能にした。ResNetアーキテクチャは、画像分類、物体検出、およびセグメンテーションタスクにおいて顕著な性能を示している。
  • ヴィジョン・トランスフォーマー(ViT): ViTアーキテクチャは、もともと自然言語処理用に開発されたトランスフォーマ・モデルをコンピュータ・ビジョンのタスクに応用したものである。ViTは画像をパッチに分割し、それらをシーケンスとして処理することで、画像内の長距離依存関係を捉えることを可能にする。

バックボーンの実世界での応用

バックボーンは、実世界のさまざまなAIアプリケーションの基本であり、機械が人間と同様の方法で視覚データを「見て」解釈することを可能にする。具体的な例を2つ紹介しよう:

自律走行車

自動運転車では、バックボーンはカメラやその他のセンサーからの視覚データを処理するために使用され、車両が周囲の状況を認識できるようにする。例えば Ultralytics YOLOモデルでは、効率的なバックボーンを利用して、歩行者、他の車両、交通標識などのオブジェクトをリアルタイムで検出します。この情報は、車両のナビゲーション・システムが情報に基づいた判断を下し、安全運転を確保するために極めて重要である。

ヘルスケア

医用画像解析では、X線、MRI、CTスキャンなどの医用画像から特徴を抽出するためにバックボーンが使用される。これらの特徴は、病気の診断、異常の検出、解剖学的構造のセグメンテーションなどのタスクに使用できる。例えば、脳腫瘍検出データセットのような脳腫瘍画像のデータセットに対してバックボーンを学習させることで、腫瘍の特定や局在化に役立つ関連する特徴を学習させることができる。

バックボーンの選択

特定のアプリケーションに適したバックボーンを選択するかどうかは、タスクの複雑さ、利用可能な計算リソース、希望する精度など、いくつかの要因に左右される。モバイル機器やエッジAIアプリケーションのようなリソースに制約のある環境では、パラメータの少ない軽量なバックボーンが好まれる場合がある。一方、高い精度が要求されるタスクでは、より深く複雑なバックボーンが必要になる場合があります。

バックボーンとその他のコンポーネント

バックボーンをニューラルネットワークの他のコンポーネントと区別することは重要である。バックボーンは特徴を抽出するが、検出ヘッドやセグメンテーションモジュールなど、ネットワークの他の部分は、それらの特徴に基づいて予測を行う。バックボーンはネットワークの目のようなもので、生の視覚情報を提供し、他のコンポーネントは脳のようなもので、その情報を解釈して特定のタスクを実行する。さらに、転移学習の概念はしばしばバックボーンに適用され、ImageNetのような大規模なデータセットで事前に訓練されたバックボーンが、新しいタスクの訓練の出発点として使用される。これにより、モデルは事前学習データセットから学習した知識を活用し、パフォーマンスを向上させ、学習時間を短縮することができる。Ultralytics HUBのようなツールは、さまざまなバックボーンを試してカスタムモデルをトレーニングするプロセスを簡素化します。

すべて読む