用語集

残留ネットワーク(ResNet)

ResNetsが消失勾配を解決することでディープラーニングにどのような革命をもたらし、画像解析やNLPなどのための超ディープネットワークを可能にしているかをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Residual Networks(通称ResNet)は、Microsoft Researchの Kaiming He氏らによって開発された画期的な畳み込みニューラルネットワーク(CNN)アーキテクチャである。ResNetは、2015年の論文「Deep Residual Learning for Image Recognition」で紹介され、深層学習(DL)における大きな課題である「劣化問題」に対処した。この問題は、非常に深いネットワークにさらにレイヤーを追加すると、より深いモデルがより良いパフォーマンスを示すはずだという期待に反して、学習誤差が大きくなる場合に発生する。ResNetの技術革新により、これまで実現可能であったよりも大幅に深いネットワークのトレーニングに成功し、さまざまなコンピュータビジョン(CV)タスクの最先端を大きく前進させることができました。

レスネットの仕組み接続をスキップする

ResNetの核となるアイデアは、"スキップ接続 "または "ショートカット接続 "の導入である。従来のディープネットワークでは、各レイヤーは次のレイヤーに順次フィードされる。ResNetはこれを変更し、ある層のブロックの入力をそのブロックの出力に追加できるようにした。これにより "残差ブロック "が形成され、各レイヤーは基礎となるマッピング全体を直接学習するのではなく、残差マッピング(入力と希望する出力の差)を学習する。最適な関数が(出力が入力と同じであるべき)同一性マッピングに近い場合、ネットワークにとっては、非線形層を通して同一性マッピングそのものを学習するよりも、(積み重ねられた層の重みをゼロに向けて駆動することによって)残差をゼロにすることを学習する方が簡単である。

これらのスキップ接続は、バックプロパゲーション中の勾配フローを促進し、非常に深いネットワークをしばしば悩ませる消失勾配問題を緩和します。これにより、数百から数千のレイヤーを持つネットワークの構築と効果的な学習が可能になり、ImageNetのような困難なベンチマークデータセットで目覚ましい精度向上を達成した。

キーコンセプト

  • 残余ブロック:ResNetの基本的な構成単位で、いくつかの畳み込み層と、ブロックの入力をその出力に加えるスキップ接続で構成される。
  • スキップ接続(ショートカット):1つまたは複数のレイヤーをバイパスする直接接続で、グラデーションフローとアイデンティティマッピングの学習が容易になります。
  • アイデンティティ・マッピング:レイヤーやブロックが、単に入力を変更せずに通過させること。スキップ接続は、必要であれば、残留ブロックがアイデンティティマッピングを近似することを容易にする。
  • 劣化問題:ResNetの残差学習により、より深いネットワークの性能が、より浅いネットワークよりも悪くなる(学習誤差やテスト誤差が大きくなる)現象。

コンピュータ・ビジョンにおける関連性

ResNetアーキテクチャは、画像分類以外の多くのコンピュータ・ビジョン・タスクの標準的なバックボーンとなった:

  • 物体検出:Faster R-CNNのような多くの検出モデルや、以下のようなシステムで使用されている亜種があります。 Ultralytics YOLOモデル(例えば RT-DETRなど)のような多くの検出モデルは、特徴抽出にResNetバックボーンを利用しています(物体検出用語集)。
  • 画像セグメンテーション:Mask R-CNNのようなアーキテクチャは、ピクセルレベルの分類に必要な豊富な空間的特徴を抽出するためにResNetを採用することが多い(Image Segmentation glossary)。

画像から強力な特徴を抽出する能力により、非常に汎用性が高く、広く採用されているアーキテクチャとなった。

実世界での応用

  1. 医療画像解析:ResNetは、腫瘍や糖尿病性網膜症などの異常を検出するための医療スキャン(X線、CT、MRI)の分析に広く使用されています。ResNetが可能にする深さにより、モデルは病気の兆候を示す複雑なパターンを学習することができ、放射線科医の診断に役立ちます。放射線学におけるAIの関連アプリケーションを探索し、医療画像解析の分野についての詳細を学ぶことができます。NIHのBridge2AIプログラムのようなイニシアチブでは、このような高度なモデルがしばしば活用されています。
  2. 自律走行 自動運転車の知覚システムは、歩行者、車両、信号機、道路標識のリアルタイムの物体検出と認識のために、ResNetベースのアーキテクチャに依存することが多い。ディープResNetモデルのロバスト性と精度は、複雑な運転シナリオにおける安全性にとって極めて重要である(AI in Automotive solutions)。Waymoのような企業は、ロバストな知覚システムの重要性を詳しく説明しています。

他のアーキテクチャとの比較

  • VGGNet:VGGNetは単純な3x3の畳み込みを使って深さの利点を示したが、勾配が消失するため、非常に深いネットワークの収束に苦労した。ResNetはこの限界に直接対処した(Vision AI HistoryブログVGG論文)。
  • デンスネット:DenseNetは各レイヤーをフィードフォワード方式で他のレイヤーと接続し、特徴の再利用を促進する。これはResNetの加算スキップ接続とは異なる。どちらも情報の流れを改善することを目的としているが、使用するメカニズムは異なる(DenseNet論文)。
  • ヴィジョン・トランスフォーマー(ViT): ViTのような最近のアーキテクチャは、ResNetの畳み込みアプローチとは異なり、注意メカニズムを使用しており、多くのベンチマークで競争力のある、または優れた性能を示していますが、ResNetは依然として影響力があり、広く使用されています。

ツールと実装

ResNetアーキテクチャは、以下のような主要なディープラーニングフレームワークで容易に利用できます。 PyTorchPyTorch 公式サイト)や TensorFlowTensorFlow 公式サイト)。多くの場合ImageNetで訓練された事前訓練済みモデルは、torchvisionのようなライブラリからアクセス可能で、効果的な転移学習を可能にする。Ultralytics HUBのようなプラットフォームでは、ResNetベースのものを含む様々なアーキテクチャを活用して、カスタムモデルをトレーニングし、デプロイすることができるUltralytics HUBドキュメント)。スタンフォード大学のCS231nやDeepLearning.AIが提供するようなコースで、CNNに関するさらなる教育リソースを見つけることができる。

すべて読む