用語集

タン(双曲線タンジェント)

ニューラルネットワークにおけるTanh活性化関数のパワーをご覧ください。AIが複雑なデータをゼロ中心の効率でモデル化する方法を学ぶ!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Tanh(ハイパーボリックタンジェント)は、人工知能(AI)や機械学習(ML)、特にニューラルネットワーク(NN)で広く使われている活性化関数である。シグモイド関数と同様に、TanhはS字型(シグモイド)であるが、入力値を-1から1の範囲にマッピングする。他の活性化関数と同様に、Tanhはネットワークに非線形性を導入し、ディープラーニング(DL)モデルが線形モデルでは捉えられない複雑なパターンやデータ内の関係を学習することを可能にする。数学的な双曲正接関数に由来する。

Tanhの仕組み

Tanh関数は、任意の実数値入力を受け取り、それを(-1, 1)の範囲に押し込む。ゼロに近い入力はゼロに近い出力を生む。大きな正の入力は出力が1に近づき、大きな負の入力は出力が-1に近づく。そのゼロ中心の性質は、シグモイド関数(0と1の間で出力する)よりも利点があると考えられがちです。なぜなら、勾配降下法などの 最適化アルゴリズムが モデル学習中に早く収束するのを助けることができるからです。これは、バックプロパゲーション中に引き渡される勾配が、正負のバランスの取れた値になる可能性が高く、より安定したモデルの重みの更新につながる可能性があるためです。

メリットとデメリット

利点がある:

  • ゼロ中心出力:から1までの出力は、後続のレイヤーに渡されるデータのセンタリングに役立ち、シグモイドのような非ゼロセンタリング関数と比較してトレーニングダイナミクスを向上させることができる。
  • より強い勾配:Sigmoidに比べ、Tanhはゼロ付近の勾配が急であるため、学習中の消失勾配の問題をある程度緩和することができ、より高速な学習が可能になる可能性がある。

デメリット

  • 消失勾配:Sigmoidと同様、Tanhもやはり消失勾配の問題に悩まされている。非常に大きな正または負の入力に対して、関数は飽和し(その出力は1または-1に非常に近くなる)、勾配は極端に小さくなり、より深い層の重み更新を妨げる。
  • 計算コスト:Tanhは双曲線計算を伴うため、ReLU(Rectified Linear Unit)のような単純な関数よりも若干計算コストが高い。

タン対他の活性化機能

  • TanhとSigmoidの比較どちらもシグモイドであるが、Tanhの出力範囲は(-1, 1)であるのに対し、Sigmoidは(0, 1)である。Tanhのゼロ中心の特性は隠れ層によく使われ、Sigmoidは確率が必要な2値分類タスクの出力層によく使われる。
  • TanhとReLUの比較ReLUの出力範囲は0から無限大で、計算効率が非常に高い。ReLUは正の入力に対する飽和を避けるが、「死にゆくReLU」問題(ニューロンが活動しなくなる)に悩まされることがある。Tanhは両端で飽和するが、そのゼロ中心の性質は有利である。しかし、ReLUとその亜種(Leaky ReLUGELUSiLU)は、より優れた勾配フローと効率性により、特にコンピュータ・ビジョン(CV)において、多くの最新のディープ・ラーニング・アーキテクチャでTanhに取って代わられている。ディープラーニングにおける様々な活性化関数を調べることができます。

AIと機械学習の応用

タンは歴史的に特に人気のある選手だ:

  • リカレント・ニューラル・ネットワーク(RNN)Tanhは、RNNやLong Short-Term Memory (LSTM)ネットワークの隠れ状態、特に自然言語処理(NLP)のタスクによく使われる。その境界範囲は、リカレント接続内の情報の流れを制御するのに役立つ。詳細は「LSTMを理解する」を参照。
  • 隠れ層:フィードフォワードネットワークの隠れ層に使用できるが、現在ではReLUのバリエーションが一般的である。ゼロ中心特性が特定の問題やアーキテクチャに特に有効な場合に選択される。
  • センチメント分析旧来のNLPモデルでは、Tanhはテキストから抽出された特徴(例えば、RNNで処理された単語の埋め込み)を、否定的(-1)から肯定的(+1)までのセンチメントの極性を表す連続的な範囲にマッピングするのに役立った。Stanford NLP Groupのような組織からのリソースは、このようなテクニックの背景を提供している。
  • 制御システムとロボット工学 強化学習(RL)では、特定の範囲に束縛された連続的なアクションを出力するポリシーの最終活性化関数としてTanhが使われることがある(例えば、モーターのトルクを-1から+1の間で制御する)。OpenAI GymのようなフレームワークはRL研究によく使われる。

のような最新のアーキテクチャーは Ultralytics YOLOのような最新のアーキテクチャでは、物体検出などのタスクにSiLUのような関数を利用することが多いが、Tanhを理解することは依然として価値がある。それは活性化関数の進化に文脈を提供し、特定のネットワーク設計やレガシーシステムにまだ現れるかもしれない。フレームワーク PyTorchTensorFlowのようなフレームワークがTanhの実装を提供している。Ultralytics HUBのようなプラットフォームを使って、様々な活性化関数をトレーニングし、実験することができる。

すべて読む