用語集

プロンプト・チューニング

Prompt Tuningで大規模な言語モデルを効率的に最適化 - コストを削減し、リソースを節約し、タスク固有の適応性を簡単に実現します。

プロンプトチューニングは、大規模言語モデル(LLM)のような大規模な事前学習済みモデルを、元のモデルの重みを変更することなく新しいタスクに適応させるための強力かつ効率的な手法である。これはPEFT(Parameter-Efficient Fine-Tuning)の一種であり、ベースモデルの何十億ものパラメータを凍結したまま、代わりにタスク固有の "ソフトプロンプト "の小さなセットを学習する。これらのソフトプロンプトは、人間が読めるテキストではなく、入力の前に付加される学習可能な埋め込みであり、凍結されたモデルが特定の下流タスクに対して望ましい出力を生成するように導く。このアプローチにより、タスク固有の適応に必要な計算コストとストレージが劇的に削減される。

核となるアイデアは、何十億ものパラメータを持つ可能性のあるモデル全体を再トレーニングまたは微調整するのではなく、タスクごとに数千または数百万の追加パラメータ(ソフトプロンプト)のみをトレーニングすることである。これにより、モデルの完全なコピーを作成することなく、1つの事前学習済みモデルに対して、それぞれ異なるタスクに特化した多数の「プロンプトモジュール」を作成することが可能になる。この方法はまた、モデルが新しいタスクで訓練されたときに以前に学習した情報を忘れてしまう、壊滅的な忘却を軽減するのにも役立つ。

実世界での応用

プロンプト・チューニングは、幅広い特殊な用途に対応する強力な基礎モデルのカスタマイズを可能にします。

  • カスタマイズされたセンチメント分析ある企業は、特定の製品に関する顧客のフィードバックを分析したいと考えています。汎用のセンチメント分析モデルは、業界特有の専門用語を理解できない可能性があります。プロンプトチューニングを使用すると、独自のラベル付けされた顧客レビューでソフトプロンプトの小さなセットをトレーニングすることで、BERTのような大規模なモデルを適応させることができます。その結果、モデルは、完全なモデルトレーニングを必要とせずにフィードバックを正確に分類し、より微妙な洞察を提供することができます。
  • 特化した医療チャットボット:ある医療機関は、特定の病状に関する患者の質問に答えるチャットボットの構築を目指している。大規模な医療用LLMを完全にトレーニングするのはリソース集約的です。代わりに、GPT-4のような事前に訓練されたモデル上でプロンプトのチューニングを使用することができます。タスクに特化したプロンプトをキュレートされた医療データセットでトレーニングすることで、チャットボットはそのドメインに対して正確でコンテキストを意識した回答を提供することを学習し、医療における強力なAIをより身近なものにします。

プロンプト・チューニングと関連コンセプトの比較

プロンプト・チューニングを類似のテクニックと区別することは重要だ:

  • 微調整:この方法は、新しいデータセット上で、事前に訓練されたモデルのパラメータの大部分、あるいは全てを更新する。計算量は多いが、モデルの内部表現を深く適応させることで、より高いパフォーマンスを達成できる場合がある。モデルトレーニングのヒントは、ファインチューニングの側面をカバーしていることが多い。
  • プロンプトエンジニアリング:これは、凍結された事前学習済みモデルをガイドするために、テキストベースの効果的なプロンプト(ハードプロンプト)を手動で設計することに焦点を当てている。プロンプトエンジニアリングは、入力テキスト自体の中に指示や例を作成することを含み、新しいパラメータをトレーニングすることはない。思考連鎖プロンプトのようなテクニックはこのカテゴリーに属する。
  • プロンプト・エンリッチメント:この技術は、AIモデルに送信される前に、例えばRAG(Retrieval-Augmented Generation)を使用してコンテキストを追加することで、ユーザーのプロンプトを自動的に強化する。プロンプトチューニングとは異なり、新たなパラメータを学習することなく入力クエリを改良する。
  • LoRA(ローランク・アダプテーション):学習済みモデルの既存の層(注意メカニズムなど)に、学習可能な小さな低ランク行列を注入するもう1つのPEFT手法。入力埋め込みのみに注目するプロンプトチューニングと比較して、モデルの異なる部分を更新する。どちらもHugging Face PEFTライブラリのようなライブラリによく見られる。

プロンプト・チューニングは主に自然言語処理(NLP)のLLMに適用されているが、効率的な適応の中核原理は人工知能(AI)全体に関連している。コンピュータビジョン(CV)では、カスタムデータセット上のUltralytics YOLOのようなモデルの完全なファインチューニングは、物体検出のようなタスクでは一般的ですが、PEFT法は、特に大規模なマルチモーダルモデルで人気を集めています。Ultralytics HUBのようなプラットフォームは、様々なAIモデルのトレーニングとデプロイのプロセスを合理化し、将来的にこのような効率的な手法を取り入れる可能性があります。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク