大規模言語モデル(LLM)が、チャットボットやコンテンツ作成など、高度なNLPでAIにどのような革命をもたらすかをご覧ください。重要なコンセプトを学ぶ
大規模言語モデル(LLM)は、人工知能(AI)の分野、特に自然言語処理(NLP)の分野で大きな進歩を遂げている。これらのモデルは、しばしば数十億のパラメータを含む巨大なスケールと、テキストとコードからなる膨大なデータセットで学習されることが特徴です。この広範な訓練により、LLMは文脈を理解し、首尾一貫した人間のようなテキストを生成し、言語を翻訳し、質問に答え、言語ベースの幅広いタスクを驚くほど熟練して実行することができる。LLMはディープラーニング(DL)モデルの一種であり、数多くのアプリケーションでイノベーションを推進し、現代のジェネレーティブAIの礎となっている。
ラージ・ランゲージ・モデルは、基本的には洗練されたニューラルネットワーク(NN)であり、一般的には、影響力のある論文「Attention Is All You Need」で紹介されたTransformerアーキテクチャをベースにしている。LLMの "ラージ "とは、数十億から数兆にも及ぶ膨大な数のパラメータ(学習中に調整される変数)を指す。一般的に、パラメータ数が多いほど、モデルはデータからより複雑なパターンを学習することができる。
LLMは、インターネットや書籍などから収集された膨大なテキストコーパス(しばしばビッグデータと呼ばれる)に対する教師なし学習を通じて、これらのパターンを学習する。このプロセスは、文法、事実、推論能力、さらには口調や文体のようなニュアンスを把握するのに役立つが、学習データに存在するバイアスを学習してしまうこともある。トレーニング中に開発される中核的な能力は、文中の後続語を予測することである。この予測能力は、テキスト生成、言語モデリング、質問応答などのより複雑なタスクの基礎を形成する。
よく知られている例としては、OpenAIの GPTシリーズ(GPT-4など)、Meta AIのLlamaモデル(Llama 3など)、Google DeepMindのGemini、Claudeなどがある。 Anthropic.
LLMの多用途性は、多様な領域での応用を可能にする。具体例を2つ紹介しよう:
LLMを理解するには、いくつかの関連概念に精通する必要がある:
LLMは言語タスクを得意とするが、主にコンピュータビジョン(CV)用に設計されたモデルとは大きく異なる。CVモデル Ultralytics YOLOモデル(例えば YOLOv8YOLO118、YOLOv9、YOLOv10、YOLO11)は、画像や動画から視覚情報を解釈することに特化している。そのタスクには、物体検出、画像分類、インスタンス分割などがある。
しかし、マルチモーダルモデルや 視覚言語モデル(VLM)の台頭により、その境界は曖昧になりつつある。OpenAIのGPT-4oや GoogleGeminiのようなこれらのモデルは、異なるモダリティ(例えば、テキストと画像)にまたがる理解を統合し、画像の説明や視覚コンテンツに関する質問への回答のようなタスクを可能にする。
Ultralytics HUBのようなプラットフォームは、視覚タスクを含む様々なAIモデルをトレーニングし、デプロイするためのツールとインフラを提供し、多様なAIアプリケーションの開発を促進します。LLMやその他のAIモデルがより強力になるにつれ、AIの倫理、アルゴリズムの偏り、データのプライバシーに関する考慮がますます重要になっています。AIの概念とモデル比較の詳細については、Ultralytics ドキュメントと モデル比較のページをご覧ください。