MetaのLlama 3が最近リリースされ、AIコミュニティから大きな反響を呼んでいる。メタAIの最新の進歩であるLlama 3についてもっと知ろう。
2024年第1四半期の人工知能(AI)イノベーションを総括すると、LLM(大規模言語モデル)がさまざまな組織から続々とリリースされていることがわかった。このトレンドを引き継ぎ、2024年4月18日、Meta社は次世代の最先端オープンソースLLMであるLlama 3をリリースした。
と思うかもしれない:たかがLLMじゃないか。なぜAIコミュニティはこれほど興奮しているのでしょうか?
GPT-3やGeminiのようなモデルは、カスタマイズされた応答のために微調整することができますが、トレーニングデータ、モデルパラメータ、アルゴリズムなど、内部動作に関する完全な透明性は提供されていません。対照的に、MetaのLlama 3は、そのアーキテクチャと重みがダウンロード可能で、より透明性が高い。AIコミュニティにとって、これはより自由に実験できることを意味する。
この記事では、Llama 3に何ができるのか、どのようにして誕生したのか、そしてAI分野への影響について紹介する。さっそく本題に入ろう!
ラマ3に入る前に、その前のバージョンを振り返ってみよう。
メタ社は2023年2月にラマ1を発表し、70億から640億までのパラメータを持つ4つのバリエーションがあった。機械学習において「パラメータ」とは、学習データから学習されるモデルの要素を指す。Llama 1はパラメータ数が少ないため、ニュアンスの理解に苦労し、一貫性のない回答をすることがあった。
ラマ1の直後、メタ社は2023年7月にラマ2をローンチした。これは2兆個のトークンで学習された。トークンとは、単語や単語の一部など、テキストの一部を表すもので、モデルで処理するデータの基本単位として使用される。このモデルはまた、より長い文章を理解するために4096トークンのコンテキストウィンドウを2倍にしたり、エラーを減らすために100万以上の人間による注釈を付けたりするなどの改良が施されている。これらの改良にもかかわらず、Llama 2はまだ多くの計算能力を必要としており、メタはLama 3でこれを解決することを目指した。
Llama 3には4つのバリエーションがあり、15兆トークンという驚異的な数に対してトレーニングされた。そのトレーニングデータの5%以上(約8億トークン)は、30種類の言語のデータを表している。Llama 3のすべてのバリエーションは、様々なタイプのコンシューマー・ハードウェアで実行可能で、コンテキストの長さは8kトークンです。
このモデルには2つのサイズがある:それぞれ80億と700億のパラメータを示す。また、baseとinstructの2つのバージョンがある。「base "は標準的な事前学習済みバージョンを指す。「Instruct "は、関連データでの追加トレーニングを通じて、特定のアプリケーションやドメイン向けに最適化された微調整バージョンである。
これらはラマ3モデルのバリエーションである:
他のメタAIの進歩と同様に、ラマ3の開発中もデータの完全性を維持し、バイアスを最小限に抑えるために厳格な品質管理措置がとられた。つまり、最終的な製品は、責任を持って作成された強力なモデルなのだ。
Llama 3モデルのアーキテクチャは、自然言語処理タスクの効率と性能に重点を置いている点で際立っている。Transformerベースのフレームワークをベースに、デコーダのみのアーキテクチャを採用することで、特にテキスト生成時の計算効率を重視している。
このモデルは、入力をエンコードするエンコーダーを使わずに、直前の文脈のみに基づいて出力を生成するため、非常に高速だ。
Llama 3モデルには、128Kの語彙を持つトークナイザーが搭載されている。語彙が増えるということは、モデルがテキストをよりよく理解し、処理できることを意味する。また、推論効率を向上させるために、GQA(grouped query attention)が採用されている。GQAは、モデルが入力データの関連する部分に焦点を当て、より速く正確な応答を生成できるようにするスポットライトのようなものです。
ラマ3のモデル・アーキテクチャについて、さらに興味深い詳細をいくつか紹介しよう:
最大のLlama 3モデルを学習するために、データ並列化、モデル並列化、パイプライン並列化の3種類の並列化を組み合わせた。
データ並列化では、トレーニングデータを複数のGPUに分割し、モデル並列化では、モデルアーキテクチャーを分割して、それぞれの計算能力を利用しますGPU 。パイプライン並列化では、トレーニングプロセスを連続的なステージに分割し、計算と通信を最適化します。
最も効率的な実装は、16,000GPUで同時に学習した場合、GPU 、400TFLOPSを超えるという驚くべき計算効率を達成した。これらのトレーニング実行は、それぞれ24,000 GPUで構成される2つの特注クラスタ(GPU )で行われました。この充実した計算インフラは、大規模なLlama 3モデルを効率的に訓練するために必要なパワーを提供した。
GPU の稼働時間を最大化するため、高度な新しいトレーニング・スタックが開発され、エラー検出、処理、メンテナンスが自動化された。ハードウェアの信頼性と検出メカニズムが大幅に改善され、無言のデータ破損リスクが軽減された。また、チェックポイントとロールバックのオーバーヘッドを削減するために、スケーラブルな新しいストレージシステムが開発された。
これらの改善により、全体的なトレーニング時間は95%以上の効果につながった。これらを合わせると、ラマ3のトレーニング効率はラマ2に比べて約3倍向上したことになる。この効率は単に素晴らしいだけでなく、AIのトレーニング方法に新たな可能性をもたらしている。
Llama 3はオープンソースであるため、研究者や学生はそのコードを研究し、実験を行い、倫理的な懸念やバイアスについて議論することができる。しかし、Llama 3は学術界だけのものではない。実用的な用途でも波紋を広げている。Facebook、Instagram、WhatsApp、Messengerなどのプラットフォームにシームレスに統合され、Meta AIチャットインターフェースのバックボーンになりつつある。Meta AIを使えば、ユーザーは自然言語で会話をしたり、パーソナライズされたレコメンデーションにアクセスしたり、タスクを実行したり、他の人と簡単につながったりすることができる。
Llama 3は、複雑な言語理解と推論能力を評価するいくつかの主要なベンチマークにおいて、非常に優れたパフォーマンスを発揮します。以下は、Llama 3の能力のさまざまな側面をテストするベンチマークの一部です:
これらのテストにおけるラマ3の傑出した結果は、Google「Gemma 7B」、Mistral「Mistral 7B」、Anthropic「Claude 3 Sonnet」といった競合モデルと明らかに一線を画している。公表されている統計によると、特に70Bモデルでは、上記のすべてのベンチマークでラマ3がこれらのモデルを上回っている。
Meta社は、Llama 3を一般ユーザーと開発者の両方が様々なプラットフォームで利用できるようにすることで、Llama 3のリーチを拡大している。一般ユーザー向けには、Llama 3はWhatsApp、Instagram、Facebook、MessengerといったMetaの人気プラットフォームに統合されている。ユーザーは、リアルタイム検索や、これらのアプリ内で直接クリエイティブなコンテンツを生成する機能などの高度な機能にアクセスすることができます。
ラマ3は、レイバン・メタ・スマートグラスやメタ・クエストVRヘッドセットのようなウェアラブル技術にも組み込まれ、インタラクティブな体験を提供している。
Llama 3は、AWS、Databricks、Google Cloud、Hugging Face 、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM、Snowflakeなど、開発者向けのさまざまなプラットフォームで利用できる。Metaから直接これらのモデルにアクセスすることもできる。幅広いオプションがあるため、開発者は、Metaで直接作業することを好むか、他の一般的なプラットフォームを通じて作業することを好むかにかかわらず、これらの高度なAIモデル機能をプロジェクトに簡単に統合することができます。
機械学習の進歩は、私たちのテクノロジーとの関わり方を日々変え続けている。MetaのLlama 3は、LLMがもはやテキストを生成するだけではないことを示している。LLMは複雑な問題に取り組み、複数の言語を扱う。全体として、Llama 3はAIをこれまで以上に適応しやすく、アクセスしやすくしている。今後、Llama 3のアップグレードが予定されており、複数のモデルを扱ったり、より大きなコンテキストを理解したりといった、さらなる機能が期待されている。
GitHubリポジトリをチェックし、コミュニティに参加してAIについてもっと学びましょう。製造業や 農業などの分野でAIがどのように応用されているかは、ソリューションのページをご覧ください。