グリーンチェック
クリップボードにコピーされたリンク

メタのラマを知る3

MetaのLlama 3が最近リリースされ、AIコミュニティから大きな反響を呼んでいる。メタAIの最新の進歩であるLlama 3についてもっと知ろう。

2024年第1四半期の人工知能(AI)イノベーションを総括すると、LLM(大規模言語モデル)がさまざまな組織から続々とリリースされていることがわかった。このトレンドを引き継ぎ、2024年4月18日、Meta社は次世代の最先端オープンソースLLMであるLlama 3をリリースした。 

と思うかもしれない:たかがLLMじゃないか。なぜAIコミュニティはこれほど興奮しているのでしょうか?

GPT-3やGeminiのようなモデルは、カスタマイズされた応答のために微調整することができますが、トレーニングデータ、モデルパラメータ、アルゴリズムなど、内部動作に関する完全な透明性は提供されていません。対照的に、MetaのLlama 3は、そのアーキテクチャと重みがダウンロード可能で、より透明性が高い。AIコミュニティにとって、これはより自由に実験できることを意味する。

この記事では、Llama 3に何ができるのか、どのようにして誕生したのか、そしてAI分野への影響について紹介する。さっそく本題に入ろう!

メタのラマ・モデルの進化

ラマ3に入る前に、その前のバージョンを振り返ってみよう。

メタ社は2023年2月にラマ1を発表し、70億から640億までのパラメータを持つ4つのバリエーションがあった。機械学習において「パラメータ」とは、学習データから学習されるモデルの要素を指す。Llama 1はパラメータ数が少ないため、ニュアンスの理解に苦労し、一貫性のない回答をすることがあった。

ラマ1の直後、メタ社は2023年7月にラマ2をローンチした。これは2兆個のトークンで学習された。トークンとは、単語や単語の一部など、テキストの一部を表すもので、モデルで処理するデータの基本単位として使用される。このモデルはまた、より長い文章を理解するために4096トークンのコンテキストウィンドウを2倍にしたり、エラーを減らすために100万以上の人間による注釈を付けたりするなどの改良が施されている。これらの改良にもかかわらず、Llama 2はまだ多くの計算能力を必要としており、メタはLama 3でこれを解決することを目指した。

メタのラマ3の紹介

Llama 3には4つのバリエーションがあり、15兆トークンという驚異的な数に対してトレーニングされた。そのトレーニングデータの5%以上(約8億トークン)は、30種類の言語のデータを表している。Llama 3のすべてのバリエーションは、様々なタイプのコンシューマー・ハードウェアで実行可能で、コンテキストの長さは8kトークンです。 

図1.ラマ3対ラマ2。

このモデルには2つのサイズがある:それぞれ80億と700億のパラメータを示す。また、baseとinstructの2つのバージョンがある。「base "は標準的な事前学習済みバージョンを指す。「Instruct "は、関連データでの追加トレーニングを通じて、特定のアプリケーションやドメイン向けに最適化された微調整バージョンである。

これらはラマ3モデルのバリエーションである:

  • Meta-Llama-3-8b:ベースとなる8Bモデルは、基本的なAI機能を提供し、カスタマーサービス・チャットボットの開発など、一般的なタスクに最適です。
  • メタ・ラマ-3-8B-インストラクト特定のタスクに最適化された8Bモデルのインストラクト微調整バージョン。例えば、複雑なテーマを説明する教育ツールの作成に使用できます。
  • Meta-Llama-3-70b:ベースとなる70Bモデルは高性能AIアプリケーション用に設計されている。このモデルは、薬のための広範な生物医学文献を処理するようなアプリケーションに適しています。
  • Meta-Llama-3-70b-instruct:このバージョンは、法律や医療文書の分析など、精度が要求される高度なアプリケーション用に70Bモデルを微調整したものです。

メタのラマ3モデル・アーキテクチャ

他のメタAIの進歩と同様に、ラマ3の開発中もデータの完全性を維持し、バイアスを最小限に抑えるために厳格な品質管理措置がとられた。つまり、最終的な製品は、責任を持って作成された強力なモデルなのだ。 

Llama 3モデルのアーキテクチャは、自然言語処理タスクの効率と性能に重点を置いている点で際立っている。Transformerベースのフレームワークをベースに、デコーダのみのアーキテクチャを採用することで、特にテキスト生成時の計算効率を重視している。 

このモデルは、入力をエンコードするエンコーダーを使わずに、直前の文脈のみに基づいて出力を生成するため、非常に高速だ。

図2.ラマ3責任モデル・アーキテクチャ。

Llama 3モデルには、128Kの語彙を持つトークナイザーが搭載されている。語彙が増えるということは、モデルがテキストをよりよく理解し、処理できることを意味する。また、推論効率を向上させるために、GQA(grouped query attention)が採用されている。GQAは、モデルが入力データの関連する部分に焦点を当て、より速く正確な応答を生成できるようにするスポットライトのようなものです。

ラマ3のモデル・アーキテクチャについて、さらに興味深い詳細をいくつか紹介しよう:

  • 境界を意識した文書処理:Llama 3は、ドキュメントの境界を越えて明瞭さを維持します。これは要約のようなタスクにとって重要です。
  • より優れたコード理解:Llama 3のトレーニングデータには4倍のコードサンプルが含まれており、コーディング能力が向上しています。
  • 堅牢な品質管理:ヒューリスティック・フィルターやNSFW除去などの厳密な対策により、データの完全性を確保し、バイアスを最小限に抑えます。

ラマ3はモデルトレーニングへのアプローチを変える

最大のLlama 3モデルを学習するために、データ並列化、モデル並列化、パイプライン並列化の3種類の並列化を組み合わせた。 

データ並列化では、トレーニングデータを複数のGPUに分割し、モデル並列化では、モデルアーキテクチャーを分割して、それぞれの計算能力を利用しますGPU 。パイプライン並列化では、トレーニングプロセスを連続的なステージに分割し、計算と通信を最適化します。

最も効率的な実装は、16,000GPUで同時に学習した場合、GPU 、400TFLOPSを超えるという驚くべき計算効率を達成した。これらのトレーニング実行は、それぞれ24,000 GPUで構成される2つの特注クラスタ(GPU )で行われました。この充実した計算インフラは、大規模なLlama 3モデルを効率的に訓練するために必要なパワーを提供した。

GPU の稼働時間を最大化するため、高度な新しいトレーニング・スタックが開発され、エラー検出、処理、メンテナンスが自動化された。ハードウェアの信頼性と検出メカニズムが大幅に改善され、無言のデータ破損リスクが軽減された。また、チェックポイントとロールバックのオーバーヘッドを削減するために、スケーラブルな新しいストレージシステムが開発された。 

これらの改善により、全体的なトレーニング時間は95%以上の効果につながった。これらを合わせると、ラマ3のトレーニング効率はラマ2に比べて約3倍向上したことになる。この効率は単に素晴らしいだけでなく、AIのトレーニング方法に新たな可能性をもたらしている。 

ラマと扉を開く 3

Llama 3はオープンソースであるため、研究者や学生はそのコードを研究し、実験を行い、倫理的な懸念やバイアスについて議論することができる。しかし、Llama 3は学術界だけのものではない。実用的な用途でも波紋を広げている。Facebook、Instagram、WhatsApp、Messengerなどのプラットフォームにシームレスに統合され、Meta AIチャットインターフェースのバックボーンになりつつある。Meta AIを使えば、ユーザーは自然言語で会話をしたり、パーソナライズされたレコメンデーションにアクセスしたり、タスクを実行したり、他の人と簡単につながったりすることができる。

図3.Meta AI: Powered by Llama 3.

ラマ3と他のLLMとの比較

Llama 3は、複雑な言語理解と推論能力を評価するいくつかの主要なベンチマークにおいて、非常に優れたパフォーマンスを発揮します。以下は、Llama 3の能力のさまざまな側面をテストするベンチマークの一部です:

  • 大規模マルチタスク言語理解(MMLU) - さまざまなドメインにわたる知識を測定。 
  • GPQA(General Purpose Question Answering) - 幅広い一般知識問題に対して、首尾一貫した正しい回答を生成するモデルの能力を評価します。
  • HumanEval - コーディングと問題解決タスクに焦点を当て、関数型プログラミングコードを生成し、アルゴリズムの課題を解決するモデルの能力をテストします。

これらのテストにおけるラマ3の傑出した結果は、Google「Gemma 7B」、Mistral「Mistral 7B」、Anthropic「Claude 3 Sonnet」といった競合モデルと明らかに一線を画している。公表されている統計によると、特に70Bモデルでは、上記のすべてのベンチマークでラマ3がこれらのモデルを上回っている。

図4.ラマ3と他のLLMとの比較。

Meta Llama 3が広く利用できるようになる

Meta社は、Llama 3を一般ユーザーと開発者の両方が様々なプラットフォームで利用できるようにすることで、Llama 3のリーチを拡大している。一般ユーザー向けには、Llama 3はWhatsApp、Instagram、Facebook、MessengerといったMetaの人気プラットフォームに統合されている。ユーザーは、リアルタイム検索や、これらのアプリ内で直接クリエイティブなコンテンツを生成する機能などの高度な機能にアクセスすることができます。 

ラマ3は、レイバン・メタ・スマートグラスやメタ・クエストVRヘッドセットのようなウェアラブル技術にも組み込まれ、インタラクティブな体験を提供している。

Llama 3は、AWS、Databricks、Google Cloud、Hugging Face 、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM、Snowflakeなど、開発者向けのさまざまなプラットフォームで利用できる。Metaから直接これらのモデルにアクセスすることもできる。幅広いオプションがあるため、開発者は、Metaで直接作業することを好むか、他の一般的なプラットフォームを通じて作業することを好むかにかかわらず、これらの高度なAIモデル機能をプロジェクトに簡単に統合することができます。

テイクアウェイ

機械学習の進歩は、私たちのテクノロジーとの関わり方を日々変え続けている。MetaのLlama 3は、LLMがもはやテキストを生成するだけではないことを示している。LLMは複雑な問題に取り組み、複数の言語を扱う。全体として、Llama 3はAIをこれまで以上に適応しやすく、アクセスしやすくしている。今後、Llama 3のアップグレードが予定されており、複数のモデルを扱ったり、より大きなコンテキストを理解したりといった、さらなる機能が期待されている。 

GitHubリポジトリをチェックし、コミュニティに参加してAIについてもっと学びましょう。製造業や 農業などの分野でAIがどのように応用されているかは、ソリューションのページをご覧ください。

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう