大規模言語モデル(LLM)の基礎を探求しましょう。トランスフォーマーアーキテクチャ、トークン化、Ultralytics 組み合わせる方法について学びます。
大規模言語モデル(LLM)は、人間の言語を理解し、生成し、操作するために膨大なデータセットで訓練された高度な人工知能(AI)の一種である。これらのモデルは深層学習(DL)における重要な進化を表しており、数十億のパラメータを持つニューラルネットワークを活用して複雑な言語パターン、文法、意味的関係を捉える。その中核では、ほとんどの現代的なLLMは トランスフォーマーアーキテクチャを採用しており、これによりデータシーケンスを順次処理するのではなく並列処理が可能となる。このアーキテクチャは自己注意機構を採用しており、文中の異なる単語がテキスト内でどの位置にあろうと、それらが互いに持つ重要度をモデルが評価できるようにする。
LLMの機能はトークン化から始まる。 これは生テキストをトークン(単語または部分単語)と呼ばれる小さな単位に分解するプロセスである。 モデル訓練段階では、システムはインターネット、書籍、記事からペタバイト規模のテキストを分析する。 非教師あり学習により、シーケンス内の次のトークンを予測し、言語の統計的構造を効果的に学習する。
この初期トレーニングの後、開発者はしばしば 特定のタスク(医療分析やコーディング支援など)向けにモデルを特化させるため 微調整を適用します。この適応性こそが、スタンフォード基礎モデル研究センターのような組織が classify 「基礎モデル」——特定のアプリケーションを構築するための広範な基盤classify 理由です。
大規模言語モデル(LLM)は、理論的研究の域を超え、様々な産業分野において実用的で影響力の大きい応用へと発展している:
標準的な大規模言語モデル(LLM)がテキストを処理する一方で、業界はマルチモーダルAIへと移行しつつある。以下の例は、オープンボキャブラリ検出のためのテキスト記述を理解するモデルYOLO、言語プロンプトがコンピュータビジョンタスクを制御する方法を示している。
from ultralytics import YOLOWorld
# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])
# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
大規模言語モデル(LLM)を、より広範な用語や類似の用語と区別することが重要です:
その能力にもかかわらず、LLMはAIのバイアスに関する課題に直面している。 なぜなら、トレーニングデータに含まれる偏見を意図せず再現する可能性があるからだ。 さらに、Google モデルを訓練するために必要な膨大な計算能力は、 エネルギー消費に関する懸念を引き起こしている。 現在、研究はモデルの量子化に焦点を当てており、 これらのシステムをエッジハードウェア上で実行するのに十分な効率性を実現しようとしている。
より深い技術的知見については、原論文 「Attention Is All You Need」がトランスフォーマーの基礎理論を提供しています。また、 NVIDIA がこれらの大規模ワークロード向けにハードウェアを最適化している方法もご覧ください。