Làm quen với Llama 3 của Meta

Meta's Llama 3 vừa mới được phát hành và nhận được sự phấn khích lớn từ cộng đồng AI. Hãy cùng tìm hiểu thêm về Llama 3 - tiến bộ mới nhất của Meta AI.

Viết bởi

Abirami Vina

phút đọc

10 Tháng Năm, 2024

Ngày 13 tháng 4 năm 2025

Sự tiến hóa của các mô hình Llama của Meta

Giới thiệu Llama 3 của Meta

Kiến trúc mô hình Llama 3 của Meta

Llama 3 đang thay đổi cách chúng ta tiếp cận đào tạo mô hình

Mở cửa với Llama 3

So sánh Llama 3 với các LLM khác

Meta Llama 3 đang được mở rộng phạm vi tiếp cận

Món ăn mang đi

Khi chúng tôi tổng hợp các đổi mới trí tuệ nhân tạo (AI) của quý đầu tiên của năm 2024, chúng tôi thấy rằng LLM, hoặc các mô hình ngôn ngữ lớn, đang được phát hành phải và trái bởi các tổ chức khác nhau. Tiếp tục xu hướng này, vào ngày 18/4/2024, Meta đã phát hành Llama 3, một LLM mã nguồn mở hiện đại thế hệ tiếp theo.

Bạn có thể nghĩ: Nó chỉ là một LLM khác. Tại sao cộng đồng AI lại hào hứng với nó?

Mặc dù bạn có thể tinh chỉnh các mô hình như GPT-3 hoặc Gemini để có phản hồi tùy chỉnh, nhưng chúng không cung cấp sự minh bạch hoàn toàn về hoạt động nội bộ của chúng, chẳng hạn như dữ liệu đào tạo, thông số mô hình hoặc thuật toán. Ngược lại, Llama 3 của Meta minh bạch hơn, với kiến trúc và trọng lượng của nó có sẵn để tải xuống. Đối với cộng đồng AI, điều này có nghĩa là tự do hơn để thử nghiệm.

Trong bài viết này, chúng ta sẽ tìm hiểu những gì Llama 3 có thể làm, làm thế nào nó ra đời và tác động của nó đối với lĩnh vực AI. Hãy bắt đầu ngay!

Sự tiến hóa của các mô hình Llama của Meta

Trước khi chúng ta đi sâu vào Llama 3, chúng ta hãy nhìn lại các phiên bản trước đó của nó.

Meta ra mắt Llama 1 vào tháng 2/2023, có 4 biến thể với thông số từ 7 tỷ đến 64 tỷ. Trong học máy, "tham số" đề cập đến các yếu tố của mô hình được học từ dữ liệu đào tạo. Do số lượng tham số ít hơn, Llama 1 đôi khi phải vật lộn với sự hiểu biết sắc thái và đưa ra các phản hồi không nhất quán.

Ngay sau Llama 1, Meta đã ra mắt Llama 2 vào tháng 7 năm 2023. Nó được đào tạo trên 2 nghìn tỷ mã thông báo. Một mã thông báo đại diện cho một đoạn văn bản, như một từ hoặc một phần của từ, được sử dụng làm đơn vị dữ liệu cơ bản để xử lý trong mô hình. Mô hình cũng có các cải tiến như cửa sổ ngữ cảnh gấp đôi gồm 4096 mã thông báo để hiểu các đoạn văn dài hơn và hơn 1 triệu chú thích của con người để giảm lỗi. Bất chấp những cải tiến này, Llama 2 vẫn cần rất nhiều sức mạnh tính toán, một điều mà Meta hướng đến để khắc phục bằng Llama 3.

Giới thiệu Llama 3 của Meta

Llama 3 đi kèm với bốn biến thể đã được đào tạo chống lại 15 nghìn tỷ mã thông báo đáng kinh ngạc. Hơn 5% dữ liệu đào tạo đó (khoảng 800 triệu mã thông báo) đại diện cho dữ liệu bằng 30 ngôn ngữ khác nhau. Tất cả các biến thể Llama 3 có thể chạy trên nhiều loại phần cứng tiêu dùng khác nhau và có độ dài ngữ cảnh là 8k token.

__wf_reserved_thừa kế — Hình 1. Llama 3 Vs Llama 2.

Các biến thể mô hình có hai kích cỡ: 8B và 70B, cho biết 8 tỷ và 70 tỷ thông số, tương ứng. Ngoài ra còn có hai phiên bản, cơ sở và hướng dẫn. "Cơ sở" đề cập đến phiên bản được đào tạo trước tiêu chuẩn. "Hướng dẫn" là phiên bản tinh chỉnh được tối ưu hóa cho các ứng dụng hoặc miền cụ thể thông qua đào tạo bổ sung về dữ liệu liên quan.

Đây là các biến thể mô hình Llama 3:

Meta-Llama-3-8b : Mô hình 8B cơ bản cung cấp các khả năng AI cơ bản và lý tưởng cho các tác vụ chung như phát triển chatbot dịch vụ khách hàng.
‍
Meta-Llama-3-8b-instruct : Phiên bản hướng dẫn tinh chỉnh của mô hình 8B được tối ưu hóa cho các nhiệm vụ cụ thể. Ví dụ, nó có thể được sử dụng để tạo ra các công cụ giáo dục giải thích các chủ đề phức tạp.
‍
Meta-Llama-3-70b : Mô hình 70B cơ bản được thiết kế cho các ứng dụng AI hiệu suất cao. Mô hình này sẽ hoạt động tốt cho các ứng dụng như xử lý tài liệu y sinh học mở rộng để khám phá thuốc .
‍
Meta-Llama-3-70b-instruct: Phiên bản này được tinh chỉnh từ mô hình 70B cho các ứng dụng có độ chính xác cao, chẳng hạn như phân tích các tài liệu pháp lý hoặc y tế , trong đó độ chính xác là rất quan trọng.

Kiến trúc mô hình Llama 3 của Meta

Như với bất kỳ tiến bộ AI nào khác của Meta, các biện pháp kiểm soát chất lượng nghiêm ngặt đã được đưa ra để duy trì tính toàn vẹn dữ liệu và giảm thiểu sai lệch trong khi phát triển Llama 3. Vì vậy, sản phẩm cuối cùng là một mô hình mạnh mẽ được tạo ra một cách có trách nhiệm.

Kiến trúc mô hình Llama 3 nổi bật vì tập trung vào hiệu quả và hiệu suất trong các tác vụ xử lý ngôn ngữ tự nhiên. Được xây dựng dựa trên khung dựa trên Transformer, nó nhấn mạnh hiệu quả tính toán, đặc biệt là trong quá trình tạo văn bản, bằng cách sử dụng kiến trúc chỉ giải mã.

Mô hình tạo ra các đầu ra chỉ dựa trên ngữ cảnh trước đó mà không cần bộ mã hóa để mã hóa đầu vào, làm cho nó nhanh hơn nhiều.

Các mô hình Llama 3 có một tokenizer với vốn từ vựng của 128K tokens. Một vốn từ vựng lớn hơn có nghĩa là các mô hình có thể hiểu và xử lý văn bản tốt hơn. Ngoài ra, các mô hình hiện sử dụng chú ý truy vấn được nhóm (GQA) để cải thiện hiệu quả suy luận. GQA là một kỹ thuật mà bạn có thể coi là điểm nhấn giúp các mô hình tập trung vào các phần có liên quan của dữ liệu đầu vào để tạo ra các phản hồi nhanh hơn và chính xác hơn.

Dưới đây là một vài chi tiết thú vị hơn về kiến trúc mô hình của Llama 3:

Xử lý tài liệu theo ranh giới: Llama 3 duy trì tính rõ ràng giữa các ranh giới tài liệu, đây là yếu tố quan trọng cho các tác vụ như tóm tắt.
‍
Hiểu mã tốt hơn: Dữ liệu đào tạo của Llama 3 bao gồm nhiều mẫu mã hơn gấp bốn lần, giúp tăng cường khả năng mã hóa.
‍
Kiểm soát chất lượng mạnh mẽ: Các biện pháp nghiêm ngặt, bao gồm các bộ lọc heuristic và loại bỏ NSFW, đảm bảo tính toàn vẹn dữ liệu và giảm thiểu sai lệch.

Llama 3 đang thay đổi cách chúng ta tiếp cận đào tạo mô hình

Để đào tạo các mô hình Llama 3 lớn nhất, ba loại song song đã được kết hợp: song song dữ liệu, song song hóa mô hình và song song đường ống.

Song song hóa dữ liệu phân chia dữ liệu đào tạo trên nhiều GPU, trong khi song song hóa mô hình phân vùng kiến trúc mô hình để sử dụng sức mạnh tính toán của từng GPU GPU. Song song hóa đường ống chia quá trình đào tạo thành các giai đoạn tuần tự, tối ưu hóa tính toán và giao tiếp.

Việc triển khai hiệu quả nhất đã đạt được mức sử dụng điện toán đáng chú ý, vượt quá 400 TFLOPS mỗi GPU khi được đào tạo đồng thời trên 16.000 GPU. Những lần đào tạo này được thực hiện trên hai tùy chỉnh được xây dựng GPU mỗi cụm, mỗi cụm bao gồm 24.000 GPU. Cơ sở hạ tầng tính toán đáng kể này cung cấp sức mạnh cần thiết để đào tạo các mô hình Llama 3 quy mô lớn một cách hiệu quả.

Để tối đa hóa GPU Thời gian hoạt động, một ngăn xếp đào tạo mới nâng cao đã được phát triển, tự động hóa việc phát hiện, xử lý và bảo trì lỗi. Độ tin cậy phần cứng và cơ chế phát hiện đã được cải thiện đáng kể để giảm thiểu rủi ro tham nhũng dữ liệu thầm lặng. Ngoài ra, các hệ thống lưu trữ có thể mở rộng mới đã được phát triển để giảm điểm kiểm tra và chi phí quay trở lại.

Những cải tiến này dẫn đến thời gian đào tạo tổng thể hiệu quả hơn 95%. Kết hợp lại, họ đã tăng hiệu quả đào tạo Llama 3 lên khoảng ba lần so với Llama 2. Hiệu quả này không chỉ ấn tượng; nó mở ra những khả năng mới cho các phương pháp đào tạo AI.

Mở cửa với Llama 3

Bởi vì Llama 3 là mã nguồn mở, các nhà nghiên cứu và sinh viên có thể nghiên cứu mã của nó, tiến hành các thí nghiệm và tham gia vào các cuộc thảo luận về các mối quan tâm và thành kiến đạo đức. Tuy nhiên, Llama 3 không chỉ dành cho đám đông học thuật. Nó cũng đang tạo ra làn sóng trong các ứng dụng thực tế. Nó đang trở thành xương sống của Giao diện trò chuyện Meta AI, tích hợp liền mạch vào các nền tảng như Facebook, Instagram, WhatsApp và Messenger. Với Meta AI, người dùng có thể tham gia vào các cuộc trò chuyện bằng ngôn ngữ tự nhiên, truy cập các đề xuất được cá nhân hóa, thực hiện các tác vụ và kết nối với người khác một cách dễ dàng.

So sánh Llama 3 với các LLM khác

Llama 3 thực hiện đặc biệt tốt trên một số điểm chuẩn chính đánh giá khả năng hiểu ngôn ngữ và lý luận phức tạp. Dưới đây là một số điểm chuẩn kiểm tra các khía cạnh khác nhau về khả năng của Llama 3:

Hiểu ngôn ngữ đa nhiệm hàng loạt (MMLU) - Đo lường kiến thức của nó trên nhiều lĩnh vực khác nhau.
‍
Trả lời câu hỏi mục đích chung (GPQA) - Đánh giá khả năng của mô hình trong việc tạo ra các câu trả lời mạch lạc và chính xác cho nhiều câu hỏi kiến thức chung.
‍
HumanEval - Tập trung vào các nhiệm vụ mã hóa và giải quyết vấn đề, kiểm tra khả năng của mô hình để tạo mã lập trình chức năng và giải quyết các thách thức thuật toán.

Kết quả nổi bật của Llama 3 trong các thử nghiệm này phân biệt rõ ràng nó với các đối thủ cạnh tranh như GoogleGemma 7B của Mistral, Mistral 7B của Mistral và Anthropic'Claude 3 Sonnet. Theo thống kê được công bố, đặc biệt là mô hình 70B, Llama 3 vượt trội hơn các mô hình này trong tất cả các điểm chuẩn trên.

Meta Llama 3 đang được mở rộng phạm vi tiếp cận

Meta đang mở rộng phạm vi tiếp cận của Llama 3 bằng cách cung cấp nó trên nhiều nền tảng khác nhau cho cả người dùng phổ thông và nhà phát triển. Đối với người dùng hàng ngày, Llama 3 được tích hợp vào các nền tảng phổ biến của Meta như WhatsApp, Instagram, Facebook và Messenger. Người dùng có thể truy cập các tính năng nâng cao như tìm kiếm thời gian thực và khả năng tạo nội dung sáng tạo trực tiếp trong các ứng dụng này.

Llama 3 cũng đang được tích hợp vào các công nghệ đeo được như kính thông minh Ray-Ban Meta và tai nghe Meta Quest VR cho trải nghiệm tương tác.

Llama 3 có sẵn trên nhiều nền tảng khác nhau dành cho các nhà phát triển, bao gồm AWS, Databricks, Google Mây Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure NVIDIA NIM và Snowflake. Bạn cũng có thể truy cập các mô hình này trực tiếp từ Meta. Một loạt các tùy chọn giúp các nhà phát triển dễ dàng tích hợp các khả năng mô hình AI tiên tiến này vào các dự án của họ, cho dù họ thích làm việc trực tiếp với Meta hay thông qua các nền tảng phổ biến khác.

Món ăn mang đi

Những tiến bộ của học máy tiếp tục thay đổi cách chúng ta tương tác với công nghệ mỗi ngày. Llama 3 của Meta cho thấy LLM không chỉ là tạo văn bản nữa. LLM đang giải quyết các vấn đề phức tạp và xử lý nhiều ngôn ngữ. Nhìn chung, Llama 3 đang làm cho AI dễ thích nghi và dễ tiếp cận hơn bao giờ hết. Nhìn về phía trước, kế hoạch nâng cấp cho Llama 3 hứa hẹn nhiều khả năng hơn, như xử lý nhiều mô hình và hiểu bối cảnh lớn hơn.

Kiểm tra kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi để tìm hiểu thêm về AI. Truy cập các trang giải pháp của chúng tôi để xem AI đang được áp dụng như thế nào trong các lĩnh vực như sản xuất và nông nghiệp.

Làm quen với Llama 3 của Meta

Sự tiến hóa của các mô hình Llama của Meta

Giới thiệu Llama 3 của Meta

Kiến trúc mô hình Llama 3 của Meta

Llama 3 đang thay đổi cách chúng ta tiếp cận đào tạo mô hình

Mở cửa với Llama 3

So sánh Llama 3 với các LLM khác

Meta Llama 3 đang được mở rộng phạm vi tiếp cận

Món ăn mang đi

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Làm quen với Llama 3 của Meta

Sự tiến hóa của các mô hình Llama của Meta

Giới thiệu Llama 3 của Meta

Kiến trúc mô hình Llama 3 của Meta

Llama 3 đang thay đổi cách chúng ta tiếp cận đào tạo mô hình

Mở cửa với Llama 3

So sánh Llama 3 với các LLM khác

Meta Llama 3 đang được mở rộng phạm vi tiếp cận

Món ăn mang đi

Đọc thêm trong danh mục này

Hãy xây dựng tương lai của AI cùng nhau!

Hãy xây dựng tương lai
của AI cùng nhau!