Bảng chú giải thuật ngữ

Mô hình ngôn ngữ lớn (Large Language Model - LLM)

Khám phá những nguyên tắc cơ bản của Mô hình Ngôn ngữ Lớn (LLM). Tìm hiểu về kiến trúc Transformer, mã hóa từ vựng và cách kết hợp LLM với... Ultralytics YOLO26.

Mô hình ngôn ngữ quy mô lớn (LLM) là một loại Trí tuệ nhân tạo (AI) tinh vi được huấn luyện trên các tập dữ liệu khổng lồ để hiểu, tạo ra và thao tác ngôn ngữ của con người. Các mô hình này đại diện cho một bước tiến đáng kể trong Học sâu (DL) , sử dụng mạng nơ-ron với hàng tỷ tham số để nắm bắt các mẫu ngôn ngữ phức tạp, ngữ pháp và các mối quan hệ ngữ nghĩa. Về cốt lõi, hầu hết các LLM hiện đại dựa trên kiến trúc Transformer , cho phép chúng xử lý các chuỗi dữ liệu song song thay vì tuần tự. Kiến trúc này sử dụng cơ chế tự chú ý , cho phép mô hình cân nhắc tầm quan trọng của các từ khác nhau trong một câu so với nhau, bất kể khoảng cách của chúng trong văn bản.

Các cơ chế cốt lõi của LLM

Chức năng của mô hình học ngôn ngữ tuyến tính (LLM) bắt đầu bằng quá trình mã hóa từ (tokenization ), trong đó văn bản thô được chia nhỏ thành các đơn vị nhỏ hơn gọi là token (từ hoặc từ con). Trong giai đoạn huấn luyện mô hình, hệ thống phân tích hàng petabyte văn bản từ internet, sách và bài báo. Nó tham gia vào quá trình học không giám sát để dự đoán token tiếp theo trong một chuỗi, từ đó học được cấu trúc thống kê của ngôn ngữ.

Sau quá trình đào tạo ban đầu này, các nhà phát triển thường tinh chỉnh mô hình để chuyên biệt hóa cho các nhiệm vụ khác nhau, chẳng hạn như phân tích y tế hoặc hỗ trợ lập trình. Khả năng thích ứng này là lý do tại sao các tổ chức như Trung tâm Nghiên cứu về Mô hình Nền tảng Stanford lại được đánh giá cao. classify Chúng được xem như "mô hình nền tảng" - những cơ sở rộng lớn mà trên đó các ứng dụng cụ thể được xây dựng.

Các Ứng dụng Thực tế

Các chương trình LLM đã vượt ra khỏi phạm vi nghiên cứu lý thuyết để ứng dụng thực tiễn, mang lại tác động lớn trong nhiều ngành công nghiệp khác nhau:

Trợ lý ảo thông minh: Dịch vụ khách hàng hiện đại phụ thuộc rất nhiều vào chatbot được hỗ trợ bởi LLM (Learning Learning Module). Không giống như các hệ thống dựa trên quy tắc cũ, các trợ lý ảo này có thể xử lý các truy vấn phức tạp. Để cải thiện độ chính xác và giảm thiểu sai sót , các nhà phát triển tích hợp Retrieval Augmented Generation (RAG) , cho phép mô hình tham chiếu các tài liệu bên ngoài, cập nhật của công ty trước khi trả lời.
Hệ thống Ngôn ngữ-Hình ảnh Đa phương thức: Lĩnh vực tiên tiến của Trí tuệ Nhân tạo kết nối văn bản với dữ liệu hình ảnh. Mô hình Ngôn ngữ-Hình ảnh (VLM) cho phép người dùng truy vấn hình ảnh bằng ngôn ngữ tự nhiên. Ví dụ, việc kết hợp giao diện ngôn ngữ với một bộ phát hiện mạnh mẽ như YOLO26 cho phép các hệ thống xác định và mô tả các đối tượng trong nguồn cấp dữ liệu video thời gian thực dựa trên các lệnh bằng giọng nói.

Kết nối văn bản và hình ảnh bằng mã lập trình

Trong khi các mô hình ngôn ngữ học tiêu chuẩn xử lý văn bản, ngành công nghiệp đang chuyển hướng sang Trí tuệ nhân tạo đa phương thức . Ví dụ sau đây minh họa cách các gợi ý ngôn ngữ có thể điều khiển các tác vụ thị giác máy tính bằng cách sử dụng YOLO -World , một mô hình hiểu các mô tả văn bản để phát hiện từ vựng mở.

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Phân biệt các khái niệm liên quan

Điều quan trọng là phải phân biệt LLM với các thuật ngữ rộng hơn hoặc tương đương:

LLM so với Xử lý Ngôn ngữ Tự nhiên (NLP) : NLP là lĩnh vực học thuật bao quát liên quan đến sự tương tác giữa máy tính và ngôn ngữ con người. LLM là một công cụ hoặc công nghệ cụ thể được sử dụng trong lĩnh vực đó để đạt được kết quả tiên tiến nhất.
LLM so với Trí tuệ nhân tạo tạo sinh : Trí tuệ nhân tạo tạo sinh là một loại hình bao gồm bất kỳ AI nào có khả năng tạo ra nội dung mới. LLM là tập hợp con dựa trên văn bản của loại hình này, trong khi các mô hình như Khuếch tán ổn định đại diện cho tập hợp con tạo hình ảnh.

Thách thức và triển vọng tương lai

Mặc dù có nhiều khả năng, các mô hình học máy tuyến tính (LLM) vẫn phải đối mặt với những thách thức liên quan đến sự thiên vị trong trí tuệ nhân tạo , vì chúng có thể vô tình tái tạo những định kiến được tìm thấy trong dữ liệu huấn luyện của mình. Hơn nữa, sức mạnh tính toán khổng lồ cần thiết để huấn luyện các mô hình như GPT-4 hoặc Google Gemini làm dấy lên lo ngại về mức tiêu thụ năng lượng. Nghiên cứu hiện đang tập trung vào lượng tử hóa mô hình để làm cho các hệ thống này đủ hiệu quả để chạy trên phần cứng biên.

Để hiểu sâu hơn về mặt kỹ thuật, bài báo gốc "Attention Is All You Need" cung cấp lý thuyết nền tảng cho Transformer. Bạn cũng có thể tìm hiểu cách NVIDIA tối ưu hóa phần cứng cho các khối lượng công việc khổng lồ này.

Mô hình ngôn ngữ lớn (Large Language Model - LLM)

Xe lửa Ultralytics YOLO các mô hình để hợp lý hóa quy trình làm việc trên khắp các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Các cơ chế cốt lõi của LLM

Các Ứng dụng Thực tế

Kết nối văn bản và hình ảnh bằng mã lập trình

Phân biệt các khái niệm liên quan

Thách thức và triển vọng tương lai

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tham gia Ultralytics cộng đồng