Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mô hình đa phương thức

Khám phá cách các mô hình đa phương thức tích hợp văn bản, hình ảnh và âm thanh. Tìm hiểu về các kiến ​​trúc như... Ultralytics YOLO26 và triển khai trí tuệ nhân tạo thị giác trên Ultralytics Nền tảng.

Mô hình đa phương thức là một loại hệ thống trí tuệ nhân tạo (AI) tiên tiến có khả năng xử lý, diễn giải và tích hợp thông tin từ nhiều loại dữ liệu khác nhau, hay còn gọi là "phương thức", cùng một lúc. Trong khi các hệ thống đơn phương thức truyền thống chuyên về một lĩnh vực duy nhất—chẳng hạn như Xử lý ngôn ngữ tự nhiên (NLP) cho văn bản hoặc Thị giác máy tính (CV) cho hình ảnh—các mô hình đa phương thức nhằm mục đích mô phỏng nhận thức của con người bằng cách tổng hợp các tín hiệu thị giác, thính giác và ngôn ngữ lại với nhau. Sự hội tụ này cho phép mô hình phát triển sự hiểu biết toàn diện về thế giới, cho phép nó rút ra các mối tương quan phức tạp giữa một cảnh trực quan và một mô tả bằng lời nói. Những khả năng này được coi là những bước nền tảng hướng tới việc đạt được Trí tuệ nhân tạo tổng quát (AGI) .

Các cơ chế và kiến trúc cốt lõi

Hiệu quả của mô hình đa phương thức phụ thuộc vào khả năng ánh xạ các loại dữ liệu đa dạng vào một không gian ngữ nghĩa chung. Quá trình này thường bắt đầu bằng việc tạo ra các embedding , là các biểu diễn số nắm bắt ý nghĩa cốt lõi của dữ liệu đầu vào. Bằng cách huấn luyện trên các tập dữ liệu khổng lồ gồm các ví dụ được ghép nối, chẳng hạn như video có phụ đề, mô hình học cách căn chỉnh biểu diễn vector của hình ảnh "mèo" với embedding văn bản cho từ "mèo".

Một số khái niệm kiến ​​trúc then chốt giúp cho sự tích hợp này trở nên khả thi:

  • Kiến trúc Transformer : Nhiều hệ thống đa phương thức sử dụng transformer, vốn sử dụng cơ chế chú ý để tự động đánh giá tầm quan trọng của các phần đầu vào khác nhau. Điều này cho phép mô hình tập trung vào các vùng hình ảnh cụ thể tương ứng với các từ liên quan trong một đoạn văn bản nhắc nhở, một khái niệm được trình bày chi tiết trong bài nghiên cứu kinh điển "Attention Is All You Need" .
  • Ghép nối dữ liệu: Điều này đề cập đến chiến lược kết hợp thông tin từ các nguồn khác nhau. Việc ghép nối cảm biến có thể diễn ra sớm bằng cách hợp nhất dữ liệu thô hoặc muộn hơn bằng cách kết hợp các quyết định của các mô hình con riêng biệt. Các framework hiện đại như PyTorch cung cấp sự linh hoạt cần thiết để xây dựng các quy trình phức tạp này.
  • Học tập tương phản: Các kỹ thuật được sử dụng bởi các mô hình như CLIP của OpenAI huấn luyện hệ thống để giảm thiểu khoảng cách giữa các cặp văn bản-hình ảnh khớp nhau trong không gian vectơ, đồng thời tối đa hóa khoảng cách giữa các cặp không khớp.

Các Ứng dụng Thực tế

Các mô hình đa phương thức đã mở khóa những khả năng mà trước đây các hệ thống đơn phương thức không thể đạt được.

  • Hệ thống trả lời câu hỏi bằng hình ảnh (Visual Question Answering - VQA) : Các hệ thống này cho phép người dùng đặt câu hỏi bằng ngôn ngữ tự nhiên về một hình ảnh. Ví dụ, một người dùng khiếm thị có thể tải lên ảnh chụp một cái tủ đựng thức ăn và hỏi, "Có lon súp nào trên kệ trên cùng không?". Mô hình sử dụng nhận diện đối tượng để xác định các vật phẩm và xử lý ngôn ngữ tự nhiên (NLP) để hiểu câu hỏi, từ đó cung cấp câu trả lời hữu ích.
  • Xe tự hành : Xe tự lái hoạt động như những tác nhân đa phương thức thời gian thực. Chúng kết hợp dữ liệu hình ảnh từ camera, thông tin độ sâu từ LiDAR và dữ liệu vận tốc từ radar. Sự dư thừa này đảm bảo rằng nếu một cảm biến bị cản trở bởi thời tiết, các cảm biến khác vẫn có thể duy trì an toàn giao thông .
  • Phát hiện từ vựng mở: Các mô hình như Ultralytics YOLO -World cho phép người dùng detect Các đối tượng được nhận diện bằng cách sử dụng các lời nhắc văn bản tùy ý thay vì một danh sách các lớp cố định. Điều này giúp thu hẹp khoảng cách giữa các lệnh ngôn ngữ và nhận diện hình ảnh.

Ví dụ: Phát hiện từ vựng mở

Ví dụ sau đây minh họa cách sử dụng ultralytics Thư viện này dùng để thực hiện phát hiện từ vựng mở, trong đó mô hình diễn giải các lời nhắc bằng văn bản để xác định các đối tượng trong hình ảnh:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

Sự khác biệt từ các thuật ngữ liên quan

Việc phân biệt "Mô hình đa phương thức" với các khái niệm liên quan trong thuật ngữ AI là rất hữu ích:

  • Học tập đa phương thức : Điều này đề cập đến quy trình và các kỹ thuật học máy (ML) được sử dụng để huấn luyện các hệ thống này. Mô hình đa phương thức là sản phẩm cuối cùng hoặc phần mềm thu được từ quá trình học tập đó.
  • Mô hình ngôn ngữ quy mô lớn (LLM) : Các LLM truyền thống chỉ xử lý văn bản. Mặc dù nhiều LLM đang phát triển thành Mô hình ngôn ngữ-hình ảnh (VLM), nhưng một LLM tiêu chuẩn vẫn chỉ xử lý văn bản đơn thuần.
  • Mô hình nền tảng : Đây là một danh mục rộng hơn mô tả các mô hình quy mô lớn có thể thích ứng với nhiều nhiệm vụ tiếp theo. Mặc dù mô hình đa phương thức thường là mô hình nền tảng, nhưng không phải tất cả các mô hình nền tảng đều xử lý được nhiều phương thức.

Tương lai của AI đa phương thức

Lĩnh vực này đang nhanh chóng tiến tới các hệ thống có thể xử lý liên tục các luồng âm thanh, video và văn bản trong thời gian thực. Nghiên cứu từ các tổ chức như Google DeepMind tiếp tục đẩy mạnh giới hạn của khả năng nhận thức máy móc. Ultralytics Chúng tôi hỗ trợ hệ sinh thái này bằng các nền tảng xử lý hình ảnh hiệu năng cao như YOLO26 . Được phát hành vào năm 2026, YOLO26 cung cấp tốc độ và độ chính xác vượt trội cho các tác vụ như phân đoạn đối tượng , đóng vai trò là thành phần hình ảnh hiệu quả trong các quy trình đa phương thức lớn hơn. Các nhà phát triển có thể quản lý dữ liệu, huấn luyện và triển khai các quy trình phức tạp này bằng cách sử dụng Nền tảng Ultralytics thống nhất.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay