Khám phá cách các mô hình đa phương thức tích hợp văn bản, hình ảnh và âm thanh. Tìm hiểu về các kiến trúc như... Ultralytics YOLO26 và triển khai trí tuệ nhân tạo thị giác trên Ultralytics Nền tảng.
Mô hình đa phương thức là một loại hệ thống trí tuệ nhân tạo (AI) tiên tiến có khả năng xử lý, diễn giải và tích hợp thông tin từ nhiều loại dữ liệu khác nhau, hay còn gọi là "phương thức", cùng một lúc. Trong khi các hệ thống đơn phương thức truyền thống chuyên về một lĩnh vực duy nhất—chẳng hạn như Xử lý ngôn ngữ tự nhiên (NLP) cho văn bản hoặc Thị giác máy tính (CV) cho hình ảnh—các mô hình đa phương thức nhằm mục đích mô phỏng nhận thức của con người bằng cách tổng hợp các tín hiệu thị giác, thính giác và ngôn ngữ lại với nhau. Sự hội tụ này cho phép mô hình phát triển sự hiểu biết toàn diện về thế giới, cho phép nó rút ra các mối tương quan phức tạp giữa một cảnh trực quan và một mô tả bằng lời nói. Những khả năng này được coi là những bước nền tảng hướng tới việc đạt được Trí tuệ nhân tạo tổng quát (AGI) .
Hiệu quả của mô hình đa phương thức phụ thuộc vào khả năng ánh xạ các loại dữ liệu đa dạng vào một không gian ngữ nghĩa chung. Quá trình này thường bắt đầu bằng việc tạo ra các embedding , là các biểu diễn số nắm bắt ý nghĩa cốt lõi của dữ liệu đầu vào. Bằng cách huấn luyện trên các tập dữ liệu khổng lồ gồm các ví dụ được ghép nối, chẳng hạn như video có phụ đề, mô hình học cách căn chỉnh biểu diễn vector của hình ảnh "mèo" với embedding văn bản cho từ "mèo".
Một số khái niệm kiến trúc then chốt giúp cho sự tích hợp này trở nên khả thi:
Các mô hình đa phương thức đã mở khóa những khả năng mà trước đây các hệ thống đơn phương thức không thể đạt được.
Ví dụ sau đây minh họa cách sử dụng ultralytics Thư viện này dùng để thực hiện phát hiện từ vựng mở, trong đó mô hình diễn giải các lời nhắc bằng văn bản để xác định các đối tượng trong hình ảnh:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])
# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
results[0].show()
Việc phân biệt "Mô hình đa phương thức" với các khái niệm liên quan trong thuật ngữ AI là rất hữu ích:
Lĩnh vực này đang nhanh chóng tiến tới các hệ thống có thể xử lý liên tục các luồng âm thanh, video và văn bản trong thời gian thực. Nghiên cứu từ các tổ chức như Google DeepMind tiếp tục đẩy mạnh giới hạn của khả năng nhận thức máy móc. Ultralytics Chúng tôi hỗ trợ hệ sinh thái này bằng các nền tảng xử lý hình ảnh hiệu năng cao như YOLO26 . Được phát hành vào năm 2026, YOLO26 cung cấp tốc độ và độ chính xác vượt trội cho các tác vụ như phân đoạn đối tượng , đóng vai trò là thành phần hình ảnh hiệu quả trong các quy trình đa phương thức lớn hơn. Các nhà phát triển có thể quản lý dữ liệu, huấn luyện và triển khai các quy trình phức tạp này bằng cách sử dụng Nền tảng Ultralytics thống nhất.