Thuật ngữ

Học tập đa phương thức

Khám phá sức mạnh của Học tập đa phương thức trong AI! Khám phá cách các mô hình tích hợp nhiều loại dữ liệu khác nhau để giải quyết vấn đề thực tế và phong phú hơn.

Học tập đa phương thức là một lĩnh vực con của Trí tuệ nhân tạo (AI) và Học máy (ML) tập trung vào việc thiết kế và đào tạo các mô hình có thể xử lý và tích hợp thông tin từ nhiều loại dữ liệu riêng biệt, được gọi là phương thức . Các phương thức phổ biến bao gồm văn bản, hình ảnh ( Tầm nhìn máy tính (CV) ), âm thanh ( Nhận dạng giọng nói ), video và dữ liệu cảm biến (như LiDAR hoặc chỉ số nhiệt độ). Mục tiêu cốt lõi của Học tập đa phương thức là xây dựng các hệ thống AI có khả năng hiểu toàn diện hơn, giống con người hơn về các tình huống phức tạp bằng cách tận dụng thông tin bổ sung có trên các nguồn dữ liệu khác nhau.

Định nghĩa và các khái niệm cốt lõi

Học tập đa phương thức liên quan đến các thuật toán đào tạo để hiểu mối quan hệ và tương quan giữa các loại dữ liệu khác nhau. Thay vì phân tích từng phương thức riêng lẻ, quá trình học tập tập trung vào các kỹ thuật kết hợp hoặc hợp nhất thông tin một cách hiệu quả. Các khái niệm chính bao gồm:

Hợp nhất thông tin: Đây là phương pháp được sử dụng để kết hợp thông tin từ các phương thức khác nhau. Hợp nhất có thể diễn ra ở nhiều giai đoạn khác nhau: sớm (kết hợp dữ liệu thô), trung gian (kết hợp các tính năng được trích xuất từ mỗi phương thức) hoặc muộn (kết hợp đầu ra của các mô hình riêng biệt được đào tạo trên mỗi phương thức). Hợp nhất thông tin hiệu quả là rất quan trọng để tận dụng thế mạnh của từng loại dữ liệu.
Học tập liên phương thức: Bao gồm việc học các biểu diễn trong đó thông tin từ một phương thức có thể được sử dụng để suy ra hoặc thu thập thông tin từ phương thức khác (ví dụ: tạo chú thích văn bản từ hình ảnh).
Căn chỉnh dữ liệu: Đảm bảo rằng các thông tin tương ứng trên các phương thức khác nhau được khớp chính xác (ví dụ: căn chỉnh các từ được nói trong bản âm thanh với các khung hình trực quan tương ứng trong video). Căn chỉnh dữ liệu phù hợp thường là điều kiện tiên quyết để hợp nhất hiệu quả.

Học tập đa phương thức phụ thuộc rất nhiều vào các kỹ thuật từ Học sâu (DL) , sử dụng các kiến trúc như Transformers và Mạng nơ-ron tích chập (CNN) được thiết kế để xử lý nhiều đầu vào khác nhau, thường sử dụng các khuôn khổ như PyTorch ( trang web chính thức của PyTorch ) hoặc TensorFlow ( trang web chính thức TensorFlow ).

Sự liên quan và ứng dụng

Sự liên quan của Học tập đa phương thức bắt nguồn từ khả năng tạo ra các hệ thống AI mạnh mẽ và linh hoạt hơn có khả năng giải quyết các vấn đề phức tạp trong thế giới thực, nơi thông tin vốn có nhiều mặt. Nhiều mô hình AI tiên tiến hiện nay, bao gồm cả các Mô hình nền tảng lớn, tận dụng các khả năng đa phương thức.

Sau đây là một số ví dụ cụ thể về cách áp dụng Học tập đa phương thức:

Mô hình ngôn ngữ thị giác (VLM) : Các mô hình này tích hợp thông tin trực quan và văn bản. Các ứng dụng bao gồm tự động tạo chú thích mô tả cho hình ảnh ( chú thích hình ảnh ), trả lời các câu hỏi về nội dung của hình ảnh ( trả lời câu hỏi trực quan (VQA) ) và cho phép tương tác giữa người và máy tính tự nhiên hơn. Các ví dụ gần đây bao gồm các mô hình như PaliGemma 2 của Google và Florence-2 của Microsoft .
Phân tích tình cảm nâng cao : Phân tích tình cảm truyền thống thường chỉ dựa vào văn bản. Các phương pháp tiếp cận đa phương thức có thể cải thiện đáng kể độ chính xác bằng cách kết hợp các tín hiệu thị giác (như biểu cảm khuôn mặt trong bài đánh giá video) hoặc thông tin thính giác (như giọng điệu trong lời nói). Điều này giúp hiểu rõ hơn về cảm xúc hoặc ý kiến được thể hiện. Bạn có thể tìm hiểu nghiên cứu về phân tích tình cảm đa phương thức để biết thêm chi tiết.

Các ứng dụng quan trọng khác bao gồm lái xe tự động ( AI trong xe tự lái ), trong đó dữ liệu từ camera, LiDAR và radar được kết hợp bởi các công ty như Waymo , Phân tích hình ảnh y tế kết hợp dữ liệu hình ảnh với hồ sơ bệnh nhân và các ứng dụng AI trong robot , trong đó robot tích hợp thông tin thị giác, thính giác và xúc giác để tương tác với môi trường của chúng ( Robot ).

Sự khác biệt chính

Sẽ rất hữu ích khi phân biệt Học tập đa phương thức với các thuật ngữ liên quan:

Mô hình đa phương thức : Học tập đa phương thức là quá trình hoặc lĩnh vực nghiên cứu liên quan đến việc đào tạo AI bằng nhiều loại dữ liệu. Mô hình đa phương thức là hệ thống hoặc kiến trúc AI kết quả được thiết kế và đào tạo bằng các kỹ thuật này.
Thị giác máy tính (CV) : CV tập trung hoàn toàn vào việc xử lý và hiểu dữ liệu trực quan (hình ảnh, video). Học tập đa phương thức vượt xa CV bằng cách tích hợp dữ liệu trực quan với các phương thức khác như văn bản hoặc âm thanh.
Xử lý ngôn ngữ tự nhiên (NLP) : NLP xử lý việc hiểu và tạo ra ngôn ngữ của con người (văn bản, lời nói). Học tập đa phương thức tích hợp dữ liệu ngôn ngữ với các phương thức khác như hình ảnh hoặc dữ liệu cảm biến.
Mô hình nền tảng : Đây là các mô hình quy mô lớn được đào tạo trước trên lượng dữ liệu khổng lồ, thường được thiết kế để có thể thích ứng với nhiều tác vụ hạ nguồn khác nhau. Nhiều mô hình nền tảng hiện đại, như GPT-4 , kết hợp các khả năng đa phương thức, nhưng các khái niệm lại khác biệt; Học đa phương thức là một phương pháp thường được sử dụng để xây dựng các mô hình mạnh mẽ này.

Thách thức và định hướng tương lai

Học tập đa phương thức đặt ra những thách thức độc đáo, bao gồm việc sắp xếp dữ liệu hiệu quả từ các nguồn khác nhau, phát triển các chiến lược hợp nhất tối ưu và xử lý dữ liệu bị thiếu hoặc nhiễu trong một hoặc nhiều phương thức. Giải quyết những thách thức này trong học tập đa phương thức vẫn là một lĩnh vực nghiên cứu tích cực.

Lĩnh vực này đang phát triển nhanh chóng, mở rộng ranh giới hướng tới các hệ thống AI có thể nhận thức và lý luận về thế giới giống con người hơn, có khả năng đóng góp vào sự phát triển của Trí tuệ nhân tạo tổng quát (AGI) . Trong khi các nền tảng như Ultralytics HUB hiện tạo điều kiện cho các quy trình làm việc chủ yếu tập trung vào các tác vụ thị giác máy tính bằng các mô hình như Ultralytics YOLO (ví dụ: Ultralytics YOLOv8 ) để Phát hiện đối tượng , thì bối cảnh AI rộng hơn hướng tới việc tăng cường tích hợp các khả năng đa phương thức. Hãy theo dõi Blog Ultralytics để cập nhật về các khả năng và ứng dụng mô hình mới. Để có cái nhìn tổng quan hơn về lĩnh vực này, trang Wikipedia về Học tập đa phương thức cung cấp thêm thông tin để đọc.

Học tập đa phương thức

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Định nghĩa và các khái niệm cốt lõi

Sự liên quan và ứng dụng

Sự khác biệt chính

Thách thức và định hướng tương lai

Đọc thêm blog

Tham gia Ultralytics cộng đồng