Thuật ngữ

CLIP (Tiền huấn luyện hình ảnh ngôn ngữ tương phản)

Khám phá cách CLIP của OpenAI cách mạng hóa AI với công nghệ học không cần thực hiện, căn chỉnh hình ảnh-văn bản và các ứng dụng thực tế trong thị giác máy tính.

CLIP (Contrastive Language-Image Pre-training) là một mạng nơ-ron do OpenAI phát triển, học các khái niệm trực quan trực tiếp từ các mô tả ngôn ngữ tự nhiên. Thay vì dựa vào các tập dữ liệu được quản lý với các nhãn được xác định trước như các mô hình phân loại hình ảnh truyền thống, CLIP được đào tạo trên một bộ sưu tập lớn các cặp hình ảnh-văn bản được thu thập từ internet. Nó sử dụng một kỹ thuật gọi là học tương phản để hiểu mối quan hệ giữa hình ảnh và các từ được sử dụng để mô tả chúng. Điều này cho phép CLIP thực hiện tốt đáng kể các nhiệm vụ mà nó không được đào tạo rõ ràng, một khả năng được gọi là học không bắn .

Clip hoạt động như thế nào

Kiến trúc của CLIP bao gồm hai thành phần chính: bộ mã hóa hình ảnh và bộ mã hóa văn bản. Bộ mã hóa hình ảnh, thường dựa trên các kiến trúc như Vision Transformer (ViT) hoặc ResNet , xử lý hình ảnh để nắm bắt các đặc điểm trực quan của chúng. Đồng thời, bộ mã hóa văn bản, thường là mô hình Transformer tương tự như những mô hình được sử dụng trong Xử lý ngôn ngữ tự nhiên (NLP) , xử lý các mô tả văn bản tương ứng để trích xuất ý nghĩa ngữ nghĩa. Trong quá trình đào tạo, mô hình học cách tạo biểu diễn (nhúng) cho cả hình ảnh và văn bản trong một không gian được chia sẻ. Mục tiêu là tối đa hóa điểm tương đồng giữa các nhúng của cặp hình ảnh-văn bản chính xác trong khi giảm thiểu điểm tương đồng đối với các cặp không chính xác trong một lô. Mục tiêu tương phản này dạy mô hình liên kết các thành phần trực quan với các thành phần văn bản tương ứng của chúng một cách hiệu quả.

Các tính năng và lợi thế chính

Tính năng nổi bật của CLIP là khả năng học zero-shot mạnh mẽ. Vì nó học được mối quan hệ chung giữa hình ảnh và ngôn ngữ, nó có thể phân loại hình ảnh dựa trên các mô tả văn bản mới, chưa từng thấy mà không cần đào tạo thêm. Ví dụ, ngay cả khi CLIP chưa bao giờ nhìn thấy hình ảnh có nhãn "ghế bành quả bơ" trong quá trình đào tạo, nó vẫn có khả năng xác định hình ảnh nếu được cung cấp lời nhắc văn bản đó, dựa trên các mối liên hệ đã học giữa các phong cách trực quan, đồ vật (như quả bơ và ghế bành) và các từ mô tả. Điều này làm cho CLIP có tính linh hoạt cao và có thể thích ứng với nhiều tác vụ thị giác máy tính (CV) khác nhau, thường đạt được hiệu suất mạnh mẽ ngay cả khi so sánh với các mô hình được đào tạo cụ thể trên các tập dữ liệu chuẩn như ImageNet .

Ứng dụng trong thế giới thực

Khả năng độc đáo của CLIP cho phép có nhiều ứng dụng thực tế:

Tìm kiếm và truy xuất hình ảnh: Hệ thống có thể sử dụng CLIP để cho phép người dùng tìm kiếm các thư viện hình ảnh lớn bằng các truy vấn văn bản dạng tự do (ví dụ: "cho tôi xem hình ảnh hoàng hôn trên núi") thay vì chỉ dựa vào các thẻ được xác định trước. Các nền tảng như Unsplash đã khám phá việc sử dụng CLIP để cải thiện tìm kiếm hình ảnh.
Kiểm duyệt nội dung: CLIP có thể xác định hình ảnh chứa các khái niệm cụ thể được mô tả bằng văn bản (ví dụ: "hình ảnh mô tả bạo lực" hoặc "không tuân thủ hướng dẫn về thương hiệu") mà không cần các tập dữ liệu lớn được dán nhãn rõ ràng cho mọi danh mục vi phạm có thể xảy ra. Điều này cung cấp một cách tiếp cận linh hoạt hơn để lọc nội dung .

Clip so với các mô hình khác

CLIP khác biệt đáng kể so với các mô hình AI thông thường khác:

Bộ phân loại hình ảnh truyền thống: Các mô hình này (thường được đào tạo thông qua học có giám sát ) thường yêu cầu dữ liệu được gắn nhãn cho từng danh mục cụ thể mà chúng cần để nhận dạng và đấu tranh với các khái niệm bên ngoài bộ đào tạo của chúng. Bản chất zero-shot của CLIP khắc phục được hạn chế này.
Máy phát hiện đối tượng: Các mô hình như Ultralytics YOLO tập trung vào việc xác định và định vị nhiều đối tượng trong một hình ảnh bằng cách sử dụng hộp giới hạn , trong khi CLIP chủ yếu tập trung vào việc hiểu nội dung hình ảnh nói chung liên quan đến văn bản.
Các mô hình đa phương thức khác: Trong khi các mô hình cho các tác vụ như Trả lời câu hỏi trực quan (VQA) hoặc Chú thích hình ảnh cũng xử lý hình ảnh và văn bản, chúng thường được đào tạo cho các định dạng đầu vào-đầu ra cụ thể (ví dụ: trả lời câu hỏi, tạo chú thích). CLIP học cách lập bản đồ linh hoạt, có mục đích chung hơn giữa các khái niệm trực quan và văn bản. Bạn có thể tìm hiểu thêm về các mô hình ngôn ngữ thị giác khác nhau trên blog Ultralytics .

Những hạn chế và hướng đi trong tương lai

Mặc dù có nhiều điểm mạnh, CLIP vẫn có những hạn chế. Khả năng hiểu của nó có thể bị ảnh hưởng bởi các thành kiến có trong dữ liệu web khổng lồ, chưa được quản lý mà nó được đào tạo, có khả năng dẫn đến các vấn đề liên quan đến tính công bằng trong AI . Nó cũng có thể gặp khó khăn với các nhiệm vụ đòi hỏi khả năng nhận dạng chi tiết rất chi tiết, lý luận không gian hoặc đếm chính xác các đối tượng. Nghiên cứu đang diễn ra tập trung vào việc giảm thiểu các thành kiến, cải thiện khả năng hiểu chi tiết và khám phá các cách kết hợp kiến thức ngữ nghĩa của CLIP với khả năng định vị không gian của các mô hình như YOLO . Bạn có thể theo dõi những phát triển mới nhất về AI trên blog Ultralytics . Việc đào tạo và triển khai các mô hình, bao gồm cả việc kết hợp các tính năng từ nhiều kiến trúc khác nhau, có thể được quản lý bằng các nền tảng như Ultralytics HUB .

CLIP (Tiền huấn luyện hình ảnh ngôn ngữ tương phản)

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Xe lửa YOLO mô hình đơn giản với Ultralytics TRUNG TÂM

Clip hoạt động như thế nào

Các tính năng và lợi thế chính

Ứng dụng trong thế giới thực

Clip so với các mô hình khác

Những hạn chế và hướng đi trong tương lai

Đọc thêm blog

Tham gia Ultralytics cộng đồng