Khám phá cách CLIP của OpenAI cách mạng hóa AI với công nghệ học không cần thực hiện, căn chỉnh hình ảnh-văn bản và các ứng dụng thực tế trong thị giác máy tính.
CLIP (Contrastive Language-Image Pre-training) là một mạng nơ-ron do OpenAI phát triển, học các khái niệm trực quan trực tiếp từ các mô tả ngôn ngữ tự nhiên. Thay vì dựa vào các tập dữ liệu được quản lý với các nhãn được xác định trước như các mô hình phân loại hình ảnh truyền thống, CLIP được đào tạo trên một bộ sưu tập lớn các cặp hình ảnh-văn bản được thu thập từ internet. Nó sử dụng một kỹ thuật gọi là học tương phản để hiểu mối quan hệ giữa hình ảnh và các từ được sử dụng để mô tả chúng. Điều này cho phép CLIP thực hiện tốt đáng kể các nhiệm vụ mà nó không được đào tạo rõ ràng, một khả năng được gọi là học không bắn .
Kiến trúc của CLIP bao gồm hai thành phần chính: bộ mã hóa hình ảnh và bộ mã hóa văn bản. Bộ mã hóa hình ảnh, thường dựa trên các kiến trúc như Vision Transformer (ViT) hoặc ResNet , xử lý hình ảnh để nắm bắt các đặc điểm trực quan của chúng. Đồng thời, bộ mã hóa văn bản, thường là mô hình Transformer tương tự như những mô hình được sử dụng trong Xử lý ngôn ngữ tự nhiên (NLP) , xử lý các mô tả văn bản tương ứng để trích xuất ý nghĩa ngữ nghĩa. Trong quá trình đào tạo, mô hình học cách tạo biểu diễn (nhúng) cho cả hình ảnh và văn bản trong một không gian được chia sẻ. Mục tiêu là tối đa hóa điểm tương đồng giữa các nhúng của cặp hình ảnh-văn bản chính xác trong khi giảm thiểu điểm tương đồng đối với các cặp không chính xác trong một lô. Mục tiêu tương phản này dạy mô hình liên kết các thành phần trực quan với các thành phần văn bản tương ứng của chúng một cách hiệu quả.
Tính năng nổi bật của CLIP là khả năng học zero-shot mạnh mẽ. Vì nó học được mối quan hệ chung giữa hình ảnh và ngôn ngữ, nó có thể phân loại hình ảnh dựa trên các mô tả văn bản mới, chưa từng thấy mà không cần đào tạo thêm. Ví dụ, ngay cả khi CLIP chưa bao giờ nhìn thấy hình ảnh có nhãn "ghế bành quả bơ" trong quá trình đào tạo, nó vẫn có khả năng xác định hình ảnh nếu được cung cấp lời nhắc văn bản đó, dựa trên các mối liên hệ đã học giữa các phong cách trực quan, đồ vật (như quả bơ và ghế bành) và các từ mô tả. Điều này làm cho CLIP có tính linh hoạt cao và có thể thích ứng với nhiều tác vụ thị giác máy tính (CV) khác nhau, thường đạt được hiệu suất mạnh mẽ ngay cả khi so sánh với các mô hình được đào tạo cụ thể trên các tập dữ liệu chuẩn như ImageNet .
Khả năng độc đáo của CLIP cho phép có nhiều ứng dụng thực tế:
CLIP khác biệt đáng kể so với các mô hình AI thông thường khác:
Mặc dù có nhiều điểm mạnh, CLIP vẫn có những hạn chế. Khả năng hiểu của nó có thể bị ảnh hưởng bởi các thành kiến có trong dữ liệu web khổng lồ, chưa được quản lý mà nó được đào tạo, có khả năng dẫn đến các vấn đề liên quan đến tính công bằng trong AI . Nó cũng có thể gặp khó khăn với các nhiệm vụ đòi hỏi khả năng nhận dạng chi tiết rất chi tiết, lý luận không gian hoặc đếm chính xác các đối tượng. Nghiên cứu đang diễn ra tập trung vào việc giảm thiểu các thành kiến, cải thiện khả năng hiểu chi tiết và khám phá các cách kết hợp kiến thức ngữ nghĩa của CLIP với khả năng định vị không gian của các mô hình như YOLO . Bạn có thể theo dõi những phát triển mới nhất về AI trên blog Ultralytics . Việc đào tạo và triển khai các mô hình, bao gồm cả việc kết hợp các tính năng từ nhiều kiến trúc khác nhau, có thể được quản lý bằng các nền tảng như Ultralytics HUB .