Khám phá CLIP (Contrastive Language-Image Pre-training) để kết nối thị giác và ngôn ngữ. Tìm hiểu cách nó cho phép học tập không cần huấn luyện trực tiếp và tăng cường sức mạnh. Ultralytics YOLO26.
CLIP (Contrastive Language-Image Pre-training) là một kiến trúc mạng nơ- ron mang tính cách mạng được phát triển bởi OpenAI , giúp thu hẹp khoảng cách giữa dữ liệu hình ảnh và ngôn ngữ tự nhiên. Không giống như các hệ thống thị giác máy tính (CV) truyền thống yêu cầu việc gắn nhãn dữ liệu tốn nhiều công sức cho một tập hợp các danh mục cố định, CLIP học cách hiểu hình ảnh bằng cách huấn luyện trên hàng triệu cặp hình ảnh-văn bản được thu thập từ internet. Cách tiếp cận này cho phép mô hình thực hiện học không cần huấn luyện (zero-shot learning) , nghĩa là nó có thể xác định các đối tượng, khái niệm hoặc kiểu dáng mà nó chưa từng thấy rõ ràng trong quá trình huấn luyện, chỉ đơn giản bằng cách đọc mô tả văn bản. Bằng cách ánh xạ thông tin hình ảnh và ngôn ngữ vào một không gian đặc trưng chung, CLIP đóng vai trò là mô hình nền tảng mạnh mẽ cho nhiều nhiệm vụ tiếp theo mà không cần tinh chỉnh rộng rãi cho từng nhiệm vụ cụ thể.
Cơ chế cốt lõi của CLIP bao gồm hai bộ mã hóa song song: một bộ mã hóa hình ảnh, thường dựa trên Vision Transformer (ViT) hoặc ResNet , và một bộ chuyển đổi văn bản tương tự như những bộ được sử dụng trong các mô hình ngôn ngữ lớn hiện đại (LLM) . Thông qua một quá trình được gọi là học tương phản , hệ thống được huấn luyện để dự đoán đoạn văn bản nào khớp với hình ảnh nào trong một lô hình ảnh.
Trong quá trình huấn luyện, mô hình tối ưu hóa các tham số để kéo các vector nhúng của các cặp hình ảnh-văn bản khớp nhau lại gần nhau hơn, đồng thời đẩy các cặp không khớp ra xa nhau. Điều này tạo ra một không gian tiềm ẩn đa phương thức, nơi biểu diễn toán học của hình ảnh "chó săn vàng" nằm gần vị trí không gian của vector nhúng văn bản cho "một bức ảnh con chó". Bằng cách tính toán độ tương đồng cosin giữa các vector này, mô hình có thể định lượng mức độ phù hợp của một hình ảnh với lời nhắc bằng ngôn ngữ tự nhiên, cho phép phân loại và truy xuất hình ảnh linh hoạt.
Khả năng liên kết thị giác và ngôn ngữ đã biến CLIP trở thành một công nghệ nền tảng trong các ứng dụng trí tuệ nhân tạo hiện đại:
Trong khi các bộ phát hiện đối tượng tiêu chuẩn bị giới hạn bởi các lớp huấn luyện của chúng, việc sử dụng các đặc trưng dựa trên CLIP cho phép phát hiện từ vựng mở. Tiếp theo Python Đoạn mã này minh họa cách sử dụng
ultralytics đóng gói đến detect các đối tượng sử dụng lời nhắc văn bản tùy chỉnh:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model utilizing CLIP features
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference on an image to detect the text-defined objects
results = model.predict("travelers.jpg")
# Display the results
results[0].show()
Việc phân biệt CLIP với các mô hình trí tuệ nhân tạo phổ biến khác sẽ giúp hiểu rõ hơn về tiện ích cụ thể của nó: