Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

CLIP (Contrastive Language-Image Pre-training)

Khám phá CLIP (Contrastive Language-Image Pre-training) để kết nối thị giác và ngôn ngữ. Tìm hiểu cách nó cho phép học tập không cần huấn luyện trực tiếp và tăng cường sức mạnh. Ultralytics YOLO26.

CLIP (Contrastive Language-Image Pre-training) là một kiến ​​trúc mạng nơ- ron mang tính cách mạng được phát triển bởi OpenAI , giúp thu hẹp khoảng cách giữa dữ liệu hình ảnh và ngôn ngữ tự nhiên. Không giống như các hệ thống thị giác máy tính (CV) truyền thống yêu cầu việc gắn nhãn dữ liệu tốn nhiều công sức cho một tập hợp các danh mục cố định, CLIP học cách hiểu hình ảnh bằng cách huấn luyện trên hàng triệu cặp hình ảnh-văn bản được thu thập từ internet. Cách tiếp cận này cho phép mô hình thực hiện học không cần huấn luyện (zero-shot learning) , nghĩa là nó có thể xác định các đối tượng, khái niệm hoặc kiểu dáng mà nó chưa từng thấy rõ ràng trong quá trình huấn luyện, chỉ đơn giản bằng cách đọc mô tả văn bản. Bằng cách ánh xạ thông tin hình ảnh và ngôn ngữ vào một không gian đặc trưng chung, CLIP đóng vai trò là mô hình nền tảng mạnh mẽ cho nhiều nhiệm vụ tiếp theo mà không cần tinh chỉnh rộng rãi cho từng nhiệm vụ cụ thể.

Cách thức hoạt động của kiến ​​trúc

Cơ chế cốt lõi của CLIP bao gồm hai bộ mã hóa song song: một bộ mã hóa hình ảnh, thường dựa trên Vision Transformer (ViT) hoặc ResNet , và một bộ chuyển đổi văn bản tương tự như những bộ được sử dụng trong các mô hình ngôn ngữ lớn hiện đại (LLM) . Thông qua một quá trình được gọi là học tương phản , hệ thống được huấn luyện để dự đoán đoạn văn bản nào khớp với hình ảnh nào trong một lô hình ảnh.

Trong quá trình huấn luyện, mô hình tối ưu hóa các tham số để kéo các vector nhúng của các cặp hình ảnh-văn bản khớp nhau lại gần nhau hơn, đồng thời đẩy các cặp không khớp ra xa nhau. Điều này tạo ra một không gian tiềm ẩn đa phương thức, nơi biểu diễn toán học của hình ảnh "chó săn vàng" nằm gần vị trí không gian của vector nhúng văn bản cho "một bức ảnh con chó". Bằng cách tính toán độ tương đồng cosin giữa các vector này, mô hình có thể định lượng mức độ phù hợp của một hình ảnh với lời nhắc bằng ngôn ngữ tự nhiên, cho phép phân loại và truy xuất hình ảnh linh hoạt.

Các Ứng dụng Thực tế

Khả năng liên kết thị giác và ngôn ngữ đã biến CLIP trở thành một công nghệ nền tảng trong các ứng dụng trí tuệ nhân tạo hiện đại:

  • Tìm kiếm ngữ nghĩa thông minh : CLIP cho phép người dùng tìm kiếm trong các cơ sở dữ liệu hình ảnh lớn bằng cách sử dụng các truy vấn xử lý ngôn ngữ tự nhiên (NLP) phức tạp. Ví dụ, trong lĩnh vực bán lẻ ứng dụng trí tuệ nhân tạo , người mua hàng có thể tìm kiếm "váy hè hoa cổ điển" và nhận được kết quả chính xác về mặt hình ảnh mà không cần hình ảnh đó phải có các thẻ siêu dữ liệu cụ thể. Điều này thường được hỗ trợ bởi các cơ sở dữ liệu vector hiệu năng cao.
  • Điều khiển AI tạo sinh : Các mô hình như Stable Diffusion dựa vào CLIP để diễn giải các yêu cầu của người dùng và hướng dẫn quá trình tạo hình ảnh. CLIP hoạt động như một công cụ chấm điểm, đánh giá mức độ phù hợp giữa hình ảnh đầu ra được tạo ra với mô tả văn bản, điều này rất cần thiết cho việc tổng hợp văn bản thành hình ảnh chất lượng cao.
  • Phát hiện đối tượng từ vựng mở : Các kiến ​​trúc tiên tiến như YOLO -World tích hợp nhúng CLIP vào detect Các đối tượng được tạo ra dựa trên các đầu vào văn bản tùy ý. Điều này cho phép phát hiện động trong các lĩnh vực như trí tuệ nhân tạo trong chăm sóc sức khỏe , nơi cần xác định thiết bị mới hoặc các bất thường mà không cần đào tạo lại.

Sử dụng các tính năng CLIP với Ultralytics

Trong khi các bộ phát hiện đối tượng tiêu chuẩn bị giới hạn bởi các lớp huấn luyện của chúng, việc sử dụng các đặc trưng dựa trên CLIP cho phép phát hiện từ vựng mở. Tiếp theo Python Đoạn mã này minh họa cách sử dụng ultralytics đóng gói đến detect các đối tượng sử dụng lời nhắc văn bản tùy chỉnh:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model utilizing CLIP features
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference on an image to detect the text-defined objects
results = model.predict("travelers.jpg")

# Display the results
results[0].show()

Phân biệt các khái niệm liên quan

Việc phân biệt CLIP với các mô hình trí tuệ nhân tạo phổ biến khác sẽ giúp hiểu rõ hơn về tiện ích cụ thể của nó:

  • CLIP so với Học có Giám sát : Các mô hình học có giám sát truyền thống yêu cầu định nghĩa nghiêm ngặt và các ví dụ được gắn nhãn cho mỗi danh mục (ví dụ: "mèo", "ô tô"). CLIP học từ các cặp văn bản-hình ảnh thô được tìm thấy trên web, mang lại tính linh hoạt cao hơn và loại bỏ nút thắt cổ chai của việc chú thích thủ công thường được quản lý thông qua các công cụ như Nền tảng Ultralytics .
  • CLIP so với YOLO26 : Trong khi CLIP cung cấp sự hiểu biết tổng quát về các khái niệm, YOLO26 là một công cụ phát hiện đối tượng chuyên dụng, hoạt động theo thời gian thực, được tối ưu hóa cho tốc độ và định vị chính xác. CLIP thường được sử dụng như một công cụ trích xuất đặc trưng hoặc bộ phân loại không cần huấn luyện, trong khi YOLO26 là công cụ cho suy luận thời gian thực tốc độ cao trong môi trường sản xuất.
  • So sánh CLIP với phương pháp học tương phản tiêu chuẩn : Các phương pháp như SimCLR thường so sánh hai góc nhìn được tăng cường của cùng một hình ảnh để học các đặc trưng. CLIP đối chiếu hình ảnh với mô tả văn bản, kết nối hai phương thức dữ liệu khác nhau thay vì chỉ một.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay