Khám phá học tập tương phản trong máy học. Tìm hiểu cách nó sử dụng dữ liệu tự giám sát để xây dựng các tính năng AI mạnh mẽ. Ultralytics YOLO26 và thị giác máy tính.
Học tương phản là một mô hình học máy dạy các mô hình hiểu dữ liệu bằng cách so sánh các mẫu tương tự và không tương tự. Không giống như học có giám sát truyền thống, vốn phụ thuộc nhiều vào các tập dữ liệu được gắn nhãn thủ công, học tương phản thường được sử dụng trong các bối cảnh học tự giám sát . Ý tưởng cốt lõi rất đơn giản nhưng mạnh mẽ: mô hình học cách kéo các biểu diễn của các mục liên quan (cặp tích cực) lại gần nhau hơn trong không gian vectơ trong khi đẩy các mục không liên quan (cặp tiêu cực) ra xa nhau hơn. Quá trình này cho phép các thuật toán xây dựng các đặc trưng mạnh mẽ, có khả năng khái quát hóa từ lượng lớn dữ liệu chưa được gắn nhãn, điều này rất quan trọng để mở rộng quy mô các hệ thống trí tuệ nhân tạo (AI) .
Cốt lõi của học tập tương phản là khái niệm học bằng cách so sánh. Thay vì ghi nhớ rằng một hình ảnh cụ thể là "con mèo", mô hình học được rằng hai bức ảnh khác nhau của một con mèo giống nhau hơn so với việc mỗi bức ảnh giống với một bức ảnh của một con chó. Điều này thường đạt được thông qua việc tăng cường dữ liệu . Một hình ảnh đầu vào, thường được gọi là "hình ảnh neo", được biến đổi thành hai phiên bản khác nhau bằng các kỹ thuật như cắt xén, lật hoặc làm nhiễu màu. Hai phiên bản này tạo thành một cặp tích cực. Sau đó, mô hình được huấn luyện để giảm thiểu khoảng cách giữa các embedding của chúng trong khi tối đa hóa khoảng cách đến các hình ảnh ngẫu nhiên khác (mẫu tiêu cực) trong lô dữ liệu.
Cách tiếp cận này giúp mạng nơ-ron tập trung vào các đặc điểm ngữ nghĩa cấp cao thay vì các chi tiết pixel cấp thấp. Ví dụ, dù một chiếc xe màu đỏ hay xanh lam, hoặc quay mặt sang trái hay sang phải, khái niệm cơ bản về "xe hơi" vẫn không thay đổi. Bằng cách bỏ qua những biến thể bề ngoài này, mô hình phát triển sự hiểu biết sâu sắc hơn về thế giới thị giác, điều này mang lại lợi ích đáng kể cho các tác vụ tiếp theo như phát hiện và phân loại đối tượng .
Học tập tương phản đã trở thành nền tảng cho nhiều ứng dụng trí tuệ nhân tạo tiên tiến, đặc biệt là trong trường hợp dữ liệu được gắn nhãn khan hiếm hoặc tốn kém để thu thập.
Việc phân biệt học tập tương phản với các kỹ thuật tương tự là rất hữu ích để hiểu được vai trò độc đáo của nó trong lĩnh vực học máy (ML) .
Mặc dù việc huấn luyện một mô hình tương phản từ đầu tốn nhiều tài nguyên, bạn có thể dễ dàng sử dụng các mô hình đã được huấn luyện trước để trích xuất đặc trưng. Ví dụ sau đây minh họa cách tải một mô hình và trích xuất vectơ đặc trưng (embedding) cho một hình ảnh bằng cách sử dụng... ultralytics gói này. Sự nhúng này thể hiện nội dung ngữ nghĩa được học thông qua các kỹ thuật tương tự như huấn luyện trước tương phản.
from ultralytics import YOLO
# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")
# Run inference on an image to get the results
# The 'embed' argument can be used in advanced workflows to extract feature layers
results = model("https://ultralytics.com/images/bus.jpg")
# Access the top predicted class probability
# This prediction is based on the learned feature representations
print(f"Top class: {results[0].names[results[0].probs.top1]}")
print(f"Confidence: {results[0].probs.top1conf:.4f}")
Khả năng trích xuất các đặc điểm phong phú và có ý nghĩa này làm cho học tập tương phản trở nên thiết yếu để xây dựng các hệ thống thị giác máy tính (CV) hiện đại, cho phép tìm kiếm hình ảnh hiệu quả và phân tích nâng cao. Để quản lý tập dữ liệu và huấn luyện các mô hình tùy chỉnh tận dụng các kiến trúc tiên tiến này, Nền tảng Ultralytics cung cấp một môi trường được tối ưu hóa cho việc triển khai và giám sát.