Khám phá cách học tự giám sát loại bỏ nhu cầu gắn nhãn thủ công. Tìm hiểu về các phương pháp SSL tạo sinh và tương phản để nâng cao khả năng học tập. Ultralytics YOLO26.
Học tự giám sát (Self-Supervised Learning - SSL) là một mô hình học máy trong đó hệ thống học cách hiểu dữ liệu bằng cách tự tạo ra các tín hiệu giám sát từ chính dữ liệu đó, thay vì dựa vào các nhãn do con người cung cấp từ bên ngoài. Trong học có giám sát truyền thống, các mô hình yêu cầu một lượng lớn dữ liệu được chú thích thủ công—chẳng hạn như hình ảnh được gắn nhãn "mèo" hoặc "chó"—điều này có thể tốn kém và mất thời gian để tạo ra. SSL khắc phục được nút thắt cổ chai này bằng cách tạo ra "các nhiệm vụ giả định" trong đó mô hình phải dự đoán các phần bị ẩn hoặc bị thiếu của dữ liệu đầu vào, từ đó tự học được cấu trúc và các đặc điểm cơ bản cần thiết cho các nhiệm vụ phức tạp như phát hiện và phân loại đối tượng .
Ý tưởng cơ bản đằng sau SSL là che giấu một phần dữ liệu và buộc mạng nơ-ron (NN) phải tái tạo lại phần dữ liệu đó hoặc dự đoán mối quan hệ giữa các góc nhìn khác nhau của cùng một dữ liệu. Quá trình này tạo ra các biểu diễn đa năng, phong phú, có thể được tinh chỉnh sau này cho các ứng dụng cụ thể khác.
Trong SSL có hai phương pháp chính:
Học tự giám sát đã trở thành nền tảng quan trọng để xây dựng các mô hình cơ bản mạnh mẽ trong nhiều lĩnh vực khác nhau. Khả năng tận dụng lượng lớn dữ liệu chưa được gắn nhãn giúp nó có khả năng mở rộng cao.
Điều quan trọng là phải phân biệt Học bán giám sát (SSL) với Học không giám sát . Mặc dù cả hai phương pháp đều sử dụng dữ liệu chưa được gắn nhãn, nhưng học không giám sát thường tập trung vào việc tìm kiếm các mẫu hoặc nhóm ẩn (phân cụm) mà không có nhiệm vụ dự đoán cụ thể. Ngược lại, SSL định hình quá trình học tập như một nhiệm vụ có giám sát, trong đó các nhãn được tạo tự động từ cấu trúc dữ liệu. Ngoài ra, Học bán giám sát kết hợp một lượng nhỏ dữ liệu được gắn nhãn với một lượng lớn dữ liệu chưa được gắn nhãn, trong khi SSL thuần túy tạo ra các nhãn hoàn toàn từ tập dữ liệu chưa được gắn nhãn trước khi tinh chỉnh.
Trong Ultralytics Trong hệ sinh thái này, các mô hình như YOLO26 được hưởng lợi đáng kể từ các chiến lược huấn luyện nâng cao thường kết hợp các nguyên tắc tương tự như SSL trong giai đoạn tiền huấn luyện trên các tập dữ liệu khổng lồ như ImageNet hoặc COCO . Điều này đảm bảo rằng khi người dùng triển khai mô hình cho một nhiệm vụ cụ thể, các bộ trích xuất đặc trưng đã đủ mạnh mẽ.
Người dùng có thể tận dụng các mô hình được huấn luyện trước mạnh mẽ này để tinh chỉnh các mô hình trên tập dữ liệu tùy chỉnh của riêng họ bằng cách sử dụng Nền tảng Ultralytics .
Dưới đây là một ví dụ ngắn gọn về cách tải mô hình YOLO26 đã được huấn luyện trước và bắt đầu tinh chỉnh nó trên một tập dữ liệu mới, tận dụng các tính năng đã học được trong quá trình huấn luyện quy mô lớn ban đầu:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (weights learned from large-scale data)
model = YOLO("yolo26n.pt")
# Fine-tune the model on a specific dataset (e.g., COCO8)
# This leverages the robust feature representations learned during pre-training
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
Trong khi các nhà nghiên cứu tại các phòng thí nghiệm lớn như Meta AI và Google DeepMind tiếp tục hoàn thiện các kỹ thuật này, SSL đang thúc đẩy ranh giới của những gì có thể đạt được trong Trí tuệ nhân tạo tạo sinh và thị giác máy tính. Bằng cách giảm sự phụ thuộc vào dữ liệu được gắn nhãn, SSL đang dân chủ hóa quyền truy cập vào AI hiệu năng cao, cho phép các nhóm nhỏ hơn xây dựng các mô hình phức tạp cho các ứng dụng chuyên biệt như bảo tồn động vật hoang dã hoặc kiểm tra công nghiệp .