Thuật ngữ

Học tập tự giám sát

Khám phá cách học tự giám sát tận dụng dữ liệu chưa gắn nhãn để đào tạo hiệu quả, chuyển đổi AI trong thị giác máy tính, NLP, v.v.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Học tự giám sát là một phương pháp học máy tận dụng dữ liệu chưa gắn nhãn để đào tạo các mô hình. Không giống như học có giám sát , đòi hỏi phải có các tập dữ liệu được gắn nhãn, học tự giám sát tạo ra các nhãn riêng của nó từ cấu trúc vốn có của chính dữ liệu chưa gắn nhãn. Phương pháp này đặc biệt có giá trị trong các lĩnh vực như thị giác máy tính (CV)xử lý ngôn ngữ tự nhiên (NLP) nơi có sẵn một lượng lớn dữ liệu chưa gắn nhãn, nhưng việc gắn nhãn thủ công lại tốn kém và mất thời gian.

Học tập tự giám sát hoạt động như thế nào

Ý tưởng cốt lõi của việc học tự giám sát là thiết kế một 'nhiệm vụ tiền đề' cho phép mô hình học các biểu diễn hữu ích từ dữ liệu không có nhãn. Nhiệm vụ tiền đề này được xây dựng theo cách mà việc giải quyết nó đòi hỏi phải hiểu các mẫu có ý nghĩa trong dữ liệu. Ví dụ, trong xử lý hình ảnh, một nhiệm vụ tiền đề có thể là dự đoán phép quay được áp dụng cho một mảng hình ảnh hoặc tô màu cho một hình ảnh thang độ xám. Trong xử lý ngôn ngữ, một nhiệm vụ tiền đề phổ biến là mô hình ngôn ngữ bị che giấu, trong đó mô hình dự đoán các từ bị che giấu trong một câu.

Sau khi mô hình được đào tạo trên tác vụ pretext sử dụng một lượng lớn dữ liệu không có nhãn, nó sẽ học các đặc điểm chung và biểu diễn của dữ liệu. Các biểu diễn đã học này sau đó có thể được chuyển giao và tinh chỉnh cho các tác vụ hạ nguồn, chẳng hạn như phát hiện đối tượng , phân loại hình ảnh hoặc phân đoạn hình ảnh , thường với dữ liệu được gắn nhãn ít hơn đáng kể so với dữ liệu được yêu cầu cho quá trình đào tạo có giám sát thuần túy. Khả năng học chuyển giao này là một lợi thế chính của học tự giám sát.

Ứng dụng của Học tập tự giám sát

Học tự giám sát đã được ứng dụng trong nhiều lĩnh vực khác nhau, đặc biệt là khi dữ liệu được gắn nhãn khan hiếm hoặc tốn kém để có được:

  • Thị giác máy tính : Trong phân tích hình ảnh y tế , học tập tự giám sát có thể đào tạo trước các mô hình trên các tập dữ liệu lớn của hình ảnh y tế không có nhãn (như chụp X-quang hoặc chụp MRI). Các mô hình được đào tạo trước này sau đó có thể được tinh chỉnh cho các nhiệm vụ chẩn đoán cụ thể bằng cách sử dụng dữ liệu có nhãn hạn chế, cải thiện độ chính xác và hiệu quả của việc giải thích hình ảnh y tế. Ví dụ, các mô hình như Ultralytics YOLOv8 có thể được hưởng lợi từ đào tạo trước tự giám sát để nâng cao hiệu suất của chúng trong việc phát hiện các bất thường trong hình ảnh y tế.
  • Xử lý ngôn ngữ tự nhiên : Các mô hình ngôn ngữ lớn (LLM) như GPT-4 thường được đào tạo trước bằng các kỹ thuật học tự giám sát trên lượng lớn dữ liệu văn bản. Quá trình đào tạo trước này cho phép chúng học khả năng hiểu ngôn ngữ chung và khả năng tạo ra, sau đó được tinh chỉnh cho các tác vụ NLP cụ thể như tóm tắt văn bản, dịch thuật hoặc phân tích tình cảm. Các kỹ thuật như điều chỉnh nhắc nhở tận dụng thêm các mô hình được đào tạo trước này để thích ứng hiệu quả với các tác vụ mới.

Học tập tự giám sát so với các khái niệm tương tự

Điều quan trọng là phải phân biệt học tự giám sát với các mô hình học máy liên quan khác:

  • Học không giám sát : Trong khi cả hai đều sử dụng dữ liệu không có nhãn, học không giám sát nhằm mục đích tìm ra các cấu trúc hoặc mẫu vốn có trong dữ liệu mà không có bất kỳ nhiệm vụ cụ thể nào trong đầu (ví dụ: phân cụm, giảm chiều). Mặt khác, học tự giám sát xây dựng một nhiệm vụ giả định để học các biểu diễn hữu ích cho các nhiệm vụ hạ nguồn.
  • Học bán giám sát : Học bán giám sát sử dụng sự kết hợp giữa dữ liệu có nhãn và không có nhãn, nhưng vẫn dựa vào một lượng dữ liệu có nhãn để đào tạo. Học tự giám sát chủ yếu tập trung vào việc học từ dữ liệu không có nhãn và sau đó có khả năng tinh chỉnh với một lượng nhỏ dữ liệu có nhãn.

Học tự giám sát là một bước tiến đáng kể trong học máy, cho phép sử dụng hiệu quả lượng lớn dữ liệu chưa được gắn nhãn có sẵn và giảm sự phụ thuộc vào các tập dữ liệu được gắn nhãn đắt tiền. Khi các mô hình như Ultralytics YOLO11 tiếp tục phát triển, các kỹ thuật tự giám sát có thể sẽ đóng vai trò ngày càng quan trọng trong việc cải thiện hiệu suất và khả năng ứng dụng của chúng trên nhiều ứng dụng AI thị giác khác nhau.

Đọc tất cả