Thuật ngữ

Học tập chủ động

Khám phá phương pháp học chủ động, một phương pháp học máy tiết kiệm chi phí giúp tăng độ chính xác với ít nhãn hơn. Tìm hiểu cách phương pháp này chuyển đổi đào tạo AI!

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Học tập chủ động là một lĩnh vực chuyên biệt trong Học máy (ML), trong đó thuật toán học tập có thể tương tác truy vấn người dùng, thường được gọi là "oracle" hoặc chú thích của con người, để yêu cầu nhãn cho các điểm dữ liệu mới. Không giống như Học tập có giám sát truyền thống, thường yêu cầu một tập dữ liệu lớn được gắn nhãn trước, Học tập chủ động hướng đến mục tiêu đạt được hiệu suất mô hình cao với nỗ lực gắn nhãn ít hơn đáng kể. Nó thực hiện điều này bằng cách lựa chọn chiến lược các trường hợp chưa gắn nhãn nhiều thông tin nhất để chú thích. Cách tiếp cận này đặc biệt có giá trị trong các lĩnh vực mà việc thu thập dữ liệu được gắn nhãn tốn kém, mất thời gian hoặc đòi hỏi kiến thức chuyên môn chuyên sâu, chẳng hạn như phân tích hình ảnh y tế hoặc các tác vụ xử lý ngôn ngữ tự nhiên (NLP) phức tạp. Ý tưởng cốt lõi là để mô hình hướng dẫn quá trình gắn nhãn dữ liệu , tập trung nỗ lực của con người vào nơi có tác động lớn nhất để cải thiện độ chính xác của mô hình.

Học tập chủ động hoạt động như thế nào

Quá trình Học tập chủ động thường tuân theo chu kỳ lặp đi lặp lại, cho phép mô hình cải thiện dần dần với dữ liệu mục tiêu:

  1. Đào tạo mô hình ban đầu: Một mô hình, chẳng hạn như mô hình Ultralytics YOLO để phát hiện đối tượng hoặc phân đoạn hình ảnh , được đào tạo trên một tập dữ liệu nhỏ được gắn nhãn ban đầu.
  2. Truy vấn dữ liệu chưa gắn nhãn: Mô hình đã được đào tạo được sử dụng để đưa ra dự đoán ( suy luận ) trên một nhóm dữ liệu chưa gắn nhãn.
  3. Ứng dụng Chiến lược truy vấn: Chiến lược truy vấn phân tích các dự đoán của mô hình (ví dụ: dựa trên độ tin cậy hoặc không chắc chắn của dự đoán) để chọn các điểm dữ liệu chưa được gắn nhãn có nhiều thông tin nhất – những điểm mà mô hình ít chắc chắn nhất hoặc được kỳ vọng sẽ cung cấp nhiều thông tin mới nhất.
  4. Chú thích Oracle: Các điểm dữ liệu được chọn sẽ được trình bày cho người chú thích (oracle) để dán nhãn. Thu thập dữ liệu hiệu quả và thực hành chú thích là rất quan trọng ở đây.
  5. Đào tạo lại mô hình: Dữ liệu được gắn nhãn mới sẽ được thêm vào bộ dữ liệu đào tạo và mô hình sẽ được đào tạo lại (hoặc tinh chỉnh) bằng bộ dữ liệu mở rộng này.
  6. Lặp lại: Chu trình lặp lại từ bước 2 cho đến khi đạt được mức hiệu suất mong muốn, ngân sách dán nhãn đã hết hoặc không còn mẫu nào có thông tin đáng kể nữa.

Chiến lược truy vấn

Hiệu quả của Active Learning phụ thuộc rất nhiều vào chiến lược truy vấn của nó—thuật toán được sử dụng để chọn những điểm dữ liệu chưa được gắn nhãn nào sẽ được gắn nhãn tiếp theo. Mục tiêu là chọn các mẫu mà sau khi được gắn nhãn, có khả năng sẽ dẫn đến cải thiện lớn nhất về hiệu suất mô hình. Các chiến lược phổ biến bao gồm:

  • Lấy mẫu không chắc chắn: Chọn các trường hợp mà mô hình ít tự tin nhất vào dự đoán của mình. Điều này thường được đo bằng xác suất dự đoán, entropy hoặc biên độ giữa các dự đoán hàng đầu.
  • Truy vấn theo Ủy ban (QBC): Sử dụng một tập hợp các mô hình. Các trường hợp mà các thành viên ủy ban không đồng ý nhiều nhất về dự đoán sẽ được chọn để dán nhãn.
  • Thay đổi mô hình dự kiến: Chọn các trường hợp có thể gây ra thay đổi lớn nhất đối với các tham số hoặc độ dốc của mô hình nếu biết nhãn của chúng.
  • Phương pháp tiếp cận dựa trên mật độ: Ưu tiên các trường hợp không chỉ không chắc chắn mà còn đại diện cho phân phối dữ liệu cơ bản.

Có thể tìm thấy tổng quan toàn diện về các chiến lược trong các nguồn tài liệu như khảo sát tài liệu Học tập chủ động của Burr Settles .

Sự liên quan và lợi ích

Học tập chủ động làm giảm đáng kể gánh nặng và chi phí liên quan đến việc dán nhãn dữ liệu , thường là một nút thắt lớn trong việc phát triển các mô hình Học sâu (DL) mạnh mẽ. Bằng cách tập trung các nỗ lực chú thích một cách chiến lược, nó cho phép các nhóm:

  • Đạt được độ chính xác cao hơn với ít dữ liệu hơn: Có được hiệu suất mô hình tốt hơn so với lấy mẫu ngẫu nhiên, với cùng ngân sách dán nhãn.
  • Giảm chi phí ghi nhãn: Giảm thiểu thời gian và nguồn lực dành cho việc chú thích thủ công.
  • Tăng tốc phát triển mô hình: Đạt được mức hiệu suất mong muốn nhanh hơn bằng cách ưu tiên dữ liệu có tác động lớn nhất. Khám phá cách Học tập chủ động tăng tốc phát triển thị giác máy tính .
  • Cải thiện tính mạnh mẽ của mô hình: Tập trung vào các ví dụ mơ hồ hoặc khó hiểu có thể giúp mô hình khái quát tốt hơn.

Ứng dụng trong thế giới thực

Học tập chủ động được áp dụng trong nhiều lĩnh vực khác nhau, trong đó dữ liệu được gắn nhãn là một ràng buộc:

  • Chụp ảnh y khoa: Trong các nhiệm vụ như phát hiện khối u bằng mô hình YOLO , thời gian của các bác sĩ X quang chuyên gia rất có giá trị. Học tập chủ động chọn các bản quét mơ hồ nhất để xem xét, tối ưu hóa việc sử dụng các nguồn lực của chuyên gia. Điều này rất quan trọng để phát triển các giải pháp AI chăm sóc sức khỏe hiệu quả.
  • Xử lý ngôn ngữ tự nhiên (NLP): Đối với các tác vụ như phân tích tình cảm hoặc nhận dạng thực thể được đặt tên (NER) , việc xác định các mẫu văn bản thông tin (ví dụ: các mẫu có tình cảm mơ hồ hoặc thực thể hiếm) để dán nhãn sẽ cải thiện độ chính xác của mô hình một cách hiệu quả. Các công cụ từ các nền tảng như Hugging Face thường được hưởng lợi từ các kỹ thuật như vậy.
  • Xe tự hành: Việc lựa chọn các tình huống lái xe khó khăn hoặc hiếm gặp (ví dụ: điều kiện thời tiết bất thường, giao lộ phức tạp) từ lượng lớn dữ liệu lái xe chưa được gắn nhãn để chú thích giúp cải thiện tính an toàn và độ tin cậy của hệ thống lái xe tự hành .
  • Phân tích hình ảnh vệ tinh: Việc xác định các đặc điểm hoặc thay đổi cụ thể trong các tập dữ liệu hình ảnh vệ tinh lớn có thể được đẩy nhanh bằng cách sử dụng mô hình truy vấn các khu vực không chắc chắn để chuyên gia đánh giá.

Học tập chủ động so với các khái niệm liên quan

Điều quan trọng là phải phân biệt Học tập chủ động với các mô hình học tập khác cũng sử dụng dữ liệu không có nhãn:

  • Học bán giám sát : Sử dụng cả dữ liệu có nhãn và không có nhãn cùng lúc trong quá trình đào tạo mô hình . Không giống như Học chủ động, nó thường sử dụng tất cả dữ liệu không có nhãn có sẵn một cách thụ động, thay vì truy vấn có chọn lọc các trường hợp cụ thể để lấy nhãn.
  • Học tự giám sát : Học các biểu diễn từ dữ liệu không có nhãn bằng cách tạo các tác vụ tiền đề (ví dụ: dự đoán phần được che của hình ảnh). Nó không yêu cầu chú thích của con người trong giai đoạn tiền đào tạo, trong khi Học chủ động dựa vào một oracle để có nhãn.
  • Học tăng cường : Học bằng cách thử và sai thông qua tương tác với môi trường, nhận phần thưởng hoặc hình phạt cho hành động. Không liên quan đến việc truy vấn các nhãn rõ ràng như Học chủ động.
  • Học liên bang : Tập trung vào các mô hình đào tạo trên các thiết bị phi tập trung trong khi vẫn giữ dữ liệu cục bộ, chủ yếu giải quyết các mối quan ngại về quyền riêng tư dữ liệu . Học chủ động tập trung vào việc thu thập nhãn hiệu quả. Các kỹ thuật này đôi khi có thể được kết hợp.

Công cụ và triển khai

Việc triển khai Học tập chủ động thường liên quan đến việc tích hợp các mô hình ML với các công cụ chú thích và quản lý quy trình làm việc dữ liệu. Các khuôn khổ và thư viện như scikit-learn cung cấp một số chức năng, trong khi các thư viện chuyên biệt tồn tại cho các tác vụ cụ thể. Phần mềm chú thích như Label Studio có thể được tích hợp vào các đường ống học tập chủ động, cho phép người chú thích cung cấp nhãn cho các mẫu được truy vấn. Các nền tảng như DagsHub cung cấp các công cụ để xây dựng và quản lý các đường ống này, như đã thảo luận trong bài nói chuyện YOLO VISION 2023 của họ về Đường ống học tập chủ động DagsHub . Việc quản lý hiệu quả các tập dữ liệu đang phát triển và các mô hình đã đào tạo là rất quan trọng và các nền tảng như Ultralytics HUB cung cấp cơ sở hạ tầng để tổ chức các tài sản này trong suốt vòng đời phát triển. Khám phá kho lưu trữ GitHub Ultralytics và tham gia Cộng đồng Ultralytics để thảo luận và tìm kiếm tài nguyên liên quan đến việc triển khai các kỹ thuật ML tiên tiến.

Đọc tất cả