Thuật ngữ

Học tập chủ động

Khám phá phương pháp học chủ động, một phương pháp học máy tiết kiệm chi phí giúp tăng độ chính xác với ít nhãn hơn. Tìm hiểu cách phương pháp này chuyển đổi đào tạo AI!

Học chủ động là một phương pháp đào tạo chuyên biệt trong học máy (ML), trong đó thuật toán học có thể tương tác truy vấn người dùng hoặc một nguồn thông tin khác (một "oracle") để gắn nhãn các điểm dữ liệu mới. Ý tưởng cốt lõi là nếu một mô hình có thể chọn dữ liệu để học, nó có thể đạt được độ chính xác cao hơn với lượng dữ liệu đào tạo ít hơn đáng kể. Điều này đặc biệt hữu ích trong các lĩnh vực mà việc gắn nhãn dữ liệu tốn kém, mất thời gian hoặc đòi hỏi kiến thức chuyên môn. Thay vì gắn nhãn toàn bộ tập dữ liệu cùng một lúc, học chủ động ưu tiên các mẫu "có nhiều thông tin" nhất để gắn nhãn, giúp quá trình đào tạo mô hình hiệu quả hơn nhiều.

Học tập chủ động hoạt động như thế nào

Quá trình học tập chủ động mang tính chu kỳ và thường được mô tả như một quy trình làm việc có sự tham gia của con người . Nó thường tuân theo các bước sau:

  1. Đào tạo mô hình ban đầu : Một mô hình, chẳng hạn như máy dò Ultralytics YOLO11 , trước tiên được đào tạo trên một tập dữ liệu nhỏ được gắn nhãn ban đầu.
  2. Truy vấn dữ liệu chưa được gắn nhãn : Mô hình được huấn luyện một phần sau đó được sử dụng để đưa ra dự đoán trên một lượng lớn dữ liệu chưa được gắn nhãn. Dựa trên những dự đoán này, mô hình sẽ chọn ra một tập hợp con các mẫu mà nó "không chắc chắn" nhất.
  3. Chú thích của con người : Những mẫu không chắc chắn này được trình bày cho một chuyên gia (nhà tiên tri), người sẽ cung cấp nhãn chính xác.
  4. Tăng cường bộ dữ liệu : Các mẫu mới được gắn nhãn sẽ được thêm vào bộ dữ liệu đào tạo.
  5. Đào tạo lại : Mô hình được đào tạo lại trên tập dữ liệu lớn hơn đã được cập nhật. Chu kỳ này lặp lại cho đến khi hiệu suất của mô hình đạt đến ngưỡng mong muốn hoặc ngân sách gắn nhãn đã cạn kiệt.

Chìa khóa của quá trình này nằm ở chiến lược truy vấn. Các chiến lược phổ biến bao gồm lấy mẫu không chắc chắn (chọn các trường hợp mà mô hình ít tự tin nhất), truy vấn theo ủy ban (sử dụng nhiều mô hình và chọn các trường hợp mà họ không đồng tình), hoặc ước tính thay đổi mô hình dự kiến. Bạn có thể tìm thấy tổng quan tốt về các chiến lược này trong khảo sát Học tập Chủ động này.

Ứng dụng trong thế giới thực

Học tập chủ động có hiệu quả cao trong các lĩnh vực chuyên môn mà chú thích của chuyên gia là một trở ngại.

  • Phân tích Hình ảnh Y tế : Khi huấn luyện AI phát hiện các bệnh như ung thư từ hình ảnh chụp cắt lớp, có thể có hàng triệu hình ảnh nhưng thời gian của bác sĩ X-quang lại có hạn. Thay vì để họ dán nhãn hình ảnh ngẫu nhiên, một hệ thống học tập chủ động có thể xác định những trường hợp mơ hồ hoặc hiếm gặp nhất để xem xét. Điều này giúp chuyên gia tập trung nỗ lực vào những điểm cần thiết nhất, đẩy nhanh quá trình phát triển một mô hình có độ chính xác cao cho các nhiệm vụ như phát hiện khối u não . Nghiên cứu trong lĩnh vực này cho thấy sự giảm thiểu đáng kể công sức dán nhãn, như được trình bày chi tiết trong các nghiên cứu như nghiên cứu này về phân đoạn hình ảnh y sinh .
  • Lái xe tự động : Hệ thống nhận thức trong xe tự hành phải được đào tạo trên các tập dữ liệu khổng lồ và đa dạng, bao gồm vô số tình huống lái xe. Học tập chủ động có thể xác định các "trường hợp ngoại lệ" từ dữ liệu lái xe được thu thập - chẳng hạn như người đi bộ bị che khuất một phần bởi chướng ngại vật hoặc điều kiện thời tiết bất thường - mà mô hình phát hiện vật thể hiện tại đang gặp khó khăn. Bằng cách ưu tiên những cảnh khó này để chú thích, các nhà phát triển có thể cải thiện hiệu quả hơn tính mạnh mẽ và an toàn của mô hình.

Học tập chủ động so với các khái niệm liên quan

Điều quan trọng là phải phân biệt Học tập chủ động với các mô hình học tập khác cũng sử dụng dữ liệu không có nhãn:

  • Học bán giám sát : Sử dụng đồng thời cả dữ liệu đã gắn nhãn và chưa gắn nhãn trong quá trình huấn luyện. Không giống như Học chủ động, phương pháp này thường sử dụng tất cả dữ liệu chưa gắn nhãn có sẵn một cách thụ động, thay vì truy vấn chọn lọc các trường hợp cụ thể để tìm nhãn.
  • Học tự giám sát : Học các biểu diễn từ dữ liệu chưa được gắn nhãn bằng cách tạo ra các tác vụ giả định (ví dụ: dự đoán phần bị che khuất của hình ảnh). Phương pháp này không yêu cầu chú thích của con người trong giai đoạn tiền huấn luyện, trong khi Học chủ động dựa vào một thuật toán oracle để gắn nhãn. DeepMind đã khám phá sâu rộng lĩnh vực này .
  • Học tăng cường : Học bằng cách thử và sai thông qua tương tác với môi trường, nhận phần thưởng hoặc hình phạt cho các hành động. Nó không liên quan đến việc truy vấn các nhãn cụ thể như Học chủ động.
  • Học Liên kết : Tập trung vào việc đào tạo các mô hình trên các thiết bị phi tập trung, đồng thời giữ dữ liệu cục bộ, chủ yếu giải quyết các vấn đề về quyền riêng tư dữ liệu . Học Chủ động tập trung vào việc thu thập nhãn hiệu quả. Các kỹ thuật này đôi khi có thể được kết hợp.

Công cụ và triển khai

Việc triển khai Học tập Chủ động thường bao gồm việc tích hợp các mô hình ML với các công cụ chú thích và quản lý quy trình làm việc dữ liệu. Các khung như scikit-learn cung cấp một số chức năng, trong khi các thư viện chuyên biệt dành cho các tác vụ cụ thể cũng tồn tại. Phần mềm chú thích như Label Studio có thể được tích hợp vào các quy trình học tập chủ động, cho phép người chú thích cung cấp nhãn cho các mẫu được truy vấn. Việc quản lý hiệu quả các tập dữ liệu đang phát triển và các mô hình đã được huấn luyện là rất quan trọng, và các nền tảng như Ultralytics HUB cung cấp cơ sở hạ tầng để tổ chức các tài sản này trong suốt vòng đời phát triển. Khám phá kho lưu trữ GitHub của Ultralytics để biết thêm thông tin về việc triển khai các kỹ thuật ML tiên tiến.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard