Học chủ động là một phương pháp chuyên biệt trong học máy, trong đó thuật toán tương tác truy vấn nguồn dữ liệu để có được đầu ra mong muốn cho các điểm dữ liệu mới. Phương pháp này đặc biệt hữu ích khi xử lý các tập dữ liệu lớn, không có nhãn, trong đó việc dán nhãn thủ công là không thực tế hoặc tốn kém. Bằng cách lựa chọn chiến lược các điểm dữ liệu để dán nhãn, học chủ động hướng đến mục tiêu đạt được độ chính xác cao của mô hình với ít ví dụ được dán nhãn hơn so với các phương pháp học có giám sát truyền thống. Nó giúp giảm chi phí dán nhãn và tăng cường độ chính xác bằng cách tập trung vào các điểm dữ liệu chính.
Các khái niệm cốt lõi và phương pháp luận
Trong học tập chủ động, mô hình bắt đầu với một tập dữ liệu được gắn nhãn nhỏ và lặp đi lặp lại chọn các điểm dữ liệu có nhiều thông tin nhất để gắn nhãn bởi một oracle (ví dụ: một chú thích viên). Sau đó, mô hình đào tạo lại trên dữ liệu mới được gắn nhãn, cải thiện hiệu suất của nó với mỗi lần lặp lại. Quá trình này tiếp tục cho đến khi đạt được mức độ chính xác mong muốn hoặc ngân sách gắn nhãn đã cạn kiệt.
Chìa khóa để học tập chủ động hiệu quả nằm ở chiến lược được sử dụng để chọn điểm dữ liệu để dán nhãn. Các chiến lược phổ biến bao gồm:
- Lấy mẫu không chắc chắn: Mô hình chọn các điểm dữ liệu mà nó ít tự tin nhất vào dự đoán của mình. Ví dụ, trong một nhiệm vụ phân loại, mô hình có thể chọn các điểm dữ liệu có xác suất gần với ranh giới quyết định.
- Truy vấn theo Ủy ban: Một ủy ban gồm nhiều mô hình khác nhau được đào tạo trên dữ liệu được gắn nhãn và các điểm dữ liệu mà các thành viên ủy ban không đồng ý nhiều nhất được chọn để gắn nhãn. Cách tiếp cận này nhằm mục đích giảm phương sai của mô hình bằng cách tập trung vào các khu vực có độ không chắc chắn cao.
- Thay đổi mô hình dự kiến: Mô hình chọn các điểm dữ liệu dự kiến sẽ gây ra thay đổi lớn nhất trong các tham số của mô hình nếu nhãn của chúng được biết. Chiến lược này nhằm mục đích tối đa hóa thông tin thu được từ mỗi ví dụ được gắn nhãn.
- Giảm lỗi dự kiến: Mô hình chọn các điểm dữ liệu dự kiến sẽ giảm lỗi dự đoán tổng thể nhiều nhất. Cách tiếp cận này nhắm trực tiếp vào việc cải thiện hiệu suất của mô hình trên dữ liệu chưa biết.
- Giảm phương sai: Phương pháp này tập trung vào việc giảm phương sai của dự đoán của mô hình bằng cách chọn các điểm dữ liệu đại diện cho phân phối dữ liệu cơ bản.
Học tập chủ động so với các mô hình học tập khác
Học tập chủ động khác đáng kể so với các phương pháp học máy khác như học có giám sát , học không giám sát và học bán giám sát . Trong học có giám sát, mô hình được đào tạo trên một tập dữ liệu được gắn nhãn cố định, trong khi trong học không giám sát, mô hình học từ dữ liệu không có nhãn. Học bán giám sát sử dụng sự kết hợp giữa dữ liệu được gắn nhãn và không có nhãn, nhưng không giống như học chủ động, nó không chủ động truy vấn nhãn.
Học tập chủ động đặc biệt có lợi khi dữ liệu được gắn nhãn khan hiếm hoặc đắt tiền để có được, vì nó cho phép mô hình đạt được độ chính xác cao với ít ví dụ được gắn nhãn hơn. Điều này làm cho nó trở thành một kỹ thuật có giá trị trong các tình huống mà việc gắn nhãn dữ liệu là một nút thắt cổ chai.
Ứng dụng trong thế giới thực
Học tập chủ động đã được ứng dụng trong nhiều lĩnh vực, bao gồm:
- Phân loại hình ảnh và video: Học tập chủ động có thể được sử dụng để đào tạo hiệu quả các mô hình cho các nhiệm vụ phân loại hình ảnh và video. Ví dụ, trong một kịch bản hình ảnh y tế, một hệ thống học tập chủ động có thể chọn hình ảnh y tế có nhiều thông tin nhất để bác sĩ X quang dán nhãn, giảm gánh nặng dán nhãn đồng thời cải thiện độ chính xác của chẩn đoán. Tìm hiểu thêm về Vision AI trong chăm sóc sức khỏe trên Ultralytics trang web.
- Xử lý ngôn ngữ tự nhiên: Học tập chủ động có thể được áp dụng cho các tác vụ như phân loại văn bản, nhận dạng thực thể được đặt tên và phân tích tình cảm. Bằng cách dán nhãn có chọn lọc các mẫu văn bản nhiều thông tin nhất, học tập chủ động có thể cải thiện hiệu suất của các mô hình NLP với dữ liệu ít được dán nhãn hơn. Để biết thêm chi tiết, hãy khám phá xử lý ngôn ngữ tự nhiên (NLP) .
- Nhận dạng giọng nói: Học tập chủ động có thể được sử dụng để đào tạo các mô hình nhận dạng giọng nói bằng cách chọn các mẫu âm thanh khó nhất để phiên âm. Cách tiếp cận này có thể cải thiện độ mạnh mẽ của mô hình đối với các biến thể về giọng, tiếng ồn và phong cách nói.
Các trường hợp sử dụng ví dụ
- Lái xe tự động: Trong quá trình phát triển xe tự lái , học tập chủ động có thể được sử dụng để đào tạo các mô hình phát hiện vật thể có khả năng xác định người đi bộ, phương tiện và các vật thể khác trong luồng video thời gian thực. Hệ thống học tập chủ động có thể chọn các khung hình mơ hồ hoặc khó nhất để chú thích thủ công, đảm bảo rằng mô hình hoạt động tốt trong các tình huống đa dạng và quan trọng về an toàn.
- Kiểm soát chất lượng sản xuất: Học tập chủ động có thể được sử dụng để đào tạo các mô hình phát hiện lỗi trong các sản phẩm được sản xuất. Bằng cách dán nhãn có chọn lọc hình ảnh của các sản phẩm có lỗi tiềm ẩn, hệ thống học tập chủ động có thể giúp xây dựng một mô hình phát hiện lỗi có độ chính xác cao với nỗ lực dán nhãn tối thiểu, giảm chi phí kiểm tra và cải thiện chất lượng sản phẩm. Tìm hiểu thêm về AI trong sản xuất .
Công cụ và Khung
Có một số công cụ và khuôn khổ có sẵn để triển khai học tập tích cực, bao gồm:
- modAL: Một khuôn khổ học tập chủ động cho Python3, được thiết kế theo dạng mô-đun và có thể mở rộng. Nó hỗ trợ nhiều chiến lược học tập chủ động khác nhau và có thể dễ dàng tích hợp với các mô hình scikit-learn.
- thư viện: A Python thư viện cho việc học tập chủ động hỗ trợ các kịch bản học tập chủ động dựa trên nhóm. Nó cung cấp nhiều chiến lược truy vấn khác nhau và cho phép người dùng xác định các chiến lược tùy chỉnh.
- ALiPy: Một Python hộp công cụ học tập tích cực cung cấp nhiều chiến lược khác nhau và hỗ trợ cả học tập tích cực theo nhóm và theo luồng.
Kết thúc
Học tập chủ động là một kỹ thuật mạnh mẽ để đào tạo các mô hình học máy với dữ liệu được gắn nhãn hạn chế. Bằng cách lựa chọn chiến lược các điểm dữ liệu thông tin nhất để gắn nhãn, học tập chủ động có thể đạt được độ chính xác cao trong khi giảm chi phí và công sức liên quan đến việc gắn nhãn dữ liệu. Phương pháp tiếp cận này đã tìm thấy ứng dụng trong nhiều lĩnh vực, bao gồm thị giác máy tính (CV) , xử lý ngôn ngữ tự nhiên và nhận dạng giọng nói. Khi khối lượng dữ liệu không được gắn nhãn tiếp tục tăng lên, học tập chủ động sẽ đóng vai trò ngày càng quan trọng trong việc cho phép học máy hiệu quả và hiệu suất cao. Khám phá Blog Ultralytics để biết thêm thông tin chi tiết về các giải pháp AI tiên tiến. Bạn có thể bắt đầu đào tạo các mô hình bằng cách sử dụng Ultralytics HUB , một nền tảng không cần mã để đào tạo tùy chỉnh Ultralytics YOLO mô hình.