Học tập chủ động giúp tăng tốc quá trình phát triển thị giác máy tính

Tìm hiểu cách học chủ động được sử dụng trong thị giác máy tính để giảm thiểu nỗ lực chú thích và khám phá các ứng dụng thực tế của nó trong nhiều ngành công nghiệp khác nhau.

Viết bởi

Abirami Vina

phút đọc

Ngày 23 tháng 1 năm 2025

Ngày 3 tháng 4 năm 2025

Bộ dữ liệu hình ảnh không dễ xây dựng

Học tập chủ động là gì?

Hiểu cách học tập chủ động hoạt động như thế nào

Khám phá các ứng dụng của học tập chủ động

Học tập chủ động có thể giảm chi phí dán nhãn

Lợi ích của việc học tập chủ động

Học tập chủ động và AutoML có thể hoạt động cùng nhau

Những thách thức của việc học tập chủ động

Con đường phía trước cho việc học tập chủ động và AutoML

Từ học tập chủ động đến tác động chủ động

Đào tạo mô hình thị giác máy tính cũng giống như dạy trẻ nhận biết màu sắc. Đầu tiên, bạn cần một bộ sưu tập các vật thể có màu sắc. Sau đó, bạn sẽ hướng dẫn trẻ nhận dạng đúng từng màu, một nhiệm vụ thường tốn thời gian và lặp đi lặp lại.

Giống như trẻ em cần nhiều ví dụ để học, mô hình thị giác cần một tập dữ liệu được gắn nhãn lớn để nhận dạng các mẫu và đối tượng trong hình ảnh. Tuy nhiên, việc gắn nhãn một lượng lớn dữ liệu tốn rất nhiều thời gian và công sức, chưa kể đến các nguồn lực. Các kỹ thuật như học tập chủ động có thể giúp đơn giản hóa quá trình này.

Học tập chủ động là một quá trình từng bước trong đó dữ liệu quan trọng nhất từ một tập dữ liệu lớn được chọn và dán nhãn. Mô hình học hỏi từ dữ liệu được dán nhãn này, khiến nó chính xác và hiệu quả hơn. Chỉ tập trung vào dữ liệu có giá trị nhất sẽ giảm lượng nhãn cần thiết và tăng tốc quá trình phát triển mô hình.

Trong bài viết này, chúng ta sẽ xem xét cách học chủ động giúp ích như thế nào cho việc đào tạo mô hình, giảm chi phí dán nhãn và cải thiện độ chính xác tổng thể của mô hình.

Bộ dữ liệu hình ảnh không dễ xây dựng

Bộ dữ liệu là nền tảng cho thị giác máy tính và các mô hình học sâu. Các bộ dữ liệu phổ biến như ImageNet cung cấp hàng triệu hình ảnh với nhiều danh mục đối tượng khác nhau. Tuy nhiên, việc tạo và duy trì khối lượng lớn các bộ dữ liệu chất lượng cao như vậy đi kèm với nhiều thách thức khác nhau.

Ví dụ, việc thu thập và dán nhãn dữ liệu cần thời gian, nguồn lực và người chú thích có tay nghề, khiến quá trình này trở nên khó khăn tùy thuộc vào ứng dụng cụ thể. Cần có các giải pháp sáng tạo và hiệu quả hơn để theo kịp nhu cầu ngày càng tăng đối với các tập dữ liệu hình ảnh và đó chính xác là mục tiêu mà học tập chủ động hướng đến.

Học tập chủ động cung cấp giải pháp hoàn hảo bằng cách tối ưu hóa quy trình dán nhãn dữ liệu. Bằng cách lựa chọn chiến lược các điểm dữ liệu thông tin nhất để chú thích, học tập chủ động tối đa hóa hiệu suất mô hình trong khi giảm thiểu nỗ lực dán nhãn.

Học tập chủ động là gì?

Học chủ động là một kỹ thuật học máy lặp đi lặp lại trong đó mô hình chọn ra các điểm dữ liệu quan trọng nhất để gắn nhãn từ một nhóm lớn dữ liệu chưa được gắn nhãn. Các điểm dữ liệu được chọn này được gắn nhãn thủ công và thêm vào tập dữ liệu đào tạo.

Sau đó, mô hình được đào tạo lại trên tập dữ liệu đã cập nhật và chọn tập dữ liệu tiếp theo để dán nhãn. Quá trình này lặp lại, với mô hình liên tục cải thiện bằng cách tập trung vào các điểm dữ liệu có nhiều thông tin nhất. Chu kỳ tiếp tục cho đến khi mô hình đạt được độ chính xác mong muốn hoặc đáp ứng các tiêu chí dán nhãn được đặt trước.

‍

Hiểu cách học tập chủ động hoạt động như thế nào

Bạn có thể thắc mắc kỹ thuật học tập chủ động quyết định điểm dữ liệu nào cần dán nhãn thủ công và điểm nào cần dán nhãn tiếp theo. Hãy cùng tìm hiểu cách học tập chủ động hoạt động bằng cách so sánh với việc học cho bài kiểm tra - bạn tập trung vào các chủ đề mà bạn không chắc chắn và cũng đảm bảo bao quát nhiều chủ đề khác nhau để chuẩn bị tốt.

Đối với tập hợp ban đầu của các quy trình lựa chọn dữ liệu, học tập chủ động sử dụng các chiến lược như lấy mẫu không chắc chắn và lấy mẫu dựa trên tính đa dạng. Lấy mẫu không chắc chắn ưu tiên các điểm dữ liệu mà mô hình ít tự tin nhất vào dự đoán của mình, nhằm mục đích cải thiện độ chính xác trong các trường hợp khó khăn. Lấy mẫu dựa trên tính đa dạng chọn các điểm dữ liệu bao gồm nhiều đặc điểm, đảm bảo mô hình tổng quát hóa tốt với dữ liệu chưa biết bằng cách phơi bày dữ liệu đó với các ví dụ đa dạng.

Hình 2. Lấy mẫu không chắc chắn (bên trái) và lấy mẫu dựa trên tính đa dạng (bên phải).

‍

Sau khi lựa chọn dữ liệu ban đầu, học tập chủ động sử dụng hai phương pháp chính để dán nhãn: lấy mẫu theo nhóm và lấy mẫu theo luồng, chúng tương tự như cách giáo viên giúp học sinh tập trung vào điều quan trọng nhất.

Trong lấy mẫu theo nhóm, mô hình quét một nhóm lớn dữ liệu chưa được gắn nhãn và chọn các ví dụ mang tính thách thức hoặc nhiều thông tin nhất để gắn nhãn, giống như một học sinh ưu tiên các thẻ ghi nhớ mà họ thấy khó nhất. Đối với lấy mẫu theo luồng, mô hình xử lý dữ liệu khi dữ liệu đến, quyết định có gắn nhãn hay bỏ qua dữ liệu đó, tương tự như một học sinh chỉ yêu cầu trợ giúp khi họ gặp khó khăn. Trong cả hai trường hợp, dữ liệu được gắn nhãn được thêm vào tập huấn luyện và mô hình tự đào tạo lại, cải thiện đều đặn sau mỗi lần lặp lại.

Khám phá các ứng dụng của học tập chủ động

Học tập chủ động đóng vai trò quan trọng trong các ứng dụng thị giác máy tính , chẳng hạn như hình ảnh y tế và lái xe tự động, bằng cách cải thiện độ chính xác của mô hình và hợp lý hóa quy trình dán nhãn dữ liệu. Một ví dụ thú vị về điều này là các mô hình thị giác máy tính được sử dụng trong xe tự lái để phát hiện người đi bộ hoặc vật thể trong điều kiện thiếu sáng hoặc sương mù. Học tập chủ động có thể tăng cường độ chính xác bằng cách tập trung vào các tình huống lái xe đa dạng và đầy thử thách.

Cụ thể, học tập chủ động có thể được sử dụng để xác định dữ liệu hoặc khung không chắc chắn từ các tình huống như vậy để dán nhãn có chọn lọc. Thêm các ví dụ được dán nhãn này vào bộ đào tạo giúp mô hình nhận dạng người đi bộ và vật thể tốt hơn trong môi trường khó khăn, chẳng hạn như trong thời tiết xấu hoặc lái xe ban đêm.

Ví dụ, NVIDIA đã sử dụng học tập chủ động để cải thiện khả năng phát hiện người đi bộ vào ban đêm trong các mô hình tự lái của mình. Bằng cách lựa chọn chiến lược dữ liệu thông tin nhất để đào tạo, đặc biệt là trong các tình huống đầy thách thức, hiệu suất của mô hình tăng lên đáng kể.

Hình 3. Phát hiện người đi bộ cầm ô bằng phương pháp học tập chủ động.

‍

Học tập chủ động có thể giảm chi phí dán nhãn

Một khía cạnh quan trọng khác của học tập chủ động là khả năng giảm chi phí dán nhãn. Nó thực hiện điều này bằng cách chỉ tập trung vào các điểm dữ liệu quan trọng nhất, thay vì yêu cầu chú thích cho toàn bộ tập dữ liệu. Cách tiếp cận có mục tiêu này tiết kiệm thời gian, công sức và tiền bạc. Bằng cách tập trung vào các mẫu không chắc chắn hoặc đa dạng, học tập chủ động làm giảm số lượng chú thích cần thiết trong khi vẫn duy trì độ chính xác cao của mô hình.

Trên thực tế, nghiên cứu cho thấy học tập chủ động có thể cắt giảm chi phí dán nhãn 40-60% mà không làm giảm hiệu suất. Điều này đặc biệt hữu ích trong các ngành như chăm sóc sức khỏe và sản xuất, nơi dữ liệu dán nhãn rất tốn kém. Bằng cách đơn giản hóa quy trình chú thích, học tập chủ động giúp các doanh nghiệp phát triển mô hình nhanh hơn và triển khai chúng hiệu quả hơn trong khi vẫn duy trì độ chính xác.

Lợi ích của việc học tập chủ động

Sau đây là một số lợi ích quan trọng khác mà việc học tập tích cực có thể mang lại:

Xử lý mất cân bằng lớp : Học tập chủ động có thể giúp giải quyết các vấn đề mất cân bằng lớp bằng cách dán nhãn các trường hợp từ các lớp dữ liệu thiểu số. Mô hình có thể hoạt động tốt hơn trong các tình huống hiếm gặp với dữ liệu hạn chế.
‍
Chu kỳ phát triển nhanh hơn : Việc dán nhãn ít dữ liệu gián tiếp có nghĩa là đẩy nhanh quá trình phát triển các mô hình học máy và thị giác máy tính, cho phép có nhiều thời gian và tài nguyên hơn cho các lần lặp lại và thử nghiệm bổ sung.
‍
Khả năng thích ứng : Nó có thể liên tục cải thiện dữ liệu đào tạo bằng cách lặp lại trên các mẫu không chắc chắn hoặc trường hợp ngoại lệ, khiến nó phù hợp với các tập dữ liệu động hoặc đang phát triển.

Học tập chủ động và AutoML có thể hoạt động cùng nhau

Học máy tự động (AutoML) tập trung vào việc tự động hóa các tác vụ tốn thời gian và lặp đi lặp lại liên quan đến việc xây dựng và triển khai các mô hình học máy. Nó đơn giản hóa quy trình làm việc học máy bằng cách tự động hóa các tác vụ như lựa chọn mô hình và đánh giá hiệu suất để giảm nhu cầu nỗ lực thủ công.

Khi tích hợp với học tập chủ động, AutoML có thể tăng tốc và tối ưu hóa vòng đời phát triển mô hình. Thành phần học tập chủ động lựa chọn chiến lược các điểm dữ liệu thông tin nhất để dán nhãn, trong khi AutoML tinh chỉnh mô hình bằng cách tự động lựa chọn kiến trúc, tham số và điều chỉnh.

‍

Hãy cùng tìm hiểu sự kết hợp công nghệ này thông qua một ví dụ.

Giả sử bạn đang cố gắng phát hiện các tình trạng hiếm gặp trong hình ảnh y khoa (một trường hợp sử dụng mà các tập dữ liệu được gắn nhãn bị hạn chế và tốn kém để có được). Học tập chủ động có thể xác định và chọn dữ liệu không chắc chắn, chẳng hạn như những thay đổi nhỏ trong hình ảnh X-quang, mà mô hình không phân loại được. Sau đó, dữ liệu không chắc chắn có thể được ưu tiên để chú thích thủ công nhằm cải thiện khả năng hiểu mô hình.

Với dữ liệu được chú thích, AutoML có thể tối ưu hóa mô hình bằng cách khám phá nhiều kiến trúc, siêu tham số và các kỹ thuật tăng cường dữ liệu khác. Quá trình lặp lại này đẩy nhanh quá trình phát triển các mô hình thị giác đáng tin cậy như Ultralytics YOLO11 giúp các chuyên gia chăm sóc sức khỏe đưa ra chẩn đoán chính xác.

Những thách thức của việc học tập chủ động

Học tập chủ động và các kỹ thuật của nó mang lại nhiều lợi ích, nhưng có một số lưu ý cần ghi nhớ khi thực hiện các chiến lược này:

Lựa chọn chiến lược truy vấn : Học tập chủ động liên quan đến nhiều kỹ thuật và việc lựa chọn phương pháp tốt nhất ảnh hưởng đáng kể đến hiệu quả của mô hình. Việc lựa chọn một chiến lược không phù hợp có thể làm giảm hiệu suất của mô hình đối với một ứng dụng cụ thể.
‍
Chi phí đào tạo lại : Bản chất lặp đi lặp lại của học tập chủ động đòi hỏi các nguồn tài nguyên tính toán tốn kém, đặc biệt là đối với các tập dữ liệu lớn. Mô hình được đào tạo lại sau mỗi vòng gắn nhãn, làm tăng độ phức tạp của nó.
‍
Chất lượng mô hình ban đầu : Hiệu quả của việc học chủ động phụ thuộc vào chất lượng của mô hình ban đầu. Một mô hình ban đầu hoạt động kém có thể không xác định chính xác các điểm dữ liệu thông tin, dẫn đến yêu cầu nhãn không đạt tiêu chuẩn và giảm hiệu suất tổng thể.

Con đường phía trước cho việc học tập chủ động và AutoML

Với những tiến bộ gần đây trong AI và thị giác máy tính, học tập chủ động được thiết lập để giải quyết những thách thức phức tạp hơn và hợp lý hóa quy trình làm việc của máy học. Kết hợp học tập chủ động với các kỹ thuật như học liên kết và học tự giám sát có thể nâng cao hơn nữa hiệu quả và khả năng mở rộng của các mô hình thị giác.

Học liên hợp cho phép một mô hình được đào tạo trên nhiều thiết bị hoặc máy chủ với một khuôn khổ phân tán mà không yêu cầu dữ liệu phải rời khỏi vị trí ban đầu của nó. Hãy xem xét các ngành như chăm sóc sức khỏe, nơi quyền riêng tư dữ liệu rất quan trọng, học liên hợp giúp có thể đào tạo trực tiếp trên dữ liệu cục bộ nhạy cảm trong khi vẫn đảm bảo an toàn. Thay vì chia sẻ dữ liệu thô, chỉ chia sẻ các bản cập nhật hoặc thông tin chi tiết của mô hình, đảm bảo rằng thông tin riêng tư vẫn được bảo vệ trong khi vẫn đóng góp vào quá trình đào tạo.

Trong khi đó, học tự giám sát giúp giảm nhu cầu về dữ liệu được gắn nhãn bằng cách đào tạo trước các mô hình trên dữ liệu không được gắn nhãn. Quá trình này tạo ra một cơ sở vững chắc cho mô hình. Học chủ động sau đó có thể xây dựng trên cơ sở này bằng cách xác định và chọn các điểm dữ liệu quan trọng nhất để chú thích của con người, tinh chỉnh mô hình hơn nữa.

Từ học tập chủ động đến tác động chủ động

Học tập chủ động cung cấp một cách thực tế để giải quyết những thách thức lớn trong thị giác máy tính, như chi phí chú thích dữ liệu cao và nhu cầu về các mô hình chính xác hơn. Bằng cách tập trung vào việc chỉ dán nhãn các điểm dữ liệu có giá trị nhất, nó làm giảm nỗ lực cần thiết từ con người trong khi tăng cường hiệu suất của mô hình.

Khi kết hợp với các công nghệ như AutoML, học tập chủ động hợp lý hóa quá trình phát triển mô hình bằng cách tự động hóa các tác vụ tốn thời gian. Khi những tiến bộ tiếp tục, học tập chủ động được thiết lập để trở thành một công cụ thiết yếu để xây dựng các hệ thống thị giác máy tính thông minh hơn và hiệu quả hơn.

Khám phá kho lưu trữ GitHub của chúng tôi và tham gia cộng đồng của chúng tôi để tìm hiểu thêm về AI và các mô hình thị giác máy tính. Khám phá thêm các ứng dụng của thị giác máy tính trong sản xuất và chăm sóc sức khỏe trên các trang giải pháp của chúng tôi. Bạn cũng có thể xem các tùy chọn cấp phép của chúng tôi để bắt đầu hành trình Vision AI của mình ngay hôm nay.

Học tập chủ động giúp tăng tốc quá trình phát triển thị giác máy tính

Bộ dữ liệu hình ảnh không dễ xây dựng

Học tập chủ động là gì?

Hiểu cách học tập chủ động hoạt động như thế nào

Khám phá các ứng dụng của học tập chủ động

Học tập chủ động có thể giảm chi phí dán nhãn

Lợi ích của việc học tập chủ động

Học tập chủ động và AutoML có thể hoạt động cùng nhau

Những thách thức của việc học tập chủ động

Con đường phía trước cho việc học tập chủ động và AutoML

Từ học tập chủ động đến tác động chủ động

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Học tập chủ động giúp tăng tốc quá trình phát triển thị giác máy tính

Bộ dữ liệu hình ảnh không dễ xây dựng

Học tập chủ động là gì?

Hiểu cách học tập chủ động hoạt động như thế nào

Khám phá các ứng dụng của học tập chủ động

Học tập chủ động có thể giảm chi phí dán nhãn

Lợi ích của việc học tập chủ động

Học tập chủ động và AutoML có thể hoạt động cùng nhau

Những thách thức của việc học tập chủ động

Con đường phía trước cho việc học tập chủ động và AutoML

Từ học tập chủ động đến tác động chủ động

Đọc thêm trong danh mục này

Hãy xây dựng tương lai của AI cùng nhau!

Hãy xây dựng tương lai
của AI cùng nhau!