Kiểm tra màu xanh lá cây
Liên kết được sao chép vào khay nhớ tạm

Khám phá nhãn dữ liệu cho các dự án thị giác máy tính

Đọc bài viết chuyên sâu toàn diện của chúng tôi về nhãn dữ liệu liên quan đến các dự án thị giác máy tính và tìm hiểu cách dán nhãn dữ liệu trực quan cũng như lý do tại sao điều này lại quan trọng.

Trí tuệ nhân tạo (AI) tập trung vào việc cung cấp cho máy móc những khả năng giống con người và một trong những cách phổ biến nhất để thực hiện điều này là thông qua học có giám sát . Nói cách khác, việc dạy các mô hình AI bằng cách cho chúng xem các ví dụ được gắn nhãn có thể giúp chúng học hỏi từ các mẫu và cải thiện các nhiệm vụ. Nó rất giống với cách con người học hỏi từ kinh nghiệm. Vậy, những ví dụ được gắn nhãn này được tạo ra như thế nào?

Chú thích dữ liệu liên quan đến việc dán nhãn hoặc gắn thẻ dữ liệu để giúp các thuật toán học máy hiểu được dữ liệu đó. Trong thị giác máy tính , điều này có nghĩa là đánh dấu hình ảnh hoặc video để nhận dạng và phân loại chính xác các đối tượng, hành động hoặc cảnh. Dán nhãn dữ liệu rất quan trọng vì sự thành công của mô hình AI phụ thuộc rất nhiều vào chất lượng của dữ liệu được dán nhãn mà nó được đào tạo.

Các nghiên cứu cho thấy hơn 80% thời gian của dự án AI được dành cho việc quản lý dữ liệu, từ việc thu thập và tổng hợp dữ liệu đến việc dọn dẹp và dán nhãn dữ liệu. Điều này cho thấy chú thích dữ liệu quan trọng như thế nào trong quá trình phát triển mô hình AI. Sử dụng dữ liệu chú thích chất lượng cao giúp các mô hình AI có thể thực hiện các tác vụ như nhận dạng khuôn mặtphát hiện đối tượng với độ chính xác và độ tin cậy cao hơn trong các tình huống thực tế.

Tại sao chú thích dữ liệu là cần thiết

Chú thích dữ liệu tạo thành cơ sở cho hiệu suất của mô hình thị giác máy tính . Dữ liệu được gắn nhãn là sự thật cơ bản mà mô hình sử dụng để học và đưa ra dự đoán. Dữ liệu sự thật cơ bản là chìa khóa vì nó đại diện cho thế giới thực mà mô hình cố gắng hiểu. Nếu không có đường cơ sở đáng tin cậy này, mô hình AI sẽ giống như một con tàu điều hướng mà không có la bàn. 

Hình 1. Sự thật cơ bản so với Dự đoán.

Việc gắn nhãn chính xác giúp các mô hình này hiểu được những gì chúng đang thấy và đưa ra quyết định tốt hơn. Nếu dữ liệu được gắn nhãn kém hoặc không nhất quán, mô hình sẽ gặp khó khăn trong việc đưa ra các dự đoán và quyết định chính xác, giống như một học sinh học từ sách giáo khoa không chính xác. Nhờ dữ liệu được chú thích, mô hình có thể học các tác vụ như phân loại hình ảnh , phân đoạn thể hiệnước tính tư thế của các đối tượng trong hình ảnh và video. 

Tài nguyên tốt nhất cho Bộ dữ liệu

Trước khi tạo một tập dữ liệu hoàn toàn mới và dán nhãn hình ảnh và video một cách tỉ mỉ, bạn nên xem liệu mình có thể sử dụng các tập dữ liệu đã có sẵn cho dự án của mình hay không. Có một số kho lưu trữ nguồn mở tuyệt vời, nơi bạn có thể truy cập các tập dữ liệu chất lượng cao miễn phí. Một số kho lưu trữ phổ biến nhất bao gồm:

  • ImageNet : Thường được sử dụng để đào tạo các mô hình phân loại hình ảnh.
  • COCO : Bộ dữ liệu này được thiết kế để phát hiện đối tượng, phân đoạn và chú thích hình ảnh
  • PASCAL VOC : Hỗ trợ các tác vụ phát hiện và phân đoạn đối tượng.
Hình 2. Ví dụ về dữ liệu trong tập dữ liệu COCO.

Khi chọn một tập dữ liệu, điều quan trọng là phải cân nhắc các yếu tố như mức độ phù hợp của tập dữ liệu với dự án của bạn, quy mô của tập dữ liệu, tính đa dạng của tập dữ liệu và chất lượng của nhãn. Ngoài ra, hãy đảm bảo xem xét các điều khoản cấp phép của tập dữ liệu để tránh bất kỳ hậu quả pháp lý nào và kiểm tra xem dữ liệu có được định dạng theo cách phù hợp với quy trình làm việc và công cụ của bạn hay không.

Tạo một tập dữ liệu tùy chỉnh là một lựa chọn tuyệt vời nếu các tập dữ liệu hiện tại không phù hợp với nhu cầu của bạn. Bạn có thể thu thập hình ảnh bằng các công cụ như webcam, máy bay không người lái hoặc điện thoại thông minh, tùy thuộc vào yêu cầu của dự án. Lý tưởng nhất là tập dữ liệu tùy chỉnh của bạn phải đa dạng, cân bằng và thực sự đại diện cho vấn đề bạn đang cố gắng giải quyết. Điều này có thể có nghĩa là chụp ảnh trong các điều kiện ánh sáng khác nhau, từ nhiều góc độ khác nhau và trên nhiều môi trường.

Nếu bạn chỉ có thể thu thập một số lượng nhỏ hình ảnh hoặc video, thì tăng cường dữ liệu là một kỹ thuật hữu ích. Nó bao gồm việc mở rộng tập dữ liệu của bạn bằng cách áp dụng các phép biến đổi như xoay, lật hoặc điều chỉnh màu cho các hình ảnh hiện có. Nó làm tăng kích thước tập dữ liệu của bạn và làm cho mô hình của bạn mạnh mẽ hơn và có khả năng xử lý các biến thể trong dữ liệu tốt hơn. Bằng cách sử dụng kết hợp các tập dữ liệu nguồn mở, tập dữ liệu tùy chỉnh và dữ liệu tăng cường, bạn có thể tăng đáng kể hiệu suất của các mô hình thị giác máy tính của mình.

Các loại kỹ thuật chú thích hình ảnh

Trước khi bạn bắt đầu chú thích hình ảnh, điều quan trọng là phải làm quen với các loại chú thích khác nhau. Điều này sẽ giúp bạn chọn loại chú thích phù hợp cho dự án của mình. Tiếp theo, chúng ta sẽ xem xét một số loại chú thích chính. 

Hộp giới hạn

Hộp giới hạn là loại chú thích phổ biến nhất trong thị giác máy tính. Chúng là các hộp hình chữ nhật được sử dụng để đánh dấu vị trí của một đối tượng trong hình ảnh. Các hộp này được xác định theo tọa độ các góc của chúng và giúp các mô hình AI xác định và định vị các đối tượng. Hộp giới hạn chủ yếu được sử dụng để phát hiện đối tượng .

Hình 3. Một ví dụ về hộp giới hạn.

Mặt nạ phân đoạn

Đôi khi, một đối tượng cần được phát hiện chính xác hơn là chỉ bằng một hộp giới hạn được vẽ xung quanh nó. Bạn có thể quan tâm đến ranh giới của các đối tượng trong một hình ảnh. Trong trường hợp đó, mặt nạ phân đoạn cho phép bạn phác thảo các đối tượng phức tạp. Mặt nạ phân đoạn là biểu diễn cấp độ pixel chi tiết hơn. 

Những mặt nạ này có thể được sử dụng để phân đoạn ngữ nghĩaphân đoạn thể hiện . Phân đoạn ngữ nghĩa liên quan đến việc dán nhãn mọi pixel trong hình ảnh theo đối tượng hoặc khu vực mà nó đại diện, như người đi bộ, ô tô, đường hoặc vỉa hè. Tuy nhiên, phân đoạn thể hiện tiến xa hơn một bước bằng cách xác định và tách riêng từng đối tượng, giống như phân biệt từng chiếc ô tô trong hình ảnh, ngay cả khi tất cả chúng đều cùng loại.

Hình 4. Một ví dụ về Phân đoạn ngữ nghĩa (trái) và Mặt nạ phân đoạn thể hiện (phải).

Hình khối 3D

Hình hộp 3D tương tự như hộp giới hạn, điểm độc đáo của chúng là hình hộp 3D bổ sung thông tin về độ sâu và cung cấp hình ảnh 3D của một vật thể. Thông tin bổ sung này cho phép các hệ thống hiểu được hình dạng, thể tích và vị trí của các vật thể trong không gian 3D. Hình hộp 3D thường được sử dụng trong xe tự lái để đo khoảng cách của các vật thể từ xe.

Hình 5. Một ví dụ về khối hộp chữ nhật 3D.

Điểm chính và Điểm mốc

Một loại chú thích thú vị khác là các điểm chính, trong đó các điểm cụ thể như mắt, mũi hoặc khớp được đánh dấu trên các vật thể. Landmarks tiến xa hơn một bước nữa bằng cách kết nối các điểm này để nắm bắt cấu trúc và chuyển động của các hình dạng phức tạp hơn, như khuôn mặt hoặc tư thế cơ thể. Các loại chú thích này được sử dụng cho các ứng dụng như nhận dạng khuôn mặt, chụp chuyển động và thực tế tăng cường. Chúng cũng cải thiện độ chính xác của các mô hình AI trong các tác vụ như nhận dạng cử chỉ hoặc phân tích hiệu suất thể thao .

Hình 6. Một ví dụ về các điểm chính.

Cách chú thích dữ liệu bằng LabelImg

Bây giờ chúng ta đã thảo luận về các loại chú thích khác nhau, hãy cùng tìm hiểu cách bạn có thể chú thích hình ảnh bằng một công cụ phổ biến, LabelImg . LabelImg là một công cụ mã nguồn mở giúp chú thích hình ảnh trở nên đơn giản và có thể được sử dụng để tạo tập dữ liệu trong YOLO (Bạn chỉ nhìn một lần). Đây là lựa chọn tuyệt vời cho người mới bắt đầu làm việc trên các dự án Ultralytics YOLOv8 nhỏ.

Thiết lập LabelImg rất đơn giản. Trước tiên, hãy đảm bảo bạn đã cài đặt Python 3 trên máy tính. Sau đó, bạn có thể cài đặt LabelImg bằng lệnh nhanh. 


pip3 install labelImg

Sau khi cài đặt xong, bạn có thể khởi động công cụ bằng lệnh:


labelImg

LabelImg hoạt động trên nhiều nền tảng, bao gồm Windows, macOS và Linux. Nếu bạn gặp bất kỳ sự cố nào trong quá trình cài đặt, kho lưu trữ LabelImg chính thức có thể cung cấp cho bạn hướng dẫn chi tiết hơn.

Hình 7. Sử dụng LabelImg để chú thích hình ảnh.

Sau khi khởi chạy công cụ, hãy làm theo các bước đơn giản sau để bắt đầu dán nhãn cho hình ảnh của bạn:

  • Thiết lập các lớp của bạn: Bắt đầu bằng cách xác định danh sách các lớp (thể loại) mà bạn muốn chú thích trong tệp có tên “predefined_classes.txt”. Tệp này cho phần mềm biết bạn sẽ dán nhãn những đối tượng nào trong hình ảnh của mình.
  • Chuyển sang định dạng YOLO : Theo mặc định, LabelImg sử dụng định dạng PASCAL VOC, nhưng nếu bạn đang làm việc với YOLO , bạn sẽ cần phải chuyển đổi định dạng. Chỉ cần nhấp vào nút “PascalVOC” trên thanh công cụ để chuyển sang YOLO .
  • Bắt đầu chú thích: Sử dụng tùy chọn "Mở" hoặc "OpenDIR" để tải hình ảnh của bạn. Sau đó, vẽ các hộp giới hạn xung quanh các đối tượng bạn muốn chú thích và gán nhãn lớp chính xác. Sau khi dán nhãn cho từng hình ảnh, hãy lưu tác phẩm của bạn. LabelImg sẽ tạo một tệp văn bản có cùng tên với hình ảnh của bạn, chứa YOLO chú thích.
  • Lưu và xem lại: Các chú thích được lưu trong tệp .txt trong YOLO định dạng. Phần mềm cũng lưu tệp “classes.txt liệt kê tất cả tên lớp của bạn.

Chiến lược dán nhãn dữ liệu hiệu quả

Để quá trình gắn nhãn dữ liệu trở nên mượt mà hơn, có một số chiến lược chính cần ghi nhớ. Ví dụ, hướng dẫn chú thích rõ ràng là rất quan trọng. Nếu không có chúng, những người chú thích khác nhau có thể diễn giải một nhiệm vụ theo cách khác nhau. 

Giả sử nhiệm vụ là chú thích các loài chim trong hình ảnh có hộp giới hạn. Một người chú thích có thể gắn nhãn toàn bộ con chim, trong khi người khác chỉ có thể gắn nhãn đầu hoặc cánh. Sự không nhất quán này có thể gây nhầm lẫn cho mô hình trong quá trình đào tạo. Bằng cách cung cấp các định nghĩa rõ ràng, chẳng hạn như "gắn nhãn toàn bộ con chim bao gồm cả cánh và đuôi", cùng với các ví dụ và hướng dẫn cho các trường hợp khó, bạn có thể đảm bảo dữ liệu được gắn nhãn chính xác và nhất quán.

Kiểm tra chất lượng thường xuyên cũng rất quan trọng để duy trì các tiêu chuẩn cao. Bằng cách thiết lập các điểm chuẩn và sử dụng các số liệu cụ thể để xem xét công việc, bạn có thể giữ cho dữ liệu chính xác và tinh chỉnh quy trình thông qua phản hồi liên tục. 

Tóm tắt về nhãn dữ liệu

Chú thích dữ liệu là một khái niệm đơn giản có thể có tác động đáng kể đến mô hình thị giác máy tính của bạn. Cho dù bạn đang sử dụng các công cụ như LabelImg để chú thích hình ảnh hay đào tạo mô hình trên các tập dữ liệu nguồn mở, thì việc hiểu nhãn dữ liệu là điều quan trọng. Các chiến lược gắn nhãn dữ liệu có thể giúp hợp lý hóa toàn bộ quy trình và làm cho quy trình hiệu quả hơn. Dành thời gian để tinh chỉnh cách tiếp cận chú thích của bạn có thể dẫn đến kết quả AI tốt hơn, đáng tin cậy hơn.

Tiếp tục khám phá và mở rộng kỹ năng của bạn! Hãy kết nối với cộng đồng của chúng tôi để tiếp tục tìm hiểu về AI! Hãy xem kho lưu trữ GitHub của chúng tôi để khám phá cách chúng tôi sử dụng AI để tạo ra các giải pháp sáng tạo trong các ngành công nghiệp như sản xuấtchăm sóc sức khỏe . 🚀

Logo FacebookBiểu trưng TwitterBiểu trưng LinkedInBiểu tượng sao chép liên kết

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của machine learning