Thuật ngữ

Nhãn dữ liệu

Khám phá vai trò quan trọng của việc dán nhãn dữ liệu trong học máy, quy trình, thách thức và ứng dụng thực tế của nó trong phát triển AI.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Ghi nhãn dữ liệu là quá trình thiết yếu để thêm các thẻ thông tin hoặc chú thích vào dữ liệu thô, chẳng hạn như hình ảnh, video, văn bản hoặc âm thanh. Các nhãn này cung cấp ngữ cảnh, cho phép các mô hình Học máy (ML) hiểu và diễn giải dữ liệu một cách chính xác. Trong Học có giám sát , dữ liệu được gắn nhãn đóng vai trò là "sự thật cơ bản", các câu trả lời đúng đã được xác minh mà các mô hình học hỏi để xác định các mẫu và đưa ra dự đoán trong tương lai. Chất lượng và độ chính xác của các nhãn này ảnh hưởng trực tiếp đến hiệu suất của mô hình, khiến việc gắn nhãn dữ liệu trở thành một bước cơ bản trong việc xây dựng các hệ thống Trí tuệ nhân tạo (AI) đáng tin cậy, đặc biệt là trong các lĩnh vực như Thị giác máy tính (CV) .

Tầm quan trọng của việc dán nhãn dữ liệu

Dữ liệu được gắn nhãn chất lượng cao là nền tảng của các dự án ML thành công. Các mô hình như Ultralytics YOLO phụ thuộc rất nhiều vào các tập dữ liệu được gắn nhãn chính xác để đào tạo hiệu quả. Các nhãn không nhất quán hoặc không chính xác có thể dẫn đến các mô hình hoạt động kém và đưa ra các dự đoán không đáng tin cậy trong các tình huống thực tế. Chuẩn bị dữ liệu, bao gồm cả việc gắn nhãn, thường chiếm một phần đáng kể thời gian đầu tư vào các dự án AI, nhấn mạnh vai trò quan trọng của nó. Một số báo cáo, như báo cáo Anaconda State of Data Science , chỉ ra rằng việc chuẩn bị dữ liệu chiếm phần lớn thời gian của các nhà khoa học dữ liệu.

Quy trình dán nhãn dữ liệu

Quá trình dán nhãn dữ liệu thường bao gồm một số giai đoạn:

  1. Thu thập dữ liệu: Thu thập dữ liệu thô (hình ảnh, video, v.v.) cần dán nhãn.
  2. Định nghĩa hướng dẫn: Thiết lập các hướng dẫn và tiêu chuẩn rõ ràng về cách dán nhãn để đảm bảo tính nhất quán.
  3. Chú thích: Áp dụng nhãn cho dữ liệu theo các hướng dẫn đã xác định bằng các công cụ chuyên dụng. Điều này thường được gọi là chú thích dữ liệu .
  4. Đảm bảo chất lượng (QA): Xem xét dữ liệu được dán nhãn để xác minh tính chính xác, tính nhất quán và việc tuân thủ các hướng dẫn.

Để tìm hiểu sâu hơn về các bước thực tế, hãy xem Hướng dẫn thu thập và chú thích dữ liệu Ultralytics .

Các loại nhãn dữ liệu trong thị giác máy tính

Các nhiệm vụ CV khác nhau yêu cầu các loại nhãn khác nhau:

  • Hộp giới hạn: Vẽ các hình chữ nhật xung quanh các đối tượng quan tâm để Phát hiện Đối tượng .
  • Đa giác/Mặt nạ: Phác thảo hình dạng chính xác của đối tượng ở cấp độ pixel để Phân đoạn hình ảnh .
  • Điểm chính: Đánh dấu các điểm cụ thể trên một vật thể (ví dụ: khớp trên cơ thể người) để ước tính tư thế .
  • Thẻ phân loại: Gán một nhãn duy nhất cho toàn bộ hình ảnh để phân loại nội dung của hình ảnh đó.

Ứng dụng và ví dụ thực tế

Việc dán nhãn dữ liệu thúc đẩy nhiều ứng dụng AI trong nhiều lĩnh vực khác nhau:

  • Chăm sóc sức khỏe: Ghi nhãn hình ảnh y tế (như X-quang hoặc MRI từ các nguồn như The Cancer Imaging Archive (TCIA) ) để đào tạo các mô hình phát hiện bệnh tật hoặc bất thường. Xem thêm tại AI trong chăm sóc sức khỏe .
  • Xe tự hành: Chú thích dữ liệu cảm biến (hình ảnh camera, đám mây điểm LiDAR) từ các tập dữ liệu như Waymo Open Dataset để dạy xe tự lái cách nhận biết người đi bộ, phương tiện và biển báo giao thông. Khám phá AI trong ô tô .
  • Bán lẻ: Gắn thẻ sản phẩm trên kệ trong hình ảnh để tự động quản lý hàng tồn kho hoặc phân tích hành vi của khách hàng.
  • Nông nghiệp: Ghi nhãn hình ảnh cây trồng để theo dõi sức khỏe, phát hiện bệnh tật hoặc ước tính năng suất.

Các khái niệm liên quan

Việc dán nhãn dữ liệu có liên quan chặt chẽ với các khái niệm ML quan trọng khác:

  • Tăng cường dữ liệu: Các kỹ thuật được sử dụng để tăng kích thước và tính đa dạng của một tập dữ liệu được gắn nhãn một cách nhân tạo bằng cách áp dụng các phép biến đổi (như xoay hoặc thay đổi độ sáng) cho dữ liệu hiện có. Có thể tìm thấy thêm thông tin chi tiết trong phần tổng quan về tăng cường dữ liệu này.
  • Tiền xử lý dữ liệu: Các bước thực hiện để làm sạch, định dạng và chuẩn bị dữ liệu thô trước khi gắn nhãn hoặc sử dụng để đào tạo.
  • Học có giám sát: Mô hình ML dựa vào dữ liệu được gắn nhãn để đào tạo mô hình, trái ngược với học không giám sát hoặc học tăng cường. Bạn có thể đọc thêm về nó trên trang Học có giám sát của Wikipedia .

Những thách thức trong việc dán nhãn dữ liệu

Mặc dù có tầm quan trọng, việc dán nhãn dữ liệu vẫn đặt ra những thách thức:

  • Chi phí và thời gian: Việc dán nhãn các tập dữ liệu lớn có thể tốn kém và mất nhiều thời gian, thường đòi hỏi nhiều nỗ lực của con người.
  • Kiểm soát chất lượng: Đảm bảo độ chính xác và tính nhất quán cao trên các nhãn là điều khó khăn nhưng rất quan trọng đối với hiệu suất của mô hình. Duy trì chất lượng dữ liệu cao là điều tối quan trọng.
  • Tính chủ quan: Một số nhiệm vụ đòi hỏi phải có những đánh giá chủ quan, dẫn đến khả năng không nhất quán giữa những người dán nhãn.
  • Khả năng mở rộng: Việc quản lý và mở rộng hoạt động gắn nhãn cho các tập dữ liệu rất lớn có thể rất phức tạp.

Các kỹ thuật như Học tập chủ động nhằm mục đích giảm bớt gánh nặng dán nhãn bằng cách lựa chọn thông minh các điểm dữ liệu nhiều thông tin nhất để dán nhãn trước, có khả năng giảm bớt tổng thể công sức như đã giải thích trên trang Học tập chủ động của Wikipedia .

Công cụ và Nền tảng

Nhiều công cụ khác nhau giúp hợp lý hóa quy trình gắn nhãn dữ liệu. Ultralytics HUB cung cấp các tính năng quản lý và gắn nhãn dữ liệu tích hợp được thiết kế cho các tác vụ thị giác máy tính. Các nền tảng thương mại và mã nguồn mở phổ biến khác bao gồm Label StudioCVAT (Công cụ chú thích thị giác máy tính) .

Đọc tất cả