Thuật ngữ

Độ lệch của tập dữ liệu

Tìm hiểu cách xác định và giảm thiểu sai lệch dữ liệu trong AI để đảm bảo các mô hình học máy công bằng, chính xác và đáng tin cậy cho các ứng dụng thực tế.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Sai lệch tập dữ liệu xảy ra khi dữ liệu được sử dụng để đào tạo mô hình học máy (ML) không đại diện cho môi trường thực tế nơi mô hình sẽ được triển khai. Việc thiếu đại diện này có thể dẫn đến kết quả bị bóp méo, hiệu suất kém và kết quả không công bằng. Đây là một thách thức đáng kể trong Trí tuệ nhân tạo (AI) , đặc biệt là trong các lĩnh vực như Thị giác máy tính (CV) , nơi các mô hình học các mẫu trực tiếp từ dữ liệu trực quan. Nếu tập dữ liệu đào tạo chứa sự mất cân bằng hoặc phản ánh các định kiến lịch sử, thì mô hình AI kết quả có khả năng sẽ kế thừa và có khả năng khuếch đại các vấn đề này, khiến sai lệch tập dữ liệu trở thành nguồn chính của Sai lệch chung trong AI .

Nguồn và loại sai lệch của tập dữ liệu

Sai lệch tập dữ liệu không phải là một vấn đề đơn lẻ mà có thể biểu hiện theo nhiều cách trong quá trình thu thập và chú thích dữ liệu :

  • Sai lệch lựa chọn: Xảy ra khi dữ liệu không được lấy mẫu ngẫu nhiên, dẫn đến việc đại diện quá mức hoặc đại diện không đủ cho một số nhóm hoặc tình huống nhất định. Ví dụ, một tập dữ liệu về lái xe tự động được đào tạo chủ yếu trên hình ảnh ban ngày, thời tiết quang đãng có thể hoạt động kém vào ban đêm hoặc khi trời mưa.
  • Sai lệch đo lường: Phát sinh từ các vấn đề trong công cụ hoặc quy trình thu thập dữ liệu. Ví dụ, sử dụng các camera chất lượng khác nhau cho các nhóm nhân khẩu học khác nhau trong tập dữ liệu nhận dạng khuôn mặt có thể gây ra sai lệch.
  • Thiên kiến nhãn (Thiên kiến chú thích): Xuất phát từ sự không nhất quán hoặc định kiến trong giai đoạn gắn nhãn dữ liệu , trong đó người chú thích có thể diễn giải hoặc gắn nhãn dữ liệu khác nhau dựa trên quan điểm chủ quan hoặc thiên kiến ngầm. Khám phá các loại thiên kiến nhận thức khác nhau có thể làm sáng tỏ các yếu tố tiềm ẩn của con người.
  • Sự thiên vị lịch sử: Phản ánh sự thiên vị xã hội hiện hữu trên thế giới, được ghi lại trong dữ liệu. Nếu dữ liệu lịch sử cho thấy một số nhóm ít được đại diện trong các vai trò cụ thể, AI được đào tạo trên dữ liệu này có thể duy trì sự thiên vị đó.

Việc hiểu các nguồn này rất quan trọng để giảm thiểu tác động của chúng, như đã nêu bật trong các nguồn như blog Ultralytics về việc hiểu sự thiên vị của AI .

Tại sao sự thiên vị của tập dữ liệu lại quan trọng

Hậu quả của sự thiên vị trong tập dữ liệu có thể rất nghiêm trọng, ảnh hưởng đến hiệu suất của mô hình và tính công bằng của xã hội:

  • Giảm độ chính xác và độ tin cậy: Các mô hình được đào tạo trên dữ liệu thiên vị thường có độ chính xác thấp hơn khi gặp dữ liệu từ các nhóm hoặc tình huống không được đại diện đầy đủ. Điều này hạn chế khả năng khái quát hóa của mô hình, như đã thảo luận trong các nghiên cứu như "Datasets: The Raw Material of AI" .
  • Kết quả không công bằng hoặc phân biệt đối xử: Các mô hình thiên vị có thể dẫn đến những bất lợi có hệ thống cho một số nhóm nhất định, gây ra những lo ngại đáng kể về tính công bằng trong AIĐạo đức AI . Điều này đặc biệt quan trọng trong các ứng dụng có rủi ro cao như tuyển dụng, phê duyệt khoản vay và chẩn đoán chăm sóc sức khỏe.
  • Củng cố định kiến: Hệ thống AI có thể vô tình duy trì định kiến có hại nếu được đào tạo dựa trên dữ liệu phản ánh định kiến của xã hội.
  • Sự xói mòn lòng tin: Niềm tin của công chúng vào công nghệ AI có thể bị tổn hại nếu các hệ thống bị coi là không công bằng hoặc không đáng tin cậy do những thành kiến tiềm ẩn. Các tổ chức như Partnership on AIAI Now Institute nỗ lực giải quyết những tác động xã hội rộng lớn hơn này.

Ví dụ thực tế

  1. Hệ thống nhận dạng khuôn mặt: Các tập dữ liệu nhận dạng khuôn mặt ban đầu thường đại diện quá mức cho nam giới có làn da sáng hơn. Do đó, các hệ thống thương mại đã chứng minh độ chính xác thấp hơn đáng kể đối với phụ nữ có làn da sẫm màu, như được nêu bật trong nghiên cứu từ các tổ chức như NIST và các tổ chức như Liên đoàn công lý thuật toán . Sự chênh lệch này gây ra rủi ro trong các ứng dụng từ gắn thẻ ảnh đến xác minh danh tính và thực thi pháp luật.
  2. Phân tích hình ảnh y tế: Một mô hình AI được đào tạo để phát hiện ung thư da bằng cách sử dụng phân tích hình ảnh y tế có thể hoạt động kém trên tông màu da sẫm hơn nếu tập dữ liệu đào tạo chủ yếu bao gồm hình ảnh từ những bệnh nhân da sáng. Sự thiên vị này có thể dẫn đến chẩn đoán bị bỏ sót hoặc chậm trễ đối với các nhóm bệnh nhân không được đại diện đầy đủ, ảnh hưởng đến công bằng trong chăm sóc sức khỏe của AI .

Phân biệt sự thiên vị của tập dữ liệu với các khái niệm liên quan

Điều quan trọng là phải phân biệt Dataset Bias với các thuật ngữ tương tự:

  • Thiên vị trong AI: Đây là thuật ngữ rộng bao gồm bất kỳ lỗi hệ thống nào dẫn đến kết quả không công bằng. Thiên vị tập dữ liệu là nguyên nhân chính gây ra Thiên vị trong AI, nhưng thiên vị cũng có thể bắt nguồn từ chính thuật toán ( Thiên vị thuật toán ) hoặc bối cảnh triển khai.
  • Độ lệch thuật toán: Điều này đề cập đến độ lệch do kiến trúc mô hình, quy trình học hoặc mục tiêu tối ưu hóa đưa vào, không phụ thuộc vào chất lượng dữ liệu ban đầu. Ví dụ, một thuật toán có thể ưu tiên độ chính xác tổng thể với cái giá phải trả là sự công bằng cho các nhóm thiểu số.
  • Công bằng trong AI: Đây là mục tiêu hoặc đặc tính của hệ thống AI, hướng đến việc đối xử công bằng giữa các nhóm khác nhau. Giải quyết định kiến về tập dữ liệu là một bước quan trọng để đạt được sự công bằng, nhưng công bằng cũng bao gồm các điều chỉnh thuật toán và các cân nhắc về mặt đạo đức được xác định bởi các khuôn khổ như Khung quản lý rủi ro AI của NIST .
  • Đánh đổi giữa độ lệch và phương sai: Đây là khái niệm cốt lõi trong học máy liên quan đến độ phức tạp của mô hình. "Độ lệch" ở đây đề cập đến lỗi từ các giả định quá đơn giản ( không phù hợp ), khác với độ lệch xã hội hoặc thống kê được tìm thấy trong các tập dữ liệu.

Giải quyết sự thiên vị của tập dữ liệu

Việc giảm thiểu sai lệch dữ liệu đòi hỏi các chiến lược chủ động trong toàn bộ quy trình làm việc ML :

  • Thu thập dữ liệu cẩn thận: Cố gắng tìm kiếm các nguồn dữ liệu đa dạng và mang tính đại diện phản ánh môi trường triển khai mục tiêu. Việc ghi lại các tập dữ liệu bằng các khuôn khổ như Data Sheets for Datasets có thể cải thiện tính minh bạch.
  • Tiền xử lý và tăng cường dữ liệu: Các kỹ thuật như lấy mẫu lại, tổng hợp dữ liệu và tăng cường dữ liệu có mục tiêu có thể giúp cân bằng các tập dữ liệu và tăng cường biểu diễn. Các công cụ trong Ultralytics hệ sinh thái hỗ trợ nhiều phương pháp tăng cường khác nhau.
  • Công cụ phát hiện thiên vị: Sử dụng các công cụ như Công cụ What-If của Google hoặc các thư viện như Fairlearn để kiểm tra các tập dữ liệu và mô hình nhằm tìm ra thiên vị tiềm ẩn.
  • Đánh giá mô hình: Đánh giá hiệu suất mô hình trên các nhóm phụ khác nhau bằng cách sử dụng số liệu công bằng cùng với số liệu độ chính xác tiêu chuẩn. Ghi lại các phát hiện bằng các phương pháp như Thẻ mô hình .
  • Hỗ trợ nền tảng: Các nền tảng như Ultralytics HUB cung cấp các công cụ để quản lý tập dữ liệu, đào tạo các mô hình như Ultralytics YOLO11 và tạo điều kiện đánh giá mô hình chặt chẽ, hỗ trợ các nhà phát triển xây dựng các hệ thống ít thiên vị hơn.

Bằng cách giải quyết có ý thức sự thiên vị của tập dữ liệu, các nhà phát triển có thể tạo ra các hệ thống AI mạnh mẽ, đáng tin cậy và công bằng hơn. Có thể tìm thấy thêm thông tin chi tiết trong các cuộc khảo sát nghiên cứu như "Khảo sát về sự thiên vị và công bằng trong học máy" và các cuộc thảo luận tại các hội nghị như ACM FAccT .

Đọc tất cả