Độ lệch tập dữ liệu là một vấn đề quan trọng trong học máy (ML) khi dữ liệu được sử dụng để đào tạo mô hình không thể hiện được tính đa dạng và phức tạp của môi trường thực tế nơi mô hình sẽ được triển khai. Sự khác biệt này phát sinh từ những sai sót trong quá trình thu thập dữ liệu, lấy mẫu hoặc chú thích. Do đó, các mô hình được đào tạo trên các tập dữ liệu có độ lệch có thể hoạt động tốt trên các số liệu đánh giá sử dụng dữ liệu tương tự nhưng lại thể hiện tính khái quát kém, không chính xác và không công bằng khi áp dụng cho dữ liệu mới, chưa từng thấy hoặc các nhóm nhân khẩu học khác nhau. Việc giải quyết độ lệch tập dữ liệu là điều cần thiết để xây dựng các hệ thống AI đáng tin cậy, hiệu quả và công bằng, như đã nêu trong các cuộc thảo luận xung quanh Độ lệch trong AI .
Các loại sai lệch của tập dữ liệu
Một số dạng sai lệch có thể xâm nhập vào các tập dữ liệu, dẫn đến kết quả mô hình bị lệch. Hiểu các loại này là bước đầu tiên hướng tới việc giảm thiểu:
- Sai lệch lựa chọn: Xảy ra khi quá trình thu thập dữ liệu ưu tiên một số tập dữ liệu nhất định hơn các tập khác, dẫn đến mẫu không đại diện. Ví dụ, chỉ thu thập dữ liệu giao thông trong những giờ cụ thể có thể bỏ lỡ các mẫu từ những thời điểm khác.
- Sai lệch lấy mẫu: Một loại sai lệch lựa chọn cụ thể khi mẫu được thu thập không phản ánh chính xác tỷ lệ của quần thể mục tiêu. Sử dụng các phương pháp lấy mẫu không ngẫu nhiên thường có thể gây ra điều này.
- Sai lệch đo lường: Phát sinh từ sự không chính xác hoặc không nhất quán trong quá trình đo dữ liệu hoặc giai đoạn chú thích. Điều này có thể liên quan đến các cảm biến bị lỗi hoặc sự không nhất quán chủ quan trong việc dán nhãn dữ liệu do các chú thích viên khác nhau thực hiện.
- Lệch nhãn: Xảy ra khi nhãn được gán cho các điểm dữ liệu mang tính chủ quan, không nhất quán hoặc phản ánh khuynh hướng ngầm của người chú thích, có khả năng bị ảnh hưởng bởi các yếu tố như giải thích Lệch nhãn xác nhận .
- Sai lệch biểu diễn: Xảy ra khi tập dữ liệu không biểu diễn đầy đủ một số nhóm hoặc thuộc tính nhất định có trong thế giới thực, khiến mô hình hoạt động kém hiệu quả đối với các nhóm đó.
Ví dụ thực tế về độ lệch của tập dữ liệu
Sự sai lệch của tập dữ liệu có thể gây ra hậu quả đáng kể trong thế giới thực trên nhiều ứng dụng khác nhau:
- Hệ thống nhận dạng khuôn mặt: Nhiều hệ thống thuật ngữ nhận dạng khuôn mặt ban đầu được đào tạo trên các tập dữ liệu chủ yếu có khuôn mặt nam giới da sáng hơn. Do đó, các hệ thống này thường có độ chính xác thấp hơn đáng kể khi xác định những cá nhân có tông màu da sẫm hơn hoặc khuôn mặt nữ, như được ghi nhận trong nghiên cứu của NIST về tác động nhân khẩu học trong nhận dạng khuôn mặt .
- Phân tích hình ảnh y tế: Một mô hình AI được thiết kế để phát hiện ung thư da có thể được đào tạo chủ yếu trên hình ảnh từ những người có làn da sáng. Nếu triển khai trong một nhóm dân số đa dạng, nó có thể không phát hiện chính xác các khối u ác tính ở những người có tông màu da sẫm hơn do thiếu hình ảnh đại diện trong dữ liệu đào tạo , làm nổi bật các vấn đề về thiên vị trong nghiên cứu AI y tế và tác động đến hiệu quả của AI trong chăm sóc sức khỏe .
Xác định và giảm thiểu sai lệch tập dữ liệu
Phát hiện sai lệch tập dữ liệu liên quan đến việc phân tích cẩn thận nguồn dữ liệu, phương pháp thu thập và phân phối các tính năng và nhãn. Các kỹ thuật bao gồm phân tích dữ liệu thăm dò, kiểm tra thống kê so sánh hiệu suất của nhóm con và Trực quan hóa dữ liệu để phát hiện sự mất cân bằng.
Sau khi xác định được, các chiến lược giảm thiểu bao gồm:
- Thu thập thêm dữ liệu đại diện: Mở rộng nỗ lực thu thập dữ liệu để bao gồm các nhóm và tình huống chưa được đại diện đầy đủ.
- Tăng cường dữ liệu: Áp dụng các kỹ thuật như xoay hình ảnh, cắt xén hoặc thay đổi màu sắc bằng các công cụ tích hợp với các mô hình như Ultralytics YOLO có thể giúp tăng tính đa dạng của dữ liệu, như được nêu chi tiết trong phần thuật ngữ Tăng cường dữ liệu .
- Kỹ thuật lấy mẫu lại: Điều chỉnh tập dữ liệu bằng cách lấy mẫu quá mức các lớp thiểu số hoặc lấy mẫu quá ít các lớp đa số.
- Kỹ thuật công bằng thuật toán: Triển khai các thuật toán được thiết kế để thúc đẩy tính công bằng trong quá trình đào tạo mô hình hoặc xử lý hậu kỳ. Các công cụ như AI Fairness 360 Toolkit (IBM Research) cung cấp các nguồn lực cho việc này.
- Sử dụng Bộ dữ liệu chuẩn đa dạng: Đánh giá các mô hình trên Bộ dữ liệu chuẩn chuẩn được biết đến với tính đa dạng của chúng.
Các khái niệm liên quan
Độ lệch của tập dữ liệu có liên quan chặt chẽ đến một số khái niệm quan trọng khác trong AI:
- Sai lệch thuật toán : Trong khi sai lệch tập dữ liệu bắt nguồn từ dữ liệu thì sai lệch thuật toán lại xuất phát từ quá trình thiết kế hoặc học tập của mô hình, điều này có thể khuếch đại các sai lệch hiện có hoặc đưa vào các sai lệch mới.
- Tính công bằng trong AI : Lĩnh vực này tập trung vào việc phát triển các hệ thống AI có khả năng đối xử công bằng với cá nhân và nhóm, thường liên quan đến việc đo lường và giảm thiểu sai lệch trong tập dữ liệu và thuật toán.
- Đạo đức AI : Sự thiên vị của tập dữ liệu là mối quan tâm lớn về mặt đạo đức, vì các mô hình thiên vị có thể duy trì sự phân biệt đối xử và gây hại. Các khuôn khổ đạo đức rộng hơn hướng dẫn phát triển AI có trách nhiệm, được các tổ chức như Đối tác về AI (PAI) ủng hộ.
- AI có thể giải thích (XAI) : Các kỹ thuật giúp dự đoán mô hình minh bạch hơn có thể giúp xác định liệu các sai lệch trong tập dữ liệu có ảnh hưởng đến kết quả hay không.
Hiểu và chủ động giải quyết sự thiên vị của tập dữ liệu, như đã thảo luận trong các nguồn như blog Understanding AI Bias và Google 's Responsible AI Practices , là rất quan trọng để tạo ra các hệ thống AI đáng tin cậy. Nghiên cứu và nguồn từ các tổ chức như Microsoft Responsible AI Resources và ACM Conference on Fairness, Accountability, and Transparency (FAccT) tiếp tục thúc đẩy các phương pháp giải quyết thách thức này.