Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Độ Lệch Tập Dữ Liệu (Dataset Bias)

Khám phá các nguyên nhân gây ra sai lệch dữ liệu trong AI và tìm hiểu cách giảm thiểu sự sai lệch. Khám phá cách sử dụng... Ultralytics Nền tảng và Ultralytics YOLO26 nhằm cải thiện tính công bằng.

Sai lệch dữ liệu xảy ra khi thông tin được sử dụng để huấn luyện các mô hình học máy (ML) chứa các lỗi hệ thống hoặc phân bố lệch, dẫn đến hệ thống AI thu được ưu tiên một số kết quả nhất định hơn những kết quả khác. Bởi vì các mô hình hoạt động như các công cụ nhận dạng mẫu, chúng hoàn toàn phụ thuộc vào dữ liệu đầu vào; nếu dữ liệu huấn luyện không phản ánh chính xác sự đa dạng của môi trường thực tế, mô hình sẽ thừa hưởng những điểm mù này. Hiện tượng này thường dẫn đến khả năng khái quát hóa kém, trong đó AI có thể đạt điểm cao trong quá trình thử nghiệm nhưng lại thất bại đáng kể khi được triển khai để suy luận thời gian thực trong các tình huống đa dạng hoặc không lường trước được.

Các nguyên nhân phổ biến gây sai lệch dữ liệu

Thiên kiến ​​có thể xâm nhập vào tập dữ liệu ở nhiều giai đoạn trong vòng đời phát triển, thường bắt nguồn từ các quyết định của con người trong quá trình thu thập hoặc chú thích dữ liệu.

  • Sai lệch chọn mẫu : Điều này xảy ra khi dữ liệu thu thập được không đại diện ngẫu nhiên cho quần thể mục tiêu. Ví dụ, việc tạo bộ dữ liệu nhận dạng khuôn mặt chủ yếu bằng hình ảnh người nổi tiếng có thể làm sai lệch mô hình theo hướng trang điểm đậm và ánh sáng chuyên nghiệp, dẫn đến việc mô hình hoạt động kém hiệu quả với hình ảnh webcam hàng ngày.
  • Lỗi khi gắn nhãn : Tính chủ quan trong quá trình gắn nhãn dữ liệu có thể dẫn đến định kiến ​​của con người. Nếu người chú thích liên tục phân loại sai các đối tượng mơ hồ do thiếu hướng dẫn rõ ràng, mô hình sẽ coi những lỗi này là sự thật khách quan.
  • Thiên kiến đại diện : Ngay cả khi được chọn ngẫu nhiên, các nhóm thiểu số vẫn có thể bị lấn át về mặt thống kê bởi nhóm đa số. Trong phát hiện đối tượng , một tập dữ liệu có 10.000 hình ảnh ô tô nhưng chỉ có 100 hình ảnh xe đạp sẽ dẫn đến một mô hình có xu hướng thiên về phát hiện ô tô.

Ứng dụng và hậu quả trong thế giới thực

Ảnh hưởng của sự thiên lệch trong tập dữ liệu là rất đáng kể trong nhiều ngành công nghiệp, đặc biệt là nơi các hệ thống tự động đưa ra các quyết định quan trọng hoặc tương tác với thế giới vật lý.

Trong ngành công nghiệp ô tô, trí tuệ nhân tạo (AI) dựa vào camera để nhận diện người đi bộ và chướng ngại vật. Nếu một chiếc xe tự lái được huấn luyện chủ yếu dựa trên dữ liệu thu thập được trong điều kiện khí hậu nắng ráo, nó có thể bị suy giảm hiệu suất khi hoạt động trong điều kiện tuyết hoặc mưa lớn. Đây là một ví dụ điển hình về việc phân bố dữ liệu huấn luyện không phù hợp với phân bố dữ liệu hoạt động, dẫn đến rủi ro về an toàn.

Tương tự, trong phân tích hình ảnh y tế , các mô hình chẩn đoán thường được huấn luyện dựa trên dữ liệu bệnh nhân trong quá khứ. Nếu một mô hình được thiết kế để detect Nếu hệ thống huấn luyện chẩn đoán các bệnh về da được xây dựng trên tập dữ liệu chủ yếu gồm những người có tông da sáng hơn, thì độ chính xác của nó có thể thấp hơn đáng kể khi chẩn đoán bệnh nhân có tông da tối hơn. Để giải quyết vấn đề này, cần có sự phối hợp để xây dựng các tập dữ liệu đa dạng, đảm bảo tính công bằng trong trí tuệ nhân tạo đối với tất cả các nhóm nhân khẩu học.

Các chiến lược giảm thiểu

Các nhà phát triển có thể giảm thiểu sai lệch dữ liệu bằng cách áp dụng các chiến lược kiểm tra nghiêm ngặt và huấn luyện nâng cao. Các kỹ thuật như tăng cường dữ liệu giúp cân bằng tập dữ liệu bằng cách tạo ra các biến thể nhân tạo của các ví dụ ít được đại diện (ví dụ: lật, xoay hoặc điều chỉnh độ sáng). Hơn nữa, việc tạo dữ liệu tổng hợp có thể lấp đầy những khoảng trống khi dữ liệu thực tế khan hiếm hoặc khó thu thập.

Quản lý hiệu quả các tập dữ liệu này là vô cùng quan trọng. Nền tảng Ultralytics cho phép các nhóm hình dung sự phân bố lớp và xác định sự mất cân bằng trước khi bắt đầu huấn luyện. Ngoài ra, việc tuân thủ các hướng dẫn như Khung quản lý rủi ro AI của NIST giúp các tổ chức xây dựng phương pháp tiếp cận để xác định và giảm thiểu những rủi ro này một cách có hệ thống.

Thiên lệch trong tập dữ liệu so với các khái niệm liên quan

Việc phân biệt sai lệch dữ liệu với các thuật ngữ tương tự sẽ giúp hiểu rõ nguồn gốc của lỗi:

  • So với thiên kiến ​​thuật toán : Thiên kiến ​​tập dữ liệu tập trung vào dữ liệu; nó ngụ ý rằng "các thành phần" có sai sót. Thiên kiến ​​thuật toán tập trung vào mô hình; nó phát sinh từ thiết kế của chính thuật toán hoặc thuật toán tối ưu hóa , có thể ưu tiên các nhóm đa số để tối đa hóa các chỉ số tổng thể với chi phí là các nhóm thiểu số.
  • So với hiện tượng trôi lệch mô hình : Sai lệch tập dữ liệu là một vấn đề tĩnh tồn tại tại thời điểm huấn luyện. Hiện tượng trôi lệch mô hình (hoặc trôi lệch dữ liệu) xảy ra khi dữ liệu thực tế thay đổi theo thời gian sau khi mô hình đã được triển khai, đòi hỏi phải giám sát mô hình liên tục.

Ví dụ mã: Tăng cường dữ liệu để giảm thiểu sai lệch

Ví dụ sau đây minh họa cách áp dụng tăng cường dữ liệu trong quá trình huấn luyện với YOLO26 . Bằng cách tăng cường các phép tăng cường hình học, mô hình học cách khái quát hóa tốt hơn, có khả năng giảm thiểu sự thiên vị đối với các hướng hoặc vị trí đối tượng cụ thể được tìm thấy trong tập dữ liệu huấn luyện.

from ultralytics import YOLO

# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")

# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
    data="coco8.yaml",
    epochs=50,
    fliplr=0.5,  # 50% probability of horizontal flip
    scale=0.5,  # +/- 50% image scaling
)

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay