Thuật ngữ

Thiên vị thuật toán

Khám phá sự thiên vị của thuật toán, nguồn gốc của nó và các ví dụ thực tế. Tìm hiểu các chiến lược để giảm thiểu sự thiên vị và xây dựng các hệ thống AI công bằng, có đạo đức.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Sự thiên vị thuật toán đề cập đến các lỗi có hệ thống và có thể lặp lại trong một hệ thống máy tính tạo ra kết quả không công bằng, thường ưu tiên một nhóm hơn nhóm khác. Sự thiên vị có thể tồn tại trong dữ liệu được sử dụng để đào tạo mô hình học máy hoặc phản ánh và duy trì các định kiến hiện có. Khi một thuật toán xử lý dữ liệu có chứa thông tin thiên vị, nó có thể học và thậm chí khuếch đại các thiên vị đó trong các dự đoán của mình. Điều này có thể dẫn đến các kết quả phân biệt đối xử khi thuật toán được áp dụng trong các tình huống thực tế, tác động đến các lĩnh vực như tuyển dụng, đơn xin vay và thậm chí là tư pháp hình sự. Việc hiểu và giảm thiểu sự thiên vị thuật toán là rất quan trọng để phát triển các hệ thống AI công bằng và bình đẳng.

Nguồn gốc của sự thiên vị thuật toán

Sự thiên vị thuật toán có thể bắt nguồn từ nhiều giai đoạn khác nhau của quy trình học máy (ML) . Sau đây là một số nguồn phổ biến:

  • Thu thập dữ liệu: Nếu dữ liệu được thu thập để đào tạo mô hình không đại diện cho dân số hoặc chứa các thành kiến lịch sử, mô hình sẽ thừa hưởng các thành kiến này. Ví dụ, hệ thống nhận dạng khuôn mặt được đào tạo chủ yếu trên hình ảnh khuôn mặt người da trắng có thể hoạt động kém trên khuôn mặt của người da màu.
  • Ghi nhãn dữ liệu: Ghi nhãn dữ liệu là quá trình thêm thẻ hoặc nhãn vào dữ liệu thô để cung cấp ý nghĩa cho các mô hình ML. Nếu quá trình ghi nhãn bị ảnh hưởng bởi sự thiên vị của con người, những sự thiên vị này sẽ được mã hóa vào mô hình.
  • Lựa chọn tính năng: Việc lựa chọn các tính năng được sử dụng để đào tạo mô hình có thể gây ra sai lệch. Nếu một số tính năng phổ biến hơn hoặc có khả năng dự đoán đối với một nhóm hơn nhóm khác, mô hình có thể hoạt động khác nhau giữa các nhóm này.
  • Thiết kế thuật toán: Bản thân thiết kế thuật toán cũng có thể gây ra sự thiên vị. Ví dụ, một thuật toán tối ưu hóa cho một kết quả cụ thể có thể vô tình gây bất lợi cho một số nhóm nhất định.

Các loại thiên vị thuật toán

Một số loại thiên kiến thuật toán có thể biểu hiện trong các hệ thống AI. Hiểu các loại này là điều cần thiết để xác định và giải quyết thiên kiến:

  • Thiên kiến lịch sử: Điều này xảy ra khi dữ liệu được sử dụng để đào tạo một mô hình phản ánh thiên kiến xã hội hiện có. Ví dụ, một thuật toán tuyển dụng được đào tạo trên dữ liệu tuyển dụng lịch sử thiên vị ứng viên nam có thể duy trì sự phân biệt giới tính.
  • Lệch lạc biểu diễn: Điều này phát sinh khi dữ liệu đào tạo không biểu diễn đầy đủ một số nhóm nhất định, khiến mô hình hoạt động kém đối với các nhóm đó. Ví dụ, hệ thống nhận dạng giọng nói được đào tạo chủ yếu trên giọng nói của người lớn có thể không phiên âm chính xác giọng nói của trẻ em.
  • Sai lệch đo lường: Loại sai lệch này xảy ra khi dữ liệu được sử dụng để đo một biến cụ thể không chính xác hoặc bị lệch một cách có hệ thống đối với một số nhóm nhất định. Ví dụ, thuật toán sức khỏe sử dụng chỉ số khối cơ thể (BMI) làm chỉ số sức khỏe chính có thể bị sai lệch so với một số loại cơ thể nhất định.
  • Độ lệch tổng hợp: Điều này xảy ra khi một mô hình phù hợp với tất cả được áp dụng cho một nhóm dân số đa dạng, bỏ qua sự khác biệt giữa các nhóm. Một thuật toán được thiết kế cho một nhóm dân số chung có thể không hoạt động tốt đối với các nhóm phụ cụ thể.

Ví dụ về sự thiên vị thuật toán trong các ứng dụng thực tế

Sự thiên vị của thuật toán có thể có tác động đáng kể đến thế giới thực. Sau đây là hai ví dụ cụ thể:

  1. Nhận dạng khuôn mặt trong thực thi pháp luật: Hệ thống nhận dạng khuôn mặt đã được chứng minh là kém chính xác hơn đối với những người có tông màu da sẫm hơn, đặc biệt là phụ nữ. Điều này có thể dẫn đến tỷ lệ dương tính giả và nhận dạng sai cao hơn, có khả năng dẫn đến bắt giữ và kết án sai. Viện Tiêu chuẩn và Công nghệ Quốc gia (NIST) đã tiến hành một nghiên cứu nêu bật những sự khác biệt này, nhấn mạnh nhu cầu về các tập dữ liệu đào tạo đa dạng và mang tính đại diện hơn.
  2. Công cụ tuyển dụng: Các công cụ tuyển dụng hỗ trợ AI ngày càng được sử dụng để sàng lọc ứng viên xin việc. Tuy nhiên, nếu các công cụ này được đào tạo trên dữ liệu tuyển dụng trong quá khứ phản ánh sự thiên vị trong quá khứ (ví dụ: thiên vị ứng viên nam cho các vai trò kỹ thuật), chúng có thể đánh giá ứng viên nữ thấp hơn một cách không công bằng. Kinh nghiệm của Amazon với một công cụ tuyển dụng thiên vị là một ví dụ đáng chú ý khi công ty phải loại bỏ một hệ thống tuyển dụng AI cho thấy sự thiên vị mạnh mẽ đối với ứng viên nam.

Giảm thiểu sự thiên vị của thuật toán

Việc giải quyết sự thiên vị thuật toán đòi hỏi một cách tiếp cận đa diện bao gồm thu thập dữ liệu cẩn thận, phát triển mô hình và giám sát liên tục. Sau đây là một số chiến lược:

  • Dữ liệu đa dạng và đại diện: Đảm bảo dữ liệu đào tạo đa dạng và đại diện chính xác cho dân số. Điều này có thể bao gồm việc thu thập dữ liệu bổ sung từ các nhóm chưa được đại diện hoặc sử dụng các kỹ thuật như tăng cường dữ liệu để cân bằng tập dữ liệu.
  • Kỹ thuật phát hiện sai lệch: Sử dụng các phương pháp để phát hiện sai lệch trong dữ liệu và mô hình. Các kỹ thuật như xác thực chéo có thể giúp xác định sự khác biệt trong hiệu suất mô hình giữa các nhóm khác nhau.
  • Chỉ số công bằng: Sử dụng chỉ số công bằng để đánh giá và định lượng độ lệch trong các mô hình. Các chỉ số như tác động không đồng đều, chênh lệch cơ hội bình đẳng và chênh lệch tỷ lệ cược trung bình có thể giúp đánh giá tính công bằng của các dự đoán của mô hình.
  • Tính minh bạch của thuật toán: Thúc đẩy tính minh bạch trong thiết kế và phát triển thuật toán. Các kỹ thuật AI có thể giải thích (XAI) có thể giúp hiểu cách một mô hình đưa ra quyết định, giúp xác định và sửa lỗi dễ dàng hơn.
  • Kiểm toán và giám sát thường xuyên: Kiểm toán và giám sát liên tục các hệ thống AI để phát hiện sai lệch. Điều này bao gồm việc thường xuyên đánh giá hiệu suất mô hình trên các tập dữ liệu đa dạng và cập nhật mô hình khi cần thiết để giải quyết bất kỳ sai lệch nào được xác định.
  • Khung AI đạo đức: Phát triển và tuân thủ các hướng dẫn đạo đức cho phát triển AI. Các tổ chức như IEEEĐối tác về AI cung cấp các khuôn khổ cho phát triển AI có trách nhiệm.

Sự thiên vị thuật toán so với các loại thiên vị khác

Trong khi thiên kiến thuật toán là một thuật ngữ rộng bao gồm nhiều dạng thiên kiến khác nhau trong các hệ thống AI, nó liên quan đến các loại thiên kiến cụ thể khác:

  • Thiên vị trong AI : Đây là thuật ngữ chung hơn bao gồm bất kỳ lỗi hệ thống hoặc độ lệch nào so với tính công bằng trong các hệ thống AI. Thiên vị thuật toán là một tập hợp con của danh mục rộng hơn này, tập trung cụ thể vào các thiên vị được nhúng trong thuật toán.
  • Dataset Bias : Điều này đề cập đến các sai lệch có trong dữ liệu được sử dụng để đào tạo các mô hình học máy. Sai lệch thuật toán thường là kết quả của sai lệch tập dữ liệu, vì các mô hình học từ dữ liệu mà chúng được cung cấp.

Bằng cách hiểu được những sắc thái của sự thiên vị thuật toán và mối quan hệ của nó với các loại thiên vị khác, các nhà phát triển và tổ chức có thể thực hiện các bước chủ động để xây dựng các hệ thống AI công bằng và bình đẳng hơn. Ultralytics cam kết thúc đẩy đạo đức AI và cung cấp các công cụ và tài nguyên để giúp giảm thiểu sự thiên vị trong các ứng dụng AI.

Đọc tất cả