Глоссарий

Предвзятое отношение к данным

Узнай, как выявить и смягчить предвзятость наборов данных в ИИ, чтобы обеспечить справедливые, точные и надежные модели машинного обучения для реальных приложений.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Предвзятость набора данных - критическая проблема в машинном обучении (ML), когда данные, используемые для обучения модели, систематически не отражают разнообразие и сложность реальной среды, в которой будет развернута модель. Это несоответствие возникает из-за недостатков в процессах сбора, выборки или аннотирования данных. Как следствие, модели, обученные на предвзятых наборах данных, могут показывать хорошие результаты в метриках оценки на аналогичных данных, но демонстрировать плохую обобщенность, неточность и несправедливость при применении к новым, невиданным данным или различным демографическим группам. Решение проблемы предвзятости наборов данных очень важно для создания надежных, эффективных и справедливых систем ИИ, что подчеркивается в дискуссиях на тему "Предвзятость в ИИ".

Типы предвзятости данных

В наборы данных может проникать несколько видов предвзятости, что приводит к искажению результатов моделирования. Понимание этих типов - первый шаг к их устранению:

  • Предвзятость отбора: возникает, когда в процессе сбора данных предпочтение отдается определенным подмножествам данных, а не другим, что приводит к нерепрезентативной выборке. Например, если собирать данные о трафике только в определенные часы, то можно не заметить закономерности в другое время.
  • Предвзятость выборки: особый вид предвзятости отбора, когда собранная выборка не совсем точно отражает пропорции целевой популяции. Использование неслучайных методов выборки часто может стать причиной этого.
  • Предвзятость измерений: возникает из-за неточностей или несоответствий на этапе измерения или аннотирования данных. Это может быть связано с неисправными датчиками или субъективными несоответствиями в маркировке данных, выполненной разными аннотаторами.
  • Предвзятость меток: возникает, когда метки, присвоенные точкам данных, субъективны, непоследовательны или отражают неявные предубеждения аннотаторов, на которые потенциально могут повлиять такие факторы, как объяснение Confirmation Bias.
  • Ошибка репрезентации: случается, когда набор данных недопредставляет определенные группы или атрибуты, присутствующие в реальном мире, что приводит к тому, что модель плохо работает для этих групп.

Реальные примеры предвзятого отношения к данным

Предвзятость набора данных может иметь значительные последствия в реальном мире для различных приложений:

  1. Системы распознавания лиц: Многие ранние системы распознавания лиц обучались на наборах данных, в которых преобладали светлокожие мужские лица. В результате эти системы часто демонстрировали значительно более низкую точность при идентификации лиц с темным оттенком кожи или женских лиц, что было зафиксировано в исследовании NIST, посвященном демографическим эффектам в распознавании лиц.
  2. Анализ медицинских изображений: Модель искусственного интеллекта, предназначенная для выявления рака кожи, может быть обучена в основном на изображениях светлокожих людей. Если ее развернуть на разнообразной популяции, то она может оказаться неспособной точно обнаружить злокачественные опухоли у людей с темным цветом кожи из-за отсутствия репрезентативных изображений в обучающих данных, что подчеркнет проблемы предвзятости в исследованиях медицинского ИИ и повлияет на эффективность использования ИИ в здравоохранении.

Выявление и смягчение предвзятости данных

Выявление необъективности набора данных предполагает тщательный анализ источника данных, методов сбора, распределения признаков и меток. Среди методов - исследовательский анализ данных, статистические тесты, сравнивающие показатели подгрупп, и визуализация данных для выявления дисбаланса.

Как только они будут выявлены, стратегии смягчения последствий будут включать в себя:

  • Сбор более репрезентативных данных: Расширь усилия по сбору данных, чтобы включить в них недопредставленные группы и сценарии.
  • Дополнение данных: Применение таких техник, как поворот, обрезка или изменение цвета изображения, с помощью инструментов, интегрированных в такие модели, как Ultralytics YOLO , может помочь увеличить разнообразие данных, как подробно описано в глоссарии "Дополнение данных".
  • Техники повторной выборки: Корректировка набора данных путем перевыбора классов меньшинств или недовыбора классов большинства.
  • Алгоритмические техники справедливости: Реализация алгоритмов, направленных на обеспечение справедливости во время обучения модели или ее постобработки. Такие инструменты, как AI Fairness 360 Toolkit (IBM Research), предлагают ресурсы для этого.
  • Использование разнообразных эталонных наборов данных: Оценивай модели на стандартизированных эталонных наборах данных, известных своим разнообразием.

Смежные понятия

Предвзятость массива данных тесно связана с несколькими другими важными понятиями в ИИ:

  • Алгоритмическая предвзятость: если предвзятость набора данных проистекает из самих данных, то алгоритмическая предвзятость проистекает из дизайна модели или процесса обучения, который может усиливать существующие предвзятости или привносить новые.
  • Справедливость в ИИ: эта область фокусируется на разработке систем ИИ, которые справедливо относятся к отдельным людям и группам, что часто предполагает измерение и смягчение предвзятости наборов данных и алгоритмов.
  • Этика ИИ: Предвзятость баз данных - одна из главных этических проблем, так как предвзятые модели могут увековечить дискриминацию и вред. Более широкие этические рамки служат руководством для ответственной разработки ИИ, за которую выступают такие организации, как Partnership on AI (PAI).
  • Объяснимый искусственный интеллект (XAI): Техники, которые делают предсказания моделей более прозрачными, могут помочь определить, влияют ли на результаты предубеждения в наборе данных.

Понимание и активное решение проблемы предвзятости наборов данных, о которой говорится в таких ресурсах, как блог Understanding AI Bias и Responsible AI PracticesGoogle, имеет решающее значение для создания надежных систем искусственного интеллекта. Исследования и ресурсы таких организаций, как Microsoft Responsible AI Resources и ACM Conference on Fairness, Accountability, and Transparency (FAccT), продолжают совершенствовать методы решения этой проблемы.

Читать полностью