Изучите причины смещения наборов данных в ИИ и узнайте, как уменьшить искажение. Узнайте, как использовать Ultralytics и Ultralytics для повышения справедливости.
Смещение набора данных возникает, когда информация, используемая для обучения моделей машинного обучения (ML), содержит систематические ошибки или искаженные распределения, в результате чего система ИИ предпочитает определенные результаты другим. Поскольку модели функционируют как механизмы распознавания образов, они полностью зависят от входных данных; если данные для обучения не точно отражают разнообразие реальной среды, модель унаследует эти «слепые пятна». Это явление часто приводит к плохой обобщаемости, когда ИИ может достигать высоких результатов во время тестирования, но значительно проваливается при развертывании для вывода в реальном времени в разнообразных или неожиданных сценариях.
Предвзятость может проникнуть в набор данных на нескольких этапах жизненного цикла разработки, часто в результате человеческих решений во время сбора или аннотирования.
Влияние смещения наборов данных является значительным в различных отраслях, особенно там, где автоматизированные системы принимают важные решения или взаимодействуют с физическим миром.
В автомобильной промышленности ИИ в автомобилестроении полагается на камеры для идентификации пешеходов и препятствий. Если самоуправляемый автомобиль обучен в основном на данных, собранных в солнечной и сухой погоде, он может продемонстрировать снижение производительности при эксплуатации в снег или сильный дождь. Это классический пример того, как распределение обучения не соответствует распределению эксплуатации, что приводит к рискам для безопасности.
Аналогичным образом, при анализе медицинских изображений диагностические модели часто обучаются на исторических данных о пациентах. Если модель, предназначенная для detect заболеваний, обучается на наборе данных, в котором преобладают более светлые оттенки кожи, она может демонстрировать значительно более низкую точность при диагностике пациентов с более темной кожей. Для решения этой проблемы необходимы совместные усилия по созданию разнообразных наборов данных, которые обеспечат справедливость ИИ во всех демографических группах.
Разработчики могут уменьшить смещение наборов данных, применяя строгий аудит и передовые стратегии обучения. Такие методы, как увеличение объема данных, помогают сбалансировать наборы данных путем искусственного создания вариаций недопредставленных примеров (например, переворачивание, поворот или регулировка яркости). Кроме того, генерация синтетических данных может восполнить пробелы в тех случаях, когда реальных данных мало или их трудно собрать.
Эффективное управление этими наборами данных имеет решающее значение. Ultralytics позволяет командам визуализировать распределение классов и выявлять дисбалансы до начала обучения. Кроме того, соблюдение таких руководящих принципов, как NIST AI Risk Management Framework, помогает организациям структурировать свой подход к систематическому выявлению и снижению этих рисков.
Чтобы понять, откуда берется ошибка, полезно отличать смещение набора данных от похожих терминов:
Следующий пример демонстрирует, как применять аугментацию данных во время обучения с помощью YOLO26. Благодаря увеличению геометрических аугментаций модель учится лучше обобщать, что потенциально снижает смещение в сторону конкретных ориентаций или положений объектов, встречающихся в наборе обучающих данных.
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)