Зелёная проверка
Ссылка копируется в буфер обмена

Понимание предвзятости ИИ и предвзятости наборов данных в системах ИИ зрения

Узнай, как смещение наборов данных влияет на модели компьютерного зрения и как Ultralytics YOLO11 помогает уменьшить смещение с помощью умного дополнения и гибких инструментов обучения.

Модели искусственного интеллекта (ИИ) меняют наши способы решения проблем, но они не идеальны. От самоуправляемых автомобилей до диагностических инструментов в здравоохранении- мы полагаемся на ИИ, чтобы интерпретировать данные и принимать решения. Что происходит, когда сами данные оказываются несовершенными?

Под предвзятостью в искусственном интеллекте понимаются модели несоответствия, которые развиваются в моделях, зачастую никто этого не осознает. Эти предубеждения могут привести к тому, что модели будут делать неточные, непоследовательные или даже вредные прогнозы. В компьютерном зрении предвзятость обычно связана с одним ключевым источником: набором данных. Если данные, используемые для обучения модели, несбалансированы или нерепрезентативны, то модель будет отражать эти пробелы.

Давай подробнее рассмотрим, как формируется предвзятость набора данных, как она влияет на модели компьютерного зрения и какие шаги могут предпринять разработчики для ее обнаружения и предотвращения. Мы также покажем, как такие модели, как Ultralytics YOLO11 могут поддержать усилия по созданию более справедливых систем ИИ, которые лучше обобщают, то есть хорошо работают с новыми, невиданными данными и обслуживают всех более одинаково.

Что такое предвзятость ИИ и почему она имеет значение?

Под предвзятостью ИИ понимаются постоянные ошибки в системе ИИ, которые приводят к искаженным или неточным результатам. Проще говоря, модель начинает отдавать предпочтение одному типу визуального ввода перед другими, что влияет на справедливость модели, но не потому, что она работает лучше, а скорее из-за того, как ее обучали.

Это особенно часто встречается в компьютерном зрении, где модели обучаются на основе визуальных данных. Если набор данных включает в себя в основном один вид объектов, сцен или людей, то модель обучается паттернам, которые хорошо работают только в этих случаях.

Представь себе модель, обученную в основном на изображениях дорожного движения в больших городах. Если развернуть ее в сельской местности, она может неправильно классифицировать необычные дорожные разметки или не обнаружить типы автомобилей, которые она никогда раньше не видела. Это и есть предвзятость ИИ в действии. Оно приводит к снижению точности и ограничению обобщения, под которым понимается способность модели хорошо работать на новых или разнообразных исходных данных.

В приложениях, где точность очень важна, например в здравоохранении или безопасности, такие ошибки не просто расстраивают, они могут быть опасны. Устранение предвзятости - это производительность, надежность и безопасность.

Как предвзятость набора данных влияет на поведение модели

Когда мы говорим о предвзятости набора данных, мы имеем в виду дисбаланс или ограниченность данных, используемых для обучения модели. Предвзятость датасета возникает, когда обучающие данные неадекватно отражают разнообразие реального мира, которое они призваны моделировать.

Модели компьютерного зрения не понимают мир. Они понимают закономерности. Если единственные изображения собак, которые они видят, - это золотистые ретриверы во дворах, они могут не распознать хаски на заснеженной тропе.

Рис. 1. Перевзвешивание исходных данных помогает добиться большей точности модели.

Это подчеркивает одну из главных проблем, вызванных необъективностью набора данных. Модель строит свое понимание на основе того, что ей показывают. Если эти обучающие данные не отражают реального разнообразия, поведение модели становится узким и менее эффективным в незнакомых условиях.

Классификаторы изображений часто работают значительно хуже, когда тестируются на наборе данных, отличном от того, на котором они обучались, даже если оба набора данных созданы для одной и той же задачи. Небольшие изменения в освещении, фоне или ракурсе камеры могут привести к заметному падению точности. Это показывает, как легко смещение набора данных может повлиять на способность модели к обобщению.

Это не крайние случаи. Это сигналы о том, что твой конвейер данных имеет такое же значение, как и архитектура модели.

Виды предвзятости в обучающих данных ИИ

Предвзятость может проявляться в процессе разработки едва заметными способами, часто во время сбора данных, маркировки или курирования. Ниже перечислены три основных типа предвзятости, которые могут повлиять на твои тренировочные данные:

Предвзятость отбора

Ошибка выбора может произойти, когда набор данных не представляет всего многообразия, встречающегося в реальном мире. Если модель обнаружения пешеходов обучена только на ясных дневных изображениях, она не будет хорошо работать ночью или в тумане. Таким образом, в процессе отбора были упущены важные случаи.

Рис. 2. Визуальное представление предвзятости отбора, когда выбирается только неразнообразное подмножество.

Такое смещение происходит, когда набор данных не отражает весь спектр реальных сценариев из-за того, как собирались данные. Например, модель обнаружения пешеходов, обученная только на ясных дневных изображениях, может потерпеть неудачу в тумане, снегу или при слабом освещении. Такое часто происходит, когда данные собираются в идеальных или удобных условиях, что ограничивает способность модели работать в различных условиях. Расширение усилий по сбору данных для включения в них более разнообразных условий помогает уменьшить подобную погрешность.

Это также может возникнуть в наборах данных, созданных на основе онлайн-источников, где контент может быть сильно перекошен в сторону определенных мест, языков или социально-экономических условий. Если не предпринимать целенаправленных усилий по диверсификации набора данных, модель унаследует эти ограничения.

Пристрастие к ярлыкам

Предвзятое отношение к меткам возникает, когда человеческие аннотаторы накладывают неправильные или непоследовательные метки. Неправильная метка может показаться безобидной, но если это происходит часто, то модель начинает обучаться неправильным ассоциациям.

Непоследовательные метки могут сбить модель с толку во время обучения, особенно в таких сложных задачах, как обнаружение объектов. Например, один аннотатор может обозначить транспортное средство как "легковой автомобиль", а другой - как "грузовик". Такие несоответствия влияют на способность модели к обучению надежным паттернам, что приводит к снижению точности при умозаключениях.

Рис. 3. Предвзятость в конвейерах данных возникает из-за дисбаланса реального мира.

Предвзятость маркировки также может возникнуть из-за нечетких рекомендаций по аннотированию или различных интерпретаций одних и тех же данных. Создание хорошо задокументированных стандартов маркировки и проведение проверок контроля качества может значительно уменьшить эти проблемы.

Постоянное обучение аннотаторов и использование консенсусной маркировки, когда несколько аннотаторов просматривают каждый образец, - две эффективные стратегии для минимизации смещения меток и улучшения качества наборов данных.

Предвзятое отношение к представителям

Предвзятость репрезентативности часто отражает более широкое общественное неравенство. Данные, собранные в более богатых или связанных между собой регионах, могут не отражать разнообразие менее представленных групп населения или окружения. Для решения этой проблемы необходимо намеренное включение в данные групп и контекстов, которые не учитываются.

Предвзятость репрезентации случается, когда определенные группы или классы недопредставлены в наборе данных. Это могут быть демографические группы, категории объектов или условия окружающей среды. Если модель видит только один тон кожи, один тип объектов или один стиль фона, то ее предсказания будут отражать этот дисбаланс.

Мы можем наблюдать этот тип смещения, когда определенные группы или категории включены в модель в гораздо меньшем количестве, чем другие. Это может исказить предсказания модели в сторону доминирующих примеров в наборе данных. Например, модель распознавания лиц, обученная в основном на одной демографической группе, может не справиться с точными предсказаниями для всех пользователей. В отличие от предвзятости отбора, которая связана с разнообразием данных, предвзятость представления касается баланса между группами.

Аудит разнообразия и стратегии целенаправленного расширения данных могут помочь убедиться, что все соответствующие демографические группы и категории должным образом представлены во всем наборе данных для тренировок.

Как обнаружить и смягчить предвзятость набора данных

В реальном мире предвзятость ИИ означает не только несколько неверных предсказаний. Она может привести к тому, что системы будут хорошо работать для некоторых людей, но не для всех.

В автомобильном ИИ модели обнаружения могут показывать несоответствующие результаты для разных групп пешеходов, что приводит к снижению безопасности для недостаточно представленных людей. Дело не в намерениях модели. Дело в визуальных данных, на которых она обучалась. Даже в сельском хозяйстве предвзятость в обнаружении объектов может означать плохую идентификацию культур при разном освещении или погодных условиях. Это обычные последствия обучения моделей на ограниченных или несбалансированных наборах данных. 

Исправление предвзятости ИИ начинается со знания того, где искать. Если в твоем обучающем наборе не хватает ключевых примеров или они чрезмерно представлены в узком диапазоне, твоя модель будет отражать эти пробелы. Именно поэтому обнаружение предвзятости в ИИ - критически важный этап в каждом конвейере разработки.

Рис. 4. Основные шаги по снижению предвзятости ИИ и повышению справедливости.

Начни с анализа своего набора данных. Посмотри на распределение по классам, окружению, освещению, масштабам объектов и демографическим характеристикам. Если одна категория доминирует, то твоя модель, скорее всего, не справится с остальными.

Далее обрати внимание на производительность. Работает ли модель хуже в определенных условиях или для определенных типов объектов? Если да, то это признак выученной предвзятости, и обычно он указывает обратно на данные.

Оценка на уровне срезов - ключевой момент. Модель может показывать 90 % точности в среднем, но только 60 % в определенной группе или состоянии. Не проверив эти срезы, ты никогда не узнаешь об этом.

Использование метрик справедливости во время обучения и оценки - еще один мощный инструмент. Эти метрики выходят за рамки стандартных показателей точности и оценивают, как модель ведет себя на разных подмножествах данных. Они помогают выявить "слепые пятна", которые в противном случае могут остаться незамеченными.

Прозрачность в составлении наборов данных и тестировании моделей приводит к созданию лучших моделей.

Улучшение справедливости с помощью разнообразия и дополнения данных

Как только ты выявил предвзятость, следующий шаг - устранить этот пробел. Один из самых эффективных способов сделать это - увеличить разнообразие данных в моделях ИИ. Это означает сбор большего количества образцов из недопредставленных сценариев, будь то медицинские снимки из разных популяций или необычные условия окружающей среды.

Добавление дополнительных данных может быть ценным, особенно если это увеличивает разнообразие. Однако повышение справедливости также зависит от сбора правильных примеров. Они должны отражать реальные вариации, с которыми может столкнуться твоя модель.

Дополнение данных - еще одна ценная стратегия. Переворачивание, вращение, регулировка освещения и масштабирование объектов могут помочь смоделировать различные реальные условия. Дополнение не только увеличивает разнообразие наборов данных, но и помогает модели стать более устойчивой к изменениям внешнего вида, освещения и контекста.

Большинство современных тренировочных конвейеров включают аугментацию по умолчанию, но стратегическое использование, например, фокусировка на корректировке в зависимости от потребностей конкретной задачи, - вот что делает ее эффективной для справедливости.

Использование синтетических данных для заполнения пробелов

Синтетические данные - это искусственно сгенерированные данные, которые имитируют реальные примеры. Это может быть полезным инструментом, когда определенные сценарии слишком редки или слишком чувствительны, чтобы их можно было зафиксировать в естественных условиях.

Например, если ты строишь модель для обнаружения редких дефектов в технике или экстремальных нарушений правил дорожного движения, ты можешь смоделировать эти случаи с помощью синтетических данных. Это даст твоей модели возможность учиться на событиях, которые могут нечасто встречаться в твоем обучающем наборе.

Исследования показали, что введение целевых синтетических данных в процесс обучения может уменьшить предвзятость наборов данных и улучшить производительность в разных демографических группах и средах.

Синтетические данные лучше всего работают в паре с реальными образцами. Они дополняют твой набор данных; они не заменяют его.

Как YOLO11 поддерживает этичный искусственный интеллект

Построение несмещенных моделей ИИ также зависит от инструментов, которые ты используешь. YOLO11 разработан как гибкий, легко настраиваемый и хорошо адаптируемый инструмент, поэтому он отлично подходит для уменьшения погрешности наборов данных.

YOLO11 поддерживает продвинутые техники дополнения данных при обучении модели, которые вводят разнообразные контексты изображений и смешанные примеры для улучшения обобщения модели и уменьшения избыточной подгонки.

YOLO11 также имеет улучшенную архитектуру позвоночника и шеи для более эффективного извлечения признаков. Эта модернизация повышает способность модели обнаруживать мелкие детали, что крайне важно в малопредставленных или краевых сценариях, где стандартные модели могут испытывать трудности.

Поскольку YOLO11 легко переучивать и разворачивать в пограничных и облачных средах, команды могут выявлять недостатки в производительности и быстро обновлять модель, когда в полевых условиях обнаруживается смещение.

Справедливый ИИ - это не одноразовая цель. Это цикл оценки, обучения и корректировки. Такие инструменты, как YOLO11 , помогают сделать этот цикл более быстрым и продуктивным.

Основные выводы

Предвзятость ИИ влияет на все - от справедливости до производительности. Предвзятость в компьютерном зрении часто связана с тем, как собираются, маркируются и балансируются наборы данных. К счастью, существуют проверенные способы ее обнаружения и смягчения.

Начни с аудита своих данных и тестирования производительности модели в различных сценариях. Используй целенаправленный сбор данных, дополнения и синтетические данные, чтобы создать лучший тренировочный охват.

YOLO11 поддерживает этот рабочий процесс, облегчая обучение пользовательских моделей, применяя сильные методы дополнения и быстро реагируя при обнаружении предвзятости.

Создание честного ИИ - это не просто правильное решение. Это еще и способ построить более умные и надежные системы.

Присоединяйся к нашему растущему сообществу! Изучи наш репозиторий на GitHub, чтобы узнать больше об искусственном интеллекте. Готов начать собственные проекты по компьютерному зрению? Ознакомься с нашими вариантами лицензирования. Открой для себя ИИ в производстве и ИИ зрения в сельском хозяйстве, посетив страницы наших решений! 

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения