Глоссарий

Увеличение объема данных

Повысь производительность модели с помощью расширения данных. Улучшай обобщение, уменьшай перебор и расширяй наборы данных без особых усилий. Открой для себя мощные техники!

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Дополнение данных - это техника, используемая в машинном обучении для увеличения разнообразия обучающих данных без сбора новых. Она подразумевает создание модифицированных версий существующих точек данных, что помогает улучшить производительность модели за счет уменьшения перебора и повышения обобщения. Эти модификации могут включать в себя такие преобразования, как поворот, масштабирование, перевод, переворачивание и изменение цвета, применимые к изображениям, тексту или другим формам данных.

Важность и преимущества

Дополнение данных играет важнейшую роль в разработке надежных моделей машинного обучения. Оно помогает в:

  • Повышение обобщенности моделей: Подвергая модели различным версиям обучающих данных, увеличение данных помогает им изучать более обобщенные характеристики, улучшая их производительность на невидимых данных.
  • Снижение оверфиттинга: Дополнительные разнообразные данные уменьшают склонность моделей к запоминанию тренировочных данных, тем самым минимизируя оверфиттинг.
  • Расширение ограниченных данных: Для приложений с ограниченным количеством исходных данных аугментация - это эффективный способ расширить размер набора данных без дополнительных усилий по сбору информации.

Техники наращивания данных

Для увеличения данных можно использовать несколько техник, в том числе:

  • Геометрические преобразования: Такие корректировки, как поворот, переворот, обрезка и масштабирование, изменяют ориентацию или размер изображений, сохраняя при этом их содержимое.
  • Преобразования цветового пространства: Изменение яркости, контрастности, насыщенности и оттенка может помочь моделям стать инвариантными к условиям освещения.
  • Случайное стирание: Частично окклюдируй изображения, случайным образом маскируя участки, побуждая модели сосредоточиться на всем контексте изображения.
  • MixUp: Комбинируя два изображения и их метки в наборе данных, ты побуждаешь модель обучаться на комбинированных признаках , используя методы увеличения изображения.

Применение в реальном мире AI/ML

Увеличение данных широко используется в различных областях, включая:

  • Здравоохранение: Приложения для создания медицинских изображений, такие как диагностика заболеваний по снимкам МРТ, получают значительную выгоду от дополнения данных, справляясь с ограниченной доступностью маркированных данных ИИ в здравоохранении.
  • Самоуправляемые автомобили: Автономным автомобилям требуются разнообразные тренировочные данные, чтобы справиться с огромным количеством условий, встречающихся на дороге. Увеличение данных помогает моделировать различные условия освещения и перспективы ИИ в самостоятельном вождении.

Отличие дополнения данных от смежных понятий

  • Дополнение данных против синтетической генерации данных: Аугментация данных генерирует новые экземпляры данных, применяя преобразования к существующим данным, а синтетическая генерация данных создает совершенно новые экземпляры данных, используя такие модели, как GANs (Generative Adversarial Networks) , откройте для себя GANs в ИИ.
  • Дополнение данных против трансферного обучения: Трансферное обучение фокусируется на использовании предварительно обученных моделей для использования предыдущих знаний в новых задачах, в то время как увеличение данных обогащает разнообразие самих обучающих данных Узнай о трансферном обучении.

Инструменты и технологии

Популярные библиотеки и фреймворки поддерживают увеличение данных в AI/ML-проектах, например:

Реализация дополнения данных

Реализовать увеличение данных можно с помощью таких платформ, как Ultralytics HUB, упрощающих процесс за счет интуитивно понятных инструментов для создания обогащенных наборов данных без интенсивных усилий по кодированию вручную.

В заключение хочу сказать, что увеличение данных - это необходимая техника в современных рабочих процессах ИИ/МЛ, способствующая созданию более точных и эффективных моделей. Она особенно важна в сценариях, где данных мало или их сбор обходится дорого, что позволяет разрабатывать ИИ-решения в различных отраслях, повышая их надежность и производительность.

Читать полностью