Глоссарий

ImageNet

Открой для себя ImageNet - революционный набор данных, способствующий прогрессу в области компьютерного зрения и содержащий более 14 миллионов изображений, что позволяет проводить исследования, модели и приложения в области искусственного интеллекта.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

ImageNet - это очень большой, основополагающий набор данных, широко используемый в исследованиях и разработках в области компьютерного зрения (КЗ). Он состоит из более чем 14 миллионов изображений, которые были вручную аннотированы, чтобы указать, какие объекты изображены на них, и организованы в соответствии с иерархией WordNet. Имея более 20 000 категорий (синсетов), ImageNet представляет собой богатый и разнообразный ресурс для обучения и оценки моделей машинного обучения (ML), особенно для таких задач, как классификация изображений и распознавание образов. Его огромные масштабы и подробные аннотации сыграли решающую роль в развитии этой области. Подробнее об использовании набора данных с моделями Ultralytics ты можешь узнать на странице документации по ImageNet Dataset.

Значимость и актуальность

Появление ImageNet стало поворотным моментом для глубокого обучения (ГОО), особенно в компьютерном зрении. До появления ImageNet отсутствие больших, разнообразных и хорошо маркированных наборов данных было основным узким местом. ImageNet позволил обучать гораздо более глубокие и сложные модели, такие как конволюционные нейронные сети (CNN), что привело к значительным прорывам. Ежегодный конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC), который проводился с 2010 по 2017 год, использовал подмножество ImageNet и стал стандартным эталоном для оценки алгоритмов классификации изображений и обнаружения объектов. Такие модели, как AlexNet и ResNet, которые достигли передовых результатов на ImageNet, сильно повлияли на современные архитектуры CV.

Применение ImageNet

Основное применение ImageNet - служить стандартным эталоном для оценки новых моделей и алгоритмов компьютерного зрения. Помимо бенчмарков, он широко используется для предварительного обучения моделей.

  • Предварительное обучение для трансферного обучения: Модели, обученные на ImageNet, изучают общие визуальные особенности, которые полезны для широкого спектра других задач по зрению. Эта техника, известная как трансферное обучение, позволяет разработчикам адаптировать предварительно обученные модели (например, те, что доступны в Ultralytics HUB) для конкретных приложений, используя гораздо меньшие, пользовательские наборы данных, что значительно сокращает время обучения и требования к данным. Многие Ultralytics YOLO например, используют веса, предварительно обученные на больших наборах данных.
  • Продвижение исследований: ImageNet продолжает подпитывать исследования в таких областях, как обучение представлениям, адаптация к домену и понимание внутренней работы глубоких нейронных сетей.

Примеры из реальной жизни

  1. Анализ медицинских изображений: Хотя ImageNet не содержит медицинских изображений, модели, предварительно обученные на нем, часто используются в качестве отправной точки для задач по анализу медицинских изображений. Общие возможности извлечения признаков, полученные на ImageNet, могут быть отточены на небольших наборах данных рентгеновских снимков, КТ или МРТ, чтобы помочь обнаружить такие аномалии, как опухоли или переломы, что и было продемонстрировано в таких приложениях, как использование YOLO для обнаружения опухолей.
  2. Автономные транспортные средства: Модели распознавания объектов являются основополагающими для автономных транспортных средств. Многие из основополагающих моделей, используемых для распознавания пешеходов, автомобилей, светофоров и дорожных знаков, были изначально разработаны и протестированы с помощью ImageNet, что доказывает роль этого набора данных в создании систем восприятия для ИИ в самоуправляемых автомобилях.

ImageNet по сравнению с другими наборами данных

В то время как ImageNet обширен и отлично подходит для задач классификации, другие наборы данных служат другим целям. Например, набор данных COCO (Common Objects in Context) широко используется для обнаружения объектов, сегментации и создания надписей, предлагая более подробные аннотации, такие как маски экземпляров и ограничительные рамки для меньшего количества категорий объектов по сравнению с ImageNet. Аналогично, Open Images V7 предоставляет ограничительные рамки для большого количества классов объектов. Выбор набора данных часто зависит от конкретной задачи компьютерного зрения, такой как классификация, обнаружение или сегментация. Изучение различных наборов данных компьютерного зрения помогает выбрать наиболее подходящий для проекта.

Читать полностью