Зелёная проверка
Ссылка копируется в буфер обмена

Исследование лучших датасетов компьютерного зрения в 2025 году

Присоединяйся к нам, чтобы поближе познакомиться с лучшими наборами данных компьютерного зрения 2025 года. Узнай, как разнообразные и качественные наборы данных способствуют созданию более умных решений в области искусственного зрения.

Знаешь ли ты, что данные играют роль практически во всем, что ты делаешь ежедневно? Просмотр видео, фотосъемка или проверка Google Maps вносят свой вклад в постоянный поток информации, которую фиксируют более 75 миллиардов подключенных устройств. Эти кусочки данных составляют основу искусственного интеллекта (ИИ). На самом деле, продвинутые модели компьютерного зрения, такие как Ultralytics YOLO11 опираются на визуальные данные для выявления закономерностей, интерпретации изображений и осмысления окружающего нас мира.

Интересно, что ценность данных заключается не только в их количестве. Гораздо важнее, насколько хорошо они организованы и подготовлены. Если набор данных беспорядочный или неполный, это может привести к ошибкам. Однако когда наборы данных чистые и разнообразные, они помогают моделям компьютерного зрения работать лучше, будь то распознавание объектов в толпе или анализ сложных визуальных образов. Качественные наборы данных делают всю разницу.

В этой статье мы изучим лучшие датасеты компьютерного зрения 2025 года и посмотрим, как они способствуют построению более точных и эффективных моделей компьютерного зрения. Давай приступим!

Что такое датасеты компьютерного зрения?

Набор данных компьютерного зрения - это коллекция изображений или видео, которые помогают системам компьютерного зрения научиться понимать и распознавать визуальную информацию. Эти наборы данных снабжены метками или аннотациями, которые помогают моделям распознавать объекты, людей, сцены и паттерны в данных.

Их можно использовать для обучения моделей компьютерного зрения, помогая им улучшать такие задачи, как распознавание лиц, обнаружение объектов или анализ сцен. Чем лучше набор данных - хорошо организованный, разнообразный и точный, - тем лучше работает модель искусственного зрения, что приводит к появлению более умных и полезных технологий в повседневной жизни.

Как создать набор данных компьютерного зрения

Создание набора данных компьютерного зрения похоже на подготовку учебных конспектов, чтобы научить кого-то видеть и понимать мир. Все начинается со сбора изображений и видео, которые соответствуют конкретному приложению, которое ты разрабатываешь. 

Идеальный набор данных включает в себя разнообразные примеры интересующих тебя объектов, снятых под разными углами, при различных условиях освещения, на разных фонах и в разных средах. Такое разнообразие гарантирует, что модель компьютерного зрения научится точно распознавать паттерны и будет надежно работать в реальных сценариях.

Рис. 1. Построение набора данных идеального зрения. Изображение автора.

После сбора соответствующих изображений и видео следующий шаг - маркировка данных. Этот процесс включает в себя добавление тегов, аннотаций или описаний к данным, чтобы ИИ мог понять, что содержит каждое изображение или видео. 

Метки могут включать названия объектов, их местоположение, границы или другие важные детали, которые помогают обучить модель точно распознавать и интерпретировать визуальную информацию. Маркировка данных превращает простую коллекцию изображений в структурированный набор данных, который можно использовать для обучения модели компьютерного зрения.

Для обучения модели требуются высококачественные данные

Тебе может быть интересно, что делает набор данных качественным. Здесь задействовано множество факторов, таких как точность маркировки, разнообразие и согласованность. Например, если несколько аннотаторов маркируют набор данных для обнаружения объектов, чтобы определить кошачьи уши, один может пометить их как часть головы, а другой - отдельно как уши. Такая несогласованность может сбить модель с толку и повлиять на ее способность к правильному обучению.

Вот краткий обзор качеств идеального набора данных для компьютерного зрения:

  • Четкие этикетки: Каждое изображение аккуратно аннотировано последовательными и точными метками.
  • Разнообразные данные: Набор данных включает в себя различные объекты, фоны, условия освещения и ракурсы, что помогает модели хорошо работать в различных ситуациях.
  • Изображения высокого разрешения: Четкие, детальные изображения облегчают модели обучение и распознавание особенностей.

Ultralytics поддерживает различные наборы данных

Модели Ultralytics YOLO , такие как YOLO11, созданы для работы с наборами данных в определенном формате файлов YOLO . Хотя ты можешь легко конвертировать свои собственные данные в этот формат, мы также предоставляем беззаботный вариант для тех, кто хочет начать экспериментировать прямо сейчас. 

ПакетUltralytics Python поддерживает широкий спектр наборов данных компьютерного зрения, что позволяет тебе без лишних настроек погрузиться в проекты, использующие такие задачи, как обнаружение объектов, сегментация экземпляров или оценка позы.  

Пользователи могут легко получить доступ к готовым наборам данных, таким как COCO, DOTA-v2.0, Open Images V7 и ImageNet, указав название набора данных в качестве одного из параметров в функции обучения. После этого набор данных будет автоматически загружен и предварительно настроен, и ты сможешь сосредоточиться на построении и совершенствовании своих моделей.

Топ-5 наборов данных компьютерного зрения в 2025 году

Достижения в области искусственного зрения опираются на разнообразные, масштабные наборы данных, которые стимулируют инновации и позволяют совершать прорывы. Давай посмотрим на некоторые из самых важных наборов данных, поддерживаемых Ultralytics, которые влияют на модели компьютерного зрения.

Набор данных ImageNet 

ImageNet, созданный Фей-Фей Ли и ее командой из Принстонского университета в 2007 году и представленный в 2009-м, - это большой набор данных, содержащий более 14 миллионов помеченных изображений. Он широко используется для обучения систем распознавания и категоризации различных объектов. Его структурированный дизайн делает его особенно полезным для обучения моделей точной классификации изображений. Несмотря на хорошую документированность, он в основном ориентирован на классификацию изображений, и в нем нет подробных аннотаций для таких задач, как обнаружение объектов. 

Вот взгляд на некоторые из ключевых достоинств ImageNet:

  • Разнообразие: Благодаря изображениям, охватывающим более 20 000 категорий, ImageNet предлагает обширный и разнообразный набор данных, который улучшает обучение и обобщение моделей.
  • Структурированная организация: Изображения тщательно классифицируются с помощью иерархии WordNet, что способствует эффективному поиску данных и систематическому обучению моделей. 
  • Исчерпывающая документация: Обширные исследования и годы изучения делают ImageNet доступным как для новичков, так и для экспертов, предоставляя ценные сведения и рекомендации для проектов по компьютерному зрению.

Однако, как и у любого набора данных, у него есть свои ограничения. Вот некоторые из проблем, которые следует учитывать:

  • Вычислительные требования: Его огромный размер может создать проблемы для небольших команд с ограниченными вычислительными ресурсами.
  • Отсутствие временных данных: Поскольку в ней содержатся только статичные изображения, она может не удовлетворить потребности приложений, требующих видео или данных, основанных на времени.
  • Устаревшие изображения: Некоторые изображения в наборе данных устарели и могут не отражать современные объекты, стили или окружение, что потенциально снижает их актуальность для современных приложений.

Набор данных DOTA-v2.0

Набор данных DOTA-v2.0, где DOTA расшифровывается как Dataset for Object Detection in Aerial Images, - это обширная коллекция аэрофотоснимков, созданная специально для обнаружения объектов по ориентированным ограничительным рамкам (OBB). При обнаружении OBB используются повернутые ограничительные рамки для более точного совмещения с реальной ориентацией объектов на изображении. Этот метод особенно хорошо подходит для аэрофотоснимков, на которых объекты часто появляются под разными углами, что приводит к более точной локализации и лучшему обнаружению в целом.

Этот набор данных состоит из более чем 11 000 изображений и более чем 1,7 миллиона ориентированных ограничительных рамок по 18 категориям объектов. Изображения имеют размер от 800×800 до 20 000×20 000 пикселей и включают в себя такие объекты, как самолеты, корабли и здания. 

Рис. 2. Примеры изображений и аннотаций из набора данных DOTA-v2.0. Изображение автора.

Благодаря своим подробным аннотациям DOTA-v2.0 стала популярным выбором для проектов по дистанционному зондированию и воздушному наблюдению. Вот некоторые ключевые особенности DOTA-v2.0:

  • Разнообразные категории объектов: Он охватывает множество различных типов объектов, таких как транспортные средства, гавани и резервуары для хранения, что позволяет моделям познакомиться с различными объектами реального мира.
  • Качественные аннотации: Эксперты-аннотаторы предоставили точно ориентированные ограничительные рамки, которые четко показывают формы и направления движения объектов.
  • Многомасштабные изображения: Набор данных включает в себя изображения разных размеров, что помогает моделям научиться обнаруживать объекты как в малых, так и в больших масштабах.

Хотя у DOTA-v2 много сильных сторон, вот некоторые ограничения, которые пользователи должны иметь в виду:

  • Дополнительные шаги загрузки: Из-за того, как ведется набор данных DOTA, DOTA-v2.0 требует дополнительных шагов по настройке. Тебе нужно сначала загрузить изображения DOTA-v1.0, а затем добавить дополнительные изображения и обновленные аннотации для DOTA-v2.0, чтобы завершить набор данных.
  • Сложные аннотации: Ориентированные ограничительные рамки могут потребовать дополнительных усилий для обработки во время обучения модели.
  • Ограниченная область применения: DOTA-v2 разработана для аэрофотоснимков, что делает ее менее полезной для общих задач обнаружения объектов за пределами этой области.

Набор данных Roboflow 100 

Набор данных Roboflow 100 (RF100) был создан компанией Roboflow при поддержке Intel. Его можно использовать для тестирования и определения того, насколько хорошо работают модели обнаружения объектов. Этот эталонный набор данных включает в себя 100 различных наборов данных, выбранных из более чем 90 000 публичных наборов данных. В нем более 224 000 изображений и 800 классов объектов из таких областей, как здравоохранение, аэрофотосъемка и игры. 

Вот несколько ключевых преимуществ использования RF100:

  • Широкий охват областей: В него входят наборы данных из семи областей, таких как медицинская визуализация, воздушные виды и подводная разведка. 
  • Стимулирует совершенствование моделей: Изменчивость и специфические проблемы в области RF100 выявляют пробелы в существующих моделях, что стимулирует исследования в направлении более адаптируемых и надежных решений для обнаружения объектов.
  • Единый формат изображений: Все изображения имеют размер 640х640 пикселей. Это помогает пользователям тренировать модели без необходимости подгонять размеры изображений.

Несмотря на свои сильные стороны, RF100 имеет и определенные недостатки, о которых следует помнить:

  • Ограничен в плане задач: RF100 предназначен для обнаружения объектов, поэтому он не может решать такие задачи, как сегментация или классификация.
  • Ориентированность на бенчмарки: RF100 в первую очередь предназначен для бенчмаркинга, а не для тренировки моделей для реальных приложений, поэтому его результаты могут не полностью соответствовать практическим сценариям развертывания.
  • Вариативность аннотаций: Так как RF100 объединяет наборы данных, собранные толпой, возможны несоответствия в качестве аннотаций и практике маркировки, что может повлиять на оценку и тонкую настройку модели.

Набор данных COCO (Common objects in context)

Набор данных COCO - один из самых распространенных наборов данных для компьютерного зрения, в котором представлено более 330 000 изображений с подробными аннотациями к ним. Он предназначен для обнаружения объектов, сегментации и создания подписей к изображениям, что делает его ценным ресурсом для многих проектов. Его подробные метки, включая ограничительные рамки и маски сегментации, помогают системам научиться точно анализировать изображения.

Этот набор данных известен своей гибкостью и полезен для решения различных задач, от простых до сложных проектов. Он стал стандартом в области Vision AI, часто используется в задачах и соревнованиях для оценки эффективности моделей.

К числу его сильных сторон относятся:

  • Разнообразные и реалистичные данные: Набор данных включает в себя изображения из реальных сценариев с множеством объектов, окклюзиями и разнообразными условиями освещения.
  • Сильная поддержка сообщества и исследований: Набор данных COCO используется в крупных соревнованиях по машинному обучению и исследованиях, имеет обширную документацию, предварительно обученные модели и активную поддержку сообщества.
  • Богатые и подробные аннотации: Набор данных COCO содержит очень подробные аннотации, включая сегментацию объектов, ключевые точки и подписи, что делает его идеальным для проектов, требующих точного визуального понимания.

Вот несколько ограничивающих факторов, о которых тоже следует знать:

  • Высокие вычислительные требования: Из-за своего размера и сложности обучение моделей на COCO может потребовать значительных вычислительных ресурсов, что делает его сложным для команд с ограниченным количеством оборудования.
  • Дисбаланс данных: Некоторые категории объектов имеют значительно больше изображений, чем другие, что может привести к смещению при обучении модели.
  • Сложная структура аннотаций: Подробные аннотации набора данных, несмотря на их ценность, могут оказаться непосильными для новичков или небольших команд, у которых нет опыта работы со структурированными наборами данных Vision AI.

Набор данных Open Images V7

Open Images V7 - это массивный набор данных с открытым исходным кодом, курируемый Google и содержащий более 9 миллионов изображений с аннотациями для 600 категорий объектов. Она включает в себя множество типов аннотаций и идеально подходит для решения сложных задач компьютерного зрения. Его масштаб и глубина обеспечивают всеобъемлющий ресурс для обучения и тестирования моделей компьютерного зрения.

Рис. 3. Взгляд на набор данных Open Images V7. Изображение автора.

Кроме того, популярность набора данных Open Images V7 в научных исследованиях обеспечивает множество ресурсов и примеров, на которых пользователи могут учиться. Однако его огромный размер может сделать загрузку и обработку трудоемкой, особенно для небольших команд. Еще одна проблема заключается в том, что некоторые аннотации могут быть непоследовательными, что требует дополнительных усилий для очистки данных, а интеграция не всегда проходит гладко, поэтому может потребоваться дополнительная подготовка. 

Выбор правильного набора данных 

Выбор правильного набора данных - важная составляющая успеха твоего проекта по компьютерному зрению. Лучший выбор зависит от твоей конкретной задачи - поиск подходящего набора поможет твоей модели приобрести нужные навыки. Кроме того, она должна легко интегрироваться с твоими инструментами, чтобы ты мог больше сосредоточиться на построении модели и меньше - на устранении неполадок.

Рис. 4. Факторы для выбора правильного набора данных. Изображение автора.

Основные выводы

Качественные наборы данных являются основой любой модели компьютерного зрения, помогая системам научиться точно интерпретировать изображения. Разнообразные и хорошо проаннотированные наборы данных особенно важны, так как они позволяют моделям надежно работать в реальных сценариях и уменьшают количество ошибок, вызванных ограниченными или некачественными данными.

Ultralytics упрощает процесс доступа к наборам данных компьютерного зрения и работы с ними, облегчая поиск нужных данных для твоего проекта. Выбор правильного набора данных - важнейший шаг в построении высокопроизводительной модели, приводящий к более точным и впечатляющим результатам.

Присоединяйся к нашему сообществу и изучай наш репозиторий на GitHub, чтобы узнать больше об искусственном интеллекте. Открой для себя такие достижения, как компьютерное зрение в здравоохранении и ИИ в самодвижущихся автомобилях, на страницах наших решений. Ознакомься с нашими вариантами лицензирования и сделай первый шаг к тому, чтобы начать работать с компьютерным зрением уже сегодня!

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения