Откройте для себя классификацию изображений с помощью Ultralytics YOLO: обучайте пользовательские модели для здравоохранения, сельского хозяйства, розничной торговли и других с помощью передовых инструментов.
Классификация изображений - это фундаментальная задача компьютерного зрения (КВ), которая заключается в присвоении всему изображению одной конкретной метки из заранее определенного набора категорий. Основная цель - определить основной объект изображения и классифицировать его соответствующим образом. Например, модель классификации анализирует изображение и выдает метку "кошка", "собака" или "автомобиль". Эта задача лежит в основе многих более сложных приложений CV и является основным компонентом машинного обучения (ML). В этом процессе используются алгоритмы, в первую очередь конволюционные нейронные сети (CNN), для изучения отличительных признаков на основе больших наборов данных с метками.
Модели классификации изображений обучаются с помощью контролируемого обучения, когда им подается огромное количество изображений, которые уже были вручную помечены на нужный класс. В процессе обучения нейронная сеть учится определять узоры, текстуры, формы и цветовые сочетания, связанные с каждой категорией. Это обучение достигается с помощью процесса, называемого обратным распространением, который регулирует внутренние параметры модели, или веса, чтобы минимизировать разницу между ее прогнозами и реальными метками.
Современные модели классификации часто используют архитектуры глубокого обучения с большим количеством слоев. Ранние слои могут научиться распознавать простые признаки, такие как края и углы, а более глубокие слои объединяют их для определения более сложных структур, таких как глаза, колеса или лица. Последний слой сети обычно использует функцию softmax для получения оценки вероятности для каждого возможного класса. Класс с наибольшей вероятностью выбирается в качестве окончательного прогноза. Ключевым моментом в этом процессе является извлечение признаков, когда модель автоматически обучается наиболее информативным признакам для задачи классификации.
Классификация изображений используется во многих отраслях промышленности для автоматизации и масштабирования задач визуального распознавания. Два ярких примера включают:
Несмотря на тесную связь с другими задачами компьютерного зрения, классификация изображений имеет свою собственную цель. Важно отличать ее от:
В общем, классификация позволяет определить , что находится на изображении, обнаружение - что и где, а сегментация - получить подробную карту всего, что находится в сцене, на уровне пикселей.
Хотя модели Ultralytics YOLO известны в области обнаружения объектов, они также отлично справляются с задачами классификации изображений. Современные модели, такие как YOLO11, можно легко обучать или настраивать на пользовательских наборах данных с помощью интуитивно понятного пакета Ultralytics Python или платформы Ultralytics HUB, не требующей кода.
Наша документация содержит обширные ресурсы, включая советы по обучению моделей и подробное руководство по использованию YOLO11 для классификации изображений. Разработчики могут использовать предварительно обученные модели на эталонных наборах данных, таких как ImageNet, CIFAR-100 и Caltech-101, или обучить новую модель с нуля. Для тех, кто интересуется последними достижениями, такие ресурсы, как Papers With Code, предлагают полный обзор наиболее эффективных моделей. Вы также можете сравнить производительность модели YOLO со стандартными бенчмарками. Такие фреймворки, как PyTorch и TensorFlow, обеспечивают основу для построения и обучения этих моделей.