Глоссарий

Обучение с нуля

Откройте для себя Zero-Shot Learning: передовой подход к ИИ, позволяющий моделям классифицировать невидимые данные, революционизирующий обнаружение объектов, NLP и многое другое.

Zero-Shot Learning (ZSL) - это удивительная способность машинного обучения (ML), когда модель может распознавать и классифицировать объекты из категорий, которые она никогда не видела на этапе обучения. В отличие от традиционного контролируемого обучения, которое требует явных примеров для каждого возможного класса, ZSL позволяет модели обобщать свои знания на новые, невиданные классы. Это достигается путем связывания наблюдаемых и ненаблюдаемых классов с помощью высокоуровневых семантических описаний, таких как атрибуты или текстовые вкрапления. Это позволяет модели ИИ быть более гибкой и масштабируемой, особенно в реальных сценариях, где сбор исчерпывающих помеченных данных нецелесообразен.

Как это работает?

Основная идея ZSL заключается в создании общего пространства вкраплений, в котором могут быть представлены как визуальные характеристики изображений, так и семантическая информация из текста. В процессе обучения модель учится сопоставлять изображения видимых классов с соответствующими им семантическими векторами (атрибутами или вкраплениями слов). Например, модель изучает визуальные особенности "лошади" и связывает их с семантическим описанием типа "имеет четыре ноги", "является млекопитающим" и "может ездить верхом".

При предъявлении изображения невидимого класса, например "зебры", модель извлекает его визуальные признаки. Одновременно она использует семантическое описание "зебры" - например, "похожа на лошадь", "имеет полосы" - для определения ее местоположения в пространстве встраивания. Найдя наиболее близкое семантическое описание к извлеченным визуальным признакам, модель может правильно классифицировать изображение как "зебру", даже не имея ни одного обучающего изображения зебры. Этот процесс часто опирается на мощные предварительно обученные мультимодальные модели, такие как CLIP от OpenAI, которые отлично справляются со связью между зрением и языком.

Обучение с нуля по сравнению с другими парадигмами. Другие парадигмы

Важно отличать ЗШЛ от смежных методик обучения:

  • Few-Shot Learning (FSL): В FSL модель обучается на очень небольшом количестве помеченных примеров (например, от 1 до 5) для каждого нового класса. Это отличается от ZSL, которая работает с нулевыми примерами целевого класса.
  • Одноразовое обучение (OSL): Подтип FSL, в котором модель получает ровно один пример нового класса. Он более ограничен в данных, чем общий FSL, но, в отличие от ZSL, все же требует хотя бы одного примера.
  • Трансферное обучение: ZSL - это одна из форм трансферного обучения, но уникальная. В то время как стандартное трансферное обучение обычно включает в себя тонкую настройку предварительно обученной модели на новом (меньшем) наборе данных с метками, ZSL переносит знания на новые классы, используя только вспомогательную семантическую информацию, минуя необходимость в каких-либо помеченных примерах этих классов.

Применение в реальном мире

ZSL имеет множество практических применений, делая системы компьютерного зрения более динамичными и адаптируемыми.

  1. Обнаружение объектов с открытым словарем: Такие модели, как YOLO-World, используют ZSL для обнаружения любых объектов, описанных текстом. Пользователь может задать такие текстовые подсказки, как "человек в синей рубашке" или "протекающая труба", и модель сможет обнаружить эти объекты в изображении или видеопотоке, не будучи специально обученной этим конкретным категориям. Это значительный шаг на пути к созданию действительно универсальных систем технического зрения.
  2. Автономная идентификация видов: ИИ для сохранения дикой природы позволяет ZSL идентифицировать редкие или недавно открытые виды. Модель, обученная на обычных животных, может использовать описательные атрибуты (например, "имеет длинную шею", "пятнистый", "травоядный") из базы знаний, такой как Википедия, чтобы определить жирафа, даже если в исходном наборе для обучения не было изображений жирафа.

Проблемы и будущие направления

Несмотря на свой потенциал, ZSL сталкивается с такими проблемами, как проблема узлов (когда некоторые точки семантического пространства становятся ближайшими соседями слишком большого количества точек) и смещение домена (когда отношения между признаками и атрибутами различаются между видимыми и невидимыми классами). Для решения этих проблем исследователи разрабатывают более надежные методы, такие как обобщенное обучение с нулевым выстрелом (GZSL), когда модель должна распознавать как видимые , так и невидимые классы в процессе вывода. Развитие базовых моделей и платформ, таких как Ultralytics HUB, еще больше упростит интеграцию и внедрение ZSL, делая системы ИИ менее зависимыми от обширной маркировки данных и более приближенными к человеческим рассуждениям.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена