Глоссарий

Обучение с нуля

Открой для себя Zero-Shot Learning: передовой подход ИИ, позволяющий моделям классифицировать невидимые данные, революционизируя обнаружение объектов, NLP и многое другое.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Zero-Shot Learning (ZSL) - это увлекательное направление в машинном обучении (ML), в котором модель обучается распознавать объекты или концепции, которые она никогда не видела в явном виде во время обучения. В отличие от традиционных методов контролируемого обучения, которые требуют множества помеченных примеров для каждой возможной категории, ZSL позволяет моделям делать предсказания о невидимых классах, используя вспомогательную информацию, которая описывает эти новые классы. Эта возможность крайне важна для создания более адаптируемых и масштабируемых систем искусственного интеллекта (ИИ), особенно в тех областях, где получение помеченных данных для всех возможных категорий непрактично или невозможно.

Как работает обучение с нулевым выстрелом

Основная идея ZSL заключается в том, чтобы преодолеть разрыв между видимыми и невидимыми классами с помощью общего семантического пространства. Это пространство часто основывается на высокоуровневых описаниях, атрибутах или вкраплениях, полученных из текста или баз знаний. В процессе обучения модель изучает отображение между входными данными (например, изображениями или текстом) и этим семантическим пространством, используя только примеры из "видимых" классов. Например, модель может научиться связывать изображения лошадей и тигров (классы "увиденное") с соответствующими атрибутами (например, "имеет копыта", "имеет полосы", "является млекопитающим").

Когда тебе предъявляют экземпляр невидимого класса (например, зебру), модель извлекает его признаки и отображает их в выученное семантическое пространство. Затем она сравнивает это отображение с семантическими описаниями невидимых классов (например, с атрибутами "имеет полосы", "имеет копыта", "является млекопитающим", описывающими зебру). Класс, чье семантическое описание ближе всего в этом пространстве, выбирается в качестве предсказания. В этом процессе часто используются техники глубокого обучения (DL), применяя такие архитектуры, как конволюционные нейронные сети (CNN) для извлечения признаков и функции отображения для связи визуальных признаков с семантическими атрибутами, иногда применяя концепции из Vision Transformers (ViT) или модели вроде CLIP.

Основные отличия от похожих концепций

Важно отличать ЗСЛ от родственных парадигм обучения:

  • Few-Shot Learning (FSL): FSL нацелено на изучение новых концепций на очень небольшом количестве помеченных примеров (например, от 1 до 5) на класс, в то время как ZSL требует нулевых помеченных примеров для целевых классов. Подробнее о понимании Few-Shot, Zero-Shot и Transfer Learning.
  • One-Shot Learning (OSL): Частный случай FSL, когда для каждого нового класса предоставляется ровно один помеченный пример.
  • Трансферное обучение: Более широкое понятие, когда знания, полученные при выполнении одной задачи, применяются к другой, но связанной с ней. ZSL - это одна из форм трансферного обучения, но конкретно она фокусируется на переносе знаний (часто через семантические атрибуты) для распознавания совершенно невидимых классов. Такие модели, как Ultralytics YOLOv8 часто используют трансферное обучение из больших наборов данных, таких как COCO, для индивидуального обучения.
  • Самоконтролируемое обучение (SSL): Модели SSL учат представления на немаркированных данных, создавая предтекстовые задачи (например, предсказание замаскированных частей входных данных). Хотя SSL полезен для предварительного обучения, он по своей сути не может работать с невидимыми классами без дополнительных механизмов, подобных тем, что используются в ZSL.

Применение в реальном мире

ZSL обладает значительным потенциалом в различных областях:

  1. Компьютерное зрение (CV) - мелкозернистое распознавание объектов: Определение редких видов животных, растений или конкретных моделей продуктов на изображениях, где мало обучающих данных. Например, система, обученная на обычных птицах, может идентифицировать редкий вид на основе текстового описания его оперения, формы клюва и места обитания, даже без предварительных визуальных примеров. Это расширяет возможности за пределы стандартного обнаружения объектов или классификации изображений, обученных только на увиденных классах. Такие модели, как YOLO, опираются на аналогичные идеи для определения открытого словарного запаса.
  2. Обработка естественного языка (NLP) - идентификация тем и распознавание намерений: Классификация документов, электронных писем или запросов пользователей по новым, возникающим темам или намерениям, которые не присутствуют в исходном наборе обучающих данных. Например, чатбот службы поддержки может классифицировать запрос о недавно запущенной функции продукта, используя описание этой функции, не нуждаясь в явных обучающих примерах таких запросов. Это позволяет использовать возможности больших языковых моделей (LLM), таких как GPT-4.

Проблемы и будущие направления

Несмотря на свои перспективы, ZSL сталкивается с такими проблемами, как проблема узлов (когда некоторые точки в семантическом пространстве становятся ближайшими соседями многих точек) и смещение домена (когда отношения между признаками и атрибутами различаются между видимыми и невидимыми классами). Исследования продолжают изучать более надежные семантические вкрапления, лучшие функции отображения и такие техники, как Generalized Zero-Shot Learning (GZSL), которая направлена на распознавание как видимых, так и невидимых классов во время вывода. Развитие таких платформ, как Ultralytics HUB, может способствовать интеграции и внедрению возможностей ZSL в практические приложения ИИ для зрения. Дальнейшее развитие может черпать вдохновение в мультимодальных моделях, которые по своей сути связывают зрение и язык.

Читать полностью