Открой для себя Zero-Shot Learning: передовой подход ИИ, позволяющий моделям классифицировать невидимые данные, революционизируя обнаружение объектов, NLP и многое другое.
Zero-Shot Learning (ZSL) - это увлекательное направление в машинном обучении (ML), в котором модель обучается распознавать объекты или концепции, которые она никогда не видела в явном виде во время обучения. В отличие от традиционных методов контролируемого обучения, которые требуют множества помеченных примеров для каждой возможной категории, ZSL позволяет моделям делать предсказания о невидимых классах, используя вспомогательную информацию, которая описывает эти новые классы. Эта возможность крайне важна для создания более адаптируемых и масштабируемых систем искусственного интеллекта (ИИ), особенно в тех областях, где получение помеченных данных для всех возможных категорий непрактично или невозможно.
Основная идея ZSL заключается в том, чтобы преодолеть разрыв между видимыми и невидимыми классами с помощью общего семантического пространства. Это пространство часто основывается на высокоуровневых описаниях, атрибутах или вкраплениях, полученных из текста или баз знаний. В процессе обучения модель изучает отображение между входными данными (например, изображениями или текстом) и этим семантическим пространством, используя только примеры из "видимых" классов. Например, модель может научиться связывать изображения лошадей и тигров (классы "увиденное") с соответствующими атрибутами (например, "имеет копыта", "имеет полосы", "является млекопитающим").
Когда тебе предъявляют экземпляр невидимого класса (например, зебру), модель извлекает его признаки и отображает их в выученное семантическое пространство. Затем она сравнивает это отображение с семантическими описаниями невидимых классов (например, с атрибутами "имеет полосы", "имеет копыта", "является млекопитающим", описывающими зебру). Класс, чье семантическое описание ближе всего в этом пространстве, выбирается в качестве предсказания. В этом процессе часто используются техники глубокого обучения (DL), применяя такие архитектуры, как конволюционные нейронные сети (CNN) для извлечения признаков и функции отображения для связи визуальных признаков с семантическими атрибутами, иногда применяя концепции из Vision Transformers (ViT) или модели вроде CLIP.
Важно отличать ЗСЛ от родственных парадигм обучения:
ZSL обладает значительным потенциалом в различных областях:
Несмотря на свои перспективы, ZSL сталкивается с такими проблемами, как проблема узлов (когда некоторые точки в семантическом пространстве становятся ближайшими соседями многих точек) и смещение домена (когда отношения между признаками и атрибутами различаются между видимыми и невидимыми классами). Исследования продолжают изучать более надежные семантические вкрапления, лучшие функции отображения и такие техники, как Generalized Zero-Shot Learning (GZSL), которая направлена на распознавание как видимых, так и невидимых классов во время вывода. Развитие таких платформ, как Ultralytics HUB, может способствовать интеграции и внедрению возможностей ZSL в практические приложения ИИ для зрения. Дальнейшее развитие может черпать вдохновение в мультимодальных моделях, которые по своей сути связывают зрение и язык.