Откройте для себя Zero-Shot Learning: передовой подход к ИИ, позволяющий моделям классифицировать невидимые данные, революционизирующий обнаружение объектов, NLP и многое другое.
Zero-Shot Learning (ZSL) - это удивительная способность машинного обучения (ML), когда модель может распознавать и классифицировать объекты из категорий, которые она никогда не видела на этапе обучения. В отличие от традиционного контролируемого обучения, которое требует явных примеров для каждого возможного класса, ZSL позволяет модели обобщать свои знания на новые, невиданные классы. Это достигается путем связывания наблюдаемых и ненаблюдаемых классов с помощью высокоуровневых семантических описаний, таких как атрибуты или текстовые вкрапления. Это позволяет модели ИИ быть более гибкой и масштабируемой, особенно в реальных сценариях, где сбор исчерпывающих помеченных данных нецелесообразен.
Основная идея ZSL заключается в создании общего пространства вкраплений, в котором могут быть представлены как визуальные характеристики изображений, так и семантическая информация из текста. В процессе обучения модель учится сопоставлять изображения видимых классов с соответствующими им семантическими векторами (атрибутами или вкраплениями слов). Например, модель изучает визуальные особенности "лошади" и связывает их с семантическим описанием типа "имеет четыре ноги", "является млекопитающим" и "может ездить верхом".
При предъявлении изображения невидимого класса, например "зебры", модель извлекает его визуальные признаки. Одновременно она использует семантическое описание "зебры" - например, "похожа на лошадь", "имеет полосы" - для определения ее местоположения в пространстве встраивания. Найдя наиболее близкое семантическое описание к извлеченным визуальным признакам, модель может правильно классифицировать изображение как "зебру", даже не имея ни одного обучающего изображения зебры. Этот процесс часто опирается на мощные предварительно обученные мультимодальные модели, такие как CLIP от OpenAI, которые отлично справляются со связью между зрением и языком.
Важно отличать ЗШЛ от смежных методик обучения:
ZSL имеет множество практических применений, делая системы компьютерного зрения более динамичными и адаптируемыми.
Несмотря на свой потенциал, ZSL сталкивается с такими проблемами, как проблема узлов (когда некоторые точки семантического пространства становятся ближайшими соседями слишком большого количества точек) и смещение домена (когда отношения между признаками и атрибутами различаются между видимыми и невидимыми классами). Для решения этих проблем исследователи разрабатывают более надежные методы, такие как обобщенное обучение с нулевым выстрелом (GZSL), когда модель должна распознавать как видимые , так и невидимые классы в процессе вывода. Развитие базовых моделей и платформ, таких как Ultralytics HUB, еще больше упростит интеграцию и внедрение ZSL, делая системы ИИ менее зависимыми от обширной маркировки данных и более приближенными к человеческим рассуждениям.