Глоссарий

CLIP (Contrastive Language-Image Pre-training)

Узнай, как CLIP от OpenAI революционизирует ИИ благодаря обучению с нулевым результатом, выравниванию изображений и текстов и реальным приложениям в компьютерном зрении.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

CLIP (Contrastive Language-Image Pre-training) - это нейронная сеть, разработанная OpenAI, которая обучается визуальным концепциям непосредственно из описаний на естественном языке. Вместо того чтобы полагаться на наборы данных с заранее определенными метками, как традиционные модели классификации изображений, CLIP обучается на огромной коллекции пар "изображение-текст", собранных в интернете. Она использует технику, называемую контрастным обучением, чтобы понять взаимосвязь между изображениями и словами, используемыми для их описания. Благодаря этому CLIP может отлично справляться с задачами, для которых он не был специально обучен, - эта способность известна как обучение с нулевым результатом.

Как работает клипса

Архитектура CLIP включает в себя два основных компонента: кодировщик изображений и кодировщик текста. Кодировщик изображений, часто основанный на таких архитектурах, как Vision Transformer (ViT) или ResNet, обрабатывает изображения, чтобы уловить их визуальные особенности. Одновременно с этим текстовый кодер, обычно представляющий собой модель трансформера, подобную тем, что используются в обработке естественного языка (NLP), обрабатывает соответствующие текстовые описания для извлечения семантического смысла. В процессе обучения модель учится создавать представления (вкрапления) как для изображений, так и для текста в общем пространстве. Цель состоит в том, чтобы максимизировать показатель сходства между вкраплениями правильных пар "изображение-текст" и одновременно минимизировать сходство для неправильных пар в партии. Эта контрастная задача учит модель эффективно ассоциировать визуальные элементы с их текстовыми аналогами.

Ключевые особенности и преимущества

Отличительной особенностью CLIP является его мощная способность к обучению "с нуля". Поскольку он изучает общую взаимосвязь между изображениями и языком, он может классифицировать изображения на основе новых, невидимых текстовых описаний, не требуя дополнительного обучения. Например, даже если CLIP никогда не видел изображения с надписью "кресло с авокадо" во время обучения, он потенциально сможет определить его, если ему будет предложен такой текст, опираясь на свои выученные ассоциации между визуальными стилями, объектами (такими как авокадо и кресла) и описательными словами. Это делает CLIP очень гибким и адаптируемым для различных задач компьютерного зрения (КВ), часто достигая высокой производительности даже по сравнению с моделями, обученными специально на эталонных наборах данных, таких как ImageNet.

Применение в реальном мире

Уникальные способности CLIP позволяют найти несколько практических применений:

  • Поиск и извлечение изображений: Системы могут использовать CLIP, чтобы позволить пользователям искать в огромных библиотеках изображений с помощью текстовых запросов в свободной форме (например, "покажите мне фотографии закатов над горами"), а не полагаться только на предопределенные теги. Такие платформы, как Unsplash, уже исследовали возможности использования CLIP для улучшения поиска изображений.
  • Модерация контента: CLIP может идентифицировать изображения, содержащие конкретные понятия, описанные в текстовом виде (например, "изображение насилия" или "несоответствие рекомендациям бренда"), не нуждаясь в больших массивах данных, явно маркированных для каждой возможной категории нарушений. Это обеспечивает более гибкий подход к фильтрации контента.

Клип по сравнению с другими моделями

CLIP существенно отличается от других распространенных моделей ИИ:

  • Традиционные классификаторы изображений: Эти модели (часто обучаемые методом контролируемого обучения) обычно требуют маркированных данных для каждой конкретной категории, которую им нужно распознать, и с трудом справляются с понятиями за пределами обучающего набора. Нулевой характер CLIP позволяет преодолеть это ограничение.
  • Детекторы объектов: Такие модели, как Ultralytics YOLO сосредоточены на идентификации и определении местоположения нескольких объектов на изображении с помощью ограничительных рамок, в то время как CLIP в первую очередь нацелен на понимание содержимого изображения в целом по отношению к тексту.
  • Другие мультимодальные модели: Хотя модели для таких задач, как Visual Question Answering (VQA) или Image Captioning, также обрабатывают изображения и текст, они часто обучаются для конкретных форматов ввода-вывода (например, ответить на вопрос, сгенерировать надпись). CLIP обучается более универсальному, гибкому отображению визуальных и текстовых концепций. Ты можешь узнать больше о различных моделях языка зрения в блоге Ultralytics .

Ограничения и будущие направления

Несмотря на свои сильные стороны, CLIP имеет ограничения. На его понимание могут повлиять предубеждения, присутствующие в огромных, нечищеных веб-данных, на которых он обучался, что потенциально может привести к проблемам, связанным со справедливостью в ИИ. Кроме того, он может испытывать трудности при решении задач, требующих очень тонкого распознавания деталей, пространственных рассуждений или точного подсчета объектов. Текущие исследования направлены на смягчение предубеждений, улучшение тонкого понимания и изучение способов объединения семантических знаний CLIP с возможностями пространственной локализации таких моделей, как YOLO. Ты можешь следить за последними разработками в области ИИ в блогеUltralytics . Обучением и развертыванием моделей, в том числе потенциальным объединением функций из разных архитектур, можно управлять с помощью таких платформ, как Ultralytics HUB.

Читать полностью