Глубокое погружение в возможности GPT-4o Mini от OpenAI

Абирами Вина

6 минут чтения

25 июля 2024 г.

Изучите возможности и сферы применения GPT-4o Mini. Последняя, самая экономичная модель OpenAI предлагает расширенные возможности искусственного интеллекта на 60% дешевле, чем GPT-3.5 Turbo.

В мае 2024 года OpenAI выпустила GPT-4o, и вот, всего три месяца спустя, они вернулись с еще одной впечатляющей моделью: GPT-4o Mini. 18 июля 2024 года OpenAI представила GPT-4o Mini. Они называют ее "самой экономичной моделью"! GPT-4o Mini - это компактная модель, которая развивает возможности предыдущих моделей и призвана сделать передовой ИИ более доступным и недорогим.

В настоящее время GPT-4o Mini поддерживает взаимодействие с текстом и зрением, а в будущих обновлениях ожидается добавление возможностей для работы с изображениями, видео и аудио. В этой статье мы рассмотрим, что представляет собой GPT-4o Mini, его отличительные особенности, как его можно использовать, различия между GPT-4 и GPT-4o Mini, а также то, как его можно использовать в различных случаях применения компьютерного зрения. Давайте погрузимся и посмотрим, что может предложить GPT-4o Mini!

Что такое GPT-4o Mini?

GPT-4o Mini - это последнее пополнение в линейке моделей ИИ от OpenAI, разработанное с целью сделать их более экономичными и доступными. Это мультимодальная модель большого языка (LLM), что означает, что она может обрабатывать и генерировать различные типы данных, такие как текст, изображения, видео и аудио. Модель опирается на сильные стороны предыдущих моделей, таких как GPT-4 и GPT-4o, и предлагает мощные возможности в компактном корпусе. 

GPT-4o Mini на 60 % дешевле GPT-3.5 Turbo: 15 центов за миллион входных лексем (единиц текста или данных, которые обрабатывает модель) и 60 центов за миллион выходных лексем (единиц, которые модель генерирует в ответ). Для сравнения, один миллион лексем примерно эквивалентен обработке 2500 страниц текста. Благодаря контекстному окну на 128 тыс. токенов и возможности обрабатывать до 16 тыс. выходных токенов на запрос GPT-4o Mini отличается эффективностью и доступностью.

__wf_reserved_inherit
Рис. 1. GPT-4o Mini на 60% дешевле, чем GPT-3.5 Turbo.

Основные характеристики GPT-4o Mini 

GPT-4o Mini поддерживает целый ряд задач, что делает его отличным вариантом для различных приложений. Его можно использовать при одновременном выполнении нескольких операций, таких как вызов нескольких API, работа с большими объемами данных, например с полными базами кода или историями разговоров, а также обеспечение быстрых ответов в режиме реального времени в чат-ботах службы поддержки.

Вот некоторые другие ключевые особенности:

  • Обновленная база знаний: Модель содержит информацию по октябрь 2023 года.
  • Улучшенный токенизатор: GPT-4o Mini делает обработку неанглийских текстов более рентабельной.
  • Надежные меры безопасности: Эти меры включают фильтрацию вредоносного контента и защиту от таких проблем безопасности, как внедрение подсказок и манипуляции с системой.

Начало работы с GPT-4o Mini 

Вы можете попробовать использовать GPT-4o Mini через интерфейс ChatGPT. Он доступен для пользователей Free, Plus и Team, заменяя GPT-3.5, как показано ниже. Корпоративные пользователи также получат доступ в ближайшее время, что соответствует цели OpenAI - предоставить преимущества ИИ для всех. GPT-4o Mini также доступен через API для разработчиков, которые хотят интегрировать его возможности в свои приложения. На данный момент возможности технического зрения доступны только через API.

__wf_reserved_inherit
Рис. 2. Варианты моделей в ChatGPT.

Разница между GPT-4o и GPT-4o Mini 

GPT-4o Mini и GPT-4o демонстрируют впечатляющие результаты в различных бенчмарках. Хотя GPT-4o в целом превосходит GPT-4o Mini, GPT-4o Mini по-прежнему является экономичным решением для повседневных задач. Среди эталонов - задачи на рассуждение, математика и кодирование, а также мультимодальные рассуждения. Как показано на изображении ниже, GPT-4o Mini демонстрирует довольно высокие результаты по сравнению с другими популярными моделями.

__wf_reserved_inherit
Рис. 3. Сравнение GPT-4o Mini с другими популярными моделями.

Практическая работа с GPT-4o и GPT-4o Mini

Интересный вопрос, который обсуждался в сети, касается популярных LLM, неправильно сравнивающих десятичные числа. Когда мы испытали GPT-4o и GPT-4o Mini, их способности к рассуждению показали явные различия. На изображении ниже мы спросили обе модели, что больше: 9,11 или 9,9, а затем попросили их объяснить свои рассуждения.

__wf_reserved_inherit
Рис. 4. Тестирование GPT-4o и GPT-4o Mini.

Обе модели сначала отвечают неверно и утверждают, что 9,11 больше. Однако модель GPT-4o способна прийти к правильному ответу и утверждает, что 9,9 больше. Он дает подробное объяснение и точно сравнивает десятичные числа. В отличие от этого, GPT-4o Mini упорно сохраняет свой первоначальный неправильный ответ, несмотря на то, что правильно объясняет, почему 9,9 больше.

Обе модели демонстрируют сильные способности к рассуждениям. Способность GPT-4o к самокоррекции делает его более совершенным и полезным для решения более сложных задач. GPT-4o Mini, хотя и менее адаптируемая, все же предлагает четкие и точные рассуждения для более простых задач. 

Использование GPT-4o Mini для различных задач компьютерного зрения

Если вы хотите изучить возможности зрения GPT-4o Mini, не погружаясь в код, вы можете легко протестировать API на OpenAI Playground. Мы сами опробовали его, чтобы понять, насколько хорошо GPT-4o Mini справляется с различными задачами, связанными с компьютерным зрением.

Классификация изображений с помощью GPT-4o Mini

Мы попросили GPT-4o Mini классифицировать два изображения: бабочку и карту. ИИ-модель успешно определила бабочку и карту. Это довольно простая задача, учитывая, что изображения очень разные.

__wf_reserved_inherit
Рис. 5. Классификация изображений с помощью GPT-4o Mini.

Мы прогнали через модель еще два изображения: бабочку, сидящую на растении, и бабочку, сидящую на земле. ИИ снова отлично справился с задачей, правильно определив бабочку на растении и бабочку на земле. Тогда мы сделали еще один шаг вперед.

__wf_reserved_inherit
Рис. 6. Классификация похожих изображений с помощью GPT-4o Mini.

Затем мы попросили GPT-4o Mini классифицировать два изображения: на одном изображена бабочка, питающаяся цветами болотной молочницы, а на другом - бабочка, питающаяся цветами циннии. Удивительно, что модель смогла классифицировать столь специфическую метку без дополнительной настройки. Эти быстрые примеры показывают, что GPT-4o Mini можно использовать для задач классификации изображений, не требующих специального обучения.

__wf_reserved_inherit
Рис. 7. Классификация детальных изображений с помощью GPT-4o Mini.

Понимание поз с помощью GPT-4o Mini

На данный момент задачи компьютерного зрения, такие как обнаружение объектов и сегментация экземпляров, не могут быть решены с помощью GPT-4o Mini. GPT-4o борется за точность, но может быть использован для таких задач. Что касается понимания позы, то мы не можем обнаружить или оценить позу на изображении, но мы можем классифицировать и понять позу.

__wf_reserved_inherit
Рис. 8. Использование GPT-4o Mini для понимания поз на изображении. 

На изображении выше показано, как GPT-4o Mini может классифицировать и понимать позы, несмотря на то, что не может обнаружить или оценить точные координаты позы. Это может быть полезно в различных приложениях. Например, в спортивной аналитике он может широко оценить движения спортсменов и помочь предотвратить травмы. Аналогично, в физиотерапии он может помочь в мониторинге упражнений, чтобы убедиться, что пациенты выполняют правильные движения во время реабилитации. Кроме того, в видеонаблюдении он может помочь выявить подозрительные действия, анализируя общий язык тела. Хотя GPT-4o Mini не может обнаружить конкретные ключевые точки, его способность классифицировать общие позы делает его полезным в этих и других областях.

Области применения GPT-4o Mini

Мы рассмотрели, на что способен GPT-4o Mini. Теперь давайте обсудим, в каких сферах наиболее оптимально использовать GPT-4o Mini.

GPT-4o Mini отлично подходит для приложений, где требуется продвинутое понимание естественного языка и небольшая вычислительная площадь. Он позволяет интегрировать искусственный интеллект в приложения, где обычно это было бы слишком дорого. Более того, подробный анализ, проведенный компанией Artificial Analysis, показал, что GPT-4o Mini обеспечивает высококачественные ответы с молниеносной скоростью по сравнению с большинством других моделей.

__wf_reserved_inherit
Рис. 9. Зависимость качества от выходной скорости GPT-4o Mini.

Вот несколько ключевых областей, в которых она может проявить себя в будущем:

  • Виртуальные помощники и чат-боты: GPT-4o Mini может обеспечивать быстрые и интеллектуальные ответы для улучшения взаимодействия с пользователями.
  • Образовательные инструменты: Модель может быть использована для создания инструментов, предлагающих персонализированное обучение и генерацию контента.
  • Инструменты для повышения производительности: Он может улучшить такие задачи, как резюмирование документов, составление электронных писем и перевод языков, чтобы повысить эффективность работы.
  • Языковой перевод: Последняя версия GPT может быть использована для разработки переводчиков, обеспечивающих точный перевод в режиме реального времени для более эффективного общения на разных языках.

GPT-4o Mini открывает новые двери

GPT-4o Mini создает новые возможности для будущего мультимодального ИИ. Стоимость обработки каждого фрагмента текста или данных, известная как стоимость одного токена, значительно снизилась - почти на 99 % - с 2022 года, когда был выпущен text-davinci-003, модель GPT-3. Снижение стоимости свидетельствует о явной тенденции к тому, чтобы сделать передовой ИИ более доступным. По мере совершенствования моделей ИИ становится все более вероятным, что интеграция ИИ в каждое приложение и сайт будет экономически оправданной!

Хотите попробовать свои силы в области искусственного интеллекта? Посетите наш репозиторий GitHub, чтобы увидеть наши инновации и стать частью нашего активного сообщества. Узнайте больше о применении ИИ в производстве и сельском хозяйстве на страницах наших решений.

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена