X
Ultralytics YOLOv8.2 РелизUltralytics YOLOv8.2 Мобильный релизUltralytics YOLOv8.2 Стрела освобождения
Зелёная проверка
Ссылка копируется в буфер обмена

Глубокое погружение в возможности GPT-4o Mini от OpenAI

Изучи возможности и сферы применения GPT-4o Mini. Последняя, самая экономичная модель OpenAI предлагает продвинутые возможности искусственного интеллекта на 60% дешевле, чем GPT-3.5 Turbo.

В мае 2024 года OpenAI выпустили GPT-4o, а теперь, всего три месяца спустя, они вернулись с еще одной впечатляющей моделью: GPT-4o Mini. 18 июля 2024 года OpenAI представили GPT-4o Mini. Они называют его своей "самой экономичной моделью"! GPT-4o Mini - это компактная модель, которая опирается на возможности предыдущих моделей и призвана сделать продвинутый ИИ более доступным и недорогим.

В настоящее время GPT-4o Mini поддерживает взаимодействие с текстом и зрением, а в будущих обновлениях ожидается добавление возможностей для работы с изображениями, видео и аудио. В этой статье мы рассмотрим, что такое GPT-4o Mini, его отличительные особенности, как его можно использовать, различия между GPT-4 и GPT-4o Mini, а также то, как его можно использовать в различных сценариях применения компьютерного зрения. Давай погрузимся внутрь и посмотрим, что может предложить GPT-4o Mini!

Что такое GPT-4o Mini?

GPT-4o Mini - это последнее пополнение в линейке моделей ИИ от OpenAI, созданное для того, чтобы быть более экономичным и доступным. Это мультимодальная большая языковая модель (LLM), что означает, что она может обрабатывать и генерировать различные типы данных, такие как текст, изображения, видео и аудио. Модель опирается на сильные стороны предыдущих моделей, таких как GPT-4 и GPT-4o, и предлагает мощные возможности в компактном корпусе. 

GPT-4o Mini на 60% дешевле, чем GPT-3.5 Turbo, и стоит 15 центов за миллион входных лексем (единиц текста или данных, которые обрабатывает модель) и 60 центов за миллион выходных лексем (единиц, которые модель генерирует в ответ). Если говорить в перспективе, то один миллион токенов примерно эквивалентен обработке 2 500 страниц текста. Благодаря контекстному окну в 128 тысяч токенов и возможности обрабатывать до 16 тысяч выходных токенов на один запрос, GPT-4o Mini создан быть одновременно эффективным и доступным.

Рис. 1. GPT-4o Mini на 60% дешевле, чем GPT-3.5 Turbo.

Основные характеристики GPT-4o Mini 

GPT-4o Mini поддерживает целый ряд задач, что делает его отличным вариантом для различных приложений. Его можно использовать при выполнении нескольких операций одновременно, например, при вызове нескольких API, при работе с большими объемами данных, такими как полные базы кода или истории разговоров, а также для обеспечения быстрых ответов в реальном времени в чат-ботах службы поддержки.

Вот некоторые другие ключевые особенности:

  • Обновленная база знаний: Модель содержит информацию вплоть до октября 2023 года.
  • Улучшенный токенизатор: GPT-4o Mini делает обработку неEnglish текста более рентабельной.
  • Надежные меры безопасности: Эти меры включают в себя фильтрацию вредного контента и защиту от таких проблем безопасности, как оперативные инъекции и системные манипуляции.

Начало работы с GPT-4o Mini 

Ты можешь попробовать использовать GPT-4o Mini через интерфейс ChatGPT . Он доступен для пользователей Free, Plus и Team, заменяя GPT-3.5, как показано ниже. Корпоративные пользователи также получат доступ в ближайшее время, что соответствует цели OpenAI - предоставить преимущества ИИ для всех. GPT-4o Mini также доступен через API для разработчиков, которые хотят интегрировать его возможности в свои приложения. На данный момент возможности зрения доступны только через API.

Рис. 2. Варианты моделей внутри ChatGPT.

Разница между GPT-4o и GPT-4o Mini 

GPT-4o Mini и GPT-4o оба показывают впечатляющие результаты в различных бенчмарках. Хотя GPT-4o в целом превосходит GPT-4o Mini, GPT-4o Mini по-прежнему является экономичным решением для повседневных задач. Среди бенчмарков - задачи на рассуждение, математические и кодовые способности, а также мультимодальные рассуждения. Как показано на изображении ниже, GPT-4o Mini показывает довольно высокие результаты по сравнению с другими популярными моделями.

Рис. 3. Сравнение GPT-4o Mini с другими популярными моделями.

Приступая к работе с GPT-4o и GPT-4o Mini

Интересная задача, которая обсуждалась в сети, связана с тем, что популярные LLM неправильно сравнивают десятичные числа. Когда мы подвергли испытанию GPT-4o и GPT-4o Mini, их способности к рассуждению показали явные различия. На изображении ниже мы спросили обе модели, что больше: 9,11 или 9,9, а затем попросили их объяснить свои рассуждения.

Рис 4. Тестирование GPT-4o и GPT-4o Mini.

Обе модели изначально отвечают неверно и утверждают, что 9,11 больше. Однако модель GPT-4o способна додуматься до правильного ответа и утверждает, что 9,9 больше. Он дает подробное объяснение и точно сравнивает десятичные числа. В отличие от него, GPT-4o Mini упорно придерживается своего первоначального неправильного ответа, несмотря на то, что правильно объясняет, почему 9,9 больше.

Обе модели демонстрируют сильные способности к рассуждениям. Способность GPT-4o к самокоррекции делает его превосходным и полезным для решения более сложных задач. GPT-4o Mini, хотя и менее адаптируема, все же предлагает четкие и точные рассуждения для более простых задач. 

Использование GPT-4o Mini для различных сценариев компьютерного зрения

Если ты предпочитаешь изучить возможности зрения GPT-4o Mini, не погружаясь в код, ты можешь легко протестировать API на OpenAI Playground. Мы сами опробовали его, чтобы посмотреть, насколько хорошо GPT-4o Mini справляется с различными сценариями использования, связанными с компьютерным зрением.

Классификация изображений с помощью GPT-4o Mini

Мы попросили GPT-4o Mini классифицировать два изображения: бабочку и карту. ИИ-модель успешно определила бабочку и карту. Это довольно простая задача, учитывая, что изображения очень разные.

Рис. 5. Классификация изображений с помощью GPT-4o Mini.

Далее мы прогнали через модель еще два изображения: на одном была изображена бабочка, отдыхающая на растении, а на другом - бабочка, отдыхающая на земле. ИИ снова отлично справился с задачей, правильно определив бабочку на растении и бабочку на земле. Поэтому мы снова сделали шаг вперед.

Рис 6. Классификация похожих изображений с помощью GPT-4o Mini.

Затем мы попросили GPT-4o Mini классифицировать два изображения: на одном изображена бабочка, питающаяся цветами болотной молочницы, а на другом - бабочка, питающаяся цветами циннии. Удивительно, что модель смогла классифицировать столь специфическую метку без дополнительной тонкой настройки. Эти быстрые примеры показывают, что GPT-4o Mini можно использовать для задач классификации изображений, не требующих специального обучения.

Рис. 7. Классификация детальных изображений с помощью GPT-4o Mini.

Понимание поз с помощью GPT-4o Mini

На данный момент такие задачи компьютерного зрения, как обнаружение объектов и сегментация экземпляров, не могут быть решены с помощью GPT-4o Mini. GPT-4o борется за точность, но может быть использован для таких задач. Что касается понимания позы, то мы не можем обнаружить или оценить позу на изображении, но мы можем классифицировать и понять позу.

Рис. 8. Использование GPT-4o Mini для понимания поз на изображении. 

На изображении выше показано, как GPT-4o Mini умеет классифицировать и понимать позы, несмотря на то, что не может обнаружить или оценить точные координаты позы. Это может быть полезно в различных приложениях. Например, в спортивной аналитике он может широко оценивать движения спортсменов и помогать предотвращать травмы. Аналогично, в физиотерапии он может помочь в мониторинге упражнений, чтобы убедиться в правильности движений пациентов во время реабилитации. Также в видеонаблюдении он может помочь выявить подозрительные действия, анализируя общий язык тела. Хотя GPT-4o Mini не может обнаружить конкретные ключевые точки, его способность классифицировать общие позы делает его полезным в этих и других областях.

Области применения, для которых подходит GPT-4o Mini

Мы рассмотрели, на что способен GPT-4o Mini. Теперь давай обсудим приложения, в которых наиболее оптимально использовать GPT-4o Mini.

GPT-4o Mini отлично подходит для приложений, где требуется продвинутое понимание естественного языка и небольшой вычислительный объем. Он позволяет интегрировать искусственный интеллект в приложения, где обычно это было бы слишком дорого. Более того, детальный анализ, проведенный компанией Artificial Analysis, показал, что GPT-4o Mini обеспечивает высококачественные ответы на молниеносных скоростях по сравнению с большинством других моделей.

Рис. 9. Зависимость качества от выходной скорости GPT-4o Mini.

Вот несколько ключевых областей, в которых он может блеснуть в будущем:

  • Виртуальные помощники и чатботы: GPT-4o Mini может давать быстрые и умные ответы, чтобы улучшить взаимодействие с пользователем.
  • Образовательные инструменты: Модель можно использовать для создания инструментов, предлагающих персонализированное обучение и генерацию контента.
  • Инструменты продуктивности: Он может улучшить такие задачи, как резюмирование документов, составление электронных писем и перевод языков, чтобы повысить эффективность.
  • Языковой перевод: Последняя версия GPT может быть использована для разработки переводчиков, которые обеспечивают точный перевод языков в реальном времени для более эффективного общения на разных языках.

GPT-4o Mini открывает новые двери

GPT-4o Mini создает новые возможности для будущего мультимодального ИИ. Стоимость обработки каждого фрагмента текста или данных, известная как стоимость одного токена, существенно снизилась - почти на 99% - с 2022 года, когда был выпущен text-davinci-003, модель GPT-3. Снижение стоимости показывает явную тенденцию к тому, чтобы сделать продвинутый ИИ более доступным. По мере того как модели ИИ продолжают совершенствоваться, становится все более вероятным, что интеграция ИИ в каждое приложение и сайт станет экономически оправданной!

Хочешь попробовать свои силы в искусственном интеллекте? Посети наш репозиторий GitHub, чтобы увидеть наши инновации и стать частью нашего активного сообщества. Узнай больше о применении ИИ в производстве и сельском хозяйстве на страницах наших решений.

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения