Нажав кнопку "Принять все файлы cookie", вы соглашаетесь с сохранением файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа его использования и помощи в наших маркетинговых усилиях. Дополнительная информация
Настройки файлов cookie
Нажав кнопку "Принять все файлы cookie", вы соглашаетесь с сохранением файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа его использования и помощи в наших маркетинговых усилиях. Дополнительная информация
Познакомьтесь с новой моделью GPT-4o от OpenAI, оснащенной передовым искусственным интеллектом с реалистичным взаимодействием, которое изменит наше общение с технологиями. Познакомьтесь с его революционными возможностями!
В понедельник, 13 мая 2024 года, компания OpenAI объявила о запуске своей новой флагманской модели GPT-4o, где "o" означает "omni". GPT-4o - это передовая мультимодальная модель ИИ для взаимодействия с текстом, звуком и зрением в режиме реального времени, обеспечивающая более быструю обработку данных, многоязыковую поддержку и повышенную безопасность.
Он предлагает невиданные ранее возможности генеративного ИИ. Опираясь на разговорные возможности ChatGPT, функции GPT-4o знаменуют собой значительный шаг вперед в восприятии искусственного интеллекта людьми. Теперь мы можем разговаривать с GPT-4o так, как будто это реальный человек. Давайте погрузимся в игру и посмотрим, на что способен GPT-4o!
Знакомство с GPT-4o
На весеннем обновлении OpenAI стало известно, что хотя GPT-4o так же интеллектуальна, как и GPT-4, она может быстрее обрабатывать данные и лучше справляется с текстом, зрением и аудио. В отличие от предыдущих выпусков, которые были направлены на повышение интеллектуальности моделей, этот выпуск был сделан с учетом необходимости сделать ИИ более простым в использовании для широкой аудитории.
Голосовой режим ChatGPT, выпущенный в конце прошлого года, включал в себя три различные модели, которые объединялись для расшифровки голосовых сообщений, понимания и создания письменных ответов, а также преобразования текста в речь, чтобы пользователь мог услышать ответ. В этом режиме возникали проблемы с задержками, и он казался не очень естественным. GPT-4o может обрабатывать текст, зрение и звук за один раз, создавая у пользователя впечатление, что он участвует в естественном разговоре.
Кроме того, в отличие от голосового режима, теперь вы можете прервать GPT-4o во время разговора, и он отреагирует так же, как и человек. Он сделает паузу, послушает, а затем ответит в реальном времени, основываясь на ваших словах. Он также может выражать эмоции голосом и понимать вашу интонацию.
Захватывающие возможности GPT-4o
Оценка модели GPT-4o показывает, насколько она совершенна. Одним из самых интересных результатов стало то, что GPT-4o значительно улучшает распознавание речи по сравнению с Whisper-v3 на всех языках, особенно на тех, которые используются реже.
Производительность аудио ASR (Automatic Speech Recognition) измеряет, насколько точно модель транскрибирует разговорную речь в текст. Производительность GPT-4o отслеживается по показателю Word Error Rate (WER), который показывает процент неправильно транскрибированных слов (более низкий WER означает более высокое качество). На приведенной ниже диаграмме показано снижение WER GPT-4o в различных регионах, что демонстрирует его эффективность в улучшении распознавания речи для языков с низким уровнем ресурсов.
Рис. 2. GPT-4o обладает превосходным распознаванием речи на нескольких языках.
Вот еще несколько уникальных особенностей GPT-4o:
Быстрее - В два раза быстрее, чем GPT-4 Turbo. Он реагирует на аудиовход всего за 232 миллисекунды, что соответствует времени реакции человека при разговоре.
Экономичность - API-версия GPT-4o на 50% дешевле, чем GPT-4 Turbo.
Память - GPT-4o обладает способностью сохранять осведомленность во время разных разговоров. Он может запомнить, о чем вы говорите в разных чатах.
Многоязычность - GPT-4o был обучен улучшенной скорости и качеству работы на 50 различных языках.
Примеры того, что может сделать GPT-4o
Теперь вы можете достать GPT-4o на своем телефоне, включить камеру и попросить GPT-4o, как и друга, угадать ваше настроение по выражению лица. GPT-4o может посмотреть на вас через камеру и ответить.
Рис. 3. GPT-4o понимание настроения человека по видео.
Вы даже можете использовать его для решения математических задач, показывая GPT-4o на видео, что вы пишете. Кроме того, вы можете поделиться своим экраном, и он может стать полезным преподавателем в Академии Khan, попросив вас указать различные части треугольника в геометрии, как показано ниже.
Рис. 4. GPT-4o выступает в роли преподавателя на сайте Khan Academy.
Помимо помощи детям в математике, разработчики могут общаться с GPT-4o для отладки своего кода. Это стало возможным благодаря появлению ChatGPT в качестве настольного приложения. Если вы выделите и скопируете свой код с помощью CTRL "C" во время разговора с настольным голосовым приложением GPT-4o, оно сможет прочитать ваш код. Или же вы можете использовать его для перевода разговоров между разработчиками, говорящими на разных языках.
Возможности GPt-4o кажутся безграничными. В одной из самых интересных демонстраций OpenAI использовались два телефона, чтобы показать, как GPt-4o разговаривает с разными экземплярами самого себя и поет вместе.
Как показано в демонстрационном ролике, GPT-4o может сделать мир более доступным для людей с нарушениями зрения. Он может помочь им взаимодействовать и передвигаться более безопасно и независимо. Например, пользователи могут включить видео и показать GPT-4o вид на улицу. Затем GPT-4o может в реальном времени описывать окружающую обстановку, например, определять препятствия, читать уличные знаки или направлять их к определенному месту. Он даже может помочь вызвать такси, предупредив о его приближении.
Аналогичным образом GPT-4o может преобразовать различные отрасли благодаря своим передовым возможностям. В розничной торговле он может улучшить обслуживание клиентов, предоставляя помощь в режиме реального времени, отвечая на вопросы и помогая покупателям находить товары как онлайн, так и в магазине. Допустим, вы смотрите на полку с товарами и не можете выбрать нужный продукт, GPT-4o может вам помочь.
В здравоохранении GPT-4o может помочь в диагностике, анализируя данные пациента, предполагая возможные заболевания на основе симптомов и предлагая рекомендации по выбору лечения. Он также может помочь медицинским работникам, обобщая истории болезни, обеспечивая быстрый доступ к медицинской литературе и даже предлагая перевод в режиме реального времени для общения с пациентами, говорящими на разных языках. Это лишь несколько примеров. Приложения GPT-4o облегчают повседневную жизнь, предлагая индивидуальную, контекстно-зависимую помощь и преодолевая барьеры на пути к информации и общению.
GPT-4o и безопасность модели
Как и предыдущие версии GPT, которые повлияли на сотни миллионов жизней, GPT-4o будет взаимодействовать с аудио и видео в реальном времени по всему миру, что делает безопасность важнейшим элементом в этих приложениях. OpenAI очень тщательно подошла к созданию GPT-4o, уделив особое внимание снижению потенциальных рисков.
Чтобы обеспечить безопасность и надежность, OpenAI применяет строгие меры безопасности. К ним относятся фильтрация данных обучения, доработка поведения модели после обучения, а также внедрение новых систем безопасности для управления голосовыми сообщениями. Кроме того, GPT-4o был тщательно протестирован более чем 70 внешними экспертами в таких областях, как социальная психология, предвзятость и справедливость, а также дезинформация. Внешнее тестирование позволяет выявить и устранить любые риски, которые появляются или усиливаются благодаря новым функциям.
Для поддержания высоких стандартов безопасности OpenAI выпускает функции GPT-4o постепенно в течение следующих нескольких недель. Поэтапное развертывание позволяет OpenAI отслеживать эффективность, решать любые проблемы и собирать отзывы пользователей. Такой осторожный подход гарантирует, что GPT-4o предоставит передовые возможности, сохраняя при этом высочайшие стандарты безопасности и этичности использования.
Испытайте GPT-4o на себе
GPT-4o доступен для бесплатного доступа. Чтобы опробовать вышеупомянутые возможности общения в режиме реального времени, вы можете загрузить приложение ChatGPT из Google Play Store или Apple App Store прямо на свой телефон.
После входа в систему вы сможете выбрать GPT-4o из списка, нажав на три точки в правом верхнем углу экрана. После перехода в чат с GPT-4o, если вы нажмете на знак "плюс" в левом нижнем углу экрана, вы увидите несколько вариантов ввода. В правом нижнем углу экрана вы увидите значок наушников. При выборе значка наушников вас спросят, хотите ли вы воспользоваться версией GPT-4o с громкой связью. После согласия вы сможете опробовать GPT-4o, как показано ниже.
Рис. 7. Пробуем GPT-4o в мобильном приложении ChatGPT.
Если вы хотите интегрировать расширенные возможности GPT-4o в свои собственные проекты, он доступен в виде API для разработчиков. С его помощью вы сможете внедрить в свои приложения мощное распознавание речи, многоязыковую поддержку и разговорные возможности GPT-4o в режиме реального времени. Используя API, вы сможете улучшить пользовательский опыт, создать более умные приложения и привнести передовые технологии искусственного интеллекта в различные отрасли.
GPT-4o: Еще не совсем человек
Хотя GPT-4o намного совершеннее предыдущих моделей ИИ, важно помнить, что у GPT-4o есть свои ограничения. Специалисты OpenAI отмечают, что иногда он может произвольно переключать языки во время разговора, переходя с английского на французский. Они также видели, как GPT-4o неправильно переводит с одного языка на другой. По мере того как все больше людей будут опробовать модель, мы поймем, в чем GPT-4o преуспевает, а в чем нуждается в дальнейшем совершенствовании.
Итоги
GPT-4o от OpenAI открывает новые двери для искусственного интеллекта благодаря передовой обработке текста, зрения и звука, обеспечивая естественное взаимодействие, подобное человеческому. Он превосходит всех по скорости, экономичности и многоязыковой поддержке. GPT-4o - это универсальный инструмент для образования, обеспечения доступности и помощи в режиме реального времени. По мере того как пользователи будут изучать возможности GPT-4o, отзывы будут определять его развитие. GPT-4o доказывает, что искусственный интеллект действительно меняет наш мир и становится частью нашей повседневной жизни.