Последние обновления OpenAI: Canvas, Vision Fine-Tuning и многое другое

Присоединяйся к нам, чтобы поближе познакомиться с недавними обновлениями ChatGPT , выпущенными OpenAI. Мы изучим Canvas, тонкую настройку возможностей зрения и новейшую функцию Search.

Written by

Абирами Вина

мин. чтения

7 ноября 2024 года

3 апреля 2025 года

Обзор функции холста в OpenAI

Обновления API в ChatGPT

Модельная дистилляция

Кэширование подсказок

API реального времени

Тонкая настройка ChatGPT для задач, связанных со зрением

Справедливость и обнаружение предвзятости ChatGPT

Понимание поиска в ChatGPT

Дорога вперед

После того как в сентябре мы в последний раз рассмотрели модели o1 от OpenAI (которые были призваны улучшить рассуждения), в ChatGPT появилось множество новых и интересных функций. Некоторые из этих релизов ориентированы на разработчиков, а другие направлены на улучшение пользовательского опыта. В целом каждое обновление помогает сделать взаимодействие с ChatGPT более интуитивным и эффективным.

Такие обновления, как Canvas, предназначенный для совместного написания и кодирования, и тонкая настройка возможностей зрения, улучшающая работу ChatGPT с изображениями, вызвали большой интерес, побуждая пользователей исследовать больше творческих возможностей. Тем временем технические обновления, такие как новые API и отчеты о проверке на честность, затрагивают такие аспекты, как интеграция моделей и этические практики ИИ . Давай окунемся в эту тему и лучше узнаем о последних ChatGPT функциях от OpenAI!

Обзор функции холста в OpenAI

Canvas - это первое серьезное обновление пользовательского интерфейса (UI) ChatGPTс момента его выхода. Это новый интерфейс с двухэкранной компоновкой, подсказками на левой боковой панели и ответами в правом окне. Новый пользовательский интерфейс устраняет привычную схему работы чата с одним экраном и переходит к двухэкранной схеме, которая подходит для многозадачности и повышает продуктивность.

Рис 1. Canvas приносит обновления пользовательского интерфейса на ChatGPT.

‍

До появления Canvas работа с длинными документами на ChatGPT означала необходимость прокручивать экран вверх-вниз. В новом макете подсказки отображаются на левой боковой панели, а текстовый документ или фрагмент кода занимает большую часть экрана. При необходимости ты можешь даже настроить размер левой боковой панели и экрана вывода. Кроме того, ты можешь выделить часть текста или участок кода и отредактировать конкретный раздел, не изменяя весь документ.

Рис 2. Редактируй определенные участки текста с помощью Canvas.

‍

Если ты используешь Canvas, то заметишь, что на интерфейсе ChatGPT нет специальной кнопки или тумблера для его открытия. Вместо этого, когда ты работаешь с моделью GPT-4o, Canvas открывается автоматически, если обнаруживает, что ты редактируешь, пишешь или кодишь. Для более простых подсказок он остается неактивным. Если ты хочешь открыть его вручную, то можешь воспользоваться такими подсказками, как "Открыть Canvas" или "Дайте мне макет Canvas".

В настоящее время Canvas находится в бета-версии и доступен только для GPT-4o. Однако OpenAI упомянула, что Canvas будет доступен для всех бесплатных пользователей, когда выйдет из бета-версии.

Обновления API в ChatGPT

OpenAI выпустил три новых обновления ChatGPT API, направленных на повышение эффективности, масштабируемости и универсальности. Давай подробнее рассмотрим каждое из этих обновлений.

Модельная дистилляция

Используя функцию Model Distillation через API OpenAI, разработчики могут использовать результаты продвинутых моделей вроде GPT-4o или o1-preview для повышения производительности более мелких и экономичных моделей вроде GPT-4o mini. Дистилляция моделей - это процесс, который включает в себя обучение более мелких моделей подражать поведению более продвинутых, что делает их более эффективными для решения конкретных задач.

До появления этой функции разработчикам приходилось вручную координировать множество задач с помощью различных инструментов. Эти задачи включали в себя генерацию наборов данных, измерение производительности модели и тонкую настройку моделей, что часто делало процесс сложным и подверженным ошибкам. Обновление Model Distillation позволяет разработчикам использовать Stored Completions - инструмент, позволяющий автоматически генерировать наборы данных, захватывая и сохраняя пары вход-выход, созданные продвинутыми моделями через API.

Еще одна функция Model Distillation, Evals (в настоящее время находится в бета-версии), помогает измерить, насколько хорошо модель справляется с определенными задачами, без необходимости создавать пользовательские сценарии оценки или использовать отдельные инструменты. Используя наборы данных , созданные с помощью Stored Completions, и оценивая производительность с помощью Evals, разработчики могут точно настроить свои собственные модели GPT.

Рис. 3. Ты можешь использовать Evals для измерения производительности модели.

‍

Кэширование подсказок

Часто при создании ИИ-приложений, особенно чат-ботов, один и тот же контекст (фоновая информация или история предыдущих разговоров, необходимая для понимания текущего запроса) будет использоваться многократно для нескольких вызовов API. Кэширование подсказок позволяет разработчикам повторно использовать недавно использованные входные маркеры (сегменты текста, которые модель обрабатывает, чтобы понять подсказку и сгенерировать ответ), что помогает снизить затраты и задержки.

С 1 октября OpenAI автоматически применяет Prompt Caching к таким своим моделям, как GPT-4o, GPT-4o mini, o1-preview и o1-mini. Это значит, что когда разработчики используют API для взаимодействия с моделью с длинной подсказкой (более 1024 токенов), система сохраняет те части, которые она уже обработала.

Таким образом, при повторном использовании одинаковых или похожих подсказок можно будет не пересчитывать эти части. Система автоматически кэширует самую длинную часть подсказки, с которой она уже сталкивалась, начиная с 1 024 лексем и добавляя куски по 128 лексем по мере увеличения длины подсказки.

API реального времени

Создание голосового помощника обычно подразумевает необходимость транскрибировать аудио в текст, обработать текст, а затем снова преобразовать его в аудио, чтобы воспроизвести ответ. API реального времени от OpenAI призван обрабатывать весь этот процесс с помощью одного API-запроса. Упрощая этот процесс, API позволяет вести беседы с ИИ в реальном времени.

Например, голосовой помощник, интегрированный с Realtime API, может выполнять определенные действия, такие как оформление заказа или поиск информации, основываясь на запросах пользователя. API делает голосового помощника более отзывчивым и способным быстро адаптироваться к потребностям пользователей. Realtime API стал доступен через публичную бета-версию 1 октября с шестью голосами. 30 октября было добавлено еще пять голосов, таким образом, всего стало доступно одиннадцать голосов.

Рис. 4. Пример использования Realtime API для отработки разговоров на новом языке.

‍

Тонкая настройка ChatGPT для задач, связанных со зрением

Изначально языковая модель зрения GPT-4o могла быть настроена только на текстовых наборах данных. Теперь же, с выходом API для тонкой настройки зрения, разработчики могут обучать и настраивать GPT-4o с помощью наборов данных изображений. С момента выхода API тонкая настройка зрения стала одной из главных тем, интересующих разработчиков и инженеров по компьютерному зрению.

Для тонкой настройки возможностей зрения GPT-4o разработчики могут использовать наборы данных изображений, которые могут варьироваться от 100 до 50 000 изображений. Убедившись, что набор данных соответствует формату, требуемому OpenAI, его можно загрузить на платформу Openai и доработать модель под конкретные задачи.

Например, Automat, компания, занимающаяся автоматизацией, использовала набор скриншотов для обучения GPT-4o умению определять элементы пользовательского интерфейса на экране по описанию. Это помогает оптимизировать автоматизацию роботизированных процессов (RPA), облегчая ботам взаимодействие с пользовательскими интерфейсами. Вместо того чтобы полагаться на фиксированные координаты или сложные правила выбора, модель может идентифицировать элементы пользовательского интерфейса на основе простых описаний, что делает настройки автоматизации более адаптируемыми и более простыми в обслуживании при изменении интерфейсов.

Рис. 5. Использование доработанной версии модели GPT-4o для обнаружения элементов пользовательского интерфейса.

‍

Справедливость и обнаружение предвзятости ChatGPT

Этические проблемы, связанные с применением искусственного интеллекта, являются одной из самых обсуждаемых тем по мере того, как ИИ становится все более совершенным. Поскольку ответы ChatGPTоснованы на подсказках пользователя и данных, доступных в Интернете, может быть сложно настроить его язык так, чтобы он всегда был ответственным. В отчетах говорится, что ответыChatGPTнеобъективны в отношении имени, пола и расы. Чтобы решить эту проблему, команда OpenAI провела тест на справедливость ответов от первого лица.

Имена часто несут в себе тонкие намеки на нашу культуру и географические факторы. В большинстве случаев ChatGPT будет игнорировать тонкие намеки в именах. Однако в некоторых случаях имена, отражающие расу или культуру, вызывают разные реакции ChatGPT, причем около 1% из них отражают вредную лексику. Устранение предвзятости и вредной лексики - сложная задача для языковой модели. Однако, публикуя эти результаты и признавая ограничения модели, OpenAI помогает пользователям доработать свои подсказки, чтобы добиться более нейтральных, непредвзятых ответов.

Рис. 6. Пример разной реакции из-за имени пользователя.

‍

Понимание поиска в ChatGPT

Когда ChatGPT только появился, в ИИ-сообществе велись дискуссии о том, сможет ли он заменить традиционный веб-браузинг. Сейчас многие пользователи используют ChatGPT вместо Google Search.

Новое обновление OpenAI, функция "Поиск", делает этот шаг дальше. С помощью Search ChatGPT генерирует актуальные ответы и включает в них ссылки на релевантные источники. С 31 октября функция "Поиск" доступна всем пользователям ChatGPT Plus и Team, благодаря чему ChatGPT станет больше похожа на поисковую систему, работающую на основе искусственного интеллекта.

Рис. 7. Пример использования новой функции поиска ChatGPT.

‍

Дорога вперед

ChatGPTПоследние обновления направлены на то, чтобы сделать ИИ более полезным, гибким и справедливым. Новая функция Canvas помогает пользователям работать эффективнее, а тонкая настройка зрения позволяет разработчикам настраивать модели, чтобы они лучше справлялись с визуальными задачами. Решение проблемы справедливости и уменьшение предвзятости также являются ключевыми приоритетами, гарантирующими, что ИИ будет хорошо работать для всех, независимо от того, кем они являются. Независимо от того, являешься ли ты разработчиком, дорабатывающим модели, или просто используешь новейшие функции, ChatGPT развивается, чтобы удовлетворить широкий спектр потребностей. Благодаря возможностям реального времени, визуальной интеграции и ориентации на ответственное использование, эти обновления создают более надежный и достоверный опыт работы с ИИ для всех.

Узнай больше об искусственном интеллекте, посетив наш репозиторий на GitHub и присоединившись к нашему сообществу. Узнай больше о применении ИИ в самовождении и здравоохранении.

Последние обновления OpenAI: Canvas, Vision Fine-Tuning и многое другое

Обзор функции холста в OpenAI