OpenAI o1: Новые модели рассуждений ИИ - взгляд изнутри

ИИ-сообщество уже давно обсуждает следующий шаг для GPT-моделей OpenAI, и многие называют его "проектом "Клубника"". Причина этого в том, что если спросить GPT-4o, сколько букв "Р" в слове "клубника", он ответит, что в слове"клубника" две буквы "Р". Это может показаться странным, учитывая, насколько мощной является GPT-4o. Однако модель создана для обработки подтекста, а не точных слов. Ходили слухи, что следующая модель будет нацелена на решение этой проблемы. Sam Альтман еще больше подогрел эти слухи, опубликовав фотографии клубники на своем аккаунте X (ранее известном как Twitter).

Благодаря последнему анонсу OpenAI в четверг, 12 сентября, мы наконец-то получили ответ на спекуляции! OpenAI o1, новая серия моделей ИИ, разработанных для того, чтобы замедлиться и подумать, прежде чем отвечать, была выпущена. Интересно, что OpenAI o1 может лучше рассуждать и правильно отвечать на вопрос о клубнике! В этой статье мы обсудим, что такое OpenAI o1, как она работает, где ее можно использовать и что это значит для будущего ИИ. Давайте начнем!

__wf_reserved_inherit — Рис. 1. Пример запроса к OpenAI o1 о клубнике.

‍

Новые достижения в области ИИ от OpenAI

В июле 2024 года руководители OpenAI поделились информацией о том, что исследования OpenAI приближаются к человеческому уровню решения проблем, который называется уровнем 2 AI. Очевидно, что этот уровень фокусируется на рассуждениях, поскольку OpenAI представляет свою новую серию моделей OpenAI o1, как мышление перед ответом. OpenAI o1 - это новая LLM (большая языковая модель), модель AI, которая понимает и генерирует человекоподобный текст, изучая закономерности из огромных объемов языковых данных. Она была разработана для решения сложных проблем, требующих глубоких рассуждений.

‍

Модель была обучена с использованием обучения с подкреплением — метода, при котором модель учится принимать более эффективные решения посредством проб и ошибок, получая вознаграждения или штрафы за свои действия. Алгоритм обучения с подкреплением помогает модели мыслить более эффективно, следуя цепочке рассуждений. OpenAI также сообщила, что производительность o1 продолжает улучшаться по мере увеличения обучения с подкреплением во время обучения и увеличения времени, затрачиваемого на «размышления» во время решения проблем, что показывает, что как расширенное обучение, так и продуманная обработка помогают повысить способности модели.

Хотя OpenAI o1 - это значительное достижение в области сложных рассуждений, он все еще является ранней моделью и не имеет некоторых функций, которые делают ChatGPT полезным, например, просмотр веб-страниц или загрузка файлов и изображений. Для многих обычных задач GPT-4o пока может оказаться более способным. Однако OpenAI o1 знаменует собой большой шаг вперед в способности ИИ справляться со сложными рассуждениями, поэтому OpenAI начинает новую серию и называет ее OpenAI o1.

Как новые модели OpenAI улучшают логические рассуждения ИИ

OpenAI o1 можно использовать для таких задач, как расшифровка шифров, решение задач по программированию, ответы на математические задачи, решение кроссвордов и даже для работы со сложными темами в науке, безопасности и здравоохранении. В забавном намеке на кодовое название проекта OpenAI продемонстрировала навыки рассуждения модели, взломав шифр, который раскрыл сообщение "В КЛУБНИКЕ ТРИ БУКВЫ Р".

Помимо решения шифров, OpenAI o1 также хорошо владеет программированием. Он демонстрирует хорошие результаты в соревнованиях по программированию, таких как Codeforces, платформе, где программисты решают сложные задачи на время. В этих соревнованиях модель достигает высоких рейтингов Elo (система оценки, измеряющая уровень мастерства на основе результатов по сравнению с другими участниками) и превосходит предыдущие модели. Она также преуспевает в математике и хорошо справляется с экзаменами, такими как Американский пригласительный математический экзамен (AIME).

‍

Эти усовершенствования позиционируют OpenAI o1 как значительное обновление по сравнению с более ранними моделями, такими как GPT-4o. Это открывает новые возможности для ИИ в таких областях, как бизнес, разработка, исследования и здравоохранение. Например, в генетических исследованиях OpenAI o1 может быстро просматривать большое количество научных работ, выделяя ключевые результаты и связи между генетическими маркерами и заболеваниями. Он понимает сложный научный язык и может суммировать важные моменты, помогая исследователям сосредоточиться на наиболее релевантной информации.

Более пристальный взгляд на цепочку рассуждений

Ранее мы видели, что OpenAI o1 представляет процесс рассуждения «Цепочка мыслей». Это позволяет модели решать сложные проблемы аналогично человеческим когнитивным стратегиям. Модель может разбивать задачи на более мелкие, управляемые этапы и итеративно совершенствовать свой подход. В отличие от более ранних моделей, которые полагались на немедленное распознавание образов, o1 оптимизирует принятие решений, исследуя несколько путей рассуждений, извлекая уроки как из успехов, так и из ошибок посредством обучения с подкреплением.

OpenAI решила скрыть эти необработанные цепочки мыслей от пользователей, предлагая вместо этого сводки, которые дают представление о рассуждениях модели, не раскрывая каждый шаг. Это решение помогает предотвратить неправильное использование мыслительного процесса модели, позволяя при этом разработчикам отслеживать и совершенствовать безопасность и согласованность ИИ. Наблюдая за скрытыми цепочками внутри компании, разработчики могут гарантировать, что o1 придерживается этических принципов и избегает вредоносного поведения.

Бенчмаркинг OpenAI o1

OpenAI o1 демонстрирует значительные улучшения по сравнению с GPT-4o в нескольких бенчмарках, которые проверяют способности к рассуждению и решению проблем. На Американском пригласительном математическом экзамене (AIME) 2024, сложном математическом экзамене для лучших старшеклассников, o1 достигла 74% точности, используя только один пример на задачу, по сравнению с 12% у GPT-4o. При консенсусе по 64 образцам ее точность возросла до 83%, а при использовании усовершенствованного метода повторного ранжирования с 1000 образцами она достигла 93%, что позволило ей войти в число 500 лучших учеников в стране.

Помимо математики, o1 также исключительно хорошо показала себя в тестах, проверяющих научные знания, таких как GPQA Diamond, который охватывает вопросы уровня PhD по химии, физике и биологии. Примечательно, что o1 превзошла экспертов с докторской степенью в этом тесте, став первой моделью ИИ, сделавшей это. Она также превзошла GPT-4o по 54 из 57 категорий в тесте MMLU, который проверяет понимание по широкому кругу предметов, включая историю, право и науку.

‍

Получите практический опыт работы с OpenAI o1

OpenAI представила две новые модели ИИ в серии o1: o1-preview и o1-mini. Модель o1-preview предназначена для более глубокого обдумывания перед ответом, преуспевая в сложных задачах рассуждения в науке, программировании и математике. Она предлагает расширенные возможности решения проблем для пользователей, занимающихся сложными проектами. В отличие от нее, o1-mini - это меньшая, более быстрая и экономичная модель, оптимизированная специально для STEM-рассуждений, особенно математики и программирования. Хотя она может обладать меньшим объемом мировых знаний, o1-mini почти соответствует производительности o1-preview в ключевых оценках, таких как математическое соревнование AIME и задачи по программированию Codeforces, и все это при 80% меньших затратах.

‍

Вы можете опробовать эти модели на различных платформах OpenAI. Пользователи ChatGPT Plus и Team могут получить доступ к моделям o1-preview и o1-mini с помощью инструмента выбора моделей и испытать расширенные возможности рассуждений прямо в ChatGPT. Разработчики с доступом к API уровня 5 могут начать создавать прототипы с помощью этих моделей, хотя некоторые расширенные функции еще находятся в разработке. OpenAI также планирует вскоре сделать o1-mini доступным для всех пользователей ChatGPT Free. Изучив эти модели, вы сможете воочию убедиться в достижениях в области искусственного интеллекта и выбрать ту, которая лучше всего соответствует вашим потребностям.

Этические аспекты ИИ, рассматриваемые OpenAI

OpenAI уделила особое внимание этике и безопасности при разработке серии моделей o1. Перед выпуском моделей o1-preview и o1-mini они провели тщательные оценки, включая внешние тесты и внутренние проверки на наличие рисков, таких как запрещенный контент, галлюцинации и предвзятость. Модели разработаны с расширенными возможностями рассуждения, чтобы лучше понимать и соблюдать правила безопасности.

OpenAI также внедрила меры безопасности, такие как черные списки и классификаторы безопасности, для управления рисками. Модель o1 имеет среднюю общую оценку риска. Она имеет низкие риски в таких областях, как кибербезопасность и автономность модели, и средние риски в таких областях, как контент CBRN (химический, биологический, радиологический и ядерный) и убеждение. Консультативная группа по безопасности и Совет директоров OpenAI рассмотрели эти меры безопасности, чтобы убедиться, что модель безопасна и этична в использовании.

‍

От слухов к реальности: OpenAI o1 выходит на сцену

OpenAI o1 - это большой шаг вперед в развитии искусственного интеллекта, превративший некоторые из ранних слухов в реальность. В отличие от GPT-4o, серия o1 мыслит более глубоко, используя подход "Цепочка мыслей", разбивая сложные проблемы на более мелкие шаги для лучшего ответа. В настоящее время в ChatGPT и API доступна ранняя предварительная версия, OpenAI планирует добавить такие функции, как просмотр веб-страниц, загрузка файлов и изображений. OpenAI также поделилась, что планирует продолжать разработку и выпуск моделей серии GPT, а также новой серии OpenAI o1. По мере того как ИИ продолжает развиваться, подобные достижения прокладывают путь к созданию более мощных, интуитивных и универсальных систем ИИ, которые смогут лучше помогать и понимать потребности человека.

Будьте в курсе последних новостей в области ИИ, присоединившись к нашему сообществу! Перейдите в наш репозиторий GitHub, чтобы узнать, как мы внедряем передовые решения в области ИИ в таких секторах, как производство и здравоохранение. 🚀

OpenAI o1: Новая серия моделей OpenAI для рассуждений ИИ

Новые достижения в области ИИ от OpenAI

Как новые модели OpenAI улучшают логические рассуждения ИИ

Более пристальный взгляд на цепочку рассуждений

Бенчмаркинг OpenAI o1

Получите практический опыт работы с OpenAI o1

Этические аспекты ИИ, рассматриваемые OpenAI

От слухов к реальности: OpenAI o1 выходит на сцену

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Инструменты Vision AI для диагностики в здравоохранении

От данных к решениям: использование искусственного интеллекта для разработки корпоративной стратегии

Давайте строить будущее
ИИ вместе!

OpenAI o1: Новая серия моделей OpenAI для рассуждений ИИ

Новые достижения в области ИИ от OpenAI

Как новые модели OpenAI улучшают логические рассуждения ИИ

Более пристальный взгляд на цепочку рассуждений

Бенчмаркинг OpenAI o1

Получите практический опыт работы с OpenAI o1

Этические аспекты ИИ, рассматриваемые OpenAI

От слухов к реальности: OpenAI o1 выходит на сцену

Читать больше в этой категории

12 примеров использования аэрофотоснимков с помощью компьютерного зрения

Инструменты Vision AI для диагностики в здравоохранении

От данных к решениям: использование искусственного интеллекта для разработки корпоративной стратегии

Давайте строить будущее ИИ вместе!

Давайте строить будущее
ИИ вместе!