Зелёная проверка
Ссылка копируется в буфер обмена

OpenAI o1: Новая серия моделей OpenAI для рассуждений об искусственном интеллекте

Узнай о недавно запущенных моделях OpenAI o1 и о том, что делает их особенными. Мы также рассмотрим, как они работают и какое влияние окажут на будущее ИИ.

ИИ-сообщество гудит от догадок о следующем шаге GPT-моделей OpenAI, и многие называют его "проектом "Клубника"". Причина этого в том, что если ты спросишь GPT-4o, сколько букв "Р" в слове "клубника", то он ответит тебе, что в слове"клубника" две буквы "Р". Это может показаться странным, учитывая, насколько мощной является GPT-4o. Однако модель построена так, чтобы обрабатывать подтекст, а не точные слова. Ходили слухи, что следующая модель будет нацелена на решение этой проблемы. Sam Альтман еще больше подогревал эти слухи, публикуя фотографии клубники на своем аккаунте X (ранее известном как Twitter).

С последним анонсом OpenAI в четверг, 12 сентября, у нас наконец-то появился ответ на домыслы! OpenAI o1, новая серия моделей ИИ, созданных для того, чтобы замедляться и думать, прежде чем ответить, была выпущена. Интересно, что OpenAI o1 может рассуждать лучше и правильно ответить на вопрос о клубнике! В этой статье мы обсудим, что такое OpenAI o1, как он работает, где его можно использовать и что он значит для будущего ИИ. Давай начнем!

Рис. 1. Пример подсказки OpenAI o1 о клубнике.

Новые достижения в области искусственного интеллекта от OpenAI

В июле 2024 года руководители OpenAI рассказали, что исследования OpenAI приближаются к человеческому уровню решения проблем, называемому вторым уровнем ИИ. Очевидно, что этот уровень фокусируется на рассуждениях, так как OpenAI представляет свою новую серию моделей, OpenAI o1, как думающую, прежде чем ответить. OpenAI o1 - это новая LLM (large language model), модель ИИ, которая понимает и генерирует человекоподобный текст, изучая закономерности на основе огромного количества языковых данных. Она была разработана для решения сложных задач, требующих глубоких рассуждений. 

Рис. 2. Взгляд OpenAI на этапы развития ИИ.

Модель была обучена с помощью обучения с подкреплением- техники, при которой модель учится принимать лучшие решения методом проб и ошибок, получая вознаграждения или наказания за свои действия. Алгоритм обучения с подкреплением помогает модели думать более эффективно, следуя цепочке мыслей. OpenAI также поделился, что производительность o1 продолжает улучшаться с увеличением количества обучения с подкреплением во время тренировок и с увеличением времени, проведенного "в раздумьях" во время решения задач, показывая, что как длительное обучение, так и вдумчивая обработка помогают повысить способности модели.

Хотя OpenAI o1 - это значительное достижение в области сложных рассуждений, это все еще ранняя модель, и ей не хватает некоторых функций, которые делают ChatGPT полезным, например, просмотр веб-страниц или загрузка файлов и изображений. Для многих обычных задач GPT-4o пока может оказаться более способным. Однако OpenAI o1 знаменует собой большой шаг вперед в способности ИИ справляться со сложными рассуждениями, поэтому OpenAI начинает новую серию и называет ее OpenAI o1.

Как новые модели OpenAI улучшают рассуждения ИИ

OpenAI o1 можно использовать для таких задач, как расшифровка шифров, решение задач по программированию, ответы на математические задачи, разгадывание кроссвордов и даже сложные темы в науке, безопасности и здравоохранении. В забавном кивке на кодовое имя проекта OpenAI продемонстрировал способности модели к рассуждению, взломав шифр, который раскрыл сообщение "THERE ARE THREE R'S IN STRAWBERRY". 

Помимо разгадывания шифров, OpenAI o1 также искусен в кодинге. Она отлично справляется с соревновательными задачами по программированию, например, на Codeforces - платформе, где программисты решают сложные задачи по кодированию в условиях ограниченного времени. В этих испытаниях модель достигает высоких рейтингов Эло (система оценок, которая измеряет уровень мастерства на основе результатов, полученных в сравнении с другими участниками) и превосходит предыдущие модели. Кроме того, она отлично разбирается в математике и показывает высокие результаты на таких экзаменах, как American Invitational Mathematics Examination (AIME). 

Рис. 3. Бенчмаркинг способностей o1 к кодированию.

Эти достижения позиционируют OpenAI o1 как значительный апгрейд по сравнению с более ранними моделями, такими как GPT-4o. Он открывает новые возможности для ИИ в таких областях, как бизнес, разработки, исследования и здравоохранение. Например, в исследованиях генетики OpenAI o1 может быстро просмотреть большое количество научных работ, вычленить ключевые выводы и связи между генетическими маркерами и заболеваниями. Он понимает сложный научный язык и может кратко излагать важные моменты, помогая исследователям сосредоточиться на самой важной информации. 

Более пристальный взгляд на цепочку мыслей

Ранее мы видели, что в OpenAI o1 реализован процесс рассуждений "Цепочка мыслей". Он позволяет модели решать сложные проблемы способом, похожим на человеческие когнитивные стратегии. Модель может разбивать задачи на более мелкие, управляемые шаги и итеративно совершенствовать свой подход. В отличие от предыдущих моделей, которые полагались на мгновенное распознавание шаблонов, o1 оптимизирует процесс принятия решений, исследуя множество путей рассуждений, учась как на успехах, так и на ошибках с помощью обучения с подкреплением.

OpenAI решила не скрывать от пользователей эти необработанные цепочки мыслей, вместо этого предлагая резюме, которые дают представление о рассуждениях модели, не раскрывая каждый шаг. Это решение помогает предотвратить злоупотребление мыслительным процессом модели и в то же время позволяет разработчикам отслеживать и совершенствовать безопасность и согласованность ИИ. Наблюдая за скрытыми цепочками изнутри, разработчики могут убедиться, что o1 придерживается этических рекомендаций и избегает вредного поведения.

Бенчмаркинг OpenAI o1

OpenAI o1 демонстрирует значительные улучшения по сравнению с GPT-4o в нескольких бенчмарках, проверяющих способность рассуждать и решать задачи. На American Invitational Mathematics Examination (AIME) 2024, сложном экзамене по математике для лучших старшеклассников, o1 достиг 74% точности при решении всего одной задачи, по сравнению с 12% у GPT-4o. При консенсусе по 64 примерам его точность возросла до 83%, а при использовании уточненного метода повторного ранжирования с 1 000 примеров - до 93%, что позволило ему войти в число 500 лучших студентов по стране. 

Помимо математики, o1 также показал исключительные результаты в тестах, проверяющих научные знания, например в GPQA Diamond, который охватывает вопросы уровня доктора наук по химии, физике и биологии. Примечательно, что в этом тесте o1 превзошел человеческих экспертов с докторской степенью, став первой моделью ИИ, которой удалось это сделать. Она также превзошла GPT-4o по 54 из 57 категорий в бенчмарке MMLU, который проверяет понимание различных предметов, включая историю, право и науку.

Рис 4. Бенчмаркинг OpenAI o1.

Попрактикуйся с OpenAI o1

Компания OpenAI представила две новые модели ИИ в серии o1: o1-preview и o1-mini. Модель o1-preview предназначена для более глубокого размышления перед ответом и отлично справляется со сложными задачами по науке, кодированию и математике. Она предлагает расширенные возможности решения проблем для пользователей, занимающихся сложными проектами. Напротив, o1-mini - это более компактная, быстрая и экономичная модель, оптимизированная специально для рассуждений в области STEM, в частности математики и кодинга. Несмотря на то, что o1-mini обладает менее обширными знаниями о мире, она почти соответствует результатам o1-preview в таких ключевых оценках, как математические соревнования AIME и задачи по кодингу Codeforces, и при этом стоит на 80 % меньше.

Рис. 5. Сравнение моделей OpenAI.

Ты можешь опробовать эти модели через различные платформы OpenAI. ChatGPT Пользователи Plus и Team могут получить доступ к o1-preview и o1-mini через пикер моделей, испытывая расширенные возможности рассуждений прямо в ChatGPT. Разработчики с доступом к API пятого уровня могут начать создавать прототипы с помощью этих моделей, хотя некоторые продвинутые функции все еще находятся в разработке. OpenAI также планирует в скором времени сделать o1-mini доступным для всех пользователей ChatGPT Free. Изучив эти модели, ты сможешь воочию убедиться в достижениях ИИ-рассуждений и выбрать ту, которая лучше всего подходит для твоих нужд.

Этические соображения об искусственном интеллекте, высказанные OpenAI

При разработке серии моделей o1 OpenAI уделяла особое внимание этике и безопасности. Прежде чем выпустить модели o1-preview и o1-mini, они провели тщательную оценку, включая внешние тесты и внутренние проверки на наличие таких рисков, как запрещенный контент, галлюцинации и предвзятость. Модели разработаны с расширенными способностями к рассуждениям, чтобы лучше понимать и соблюдать правила безопасности. 

OpenAI также внедрила такие средства защиты, как блокчейн и классификаторы безопасности, чтобы управлять рисками. Модель o1 имеет средний общий рейтинг риска. Она имеет низкий риск в таких областях, как кибербезопасность и автономность модели, и средний риск в таких областях, как содержание и убеждение CBRN (Chemical, Biological, Radiological, and Nuclear). Консультативная группа по безопасности и совет директоров OpenAI рассмотрели эти меры безопасности, чтобы убедиться, что модель безопасна и этична в использовании.

Рис 6. Оценочная карта OpenAI o1.

От слухов к реальности: OpenAI o1 выходит на сцену

OpenAI o1 - это большой шаг вперед в развитии ИИ-рассуждений, превращающий некоторые из ранних слухов в реальность. В отличие от GPT-4o, серия o1 мыслит более глубоко, используя подход "Цепочка мыслей", разбивая сложные проблемы на более мелкие шаги для лучшей реакции. В настоящее время в качестве раннего предварительного просмотра доступны ChatGPT и API, OpenAI планирует добавить такие функции, как просмотр веб-страниц, загрузка файлов и изображений. OpenAI также поделился, что планирует продолжать разработку и выпуск моделей серии GPT, наряду с новой серией OpenAI o1. По мере того как ИИ продолжает развиваться, подобные достижения прокладывают путь к созданию более мощных, интуитивных и универсальных систем ИИ, которые смогут лучше помогать и понимать потребности человека.

Будь в курсе последних достижений в области ИИ, присоединившись к нашему сообществу! Загляни в наш репозиторий GitHub, чтобы узнать, как мы создаем передовые решения в области ИИ в таких отраслях, как производство и здравоохранение. 🚀

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения