グリーンチェック
クリップボードにコピーされたリンク

OpenAI o1:AI推論のためのOpenAIモデルの新シリーズ

新しく発表されたOpenAIのo1モデルについて、その特徴をご紹介します。また、OpenAI o1がどのように機能し、AIの未来にどのような影響を与えるのかについてもご紹介します。

AIコミュニティは、OpenAIのGPTモデルの次のステップについての憶測で賑わっており、多くの人が "プロジェクト・ストロベリー "と呼んでいる。その理由は、GPT-4oに「"strawberry "という単語にはRがいくつあるか」と尋ねると、「"strawberry"という単語にはRが2つある」と答えるからだ。GPT-4oの強力さを考えると、奇妙に思えるかもしれない。しかし、このモデルは正確な単語ではなく、サブテキストを処理するように作られている。次期モデルはこの問題を解決することを目的としていると噂されていた。Sam アルトマンは自身のX(旧ツイッター)アカウントにイチゴの写真を投稿し、この噂をさらに煽った。

9月12日(木)のOpenAIの最新発表で、ようやく推測に対する答えが出た!OpenAI o1という、ゆっくり考えてから応答するように設計されたAIモデルの新シリーズがリリースされました。興味深いことに、OpenAI o1はより良い推論ができ、イチゴに関する質問に正しく答えることができる!この記事では、OpenAI o1とは何か、どのように機能するのか、どこで使えるのか、AIの未来にとって何を意味するのかについて説明します。さっそく始めよう!

図1.OpenAI o1にイチゴについて質問した例。

OpenAIによるAIの新たな進歩

2024年7月、OpenAIの幹部は、OpenAIの研究がAIのレベル2と呼ばれる人間レベルの問題解決に近づいていることを明らかにした。OpenAIの新しいモデルシリーズであるOpenAI o1が、答えを出す前に考えることを紹介しているように、このレベルが推論に焦点を当てていることは明らかだ。OpenAI o1は新しいLLM(大規模言語モデル)であり、大量の言語データからパターンを学習することで、人間のようなテキストを理解し生成するAIモデルである。深い推論を必要とする複雑な問題に対応できるように設計されている。 

図2.OpenAIが考えるAIのステージ。

このモデルは強化学習を使って 訓練されている。強化学習とは、モデルがその行動に対して報酬やペナルティを受けることで、試行錯誤を繰り返しながらより良い決断を下すことを学習する手法である。強化学習アルゴリズムは、思考の連鎖に従うことで、モデルがより効果的に思考するのを助ける。OpenAIはまた、o1のパフォーマンスが、トレーニング中の強化学習と問題解決中の「思考」に費やす時間の増加によって向上し続けていることを共有し、長時間のトレーニングと熟考された処理の両方がモデルの能力を高めるのに役立っていることを示している。

OpenAI o1は複雑な推論を可能にする重要な進歩ではあるが、まだ初期のモデルであり、ウェブの閲覧やファイルや画像のアップロードなど、ChatGPT を便利にするいくつかの機能が欠けている。多くの一般的なタスクについては、今のところGPT-4oの方がまだ高性能かもしれない。しかし、OpenAI o1は、複雑な推論を処理するAIの能力において大きな前進を示すものであり、だからこそOpenAIは新しいシリーズを開始し、OpenAI o1と呼んでいるのです。

OpenAIの新モデルがAIの推論をどのように強化するか

OpenAI o1は、暗号解読、プログラミング課題の解決、数学問題の解答、クロスワードへの取り組み、さらには科学安全ヘルスケアにおける複雑なトピックの処理などのタスクに使用することができる。プロジェクトのコード名にちなんで、OpenAIはこのモデルの推論能力を、"TERE A THREE R'S IN STRAWBERRY(ストロベリーには3つのRがある)"というメッセージを明らかにする暗号を解読することで示した。 

暗号を解くだけでなく、OpenAI o1はコーディングにも長けている。プログラマーが複雑なコーディング問題を時間制限付きで解くプラットフォームであるCodeforcesのような、競争的なプログラミングの課題でも好成績を収めている。これらの課題において、このモデルは高いEloレーティング(他の競争相手との対戦成績に基づいてスキルレベルを測定する採点システム)を達成し、以前のモデルを凌駕している。また、数学にも優れており、AIME(American Invitational Mathematics Examination)のような試験でも好成績を収めている。 

図3.o1のコーディング能力のベンチマーク。

これらの進化により、OpenAI o1はGPT-4oのような以前のモデルから大幅にアップグレードされたものと位置づけられる。ビジネス、開発、研究ヘルスケアなどの分野におけるAIの新たな可能性を開く。例えば、遺伝学の研究において、OpenAI o1は大量の研究論文に素早く目を通し、重要な知見や遺伝マーカーと病気の関連性を選び出すことができる。複雑な科学用語を理解し、重要なポイントを要約することができるので、研究者は最も関連性の高い情報に集中することができます。 

思考の連鎖に迫る

先に、OpenAI o1が「思考の連鎖」推論プロセスを導入していることを見た。これにより、モデルは人間の認知戦略に似た方法で複雑な問題に取り組むことができる。このモデルは、課題をより小さく管理可能なステップに分解し、アプローチを反復的に改良することができる。即座のパターン認識に頼っていた以前のモデルとは異なり、o1は複数の推論経路を探索し、強化学習を通じて成功と失敗の両方から学習することで、意思決定を最適化する。

OpenAIは、これらの生の思考の連鎖をユーザーから隠蔽し、代わりに、すべてのステップを公開することなく、モデルの推論への洞察を提供する要約を提供することを決定しました。この決定は、開発者がAIの安全性とアライメントを監視し、改良することを可能にしながら、モデルの思考プロセスの悪用を防ぐのに役立ちます。隠された連鎖を内部で観察することで、開発者はo1が倫理的ガイドラインを遵守し、有害な行動を回避することを確認することができる。

OpenAIのベンチマーク o1

OpenAI o1は、推論と問題解決能力をテストするいくつかのベンチマークにおいて、GPT-4oを大きく上回る結果を示しました。AIME(American Invitational Mathematics Examination)2024は、トップクラスの高校生を対象とした難易度の高い数学の試験で、o1は、1つの問題につき1つのサンプルで74%の精度を達成したのに対し、GPT-4oは12%でした。64のサンプルでコンセンサスを得ると、その精度は83%に上昇し、1,000のサンプルで洗練された再ランキング方法を使用すると、93%に達し、全米トップ500の学生の中に入りました。 

化学、物理学生物学の博士号レベルの問題を扱うGPQAダイヤモンドのような、科学知識をテストするベンチマークでも、o1は非常に優れた成績を収めた。驚くべきことに、o1はこのテストで博士号を持つ人間の専門家を上回った。また、歴史法律、科学など多様な分野の理解をテストするMMLUベンチマークでは、57カテゴリー中54カテゴリーでGPT-4oを上回った。

図4.OpenAI o1のベンチマーク。

OpenAI o1のハンズオン

OpenAIは、o1シリーズに2つの新しいAIモデル、o1-previewとo1-miniを発表した。o1-previewは、より深く考えてから応答するように設計されており、科学、コーディング、数学の複雑な推論タスクに優れています。困難なプロジェクトに取り組むユーザーに高度な問題解決能力を提供します。対照的に、o1-miniはSTEM推論、特に数学とコーディングのために最適化された、より小さく、より速く、より費用対効果の高いモデルです。o1-miniは、幅広い知識は少ないかもしれませんが、AIME数学コンペティションやCodeforcesコーディングチャレンジのような主要な評価において、o1-previewのパフォーマンスとほぼ同等であり、すべて80%低いコストで提供されます。

図5.OpenAIのモデルの比較。

様々なOpenAIプラットフォームを通じて、これらのモデルを試すことができます。ChatGPT PlusとTeamのユーザーは、モデルピッカー経由でo1-previewとo1-miniの両方にアクセスすることができ、ChatGPT で強化された推論機能を直接体験することができます。API利用ティア5にアクセスできる開発者は、これらのモデルでプロトタイピングを始めることができるが、いくつかの高度な機能はまだ開発中である。OpenAIはまた、o1-miniをすべてのChatGPT Freeユーザーがすぐに利用できるようにする予定です。これらのモデルを探索することで、AI推論の進歩を直接体験し、あなたのニーズに最も適したものを選択することができます。

OpenAIによるAIの倫理的考察

OpenAIは、o1モデルシリーズの開発において、倫理性と安全性を重視してきた。o1-previewとo1-miniモデルをリリースする前に、外部テストや、許可されていないコンテンツ、幻覚、バイアスなどのリスクに対する内部チェックを含む徹底的な評価を行った。安全ルールをより理解し、遵守するための高度な推論能力を備えたモデルとなっている。 

OpenAIはまた、ブロックリストやセーフティクラシファイアのようなセーフガードを実装し、リスクを管理している。o1モデルの総合的なリスク評価は中程度である。サイバーセキュリティやモデルの自律性のような分野では低リスク、CBRN(化学、生物、放射線、核)コンテンツや説得力のような分野では中リスクです。OpenAIの安全諮問グループと理事会は、モデルが安全で倫理的に使用できることを保証するために、これらの安全対策を見直しました。

図6.OpenAI o1のスコアカード。

噂から現実へ:OpenAI o1が登場

OpenAI o1は、AI推論における大きな前進であり、初期の噂のいくつかを現実のものにした。GPT-4oとは異なり、o1シリーズは「Chain of Thought(思考の連鎖)」アプローチを用いることで、より深く思考し、複雑な問題をより小さなステップに分解することで、より優れたレスポンスを実現します。現在、ChatGPT とAPIで初期プレビューとして利用可能だが、OpenAIはウェブブラウジングやファイルや画像のアップロードなどの機能を追加する予定だ。OpenAIはまた、新しいOpenAI o1シリーズと並行して、GPTシリーズのモデルの開発とリリースを続ける予定であることを共有した。AIが進化し続ける中、このような進歩は、人間のニーズをより良く支援し理解できる、より強力で、直感的で、多目的なAIシステムへの道を開いている。

当社のコミュニティに参加して、AIの最新情報を入手しましょう!GitHubリポジトリにアクセスして、製造業や ヘルスケアなどの分野におけるAIソリューションの開拓をご覧ください。🚀

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう