OpenAIが最近リリースしたChatGPT のアップデートを詳しく見ていきましょう。キャンバス、ビジョン機能の微調整、そして最新の検索機能を探ります。
前回9月にOpenAIのo1モデル(推論を改善するために設計された)を見てから、ChatGPT に多くの新しくエキサイティングな機能が追加されました。これらのリリースのいくつかは開発者向けであり、他のものはユーザーエクスペリエンスを改善するために設計されています。全体として、それぞれのアップグレードは、ChatGPT とのインタラクションをより直感的で効果的なものにするのに役立っている。
共同執筆やコーディングのために設計されたCanvasや、ChatGPT 、画像との連携方法を改善するビジョン機能の 微調整といったアップデートは多くの関心を呼び、ユーザーがより創造的な可能性を探求することを促している。一方、新しいAPIや公正性テストレポートといった技術的なアップグレードは、モデルの統合や 倫理的なAIの 実践といった側面に対処している。それでは、OpenAIの最新機能(ChatGPT )の理解を深めていきましょう!
Canvasは、ChatGPTのユーザーインターフェイス(UI)にとって、リリース以来初めてのメジャーアップデートである。これは、2画面レイアウト、左サイドバーにプロンプト、右サイドウィンドウに応答を持つ新しいインターフェイスです。新しいUIは、チャットのような1画面構成の通常のワークフローを排除し、生産性を高めるためにマルチタスク目的に適した2画面レイアウトに移行した。
Canvasが導入される前は、ChatGPT 、長文のドキュメントを扱うには、かなり上下にスクロールしなければならなかった。新しいレイアウトでは、プロンプトは左サイドバーに表示され、テキスト・ドキュメントやコード・スニペットが画面の大部分を占める。必要に応じて、左サイドバーと出力画面のサイズをカスタマイズすることもできる。また、テキストやコードの一部を選択し、ドキュメント全体を変更することなく、特定の部分を編集することができます。
Canvasを使用する場合、ChatGPT のインターフェイスには、Canvasを開くための特定のボタンやトグルがないことにお気づきでしょう。代わりに、GPT-4oモデルで作業しているときは、編集、執筆、コーディング中であることを検出すると、Canvasが自動的に開きます。簡単なプロンプトの場合は、非アクティブのままです。手動で開きたい場合は、"Open the Canvas "や "Get me the Canvas layout "のようなプロンプトを使うことができます。
現在、Canvasはベータ版で、GPT-4oでのみ利用できる。しかし、OpenAIは、Canvasがベータ版から脱却すれば、すべての無料ユーザーが利用できるようになると述べている。
OpenAIは、効率性、拡張性、汎用性の向上を目的とした3つの新しいChatGPT APIアップデートをリリースした。それぞれのアップデートを詳しく見てみよう。
OpenAI APIを通じてモデル蒸留機能を使用すると、開発者はGPT-4oやo1-previewのような高度なモデルの出力を使用して、GPT-4o miniのような小型でコスト効率の高いモデルのパフォーマンスを向上させることができます。モデル蒸留は、より高度なモデルの動作を模倣するために、より小さなモデルを訓練する ことを含むプロセスであり、特定のタスクのためにそれらをより効率的にします。
この機能が導入される前は、開発者はさまざまなツールを使って手作業でさまざまなタスクを調整しなければならなかった。これらのタスクには、データセットの生成、モデル性能の測定、モデルの微調整などが含まれ、しばしばプロセスが複雑になり、エラーが発生しやすくなっていました。Model Distillationのアップデートにより、開発者は、APIを通じて高度なモデルによって生成された入出力ペアをキャプチャして保存することで、データセットを自動的に生成できるツールであるStored Completionsを使用できるようになった。
Model Distillationのもう一つの機能であるEvals(現在ベータ版)は、カスタム評価スクリプトを作成したり、別のツールを使用したりすることなく、特定のタスクに対するモデルのパフォーマンスを測定するのに役立ちます。Stored Completions で生成されたデータセットを使用し、Evals でパフォーマンスを評価することで、開発者は独自のカスタム GPT モデルを微調整できます。
AIアプリケーション、特にチャットボットを構築する場合、同じコンテキスト(現在のリクエストを理解するために必要な背景情報や以前の会話履歴)が複数のAPIコールで繰り返し使用されることがよくあります。プロンプト・キャッシングは、開発者が最近使用した入力トークン(プロンプトを理解し、応答を生成するためにモデルが処理するテキストのセグメント)を再利用することを可能にし、コストとレイテンシの削減に役立ちます。
10月1日より、OpenAIはGPT-4o、GPT-4o mini、o1-preview、o1-miniのようなモデルに自動的にプロンプト・キャッシングを適用しました。これは、開発者がAPIを使用して長いプロンプト(1,024トークンを超える)を持つモデルと対話するとき、システムが既に処理した部分を保存することを意味します。
こうすることで、同じプロンプトまたは類似のプロンプトが再度使用された場合、その部分の再計算を省略することができる。システムは、以前に遭遇したプロンプトの最長部分を自動的にキャッシュし、1,024トークンから開始し、プロンプトが長くなるにつれて128トークンのチャンクを追加する。
一般的に音声アシスタントを作るには、音声をテキストに書き起こし、テキストを処理し、レスポンスを再生するために音声に戻す必要がある。OpenAIのRealtime APIは、このプロセス全体を1つのAPIリクエストで処理することを目指している。このプロセスをよりシンプルにすることで、APIはAIとのリアルタイムの会話を可能にする。
例えば、Realtime APIと統合された音声アシスタントは、ユーザーのリクエストに基づいて、注文や 情報検索などの特定のアクションを実行することができる。このAPIは、音声アシスタントの応答性を高め、ユーザーのニーズに素早く対応できるようにする。Realtime APIは、10月1日にパブリック・ベータ版が公開され、6つの音声が利用可能になった。10月30日にはさらに5つの音声が追加され、合計11の音声が利用可能になった。
もともと、GPT-4oビジョン言語モデルは、テキストのみのデータセットを使用してのみ、微調整とカスタマイズが可能でした。現在では、ビジョン微調整APIのリリースにより、開発者は画像データセットを使用してGPT-4oをトレーニングおよびカスタマイズすることができます。このリリース以来、ビジョンの微調整は、開発者やコンピュータビジョンエンジニアの間で大きな話題となっています。
GPT-4oの視覚能力を微調整するために、開発者は100枚程度の画像から50,000枚程度の画像データセットを使用することができます。データセットがOpenAIの要求するフォーマットと一致していることを確認した後、Openaiプラットフォームにアップロードし、特定のアプリケーション用にモデルを微調整することができます。
例えば、自動化企業のAutomat社は、スクリーンショットのデータセットを使用して、説明に基づいて画面上のUI要素を識別できるようにGPT-4oを訓練した 。これにより、ボットがユーザー・インターフェースと簡単に対話できるようになり、ロボティック・プロセス・オートメーション(RPA)の合理化に役立つ。このモデルは、固定座標や複雑なセレクタ・ルールに依存する代わりに、シンプルな説明に基づいてUI要素を識別できるため、自動化のセットアップがより適応しやすくなり、インターフェースが変更された場合でも保守が容易になります。
AIの応用をめぐる倫理的な懸念は、AIがますます高度になるにつれて、顕著な話題となっている。ChatGPTの回答は、ユーザーから提供されたプロンプトとインターネット上で利用可能なデータに基づいているため、その言語を常に責任あるものに微調整することは困難である。報告によると、ChatGPT'の回答は、名前、性別、人種に偏っている。この問題に対処するため、OpenAIの社内チームは一人称の公平性テストを実施した。
名前には、文化や地理的要因に関する微妙な手がかりが含まれていることが多い。ほとんどの場合、ChatGPT 、名前に含まれる微妙な手がかりは無視される。しかし、人種や文化を反映した名前が、ChatGPT 、そのうちの約1%が有害な言葉を反映したものであるなど、異なる反応を示すケースもある。偏見や有害な言葉を排除することは、言語モデルにとって困難な課題である。しかし、これらの発見を公開し、モデルの限界を認識することで、OpenAIは、より中立的で偏りのない回答を得るために、ユーザーがプロンプトを改良するのに役立ちます。
ChatGPT が最初にローンチされたとき、AIコミュニティでは従来のウェブ・ブラウジングに取って代わることができるかどうかが議論された。今では、多くのユーザーが Google Searchの代わりにChatGPT 。
OpenAIの新しいアップデートである検索機能は、これをさらに一歩進めたものだ。Searchを使うと、ChatGPT 、最新の回答が生成され、関連するソースへのリンクが含まれます。10月31日現在、Search機能はすべてのChatGPT PlusおよびTeamユーザーが利用でき、ChatGPT 、よりAIを搭載した検索エンジンのように機能する。
ChatGPTの最近のアップデートは、AIをより便利で柔軟で公平なものにすることに重点を置いている。新しいキャンバス機能は、ユーザーがより効率的に作業できるようにし、ビジョンの微調整は、開発者が視覚的なタスクをよりうまく処理できるようにモデルをカスタマイズできるようにする。また、公平性の確保とバイアスの低減も重要な優先事項であり、AIが誰であろうと、誰にとってもうまく機能することを保証します。モデルを微調整する開発者であれ、単に最新機能を使用する開発者であれ、ChatGPT は幅広いニーズを満たすように進化しています。リアルタイム機能、視覚的統合、そして責任ある使用に焦点を当てたこれらのアップデートは、誰にとってもより信頼でき、信頼できるAI体験を構築します。
GitHubリポジトリにアクセスし、私たちのコミュニティに参加することで、AIについてさらに詳しく調べることができます。自動運転や ヘルスケアにおけるAIの応用についてもっと知る。