ChatGPT 新機能：ビジョン、検索、その他

前回9月にOpenAIのo1モデル（推論を改善するために設計された）を見てから、ChatGPT多くの新しくエキサイティングな機能が追加されました。これらのリリースには開発者向けのものもあれば、ユーザーエクスペリエンスを向上させるためのものもあります。全体として、それぞれのアップグレードはChatGPT インタラクションをより直感的で効果的なものにするのに役立っています。

共同執筆やコーディングのために設計されたCanvasや、ChatGPT 画像処理能力を向上させるビジョン機能の微調整といったアップデートは多くの関心を呼び起こし、ユーザーがより創造的な可能性を探求することを促している。一方、新しいAPIや公正性テストレポートなどの技術的なアップグレードは、モデルの統合や倫理的なAIの実践などの側面に対処しています。それでは、OpenAIのChatGPT 最新機能について理解を深めていきましょう！

OpenAIのキャンバス機能の概要

キャンバスは、ChatGPTユーザーインターフェイス(UI)のリリース以来初のメジャーアップデートです。2画面レイアウト、左サイドバーにプロンプト、右サイドウィンドウに応答という新しいインターフェイスです。新しいUIは、チャットのような1画面構成という通常のワークフローを排除し、マルチタスク目的に適した2画面レイアウトに移行することで、生産性を高めています。

‍

キャンバスが導入される前は、ChatGPT 長文のドキュメントを扱うには、かなり上下にスクロールする必要がありました。新しいレイアウトでは、プロンプトは左サイドバーに表示され、テキストドキュメントやコードスニペットは画面の大部分を占めます。必要に応じて、左サイドバーと出力画面のサイズをカスタマイズすることもできる。また、テキストやコードの一部を選択し、ドキュメント全体を変更することなく、特定の部分を編集することができます。

‍

Canvasを使用している場合、ChatGPT インターフェイスにそれを開くための特定のボタンやトグルがないことに気づくでしょう。代わりに、GPT-4oモデルで作業しているとき、編集、執筆、コーディング中であることを検出すると、キャンバスが自動的に開きます。簡単なプロンプトの場合は、非アクティブのままです。手動で開きたい場合は、"キャンバスを開く "または "キャンバスのレイアウトを取得 "のようなプロンプトを使用することができます。

現在、Canvasはベータ版であり、GPT-4oでのみ利用可能です。ただし、OpenAIは、Canvasがベータ版からリリースされると、すべての無料ユーザーが利用できるようになると述べています。

ChatGPTAPIアップデート

OpenAIは、効率性、拡張性、汎用性の向上を目的とした3つの新しいChatGPT APIアップデートをリリースしました。それぞれのアップデートを詳しく見てみましょう。

モデル蒸留

OpenAI APIを介したモデル蒸留機能を使用すると、開発者はGPT-4oやo1-previewなどの高度なモデルの出力を利用して、GPT-4o miniのようなより小型で費用対効果の高いモデルのパフォーマンスを向上させることができます。モデル蒸留とは、より高度なモデルの動作を模倣するように小型モデルをトレーニングし、特定のタスクに対してより効率的にするプロセスです。

この機能が導入される前は、開発者はさまざまなツールを使用して、さまざまなタスクを手動で調整する必要がありました。これらのタスクには、データセットの生成、モデル性能の測定、モデルの微調整が含まれており、プロセスが複雑になり、エラーが発生しやすくなっていました。Model Distillationアップデートにより、開発者はStored Completionsを使用できます。これは、APIを通じて高度なモデルによって生成された入出力ペアをキャプチャして保存することにより、自動的にデータセットを生成できるツールです。

Model Distillationのもう一つの機能であるEvals（現在ベータ版）は、カスタムの評価スクリプトを作成したり、別のツールを使用したりせずに、特定のタスクでモデルがどの程度うまく機能するかを測定するのに役立ちます。Stored Completionsで生成されたデータセットを使用し、Evalsでパフォーマンスを評価することで、開発者は独自のカスタムGPTモデルを微調整できます。

‍

プロンプトキャッシュ

AIアプリケーション、特にチャットボットを構築する際、同じコンテキスト（現在のリクエストを理解するために必要な背景情報または以前の会話履歴）が複数のAPI呼び出しで繰り返し使用されることがよくあります。プロンプトキャッシュを使用すると、開発者は最近使用した入力トークン（モデルがプロンプトを理解し、応答を生成するために処理するテキストのセグメント）を再利用できるため、コストとレイテンシの削減に役立ちます。

10月1日から、OpenAIはGPT-4o、GPT-4o mini、o1-preview、o1-miniのようなモデルにプロンプトキャッシュを自動的に適用しました。これは、開発者がAPIを使用して、長いプロンプト（1,024トークンを超える）でモデルと対話する場合、システムはすでに処理した部分を保存することを意味します。

これにより、同じまたは類似のプロンプトが再度使用された場合、それらの部分の再計算を省略できます。システムは、以前に遭遇したプロンプトの最長部分を自動的にキャッシュします。最初は1,024トークンから始まり、プロンプトが長くなるにつれて128トークンずつ追加されます。

リアルタイム API

音声アシスタントの作成には通常、音声をテキストに書き起こし、テキストを処理し、応答を再生するために音声を音声に変換する必要があります。OpenAIのRealtime APIは、このプロセス全体を1つのAPIリクエストで処理することを目的としています。プロセスを簡素化することで、APIはAIとのリアルタイム会話を可能にします。

例えば、Realtime API と統合された音声アシスタントは、ユーザーのリクエストに基づいて、注文や情報検索などの特定のアクションを実行できます。この API により、音声アシスタントはより応答性が高く、ユーザーのニーズに迅速に適応できます。Realtime API は 10 月 1 日にパブリックベータ版として公開され、6 つの声が利用可能になりました。10 月 30 日には、さらに 5 つの声が追加され、合計 11 の声が利用可能になりました。

‍

視覚タスクのためのChatGPT 微調整

当初、GPT-4oビジョン言語モデルは、テキストのみのデータセットを使用してのみ、微調整およびカスタマイズできました。現在、ビジョン微調整APIのリリースにより、開発者は画像データセットを使用してGPT-4oをトレーニングおよびカスタマイズできます。リリース以来、ビジョン微調整は、開発者およびコンピュータビジョンエンジニアの間で大きな関心を集めています。

GPT-4oの視覚機能を微調整するために、開発者は100枚程度の画像から50,000枚もの画像に及ぶ画像データセットを使用できます。データセットがOpenAIで求められる形式に合致していることを確認した後、OpenAIプラットフォームにアップロードし、特定のアプリケーションに合わせてモデルを微調整できます。

例えば、自動化企業のAutomatは、スクリーンショットのデータセットを使用して、GPT-4oをトレーニングし、説明に基づいて画面上のUI要素を識別できるようにしました。これにより、ボットがユーザーインターフェースとより簡単にやり取りできるようになり、ロボティック・プロセス・オートメーション（RPA）が効率化されます。固定された座標や複雑なセレクター規則に頼る代わりに、モデルは簡単な説明に基づいてUI要素を識別できるため、インターフェースが変更された場合でも、自動化設定の適応性と保守性が向上します。

‍

ChatGPT 公平性と偏りの検出

AIアプリケーションを取り巻く倫理的な懸念は、AIがますます高度になるにつれて、顕著な話題となっている。ChatGPT回答は、ユーザーから提供されたプロンプトとインターネット上で利用可能なデータに基づいているため、常に責任を持てるように言語を微調整するのは難しいかもしれない。ChatGPT回答は名前、性別、人種に偏りがあるとの報告もある。この問題に対処するため、OpenAIの社内チームは一人称の公平性テストを実施しました。

名前には、私たちの文化や地理的要因に関する微妙な手がかりが含まれていることがよくあります。ほとんどの場合、ChatGPT 名前の微妙な手がかりを無視します。しかし、人種や文化を反映した名前は、ChatGPT異なる応答を導くケースもあり、そのうちの約1%は有害な言葉を反映しています。偏見や有害な言葉を排除することは、言語モデルにとって難しい課題です。しかし、これらの発見を公開し、モデルの限界を認識することで、OpenAIは、ユーザーがより中立的で偏りのない回答を得るためにプロンプトを改良するのに役立ちます。

‍

ChatGPT 検索を理解する

ChatGPT 初めてChatGPT 際、AIコミュニティでは従来のウェブブラウジングに取って代わる可能性について議論がありました。現在では、多くのユーザーがGoogle ChatGPT を利用しています。

OpenAIの新しいアップデートである検索機能は、これをさらに一歩進めます。検索機能では、ChatGPT 最新の回答を生成し、関連するソースへのリンクを含みます。10月31日より、ChatGPT PlusとTeamの全ユーザーが検索機能を利用できるようになり、ChatGPT AI検索エンジンのように機能するようになりました。

‍

今後の展望

ChatGPT最近のアップデートは、AIをより便利に、柔軟に、公平にすることに重点を置いています。新しいキャンバス機能は、ユーザーがより効率的に作業できるようにし、ビジョンの微調整は、開発者が視覚的なタスクをよりうまく処理できるようにモデルをカスタマイズできるようにします。また、公平性の確保とバイアスの低減も重要な優先事項であり、AIが誰であろうと、誰にとってもうまく機能することを保証します。モデルを微調整する開発者であれ、単に最新機能を使用する開発者であれ、ChatGPT 幅広いニーズに対応できるよう進化しています。リアルタイム機能、ビジュアル統合、そして責任ある使用に焦点を当てたこれらのアップデートは、誰にとってもより信頼でき、信頼できるAI体験を構築します。

AIについてさらに詳しく知りたい場合は、GitHubリポジトリをご覧いただき、コミュニティにご参加ください。自動運転やヘルスケアにおけるAIの応用について詳しくご紹介しています。

OpenAIの最新アップデート：Canvas、Vision Fine-Tuningなど

OpenAIのキャンバス機能の概要