X
Ultralytics YOLOv8.2 リリースUltralytics YOLOv8.2 モバイル・リリースUltralytics YOLOv8.2 リリース・アロー
グリーンチェック
クリップボードにコピーされたリンク

オープンエイのGPT-4o Miniの機能を深く掘り下げる

GPT-4o Miniの特徴と用途を探る。GPT-3.5ターボより60%安く、高度なAI機能を提供するOpenAIの最新モデル。

2024年5月、オープンAIはGPT-4oをリリースした:GPT-4o Miniです。2024年7月18日、OpenAIはGPT-4o Miniを発表した。彼らはこれを「最もコスト効率の高いモデル」と呼んでいる!GPT-4o Miniは、以前のモデルの機能をベースにしたコンパクトなモデルで、高度なAIをより身近で手頃なものにすることを目指している。

GPT-4o Miniは現在、テキストとビジョンのインタラクションをサポートしており、将来のアップデートにより、画像、ビデオ、オーディオを扱う機能が追加される予定です。この記事では、GPT-4o Miniとは何か、その際立った特徴、どのように使用できるのか、GPT-4とGPT-4o Miniの違い、そして様々なコンピュータビジョンのユースケースでどのように使用できるのかを探ります。それでは、GPT-4o Miniがどのような機能を持っているのか見ていきましょう!

GPT-4oミニとは?

GPT-4o Miniは、OpenAIのAIモデルのラインナップに加わった最新のモデルで、よりコスト効率に優れ、利用しやすいように設計されている。これはマルチモーダル大規模言語モデル(LLM)であり、テキスト、画像、動画、音声などの異なるタイプのデータを処理し、生成することができます。このモデルは、GPT-4やGPT-4oのような以前のモデルの強みを基に、コンパクトなパッケージで強力な機能を提供します。 

GPT-4oミニはGPT-3.5ターボより60%安く、入力トークン(モデルが処理するテキストやデータの単位)100万個あたり15セント、出力トークン(モデルが応答として生成する単位)100万個あたり60セントです。これを考慮すると、100万トークンは2500ページのテキストを処理するのとほぼ同じである。128K トークンのコンテキスト・ウィンドウと、リクエストごとに最大 16K の出力トークンを処理する能力により、GPT-4o Mini は効率的かつ手頃な価格で設計されています。

図1.GPT-4oミニはGPT-3.5ターボより60%安い。

GPT-4oミニの主な特長 

GPT-4o Miniは、様々なアプリケーションに最適な様々なタスクをサポートしています。複数のAPIを呼び出したり、完全なコードベースや会話履歴のような大量のデータを扱ったり、カスタマーサポートのチャットボットで迅速かつリアルタイムな応答を提供するなど、複数の処理を同時に実行する場合に使用できます。

その他の主な特徴は以下の通り:

  • ナレッジベースを更新しました: このモデルには2023年10月までの情報が含まれています。
  • 改良されたトーケナイザー:GPT-4o Miniは、English 以外のテキストをよりコスト効率よく処理します。
  • 強固な安全対策:これらの対策には、有害コンテンツのフィルタリング、プロンプトの注入やシステム操作などのセキュリティ問題からの保護が含まれます。

GPT-4oミニを始める 

ChatGPT 、GPT-4o Miniをお試しください。GPT-4oミニは、GPT-3.5を置き換えるもので、フリー、プラス、チームのユーザーがアクセスできます。すべての人にAIの恩恵を提供するというOpenAIの目的に沿って、エンタープライズユーザーもまもなくアクセスできるようになります。GPT-4o Miniは、アプリケーションにその機能を統合したい開発者のために、APIを通じて利用することもできます。現時点では、ビジョン機能はAPIを通じてのみアクセス可能である。

図2. ChatGPT 内のモデルオプション .

GPT-4oとGPT-4oミニの違い 

GPT-4o MiniとGPT-4oはともに、さまざまなベンチマークで印象的なパフォーマンスを発揮します。GPT-4oは一般的にGPT-4o Miniを上回りますが、GPT-4o Miniは依然として日常的なタスクのための費用対効果の高いソリューションです。ベンチマークには、推論タスク、数学とコーディングの習熟度、マルチモーダル推論が含まれます。下の画像に示すように、GPT-4o Miniのベンチマークは、他の一般的なモデルと比較するとかなり高い。

図3.GPT-4oミニと他の人気モデルの比較。

GPT-4oとGPT-4oミニを実際に使ってみよう

ネット上で議論されている興味深いプロンプトは、人気のあるLLMが10進数を間違って比較するというものだ。GPT-4oとGPT-4o Miniをテストしたところ、両者の推論能力は明らかな違いを示しました。下の画像では、両モデルに「9.11と9.9はどちらが大きいか」を尋ね、その理由を説明させています。

図4.GPT-4oとGPT-4o Miniのテスト。

どちらのモデルも最初は不正解で、9.11の方が大きいと主張する。しかし、GPT-4oは正しい答えを導くことができ、9.9の方が大きいと述べている。詳細な説明を行い、小数を正確に比較する。対照的に、GPT-4o Miniは9.9の方が大きいという理由を正しく理解したにもかかわらず、頑なに最初の間違った答えを維持します。

どちらのモデルも強力な推論能力を示している。GPT-4oの自己修正能力は優れており、より複雑なタスクに役立つ。GPT-4oミニは、適応性には劣るものの、より単純なタスクに対して明確で正確な推論を提供する。 

GPT-4oミニをコンピュータビジョンの様々なユースケースで使用する

もしコードに飛び込まずにGPT-4o Miniのビジョン機能を探索したい場合は、OpenAI PlaygroundでAPIを簡単にテストすることができます。GPT-4oミニがコンピュータビジョンに関連する様々なユースケースをどの程度処理できるかを確認するために、我々自身も試してみました。

GPT-4oミニによる画像分類

GPT-4oミニに、蝶と地図の2つの画像を分類してもらった。AIモデルは蝶と地図の識別に成功した。画像が全く異なることを考えると、これはかなり単純なタスクである。

図5.GPT-4o Miniによる画像の分類。

1つは植物の上で休んでいる蝶、もう1つは地面の上で休んでいる蝶だ。AIは、植物の上にいるチョウと地面の上にいるチョウを正しく見つけ、また素晴らしい仕事をした。そこで、私たちはさらに一歩踏み込んでみた。

図6.GPT-4o Miniを用いた類似画像の分類。

ひとつは沼のミルクウィードの花を食べる蝶、もうひとつはジニアの花を食べる蝶です。このモデルが、さらなる微調整なしに、これほど具体的なラベルを分類できたことは驚きです。これらの簡単な例は、GPT-4o Miniがカスタムトレーニングなしで画像分類タスクに使用できる可能性があることを示しています。

図7.GPT-4o Miniによる詳細画像の分類。

GPT-4oミニでポーズを理解する

現在のところ、物体検出や インスタンス分割のようなコンピュータ・ビジョンのタスクはGPT-4o Miniでは処理できません。GPT-4oは精度に苦戦していますが、そのようなタスクには使用できます。ポーズを理解することに関しては、画像中のポーズを検出したり推定したりすることはできませんが、ポーズを分類して理解することはできます。

図8.GPT-4oミニを使って画像のポーズを理解する。 

上の画像は、GPT-4o Miniがポーズの正確な座標を検出または推定できないにもかかわらず、どのようにポーズを分類し、理解できるかを示しています。これは様々な用途に役立つ。例えば、スポーツ分析では、アスリートの動きを幅広く評価し、怪我の予防に役立てることができる。同様に、理学療法では、リハビリ中に患者が正しい動きをしているかどうかを確認するためのエクササイズをモニタリングするのに役立つ。また監視では、一般的なボディランゲージを分析することで、不審な行動を特定するのに役立つ。GPT-4oミニは、特定のキーポイントを検出することはできませんが、一般的なポーズを分類する能力があるため、これらの分野やその他の分野で役立ちます。

GPT-4oミニの用途

ここまでGPT-4o Miniでできることを見てきた。では、GPT-4o Miniを使うのに最も最適なアプリケーションについて説明しよう。

GPT-4o Miniは、高度な自然言語理解を必要とし、小さな計算フットプリントを必要とするアプリケーションに最適です。通常では高価すぎるAIをアプリケーションに統合することが可能になる。実際、Artificial Analysisによる詳細な分析によると、GPT-4o Miniは、他のほとんどのモデルと比較して、驚異的なスピードで高品質の応答を提供することが示されている。

図9.GPT-4oミニの品質と出力スピードの関係。

将来的に輝きを放つ可能性のある主な分野をいくつか紹介しよう:

  • バーチャルアシスタントとチャットボット GPT-4o Miniは、ユーザーとのインタラクションを改善するために、迅速でスマートな応答を提供することができます。
  • 教育ツール: モデル 個別指導やコンテンツ生成を提供するツールを構築するために使用することができる。
  • 生産性向上ツール:ドキュメントの要約、Eメールの下書き、言語の翻訳などのタスクを改善し、効率を高めることができる。
  • 言語翻訳: GPTの最新バージョンは、異なる言語間でのより良いコミュニケーションのために、正確でリアルタイムの言語翻訳を提供する翻訳者を開発するために使用することができます。

GPT-4oミニが新たな扉を開く

GPT-4o Miniは、マルチモーダルAIの未来に新たな可能性をもたらしている。GPT-3モデルであるtext-davinci-003がリリースされた2022年以降、トークンあたりのコストとして知られるテキストやデータの各ピースの処理にかかる費用は、ほぼ99%と大幅に減少している。コストの減少は、高度なAIをより手頃な価格にするための明確な傾向を示している。AIモデルの改良が進むにつれ、あらゆるアプリやウェブサイトにAIを組み込むことが経済的に実現可能になる可能性が高まっている!

AIに触れてみませんか?GitHubリポジトリで私たちのイノベーションをご覧いただき、活発なコミュニティの一員になってください。製造業農業におけるAIアプリケーションの詳細については、当社のソリューションページをご覧ください。

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう