GPT-4o Miniの特徴と用途を探る。GPT-3.5ターボより60%安く、高度なAI機能を提供するOpenAIの最新モデル。
2024年5月、オープンAIはGPT-4oをリリースした:GPT-4o Miniです。2024年7月18日、OpenAIはGPT-4o Miniを発表した。彼らはこれを「最もコスト効率の高いモデル」と呼んでいる!GPT-4o Miniは、以前のモデルの機能をベースにしたコンパクトなモデルで、高度なAIをより身近で手頃なものにすることを目指している。
GPT-4o Miniは現在、テキストとビジョンのインタラクションをサポートしており、将来のアップデートにより、画像、ビデオ、オーディオを扱う機能が追加される予定です。この記事では、GPT-4o Miniとは何か、その際立った特徴、どのように使用できるのか、GPT-4とGPT-4o Miniの違い、そして様々なコンピュータビジョンのユースケースでどのように使用できるのかを探ります。それでは、GPT-4o Miniがどのような機能を持っているのか見ていきましょう!
GPT-4o Miniは、OpenAIのAIモデルのラインナップに加わった最新のモデルで、よりコスト効率に優れ、利用しやすいように設計されている。これはマルチモーダル大規模言語モデル(LLM)であり、テキスト、画像、動画、音声などの異なるタイプのデータを処理し、生成することができます。このモデルは、GPT-4やGPT-4oのような以前のモデルの強みを基に、コンパクトなパッケージで強力な機能を提供します。
GPT-4oミニはGPT-3.5ターボより60%安く、入力トークン(モデルが処理するテキストやデータの単位)100万個あたり15セント、出力トークン(モデルが応答として生成する単位)100万個あたり60セントです。これを考慮すると、100万トークンは2500ページのテキストを処理するのとほぼ同じである。128K トークンのコンテキスト・ウィンドウと、リクエストごとに最大 16K の出力トークンを処理する能力により、GPT-4o Mini は効率的かつ手頃な価格で設計されています。
GPT-4o Miniは、様々なアプリケーションに最適な様々なタスクをサポートしています。複数のAPIを呼び出したり、完全なコードベースや会話履歴のような大量のデータを扱ったり、カスタマーサポートのチャットボットで迅速かつリアルタイムな応答を提供するなど、複数の処理を同時に実行する場合に使用できます。
その他の主な特徴は以下の通り:
ChatGPT 、GPT-4o Miniをお試しください。GPT-4oミニは、GPT-3.5を置き換えるもので、フリー、プラス、チームのユーザーがアクセスできます。すべての人にAIの恩恵を提供するというOpenAIの目的に沿って、エンタープライズユーザーもまもなくアクセスできるようになります。GPT-4o Miniは、アプリケーションにその機能を統合したい開発者のために、APIを通じて利用することもできます。現時点では、ビジョン機能はAPIを通じてのみアクセス可能である。
GPT-4o MiniとGPT-4oはともに、さまざまなベンチマークで印象的なパフォーマンスを発揮します。GPT-4oは一般的にGPT-4o Miniを上回りますが、GPT-4o Miniは依然として日常的なタスクのための費用対効果の高いソリューションです。ベンチマークには、推論タスク、数学とコーディングの習熟度、マルチモーダル推論が含まれます。下の画像に示すように、GPT-4o Miniのベンチマークは、他の一般的なモデルと比較するとかなり高い。
ネット上で議論されている興味深いプロンプトは、人気のあるLLMが10進数を間違って比較するというものだ。GPT-4oとGPT-4o Miniをテストしたところ、両者の推論能力は明らかな違いを示しました。下の画像では、両モデルに「9.11と9.9はどちらが大きいか」を尋ね、その理由を説明させています。
どちらのモデルも最初は不正解で、9.11の方が大きいと主張する。しかし、GPT-4oは正しい答えを導くことができ、9.9の方が大きいと述べている。詳細な説明を行い、小数を正確に比較する。対照的に、GPT-4o Miniは9.9の方が大きいという理由を正しく理解したにもかかわらず、頑なに最初の間違った答えを維持します。
どちらのモデルも強力な推論能力を示している。GPT-4oの自己修正能力は優れており、より複雑なタスクに役立つ。GPT-4oミニは、適応性には劣るものの、より単純なタスクに対して明確で正確な推論を提供する。
もしコードに飛び込まずにGPT-4o Miniのビジョン機能を探索したい場合は、OpenAI PlaygroundでAPIを簡単にテストすることができます。GPT-4oミニがコンピュータビジョンに関連する様々なユースケースをどの程度処理できるかを確認するために、我々自身も試してみました。
GPT-4oミニに、蝶と地図の2つの画像を分類してもらった。AIモデルは蝶と地図の識別に成功した。画像が全く異なることを考えると、これはかなり単純なタスクである。
1つは植物の上で休んでいる蝶、もう1つは地面の上で休んでいる蝶だ。AIは、植物の上にいるチョウと地面の上にいるチョウを正しく見つけ、また素晴らしい仕事をした。そこで、私たちはさらに一歩踏み込んでみた。
ひとつは沼のミルクウィードの花を食べる蝶、もうひとつはジニアの花を食べる蝶です。このモデルが、さらなる微調整なしに、これほど具体的なラベルを分類できたことは驚きです。これらの簡単な例は、GPT-4o Miniがカスタムトレーニングなしで画像分類タスクに使用できる可能性があることを示しています。
現在のところ、物体検出や インスタンス分割のようなコンピュータ・ビジョンのタスクはGPT-4o Miniでは処理できません。GPT-4oは精度に苦戦していますが、そのようなタスクには使用できます。ポーズを理解することに関しては、画像中のポーズを検出したり推定したりすることはできませんが、ポーズを分類して理解することはできます。
上の画像は、GPT-4o Miniがポーズの正確な座標を検出または推定できないにもかかわらず、どのようにポーズを分類し、理解できるかを示しています。これは様々な用途に役立つ。例えば、スポーツ分析では、アスリートの動きを幅広く評価し、怪我の予防に役立てることができる。同様に、理学療法では、リハビリ中に患者が正しい動きをしているかどうかを確認するためのエクササイズをモニタリングするのに役立つ。また監視では、一般的なボディランゲージを分析することで、不審な行動を特定するのに役立つ。GPT-4oミニは、特定のキーポイントを検出することはできませんが、一般的なポーズを分類する能力があるため、これらの分野やその他の分野で役立ちます。
ここまでGPT-4o Miniでできることを見てきた。では、GPT-4o Miniを使うのに最も最適なアプリケーションについて説明しよう。
GPT-4o Miniは、高度な自然言語理解を必要とし、小さな計算フットプリントを必要とするアプリケーションに最適です。通常では高価すぎるAIをアプリケーションに統合することが可能になる。実際、Artificial Analysisによる詳細な分析によると、GPT-4o Miniは、他のほとんどのモデルと比較して、驚異的なスピードで高品質の応答を提供することが示されている。
将来的に輝きを放つ可能性のある主な分野をいくつか紹介しよう:
GPT-4o Miniは、マルチモーダルAIの未来に新たな可能性をもたらしている。GPT-3モデルであるtext-davinci-003がリリースされた2022年以降、トークンあたりのコストとして知られるテキストやデータの各ピースの処理にかかる費用は、ほぼ99%と大幅に減少している。コストの減少は、高度なAIをより手頃な価格にするための明確な傾向を示している。AIモデルの改良が進むにつれ、あらゆるアプリやウェブサイトにAIを組み込むことが経済的に実現可能になる可能性が高まっている!
AIに触れてみませんか?GitHubリポジトリで私たちのイノベーションをご覧いただき、活発なコミュニティの一員になってください。製造業や農業におけるAIアプリケーションの詳細については、当社のソリューションページをご覧ください。