グリーンチェック
クリップボードにコピーされたリンク

コンピュータビジョンタスクのためのGoogle Gemini 2.5を体験しよう

オブジェクト検出、画像キャプション、OCRなどのコンピュータビジョンタスクのためのGoogle Gemini 2.5を、Vision AIソリューションでどのように活用できるかをご覧ください。

AIの進歩は日進月歩で、毎日のように新たなイノベーションが話題を呼んでいる。そのような最近のブレークスルーのひとつが、3月26日に発表されたGoogle DeepMindの最新のマルチモーダルモデル、Gemini 2.5である。従来の大規模言語モデル(LLM)は膨大なデータから学習して人間のようなテキストを生成することができるが、Gemini 2.5はそれを超えている。 

画像、音声、ビデオを処理できる「思考モデル」として設計されている。推論能力とコーディング能力が強化されている。興味深いことに、物体検出、画像キャプション付け、光学式文字認識(OCR)など、機械が視覚データを解釈・分析するコンピューター・ビジョン・タスクに関しても、非常に優れた性能を発揮する。

図1.Gemini 2.5を使用して画像の内容を理解する例。

この記事では、Gemini 2.5のコンピュータビジョン機能を実際に体験するのに役立つUltralyticsノートブックの1つを紹介する。また、Gemini 2.5の主な機能を詳しく見ていき、実世界のアプリケーションのためのコンピュータビジョンソリューションを構築するためにGemini 2.5をどのように使用できるかを紹介します。さあ、始めよう!

Gemini 2.5の概要:特徴と機能

今回リリースされたGemini 2.5モデルシリーズの最初のバージョンは、Gemini 2.5 Proの実験的リリースである。Gemini 2.5 Proは、答えを出す前にその答えを考え抜くことで、複雑な問題に対処するように設計されている。強化学習(フィードバックからモデルが学習する)や思考連鎖プロンプト(問題を解決するための段階的アプローチ)といった手法を使用している。

その大きな特徴のひとつは、100万個のトークン(およそ100万個の単語または単語の一部)を保持できる巨大なコンテキスト・ウィンドウであり、200万個まで増加すると予想されている。これは、モデルが一度に多くの情報を取り込めることを意味し、より詳細で正確な結果につながる。

言語処理に加えて、Gemini 2.5は以下のコンピュータビジョンタスクに使用することができる:

  • 物体検出:画像内の物体を識別し、位置を特定するプロセス。
    ‍ ‍ ‍ ‍ ‍ ‍ ‍
  • 画像のキャプション付け:画像の説明テキストを生成する作業。ビジュアルコンテンツをよりアクセスしやすく、理解しやすくします。
  • 光学式文字認識:画像中のテキストを編集可能な機械可読テキストに変換する技術。文書のデジタル化やデータ入力の自動化に役立つ。

Google Gemini 2.5と他のモデルのベンチマーク比較

現在、AIの分野ではいくつかのマルチモーダルモデルが利用可能であるため、Gemini 2.5 Proがそれらとどのように比較されるかを理解することは重要である。GoogleDeepMindによって共有されたベンチマーク結果に基づいて、Gemini 2.5 Proは、さまざまなタスクで印象的なパフォーマンスを示している。 

例えば、「人類最後の試験」と呼ばれるテストでは、多くの科目をカバーする難関試験をシミュレートし、高度な推論と一般知識をテストする。ジェミニ2.5プロのスコアは約18.8%で、約14%を記録したOpenAIのo3-miniのようなモデルを凌駕している。 

図2.Gemini 2.5 Proのベンチマーク性能の概要。

また、数学やコーディングの課題でも非常に優れたパフォーマンスを発揮し、OpenAI GPT-4.5、Claude 3.7 Sonnet、Grok 3 Beta、DeepSeek R1といったモデルのパフォーマンスと同等か、それを上回ることが多く、複雑なタスクを処理し、大量のデータを処理する能力を実証している。

Gemini 2.5を使いこなす:Google Gemini APIの使い方

Gemini 2.5 Proは複数のプラットフォームで利用できる。Gemini 2.5 Proは複数のプラットフォームで利用可能で、Google AI Studioで実験したり、Gemini Advancedユーザー向けのGeminiアプリからアクセスすることができる。Google DeepMindは発表の中で、このモデルが近々Vertex AIでサポートされる予定であることにも言及している。これらのアクセスポイントにより、開発者はGemini 2.5 Proを実世界のAIアプリケーションに簡単に使用することができる。 

しかし、Google Gemini APIを使用し、複雑なセットアップをすることなく、わずか数分で始めたい場合、また、そのコンピュータビジョン機能をより深く理解したい場合は、Gemini 2.5 Proを使用したオブジェクト検出や画像キャプション付けなどのタスクを紹介するUltralytics ノートブックをご覧ください。このノートブックで期待できることを詳しく説明しよう。

Google Gemini 2.5ノートブックでの推論の設定

Ultralytics ノートブックを使い始め、Google Gemini 2.5を使用するには、まずGoogle AI Studioを通してAPIキーを生成する必要があります。このキーによってGemini APIにアクセスできるようになり、モデルを使用できるようになります。

APIキーを取得したら、お使いの環境に必要なライブラリがインストールされていることを確認してください。 UltralyticsとGoogleAIツールキットのパッケージが含まれる。このステップはノートブックで明確に説明されているので、指示に従って簡単にワークスペースをセットアップできる。

すべての設定が完了したら、APIキー(下図)を入力してGemini APIに接続し、ワークスペースとモデルのリンクを作成します。これで、Gemini 2.5に画像やテキストプロンプトを送信する準備が整いました。

1# Initialize the Gemini client with your API key
2client = genai.Client(api_key="api_key")

基本的には、画像と簡単な命令(「この画像から物体を検出する」とか「見えているものを描写する」とか)をモデルに与えると、必要な結果を返してくれる。この簡単なプロセスにより、Gemini 2.5のコンピュータビジョン機能を簡単に使い始めることができる。

Google Gemini 2.5による物体検出

このノートブックの主要な例の1つは、Gemini 2.5 Proを使用した物体検出です。この例では、オブジェクトを検出するための画像と簡単なプロンプトをモデルに与えます。 

これらの座標は正規化された形式で与えられます。これらの座標は正規化された形式で与えられます。次に、Ultralytics Python パッケージの関数を使用して、これらの正規化された値を画像の実際の寸法に合わせて変換し、以下に示すように、各オブジェクトの周囲に明確なバウンディングボックスを描画します。

図3.物体検出にGoogle Gemini 2.5を使用。

Gemini 2.5を使用した画像のキャプション付け

ノートブックのもう一つの興味深い例は、Gemini 2.5 Proを使った画像キャプションです。この例では、モデルに画像を提供し、画像に何が写っているかを説明する詳細なキャプションを生成するよう求めるプロンプトを表示します。 

このモデルは、ビジュアルコンテンツを分析し、画像のコンテンツとコンテキストの両方を捉えた物語(多くの場合、複数の文章としてフォーマットされる)を返す。この機能は、アクセシビリティの向上、視覚情報の要約、さらには創造的なストーリーテリングの強化に役立ちます。

Google GeminiモデルによるOCR精度の向上

Gemini 2.5 Proの画像中のテキストを読み取る能力を使用するコンピュータビジョンタスクは、OCRです。ノートブックでは、テキストを抽出するプロンプトとともに、テキストを含む画像をモデルに提供することができます。モデルは画像を処理し、以下のように検出されたテキストとテキストがある座標の両方を返します。

1# Define the text prompt
2prompt = """
3Extract the text from the image
4"""
5
6# Fixed, plotting function depends on this.
7output_prompt = """
8Return just box_2d which will be location of detected text areas + label"""
9
10image, w, h = read_image("gemini-image3.png")  # Read image and extract width, height
11
12results = inference(image, prompt + output_prompt)

その後、Ultralytics Python パッケージの関数を使用して、これらの正規化座標を画像の実際の寸法に変換し、テキスト領域の周囲にバウンディングボックスを描画します。この注釈付き出力により、テキストの位置が明確になり、文書のデジタル化、データ入力の自動化、アクセシビリティの向上に役立ちます。

図4.Google Gemini 2.5を使用した画像内のテキストデータの抽出。

Google Gemini 2.5の実際のアプリケーション

さて、Google Gemini 2.5 Proが様々なコンピュータビジョンタスクにどのように使用できるかを説明したところで、これらの機能が使用できる実際のアプリケーションをいくつか探ってみよう。

例えば、Gemini 2.5 Proのオブジェクト検出機能は、大規模な画像セットに自動的にラベルを付けて整理するのに役立ち、データセットの作成やコンテンツ管理のような作業をより迅速に行うことができます。Gemini 2.5 Proは、小売業や農業のような分野での画像分析にも使用できます。例えば、棚に陳列された商品を検出したり、農場の写真から作物のストレスの兆候を特定したりすることができます。

図5.植物の健康状態を分析するGemini 2.5 Pro。

一方、このモデルの画像キャプション機能は、視覚障害ユーザーが画像に何が写っているかを理解するのに役立ちます。例えば、人通りの多い通りの写真であれば、車の種類や歩行者の動き、さらには照明の合図に基づく時間帯など、シーンを詳細に説明するキャプションを作成することができる。 

これに加えて、Gemini 2.5のOCR機能は、様々なアプリケーションで使用することができる。例えば、ページやレシートをスキャンすることで、印刷された文書をデジタル化することができます。この機能は、データ入力作業の自動化、フォームの処理、あるいは名刺や看板からテキストを読み取るのに理想的です。 

全体として、Google Gemini 2.5 Proは、幅広い実用的なAIアプリケーションへの扉を開く。

要点

テキストの生成と分析にとどまらず、Google Gemini 2.5 Proは、オブジェクト検出、画像キャプション、OCRのようなコンピュータビジョンタスクに使用することができます。巨大なコンテキストウィンドウと強化された推論機能により、実世界のシナリオでうまく機能する、詳細でコンテキストを考慮した結果を生成します。 

AIモデルが進化し続ける中、Gemini 2.5 Proのようなツールは、業界を超えた複雑な問題の解決を容易にしている。視覚的理解から言語処理まで、幅広いタスクに対応できる柔軟なマルチモーダルソリューションを求める組織が増えるにつれ、AIの採用はさらに広がっていくだろう。

私たちのコミュニティーの一員になり、GitHubリポジトリで最先端のAIプロジェクトについて学びましょう。ソリューションのページでは、農業におけるビジョンAIのアプリケーションと製造業におけるAIの役割をご覧ください。ライセンスプランを検討し、今すぐコンピュータビジョンソリューションを構築してください!

Facebookのロゴツイッターのロゴリンクトインのロゴコピー・リンク・シンボル

このカテゴリの続きを読む

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう