Зелёная проверка
Ссылка копируется в буфер обмена

Получи в руки Google Gemini 2.5 для задач компьютерного зрения

Узнай, как можно на практике использовать Google Gemini 2.5 для решения задач компьютерного зрения, таких как обнаружение объектов, создание подписей к изображениям и OCR для решений Vision AI.

Прогресс в области искусственного интеллекта движется быстро, и новые инновации появляются в заголовках газет почти каждый день. Один из таких недавних прорывов - Gemini 2.5, новейшая мультимодальная модель от Google DeepMind, представленная 26 марта. В то время как традиционные большие языковые модели (Large Language Models, LLM) могут обучаться на огромном количестве данных, чтобы генерировать человекоподобный текст, Gemini 2.5 выходит за эти рамки. 

Он создан как "модель мышления", которая может обрабатывать изображения, аудио и видео. Она обладает улучшенными навыками рассуждения и кодирования. Интересно, что он также показывает исключительные результаты в задачах компьютерного зрения, где машины интерпретируют и анализируют визуальные данные, таких как обнаружение объектов, создание подписей к изображениям и оптическое распознавание символов (OCR).

Рис. 1. Пример использования Gemini 2.5 для понимания содержимого изображения.

В этой статье мы рассмотрим один из ноутбуков Ultralytics, который поможет тебе на практике познакомиться с возможностями компьютерного зрения Gemini 2.5. Мы также подробно рассмотрим ключевые особенности Gemini 2.5 и покажем, как его можно использовать для создания решений в области компьютерного зрения для реальных приложений. Давай приступим!

Обзор Gemini 2.5: особенности и возможности

Первая версия в модельном ряду Gemini 2.5, которая только что вышла, - это экспериментальный релиз Gemini 2.5 Pro. Она предназначена для решения сложных задач, продумывая свои ответы, прежде чем дать ответ. В ней используются такие методы, как обучение с подкреплением (когда модель учится на обратной связи) и подсказки по цепочке мыслей (пошаговый подход к решению задач).

Одна из его ключевых особенностей - огромное контекстное окно, которое вмещает 1 миллион токенов (примерно миллион слов или частей слов) и, как ожидается, вырастет до 2 миллионов. Это значит, что модель может воспринимать сразу много информации, что приводит к более детальным и точным результатам.

Помимо языка обработки, Gemini 2.5 можно использовать для следующих задач компьютерного зрения:

  • Обнаружение объекта: Это процесс идентификации и определения местоположения объектов на изображении. Он может использоваться в таких приложениях, как видеонаблюдение или самодвижущиеся автомобили.
  • Создание подписей к изображениям: Эта задача подразумевает создание описательного текста для изображения. Это делает визуальный контент более доступным и легким для понимания.
  • Оптическое распознавание символов: Эта технология преобразует текст, найденный на изображениях, в редактируемый, машиночитаемый текст. Она полезна для оцифровки документов и автоматизации ввода данных.

Бенчмаркинг и сравнение Google Gemini 2.5 с другими моделями

Сегодня в пространстве ИИ существует несколько мультимодальных моделей, поэтому важно понять, как Gemini 2.5 Pro сравнивается с ними. Судя по результатам бенчмарков, которыми поделилась компания DeepMind от Google, Gemini 2.5 Pro демонстрирует впечатляющую производительность в целом ряде задач. 

Например, в тесте под названием Humanity's Last Exam, который имитирует сложный экзамен, охватывающий множество предметов и проверяющий развитое мышление и общие знания, Gemini 2.5 Pro набирает около 18,8%, опережая такие модели, как o3-mini от OpenAI, которая набирает около 14%. 

Рис. 2. Обзор производительности бенчмарка Gemini 2.5 Pro.

Он также очень хорошо справляется с задачами по математике и кодированию, часто соответствуя или превосходя по производительности такие модели, как OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta и DeepSeek R1, демонстрируя свою способность справляться со сложными задачами и обрабатывать большие объемы данных.

Приступая к практической работе с Gemini 2.5: как использовать API Google Gemini

Gemini 2.5 Pro доступен на нескольких платформах. Ты можешь экспериментировать с ней в Google AI Studio и получить доступ к ней через приложение Gemini для пользователей Gemini Advanced. В своем анонсе запуска Google DeepMind также упомянул, что вскоре модель будет поддерживаться на Vertex AI. Эти точки доступа упрощают разработчикам использование Gemini 2.5 Pro для реальных приложений ИИ. 

Однако если ты хочешь использовать API Google Gemini и приступить к работе всего за несколько минут без сложной настройки, а также хочешь лучше понять возможности его компьютерного зрения, то можешь ознакомиться с блокнотомUltralytics , в котором показаны такие задачи, как обнаружение объектов и создание подписей к изображениям с помощью Gemini 2.5 Pro. Давай подробно рассмотрим, что тебя ждет в этом блокноте.

Настройка проведения конференций с помощью ноутбука Google Gemini 2.5

Чтобы начать работу с блокнотом Ultralytics и использовать Google Gemini 2.5, тебе сначала нужно будет сгенерировать API-ключ через Google AI Studio. Этот ключ дает тебе доступ к API Gemini, чтобы ты мог использовать модель.

Как только ты получишь API-ключ, убедись, что в твоем окружении установлены необходимые библиотеки - это пакеты от Ultralytics и инструментарий искусственного интеллекта Google. Этот шаг четко описан в блокноте, поэтому ты сможешь легко следовать инструкциям, чтобы настроить свое рабочее пространство.

Когда все настроено, ты можешь подключиться к API Gemini, введя свой API-ключ (как показано ниже), что создаст связь между твоим рабочим пространством и моделью. После этого ты будешь готов отправлять изображения и текстовые подсказки в Gemini 2.5.

1# Initialize the Gemini client with your API key
2client = genai.Client(api_key="api_key")

По сути, ты можешь предоставить изображение и простую инструкцию (например, "обнаружить объекты на этом изображении" или "описать то, что ты видишь") модели, и она вернет нужные тебе результаты. Этот простой процесс позволяет легко начать изучать возможности компьютерного зрения Gemini 2.5.

Обнаружение объектов с помощью Google Gemini 2.5

Один из ключевых примеров в блокноте - обнаружение объектов с помощью Gemini 2.5 Pro. В этом примере ты предоставляешь модели изображение и простую подсказку для обнаружения объектов. 

Модель обрабатывает изображение и возвращает набор координат и меток для каждого найденного объекта; эти координаты даются в нормализованном виде. Затем используются функции из пакетаUltralytics Python , чтобы преобразовать эти нормализованные значения в соответствии с реальными размерами изображения и нарисовать четкие ограничительные рамки вокруг каждого объекта, как показано ниже.

Рис 3. Использование Google Gemini 2.5 для обнаружения объектов.

Создание надписей к изображениям с помощью Gemini 2.5

Еще один интересный пример в блокноте - создание подписей к изображениям с помощью Gemini 2.5 Pro. В этом примере ты предоставляешь модели изображение и подсказку с просьбой сгенерировать подробную надпись, описывающую то, что изображено на картинке. 

Затем модель анализирует визуальный контент и возвращает рассказ, часто оформленный в виде нескольких предложений, который отражает как содержание, так и контекст изображения. Эта функция полезна для улучшения доступности, обобщения визуальной информации и даже для улучшения творческого повествования.

Повышение точности OCR с помощью моделей Google Gemini

Задача компьютерного зрения, в которой используется способность Gemini 2.5 Pro читать текст на изображениях, - это OCR. В блокноте ты можешь предоставить модели изображение, содержащее текст, а также запрос на извлечение этого текста. Модель обрабатывает изображение и возвращает как обнаруженный текст, так и координаты, в которых этот текст находится, как показано ниже.

1# Define the text prompt
2prompt = """
3Extract the text from the image
4"""
5
6# Fixed, plotting function depends on this.
7output_prompt = """
8Return just box_2d which will be location of detected text areas + label"""
9
10image, w, h = read_image("gemini-image3.png")  # Read image and extract width, height
11
12results = inference(image, prompt + output_prompt)

Функции из пакета Ultralytics Python затем используются для преобразования этих нормализованных координат в реальные размеры изображения и рисования ограничительных рамок вокруг текстовых областей. Этот аннотированный вывод позволяет понять, где находится текст, что полезно для оцифровки документов, автоматизации ввода данных и улучшения доступности.

Рис. 4. Извлечение текстовых данных из изображения с помощью Google Gemini 2.5.

Реальные варианты применения Google Gemini 2.5

Теперь, когда мы рассмотрели, как Google Gemini 2.5 Pro можно использовать для различных задач компьютерного зрения, давай изучим несколько реальных приложений, в которых можно применить эти возможности.

Например, способность Gemini 2.5 Pro обнаруживать объекты может помочь автоматически маркировать и организовывать большие наборы изображений, что значительно ускоряет выполнение таких задач, как создание наборов данных или управление контентом. Его также можно использовать для анализа изображений в таких областях, как розничная торговля и сельское хозяйство, - например, для обнаружения товаров на полках или выявления признаков стресса на фермерских фотографиях.

Рис. 5. Gemini 2.5 Pro анализирует состояние здоровья растения.

В то же время функция создания подписей к изображениям в модели может помочь слабовидящим пользователям понять, что изображено на снимке. Например, если у тебя есть фотография оживленной улицы, модель может создать надпись, которая подробно опишет сцену, упомянув типы транспортных средств, активность пешеходов и даже время суток на основе световых подсказок. 

Кроме того, OCR-функции Gemini 2.5 можно использовать в самых разных приложениях. Например, ты можешь оцифровывать печатные документы, сканируя страницы или квитанции. Эта возможность идеально подходит для автоматизации задач по вводу данных, обработки форм или даже чтения текста с визиток и вывесок. 

В целом Google Gemini 2.5 Pro открывает двери для широкого спектра практических приложений ИИ.

Основные выводы

Не ограничиваясь созданием и анализом текста, Google Gemini 2.5 Pro можно использовать для задач компьютерного зрения, таких как обнаружение объектов, создание подписей к изображениям и OCR. Благодаря огромному контекстному окну и расширенным возможностям рассуждений он выдает подробные, учитывающие контекст результаты, которые отлично работают в реальных сценариях. 

Поскольку модели ИИ продолжают развиваться, такие инструменты, как Gemini 2.5 Pro, упрощают решение сложных задач в разных отраслях. Вполне вероятно, что мы станем свидетелями еще более широкого внедрения ИИ, поскольку все больше организаций ищут гибкие, мультимодальные решения, способные решать широкий спектр задач, от визуального понимания до обработки языка.

Стань частью нашего сообщества и узнай о передовых ИИ-проектах в нашем репозитории GitHub. Ознакомься с применением ИИ зрения в сельском хозяйстве и ролью ИИ в производстве на страницах наших решений. Изучи наши лицензионные планы и создавай решения в области компьютерного зрения уже сегодня!

Логотип FacebookЛоготип ТвиттераЛоготип LinkedInСимвол копирования-ссылки

Читайте больше в этой категории

Давай вместе построим будущее
искусственного интеллекта!

Начни свое путешествие с будущим машинного обучения