Узнай, как можно на практике использовать Google Gemini 2.5 для решения задач компьютерного зрения, таких как обнаружение объектов, создание подписей к изображениям и OCR для решений Vision AI.
Прогресс в области искусственного интеллекта движется быстро, и новые инновации появляются в заголовках газет почти каждый день. Один из таких недавних прорывов - Gemini 2.5, новейшая мультимодальная модель от Google DeepMind, представленная 26 марта. В то время как традиционные большие языковые модели (Large Language Models, LLM) могут обучаться на огромном количестве данных, чтобы генерировать человекоподобный текст, Gemini 2.5 выходит за эти рамки.
Он создан как "модель мышления", которая может обрабатывать изображения, аудио и видео. Она обладает улучшенными навыками рассуждения и кодирования. Интересно, что он также показывает исключительные результаты в задачах компьютерного зрения, где машины интерпретируют и анализируют визуальные данные, таких как обнаружение объектов, создание подписей к изображениям и оптическое распознавание символов (OCR).
В этой статье мы рассмотрим один из ноутбуков Ultralytics, который поможет тебе на практике познакомиться с возможностями компьютерного зрения Gemini 2.5. Мы также подробно рассмотрим ключевые особенности Gemini 2.5 и покажем, как его можно использовать для создания решений в области компьютерного зрения для реальных приложений. Давай приступим!
Первая версия в модельном ряду Gemini 2.5, которая только что вышла, - это экспериментальный релиз Gemini 2.5 Pro. Она предназначена для решения сложных задач, продумывая свои ответы, прежде чем дать ответ. В ней используются такие методы, как обучение с подкреплением (когда модель учится на обратной связи) и подсказки по цепочке мыслей (пошаговый подход к решению задач).
Одна из его ключевых особенностей - огромное контекстное окно, которое вмещает 1 миллион токенов (примерно миллион слов или частей слов) и, как ожидается, вырастет до 2 миллионов. Это значит, что модель может воспринимать сразу много информации, что приводит к более детальным и точным результатам.
Помимо языка обработки, Gemini 2.5 можно использовать для следующих задач компьютерного зрения:
Сегодня в пространстве ИИ существует несколько мультимодальных моделей, поэтому важно понять, как Gemini 2.5 Pro сравнивается с ними. Судя по результатам бенчмарков, которыми поделилась компания DeepMind от Google, Gemini 2.5 Pro демонстрирует впечатляющую производительность в целом ряде задач.
Например, в тесте под названием Humanity's Last Exam, который имитирует сложный экзамен, охватывающий множество предметов и проверяющий развитое мышление и общие знания, Gemini 2.5 Pro набирает около 18,8%, опережая такие модели, как o3-mini от OpenAI, которая набирает около 14%.
Он также очень хорошо справляется с задачами по математике и кодированию, часто соответствуя или превосходя по производительности такие модели, как OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta и DeepSeek R1, демонстрируя свою способность справляться со сложными задачами и обрабатывать большие объемы данных.
Gemini 2.5 Pro доступен на нескольких платформах. Ты можешь экспериментировать с ней в Google AI Studio и получить доступ к ней через приложение Gemini для пользователей Gemini Advanced. В своем анонсе запуска Google DeepMind также упомянул, что вскоре модель будет поддерживаться на Vertex AI. Эти точки доступа упрощают разработчикам использование Gemini 2.5 Pro для реальных приложений ИИ.
Однако если ты хочешь использовать API Google Gemini и приступить к работе всего за несколько минут без сложной настройки, а также хочешь лучше понять возможности его компьютерного зрения, то можешь ознакомиться с блокнотомUltralytics , в котором показаны такие задачи, как обнаружение объектов и создание подписей к изображениям с помощью Gemini 2.5 Pro. Давай подробно рассмотрим, что тебя ждет в этом блокноте.
Чтобы начать работу с блокнотом Ultralytics и использовать Google Gemini 2.5, тебе сначала нужно будет сгенерировать API-ключ через Google AI Studio. Этот ключ дает тебе доступ к API Gemini, чтобы ты мог использовать модель.
Как только ты получишь API-ключ, убедись, что в твоем окружении установлены необходимые библиотеки - это пакеты от Ultralytics и инструментарий искусственного интеллекта Google. Этот шаг четко описан в блокноте, поэтому ты сможешь легко следовать инструкциям, чтобы настроить свое рабочее пространство.
Когда все настроено, ты можешь подключиться к API Gemini, введя свой API-ключ (как показано ниже), что создаст связь между твоим рабочим пространством и моделью. После этого ты будешь готов отправлять изображения и текстовые подсказки в Gemini 2.5.
1# Initialize the Gemini client with your API key
2client = genai.Client(api_key="api_key")
По сути, ты можешь предоставить изображение и простую инструкцию (например, "обнаружить объекты на этом изображении" или "описать то, что ты видишь") модели, и она вернет нужные тебе результаты. Этот простой процесс позволяет легко начать изучать возможности компьютерного зрения Gemini 2.5.
Один из ключевых примеров в блокноте - обнаружение объектов с помощью Gemini 2.5 Pro. В этом примере ты предоставляешь модели изображение и простую подсказку для обнаружения объектов.
Модель обрабатывает изображение и возвращает набор координат и меток для каждого найденного объекта; эти координаты даются в нормализованном виде. Затем используются функции из пакетаUltralytics Python , чтобы преобразовать эти нормализованные значения в соответствии с реальными размерами изображения и нарисовать четкие ограничительные рамки вокруг каждого объекта, как показано ниже.
Еще один интересный пример в блокноте - создание подписей к изображениям с помощью Gemini 2.5 Pro. В этом примере ты предоставляешь модели изображение и подсказку с просьбой сгенерировать подробную надпись, описывающую то, что изображено на картинке.
Затем модель анализирует визуальный контент и возвращает рассказ, часто оформленный в виде нескольких предложений, который отражает как содержание, так и контекст изображения. Эта функция полезна для улучшения доступности, обобщения визуальной информации и даже для улучшения творческого повествования.
Задача компьютерного зрения, в которой используется способность Gemini 2.5 Pro читать текст на изображениях, - это OCR. В блокноте ты можешь предоставить модели изображение, содержащее текст, а также запрос на извлечение этого текста. Модель обрабатывает изображение и возвращает как обнаруженный текст, так и координаты, в которых этот текст находится, как показано ниже.
1# Define the text prompt
2prompt = """
3Extract the text from the image
4"""
5
6# Fixed, plotting function depends on this.
7output_prompt = """
8Return just box_2d which will be location of detected text areas + label"""
9
10image, w, h = read_image("gemini-image3.png") # Read image and extract width, height
11
12results = inference(image, prompt + output_prompt)
Функции из пакета Ultralytics Python затем используются для преобразования этих нормализованных координат в реальные размеры изображения и рисования ограничительных рамок вокруг текстовых областей. Этот аннотированный вывод позволяет понять, где находится текст, что полезно для оцифровки документов, автоматизации ввода данных и улучшения доступности.
Теперь, когда мы рассмотрели, как Google Gemini 2.5 Pro можно использовать для различных задач компьютерного зрения, давай изучим несколько реальных приложений, в которых можно применить эти возможности.
Например, способность Gemini 2.5 Pro обнаруживать объекты может помочь автоматически маркировать и организовывать большие наборы изображений, что значительно ускоряет выполнение таких задач, как создание наборов данных или управление контентом. Его также можно использовать для анализа изображений в таких областях, как розничная торговля и сельское хозяйство, - например, для обнаружения товаров на полках или выявления признаков стресса на фермерских фотографиях.
В то же время функция создания подписей к изображениям в модели может помочь слабовидящим пользователям понять, что изображено на снимке. Например, если у тебя есть фотография оживленной улицы, модель может создать надпись, которая подробно опишет сцену, упомянув типы транспортных средств, активность пешеходов и даже время суток на основе световых подсказок.
Кроме того, OCR-функции Gemini 2.5 можно использовать в самых разных приложениях. Например, ты можешь оцифровывать печатные документы, сканируя страницы или квитанции. Эта возможность идеально подходит для автоматизации задач по вводу данных, обработки форм или даже чтения текста с визиток и вывесок.
В целом Google Gemini 2.5 Pro открывает двери для широкого спектра практических приложений ИИ.
Не ограничиваясь созданием и анализом текста, Google Gemini 2.5 Pro можно использовать для задач компьютерного зрения, таких как обнаружение объектов, создание подписей к изображениям и OCR. Благодаря огромному контекстному окну и расширенным возможностям рассуждений он выдает подробные, учитывающие контекст результаты, которые отлично работают в реальных сценариях.
Поскольку модели ИИ продолжают развиваться, такие инструменты, как Gemini 2.5 Pro, упрощают решение сложных задач в разных отраслях. Вполне вероятно, что мы станем свидетелями еще более широкого внедрения ИИ, поскольку все больше организаций ищут гибкие, мультимодальные решения, способные решать широкий спектр задач, от визуального понимания до обработки языка.
Стань частью нашего сообщества и узнай о передовых ИИ-проектах в нашем репозитории GitHub. Ознакомься с применением ИИ зрения в сельском хозяйстве и ролью ИИ в производстве на страницах наших решений. Изучи наши лицензионные планы и создавай решения в области компьютерного зрения уже сегодня!
Начни свое путешествие с будущим машинного обучения