Verificação verde
Link copiado para a área de transferência

Experimenta o Google Gemini 2.5 para tarefas de visão computacional

Vê como podes pôr mãos à obra com o Google Gemini 2.5 para tarefas de visão computacional, como deteção de objectos, legendagem de imagens e OCR para soluções Vision AI.

Os avanços da IA estão a avançar rapidamente, com novas inovações a fazer manchetes quase todos os dias. Um desses avanços recentes é o Gemini 2.5, o mais recente modelo multimodal do Google DeepMind, lançado a 26 de março. Enquanto os modelos tradicionais de linguagem de grande porte (LLMs) podem aprender com grandes quantidades de dados para gerar texto semelhante ao humano, o Gemini 2.5 vai além disso. 

Foi concebido como um "modelo de pensamento" que pode processar imagens, áudio e vídeo. Tem capacidades de raciocínio e de codificação melhoradas. Curiosamente, também tem um desempenho excecional no que diz respeito às tarefas de visão por computador, em que as máquinas interpretam e analisam dados visuais, como a deteção de objectos, a legendagem de imagens e o reconhecimento ótico de caracteres (OCR).

Figura 1. Um exemplo de utilização do Gemini 2.5 para compreender o conteúdo de uma imagem.

Neste artigo, vamos percorrer um dos notebooks da Ultralyticsque pode ajudar-te a pôr mãos à obra com as capacidades de visão computacional do Gemini 2.5. Também analisaremos mais de perto os principais recursos do Gemini 2.5 e mostraremos como ele pode ser usado para criar soluções de visão computacional para aplicações do mundo real. Vamos começar!

Visão geral do Gemini 2.5: caraterísticas e capacidades

A primeira versão da série de modelos Gemini 2.5 que acaba de ser lançada é uma versão experimental do Gemini 2.5 Pro. Foi concebido para lidar com problemas complexos, pensando nas suas respostas antes de dar uma resposta. Utiliza métodos como a aprendizagem por reforço (em que o modelo aprende com o feedback) e o raciocínio em cadeia (uma abordagem passo a passo para resolver problemas).

Uma das suas principais caraterísticas é a sua enorme janela de contexto, que pode conter 1 milhão de tokens (cerca de um milhão de palavras ou partes de palavras) e deverá aumentar para 2 milhões. Isto significa que o modelo pode receber muita informação de uma só vez, conduzindo a resultados mais pormenorizados e precisos.

Para além da linguagem de processamento, o Gemini 2.5 pode ser utilizado para as seguintes tarefas de visão por computador:

  • Deteção de objectos: É o processo de identificação e localização de objectos dentro de uma imagem. Pode ser utilizado em aplicações como a vigilância ou carros autónomos.
  • Legenda da imagem: Esta tarefa consiste em gerar um texto descritivo para uma imagem. Torna o conteúdo visual mais acessível e mais fácil de compreender.
  • Reconhecimento ótico de caracteres: Esta tecnologia converte texto encontrado em imagens em texto editável e legível por máquina. É útil para digitalizar documentos e automatizar a introdução de dados.

Avalia e compara Google Gemini 2.5 com outros modelos

Atualmente, existem vários modelos multimodais disponíveis no espaço da IA, pelo que é importante compreender como o Gemini 2.5 Pro se compara a eles. Com base nos resultados de benchmarking partilhados pelo DeepMind da Google, o Gemini 2.5 Pro apresenta um desempenho impressionante numa série de tarefas. 

Por exemplo, num teste chamado Humanity's Last Exam, que simula um exame exigente que abrange muitas disciplinas e testa o raciocínio avançado e os conhecimentos gerais, o Gemini 2.5 Pro tem uma pontuação de cerca de 18,8%, superando modelos como o o3-mini da OpenAI, que tem uma pontuação de cerca de 14%. 

Figura 2. Vê o desempenho de referência do Gemini 2.5 Pro.

Também tem um desempenho muito bom em desafios de matemática e codificação, muitas vezes igualando ou excedendo o desempenho de modelos como OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta e DeepSeek R1, demonstrando sua capacidade de lidar com tarefas complexas e processar grandes quantidades de dados.

Como utilizar o Gemini 2.5: Como utilizar a API Google Gemini

O Gemini 2.5 Pro está disponível em várias plataformas. Podes fazer experiências com ele no Google AI Studio e aceder-lhe através da aplicação Gemini para os utilizadores do Gemini Advanced. No anúncio de lançamento, Google DeepMind também mencionou que o modelo será suportado no Vertex AI em breve. Estes pontos de acesso facilitam aos programadores a utilização do Gemini 2.5 Pro em aplicações de IA do mundo real. 

No entanto, se quiseres utilizar a API Google Gemini e começar a utilizá-la em apenas alguns minutos, sem configurações complicadas, e se quiseres compreender melhor as suas capacidades de visão por computador, podes consultar o cadernoUltralytics que apresenta tarefas como a deteção de objectos e a legendagem de imagens utilizando o Gemini 2.5 Pro. Vamos ver em detalhe o que podes esperar do notebook.

Configurar a inferência com o bloco de notas Google Gemini 2.5

Para começar a utilizar o bloco de notas Ultralytics e utilizar Google Gemini 2.5, primeiro tens de gerar uma chave de API através do Google AI Studio. Esta chave dá-te acesso à API do Gemini para que possas utilizar o modelo.

Assim que tiveres a tua chave API, certifica-te de que o teu ambiente tem as bibliotecas necessárias instaladas - estas incluem pacotes de Ultralytics e o kit de ferramentas de IA do Google. Este passo está claramente descrito no bloco de notas, pelo que podes seguir facilmente as instruções para configurar o teu espaço de trabalho.

Com tudo configurado, podes ligar-te à API do Gemini introduzindo a tua chave de API (como mostrado abaixo), que cria uma ligação entre o teu espaço de trabalho e o modelo. Depois disso, estarás pronto para enviar imagens e mensagens de texto para o Gemini 2.5.

1# Initialize the Gemini client with your API key
2client = genai.Client(api_key="api_key")

Essencialmente, podes fornecer uma imagem e uma instrução simples (como "detetar objectos nesta imagem" ou "descrever o que vês") ao modelo, e ele devolve os resultados de que precisas. Este processo simples torna fácil começar a explorar as capacidades de visão computacional do Gemini 2.5.

Deteção de objectos com o Google Gemini 2.5

Um dos principais exemplos do caderno é a deteção de objectos utilizando o Gemini 2.5 Pro. Neste exemplo, forneces ao modelo uma imagem e uma instrução simples para detetar objectos. 

O modelo processa a imagem e devolve um conjunto de coordenadas e etiquetas para cada objeto que encontra; estas coordenadas são dadas de forma normalizada. As funções do pacoteUltralytics Python são depois utilizadas para converter estes valores normalizados de modo a corresponderem às dimensões reais da imagem e desenhar caixas delimitadoras claras à volta de cada objeto, como se mostra abaixo.

Figura 3. Utiliza Google Gemini 2.5 para a deteção de objectos.

Legenda de imagens usando Gemini 2.5

Outro exemplo interessante no bloco de notas é a legendagem de imagens utilizando o Gemini 2.5 Pro. Neste exemplo, forneces ao modelo uma imagem e um pedido para gerar uma legenda detalhada que descreva o que está na imagem. 

O modelo analisa então o conteúdo visual e devolve uma narrativa, muitas vezes formatada como várias frases, que capta o conteúdo e o contexto da imagem. Esta funcionalidade é útil para melhorar a acessibilidade, resumir informações visuais e até melhorar a narração criativa de histórias.

Melhorar a precisão do OCR com os modelos Google Gemini

Uma tarefa de visão computacional que usa a capacidade do Gemini 2.5 Pro de ler texto em imagens é o OCR. No bloco de notas, podes fornecer ao modelo uma imagem que contenha texto, juntamente com um pedido para extrair esse texto. O modelo processa a imagem e retorna o texto detectado e as coordenadas onde o texto está localizado, como mostrado abaixo.

1# Define the text prompt
2prompt = """
3Extract the text from the image
4"""
5
6# Fixed, plotting function depends on this.
7output_prompt = """
8Return just box_2d which will be location of detected text areas + label"""
9
10image, w, h = read_image("gemini-image3.png")  # Read image and extract width, height
11
12results = inference(image, prompt + output_prompt)

As funções do pacote Ultralytics Python são depois utilizadas para converter estas coordenadas normalizadas nas dimensões reais da imagem e desenhar caixas delimitadoras à volta das regiões de texto. Esta saída anotada torna claro onde o texto está localizado, o que é útil para digitalizar documentos, automatizar a introdução de dados e melhorar a acessibilidade.

Fig. 4. Extrai dados textuais numa imagem utilizando Google Gemini 2.5.

Aplicações reais do Google Gemini 2.5

Agora que já explicámos como Google Gemini 2.5 Pro pode ser utilizado para várias tarefas de visão por computador, vamos explorar algumas aplicações do mundo real em que estas capacidades podem ser utilizadas.

A capacidade de deteção de objectos do Gemini 2.5 Pro, por exemplo, pode ajudar a rotular e organizar automaticamente grandes conjuntos de imagens, tornando tarefas como a criação de conjuntos de dados ou a gestão de conteúdos muito mais rápidas. Também pode ser utilizado para analisar imagens em áreas como o retalho e a agricultura - por exemplo, para detetar produtos nas prateleiras ou identificar sinais de stress nas colheitas em fotografias de quintas.

Fig. 5. Gemini 2.5 Pro analisando a saúde de uma planta.

Entretanto, a funcionalidade de legendagem de imagens do modelo pode ajudar os utilizadores com deficiências visuais a compreender o que está numa imagem. Por exemplo, se tiveres uma fotografia de uma rua movimentada, o modelo pode produzir uma legenda que descreva a cena em pormenor, mencionando os tipos de veículos, a atividade dos peões e até a hora do dia, com base em sinais de iluminação. 

Para além disso, a funcionalidade OCR do Gemini 2.5 pode ser utilizada numa variedade de aplicações. Por exemplo, podes digitalizar documentos impressos, digitalizando páginas ou recibos. Essa capacidade é ideal para automatizar tarefas de entrada de dados, processar formulários ou até mesmo ler o texto de cartões de visita e sinalização. 

No geral, Google Gemini 2.5 Pro abre as portas a uma vasta gama de aplicações práticas de IA.

Principais conclusões

Para além de gerar e analisar texto, Google Gemini 2.5 Pro pode ser utilizado para tarefas de visão computacional, como deteção de objectos, legendagem de imagens e OCR. Com a sua enorme janela de contexto e capacidades de raciocínio melhoradas, produz resultados detalhados e conscientes do contexto que funcionam bem em cenários do mundo real. 

À medida que os modelos de IA continuam a evoluir, ferramentas como o Gemini 2.5 Pro estão a facilitar a resolução de problemas complexos em todos os sectores. É provável que assistamos a uma adoção ainda mais ampla da IA, à medida que mais organizações procuram soluções flexíveis e multimodais que possam lidar com uma vasta gama de tarefas, desde a compreensão visual ao processamento de linguagem.

Faz parte da nossa comunidade e aprende sobre projectos de IA de ponta no nosso repositório GitHub. Vê as aplicações da IA de visão na agricultura e o papel da IA no fabrico nas nossas páginas de soluções. Explora os nossos planos de licenciamento e constrói soluções de visão computacional hoje mesmo!

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática