Junta-te a nós para vermos mais de perto os novos modelos de linguagem de visão do Google: PaliGemma 2. Estes modelos podem ajudar-te a compreender e analisar imagens e texto.
Em 5 de dezembro de 2024, Google apresentou o PaliGemma 2, a versão mais recente do seu modelo de visão-linguagem (VLM) de ponta. O PaliGemma 2 foi concebido para lidar com tarefas que combinam imagens e texto, como a criação de legendas, a resposta a perguntas visuais e a deteção de objectos em imagens.
Com base no PaliGemma original, que já era uma ferramenta forte para legendagem multilingue e reconhecimento de objectos, o PaliGemma 2 traz várias melhorias importantes. Estas incluem tamanhos de modelos maiores, suporte para imagens de alta resolução e melhor desempenho em tarefas visuais complexas. Estas actualizações tornam-no ainda mais flexível e eficaz para uma vasta gama de utilizações.
Neste artigo, vamos analisar mais de perto o PaliGemma 2, incluindo o seu funcionamento, as suas principais caraterísticas e as aplicações em que se destaca. Começa a trabalhar!
O PaliGemma 2 baseia-se em duas tecnologias-chave: o codificador de visão SigLIP e o modelo de linguagem Gemma 2. O codificador SigLIP processa dados visuais, como imagens ou vídeos, e divide-os em caraterísticas que o modelo pode analisar. Entretanto, o Gemma 2 trata o texto, permitindo que o modelo compreenda e gere linguagem multilingue. Juntos, eles formam um VLM, projetado para interpretar e conectar informações visuais e de texto sem problemas.
O que torna o PaliGemma 2 um grande passo em frente é a sua escalabilidade e versatilidade. Ao contrário da versão original, o PaliGemma 2 está disponível em três tamanhos - 3 mil milhões (3B), 10 mil milhões (10B) e 28 mil milhões (28B) de parâmetros. Estes parâmetros são como as definições internas do modelo, ajudando-o a aprender e a processar dados de forma eficaz. Também suporta diferentes resoluções de imagem (por exemplo, 224 x 224 pixels para tarefas rápidas e 896 x 896 para análises detalhadas), tornando-o adaptável a várias aplicações.
A integração das capacidades avançadas de linguagem do Gemma 2 com o processamento de imagem do SigLIP torna o PaliGemma 2 significativamente mais inteligente. Consegue lidar com tarefas como:
O PaliGemma 2 vai além do processamento de imagens e texto separadamente - junta-os de forma significativa. Por exemplo, pode compreender as relações numa cena, como reconhecer que "O gato está sentado na mesa", ou identificar objectos enquanto acrescenta contexto, como reconhecer um ponto de referência famoso.
A seguir, vamos analisar um exemplo usando o gráfico mostrado na imagem abaixo para entender melhor como o PaliGemma 2 processa dados visuais e textuais. Digamos que carregas este gráfico e perguntas ao modelo: "O que é que este gráfico representa?"
O processo começa com o codificador de visão SigLIP do PaliGemma 2 para analisar imagens e extrair as principais caraterísticas. No caso de um gráfico, isto inclui a identificação de elementos como eixos, pontos de dados e rótulos. O codificador é treinado para capturar padrões amplos e detalhes finos. Utiliza também o reconhecimento ótico de caracteres (OCR) para detetar e processar qualquer texto incorporado na imagem. Estas caraterísticas visuais são convertidas em tokens, que são representações numéricas que o modelo pode processar. Estes tokens são depois ajustados utilizando uma camada de projeção linear, uma técnica que garante que podem ser combinados sem problemas com dados textuais.
Ao mesmo tempo, o modelo de linguagem Gemma 2 processa a consulta que a acompanha para determinar o seu significado e intenção. O texto da consulta é convertido em tokens, que são combinados com os tokens visuais do SigLIP para criar uma representação multimodal, um formato unificado que liga dados visuais e textuais.
Utilizando esta representação integrada, o PaliGemma 2 gera uma resposta passo a passo através da descodificação autoregressiva, um método em que o modelo prevê uma parte da resposta de cada vez com base no contexto que já processou.
Agora que já percebemos como funciona, vamos explorar as principais caraterísticas que fazem do PaliGemma 2 um modelo fiável de visão-linguagem:
Dá uma olhada na arquitetura da primeira versão do PaliGemma para ver as melhorias do PaliGemma 2. Uma das mudanças mais notáveis é a substituição do modelo de linguagem Gemma original pelo Gemma 2, que traz melhorias substanciais tanto no desempenho quanto na eficiência.
O Gemma 2, disponível em tamanhos de parâmetros 9B e 27B, foi projetado para oferecer precisão e velocidade líderes na categoria, reduzindo os custos de implantação. Consegue isso através de uma arquitetura redesenhada e otimizada para eficiência de inferência em várias configurações de hardware, desde GPUs poderosas até configurações mais acessíveis.
Como resultado, o PaliGemma 2 é um modelo altamente preciso. A versão 10B do PaliGemma 2 alcança uma pontuação mais baixa de 20,3 em relação ao modelo original de 34,3, o que significa menos erros factuais nos seus resultados. Esses avanços tornam o PaliGemma 2 mais escalável, preciso e adaptável a uma ampla gama de aplicações, desde legendas detalhadas até respostas a perguntas visuais.
O PaliGemma 2 tem o potencial de redefinir as indústrias, combinando perfeitamente a compreensão visual e linguística. Por exemplo, no que diz respeito à acessibilidade, pode gerar descrições detalhadas de objectos, cenas e relações espaciais, fornecendo assistência crucial a pessoas com deficiência visual. Esta capacidade ajuda os utilizadores a compreenderem melhor os seus ambientes, oferecendo uma maior independência no que diz respeito às tarefas diárias.
Para além da acessibilidade, o PaliGemma 2 está a ter um impacto em vários sectores, incluindo:
Para experimentar o PaliGemma 2, podes começar com a demonstração interactiva do Hugging Face. Permite-te explorar as suas capacidades em tarefas como a legendagem de imagens e a resposta a perguntas visuais. Basta carregar uma imagem e fazer perguntas ao modelo sobre ela ou pedir uma descrição da cena.
Se quiseres ir mais longe, eis como podes pôr mãos à obra:
Depois de saberes como começar a utilizar o PaliGemma 2, vamos analisar mais detalhadamente os seus principais pontos fortes e inconvenientes a ter em conta ao utilizar estes modelos.
Eis o que faz com que o PaliGemma 2 se destaque como um modelo de linguagem de visão:
Entretanto, eis algumas áreas em que o PaliGemma 2 pode enfrentar limitações:
O PaliGemma 2 é um avanço fascinante na modelação da linguagem da visão, oferecendo maior escalabilidade, flexibilidade de afinação e precisão. Pode servir como uma ferramenta valiosa para aplicações que vão desde soluções de acessibilidade e comércio eletrónico a diagnósticos de cuidados de saúde e educação.
Embora tenha limitações, como os requisitos computacionais e a dependência de dados de alta qualidade, os seus pontos fortes fazem dele uma escolha prática para lidar com tarefas complexas que integram dados visuais e textuais. O PaliGemma 2 pode constituir uma base sólida para investigadores e programadores explorarem e expandirem o potencial da IA em aplicações multimodais.
Participa na conversa sobre IA consultando o nosso repositório GitHub e a nossa comunidade. Lê sobre como a IA está a fazer progressos na agricultura e nos cuidados de saúde! 🚀
Começa a tua viagem com o futuro da aprendizagem automática