Verificação verde
Link copiado para a área de transferência

A IA generativa está a mudar o caminho da visão computacional

Descobre informações interessantes de um painel de discussão no YOLO Vision 2024. Explora a forma como a IA generativa está a moldar o caminho a seguir para os modelos de IA de visão em tempo real.

A IA generativa é um ramo da inteligência artificial (IA) que cria novos conteúdos, como imagens, texto ou áudio, através da aprendizagem de padrões a partir de dados existentes. Graças aos recentes avanços, pode agora ser utilizada para produzir conteúdos altamente realistas que muitas vezes imitam a criatividade humana.

No entanto, o impacto da IA generativa vai para além da simples criação de conteúdos. À medida que os modelos de visão por computador em tempo real, como os modelosUltralytics YOLO , continuam a evoluir, a IA generativa também está a redefinir a forma como os dados visuais são processados e aumentados, abrindo caminho para aplicações inovadoras em cenários do mundo real. 

Esta nova mudança tecnológica foi um tema de conversa interessante no YOLO Vision 2024 (YV24), um evento híbrido anual organizado pela Ultralytics. O YV24 reuniu entusiastas da IA e líderes da indústria para discutir os mais recentes avanços na visão computacional. O evento centrou-se na inovação, na eficiência e no futuro das soluções de IA em tempo real.

Um dos principais destaques do evento foi um painel de discussão sobre YOLO na era da IA generativa. O painel contou com a participação de Glenn Jocher, fundador e diretor executivo da Ultralytics, Jing Qiu, engenheiro sénior de aprendizagem automática da Ultralytics, e Ao Wang da Universidade de Tsinghua. Exploraram a forma como a IA generativa está a influenciar a visão por computador e os desafios da construção de modelos práticos de IA.

Neste artigo, vamos rever as principais ideias do seu debate e analisar mais de perto a forma como a IA generativa está a transformar a IA de visão.

Desenvolver os modelos Ultralytics YOLO

Juntamente com Glenn Jocher, muitos engenheiros qualificados desempenharam um papel vital no desenvolvimento dos modelosYOLO Ultralytics . Um deles, Jing Qiu, contou o seu início inesperado com o YOLO. Explica que a sua paixão pela IA começou durante os seus anos de faculdade. Passou uma quantidade significativa de tempo a explorar e a aprender sobre esta área. Jing Qiu recordou como se ligou a Glenn Jocher no GitHub e se envolveu em vários projectos de IA.

Para além do que disse Jing Qiu, Glenn Jocher descreveu o GitHub como "uma forma incrível de partilhar - onde pessoas que nunca conheceste se juntam para se ajudarem mutuamente, contribuindo para o trabalho umas das outras. É uma grande comunidade e uma excelente forma de te iniciares na IA".

Figura 1. Glenn Jocher e Jing Qiu a discursar no palco do YV24.

O interesse de Jing Qiu pela IA e o seu trabalho em Ultralytics YOLOv5 ajudou a aperfeiçoar o modelo. Mais tarde, desempenhou um papel fundamental no desenvolvimento do Ultralytics YOLOv8que introduziu mais melhorias. Descreve-a como uma viagem incrível. Atualmente, Jing Qiu continua a melhorar e a trabalhar em modelos como o Ultralytics YOLO11

YOLOv10: Optimizado para desempenho no mundo real

Ao Wang apresentou-se como estudante de doutoramento e participou no painel de discussão remotamente a partir da China. Inicialmente, estudou engenharia de software, mas a sua paixão pela IA levou-o a mudar para a visão computacional e a aprendizagem profunda.

O seu primeiro encontro com o famoso modelo YOLO foi durante a experimentação de várias técnicas e modelos de IA. Ficou impressionado com a sua velocidade e precisão, o que o inspirou a aprofundar as tarefas de visão por computador, como a deteção de objectos. Recentemente, Ao Wang contribuiu para o YOLOv10, uma versão recente do modelo YOLO . A sua investigação centrou-se na otimização do modelo para ser mais rápido e mais preciso.

A principal diferença entre a IA generativa e a IA de visão

Depois, o painel começou a discutir a IA generativa e Jing Qiu salientou que a IA generativa e a IA de visão têm objectivos muito diferentes. A IA generativa cria ou gera coisas como texto, imagens e vídeos, enquanto a IA de visão analisa o que já existe, principalmente imagens.

Glenn Jocher salientou que o tamanho também é uma grande diferença. Os modelos de IA generativa são enormes, contendo frequentemente milhares de milhões de parâmetros - definições internas que ajudam o modelo a aprender com os dados. Os modelos de visão por computador são muito mais pequenos. Diz: "O modelo YOLO mais pequeno que temos é cerca de mil vezes mais pequeno do que o LLM [Large Language Model] mais pequeno. Portanto, 3 milhões de parâmetros em comparação com três mil milhões".

Figura 3. O painel de discussão sobre IA generativa e IA de visão no YV24.

Jing Qiu acrescentou que os processos de formação e implementação da IA generativa e da visão por computador são também muito diferentes. A IA generativa necessita de servidores enormes e potentes para funcionar. Modelos como o YOLO, por outro lado, são construídos para serem eficientes e podem ser treinados e implementados em hardware padrão. Isto torna os modelos Ultralytics YOLO mais práticos para utilização no mundo real.

Apesar de serem diferentes, estes dois campos estão a começar a entrelaçar-se. Glenn Jocher explicou que a IA generativa está a trazer novos avanços à IA de visão, tornando os modelos mais inteligentes e mais eficientes. 

O impacto da IA generativa na visão por computador

A IA generativa tem avançado rapidamente e estas descobertas estão a influenciar muitas outras áreas da inteligência artificial, incluindo a visão por computador. De seguida, vamos analisar algumas ideias fascinantes do painel sobre este assunto.

Os avanços no hardware estão a permitir inovações na IA

No início do painel, Glenn Jocher explicou que as ideias de aprendizagem automática já existem há muito tempo, mas os computadores não eram suficientemente potentes para as fazer funcionar. As ideias de IA precisavam de hardware mais potente para se tornarem realidade.

O aparecimento das GPU (unidades de processamento gráfico) nos últimos 20 anos, com capacidades de processamento paralelo, mudou tudo. Tornaram o treino de modelos de IA muito mais rápido e eficiente, o que permitiu que a aprendizagem profunda se desenvolvesse a um ritmo acelerado.

Atualmente, os chips de IA, como as TPUs (Tensor Processing Units) e as GPUs optimizadas, consomem menos energia enquanto lidam com modelos maiores e mais complexos. Isto tornou a IA mais acessível e útil em aplicações do mundo real.

Com cada nova melhoria de hardware, as aplicações de IA generativa e de visão por computador estão a tornar-se mais poderosas. Estes avanços estão a tornar a IA em tempo real mais rápida, mais eficiente e pronta a ser utilizada em mais indústrias.

Como a IA generativa está a moldar os modelos de deteção de objectos

Quando lhe perguntaram de que forma a IA generativa está a influenciar a visão computacional, Jing Qiu disse que os transformadores - modelos que ajudam a IA a concentrar-se nas partes mais importantes de uma imagem - mudaram a forma como a IA compreende e processa as imagens. O primeiro grande passo foi o DETR (Transformador de Deteção), que utilizou esta nova abordagem para a deteção de objectos. Melhorou a precisão, mas teve problemas de desempenho que o tornaram mais lento em alguns casos.

Para resolver este problema, os investigadores criaram modelos híbridos como o RT-DETR. Estes modelos combinam Redes Neuronais Convolucionais (CNNs, que são modelos de aprendizagem profunda que aprendem e extraem automaticamente caraterísticas de imagens) e transformadores, equilibrando velocidade e precisão. Esta abordagem aproveita as vantagens dos transformadores, tornando a deteção de objectos mais rápida.

Curiosamente, o YOLOv10 utiliza camadas de atenção baseadas em transformadores (partes do modelo que actuam como um holofote para realçar as áreas mais importantes de uma imagem, ignorando os detalhes menos relevantes) para melhorar o seu desempenho. 

Ao Wang também mencionou como a IA generativa está a mudar a forma como os modelos são treinados. Técnicas como a modelação de imagens mascaradas ajudam a IA a aprender com imagens de forma mais eficiente, reduzindo a necessidade de grandes conjuntos de dados rotulados manualmente. Isto torna o treino da visão computacional mais rápido e menos intensivo em recursos.

O futuro da IA generativa e da IA de visão 

Outra ideia-chave que o painel discutiu foi a forma como a IA generativa e a IA de visão se podem juntar para construir modelos mais capazes. Glenn Jocher explicou que, embora estas duas abordagens tenham pontos fortes diferentes, a sua combinação pode abrir novas possibilidades. 

Por exemplo, os modelos de IA de visão, como o YOLO , dividem frequentemente uma imagem numa grelha para identificar objectos. Este método baseado em grelhas poderia ajudar os modelos de linguagem a melhorar a sua capacidade de identificar detalhes e de os descrever - um desafio que muitos modelos de linguagem enfrentam atualmente. Essencialmente, a fusão destas técnicas pode levar a sistemas que consigam detetar com precisão e explicar claramente o que vêem.

Figura 4. O futuro da IA generativa e da IA de visão. Imagem do autor.

Principais conclusões

A IA generativa e a visão por computador estão a avançar em conjunto. Enquanto a IA generativa cria imagens e vídeos, também melhora a análise de imagens e vídeos, trazendo para a mesa novas ideias inovadoras que podem tornar os modelos de IA de visão mais precisos e eficientes. 

Nesta perspicaz palestra do painel YV24, Glenn Jocher, Jing Qiu e Ao Wang partilharam as suas ideias sobre a forma como estas tecnologias estão a moldar o futuro. Com melhor hardware de IA, a IA generativa e a IA de visão continuarão a evoluir, conduzindo a inovações ainda maiores. Estes dois campos estão a trabalhar em conjunto para criar uma IA mais inteligente, mais rápida e mais útil para a vida quotidiana.

Junta-te à nossa comunidade e explora o nosso repositório GitHub para saberes mais sobre a IA de visão. Vê as nossas opções de licenciamento para iniciares os teus projectos de visão computacional. Estás interessado em inovações como a IA no fabrico ou a visão computacional na condução autónoma? Visita as nossas páginas de soluções para saberes mais. 

Logótipo do FacebookLogótipo do TwitterLogótipo do LinkedInSímbolo de ligação de cópia

Ler mais nesta categoria

Vamos construir juntos o futuro
da IA!

Começa a tua viagem com o futuro da aprendizagem automática