Reconhecimento de imagens
Descubra como o reconhecimento de imagens permite à IA classificar e compreender imagens, impulsionando a inovação nos cuidados de saúde, no retalho, na segurança e muito mais.
O reconhecimento de imagens é um vasto campo da visão por computador que permite às máquinas identificar e interpretar objectos, pessoas, locais e acções em imagens ou vídeos digitais. É uma tecnologia fundamental que potencia inúmeras aplicações, desde desbloquear o telemóvel com o rosto até permitir que veículos autónomos naveguem em ambientes complexos. Na sua essência, o reconhecimento de imagens utiliza algoritmos de aprendizagem automática (ML) e aprendizagem profunda (DL) para analisar pixéis e extrair padrões significativos, imitando a capacidade humana de compreender informações visuais.
Reconhecimento de imagens vs. tarefas relacionadas
Embora seja frequentemente utilizado de forma indistinta, o reconhecimento de imagens é um termo geral que engloba várias tarefas mais específicas. É importante distingui-lo dos seus subcampos:
- Classificação de imagens: Esta é a forma mais simples de reconhecimento de imagens. Envolve a atribuição de um único rótulo a uma imagem inteira a partir de um conjunto predefinido de categorias. Por exemplo, um modelo pode classificar uma imagem como contendo um "gato", "cão" ou "carro". O resultado é uma etiqueta para toda a imagem.
- Deteção de objectos: Uma tarefa mais avançada, a deteção de objectos não só classifica os objectos numa imagem como também os localiza, normalmente desenhando uma caixa delimitadora à volta de cada um. Um carro autónomo, por exemplo, utiliza a deteção de objectos para identificar e localizar peões, outros veículos e sinais de trânsito.
- Segmentação de imagens: Esta tarefa vai um passo mais além, identificando os pixels precisos pertencentes a cada objeto numa imagem. Cria uma máscara detalhada para cada objeto, o que é crucial para aplicações que requerem uma compreensão profunda da forma e dos limites de um objeto, como na análise de imagens médicas.
Como funciona o reconhecimento de imagens
O reconhecimento de imagens moderno é predominantemente alimentado por Redes Neuronais Convolucionais (CNN), um tipo de rede neuronal particularmente eficaz no processamento de dados em grelha, como as imagens. O processo normalmente envolve:
- Recolha de dados: É recolhido um grande conjunto de dados de imagens etiquetadas. Exemplos famosos são o ImageNet e o COCO.
- Treino do modelo: A CNN é treinada neste conjunto de dados. Durante o treino, a rede aprende a identificar padrões - desde arestas e texturas simples a partes complexas de objectos - através de um processo denominado extração de caraterísticas. Os pesos do modelo são ajustados para minimizar a diferença entre as suas previsões e os rótulos de verdade.
- Inferência: Uma vez treinado, o modelo pode fazer previsões em imagens novas e não vistas. Este processo de aplicação de um modelo treinado é designado por inferência.
Aplicações no mundo real
O reconhecimento de imagens tornou-se parte integrante de muitos sectores:
- Cuidados de saúde: Na IA nos cuidados de saúde, o reconhecimento de imagens ajuda os radiologistas a detetar tumores, fracturas e outras anomalias em radiografias, ressonâncias magnéticas e tomografias computorizadas. Por exemplo, os modelos podem ser treinados em conjuntos de dados de imagens médicas para identificar tumores cerebrais com elevada precisão, ajudando os médicos a efetuar diagnósticos mais rápidos.
- Retalho: Os retalhistas utilizam o reconhecimento de imagem para a gestão do inventário, fazendo com que as câmaras monitorizem as prateleiras para detetar quando os produtos estão a acabar. As funcionalidades de pesquisa visual em sítios de comércio eletrónico, que permitem aos clientes carregar uma fotografia para encontrar produtos semelhantes, são outra aplicação popular. Pode saber mais sobre isto na nossa página sobre IA no retalho.