Glossário

Classificação de imagens

Descobre a classificação de imagens com Ultralytics YOLO : treina modelos personalizados para cuidados de saúde, agricultura, retalho e muito mais, utilizando ferramentas de ponta.

A classificação de imagens é uma tarefa fundamental na Visão por Computador (CV) que envolve a atribuição de uma única etiqueta ou categoria a uma imagem inteira com base no seu conteúdo visual. É uma capacidade essencial da Inteligência Artificial (IA), permitindo que as máquinas compreendam e categorizem imagens de forma semelhante à forma como os humanos reconhecem cenas ou objectos. Alimentada por técnicas de aprendizagem automática (ML) e, em particular, de aprendizagem profunda (DL), a classificação de imagens tem como objetivo responder à pergunta: "Qual é o tema principal desta imagem?". Esta tarefa serve como um bloco de construção para muitos problemas de compreensão visual mais complexos.

Como funciona a classificação de imagens

O processo envolve normalmente o treino de um modelo, muitas vezes um tipo especializado de rede neural chamado Rede Neural Convolucional (CNN), num grande conjunto de dados de imagens rotuladas. Conjuntos de dados famosos como o ImageNet, que contém milhões de imagens em milhares de categorias, são normalmente utilizados para treinar modelos robustos. Durante o treino, o modelo aprende a identificar padrões e caraterísticas distintivas - tais como texturas, formas, arestas e distribuições de cores - que caracterizam diferentes categorias. Estruturas como PyTorch e TensorFlow fornecem as ferramentas e bibliotecas necessárias para criar e treinar estes modelos de aprendizagem profunda. Podes explorar vários conjuntos de dados de classificaçãoUltralytics , como o CIFAR-100 ou o MNIST, para iniciares os teus próprios projectos. O objetivo final é que o modelo treinado preveja com precisão o rótulo da classe para imagens novas e não vistas anteriormente. Para uma compreensão técnica mais profunda dos mecanismos subjacentes, recursos como o curso Stanford CS231n sobre Redes Neurais Convolucionais para Reconhecimento Visual oferecem material abrangente.

Principais diferenças em relação a outras tarefas de visão

A classificação de imagens centra-se na atribuição de um rótulo único e abrangente a toda a imagem. Isto torna-a distinta de outras tarefas comuns de visão computacional:

Deteção de objectos: Esta tarefa vai um pouco mais longe, não só classificando os objectos dentro de uma imagem, mas também localizando-os, normalmente desenhando caixas delimitadoras em torno de cada instância detectada. Responde a "Que objectos existem nesta imagem e onde estão localizados?".
Segmentação de imagens: Classifica cada pixel da imagem.
- Segmentação semântica atribui uma etiqueta de classe (por exemplo, "carro", "estrada", "céu") a cada pixel, sem distinguir entre diferentes instâncias da mesma classe.
- Segmentação de instâncias distingue entre instâncias individuais de objectos, atribuindo um identificador único aos pixels pertencentes a cada objeto separado (por exemplo, rotulando 'carro 1', 'carro 2').

Compreender estas diferenças é crucial para selecionar a técnica adequada para um problema específico, uma vez que cada tarefa fornece um nível diferente de detalhe sobre o conteúdo da imagem.

Aplicações no mundo real

A classificação de imagens é amplamente utilizada em vários domínios devido à sua eficácia na categorização da informação visual:

Análise de imagens médicas: Classifica exames médicos (como radiografias, tomografias computorizadas ou ressonâncias magnéticas) para ajudar no diagnóstico. Por exemplo, um modelo pode ser treinado para classificar exames que mostrem sinais de uma condição específica, como a utilização de modelos YOLO para a deteção de tumores, ajudando assim os radiologistas. Explora mais soluções de IA nos cuidados de saúde.
Tecnologia agrícola: Classifica imagens de culturas para identificar doenças, avaliar a saúde das plantas ou determinar o estado de maturação. Por exemplo, uma aplicação poderia classificar as fotografias tiradas por um drone ou por um agricultor como "trigo saudável" ou "ferrugem do trigo detectada", permitindo uma intervenção atempada. Sabe mais sobre a visão computacional na agricultura.
Retalho e comércio eletrónico: Categoriza automaticamente imagens de produtos para catálogos online, melhorando a capacidade de pesquisa e a gestão de inventário.
Moderação de conteúdos: Filtra imagens em redes sociais ou sítios Web, classificando-as como seguras ou impróprias.
Conservação da vida selvagem: Classifica imagens de armadilhas fotográficas para monitorizar populações de animais e identificar espécies(como as zebras).