Descobre o poder da deteção de objectos - identifica e localiza objectos em imagens ou vídeos com modelos de ponta como YOLO. Explora aplicações do mundo real!
A deteção de objectos é uma tarefa fundamental na visão computacional (CV) que envolve a identificação da presença, localização e tipo de um ou mais objectos numa imagem ou vídeo. Ao contrário da classificação de imagens, que atribui um único rótulo a uma imagem inteira (por exemplo, "gato"), a deteção de objectos delineia com precisão cada instância de objeto utilizando uma caixa delimitadora e atribui-lhe um rótulo de classe (por exemplo, "gato" nas coordenadas x, y, largura, altura). Esta capacidade permite que as máquinas compreendam as cenas visuais com maior granularidade, imitando mais de perto a perceção visual humana e permitindo interações mais complexas com o ambiente. É uma tecnologia essencial subjacente a muitas aplicações modernas de inteligência artificial (IA).
A deteção de objectos combina normalmente duas tarefas principais: classificação de objectos (determinar "que" objeto está presente) e localização de objectos (determinar "onde" o objeto está localizado, normalmente através de coordenadas de caixa delimitadora). Os sistemas modernos de deteção de objectos dependem fortemente da aprendizagem profunda (DL), em particular das Redes Neuronais Convolucionais (CNN). Estas redes são treinadas em grandes conjuntos de dados anotados, como o popular conjunto de dados COCO ou o Open Images V7, para aprender caraterísticas visuais e padrões associados a diferentes classes de objectos.
Durante a operação (conhecida como inferência), o modelo treinado processa uma imagem ou quadro de vídeo de entrada. Emite uma lista de potenciais objectos, cada um representado por uma caixa delimitadora, uma etiqueta de classe prevista (por exemplo, "carro", "pessoa", "cão") e uma pontuação de confiança que indica a certeza do modelo quanto à deteção. Técnicas como a Supressão Não Máxima (NMS) são frequentemente utilizadas para refinar estes resultados, removendo caixas redundantes e sobrepostas para o mesmo objeto. O desempenho destes modelos é normalmente avaliado utilizando métricas como a Intersecção sobre a União (IoU) e a Precisão Média (mAP).
É importante distinguir a deteção de objectos de outras tarefas relacionadas com a visão computacional:
Os modelos de deteção de objectos dividem-se geralmente em duas categorias principais, que diferem principalmente na sua abordagem e nos compromissos de velocidade/precisão:
A deteção de objectos é uma tecnologia fundamental que permite inúmeras aplicações em diversas indústrias:
O desenvolvimento e a implementação de modelos de deteção de objectos envolvem várias ferramentas e técnicas. Estruturas populares de aprendizagem profunda como PyTorch e TensorFlow fornecem as bibliotecas de base. As bibliotecas de visão computacional, como o OpenCV, oferecem funções essenciais de processamento de imagem.
Ultralytics fornece o que há de mais moderno Ultralytics YOLO incluindo os modelos YOLOv8 e YOLO11optimizados para velocidade e precisão. A plataforma Ultralytics HUB simplifica ainda mais o fluxo de trabalho, oferecendo ferramentas para gerir conjuntos de dados, treinar modelos personalizados, efetuar o ajuste de hiperparâmetros e facilitar a implementação de modelos. O treinamento eficaz de modelos geralmente se beneficia de estratégias e técnicas de aumento de dados, como o aprendizado por transferência, usando pesos pré-treinados de conjuntos de dados como o ImageNet.