Aprende sobre a deteção de objectos, a sua importância na IA e como modelos como o YOLO11 estão a transformar indústrias como a dos carros autónomos, dos cuidados de saúde e da segurança.
Muitas indústrias estão a integrar rapidamente soluções de inteligência artificial (IA) nas suas operações. Entre as muitas tecnologias de IA disponíveis atualmente, a visão por computador é uma das mais populares. A visão por computador é um ramo da IA que ajuda os computadores a ver e a compreender o conteúdo de imagens e vídeos, tal como os humanos. Torna possível que as máquinas reconheçam objectos, identifiquem padrões e dêem sentido àquilo para que estão a olhar.
Estima-se que o valor do mercado global da visão computacional cresça para 175,72 mil milhões de dólares até 2032. A visão computacional engloba várias tarefas que permitem aos sistemas de visão de IA analisar e interpretar dados visuais. Uma das tarefas mais amplamente utilizadas e essenciais da visão computacional é a deteção de objectos.
A deteção de objectos centra-se na localização e classificação de objectos em dados visuais. Por exemplo, se mostrares a um computador uma imagem de uma vaca, ele pode detetar a vaca e desenhar uma caixa delimitadora à sua volta. Esta capacidade é útil em aplicações do mundo real, como a monitorização de animais, carros autónomos e vigilância.
Então, como pode ser feita a deteção de objectos? Uma forma é através de modelos de visão por computador. Por exemplo, Ultralytics YOLO11 é um modelo de visão computacional que suporta tarefas de visão computacional como a deteção de objectos.
Neste guia, vamos explorar a deteção de objectos e o seu funcionamento. Também discutiremos algumas aplicações reais da deteção de objectos e do Ultralytics YOLO11.
A deteção de objectos é uma tarefa de visão computacional que identifica e localiza objectos em imagens ou vídeos. Responde a duas perguntas-chave: "Que objectos estão na imagem?" e "Onde estão localizados?
Podes pensar na deteção de objectos como um processo que envolve dois passos fundamentais. O primeiro, a classificação de objectos, permite ao sistema reconhecer e rotular objectos, tal como identificar um gato, um carro ou uma pessoa com base em padrões aprendidos. A segunda, a localização, determina a posição do objeto desenhando uma caixa delimitadora à sua volta, indicando onde aparece na imagem. Em conjunto, estes passos permitem às máquinas detetar e compreender objectos numa cena.
O aspeto da deteção de objectos que a torna única é a sua capacidade de reconhecer objectos e identificar a sua localização com precisão. Outras tarefas de visão computacional centram-se em objectivos diferentes.
Por exemplo, a classificação de imagens atribui uma etiqueta a uma imagem inteira. Entretanto, a segmentação de imagens fornece uma compreensão dos diferentes elementos ao nível dos pixels. Por outro lado, a deteção de objectos combina o reconhecimento com a localização. Isto torna-a especialmente útil para tarefas como a contagem de vários objectos em tempo real.
À medida que exploras vários termos de visão computacional, podes sentir que o reconhecimento de objectos e a deteção de objectos são intercambiáveis - mas servem propósitos diferentes. Uma óptima forma de compreender a diferença é olhar para a deteção e reconhecimento de rostos.
A deteção de rostos é um tipo de deteção de objectos. Identifica a presença de um rosto numa imagem e marca a sua localização utilizando uma caixa delimitadora. Responde à pergunta: "Onde está o rosto na imagem?" Esta tecnologia é normalmente utilizada em câmaras de smartphones que focam automaticamente rostos ou em câmaras de segurança que detectam a presença de uma pessoa.
O reconhecimento facial, por outro lado, é uma forma de reconhecimento de objectos. Não detecta apenas um rosto; identifica de quem é o rosto, analisando caraterísticas únicas e comparando-as com uma base de dados. Responde à pergunta: "Quem é esta pessoa?" Esta é a tecnologia por detrás do desbloqueio do teu telemóvel com o Face ID ou dos sistemas de segurança dos aeroportos que verificam as identidades.
Simplificando, a deteção de objectos encontra e localiza objectos, enquanto o reconhecimento de objectos os classifica e identifica.
Muitos modelos de deteção de objectos, como o YOLO11, foram concebidos para suportar a deteção de rostos, mas não o reconhecimento de rostos. YOLO11 consegue identificar eficazmente a presença de um rosto numa imagem e desenhar uma caixa delimitadora à sua volta, tornando-o útil para aplicações como sistemas de vigilância, monitorização de multidões e marcação automática de fotografias. No entanto, não consegue determinar de quem é o rosto. YOLO11 pode ser integrado com modelos especificamente treinados para reconhecimento facial, como o Facenet ou o DeepFace, para permitir tanto a deteção como a identificação num único sistema.
Antes de falarmos sobre como funciona a deteção de objectos, vamos primeiro ver como é que um computador analisa uma imagem. Em vez de ver uma imagem como nós a vemos, um computador divide-a numa grelha de pequenos quadrados chamados pixels. Cada pixel contém informações de cor e brilho que os computadores podem processar para interpretar dados visuais.
Para dar sentido a estes pixéis, os algoritmos agrupam-nos em regiões significativas com base na forma, cor e proximidade entre eles. Os modelos de deteção de objectos, como o YOLO11, podem reconhecer padrões ou caraterísticas nestes grupos de pixéis.
Por exemplo, um carro autónomo não vê um peão da mesma forma que nós - detecta formas e padrões que correspondem às caraterísticas de um peão. Estes modelos baseiam-se num treino extensivo com conjuntos de dados de imagens rotuladas, o que lhes permite aprender as caraterísticas distintivas de objectos como carros, sinais de trânsito e pessoas.
Um modelo típico de deteção de objectos tem três partes principais: espinha dorsal, pescoço e cabeça. A espinha dorsal extrai caraterísticas importantes de uma imagem. O pescoço processa e refina essas caraterísticas, enquanto a cabeça é responsável por prever a localização dos objectos e classificá-los.
Uma vez efectuadas as detecções iniciais, são aplicadas técnicas de pós-processamento para melhorar a precisão e filtrar as previsões redundantes. Por exemplo, as caixas delimitadoras sobrepostas são removidas, garantindo que apenas as detecções mais relevantes são retidas. Além disso, são atribuídas pontuações de confiança (valores numéricos que representam a certeza do modelo de que um objeto detectado pertence a uma determinada classe) a cada objeto detectado para indicar a certeza do modelo nas suas previsões.
Por fim, o resultado é apresentado com caixas delimitadoras desenhadas à volta dos objectos detectados, juntamente com as suas etiquetas de classe previstas e pontuações de confiança. Estes resultados podem então ser utilizados em aplicações do mundo real.
Atualmente, existem muitos modelos de visão por computador disponíveis, e alguns dos mais populares são os modelosUltralytics YOLO . São conhecidos pela sua velocidade, precisão e versatilidade. Ao longo dos anos, estes modelos tornaram-se mais rápidos, mais precisos e capazes de lidar com uma maior variedade de tarefas. O lançamento do Ultralytics YOLOv5 facilitou a implementação com estruturas como o PyTorch, permitindo que mais pessoas utilizem a IA de visão avançada sem necessitarem de conhecimentos técnicos profundos.
Constrói sobre esta base, Ultralytics YOLOv8 introduziu novas funcionalidades como a segmentação de instâncias, a estimativa de pose e a classificação de imagens. Agora, YOLO11 está a levar as coisas ainda mais longe com um melhor desempenho em várias tarefas. Com 22% menos parâmetros do que YOLOv8m, o YOLO11m alcança uma precisão média superior (mAP) no conjunto de dados COCO. Em termos simples, YOLO11 consegue reconhecer objectos com maior precisão, utilizando menos recursos, o que o torna mais rápido e fiável.
Quer sejas um especialista em IA ou estejas apenas a começar, YOLO11 oferece uma solução poderosa e fácil de utilizar para aplicações de visão por computador.
O treino de modelos de IA de visão consiste em ajudar os computadores a reconhecer e a compreender imagens e vídeos. No entanto, a formação pode ser um processo moroso. Em vez de começar do zero, a aprendizagem por transferência acelera o processo ao utilizar modelos pré-treinados que já reconhecem padrões comuns.
Por exemplo, YOLO11 já foi treinado no conjunto de dados COCO, que contém um conjunto diversificado de objectos do quotidiano. Este modelo pré-treinado pode ser ainda mais treinado para detetar objectos específicos que podem não estar incluídos no conjunto de dados original.
Para treinar o YOLO11 de forma personalizada, precisas de um conjunto de dados rotulado que contenha imagens dos objectos que queres detetar. Por exemplo, se quiseres construir um modelo para identificar diferentes tipos de frutas numa mercearia, deves criar um conjunto de dados com imagens rotuladas de maçãs, bananas, laranjas, etc. Assim que o conjunto de dados estiver preparado, YOLO11 pode ser treinado, ajustando parâmetros como o tamanho do lote, a taxa de aprendizagem e as épocas para otimizar o desempenho.
Com esta abordagem, as empresas podem treinar YOLO11 para detetar qualquer coisa, desde peças defeituosas no fabrico até espécies selvagens em projectos de conservação, adaptando o modelo às suas necessidades exactas.
Em seguida, vamos analisar alguns dos casos de utilização real da deteção de objectos e a forma como está a transformar várias indústrias.
Os automóveis com condução autónoma utilizam tarefas de visão por computador, como a deteção de objectos, para navegar em segurança e evitar obstáculos. Esta tecnologia ajuda-os a reconhecer peões, outros veículos, buracos e perigos na estrada, permitindo-lhes compreender melhor o que os rodeia. Podem tomar decisões rápidas e deslocar-se em segurança no trânsito, analisando constantemente o seu ambiente.
As técnicas de imagiologia médica, como os raios X, as ressonâncias magnéticas, as tomografias computorizadas e os ultra-sons, criam imagens altamente detalhadas do corpo humano para ajudar a diagnosticar e tratar doenças. Estes exames produzem grandes quantidades de dados que os médicos, como radiologistas e patologistas, têm de analisar cuidadosamente para detetar doenças. No entanto, a revisão detalhada de todas as imagens pode consumir muito tempo e os especialistas humanos podem, por vezes, deixar escapar pormenores devido à fadiga ou a limitações de tempo.
Os modelos de deteção de objectos, como o YOLO11 , podem ajudar a identificar automaticamente as principais caraterísticas dos exames médicos, como órgãos, tumores ou anomalias, com elevada precisão. Os modelos personalizados podem destacar áreas de preocupação com caixas delimitadoras, ajudando os médicos a concentrarem-se mais rapidamente em potenciais problemas. Isto reduz o volume de trabalho, melhora a eficiência e fornece informações rápidas.
O rastreio de objectos é uma tarefa de visão por computador suportada pelo YOLO11, permitindo a monitorização em tempo real e melhorias de segurança. Baseia-se na deteção de objectos, identificando-os e acompanhando continuamente o seu movimento ao longo dos fotogramas. Esta tecnologia é amplamente utilizada em sistemas de vigilância para melhorar a segurança em vários ambientes.
Por exemplo, em escolas e infantários, o seguimento de objectos pode ajudar a monitorizar as crianças e a evitar que se dispersem. Em aplicações de segurança, desempenha um papel fundamental na deteção de intrusos em áreas restritas, monitorizando multidões para detetar sobrelotação ou comportamento suspeito e enviando alertas em tempo real quando é detectada atividade não autorizada. Ao acompanhar os objectos à medida que se movem, os sistemas de localização YOLO11 melhoram a segurança, automatizam a monitorização e permitem respostas mais rápidas a potenciais ameaças.
Eis algumas das principais vantagens que a deteção de objectos pode trazer a várias indústrias:
Embora estas vantagens realcem o impacto da deteção de objectos em diferentes casos de utilização, também é importante considerar os desafios envolvidos na sua implementação. Aqui estão alguns dos principais desafios:
A deteção de objectos é uma ferramenta revolucionária na visão por computador que ajuda as máquinas a detetar e localizar objectos em imagens e vídeos. Está a ser utilizada em sectores que vão desde os carros autónomos aos cuidados de saúde, tornando as tarefas mais fáceis, mais seguras e mais eficientes. Com modelos mais recentes como o YOLO11, as empresas podem facilmente criar modelos personalizados de deteção de objectos para criar aplicações especializadas de visão por computador.
Embora existam alguns desafios, como preocupações com a privacidade e objectos ocultos, a deteção de objectos é uma tecnologia fiável. A sua capacidade de automatizar tarefas, processar dados visuais em tempo real e integrar-se com outras ferramentas de IA de visão torna-a uma parte essencial das inovações de ponta.
Para saber mais, visita o nosso repositório GitHub e participa na nossa comunidade. Explora inovações em sectores como a IA em carros autónomos e a visão computacional na agricultura nas nossas páginas de soluções. Vê as nossas opções de licenciamento yolo e dá vida aos teus projetos de Vision AI. 🚀
Começa a tua viagem com o futuro da aprendizagem automática