Dá um mergulho profundo nas aplicações da visão por computador. Também vamos percorrer várias tarefas de visão computacional, como a deteção e segmentação de objectos.
Quando explorámos a história dos modelos de visão por computador, vimos como a visão por computador evoluiu e o caminho que conduziu aos modelos de visão avançados que temos atualmente. Modelos modernos como o Ultralytics YOLOv8 suportam múltiplas tarefas de visão computacional e estão a ser utilizados em várias aplicações interessantes.
Neste artigo, vamos analisar os conceitos básicos da visão por computador e dos modelos de visão. Abordaremos o seu funcionamento e as suas diversas aplicações em várias indústrias. As inovações da visão por computador estão por todo o lado, moldando silenciosamente o nosso mundo. Vamos descobri-las uma a uma!
A inteligência artificial (IA) é um termo abrangente que engloba muitas tecnologias que têm como objetivo replicar uma parte da inteligência humana. Um desses subcampos da IA é a visão por computador. A visão computacional centra-se em dar às máquinas olhos que possam ver, observar e compreender o que as rodeia.
Tal como a visão humana, as soluções de visão por computador visam distinguir objectos, calcular distâncias e detetar movimentos. No entanto, ao contrário dos humanos, que têm uma vida inteira de experiências para os ajudar a ver e a compreender, os computadores dependem de grandes quantidades de dados, câmaras de alta definição e algoritmos complexos.
Os sistemas de visão por computador podem processar e analisar dados visuais, como imagens e vídeos, a velocidades e precisão incríveis. A capacidade de analisar com rapidez e precisão grandes quantidades de informação visual torna a visão computacional uma ferramenta poderosa em várias indústrias, desde o fabrico aos cuidados de saúde.
Os modelos de visão computacional são o núcleo de qualquer aplicação de visão computacional. São essencialmente algoritmos computacionais alimentados por técnicas de aprendizagem profunda concebidas para dar às máquinas a capacidade de interpretar e compreender a informação visual. Os modelos de visão permitem tarefas cruciais de visão computacional que vão desde a classificação de imagens à deteção de objectos. Vamos analisar mais detalhadamente algumas destas tarefas e os seus casos de utilização.
A classificação de imagens envolve a categorização e rotulagem de imagens em classes ou categorias predefinidas. Um modelo de visão como o YOLOv8 pode ser treinado em grandes conjuntos de dados de imagens rotuladas. Durante o treino, o modelo aprende a reconhecer padrões e caraterísticas associados a cada classe. Uma vez treinado, pode prever a categoria de imagens novas e não vistas analisando as suas caraterísticas e comparando-as com os padrões aprendidos.
Existem diferentes tipos de classificação de imagens. Por exemplo, ao lidar com imagens médicas, podes utilizar a classificação binária para dividir as imagens em dois grupos, como saudáveis ou doentes. Outro tipo é a classificação multiclasse. Pode ajudar a classificar imagens em vários grupos, como classificar diferentes animais numa quinta, como porcos, cabras e vacas. Ou, digamos que queres classificar animais em grupos e subgrupos, como classificar animais em mamíferos e aves e depois em espécies como leões, tigres, águias e pardais; a classificação hierárquica seria a melhor opção.
A deteção de objectos é o processo de identificação e localização de objectos em imagens e quadros de vídeo utilizando a visão por computador. Consiste em duas tarefas: localização de objectos, que desenha caixas delimitadoras à volta dos objectos, e classificação de objectos, que identifica a categoria de cada objeto. Com base nas anotações das caixas delimitadoras, um modelo de visão pode aprender a reconhecer padrões e caraterísticas específicas de cada categoria de objeto e prever a presença e localização desses objectos em imagens novas e não vistas.
A deteção de objectos tem muitos casos de utilização em diferentes indústrias, desde o desporto à biologia marinha. Por exemplo, no comércio a retalho, a tecnologia Just Walk Out da Amazon utiliza a deteção de objectos para automatizar a caixa, identificando os artigos que os clientes levantam. Uma combinação de visão por computador e dados de sensores permite que os clientes peguem nos seus artigos e saiam sem esperar na fila.
Vê mais de perto como funciona:
A segmentação semântica e a segmentação de instâncias são tarefas de visão por computador que ajudam a dividir as imagens em segmentos significativos. A segmentação semântica classifica os pixels com base no seu significado semântico e trata todos os objectos dentro de uma categoria como uma única entidade com a mesma etiqueta. É adequada para rotular objectos incontáveis como "o céu" ou "oceano" ou grupos como "folhas" ou "relva".
A segmentação de instâncias, por outro lado, pode distinguir diferentes instâncias da mesma classe, atribuindo uma etiqueta única a cada objeto detectado. Podes utilizar a segmentação de instâncias para segmentar objectos contáveis onde o número e a independência dos objectos são importantes. Permite uma identificação e diferenciação mais precisas.
Podemos compreender melhor o contraste entre a segmentação semântica e a segmentação por instância com um exemplo relacionado com os automóveis autónomos. A segmentação semântica é excelente para tarefas que requerem a compreensão do conteúdo de uma cena e pode ser utilizada em veículos autónomos para classificar caraterísticas na estrada, como passagens de peões e sinais de trânsito. Entretanto, a segmentação de instâncias pode ser utilizada em veículos autónomos para identificar peões individuais, veículos e obstáculos.
A estimativa de pose é uma tarefa de visão por computador centrada na deteção e seguimento de pontos-chave das poses de um objeto em imagens ou vídeos. É mais comummente utilizada para a estimativa da pose humana, com pontos-chave que incluem áreas como os ombros e os joelhos. Estimar a pose de um ser humano ajuda-nos a compreender e a reconhecer acções e movimentos que são fundamentais para várias aplicações.
A estimativa de pose pode ser utilizada no desporto para analisar a forma como os atletas se movimentam. A NBA utiliza a estimativa de pose para estudar os movimentos e as posições dos jogadores durante o jogo. Ao seguir pontos-chave como ombros, cotovelos, joelhos e tornozelos, a estimativa de pose fornece informações detalhadas sobre os movimentos dos jogadores. Estas informações ajudam os treinadores a desenvolver melhores estratégias, otimizar programas de treino e fazer ajustes em tempo real durante os jogos. Além disso, os dados podem ajudar a monitorizar a fadiga do jogador e o risco de lesões para melhorar a saúde e o desempenho geral do jogador.
A deteção de objectos com caixas delimitadoras orientadas (OBB) utiliza rectângulos rodados para identificar e localizar com precisão objectos numa imagem. Ao contrário das caixas delimitadoras padrão que se alinham com os eixos da imagem, as OBBs giram para corresponder à orientação do objeto. Isto torna-os especialmente úteis para objectos que não são perfeitamente horizontais ou verticais. São óptimos para localizar e isolar com precisão objectos rodados para evitar sobreposições em ambientes com muita gente.
Na vigilância marítima, a identificação e o seguimento de navios são fundamentais para a segurança e a gestão de recursos. A deteção de OBBs pode ser utilizada para a localização precisa de navios, mesmo quando estes estão densamente compactados ou orientados em vários ângulos. Ajuda a monitorizar as rotas de navegação, a gerir o tráfego marítimo e a otimizar as operações portuárias. Também pode ajudar na resposta a catástrofes, identificando e avaliando rapidamente os danos em navios e infra-estruturas após eventos como furacões ou derrames de petróleo.
Até agora, falámos de tarefas de visão por computador que lidam com imagens. O seguimento de objectos é uma tarefa de visão por computador que pode seguir um objeto ao longo dos fotogramas de um vídeo. Começa por identificar o objeto na primeira imagem utilizando algoritmos de deteção e, em seguida, segue continuamente a sua posição à medida que se move no vídeo. O seguimento de objectos envolve técnicas como a deteção de objectos, a extração de caraterísticas e a previsão de movimentos para manter o seguimento preciso.
Modelos de visão como YOLOv8 podem ser utilizados para localizar peixes em biologia marinha. Utilizando câmaras subaquáticas, os investigadores podem monitorizar os movimentos e comportamentos dos peixes nos seus habitats naturais. O processo começa por detetar peixes individuais nos primeiros fotogramas e depois segue as suas posições ao longo do vídeo. O seguimento dos peixes ajuda os cientistas a compreender os padrões de migração, os comportamentos sociais e as interações com o ambiente. Também apoia práticas de pesca sustentáveis, fornecendo informações sobre a distribuição e abundância dos peixes.
A visão computacional está a mudar ativamente a forma como utilizamos a tecnologia e interagimos com o mundo. Ao utilizar modelos de aprendizagem profunda e algoritmos complexos para compreender imagens e vídeos, a visão computacional ajuda as indústrias a otimizar muitos processos. As tarefas de visão por computador, como a deteção e o seguimento de objectos, estão a tornar possível a criação de soluções nunca antes imaginadas. À medida que a tecnologia de visão computacional continua a melhorar, o futuro reserva-te muitas mais aplicações inovadoras!
Vamos aprender e crescer juntos! Explora o nosso repositório GitHub para veres as nossas contribuições para a IA. Vê como estamos a redefinir indústrias como os carros autónomos e a agricultura com IA. 🚀
Começa a tua viagem com o futuro da aprendizagem automática