Descobre como o aumento dos dados de imagem ajuda os modelos de IA da Visão a aprender melhor, a aumentar a precisão e a ter um desempenho mais eficaz em situações do mundo real.
Devido ao boom da IA, fenómenos como os robôs que trabalham em fábricas e os carros autónomos que circulam nas ruas são cada vez mais notícia. A IA está a mudar a forma como as máquinas interagem com o mundo, desde a melhoria da imagiologia médica até ao apoio ao controlo de qualidade nas linhas de produção.
Uma grande parte deste progresso vem da visão por computador, um ramo da IA que permite às máquinas compreender e interpretar imagens. Tal como os humanos aprendem a reconhecer objectos e padrões ao longo do tempo, os modelos de IA de visão, como o Ultralytics YOLO11 precisam de ser treinados com grandes quantidades de dados de imagem para desenvolverem a sua compreensão visual.
No entanto, recolher uma quantidade tão grande de dados visuais nem sempre é fácil. Apesar de a comunidade da visão por computador ter criado muitos conjuntos de dados de grandes dimensões, podem falhar certas variações - como imagens com objectos com pouca luz, itens parcialmente ocultos ou coisas vistas de ângulos diferentes. Estas diferenças podem ser confusas para os modelos de visão por computador que só foram treinados em condições específicas.
O aumento dos dados de imagem é uma técnica que resolve este problema através da introdução de novas variações nos dados existentes. Ao fazer alterações nas imagens, como ajustar as cores, rodar ou mudar a perspetiva, o conjunto de dados torna-se mais diversificado, ajudando os modelos de IA de visão a reconhecer melhor os objectos em situações do mundo real.
Neste artigo, vamos explorar como funciona a ampliação de dados de imagem e o impacto que pode ter nas aplicações de visão por computador.
Digamos que estás a tentar reconhecer um amigo no meio de uma multidão, mas ele está a usar óculos de sol ou está num local com sombra. Mesmo com estas pequenas alterações na aparência, continuas a saber quem ele é. Por outro lado, um modelo de IA de visão pode ter dificuldades com essas variações, a menos que tenha sido treinado para reconhecer objectos em diferentes cenários.
O aumento dos dados de imagem melhora o desempenho do modelo de visão por computador, adicionando versões modificadas de imagens existentes aos dados de treino, em vez de recolher milhares de imagens novas.
As alterações às imagens, como inverter, rodar, ajustar o brilho ou adicionar pequenas distorções, expõem os modelos de IA de visão a uma maior variedade de condições. Em vez de dependerem de conjuntos de dados maciços, os modelos podem aprender eficazmente a partir de conjuntos de dados de treino mais pequenos com imagens aumentadas.
Eis algumas das principais razões pelas quais o aumento é essencial para a visão computacional:
O aumento dos dados de imagem é particularmente útil quando um modelo de visão por computador precisa de reconhecer objectos em diferentes situações, mas não dispõe de imagens variadas suficientes.
Por exemplo, se os investigadores estiverem a treinar um modelo de IA de visão para identificar espécies subaquáticas raras que raramente são fotografadas, o conjunto de dados pode ser pequeno ou não ter variação. Ao aumentar as imagens - ajustando as cores para simular diferentes profundidades de água, adicionando ruído para imitar condições de escuridão ou alterando ligeiramente as formas para ter em conta o movimento natural - o modelo pode aprender a detetar objectos subaquáticos com maior precisão.
Eis algumas outras situações em que o aumento faz uma grande diferença:
Nos primórdios da visão computacional, o aumento dos dados de imagem envolvia principalmente técnicas básicas de processamento de imagem, como inverter, rodar e cortar para aumentar a diversidade do conjunto de dados. À medida que a IA foi melhorando, foram introduzidos métodos mais avançados, como o ajuste de cores (transformações do espaço de cor), a nitidez ou desfocagem de imagens (filtros de kernel) e a mistura de várias imagens (mistura de imagens) para melhorar a aprendizagem.
O aumento pode ocorrer antes e durante o treino do modelo. Antes do treino, podem ser adicionadas imagens modificadas ao conjunto de dados para proporcionar mais variedade. Durante o treino, as imagens podem ser alteradas aleatoriamente em tempo real, ajudando os modelos de IA de visão a adaptarem-se a diferentes condições.
Estas alterações são efectuadas através de transformações matemáticas. Por exemplo, a rotação inclina uma imagem, o corte remove partes para imitar diferentes vistas e as alterações de brilho simulam variações de iluminação. A desfocagem suaviza as imagens, a nitidez torna os detalhes mais claros e a mistura de imagens combina partes de imagens diferentes. As estruturas e ferramentas de IA de visão como o OpenCV, TensorFlow e PyTorch podem automatizar estes processos, tornando o aumento rápido e eficaz.
Agora que já falámos sobre o que é a ampliação de dados de imagem, vamos analisar mais detalhadamente algumas técnicas fundamentais de ampliação de dados de imagem utilizadas para melhorar os dados de formação.
Os modelos de visão por computador, como o YOLO11 , precisam frequentemente de reconhecer objectos de vários ângulos e pontos de vista. Para ajudar, as imagens podem ser invertidas horizontal ou verticalmente para que o modelo de IA aprenda a reconhecer objectos de diferentes pontos de vista.
Da mesma forma, rodar as imagens altera ligeiramente o seu ângulo, permitindo ao modelo identificar objectos a partir de múltiplas perspectivas. Além disso, deslocar as imagens em diferentes direcções (translação) ajuda os modelos a ajustarem-se a pequenas alterações de posição. Estas transformações garantem que os modelos se generalizam melhor para condições do mundo real em que a colocação de objectos numa imagem é imprevisível.
No que diz respeito às soluções de visão computacional do mundo real, os objectos nas imagens podem aparecer a distâncias e tamanhos diferentes. Os modelos de IA de visão têm de ser suficientemente robustos para os detetar, independentemente destas diferenças.
Para melhorar a adaptabilidade, podem ser utilizados os seguintes métodos de aumento:
Estes ajustes ajudam os modelos de visão por computador a reconhecer objectos mesmo que o seu tamanho ou forma se altere ligeiramente.
Os objectos nas imagens podem aparecer de forma diferente consoante o ângulo da câmara, tornando o reconhecimento difícil para os modelos de visão por computador. Para ajudar os modelos a lidar com estas variações, as técnicas de aumento podem ajustar a forma como os objectos são apresentados nas imagens.
Por exemplo, as transformações de perspetiva podem alterar o ângulo de visualização, fazendo com que um objeto pareça estar a ser visto de uma posição diferente. Isto permite que os modelos de IA da Visão reconheçam objectos mesmo quando estão inclinados ou são capturados de um ponto de vista invulgar.
Outro exemplo é uma transformação elástica que estica, dobra ou deforma imagens para simular distorções naturais, de modo a que os objectos apareçam como se estivessem em reflexos ou sob pressão.
As condições de iluminação e as diferenças de cor podem afetar significativamente a forma como os modelos de IA de visão interpretam as imagens. Uma vez que os objectos podem aparecer de forma diferente sob várias definições de iluminação, as seguintes técnicas de ampliação podem ajudar a lidar com estas situações:
Até agora, apenas explorámos técnicas de aumento que modificam uma única imagem. No entanto, alguns métodos avançados envolvem a combinação de várias imagens para melhorar a aprendizagem da IA.
Por exemplo, o MixUp mistura duas imagens, ajudando os modelos de visão por computador a compreender as relações entre objectos e melhorando a sua capacidade de generalização em diferentes cenários. O CutMix vai mais longe, substituindo uma secção de uma imagem por uma parte de outra, permitindo que os modelos aprendam com vários contextos dentro da mesma imagem. Entretanto, o CutOut funciona de forma diferente, removendo partes aleatórias de uma imagem, treinando os modelos de IA da Vision para reconhecerem objectos mesmo quando estes estão parcialmente ocultos ou obstruídos.
A IA generativa está a ganhar força em muitas indústrias e aplicações do dia a dia. É provável que já a tenhas encontrado em relação a imagens geradas por IA, vídeos deepfake ou aplicações que criam avatares realistas. Mas para além da criatividade e do entretenimento, a IA generativa desempenha um papel crucial na formação de modelos de IA de visão, gerando novas imagens a partir de imagens existentes.
Em vez de simplesmente inverter ou rodar imagens, pode criar variações realistas - mudando expressões faciais, estilos de vestuário ou mesmo simulando diferentes condições climatéricas. Estas variações ajudam os modelos de visão por computador a tornarem-se mais adaptáveis e precisos em diversos cenários do mundo real. Os modelos avançados de IA generativa, como as GANs (Generative Adversarial Networks) e os modelos de difusão, também podem preencher os pormenores em falta ou criar imagens sintéticas de alta qualidade.
Embora o aumento de dados melhore os conjuntos de dados de treino, há também algumas limitações a considerar. Seguem-se alguns dos principais desafios relacionados com o aumento de dados de imagem:
Uma aplicação interessante do aumento dos dados de imagem é a dos automóveis autónomos, em que as decisões tomadas em fracções de segundo por modelos de visão computacional como o YOLO11 são cruciais. O modelo tem de ser capaz de detetar estradas, pessoas e outros objectos com precisão.
No entanto, as condições do mundo real que um veículo de condução autónoma encontra podem ser imprevisíveis. O mau tempo, a desfocagem por movimento e os sinais ocultos podem tornar complexas as soluções de IA de visão neste sector. Treinar modelos de visão por computador apenas com imagens do mundo real não é muitas vezes suficiente. Os conjuntos de dados de imagens para os modelos em veículos autónomos têm de ser diversificados para que o modelo possa aprender a lidar com situações inesperadas.
O aumento dos dados de imagem resolve este problema simulando o nevoeiro, ajustando o brilho e distorcendo as formas. Estas alterações ajudam os modelos a reconhecer objectos em diferentes condições. Como resultado, os modelos tornam-se mais inteligentes e mais fiáveis.
Com uma formação acrescida, as soluções Vision AI nos automóveis autónomos adaptam-se melhor e tomam decisões mais seguras. Resultados mais precisos significam menos acidentes e uma navegação melhorada.
Os automóveis autónomos são apenas um exemplo. De facto, o aumento dos dados de imagem é crucial numa vasta gama de sectores, desde a imagiologia médica à análise de retalho. Qualquer aplicação que dependa da visão por computador pode beneficiar potencialmente do aumento dos dados de imagem.
Os sistemas de IA de visão têm de ser capazes de reconhecer objectos em diferentes condições, mas a recolha de inúmeras imagens do mundo real para treino pode ser difícil. O aumento dos dados de imagem resolve este problema criando variações de imagens existentes, ajudando os modelos a aprender mais rapidamente e a ter um melhor desempenho em situações do mundo real. Melhora a precisão, garantindo que os modelos de IA de visão como o YOLO11 conseguem lidar com diferentes luzes, ângulos e ambientes.
Para as empresas e os programadores, o aumento dos dados de imagem poupa tempo e esforço, tornando os modelos de visão por computador mais fiáveis. Desde os cuidados de saúde aos automóveis autónomos, muitas indústrias dependem dele. À medida que a IA de visão continua a evoluir, o aumento continuará a ser uma parte essencial da construção de modelos mais inteligentes e mais adaptáveis para o futuro.
Junta-te à nossa comunidade e visita o nosso repositório GitHub para veres a IA em ação. Explora as nossas opções de licenciamento e descobre mais sobre a IA na agricultura e a visão por computador no fabrico nas nossas páginas de soluções.
Começa a tua viagem com o futuro da aprendizagem automática