Os dados sintéticos referem-se a dados gerados artificialmente que imitam as propriedades estatísticas dos dados do mundo real, em vez de serem recolhidos diretamente de eventos ou medições reais. Nos domínios da Inteligência Artificial (IA) e da Aprendizagem Automática (AM), os dados sintéticos constituem uma alternativa ou um suplemento crucial aos dados de treino reais. São particularmente valiosos quando a recolha de dados reais suficientes é difícil, dispendiosa, morosa ou suscita preocupações de privacidade. Esta informação criada artificialmente ajuda a treinar modelos, testar sistemas e explorar cenários que podem ser raros ou perigosos na realidade.
Como são criados os dados sintéticos
Os dados sintéticos podem ser gerados utilizando várias técnicas, consoante a complexidade e a fidelidade pretendidas:
- Modelação estatística: Utiliza métodos estatísticos como a amostragem a partir de distribuições que correspondem às caraterísticas dos dados reais.
- Simulação: Criação de ambientes ou modelos virtuais para gerar dados com base em regras e interações predefinidas. Isto é comum em áreas como a robótica e os sistemas autónomos. Plataformas como o NVIDIA Omniverse são frequentemente utilizadas para gerar simulações realistas.
- Modelos generativos: Emprega técnicas de Deep Learning (DL), como Generative Adversarial Networks (GANs ) ou Variational Autoencoders (VAEs), para aprender os padrões subjacentes de dados reais e gerar novos pontos de dados semelhantes. O documento original sobre GAN introduziu um quadro poderoso para o efeito.
Importância na IA e na visão computacional
Os dados sintéticos oferecem várias vantagens para o desenvolvimento da IA:
- Supera a escassez de dados: Fornece grandes conjuntos de dados necessários para treinar modelos complexos como o Ultralytics YOLO quando os dados reais são limitados.
- Aumenta a privacidade dos dados: Permite o treino de modelos sem expor informação sensível do mundo real, crucial em áreas como os cuidados de saúde e as finanças. As técnicas podem, por vezes, incorporar conceitos como a privacidade diferencial.
- Abrange casos extremos: Permite a criação de dados para cenários raros ou críticos (por exemplo, situações de emergência para carros autónomos) que são difíceis de captar no mundo real.
- Reduzir o enviesamento: Pode potencialmente ajudar a mitigar o enviesamento do conjunto de dados ao gerar conjuntos de dados equilibrados, embora seja necessário ter cuidado para não introduzir novos enviesamentos.
- Eficiência em termos de custos e tempo: A geração de dados sintéticos pode ser mais rápida e mais barata do que a recolha e anotação exaustiva de dados do mundo real.
Na visão computacional, as imagens sintéticas são utilizadas para treinar modelos para tarefas como a deteção de objectos e a segmentação de imagens sob diversas condições (iluminação, clima, pontos de vista).
Aplicações no mundo real
- Veículos autónomos: O treino de sistemas de perceção para carros autónomos requer grandes quantidades de dados que abrangem diversas condições de condução e eventos raros (como acidentes ou obstáculos invulgares). As empresas utilizam simuladores como o Unity Simulation ou plataformas proprietárias como o ambiente de simulação da Waymo para gerar dados de condução sintéticos realistas, melhorando a robustez e a segurança do modelo para IA no sector automóvel.
- Cuidados de saúde: As normas de privacidade dos pacientes (como a HIPAA) restringem a utilização de dados médicos reais. Os dados sintéticos permitem aos investigadores e programadores treinar modelos de IA para análise de imagens médicas (por exemplo, deteção de tumores) ou análise de registos de saúde electrónicos sem comprometer a confidencialidade dos pacientes. Projectos como o Synthea geram registos sintéticos de pacientes para investigação no domínio da IA nos cuidados de saúde.
Dados sintéticos vs. aumento de dados
Embora tanto os dados sintéticos como o aumento de dados tenham como objetivo aumentar a diversidade e o volume dos dados de formação, são conceitos distintos:
- Aumento de dados: Envolve a aplicação de transformações (como rotação, escala, corte, mudanças de cor) a dados reais existentes para criar versões ligeiramente modificadas. Expande o conjunto de dados, mas depende da existência de um conjunto inicial de dados reais. Ferramentas como Albumentations podem ser integradas para este fim.
- Dados sintéticos: Envolve a criação de pontos de dados inteiramente novos a partir do zero, muitas vezes utilizando modelos ou simulações, sem partir necessariamente de exemplos reais (embora os modelos sejam normalmente treinados em dados reais inicialmente).
Os dados sintéticos podem colmatar lacunas que o aumento não pode colmatar, como a criação de exemplos de cenários totalmente desconhecidos ou a geração de dados quando os dados reais estão completamente indisponíveis ou inutilizáveis devido a restrições de privacidade. No entanto, garantir que os dados sintéticos reflectem com precisão a complexidade do mundo real continua a ser um desafio, podendo levar a problemas como o sobreajuste à distribuição sintética, se não for cuidadosamente gerido. Plataformas como o Ultralytics HUB suportam modelos de treino em diversos conjuntos de dados, incluindo potencialmente os sintéticos.