A aprendizagem não supervisionada é um tipo de aprendizagem automática em que os algoritmos aprendem a partir de dados não rotulados. Ao contrário da aprendizagem supervisionada, que se baseia em dados rotulados para treinar modelos, os algoritmos de aprendizagem não supervisionada exploram os dados e identificam padrões sem orientação explícita. Esta abordagem é particularmente útil quando se lida com grandes conjuntos de dados em que a etiquetagem é impraticável ou quando o objetivo é descobrir estruturas e relações ocultas nos dados.
Como funciona a aprendizagem não supervisionada
Na aprendizagem não supervisionada, o algoritmo é apresentado com dados de entrada sem quaisquer etiquetas de saída correspondentes. O sistema tenta então aprender a estrutura inerente dos dados. Isto é conseguido através de várias técnicas que visam:
- Agrupa dados: Agrupa pontos de dados semelhantes. O agrupamento K-means é um algoritmo popular para este efeito, dividindo os dados em grupos distintos com base na semelhança de caraterísticas.
- Reduzir a dimensionalidade: Simplifica os dados reduzindo o número de variáveis e preservando as informações essenciais. A análise de componentes principais (PCA) é um método comum para a redução da dimensionalidade, transformando dados de elevada dimensão numa representação de dimensão inferior.
- Descobre associações: Identifica relações e dependências entre variáveis nos dados. A extração de regras de associação, por exemplo, pode descobrir regras que descrevem padrões de coocorrência frequentes.
- Deteção de anomalias: Identifica pontos de dados incomuns que se desviam significativamente da norma. DBSCAN (Density-Based Spatial Clustering of Applications with Noise) pode ser usado para identificar outliers, reconhecendo regiões pouco povoadas no espaço de dados.
Aplicações da aprendizagem não supervisionada
As técnicas de aprendizagem não supervisionada são utilizadas em vários domínios para extrair informações valiosas dos dados:
- Segmentação de clientes: As empresas utilizam algoritmos de clustering para segmentar os clientes em grupos distintos com base no comportamento de compra, dados demográficos ou atividade no website. Isto permite estratégias de marketing direcionadas e experiências de cliente personalizadas. Por exemplo, uma empresa de retalho pode utilizar a aprendizagem não supervisionada em dados de transacções de clientes para identificar diferentes segmentos de clientes, permitindo-lhes adaptar as recomendações e promoções de produtos.
- Deteção de anomalias na deteção de fraudes: Em finanças, a deteção de anomalias é crucial para identificar transacções fraudulentas. Os algoritmos de aprendizagem não supervisionada podem aprender padrões de transação normais e assinalar desvios que possam indicar atividade fraudulenta. Isto ajuda a prevenir proactivamente perdas financeiras e a aumentar a segurança dos dados.
- Análise de imagens médicas: A aprendizagem não supervisionada desempenha um papel importante na análise de imagens médicas. Técnicas como a redução da dimensionalidade e o agrupamento podem ajudar a analisar imagens médicas, como radiografias ou ressonâncias magnéticas, para detetar padrões que possam ser indicativos de doenças ou anomalias, mesmo sem rótulos explícitos.
- Agrupamento de documentos: No processamento de linguagem natural, a aprendizagem não supervisionada é utilizada para o agrupamento de documentos, agrupando documentos semelhantes com base no seu conteúdo. Isto é útil para organizar grandes colecções de dados de texto, como artigos de notícias ou documentos de investigação, e para tarefas como a modelação de tópicos e a pesquisa semântica.
Aprendizagem não supervisionada vs. Aprendizagem supervisionada
A principal diferença entre a aprendizagem não supervisionada e a supervisionada reside no tipo de dados utilizados para a formação. A aprendizagem supervisionada utiliza dados etiquetados, em que cada ponto de dados de entrada é emparelhado com uma etiqueta de saída correspondente. O algoritmo aprende a mapear as entradas para as saídas com base nestes exemplos rotulados. Em contrapartida, a aprendizagem não supervisionada utiliza dados não rotulados e tem por objetivo descobrir estruturas ou padrões ocultos nos próprios dados, sem rótulos de saída explícitos.
Tanto a aprendizagem supervisionada como a não supervisionada são ferramentas essenciais na aprendizagem automática (ML) e na inteligência artificial (IA), e a escolha entre elas depende do problema específico, da disponibilidade de dados rotulados e do resultado pretendido. Para projectos que envolvam Ultralytics YOLO enquanto a formação se baseia normalmente na aprendizagem supervisionada para tarefas como a deteção de objectos e a segmentação de imagens, os métodos não supervisionados podem ser úteis no pré-processamento de dados, na análise exploratória de dados ou em aplicações específicas como a deteção de anomalias no controlo de qualidade do fabrico.