Glossário

Agrupamento K-Means

Aprende o K-Means Clustering, um algoritmo chave de aprendizagem não supervisionada para agrupar dados em clusters. Explora o seu processo, aplicações e comparações!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O K-Means Clustering é um algoritmo fundamental na aprendizagem não supervisionada, amplamente utilizado para particionar um conjunto de dados num número pré-determinado (K) de clusters distintos e não sobrepostos. É particularmente eficaz para descobrir estruturas de grupo subjacentes dentro dos dados quando não tens etiquetas predefinidas. O principal objetivo do K-Means é agrupar pontos de dados semelhantes, minimizando a variância dentro de cada cluster, especificamente a soma das distâncias quadradas entre cada ponto de dados e o centróide (ponto médio) do seu cluster atribuído. É uma técnica fundamental na mineração de dados e na análise exploratória de dados.

Como funciona o agrupamento K-Means

O algoritmo K-Means funciona através de um processo iterativo para encontrar as atribuições de clusters óptimas:

  1. Inicialização: Seleciona aleatoriamente K pontos de dados do conjunto de dados para servirem de centróides iniciais para os clusters. Alternativamente, os centroides podem ser inicializados usando métodos como k-means++.
  2. Passo de atribuição: Atribui cada ponto de dados do conjunto de dados ao centróide mais próximo, com base numa métrica de distância (normalmente a distância euclidiana). Forma assim K clusters iniciais.
  3. Passo de atualização: Recalcula a posição do centróide para cada cluster, tomando a média de todos os pontos de dados atribuídos a esse cluster.
  4. Iteração: Repete os passos de Atribuição e Atualização até que os centróides deixem de se mover significativamente, ou os pontos de dados deixem de alterar as atribuições de clusters, indicando convergência.

Este refinamento iterativo garante que o algoritmo melhora progressivamente a compacidade e a separação dos clusters. O K-Means é valorizado pela sua simplicidade e eficiência computacional, tornando-o escalável para grandes conjuntos de dados. Para um mergulho mais profundo nos métodos e implementações de agrupamento, recursos como a documentação de agrupamento do scikit-learn fornecem detalhes e exemplos extensos.

Aplicações de K-Means Clustering

O agrupamento K-Means encontra aplicações em vários domínios da inteligência artificial (IA) e da aprendizagem automática (ML). Eis dois exemplos concretos:

  • Segmentação de clientes: As empresas de retalho utilizam frequentemente o K-Means para agrupar clientes com base no histórico de compras, comportamento de navegação ou dados demográficos. Isto ajuda a identificar segmentos distintos como "compradores frequentes", "compradores com orçamento limitado" ou "utilizadores inactivos", permitindo campanhas de marketing direcionadas e recomendações de produtos personalizadas. Isto alinha-se com as tendências mais amplas de como a IA está a revolucionar o retalho.
  • Compressão de imagens: Na visão computacional (CV), o K-Means pode ser usado para quantização de cores, uma forma de compressão de imagens. Ao agrupar as cores dos pixels em K grupos, o algoritmo reduz o número de cores necessárias para representar uma imagem, diminuindo assim o tamanho do ficheiro e mantendo a semelhança visual. Esta técnica é explorada em vários tutoriais de processamento de imagens.

K-Means Clustering vs. Conceitos relacionados

Compreender as diferenças entre o K-Means e outros algoritmos é crucial para selecionar a ferramenta certa:

  • K-Means Clustering vs. DBSCAN: Ambos são algoritmos de clustering utilizados na aprendizagem não supervisionada. No entanto, o K-Means divide os dados num número predefinido (K) de clusters esféricos com base em centróides. Em contraste, o DBSCAN (Density-Based Spatial Clustering of Applications with Noise) identifica agrupamentos com base na densidade dos pontos de dados, o que lhe permite encontrar agrupamentos de forma arbitrária e detetar automaticamente valores atípicos (ruído). O DBSCAN não requer a especificação prévia do número de clusters, ao contrário do K-Means. Podes saber mais sobre os métodos de agrupamento baseados na densidade.
  • K-Means Clustering vs. Aprendizagem supervisionada: O K-Means é uma técnica não supervisionada; trabalha com dados não rotulados para descobrir padrões ou agrupamentos inerentes. Por outro lado, os algoritmos de aprendizagem supervisionada, como os utilizados no Ultralytics YOLO para deteção de objectos ou classificação de imagens, aprendem com dados que já têm etiquetas (por exemplo, imagens etiquetadas com tipos e localizações de objectos). Os métodos supervisionados visam prever rótulos para dados novos e não vistos com base no mapeamento aprendido, enquanto o K-Means visa criar os rótulos (clusters) ele próprio. Podes explorar vários conjuntos de dados de aprendizagem supervisionada utilizados para modelos de treino.

Dominar o K-Means fornece uma base sólida para explorar a estrutura de dados. Ferramentas como o Ultralytics HUB podem ajudar a gerir conjuntos de dados e a treinar modelos, aproveitando potencialmente as informações obtidas com as técnicas de agrupamento para melhorar o desempenho do modelo ou compreender melhor as distribuições de dados. Uma exploração mais aprofundada das métricas de avaliação de agrupamento também pode ajudar a avaliar a qualidade dos resultados do K-Means.

Lê tudo