Glossário

Agrupamento K-Means

Descobre a simplicidade e o poder do agrupamento K-Means, um algoritmo eficiente para segmentação de dados, reconhecimento de padrões e aplicações industriais.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O agrupamento K-Means é um algoritmo popular de aprendizagem automática não supervisionada utilizado para dividir os dados em grupos distintos com base na semelhança. O seu objetivo é agrupar os pontos de dados em K clusters, em que cada ponto de dados pertence ao cluster com a média mais próxima (centróide). Este método é amplamente utilizado pela sua simplicidade e eficiência no tratamento de grandes conjuntos de dados, o que o torna uma ferramenta valiosa na análise exploratória de dados, no reconhecimento de padrões e em várias aplicações em vários sectores.

Como funciona o agrupamento K-Means

O algoritmo K-Means atribui iterativamente pontos de dados ao centróide do agrupamento mais próximo e recalcula os centróides com base nos agrupamentos recém-formados. O processo começa com a seleção de K centróides iniciais, que podem ser escolhidos aleatoriamente ou com base numa heurística. Cada ponto de dados é então atribuído ao cluster cujo centróide está mais próximo. Depois de atribuir todos os pontos de dados, os centróides são recalculados como a média dos pontos de dados em cada agrupamento. Este processo de atribuição e recálculo continua até os centróides deixarem de se alterar significativamente ou até ser atingido um número máximo de iterações.

Conceitos-chave em K-Means Clustering

Centroide: O centróide é a posição média de todos os pontos dentro de um cluster. Representa o centro do cluster.

Cluster: Um cluster é um grupo de pontos de dados que são mais semelhantes entre si do que com os pontos de dados noutros clusters.

Métrica de distância: O K-Means utiliza normalmente a distância euclidiana para medir a semelhança entre os pontos de dados e os centróides. Também podem ser utilizadas outras métricas de distância, dependendo da natureza dos dados.

Inércia: A inércia mede a soma das distâncias quadradas das amostras ao seu centro de agrupamento mais próximo. Uma inércia mais baixa indica clusters mais densos e compactos.

Aplicações de K-Means Clustering

O agrupamento K-Means encontra aplicações numa vasta gama de campos devido à sua capacidade de descobrir padrões subjacentes nos dados. Alguns exemplos notáveis incluem:

Segmentação de mercado: As empresas utilizam o K-Means para segmentar os clientes em grupos distintos com base no comportamento de compra, dados demográficos ou outras caraterísticas. Isto permite campanhas de marketing direcionadas e experiências de cliente personalizadas. Explora como a IA está a transformar o retalho para obteres mais informações.

Compressão de imagens: O K-Means pode ser aplicado para reduzir o tamanho das imagens, agrupando cores semelhantes e representando-as com menos bits. Isto resulta em ficheiros de imagem mais pequenos, mantendo uma qualidade visual aceitável. Sabe mais sobre o reconhecimento de imagens e o seu papel na visão computacional.

Vantagens e limitações

Vantagens:

  • Simplicidade: O K-Means é relativamente fácil de compreender e implementar.
  • Escalabilidade: Consegue lidar com grandes conjuntos de dados de forma eficiente.
  • Versatilidade: Aplica-se a vários domínios e tipos de dados.

Limitações:

  • Sensibilidade aos centroides iniciais: A escolha inicial dos centróides pode afetar os resultados finais do agrupamento.
  • Pressuposto de clusters esféricos: O K-Means assume que os clusters são esféricos e de tamanho igual, o que pode nem sempre ser o caso em dados do mundo real.
  • Determinação do K ideal: A seleção do número adequado de clusters (K) pode ser um desafio e requer frequentemente conhecimentos do domínio ou técnicas como o método do cotovelo.

Conceitos relacionados

O agrupamento K-Means está intimamente relacionado com outros algoritmos de agrupamento e técnicas de aprendizagem não supervisionada.

DBSCAN (Agrupamento espacial baseado na densidade de aplicações com ruído): Ao contrário do K-Means, o DBSCAN agrupa os pontos de dados que estão muito próximos uns dos outros, marcando como anómalos os pontos que se encontram isolados em regiões de baixa densidade. Não requer a especificação prévia do número de clusters.

Clusterização hierárquica: Este método constrói uma hierarquia de clusters através da fusão de clusters mais pequenos em clusters maiores (aglomerativo) ou através da divisão de clusters maiores em clusters mais pequenos (divisivo).

K-Nearest Neighbors (KNN): Embora o KNN seja um algoritmo de aprendizagem supervisionado utilizado para classificação e regressão, partilha semelhanças com o K-Means em termos de utilização de métricas de distância para encontrar os vizinhos mais próximos.

Ferramentas e tecnologias

Várias ferramentas e bibliotecas suportam a implementação do agrupamento K-Means.

Scikit-learn: Uma biblioteca Python popular para aprendizagem automática que fornece uma implementação simples e eficiente de K-Means.

TensorFlow: Uma estrutura de aprendizagem automática de código aberto que pode ser utilizada para implementar o K-Means, especialmente para aplicações em grande escala.

PyTorch: Outra estrutura de aprendizagem profunda amplamente utilizada que oferece flexibilidade e eficiência para implementar algoritmos de agrupamento.

Ultralytics YOLO podem ser utilizados para tarefas de deteção de objectos, que podem envolver o agrupamento como um passo de pré-processamento para agrupar objectos ou caraterísticas semelhantes. Explora mais sobre a utilização de Ultralytics YOLO para aplicações avançadas de visão computacional. Também podes explorar o Ultralytics HUB para formação e implementação sem código de modelos de IA de visão.

Lê tudo