Glossário

Agrupamento K-Means

Aprenda o K-Means Clustering, um algoritmo de aprendizagem não supervisionada fundamental para agrupar dados em clusters. Explore o seu processo, aplicações e comparações!

O agrupamento K-Means é um algoritmo fundamental de aprendizagem não supervisionada utilizado na extração de dados e na aprendizagem automática (ML). O seu principal objetivo é dividir um conjunto de dados num número pré-especificado de subgrupos distintos e não sobrepostos, ou "clusters". O "K" no seu nome refere-se a este número de clusters. O algoritmo funciona agrupando pontos de dados com base na sua semelhança, em que a semelhança é frequentemente medida pela distância euclidiana entre pontos. Cada cluster é representado pelo seu centro, conhecido como centróide, que é a média de todos os pontos de dados dentro desse cluster. É um método poderoso e simples para descobrir padrões e estruturas subjacentes em dados não rotulados.

Como funciona o K-Means

O algoritmo K-Means funciona de forma iterativa para encontrar as melhores atribuições de clusters para todos os pontos de dados. O processo pode ser dividido em alguns passos simples:

  1. Inicialização: Primeiro, o número de clusters, K, é escolhido. De seguida, são colocados aleatoriamente K centróides iniciais no espaço de caraterísticas do conjunto de dados.
  2. Etapa de atribuição: Cada ponto de dados dos dados de treino é atribuído ao centróide mais próximo. Isto forma K clusters iniciais.
  3. Etapa de atualização: O centróide de cada cluster é recalculado através da média de todos os pontos de dados que lhe são atribuídos.
  4. Iteração: As etapas de atribuição e atualização são repetidas até que as atribuições dos clusters não se alterem ou até que seja atingido um número máximo de iterações. Neste ponto, o algoritmo converge e os clusters finais são formados. Pode ver uma explicação visual do algoritmo K-Means para uma compreensão mais intuitiva.

A escolha do valor correto para K é crucial e requer frequentemente conhecimento do domínio ou a utilização de métodos como o método Elbow ou a pontuação Silhouette. As implementações estão amplamente disponíveis em bibliotecas como a Scikit-learn.

Aplicações no mundo real

O K-Means é aplicado em vários domínios devido à sua simplicidade e eficiência:

  • Segmentação de clientes: No retalho e no marketing, as empresas utilizam o K-Means para agrupar os clientes em segmentos distintos com base no histórico de compras, dados demográficos ou comportamento. Por exemplo, uma empresa pode identificar um grupo de "clientes fiéis que gastam muito" e um grupo de "compradores ocasionais que se preocupam com o orçamento". Isto permite estratégias de marketing direcionadas, tal como descrito em estudos sobre segmentação de clientes utilizando clustering.
  • Compressão de imagens: Na visão computacional (CV), o K-Means é usado para quantização de cores, uma forma de redução de dimensionalidade. Agrupa cores de pixéis semelhantes em K clusters, substituindo a cor de cada pixel pela cor do centróide do seu cluster. Isto reduz o número de cores numa imagem, comprimindo-a efetivamente. Esta técnica é um conceito fundamental na segmentação de imagens.
  • Análise de documentos: O algoritmo pode agrupar documentos com base nas suas frequências de termos para identificar tópicos ou agrupar artigos semelhantes, o que ajuda a organizar grandes conjuntos de dados de texto.

K-Means vs. conceitos relacionados

É importante distinguir o K-Means de outros algoritmos de aprendizagem automática:

  • K-Nearest Neighbors (KNN): Este é um ponto comum de confusão. O K-Means é um algoritmo de agrupamento não supervisionado que agrupa dados não rotulados. Em contrapartida, o KNN é um algoritmo de classificação ou regressão supervisionado que prevê a etiqueta de um novo ponto de dados com base nas etiquetas dos seus K vizinhos mais próximos. O K-Means cria grupos, enquanto o KNN classifica em grupos predefinidos.
  • Máquina de vetor de suporte (SVM): SVM é um modelo de aprendizagem supervisionado utilizado para classificação que encontra um hiperplano ótimo para separar classes. O K-Means não é supervisionado e agrupa dados com base na semelhança sem rótulos predefinidos.
  • DBSCAN: Ao contrário do K-Means, o DBSCAN é um algoritmo de agrupamento baseado na densidade que pode identificar clusters com formas arbitrárias e é robusto em relação a outliers. O K-Means assume que os clusters são esféricos e podem ser fortemente influenciados por outliers.

Embora o K-Means seja uma ferramenta fundamental para a exploração de dados, tarefas complexas como a deteção de objectos em tempo real dependem de modelos mais avançados. Detectores modernos como o Ultralytics YOLO utilizam técnicas sofisticadas de aprendizagem profunda para um desempenho superior. No entanto, os conceitos de agrupamento, como o agrupamento de caixas de ancoragem, foram fundamentais para o desenvolvimento de detectores de objectos anteriores. O gerenciamento de conjuntos de dados para essas tarefas pode ser simplificado usando plataformas como o Ultralytics HUB.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência