Glossário

Agrupamento K-Means

Aprende o K-Means Clustering, um algoritmo chave de aprendizagem não supervisionada para agrupar dados em clusters. Explora o seu processo, aplicações e comparações!

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O K-Means Clustering é um algoritmo fundamental na aprendizagem não supervisionada, amplamente utilizado para particionar um conjunto de dados num número pré-determinado (K) de clusters distintos e não sobrepostos. É particularmente eficaz para descobrir estruturas de grupo subjacentes dentro dos dados quando não tens etiquetas predefinidas. O principal objetivo do K-Means é agrupar pontos de dados semelhantes, minimizando a variância dentro de cada cluster, especificamente a soma das distâncias quadradas entre cada ponto de dados e o centróide (ponto médio) do seu cluster atribuído. É uma técnica fundamental na mineração de dados e na análise exploratória de dados.

Como funciona o agrupamento K-Means

O algoritmo K-Means funciona através de um processo iterativo para encontrar as melhores atribuições de clusters. O processo normalmente envolve as seguintes etapas:

  1. Inicialização: Primeiro, o número de clusters, K, deve ser especificado. Este é um passo crucial e envolve frequentemente algum conhecimento do domínio ou experimentação, por vezes envolvendo técnicas de afinação de hiperparâmetros ou métodos como o método do cotovelo para encontrar um K ótimo (ver Escolher o número certo de clusters). Em seguida, são escolhidos K centróides iniciais, muitas vezes selecionando aleatoriamente K pontos de dados do conjunto de dados ou utilizando métodos mais sofisticados como o K-Means++.
  2. Passo de atribuição: Cada ponto de dados no conjunto de dados é atribuído ao centróide mais próximo. A "proximidade" é normalmente medida utilizando a distância euclidiana, embora possam ser utilizadas outras métricas de distância, dependendo das caraterísticas dos dados. Este passo forma K clusters iniciais.
  3. Passo de atualização: Os centróides dos clusters recém-formados são recalculados. O novo centróide é a média de todos os pontos de dados atribuídos a esse cluster.
  4. Iteração: Os passos 2 e 3 são repetidos até ser cumprido um critério de paragem. Os critérios comuns incluem o facto de os centróides deixarem de se mover significativamente, os pontos de dados deixarem de alterar as atribuições de clusters ou ser atingido um número máximo de iterações.

Este refinamento iterativo garante que o algoritmo melhora progressivamente a compacidade e a separação dos clusters. O K-Means é valorizado pela sua simplicidade e eficiência computacional, tornando-o escalável para grandes conjuntos de dados. Para um mergulho mais profundo na mecânica e nas implementações, recursos como as notas de Stanford CS221 sobre K-Means ou a documentação de clustering do scikit-learn fornecem detalhes extensos.

Aplicações de K-Means Clustering

O agrupamento K-Means encontra aplicações em vários domínios da Inteligência Artificial (IA) e da Aprendizagem Automática (AM). Eis dois exemplos concretos:

  • Segmentação de clientes: As empresas utilizam frequentemente o K-Means para agrupar os clientes com base no histórico de compras, dados demográficos ou comportamento no sítio Web. Por exemplo, uma empresa de comércio eletrónico pode agrupar os clientes em grupos como "compradores frequentes que gastam muito", "compradores ocasionais preocupados com o orçamento", etc. Isto permite campanhas de marketing direcionadas e recomendações de produtos personalizadas, contribuindo para as estratégias discutidas em IA no Retalho. Compreender a segmentação de clientes é fundamental na análise de marketing.
  • Compressão de imagens e quantização de cores: Na Visão por Computador (CV), o K-Means pode ser utilizado para a quantização de cores, uma forma de compressão de imagens com perdas. O algoritmo agrupa cores semelhantes na paleta de cores de uma imagem em K clusters. A cor de cada pixel é então substituída pela cor do centróide do cluster a que pertence. Isto reduz significativamente o número de cores necessárias para representar a imagem, comprimindo-a assim. Esta técnica é útil em várias tarefas de processamento de imagem e até em áreas como a IA na conservação de arte e património cultural.

K-Means Clustering vs. Conceitos relacionados

Compreender as diferenças entre o K-Means e outros algoritmos é crucial para selecionar a ferramenta certa:

Dominar o K-Means fornece uma base sólida para explorar a estrutura de dados. Embora não seja usado diretamente em modelos como o Ultralytics YOLO para deteção, a compreensão do agrupamento pode ajudar no pré-processamento de dados ou na análise das caraterísticas do conjunto de dados. Ferramentas como o Ultralytics HUB podem ajudar a gerir conjuntos de dados e a treinar modelos, aproveitando potencialmente as informações obtidas com as técnicas de agrupamento para compreender melhor as distribuições de dados antes de abordar tarefas que exijam elevada precisão. Uma exploração mais aprofundada das métricas de avaliação de clustering (como o Silhouette Score ou o Davies-Bouldin Index) também pode ajudar a avaliar a qualidade dos resultados do K-Means, complementando as métricas de desempenhoYOLO padrão. Para introduções mais amplas, considera recursos como a explicação do K-Means da IBM ou cursos introdutórios em plataformas como Coursera ou DataCamp. Podes encontrar mais tutoriais e guias nos documentosUltralytics .

Lê tudo