Glossario

K-Nearest Neighbors (KNN)

Scopri come K-Nearest Neighbors (KNN) semplifica l'apprendimento automatico con il suo approccio intuitivo e non parametrico per le attività di classificazione e regressione.

Il K-Nearest Neighbors (KNN) è un algoritmo fondamentale nell'apprendimento automatico (ML), utilizzato per compiti di classificazione e regressione. Si distingue per la sua semplicità e l'approccio intuitivo, che lo rendono un ottimo punto di partenza per comprendere l'apprendimento basato sulle istanze. Il KNN è classificato come metodo non parametrico perché non fa ipotesi sulla distribuzione dei dati sottostanti. È anche conosciuto come un algoritmodi "apprendimento pigro" perché non costruisce un modello generale durante la fase di formazione dei dati; al contrario, memorizza l'intero set di dati ed esegue i calcoli solo quando è necessaria una previsione.

Come funziona KNN

L'idea alla base del KNN si basa sulla somiglianza, spesso definita utilizzando metriche di distanza come la distanza euclidea. Quando si prevede un nuovo punto di dati non visto, l'algoritmo identifica i "K" punti di dati più vicini (vicini) ad esso dal set di dati di formazione memorizzati. Il valore "K" è un numero intero definito dall'utente e rappresenta il numero di vicini considerati.

Per la classificazione, il nuovo punto viene assegnato alla classe più comune tra i K vicini (voto a maggioranza). Per la regressione, la previsione è tipicamente il valore medio dei K vicini. La scelta della metrica della distanza (ad esempio, Manhattan, Minkowski) e il valore di "K" sono iperparametri cruciali che influenzano in modo significativo le prestazioni del modello. Un'implementazione efficiente si affida spesso a strutture di dati come gli alberi KD o gli alberi di Ball per velocizzare la ricerca dei vicini, soprattutto in caso di set di dati più grandi.

Scegliere il valore di 'K'

La selezione del valore ottimale di "K" è fondamentale. Un valore di "K" piccolo (ad esempio, K=1) rende il modello molto sensibile al rumore e ai valori anomali dei dati, portando potenzialmente a un overfitting, in cui il modello si comporta bene sui dati di addestramento ma male sui dati non visti. Al contrario, un valore di "K" elevato può rendere i confini decisionali troppo morbidi, rendendo il modello meno sensibile ai modelli locali e portando potenzialmente a un underfitting e a un elevato costo computazionale durante la predizione. Tecniche come la convalida incrociata (vedi la Guida alla convalida incrociata di Scikit-learn) sono spesso utilizzate per trovare un valore 'K' adatto che bilanci il compromesso bias-varianza. La libreria Scikit-learn fornisce strumenti per implementare KNN ed eseguire ricerche di iperparametri; puoi trovare suggerimenti generali nella Guida alla regolazione degli iperparametriUltralytics .

Applicazioni di KNN

La semplicità di KNN si presta a diverse applicazioni, in particolare quando l'interpretabilità è importante:

Sistemi di raccomandazione: Il KNN è in grado di identificare gli utenti con gusti simili in base al comportamento passato e di raccomandare articoli, in linea di principio simile alle tecniche utilizzate da piattaforme come Netflix per il loro sistema di raccomandazione.
Classificazione di base delle immagini: Può essere utilizzato per semplici compiti di classificazione delle immagini, come il riconoscimento di cifre scritte a mano da dataset come il dataset MNIST.
Rilevamento di anomalie: Identificazione di punti di dati insoliti che sono distanti dai loro vicini, utile in aree come la sicurezza di rete(OWASP Anomaly Detection Project).
Assistenza sanitaria: Classificare i pazienti in base alle caratteristiche per prevedere gli esiti o diagnosticare le condizioni, contribuendo all'IA nell'assistenza sanitaria (vedi la raccolta Nature Medicine AI in Health and Medicine).

Vantaggi e svantaggi di KNN

KNN offre diversi vantaggi ma presenta anche delle limitazioni:

Vantaggi:

Semplicità e interpretabilità: Facile da capire e da spiegare la logica di previsione basata sui vicini.
Nessuna fase di formazione esplicita: Si adatta rapidamente ai nuovi dati perché non è necessaria una riqualificazione del modello, ma solo l'aggiunta di punti dati.
Flessibilità: Gestisce naturalmente la classificazione multiclasse e può essere adattato alla regressione.

Svantaggi:

Costo computazionale dell'inferenza: Le previsioni possono essere lente per i dataset di grandi dimensioni perché richiedono il calcolo delle distanze da tutti i punti di addestramento.
Sensibilità alle caratteristiche irrilevanti: Le caratteristiche che non contribuiscono alla somiglianza possono avere un impatto negativo sulle prestazioni.
La maledizione della dimensionalità: Le prestazioni si riducono in spazi ad alta dimensionalità perché le distanze diventano meno significative. Tecniche come la riduzione della dimensionalità (ad esempio la PCA) possono aiutare a mitigare questo problema.
Necessità di scalare le funzioni: Le caratteristiche con intervalli più ampi possono dominare i calcoli della distanza, rendendo necessario il ridimensionamento delle caratteristiche.
Richiede una selezione "K" ottimale: Le prestazioni dipendono in larga misura dalla scelta del giusto valore di K.

KNN vs. concetti correlati

È importante distinguere KNN dagli altri algoritmi:

Clustering K-Means: K-Means è un algoritmo di apprendimento non supervisionato utilizzato per raggruppare i dati in K cluster basati sulla somiglianza. KNN è un algoritmo di apprendimento supervisionato utilizzato per la classificazione o la regressione basata sui vicini etichettati.
Macchina vettoriale di supporto (SVM): SVM è un algoritmo supervisionato che trova un iperpiano ottimale per separare le classi. KNN classifica in base alla somiglianza locale dei vicini, mentre SVM cerca un confine ottimale globale. Per saperne di più visita la pagina SVM di Scikit-learn.
Alberi decisionali: Gli alberi decisionali classificano i dati apprendendo una serie di regole gerarchiche, creando una struttura ad albero. KNN utilizza la similarità basata sulla distanza, mentre gli alberi decisionali utilizzano suddivisioni basate sulle caratteristiche. Per maggiori dettagli, consulta la pagina di Scikit-learn dedicata agli alberi decisionali.

Mentre KNN è utile per alcuni compiti e per comprendere i concetti fondamentali del ML, problemi complessi come il rilevamento di oggetti in tempo reale spesso traggono vantaggio da modelli più avanzati come Ultralytics YOLOche offrono velocità e prestazioni superiori, soprattutto su dataset di computer vision di grandi dimensioni. Puoi addestrare e distribuire questi modelli utilizzando piattaforme come Ultralytics HUB.

K-Nearest Neighbors (KNN)

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Una soluzione flessibile di licenze aziendali per alimentare la tua innovazione

Addestra i modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestra i modelli di YOLO in modo semplice con Ultralytics HUB

Come funziona KNN

Scegliere il valore di 'K'

Applicazioni di KNN

Vantaggi e svantaggi di KNN

KNN vs. concetti correlati

Leggi altri blog

Unisciti alla comunità di Ultralytics

K-Nearest Neighbors (KNN)

Addestra i modelli YOLO semplicementecon Ultralytics HUB

Una soluzione flessibile di licenze aziendali per alimentare la tua innovazione

Addestra i modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestra i modelli di YOLO in modo semplice con Ultralytics HUB

Come funziona KNN

Scegliere il valore di 'K'

Applicazioni di KNN

Vantaggi e svantaggi di KNN

KNN vs. concetti correlati

Leggi altri blog

Unisciti alla comunità di Ultralytics

Addestra i modelli YOLO semplicemente
con Ultralytics HUB