Glossar

Zuversicht

Definiere KI-Konfidenzwerte. Erfahre, wie Modelle die Vorhersagesicherheit messen, Schwellenwerte für die Zuverlässigkeit festlegen und Vertrauen von Genauigkeit unterscheiden.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Im Zusammenhang mit künstlicher Intelligenz (KI) und maschinellem Lernen (ML) ist die Konfidenz ein Wert, den ein Modell seiner Vorhersage zuweist und der angibt, wie sicher das Modell in Bezug auf diese spezifische Ausgabe ist. Bei Aufgaben wie der Objekterkennung oder der Bildklassifizierung wird jedes erkannte Objekt oder zugewiesene Klassenlabel mit einem Konfidenzwert versehen, der in der Regel von 0 bis 1 (oder 0% bis 100%) reicht. Dieser Wert hilft den Nutzern, die Zuverlässigkeit der einzelnen Vorhersagen von Modellen wie Ultralytics YOLO. Ein höherer Wert deutet darauf hin, dass das Modell seine Vorhersage auf der Grundlage der im Training erlernten Muster sicherer trifft. Das Verständnis der Zuverlässigkeit ist entscheidend für die Interpretation von Modellergebnissen und das Treffen fundierter Entscheidungen auf der Grundlage von KI-Vorhersagen, insbesondere bei sicherheitskritischen Anwendungen wie KI in der Automobilindustrie.

Wie das Vertrauen ermittelt wird

Konfidenzwerte werden normalerweise von der Ausgabeschicht eines neuronalen Netzes (NN) abgeleitet. Bei Klassifizierungsaufgaben wird dazu oft eine Aktivierungsfunktion wie Softmax oder Sigmoid auf die Rohausgaben (Logits) angewandt, um für jede Klasse wahrscheinlichkeitsähnliche Werte zu erhalten. Bei Objekterkennungsmodellen wie YOLO kann der Konfidenzwert die Wahrscheinlichkeit des Vorhandenseins eines Objekts in einer vorgeschlagenen Bounding Box (oft als "Objectness Score" bezeichnet) und die Wahrscheinlichkeit der Zugehörigkeit dieses Objekts zu einer bestimmten Klasse unter der Voraussetzung des Vorhandenseins eines Objekts kombinieren. Dies ist ein wichtiges Ergebnis, das während des Inferenzprozesses verwendet wird, um die Gültigkeit der Erkennungen zu bewerten. Dieser Wert wird auf der Grundlage der Modellgewichte berechnet, die aus Datensätzen wie COCO gelernt wurden.

Die Vertrauensschwelle

In der Praxis sind nicht alle Vorhersagen eines Modells gleichermaßen nützlich oder zuverlässig. Vorhersagen mit sehr niedrigen Vertrauenswerten sind oft Hintergrundrauschen oder unsichere Klassifizierungen. Um diese herauszufiltern, wird in der Regel eine "Vertrauensschwelle" festgelegt. Dabei handelt es sich um einen benutzerdefinierten Wert (z. B. 0,5 oder 50 %); nur Vorhersagen mit einem Konfidenzwert über diesem Schwellenwert werden als gültige Ergebnisse betrachtet. Die Festlegung eines geeigneten Schwellenwerts ist entscheidend und hängt oft von der jeweiligen Anwendung ab:

  • Szenarien mit hoher Auffindungsrate: Bei Anwendungen wie der medizinischen Bildanalyse für Vorsorgeuntersuchungen kann anfangs ein niedrigerer Schwellenwert verwendet werden, um die Wahrscheinlichkeit zu minimieren, dass potenzielle Befunde übersehen werden (hoher Rückruf), auch wenn dies mehr falsch-positive Befunde bedeutet, die eine menschliche Überprüfung erfordern. KI im Gesundheitswesen erfordert oft eine sorgfältige Abstimmung der Schwellenwerte.
  • Hochpräzise Szenarien: Bei Anwendungen wie dem autonomen Fahren oder der Qualitätskontrolle in der KI-Fertigung wird ein höherer Schwellenwert bevorzugt, um sicherzustellen, dass Maßnahmen nur auf der Grundlage sehr sicherer Vorhersagen (hohe Präzision) ergriffen werden, wodurch das Fehlerrisiko verringert wird. Die KI-Sicherheitsforschung legt den Schwerpunkt auf robuste Entscheidungen.

Der Konfidenzschwellenwert wird oft in Verbindung mit Techniken wie der Non-Maximum Suppression (NMS) verwendet, um die endgültige Erkennungsmenge zu verfeinern, indem überlappende Bounding Boxes für dasselbe Objekt entfernt werden. Du kannst diesen Schwellenwert bei der Verwendung von Ultralytics ganz einfach über die Befehlszeilenschnittstelle (CLI) oder die Python konfigurieren. Um den optimalen Schwellenwert zu finden, müssen möglicherweise die Hyperparameter angepasst werden.

Anwendungen in der realen Welt

Vertrauenswerte sind entscheidend für den verantwortungsvollen und effektiven Einsatz von KI-Modellen:

  1. Unterstützung bei medizinischen Diagnosen: In Systemen, die medizinische Scans (z. B. Röntgenbilder oder MRTs) auf mögliche Anomalien(z. B. einen Tumor) untersuchen, hilft der Konfidenzwert bei der Priorisierung der Fälle. Eine Vorhersage mit niedrigem Konfidenzwert kann auf einen unklaren Befund hinweisen, der eine genauere Untersuchung durch einen Radiologen erfordert, während Vorhersagen mit hohem Konfidenzwert den Überprüfungsprozess vereinfachen können. In der KI-Forschung in der Radiologie wird häufig über Konfidenzniveaus diskutiert.
  2. Autonome Systeme: Bei selbstfahrenden Autos oder Robotern sind Vertrauenswerte entscheidend für die Sicherheit. Die Erkennung eines Fußgängers oder eines anderen Fahrzeugs(erfahre mehr über den Ansatz von Waymo) muss eine hohe Vertrauensschwelle erreichen, bevor das System eine Aktion wie Bremsen oder Ausweichen einleitet. Erkennungen, die eine niedrige Konfidenzschwelle erreichen, werden ignoriert oder lösen weniger kritische Warnungen aus. So wird sichergestellt, dass das System nur dann entschlossen handelt, wenn es sicher ist.

Vertrauen vs. andere Metriken

Es ist wichtig, den Konfidenzwert einer einzelnen Vorhersage nicht mit den Gesamtkennzahlen der Modellbewertung zu verwechseln. Sie sind zwar verwandt, messen aber unterschiedliche Aspekte der Leistung:

  • Genauigkeit: Misst den Gesamtprozentsatz der richtigen Vorhersagen im gesamten Datensatz. Sie gibt einen allgemeinen Eindruck von der Leistung des Modells, sagt aber nichts über die Sicherheit der einzelnen Vorhersagen aus. Ein Modell kann eine hohe Genauigkeit haben, aber dennoch einige Vorhersagen mit geringer Sicherheit treffen.
  • Präzision: Gibt den Anteil der positiven Vorhersagen an, die tatsächlich richtig waren (True Positives / (True Positives + Falsches Positives)). Eine hohe Genauigkeit bedeutet weniger Fehlalarme. Die Zuversicht spiegelt den Glauben des Modells an seine Vorhersage wider, der mit der Richtigkeit übereinstimmen kann, aber nicht muss.
  • Rückruf (Sensitivität): Misst den Anteil der tatsächlich positiven Fälle, die das Modell richtig erkannt hat (True Positives / (True Positives + Falsches Negatives)). Eine hohe Rückrufquote bedeutet, dass weniger Fälle nicht erkannt werden. Das Vertrauen steht nicht in direktem Zusammenhang mit der Anzahl der tatsächlich gefundenen positiven Fälle.
  • F1-Score: Der harmonische Mittelwert von Precision und Recall, der eine einzige Metrik darstellt, die beide ausgleicht. Die Konfidenz bleibt ein Wert auf Vorhersageebene.
  • Mittlere durchschnittliche Präzision (mAP): Eine gängige Kennzahl bei der Objekterkennung, die die Kurve der Genauigkeit über verschiedene Vertrauensschwellen und Klassen hinweg zusammenfasst. Während die mAP-Berechnung Konfidenzschwellen einbezieht, gilt der Konfidenzwert selbst für jede einzelne Erkennung.
  • Kalibrierung: Bezieht sich darauf, wie gut die Konfidenzwerte mit der tatsächlichen Wahrscheinlichkeit der Korrektheit übereinstimmen. Die Vorhersagen eines gut kalibrierten Modells mit einer Konfidenz von 80 % sollten in etwa 80 % der Fälle richtig sein. Die Konfidenzwerte von Modellen sind nicht immer von Natur aus gut kalibriert(siehe Forschung zur Kalibrierung).

Zusammenfassend lässt sich sagen, dass die Konfidenz ein wertvolles Ergebnis ist, um die Sicherheit einzelner KI-Vorhersagen zu bewerten und so eine bessere Filterung, Priorisierung und Entscheidungsfindung in realen Anwendungen zu ermöglichen. Sie ergänzt die Metriken, die die Gesamtleistung eines Modells bewerten, wie sie in Ultralytics HUB erfasst werden, unterscheidet sich aber von ihnen.

Alles lesen