KI-Leistung messen, um die Auswirkungen deiner Innovationen abzuwägen

Mit den richtigen KPIs und Leistungsmetriken kannst du den Erfolg deiner KI-Innovationen überwachen. Erfahre, wie du die Wirkung von KI-Anwendungen verfolgen und optimieren kannst.

Geschrieben von

Abirami Vina

min lesen

22. August 2024

Apr 13, 2025

Die wichtigsten KI-Leistungskennzahlen verstehen

Präzision

Rückruf

Präzision versus Wiedererkennung

Mittlere durchschnittliche Genauigkeit (mAP)

Berechne mühelos Leistungskennzahlen

Wie wird die KI-Leistung nach dem Einsatz gemessen?

Die Auswahl der optimalen KI-KPIs ist nur der Anfang

Wir haben bereits erforscht, wie KI in verschiedenen Branchen wie dem Gesundheitswesen, der Produktion und dem Tourismus eingesetzt werden kann. Wir haben auch untersucht, wie KI den Arbeitsalltag verbessern kann und haben führende KI-Geschäftsideen diskutiert. All diese Diskussionen führen unweigerlich zu der gleichen Kernfrage: Wie können wir den Erfolg solcher KI-Implementierungen messen? Das ist eine wichtige Frage, denn es reicht nicht aus, einfach nur KI-Lösungen zu implementieren. Erst wenn man sicherstellt, dass diese Lösungen auch tatsächlich Ergebnisse liefern, werden sie zu etwas ganz Neuem.

Wir können KI-Leistungskennzahlen messen, um festzustellen, ob ein KI-Modell wirklich effizienter arbeitet, Innovationen fördert oder Probleme löst. Indem wir uns auf die richtigen Leistungsindikatoren (KPIs) konzentrieren, können wir verstehen, wie gut eine KI-Lösung funktioniert und wo sie möglicherweise verbessert werden muss.

In diesem Artikel werfen wir einen Blick darauf, wie du den Erfolg von KI-Implementierungen mit den wichtigsten KPIs messen kannst. Wir gehen auf die Unterschiede zwischen Unternehmens-KPIs und KI-Leistungs-KPIs ein, erläutern wichtige Kennzahlen wie Präzision und Recall und helfen dir, die besten KPIs für deine spezifischen KI-Lösungen auszuwählen.

Der Unterschied zwischen KI-Geschäfts-KPIs und KI-Leistungs-KPIs

__wf_reserved_inherit — Abb. 1. Vergleich von KI-Business-KPIs und KI-Performance-KPIs.

‍

Wenn du an KPIs denkst, ist es naheliegend, dass es dabei um betriebswirtschaftliche Kennzahlen wie Kapitalrendite (ROI), Kosteneinsparungen oder erwirtschaftete Einnahmen geht - vor allem, wenn es um KI in Unternehmen geht. Diese KI-Business-KPIs messen, wie sich KI auf den Gesamterfolg eines Unternehmens auswirkt und stehen im Einklang mit den allgemeinen Unternehmenszielen.

Die KI-Leistungskennzahlen hingegen konzentrieren sich darauf, wie gut das KI-System selbst funktioniert, und verwenden Kennzahlen wie Genauigkeit, Präzision und Wiedererkennung. Auf die Details dieser Kennzahlen gehen wir weiter unten ein, aber im Wesentlichen zeigen die Geschäfts-KPIs die finanziellen und strategischen Vorteile von KI, während die Leistungs-KPIs sicherstellen, dass ein KI-Modell seine Arbeit effektiv erledigt.

Bestimmte Kennzahlen können sogar beiden Zwecken dienen. Zum Beispiel können Effizienzsteigerungen, wie die Verringerung des Zeit- oder Ressourcenaufwands für eine Aufgabe, sowohl eine Leistungskennzahl (die zeigt, wie gut die KI-Lösung funktioniert) als auch eine Geschäftskennzahl (die Kosteneinsparungen und Produktivitätssteigerungen misst) sein. Die Kundenzufriedenheit ist eine weitere Crossover-Kennzahl. Sie kann den Erfolg eines KI-gesteuerten Kundenservice-Tools sowohl in Bezug auf seine technische Leistung als auch auf seine Auswirkungen auf die allgemeinen Unternehmensziele widerspiegeln.

Die wichtigsten KI-Leistungskennzahlen verstehen

Es gibt einige gängige Kennzahlen, um die Leistung eines KI-Modells zu messen. Zuerst schauen wir uns an, wie sie definiert sind und wie sie berechnet werden. Dann sehen wir uns an, wie diese Kennzahlen überwacht werden können.

Präzision

Die Präzision ist eine Kennzahl, die misst, wie genau ein KI-Modell "True Positives" identifiziert (Fälle, in denen das Modell ein Objekt oder einen Zustand richtig identifiziert). Bei einem Gesichtserkennungssystem zum Beispiel liegt ein "True Positive" vor, wenn das System das Gesicht einer Person, auf das es trainiert wurde , richtig erkennt und identifiziert.

Um die Genauigkeit zu berechnen, zählst du zunächst die Anzahl der echten Positivmeldungen. Diese Zahl kannst du dann durch die Gesamtzahl der Objekte teilen, die das Modell als positiv eingestuft hat. Diese Gesamtzahl umfasst sowohl richtige Identifizierungen als auch Fehler, die als False Positives bezeichnet werden. Im Wesentlichen sagt dir die Genauigkeit, wie oft das Modell richtig liegt, wenn es behauptet, etwas erkannt zu haben.

‍

ies ist besonders wichtig in Szenarien, in denen die Folgen von Fehlalarmen kostspielig oder störend sein können. In der automatisierten Fertigung zum Beispiel zeigt eine hohe Präzisionsrate an, dass das System fehlerhafte Produkte genauer erkennen und verhindern kann, dass gute Produkte unnötig aussortiert oder nachbearbeitet werden. Ein weiteres gutes Beispiel ist die Sicherheitsüberwachung. Eine hohe Genauigkeit hilft dabei, Fehlalarme zu minimieren und sich nur auf echte Bedrohungen zu konzentrieren, die eine Sicherheitsmaßnahme erfordern.

Rückruf

Der Rückruf hilft dabei, die Fähigkeit eines KI-Modells zu messen, alle relevanten Fälle oder "True Positives" in einem Datensatz zu erkennen. Einfach ausgedrückt: Sie gibt an, wie gut ein KI-System alle tatsächlichen Fälle eines Zustands oder Objekts erfassen kann, die es erkennen soll. Der Recall lässt sich berechnen, indem man die Anzahl der richtigen Erkennungen durch die Gesamtzahl der positiven Fälle teilt, die hätten erkannt werden müssen (dazu gehören sowohl die Fälle, die das Modell richtig erkannt hat, als auch die, die es nicht erkannt hat).

Nehmen wir ein KI-gestütztes medizinisches Bildgebungssystem, das zur Krebserkennung eingesetzt wird. Die Rückrufquote spiegelt in diesem Zusammenhang den Prozentsatz der tatsächlichen Krebsfälle wider, die das System korrekt identifiziert. Eine hohe Trefferquote ist in solchen Szenarien entscheidend, denn eine fehlende Krebsdiagnose kann schwerwiegende Folgen für die Patientenversorgung haben.

Präzision versus Wiedererkennung

Präzision und Recall sind wie zwei Seiten einer Medaille, wenn es darum geht, die Leistung eines KI-Modells zu bewerten, und sie erfordern oft ein Gleichgewicht. Die Herausforderung besteht darin, dass die Verbesserung einer Kennzahl oft auf Kosten der anderen geht.

Nehmen wir an, du strebst eine höhere Präzision an. Das Modell könnte selektiver werden und nur noch positive Fälle identifizieren, bei denen es sich sehr sicher ist. Wenn du hingegen die Rückrufquote verbessern willst, kann das Modell mehr positive Fälle identifizieren, aber das kann auch mehr falsch-positive Fälle beinhalten und die Genauigkeit verringern.

Der Schlüssel liegt darin, das richtige Gleichgewicht zwischen Precision und Recall zu finden, das auf die spezifischen Anforderungen deiner Anwendung abgestimmt ist. Ein nützliches Instrument dafür ist die Präzisions-Recall-Kurve, die das Verhältnis zwischen den beiden Kennzahlen bei verschiedenen Schwellenwerten zeigt. Wenn du diese Kurve analysierst, kannst du den optimalen Punkt bestimmen, an dem das Modell für deinen spezifischen Anwendungsfall am besten abschneidet. Das Verständnis dieses Kompromisses hilft bei der Feinabstimmung von KI-Modellen, damit sie für den jeweiligen Anwendungsfall optimal funktionieren.

‍

Mittlere durchschnittliche Genauigkeit (mAP)

Mean Average Precision (mAP) ist eine Kennzahl, mit der die Leistung von KI-Modellen für Aufgaben wie die Objekterkennung bewertet wird, bei denen das Modell mehrere Objekte in einem Bild identifizieren und klassifizieren muss. mAP gibt dir eine einzige Punktzahl, die zeigt, wie gut das Modell über alle verschiedenen Kategorien hinweg abschneidet, für die es trainiert wurde. Schauen wir uns an, wie er berechnet wird.

Die Fläche unter einer Präzisions-Rückruf-Kurve gibt die durchschnittliche Präzision (AP) für diese Klasse an. Die AP misst, wie genau das Modell Vorhersagen für eine bestimmte Klasse trifft, wobei sowohl die Präzision als auch der Abruf über verschiedene Konfidenzniveaus hinweg berücksichtigt werden (Konfidenzniveaus geben an, wie sicher das Modell in seinen Vorhersagen ist). Nachdem die AP für jede Klasse berechnet wurde, wird die mAP durch die Bildung des Durchschnitts dieser AP-Werte für alle Klassen ermittelt.

‍

mAP ist nützlich für Anwendungen wie autonomes Fahren, bei denen mehrere Objekte wie Fußgänger, Fahrzeuge und Verkehrsschilder gleichzeitig erkannt werden müssen. Eine hohe mAP-Punktzahl bedeutet, dass das Modell in allen Kategorien gleichbleibend gut abschneidet und somit in einer Vielzahl von Szenarien zuverlässig und genau ist.

Berechne mühelos Leistungskennzahlen

Die Formeln und Methoden zur Berechnung der wichtigsten KI-Leistungskennzahlen können entmutigend wirken. Mit Tools wie dem PaketUltralytics ist das jedoch einfach und schnell erledigt. Ganz gleich, ob du an Objekterkennungs-, Segmentierungs- oder Klassifizierungsaufgaben arbeitest, Ultralytics bietet die nötigen Hilfsmittel, um wichtige Kennzahlen wie Präzision, Recall und mittlere durchschnittliche Präzision (mAP) schnell zu berechnen.

Um mit der Berechnung von Leistungskennzahlen mit Ultralytics zu beginnen, kannst du das Paket Ultralytics wie unten gezeigt installieren.

In diesem Beispiel laden wir ein vortrainiertes Modell von YOLOv8 und verwenden es, um die Leistungskennzahlen zu überprüfen. Du kannst aber jedes der unterstützten Modelle von Ultralytics laden. So geht's:

Sobald das Modell geladen ist, kannst du die Validierung deines Datensatzes durchführen. Das folgende Codeschnipsel hilft dir dabei, verschiedene Leistungskennzahlen zu berechnen, darunter Präzision, Recall und mAP:

Mit Tools wie Ultralytics wird die Berechnung der Leistungskennzahlen viel einfacher. So kannst du mehr Zeit damit verbringen, dein Modell zu verbessern, und musst dich weniger um die Details des Bewertungsprozesses kümmern.

Wie wird die KI-Leistung nach dem Einsatz gemessen?

Wenn du dein KI-Modell entwickelst, ist es einfach, seine Leistung in einer kontrollierten Umgebung zu testen. Sobald das Modell jedoch eingesetzt wird, kann es komplizierter werden. Zum Glück gibt es Tools und Best Practices, die dir helfen können, deine KI-Lösung nach der Einführung zu überwachen.

Tools wie Prometheus, Grafana und Evidently AI sind darauf ausgelegt, die Leistung deines Modells kontinuierlich zu überwachen. Sie bieten Einblicke in Echtzeit, erkennen Anomalien und weisen dich auf mögliche Probleme hin. Diese Tools gehen über die herkömmliche Überwachung hinaus, indem sie automatisierte, skalierbare Lösungen anbieten, die sich an die dynamische Natur von KI-Modellen in der Produktion anpassen.

Um den Erfolg deines KI-Modells nach der Einführung zu messen, gibt es einige Best Practices, die du beachten solltest:

Lege klare Leistungskennzahlen fest: Entscheide dich für Schlüsselkennzahlen wie Genauigkeit, Präzision und Reaktionszeit, um regelmäßig zu überprüfen, wie gut dein Modell funktioniert.
‍
Überprüfe regelmäßig, ob die Daten driften: Achte auf Veränderungen in den Daten, die dein Modell verarbeitet, da dies seine Vorhersagen beeinflussen kann, wenn es nicht richtig gehandhabt wird.
‍
Führe A/B-Tests durch: Verwende A/B-Tests, um die Leistung deines aktuellen Modells mit neuen Versionen oder Optimierungen zu vergleichen. So kannst du Verbesserungen oder Rückschritte im Modellverhalten quantitativ bewerten.
‍
Dokumentiere und überprüfe die Leistung: Führe detaillierte Protokolle über Leistungskennzahlen und Änderungen an deinem KI-System. Das ist wichtig für Audits, die Einhaltung von Vorschriften und die Verbesserung der Architektur deines Modells im Laufe der Zeit.

Die Auswahl der optimalen KI-KPIs ist nur der Anfang

Der erfolgreiche Einsatz und die Verwaltung einer KI-Lösung hängen von der Auswahl der richtigen KPIs und ihrer Aktualisierung ab. Insgesamt ist es wichtig, Kennzahlen zu wählen, die zeigen, wie gut die KI-Lösung technisch und in Bezug auf die geschäftlichen Auswirkungen funktioniert. Wenn sich die Dinge ändern, sei es durch technologische Fortschritte oder Veränderungen in deiner Geschäftsstrategie, ist es wichtig, diese KPIs zu überprüfen und zu optimieren.

Indem du deine Leistungsbeurteilungen dynamisch hältst, kannst du dein KI-System relevant und effektiv halten. Indem du diese Kennzahlen im Auge behältst, gewinnst du wertvolle Erkenntnisse, die dir helfen, deinen Betrieb zu verbessern. Ein proaktiver Ansatz garantiert, dass deine KI-Maßnahmen wirklich wertvoll sind und dein Unternehmen voranbringen!

Werde Teil unserer Community und entwickle mit uns Innovationen! Erforsche unser GitHub-Repository, um unsere KI-Fortschritte zu sehen. Erfahre, wie wir Branchen wie die Fertigung und das Gesundheitswesen mit bahnbrechender KI-Technologie umgestalten. 🚀

KI-Leistung messen, um die Auswirkungen deiner Innovationen abzuwägen

Der Unterschied zwischen KI-Geschäfts-KPIs und KI-Leistungs-KPIs