Messung der KI-Leistung zur Bewertung der Auswirkungen Ihrer Innovationen

Abirami Vina

5 Minuten lesen

22. August 2024

Mit den richtigen KPIs und Leistungsmetriken können Sie den Erfolg Ihrer KI-Innovationen überwachen. Erfahren Sie, wie Sie die Wirkung von KI-Anwendungen verfolgen und optimieren können.

Wir haben bereits erforscht, wie KI in verschiedenen Branchen wie dem Gesundheitswesen, der Fertigung und dem Tourismus eingesetzt werden kann. Wir haben auch untersucht, wie KI alltägliche Arbeitsaufgaben verbessern kann , und haben führende KI-Geschäftsideen diskutiert. All diese Diskussionen führen unweigerlich zu der gleichen Schlüsselfrage: Wie können wir den Erfolg solcher KI-Implementierungen messen? Das ist eine wichtige Frage, denn es reicht nicht aus, einfach nur KI-Lösungen einzuführen. Erst wenn man sicherstellt, dass diese Lösungen auch tatsächlich Ergebnisse liefern, werden sie zum entscheidenden Faktor. 

Wir können KI-Leistungskennzahlen messen, um festzustellen, ob ein KI-Modell wirklich effizientere Prozesse ermöglicht, Innovationen anstößt oder Probleme löst. Indem wir uns auf die richtigen Key Performance Indicators (KPIs) konzentrieren, können wir verstehen, wie gut eine KI-Lösung funktioniert und wo sie möglicherweise verbessert werden muss.

In diesem Artikel werfen wir einen Blick darauf, wie Sie den Erfolg von KI-Implementierungen mit den wichtigsten KPIs messen können. Wir gehen auf die Unterschiede zwischen Unternehmens-KPIs und KI-Leistungs-KPIs ein, erläutern wichtige Metriken wie Präzision und Recall und helfen Ihnen bei der Auswahl der besten KPIs für Ihre spezifischen KI-Lösungen.

Der Unterschied zwischen KI-Geschäfts-KPIs und KI-Leistungs-KPIs

__wf_reserved_inherit
Abbildung 1. Vergleich von AI Business KPIs und AI Performance KPIs.

Wenn man an KPIs denkt, ist es naheliegend anzunehmen, dass es sich dabei um Geschäftskennzahlen wie Kapitalrendite (ROI), Kosteneinsparungen oder erwirtschaftete Einnahmen handelt - insbesondere, wenn es um KI für Unternehmen geht. Diese KI-Business-KPIs messen, wie sich KI auf den Gesamterfolg eines Unternehmens auswirkt und mit den allgemeinen Geschäftszielen übereinstimmt. 

Die KI-Leistungskennzahlen hingegen konzentrieren sich darauf, wie gut das KI-System selbst funktioniert, und verwenden Messgrößen wie Genauigkeit, Präzision und Rückruf. Auf die Details dieser Kennzahlen gehen wir weiter unten ein, aber im Wesentlichen geht es darum, dass Geschäfts-KPIs die finanziellen und strategischen Vorteile von KI aufzeigen, während Leistungs-KPIs sicherstellen, dass ein KI-Modell seine Aufgabe effektiv erfüllt.

Bestimmte Metriken können sogar beide Zwecke erfüllen. So können beispielsweise Effizienzgewinne, wie die Verringerung des Zeit- oder Ressourcenaufwands für die Erledigung einer Aufgabe, sowohl ein Leistungs-KPI (der zeigt, wie gut die KI-Lösung funktioniert) als auch ein Geschäfts-KPI (der Kosteneinsparungen und Produktivitätsverbesserungen misst) sein. Die Kundenzufriedenheit ist eine weitere Crossover-Kennzahl. Sie kann den Erfolg eines KI-gesteuerten Kundenservice-Tools sowohl in Bezug auf seine technische Leistung als auch auf seine Auswirkungen auf die allgemeinen Geschäftsziele widerspiegeln.

Verstehen der wichtigsten AI-Leistungskennzahlen

Es gibt einige gängige Metriken, mit denen die Leistung eines KI-Modells gemessen werden kann. Zunächst werfen wir einen Blick auf ihre Definition und wie sie berechnet werden. Dann werden wir sehen, wie diese Metriken überwacht werden können.

Präzision

Die Präzision ist eine Messgröße, die angibt, wie genau ein KI-Modell "True Positives" identifiziert (Fälle, in denen das Modell ein Objekt oder einen Zustand richtig identifiziert). Bei einem Gesichtserkennungssystem beispielsweise würde ein wahrer Positivbefund auftreten, wenn das System das Gesicht einer Person, auf das es trainiert wurde , richtig erkennt und identifiziert. 

Um die Genauigkeit zu berechnen, zählen Sie zunächst die Anzahl der wirklich positiven Ergebnisse. Diese Zahl können Sie dann durch die Gesamtzahl der Elemente teilen, die das Modell als positiv gekennzeichnet hat. Diese Gesamtzahl umfasst sowohl richtige Identifizierungen als auch Fehler, die als falsch-positive Ergebnisse bezeichnet werden. Im Wesentlichen sagt die Genauigkeit aus, wie oft das Modell richtig liegt, wenn es behauptet, etwas erkannt zu haben.

__wf_reserved_inherit
Abbildung 2. Präzision verstehen.

Dies ist besonders wichtig in Szenarien, in denen die Folgen von Fehlalarmen kostspielig oder störend sein können. In der automatisierten Fertigung beispielsweise zeigt eine hohe Präzisionsrate an, dass das System fehlerhafte Produkte genauer kennzeichnen und das unnötige Aussortieren oder Nacharbeiten von guten Produkten verhindern kann. Ein weiteres gutes Beispiel ist die Sicherheitsüberwachung. Eine hohe Präzision hilft, Fehlalarme zu minimieren und sich nur auf echte Bedrohungen zu konzentrieren, die eine Sicherheitsmaßnahme erfordern.

Rückruf

Der Rückruf hilft dabei, die Fähigkeit eines KI-Modells zu messen, alle relevanten Instanzen oder "True Positives" innerhalb eines Datensatzes zu identifizieren. Einfach ausgedrückt: Sie gibt an, wie gut ein KI-System alle tatsächlichen Fälle eines Zustands oder Objekts erfassen kann, die es erkennen soll. Der Rückruf kann berechnet werden, indem die Anzahl der korrekten Erkennungen durch die Gesamtzahl der positiven Fälle, die hätten erkannt werden sollen, geteilt wird (dazu gehören sowohl die Fälle, die das Modell korrekt identifiziert hat, als auch die, die es nicht erkannt hat).

Nehmen wir ein KI-gestütztes medizinisches Bildgebungssystem, das zur Krebserkennung eingesetzt wird. Die Rückrufquote gibt in diesem Zusammenhang den Prozentsatz der tatsächlichen Krebsfälle an, die das System korrekt identifiziert. Eine hohe Trefferquote ist in solchen Szenarien von entscheidender Bedeutung, da das Verpassen einer Krebsdiagnose schwerwiegende Folgen für die Patientenversorgung haben kann.

Präzision versus Wiedererkennung

Präzision und Recall sind wie zwei Seiten einer Medaille, wenn es um die Bewertung der Leistung eines KI-Modells geht, und sie erfordern oft ein Gleichgewicht. Die Herausforderung besteht darin, dass die Verbesserung der einen Metrik oft auf Kosten der anderen geht. 

Nehmen wir an, Sie streben eine höhere Präzision an. Das Modell könnte selektiver werden und nur noch positive Fälle identifizieren, bei denen es sich sehr sicher ist. Wenn Sie hingegen eine höhere Trefferquote anstreben, kann das Modell mehr positive Ergebnisse erkennen, was jedoch mehr falsch-positive Ergebnisse zur Folge haben kann und die Präzision verringert. 

Der Schlüssel liegt darin, das richtige Gleichgewicht zwischen Präzision und Rückruf auf der Grundlage der spezifischen Anforderungen Ihrer Anwendung zu finden. Ein nützliches Instrument hierfür ist die Präzisions-Recall-Kurve, die das Verhältnis zwischen den beiden Metriken bei verschiedenen Schwellenwerten zeigt. Durch die Analyse dieser Kurve können Sie den optimalen Punkt bestimmen, an dem das Modell für Ihren speziellen Anwendungsfall die beste Leistung erbringt. Das Verständnis des Kompromisses hilft bei der Feinabstimmung von KI-Modellen, damit sie für die vorgesehenen Anwendungsfälle optimal funktionieren.

__wf_reserved_inherit
Abb. 3. Ein Beispiel für eine Precision-Recall-Kurve.

Mittlere durchschnittliche Genauigkeit (mAP)

Mean Average Precision (mAP) ist eine Metrik zur Bewertung der Leistung von KI-Modellen für Aufgaben wie die Objekterkennung, bei denen das Modell mehrere Objekte in einem Bild identifizieren und klassifizieren muss. mAP gibt Ihnen eine einzige Punktzahl, die zeigt, wie gut das Modell über alle verschiedenen Kategorien hinweg abschneidet, für die es trainiert wurde. Schauen wir uns an, wie er berechnet wird.

Die Fläche unter einer Precision-Recall-Kurve gibt die durchschnittliche Präzision (AP) für diese Klasse an. AP misst, wie genau das Modell Vorhersagen für eine bestimmte Klasse trifft, wobei sowohl die Präzision als auch der Abruf über verschiedene Konfidenzniveaus hinweg berücksichtigt werden (Konfidenzniveaus geben an, wie sicher das Modell in seinen Vorhersagen ist). Nachdem die AP für jede Klasse berechnet wurde, wird der mAP-Wert durch Mittelwertbildung dieser AP-Werte über alle Klassen ermittelt.

__wf_reserved_inherit
Abb. 4. Die durchschnittliche Genauigkeit der verschiedenen Klassen.

mAP ist nützlich bei Anwendungen wie dem autonomen Fahren, wo mehrere Objekte wie Fußgänger, Fahrzeuge und Verkehrsschilder gleichzeitig erkannt werden müssen. Eine hohe mAP-Punktzahl bedeutet, dass das Modell in allen Kategorien gleichbleibend gut abschneidet, was es in einer Vielzahl von Szenarien zuverlässig und genau macht.

Mühelose Berechnung von Leistungskennzahlen

Die Formeln und Methoden zur Berechnung der wichtigsten KI-Leistungskennzahlen können entmutigend wirken. Mit Tools wie dem Ultralytics-Paket ist dies jedoch einfach und schnell möglich. Unabhängig davon, ob Sie an Objekterkennungs-, Segmentierungs- oder Klassifizierungsaufgaben arbeiten, bietet Ultralytics die notwendigen Dienstprogramme, um wichtige Metriken wie Präzision, Recall und mittlere durchschnittliche Präzision (mAP) schnell zu berechnen.

Um mit der Berechnung von Leistungsmetriken mit Ultralytics zu beginnen, können Sie das Ultralytics-Paket wie unten gezeigt installieren.

In diesem Beispiel laden wir ein vorgebildetes YOLOv8-Modell und verwenden es zur Validierung von Leistungsmetriken, aber Sie können jedes der von Ultralytics unterstützten Modelle laden. So können Sie es tun:

Sobald das Modell geladen ist, können Sie die Validierung Ihres Datensatzes durchführen. Das folgende Codeschnipsel hilft Ihnen bei der Berechnung verschiedener Leistungsmetriken, einschließlich Präzision, Recall und mAP:

Der Einsatz von Tools wie Ultralytics erleichtert die Berechnung von Leistungskennzahlen erheblich, so dass Sie mehr Zeit für die Verbesserung Ihres Modells aufwenden können und sich weniger Gedanken über die Details des Bewertungsprozesses machen müssen.

Wie wird die KI-Leistung nach dem Einsatz gemessen?

Bei der Entwicklung Ihres KI-Modells ist es einfach, dessen Leistung in einer kontrollierten Umgebung zu testen. Sobald das Modell jedoch eingesetzt wird, können die Dinge komplizierter werden. Glücklicherweise gibt es Tools und bewährte Verfahren, die Ihnen bei der Überwachung Ihrer KI-Lösung nach der Bereitstellung helfen können. 

Tools wie Prometheus, Grafana und Evidently AI sind darauf ausgelegt, die Leistung Ihres Modells kontinuierlich zu verfolgen. Sie bieten Einblicke in Echtzeit, erkennen Anomalien und weisen Sie auf mögliche Probleme hin. Diese Tools gehen über die herkömmliche Überwachung hinaus und bieten automatisierte, skalierbare Lösungen, die sich an die dynamische Natur von KI-Modellen in der Produktion anpassen.

Um den Erfolg Ihres KI-Modells nach der Einführung zu messen, sollten Sie einige bewährte Verfahren befolgen:

  • Legen Sie klare Leistungskennzahlen fest: Entscheiden Sie sich für Schlüsselkennzahlen wie Genauigkeit, Präzision und Reaktionszeit, um regelmäßig zu überprüfen, wie gut Ihr Modell funktioniert.
  • Überprüfen Sie regelmäßig die Datenabweichung: Achten Sie auf Änderungen in den Daten, die Ihr Modell verarbeitet, da diese die Vorhersagen beeinflussen können, wenn sie nicht ordnungsgemäß verwaltet werden.
  • Führen Sie A/B-Tests durch: Verwenden Sie A/B-Tests, um die Leistung Ihres aktuellen Modells mit neuen Versionen oder Optimierungen zu vergleichen. So können Sie Verbesserungen oder Rückschritte im Modellverhalten quantitativ bewerten.
  • Dokumentieren und überprüfen Sie die Leistung: Führen Sie detaillierte Protokolle über Leistungskennzahlen und Änderungen an Ihrem KI-System. Dies ist für Audits, Compliance und die Verbesserung der Architektur Ihres Modells im Laufe der Zeit von entscheidender Bedeutung.

Die Auswahl optimaler AI KPIs ist nur der Anfang

Die erfolgreiche Bereitstellung und Verwaltung einer KI-Lösung hängt von der Auswahl der richtigen KPIs und ihrer Aktualisierung ab. Insgesamt ist die Auswahl von Messgrößen, die aufzeigen, wie gut die KI-Lösung technisch und in Bezug auf die geschäftlichen Auswirkungen funktioniert, von entscheidender Bedeutung. Wenn sich die Dinge ändern, sei es durch technologische Fortschritte oder Veränderungen in Ihrer Geschäftsstrategie, ist es wichtig, diese KPIs zu überprüfen und zu optimieren. 

Indem Sie Ihre Leistungsüberprüfungen dynamisch gestalten, können Sie Ihr KI-System relevant und effektiv halten. Indem Sie diese Metriken im Auge behalten, gewinnen Sie wertvolle Erkenntnisse, die Ihnen helfen, Ihren Betrieb zu verbessern. Ein proaktiver Ansatz garantiert, dass Ihre KI-Bemühungen wirklich wertvoll sind und Ihr Unternehmen voranbringen!

Werden Sie Teil unserer Community und innovieren Sie mit uns! Erkunden Sie unser GitHub-Repository, um unsere KI-Fortschritte zu sehen. Erfahren Sie, wie wir mit bahnbrechender KI-Technologie Branchen wie die Fertigung und das Gesundheitswesen umgestalten. 🚀

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert