Die logistische Regression ist ein grundlegender Algorithmus des maschinellen Lernens, der für binäre Klassifizierungsprobleme verwendet wird, bei denen es darum geht, die Wahrscheinlichkeit des Eintretens eines Ereignisses vorherzusagen. Im Gegensatz zur linearen Regression, die kontinuierliche Werte vorhersagt, gibt die logistische Regression eine Wahrscheinlichkeit zwischen 0 und 1 aus und eignet sich daher für Aufgaben, bei denen das Ergebnis kategorisch ist, z. B. ob eine E-Mail Spam ist oder nicht oder ob ein Patient eine Krankheit hat oder nicht.
So funktioniert die logistische Regression
Die logistische Regression verwendet eine logistische Funktion, die auch als Sigmoidfunktion bekannt ist, um die Ausgabe einer linearen Gleichung zwischen 0 und 1 zu drücken. Diese Funktion bildet jeden Eingabewert in einen Wahrscheinlichkeitswert ab und sorgt so für einen fließenden Übergang zwischen den beiden möglichen Ergebnissen. Das Modell lernt beim Training die besten Parameter für die lineare Gleichung, indem es die Differenz zwischen den vorhergesagten Wahrscheinlichkeiten und den tatsächlichen Ergebnissen in den Trainingsdaten minimiert.
Schlüsselkonzepte
- Binäre Klassifizierung: Die logistische Regression wird hauptsächlich für binäre Klassifizierungsaufgaben verwendet, bei denen eines von zwei möglichen Ergebnissen vorhergesagt wird. Erfahre mehr über binäre Klassifizierung.
- Sigmoid-Funktion: Das Herzstück der logistischen Regression ist die Sigmoidfunktion, die jede Eingabe in einen Wert zwischen 0 und 1 umwandelt, der eine Wahrscheinlichkeit darstellt. Erfahre mehr über die Sigmoidfunktion.
- Entscheidungsgrenze: Ein Schwellenwert, in der Regel 0,5, wird verwendet, um das Ergebnis zu klassifizieren. Wenn zum Beispiel die vorhergesagte Wahrscheinlichkeit über 0,5 liegt, wird das Ergebnis einer Klasse zugeordnet, andernfalls der anderen Klasse.
- Modelltraining: Während des Trainings passt der Algorithmus die Parameter der linearen Gleichung an, um die Verlustfunktion zu minimieren, die den Unterschied zwischen den vorhergesagten Wahrscheinlichkeiten und den tatsächlichen Ergebnissen misst.
- Bewertung: Die Leistung eines logistischen Regressionsmodells wird häufig anhand von Kennzahlen wie Genauigkeit, Präzision, Rückruf und F1-Score bewertet, die Aufschluss über die Fähigkeit des Modells geben, Instanzen korrekt zu klassifizieren.
Anwendungen in der realen Welt
Die logistische Regression wird aufgrund ihrer Einfachheit und Effektivität in vielen Bereichen eingesetzt. Hier sind zwei konkrete Beispiele:
- Medizinische Diagnose: Im Gesundheitswesen kann die logistische Regression verwendet werden, um die Wahrscheinlichkeit einer bestimmten Krankheit für einen Patienten anhand verschiedener Faktoren wie Alter, Geschlecht und Testergebnisse vorherzusagen. So kann sie zum Beispiel die Wahrscheinlichkeit abschätzen, dass ein Patient aufgrund seines Lebensstils und seiner genetischen Veranlagung an Diabetes erkrankt. Erfahre mehr über KI im Gesundheitswesen.
- Kreditwürdigkeitsprüfung: Finanzinstitute nutzen die logistische Regression, um das Kreditrisiko zu bewerten. Durch die Analyse von Faktoren wie Kredithistorie, Einkommen und Verschuldung kann das Modell die Wahrscheinlichkeit vorhersagen, dass ein Kreditantragsteller in Verzug gerät, und hilft so bei der Kreditvergabe. Erfahre mehr über die Kreditwürdigkeitsprüfung.
Logistische Regression vs. andere Algorithmen
Obwohl die logistische Regression für die binäre Klassifizierung sehr leistungsfähig ist, ist es wichtig zu verstehen, wie sie sich von anderen Algorithmen unterscheidet:
- Lineare Regression: Im Gegensatz zur linearen Regression, die kontinuierliche Ergebnisse vorhersagt, sagt die logistische Regression Wahrscheinlichkeiten für kategoriale Ergebnisse voraus.
- Support Vector Machine (SVM): SVM zielt darauf ab, eine Hyperebene zu finden, die verschiedene Klassen im Merkmalsraum am besten trennt. Sowohl die logistische Regression als auch die SVM können für die binäre Klassifizierung verwendet werden, aber die SVM kann in hochdimensionalen Räumen und bei komplexen Datensätzen effektiver sein.
- Entscheidungsbäume und Zufallswälder: Entscheidungsbäume und Zufallswälder können sowohl Klassifizierungs- als auch Regressionsaufgaben bewältigen und nicht-lineare Beziehungen erfassen. Allerdings neigen sie im Vergleich zur logistischen Regression zur Überanpassung.
Verwendung der logistischen Regression mit Ultralytics
Ultralytics stellt Tools und Ressourcen zur Verfügung, die den Einsatz verschiedener maschineller Lernmodelle, einschließlich der logistischen Regression, erleichtern. Mit Ultralytics HUB können Nutzer/innen ganz einfach Modelle trainieren, validieren und einsetzen. Ultralytics ist zwar für seine hochmodernen Ultralytics YOLO Modelle zur Objekterkennung bekannt, aber die Plattform unterstützt auch eine Vielzahl von Aufgaben des maschinellen Lernens, was sie zu einer vielseitigen Wahl für Entwickler und Forscher macht. Im BlogUltralytics findest du die neuesten Entwicklungen und Anwendungen im Bereich KI.