Glossar

Adversarische Angriffe

Erfahren Sie mehr über die Auswirkungen feindlicher Angriffe auf KI-Systeme, ihre Arten, Beispiele aus der Praxis und Verteidigungsstrategien zur Verbesserung der KI-Sicherheit.

Adversarische Angriffe sind eine Technik, mit der Modelle des maschinellen Lernens getäuscht werden, indem sie mit bösartigen, absichtlich entworfenen Eingaben versorgt werden. Diese Eingaben, die so genannten gegnerischen Beispiele, werden durch subtile Änderungen an legitimen Daten erstellt. Die Änderungen sind oft so gering, dass sie für das menschliche Auge nicht wahrnehmbar sind, können aber dazu führen, dass ein neuronales Netz mit hoher Wahrscheinlichkeit eine falsche Vorhersage trifft. Diese Schwachstelle stellt ein erhebliches Sicherheitsproblem für KI-Systeme dar, insbesondere bei kritischen Bildverarbeitungsanwendungen, bei denen Zuverlässigkeit und Genauigkeit von größter Bedeutung sind.

Wie gegnerische Angriffe funktionieren

Angriffe durch Angreifer nutzen die Art und Weise aus, wie Deep-Learning-Modelle lernen und Entscheidungen treffen. Ein Modell lernt, Muster zu erkennen, indem es eine "Entscheidungsgrenze" identifiziert, die verschiedene Datenkategorien voneinander trennt. Das Ziel eines Angreifers ist es, den effizientesten Weg zu finden, eine Eingabe so zu verändern, dass sie diese Grenze überschreitet und eine Fehlklassifizierung verursacht. Bei der hinzugefügten Störung handelt es sich nicht um zufälliges Rauschen, sondern um ein sorgfältig berechnetes Signal, das die spezifischen Schwächen des Modells ausnutzen soll. Forschungsarbeiten von Einrichtungen wie der Carnegie Mellon University bieten tiefe Einblicke in diese Mechanismen.

Arten von feindlichen Angriffen

Angriffe werden im Allgemeinen auf der Grundlage der Kenntnisse des Angreifers über das Zielmodell kategorisiert.

  • White-Box-Angriffe: Der Angreifer hat vollständige Kenntnis von der Architektur des Modells, den Parametern und den Trainingsdaten. Dieser uneingeschränkte Zugang ermöglicht die Entwicklung hocheffektiver Angriffe, wie z. B. die Fast Gradient Sign Method (FGSM), die sich hervorragend zum Testen der Robustheit eines Modells eignen.
  • Black-Box-Angriffe: Der Angreifer hat keine internen Kenntnisse über das Modell und kann es nur abfragen, indem er Eingaben macht und die Ausgaben beobachtet. Diese Angriffe sind in realen Szenarien realistischer. Sie beruhen oft auf dem Prinzip der Übertragbarkeit, bei dem ein gegnerisches Beispiel, das zur Täuschung eines Modells geschaffen wurde, wahrscheinlich auch ein anderes Modell täuschen kann - ein Phänomen, das von Forschern bei Google AI untersucht wurde.

Beispiele aus der Praxis

  1. Fehlklassifizierung bei der Bilderkennung: Ein bekanntes Beispiel ist ein Bildklassifizierungsmodell, das ein Bild eines Pandas korrekt identifiziert. Nach dem Hinzufügen einer nicht wahrnehmbaren Schicht von Störsignalen klassifiziert dasselbe Modell das Bild mit hoher Sicherheit als Gibbon.
  2. Autonome Systeme austricksen: Forscher haben erfolgreich nachgewiesen, dass das Anbringen einfacher Aufkleber auf einem Stoppschild ein Objekterkennungsmodell in einem autonomen Fahrzeug täuschen kann. Das Modell kann das Schild fälschlicherweise als "Tempolimit 45"-Schild identifizieren, ein kritischer Fehler für jede KI in Kfz-Systemen. Diese Angriffe werden als physische Angriffe bezeichnet.

Verteidigung gegen gegnerische Angriffe

Die Sicherung von Modellen gegen diese Bedrohungen ist ein aktives Forschungsgebiet. Zu den gängigen Verteidigungsstrategien gehören:

  • Gegnerseitiges Training: Dies ist derzeit eine der wirksamsten Verteidigungsmaßnahmen. Dabei werden negative Beispiele erzeugt und in den Trainingssatz des Modells aufgenommen. Dieser Prozess, eine Form der Datenerweiterung, hilft dem Modell dabei, zu lernen, die Störungen des Gegners zu ignorieren und robustere Darstellungen zu erstellen.
  • Vorverarbeitung der Eingabe: Die Anwendung von Transformationen wie Unschärfe, Rauschunterdrückung oder JPEG-Komprimierung auf die Eingabebilder, bevor sie in das Modell eingespeist werden, kann manchmal das schädliche Rauschen entfernen oder reduzieren.
  • Model Ensembling: Durch die Kombination der Vorhersagen mehrerer verschiedener Modelle wird es für einen Angreifer schwieriger, ein einziges Gegenbeispiel zu erstellen, das alle Modelle gleichzeitig täuscht.

Die Zukunft des kontradiktorischen maschinellen Lernens

Der Bereich der künstlichen Intelligenz wird oft als ein ständiges "Wettrüsten" beschrieben, bei dem ständig neue Angriffe und Verteidigungsmöglichkeiten entstehen. Der Aufbau einer vertrauenswürdigen KI erfordert robuste Entwicklungs- und Testverfahren. Frameworks wie der MITRE ATLAS for Adversarial Threat-informed Defense helfen Unternehmen, diese Bedrohungen zu verstehen und sich darauf vorzubereiten. Organisationen wie das NIST und Unternehmen wie Microsoft forschen aktiv an Verteidigungsmaßnahmen. Die Einbeziehung von Prinzipien der erklärbaren KI (Explainable AI, XAI) hilft bei der Identifizierung von Schwachstellen, während die Einhaltung einer strengen KI-Ethik den verantwortungsvollen Einsatz von Modellen leitet. Kontinuierliche Forschung und Wachsamkeit gewährleisten, dass Modelle wie Ultralytics YOLO11 sicher und zuverlässig in realen Anwendungen eingesetzt werden können. Wenn Sie mehr über die sichere Modellentwicklung erfahren möchten, lesen Sie unsere Tutorials und ziehen Sie die Verwendung von Plattformen wie Ultralytics HUB für rationalisierte und sichere Arbeitsabläufe in Betracht.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert