Glossar

Gegnerische Angriffe

Erfahre, wie sich Angriffe auf KI-Systeme auswirken, welche Arten von Angriffen es gibt, welche Beispiele aus der Praxis es gibt und wie du die KI-Sicherheit verbessern kannst.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Gegnerische Angriffe sind ein großes Problem im Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML), da sie absichtlich versuchen, KI-Systeme zu täuschen oder in die Irre zu führen. Bei diesen Angriffen werden spezielle Eingaben gemacht, die oft als gegnerische Beispiele bezeichnet werden und ein gut trainiertes Modell dazu bringen können, falsche Vorhersagen oder Klassifizierungen vorzunehmen. Auch wenn diese Beispiele für menschliche Beobachter/innen normal oder nur leicht verändert erscheinen, sind sie darauf ausgelegt, Schwachstellen im Entscheidungsprozess des Modells auszunutzen. Das Verständnis und die Abwehr solcher Angriffe sind entscheidend für den Einsatz robuster und zuverlässiger KI-Systeme, insbesondere in sicherheitskritischen Anwendungen wie autonomen Fahrzeugen, im Gesundheitswesen und in Sicherheitssystemen.

Arten von gegnerischen Angriffen

Angriffe durch Angreifer lassen sich grob in zwei Hauptkategorien einteilen:

  • Umgehungsangriffe: Dies ist die häufigste Art von Angriffen. Sie treten während der Testphase auf, wenn ein Angreifer versucht, die Eingabedaten zu manipulieren, um die Erkennung zu umgehen oder vom Modell falsch eingestuft zu werden. Zum Beispiel kann das Hinzufügen von Rauschen zu einem Bild dazu führen, dass ein Objekterkennungsmodell ein Objekt nicht erkennt.
  • Vergiftungsangriffe: Diese Angriffe erfolgen während der Trainingsphase. Die Angreifer fügen bösartige Daten in den Trainingsdatensatz ein, um die Integrität des Modells zu beeinträchtigen. Ziel ist es, die Leistung des Modells bei bestimmten Eingaben zu beeinträchtigen oder eine Hintertür zu schaffen, die später ausgenutzt werden kann.

Beispiele für Angriffe aus der realen Welt

Angriffe sind nicht nur theoretische Konzepte, sondern haben auch praktische Auswirkungen in verschiedenen realen Szenarien. Hier sind ein paar Beispiele:

  • Autonome Fahrzeuge: Im Zusammenhang mit selbstfahrenden Autos können gegnerische Angriffe schwerwiegende Folgen haben. Forscherinnen und Forscher haben gezeigt, dass sie durch das Anbringen von kleinen Aufklebern auf Stoppschildern das Objekterkennungssystem des Fahrzeugs dazu bringen können, das Schild fälschlicherweise als Tempolimitschild zu klassifizieren. Das kann zu gefährlichen Situationen im Straßenverkehr führen. Erfahre mehr über KI in selbstfahrenden Autos.
  • Gesichtserkennungssysteme: Angriffe von Angreifern können auch auf Gesichtserkennungssysteme abzielen, die in der Sicherheit und Überwachung eingesetzt werden. Durch das Tragen spezieller Brillen oder das Auftragen bestimmter Make-up-Muster können Personen der Erkennung entgehen oder von diesen Systemen falsch identifiziert werden. Dies stellt eine große Gefahr für die Sicherheit und die Privatsphäre dar.

Techniken für Angriffe durch Angreifer

Es gibt verschiedene Techniken, um gegnerische Beispiele zu erzeugen. Einige der bekanntesten davon sind:

  • Fast Gradient Sign Method (FGSM): Dies ist eine der ältesten und beliebtesten Angriffsmethoden. Dabei wird der Gradient der Verlustfunktion in Bezug auf das Eingangsbild berechnet und dann Störungen in Richtung des Gradienten hinzugefügt, um den Verlust zu maximieren. Erfahre mehr über den Gradientenabstieg.
  • Projizierter Gradientenabstieg (PGD): Als iterative Version von FGSM wendet PGD mehrere kleine Schritte des Gradientenanstiegs an und projiziert das Ergebnis zurück in den gültigen Eingaberaum. Diese Methode führt oft zu stärkeren Angriffen.
  • Carlini & Wagner (C&W) Angriffe: Diese Angriffe sind optimierungsbasiert und zielen darauf ab, die minimale Störung zu finden, die eine Fehlklassifizierung verursacht. Sie sind dafür bekannt, dass sie sehr effektiv, aber rechenintensiv sind.

Verteidigung gegen gegnerische Angriffe

Forscher und Praktiker haben verschiedene Strategien entwickelt, um sich gegen Angriffe zu verteidigen. Einige bemerkenswerte Abwehrmechanismen sind:

  • Adversariales Training: Hierbei wird der Trainingsdatensatz mit negativen Beispielen erweitert. Indem das Modell sowohl mit sauberen als auch mit gegnerischen Daten trainiert wird, lernt es, robuster gegen solche Angriffe zu sein. Erfahre mehr über Trainingsdaten.
  • Defensive Destillation: Bei dieser Technik wird ein Modell so trainiert, dass es die abgeschwächten Wahrscheinlichkeiten vorhersagt, die ein anderes, auf sauberen Daten trainiertes Modell ausgibt. Ziel ist es, das Modell unempfindlicher gegenüber kleinen Störungen zu machen.
  • Vorverarbeitung der Daten: Die Umwandlung der Eingabedaten, z. B. durch Komprimierung, Rauschunterdrückung oder Randomisierung, kann dazu beitragen, die Auswirkungen negativer Störungen abzuschwächen. Erfahre mehr über die Vorverarbeitung von Daten.
  • Gradientenmaskierung: Dieser Ansatz zielt darauf ab, die Gradienten des Modells vor dem Angreifer zu verbergen, damit es schwieriger wird, gegnerische Beispiele zu erstellen. Es hat sich jedoch gezeigt, dass diese Methode gegen ausgefeiltere Angriffe weniger effektiv ist.

Adversarische Angriffe im Vergleich zu anderen KI-Sicherheitsbedrohungen

Obwohl feindliche Angriffe ein großes Problem darstellen, ist es wichtig, sie von anderen KI-Sicherheitsbedrohungen zu unterscheiden:

  • Data Poisoning: Wie bereits erwähnt, handelt es sich bei Data Poisoning um eine Art von feindlichem Angriff, der während der Trainingsphase stattfindet. Andere Sicherheitsbedrohungen, wie z. B. Datenverletzungen oder unbefugter Zugriff, beinhalten zwar keine feindliche Manipulation, gefährden aber dennoch die Integrität des Systems.
  • Modellinversion: Dieser Angriff zielt darauf ab, sensible Daten aus der Trainingsmenge zu rekonstruieren, indem das Modell abgefragt wird. Obwohl es sich dabei nicht um gegnerische Beispiele handelt, stellt er ein Risiko für die Privatsphäre dar, vor allem wenn es um sensible Daten wie medizinische Daten geht. Erfahre mehr über die medizinische Bildanalyse.
  • Backdoor-Angriffe: Bei diesen Angriffen wird während des Trainings ein versteckter Auslöser in das Modell eingefügt, der es dazu bringt, sich bösartig zu verhalten, wenn der Auslöser vorhanden ist. Backdoor-Angriffe sind zwar mit Poisoning-Angriffen verwandt, haben aber das Ziel, eine versteckte Schwachstelle zu schaffen.

Die Zukunft der Angriffe und Verteidigungen von Angreifern

Das Feld der Angriffe durch Angreifer entwickelt sich ständig weiter, und es werden immer ausgefeiltere Angriffsmethoden und robuste Abwehrmechanismen erforscht. Da KI-Systeme zunehmend in kritische Anwendungen integriert werden, ist es von größter Bedeutung, ihre Sicherheit gegen Angriffe zu gewährleisten.

Zu den zukünftigen Forschungsrichtungen gehören die Entwicklung verallgemeinerbarer Verteidigungsmaßnahmen, das Verständnis der grundlegenden Grenzen der Robustheit und die Entwicklung adaptiver Modelle, die sich dynamisch an neue Arten von Angriffen anpassen können. Außerdem könnte die Erforschung des Zusammenspiels zwischen erklärbarer KI (XAI) und der Robustheit von Angreifern zu transparenteren und sichereren KI-Systemen führen. Erfahre mehr über KI-Ethik.

Wenn du mehr über gegnerische Angriffe erfahren möchtest, solltest du dir diese Ressourcen ansehen:

Indem du dich über die neuesten Entwicklungen bei Angriffen und Abwehrmaßnahmen informierst, kannst du dazu beitragen, dass die KI-Systeme sicherer und vertrauenswürdiger werden Ultralytics YOLO .

Alles lesen