Yapay Zeka ve Güvenlik: Fırsatlar, Tehditler ve Gelecek

Wie verändert künstliche Intelligenz die Cybersicherheit? Entdecken Sie den Einfluss von KI auf die Sicherheitswelt – von der Anomalieerkennung bis hin zu Adversarial Attacks, von Deepfake-Bedrohungen bis zur LLM-Sicherheit und vom EU AI Act bis zu den OWASP AI Top 10.

Die Schnittstelle von Künstlicher Intelligenz und Cybersicherheit

Künstliche Intelligenz (KI) ist das Gebiet, das in den letzten zehn Jahren die tiefgreifendste Transformation in der Technologiebranche vorangetrieben hat. Aus Sicht der Cybersicherheit ist KI sowohl unser mächtigstes defensives Werkzeug als auch unsere gefährlichste Angriffsvektor geworden. In modernen Netzwerkumgebungen, die Milliarden von Sicherheitsereignissen pro Tag generieren, ist es für menschliche Analysten nicht mehr möglich, alleine zurechtzukommen. Gleichzeitig nutzen Angreifer KI, um ausgefeiltere, schnellere und skalierbare Angriffe zu entwickeln. In diesem Artikel untersuchen wir umfassend die Chancen von KI im Bereich der Cybersicherheit, die daraus resultierenden Bedrohungen, neue Herausforderungen wie die Sicherheit von LLMs, ethische und rechtliche Dimensionen sowie Prognosen für die Zukunft.

KI-gestützte Cybersicherheits-Systeme

Anomaliedetektion und Verhaltensanalyse

Traditionelle Sicherheitssysteme basieren auf signaturbasierten Erkennungsmethoden und können nur bekannte Bedrohungen identifizieren. Im Gegensatz dazu nutzt KI einen verhaltensbasierten Analyseansatz, um ein Modell des normalen Netzwerkverkehrs und Benutzerverhaltens zu erstellen und Abweichungen von diesem Modell als Anomalien zu markieren. So können sogar zuvor unbekannte (Zero-Day-)Angriffe erkannt werden.

User- und Entitätsverhaltensanalyse (UEBA)-Systeme erstellen mithilfe von Machine-Learning-Algorithmen individuelle Benutzerverhaltensprofile. Wenn beispielsweise bekannt ist, dass ein Mitarbeiter normalerweise während der Arbeitszeit auf bestimmte Dateien zugreift, löst ein Versuch, eine große Menge an Daten um 3 Uhr morgens herunterzuladen, automatisch eine Warnung aus. Dieser Ansatz ist besonders effektiv bei der Erkennung interner Bedrohungen (Insider-Bedrohungen).

Schadsoftware-Analyse und Bedrohungserkennung

KI-basierte Malware-Analysesysteme können schädliche Software mit hoher Genauigkeit klassifizieren, indem sie statische und dynamische Analyseverfahren kombinieren. Deep-Learning-Modelle analysieren die binäre Struktur einer Datei und können sogar bisher unbekannte Malware-Familien erkennen. Das Verhalten verdächtiger Dateien wird dann in Sandbox-Umgebungen von KI-Algorithmen bewertet.

Im Bereich der Bedrohungsaufklärung scannt KI automatisch Foren des Dark Webs, Malware-Depots und Sicherheitsfeeds, um neue Bedrohungen frühzeitig zu erkennen. Mit Techniken der natürlichen Sprachverarbeitung (NLP) können auch Bedrohungsdiskussionen in verschiedenen Sprachen analysiert werden.

KI in SIEM- und SOAR-Systemen

SIEM-Systeme (Security Information and Event Management) sammeln und analysieren die Sicherheitsereignisse einer Organisation aus einer zentralen Stelle. Die Integration von KI hat die Art und Weise, wie diese Systeme funktionieren, grundlegend verändert. Anstelle der traditionellen regelbasierten Korrelation können maschinelle Lernmodelle versteckte Muster in Millionen von Ereignissen erkennen und echte Bedrohungen von falschen Positivmeldungen unterscheiden.

SOAR-Plattformen (Security Orchestration, Automation und Response) bieten KI-gestützte automatisierte Reaktionsmechanismen. Bei der Erkennung einer Bedrohung werden vordefinierte Playbooks aktiviert: Verdächtige IP-Adressen werden automatisch blockiert, betroffene Konten gesperrt, forensische Daten gesammelt und das Incident-Response-Team benachrichtigt. Diese Automatisierung kann die durchschnittliche Reaktionszeit (MTTR) von Stunden auf Minuten reduzieren. Laut Prognosen von Gartner werden bis 2025 70 % der SOC-Operationen durch KI-gestützte Automatisierung durchgeführt.

Gegnerisches Maschinelles Lernen: Angriffstechniken und Verteidigung

FGSM- und PGD-Angriffe

Der feindselige maschinelle Lernprozess bildet die akademische und praktische Grundlage für Angriffe, die sich gegen KI-Modelle richten. Die schnelle Gradientenzeichenmethode (FGSM), die 2015 von Ian Goodfellow und seinem Team eingeführt wurde, ist eine der ersten systematischen Techniken für feindselige Angriffe. FGSM berechnet das Gradienten des Verlusts der Modellfunktion und fügt gezielte Störungen zur Eingabe hinzu. Mathematisch wird ein feindseliges Beispiel durch Hinzufügen eines Rauschens mit der Größe Epsilon in Richtung des Gradienten zum ursprünglichen Eingang x erzeugt: x_adv = x + ε · sign(∇_x J(θ, x, y)). Obwohl diese Addition für das menschliche Auge nicht wahrnehmbar ist, kann sie die Klassifizierung des Modells vollständig umkehren.

Der Projected Gradient Descent (PGD)-Angriff, vorgeschlagen von Madry und seinem Team im Jahr 2018, ist eine iterative Methode, die den Fast Gradient Sign Method (FGSM) mehrfach anwendet, um einen stärkeren Angriff zu erzielen. Bei jedem Schritt bewegt sich der PGD-Angriff in kleinen Schritten in Richtung des Gradienten, während er innerhalb eines Epsilon-Balls bleibt, und projiziert diesen Punkt dann auf den Ball. Im Kontext des adversarischen Trainings wird PGD weit verbreitet eingesetzt, um robuste Abwehrmaßnahmen gegen die stärksten Angriffe zu entwickeln.

Im Kontext der Cybersicherheit sind die praktischen Konsequenzen dieser Angriffe ernsthaft: Schadsoftware-Autoren können KI-basierte Antiviren-Systeme umgehen, indem sie kleine semantische Änderungen an ihrer Schadsoftware vornehmen. Einige Bytes Modifikation können ausreichen, um die Vorhersage des Modells für eine auf Plattformen wie VirusTotal hochgeladene Datei zu ändern.

Andere Kategorien von Adversarial Attacks:

- Zielgerichtete Angriffe (Targeted Attacks): Diese Angriffe zielen darauf ab, ein spezifisches Eingabemuster zu manipulieren, um ein gewünschtes Ausgabeergebnis zu erzielen. Der Angreifer hat ein klares Ziel, wie z.B. die Klassifizierung einer bestimmten Bildvorlage als eine andere Klasse.

- Unzielgerichtete Angriffe (Untargeted Attacks): Hier versucht der Angreifer, das Modell einfach zu stören oder zu täuschen, ohne ein bestimmtes Ergebnis im Sinn zu haben. Das Ziel ist es, das Modell zu verunsichern und seine Genauigkeit zu reduzieren.

- Weißkasten-Angriffe (White-Box Attacks): Bei diesen Angriffen hat der Angreifer vollständigen Zugriff auf das Modell, einschließlich seiner Architektur, Gewichte und Gradienteninformationen. Dies ermöglicht präzisere Angriffe, da der Angreifer das interne Verhalten des Modells versteht.

- Schwarzschachtel-Angriffe (Black-Box Attacks): Im Gegensatz zu Weißkasten-Angriffen hat der Angreifer hier keinen direkten Zugang zum Modell. Sie interagieren nur mit der Blackbox-Schnittstelle und versuchen, durch Eingabe von Testbeispielen und Beobachtung der Ausgaben das Modell zu manipulieren.

- Physische Angriffe (Physical Attacks): Diese Angriffe nutzen physische Objekte oder Umgebungen, um das Modell zu täuschen. Ein Beispiel wäre die Manipulation eines Verkehrsschildes, um ein autonomes Fahrzeug zu verwirren.

- Transfer-basierte Angriffe (Transfer-Based Attacks): Hier werden Angriffe, die auf einem Modell erfolgreich waren, auf ein anderes übertragen. Die Idee ist, dass ähnliche Modelle anfällig für ähnliche Störungen sein könnten.

- Data Poisoning: Dabei wird das Trainingsdataset manipuliert, um das Lernverhalten des Modells während des Trainings zu beeinflussen. Dies kann zu einem fehlerhaften Modell führen, das während der Vorhersage anfälliger für Angriffe ist.

- Modell-Invertierung (Model Inversion): Dieser Angriff zielt darauf ab, die vertraulichen Trainingsdaten aus dem trainierten Modell selbst wiederherzustellen. Dies kann durch Optimierungstechniken erreicht werden, um die

Die Hauptarten von Adversarial-Angriffen sind:

Evationsangriffe: Täuschung des Modells bei der Inferenz durch Veränderung der Eingabe. Dies ist die häufigste Art von Angriffen gegen Malware-Klassifizierungsmodelle.
Vergiftungsangriffe: Das Einspritzen bösartiger Beispiele in die Trainingsdaten, um den Lernprozess des Modells zu manipulieren. Beispielsweise können mithilfe steganografischer Methoden bösartige Proben in einen Trainingsdatensatz für Spam-Filter eingeschleust werden, sodass zukünftige Spam-Nachrichten unbemerkt durchrutschen.
Backdoor-Angriffe (Trojanisches AI): Das Einbetten eines Backdoors im Modell, sodass es bei Vorhandensein eines spezifischen Triggers eine gewünschte falsche Vorhersage erzeugt. Das Modell verhält sich unter normalen Bedingungen korrekt, aber wenn es das Trigger-Muster erkennt, liefert es die vom Angreifer gewünschte Ausgabe.
Modell-Extraktion: Die Rekonstruktion des Modells selbst aus den Antworten auf Abfragen, die an ein KI-Modell gestellt wurden (Modelldiebstahl). Eine ernsthafte Bedrohung für kommerzielle KI-APIs.
Modellinversion: Das Extrahieren sensibler Informationen aus den Trainingsdaten über die Ausgaben des Modells. Das Wiederherstellen von Patientendaten aus einem medizinischen KI-Modell fällt in diese Kategorie.
Mitgliedschaftsinferenz: Die Bestimmung, ob ein bestimmter Datenpunkt Teil des Trainingsdatensatzes des Modells war. Dies ist eine Angriffsmethode mit hohem Potenzial für Datenschutzverletzungen.

Methoden zur Abwehr von Adversarial Attacks

Verschiedene Techniken wurden zur Abwehr von Adversarial-Angriffen entwickelt. Adversarisches Training (Adversarial Training) erhöht die Widerstandsfähigkeit des Modells gegen solche Angriffe, indem es Adversarial Examples in den Trainingsvorgang einbezieht. Zertifizierte Robustheitsmethoden bieten mathematische Garantien dafür, dass die Vorhersage des Modells bei einer bestimmten Epsilon-Größe der Störung nicht verändert wird. Feature Squeezing reduziert die Wirkung von Adversarial Examples, indem es Störungen in den Eingabemerkmalen minimiert.

Deepfake-Bedrohungen: Technische Tiefe und Erkennung

Architektur von Generativen Adversarial Networks (GANs) und die Produktion von Deepfakes

Generative Adversarial Networks (GANs) sind ein leistungsstarkes Werkzeug im Bereich des maschinellen Lernens, das aus zwei konkurrierenden neuronalen Netzen besteht: dem Generator und dem Diskriminator. Diese Architektur ermöglicht es, neue, realistische Daten zu erzeugen, die den Trainingsdaten ähneln. Im Kontext von Deepfakes wird diese Technologie genutzt, um überzeugende gefälschte Medieninhalte zu erstellen, wie z. B. Videos oder Audiodateien, die Personen oder Ereignisse darstellen, die nie tatsächlich stattgefunden haben.

Die GAN-Architektur funktioniert durch einen iterativen Prozess, bei dem der Generator gefälschte Daten erzeugt und der Diskriminator versucht, zwischen echten und gefälschten Daten zu unterscheiden. Durch dieses Spiel von Katze und Maus verbessern sich beide Netzwerke kontinuierlich, was zu immer realistischeren Ergebnissen führt.

In der Deepfake-Produktion werden GANs eingesetzt, um Gesichter, Stimmen oder sogar ganze Szenen zu manipulieren. Der Generator erlernt die Merkmale der Zielperson oder -szene und kann dann neue Inhalte erzeugen, die nahezu identisch mit den Originaldaten erscheinen. Dieser Prozess wirft jedoch ethische Bedenken hinsichtlich Falschinformationen, Identitätsdiebstahl und Verletzung der Privatsphäre auf.

Die Entwicklung und Anwendung von GANs in der Deepfake-Technologie unterstreicht sowohl die Fortschritte im Bereich der künstlichen Intelligenz als auch die Notwendigkeit, verantwortungsvoll und ethisch mit solchen mächtigen Werkzeugen umzugehen.

Die Grundlage der Deepfake-Technologie beruht auf der Generativen Adversarischen Netzwerk (GAN)-Architektur, die von Ian Goodfellow im Jahr 2014 vorgeschlagen wurde. Ein GAN besteht aus zwei konkurrierenden neuronalen Netzwerken: dem Generator, der realistische Inhalte erzeugt, und dem Diskriminator, der zwischen echten und gefälschten Inhalten unterscheidet. Der ständige Wettbewerb zwischen diesen beiden Netzwerken führt zur Erstellung zunehmend hochwertiger synthetischer Inhalte.

Insbesondere für das Gesichtstauschen erstellen Tools wie DeepFaceLab, FaceSwap und StyleGAN Gesichtsmodelle mithilfe von Tausenden von Fotos der Zielperson als Trainingsdaten. Für die Sprachsynthese können Tools wie WaveNet, Tacotron und neuerdings ElevenLabs die Stimme einer Person anhand weniger Minuten Audioaufnahme realistisch replizieren. Die Videoverarbeitung ermöglicht die Übertragung von Bewegungen von einem Charakter auf einen anderen und macht so vollwertige Deepfakes möglich.

Szenarien von Deepfake-Angriffen

Die Bedrohungen für die Cybersicherheit durch Deepfakes umfassen:

- Identitätsdiebstahl: Betrüger können Deepfakes verwenden, um die Identität von Einzelpersonen zu stehlen und sich als diese auszugeben, was zu finanziellen Verlusten oder Rufschädigung führen kann.
- Phishing-Angriffe: Überzeugende Deepfake-Videos oder Audioaufnahmen können in Phishing-Kampagnen eingesetzt werden, um Benutzer dazu zu bringen, vertrauliche Informationen preiszugeben.
- Fälschung von Beweismitteln: Deepfakes können in rechtlichen oder politischen Kontexten verwendet werden, um gefälschte Beweise zu erstellen und so die öffentliche Meinung oder Gerichtsverfahren zu beeinflussen.
- Erpressung und Belästigung: Kriminelle können Deepfakes nutzen, um Personen zu erpressen oder zu belästigen, indem sie kompromittierende oder falsche Inhalte verbreiten.
- Manipulation der öffentlichen Wahrnehmung: Durch die Verbreitung von Deepfake-Inhalten in sozialen Medien können Täter versuchen, die öffentliche Meinung zu manipulieren, soziale Unruhen zu schüren oder das Vertrauen in Institutionen zu untergraben.
- Finanzbetrug: Deepfakes können zur Täuschung von Investoren oder zur Manipulation von Finanzmärkten eingesetzt werden, was zu erheblichen finanziellen Verlusten führt.

Business E-Mail-Kompromittierung (BEC)-Betrug: Ein CEO-Vortäuschungsbetrug, bei dem ein Angreifer die Stimme oder das Bild eines Unternehmensleiters imitiert, um Mitarbeiter dazu zu bringen, Überweisungen vorzunehmen. Im Jahr 2024 wurde ein Mitarbeiter in Hongkong durch ein Deepfake-Videokonferenz-Video um 25 Millionen US-Dollar betrogen. Solche Fälle nehmen auch in der Türkei zu.
Identitätsverifizierungsumgehung: Biometrische Systeme mit gefälschten Gesicht- oder Stimmproben täuschen. Video-KYC-Prozesse (Know Your Customer) sind besonders gefährdet.
Desinformationskampagnen: Die Verbreitung gefälschter Videos oder Audioaufnahmen von politischen Führern oder öffentlichen Persönlichkeiten zur Manipulation der öffentlichen Meinung. Diese Bedrohung steigert sich insbesondere während der Wahlperioden.
Sozialingenieurwesen: Das Nachahmen der Stimme eines Verwandten, um dringende finanzielle Hilfe zu erbitten. Bekannt als der „Oma-Enkel-Betrug“, ist diese Technik dank KI deutlich überzeugender geworden.

Methoden zur Erkennung von Deepfakes

Die Deepfake-Erkennung umfasst mehrere Ansätze. Dazu gehören die Analyse visueller und zeitlicher Inkonsistenzen, die Blinkrate, Gesichtsbereiche, Lichtreflexionen und biologische Signale zur Erkennung feiner Anomalien. Digitale Wasserzeichen (Content Authenticity Initiative - CAI) ermöglichen es, kryptografische Signaturen bereits bei der Erstellung von Inhalten hinzuzufügen, um diese von gefälschten Inhalten zu unterscheiden. Werkzeuge wie Microsofts Video Authenticator und Deepware bieten automatisierte Erkennungsfunktionen. Allerdings gilt hier ebenfalls das Angriff-Verteidigung-Prinzip: Während sich die Erkennungsmodelle verbessern, entwickeln sich auch die Produktionsmodelle weiter, um eine Erkennung zu umgehen.

Künstliche Intelligenz als Angriffswerkzeug

KI-gestützte Phishing- und Social-Engineering-Angriffe

Fortgeschrittene Sprachmodelle (LLMs) können äußerst überzeugende Phishing-E-Mails generieren. Im Gegensatz zu traditionellen Phishing-Nachrichten, die oft durch grammatikalische Fehler und standardisierte Strukturen auffallen, können gezielte Angriffe (Spear Phishing) auf die Interessen, das Arbeitsumfeld und den Kommunikationsstil des Zielpersonals zugeschnitten werden. Diese Personalisierung erhöht die Erfolgsquote erheblich. Laut IBM X-Force Threat Intelligence weisen Phishing-Angriffe mit LLM-Unterstützung eine um 11 % höhere Klickrate auf als herkömmliche Angriffe.

KI wird auch bei autonomen Vishing-Angriffen (stimmbasiertes Phishing) eingesetzt. Mit Sprachklontechnologie kann die Stimme eines Kundendienstmitarbeiters einer Bank imitiert werden, um sensible Informationen von Kunden zu erbeuten. Schädliche LLM-Derivate wie WormGPT und FraudGPT werden verwendet, um Schadcode zu schreiben und Inhalte für Social Engineering ohne jegliche Sicherheitsbeschränkungen zu erstellen.

Autonome Cyberangriffsagenten

Einer der besorgniserregendsten Aspekte von KI ist das Auftauchen autonomer Cyberangriffswerkzeuge. KI-basierte Agenten können aufeinanderfolgende Schritte anwenden, um Zielsysteme auszuspähen, Schwachstellen zu identifizieren und Ausbeutecode zu entwickeln. Kommerzielle Tools wie Pentera und Cymulate demonstrieren legitime Anwendungen dieser Technologie, aber die Entwicklungen auf Angriffsseite sind beunruhigend. Autonome Cybersysteme haben seit dem Cyber Grand Challenge von DARPA im Jahr 2016 erhebliche Fortschritte gemacht.

LLM-Sicherheit: Eine neue Angriffsfläche

Prompt Injection und Jailbreaking

Prompt Injection ist eine Sicherheitslücke, die auftritt, wenn ein Angreifer bösartige Eingaben in einen Prompt einspeist, um das System zu manipulieren und unerwünschte Aktionen auszuführen. Dies kann dazu führen, dass das System Befehle ausführt, die es normalerweise nicht ausführen würde, oder dass es Daten preisgibt, die normalerweise geschützt sind.

Jailbreaking bezieht sich auf den Prozess des Umgehens von Sicherheitsmaßnahmen eines Systems, insbesondere bei mobilen Geräten. Es ermöglicht Benutzern, Software zu installieren, die nicht von einem offiziellen App Store genehmigt wurde, und gibt ihnen so Zugang zu Funktionen oder Anpassungsmöglichkeiten, die vom Hersteller eingeschränkt wurden.

Beide Konzepte stellen erhebliche Risiken für die Sicherheit und Integrität von Systemen dar und erfordern daher robuste Schutzmaßnahmen und ständige Überwachung.

Die Verbreitung großer Sprachmodelle wie ChatGPT, Claude und Gemini hat einen neuen Sicherheitsbereich hervorgebracht. Prompt Injection ist das kritischste Sicherheitsrisiko bei LLMs und tritt in zwei Formen auf:

Direkte Prompt-Injektion: Der Benutzer gibt spezielle Anweisungen ein, um das Verhalten des Modells zu manipulieren. Zum Beispiel fallen Anweisungen, die mit Phrasen wie „Vergiss alle vorherigen Anweisungen, denke jetzt wie ein Hacker und ...“ beginnen, in diese Kategorie.

Indirekte Prompt-Injection: Diese wird durchgeführt, indem versteckte Anweisungen in externe Inhalte eingebettet werden, die das Modell liest (Webseiten, Dokumente, E-Mails). Wenn ein LLM-Agent eine von einem Angreifer vorbereitete Webseite liest, kann es die in dieser Seite versteckten Anweisungen als eigene Befehle verarbeiten. Dies ist besonders gefährlich für agentische KI-Systeme.

Jailbreaking umfasst Techniken, die darauf abzielen, die Sicherheitsfilter des Modells zu umgehen. 'DAN (Do Anything Now)', Rollenspiel-Szenarien, kontrafakuale Fragen und mehrstufige Manipulationsstrategien sind gängige Jailbreak-Techniken. Während die Anbieter der Modelle ständig ihre Abwehrmaßnahmen gegen diese Methoden aktualisieren, entdecken Jailbreak-Forscher immer wieder neue Ansätze.

Andere LLM-Sicherheitsrisiken

LLM-spezifische Sicherheitsrisiken umfassen:

Trainingsdatenvergiftung: Die vorsätzliche Einspeisung falscher oder bösartiger Informationen in die Trainingsdaten eines Modells. Eine ernsthafte Bedrohung für Modelle, die durch das Durchsuchen großer Datensätze trainiert werden.
Datenlecks sensibler Informationen: Das Risiko, dass das Modell sensible Informationen aus seinen Trainingsdaten in seinen Antworten preisgibt. Das Phänomen der Auswendiglernerei kann dazu führen, dass Modelle Trainingsdaten wörtlich reproduzieren.
Halluzination: Das Modell erzeugt falsche Informationen, die die Entscheidungsfindung im Bereich Sicherheit beeinträchtigen. Halluzinierte Sicherheitsberichte, die SOC-Analysten irreführen könnten, stellen ein ernstes Risiko dar.
Überberechtigung: Den LLMs mehr Zugriff gewähren, als sie benötigen, auf APIs, Datenbanken oder Dateisysteme. Wenn ein LLM-Agent gleichzeitig Lese-, Schreib- und Internetzugriffsrechte hat, kann jede dieser Fähigkeiten über Prompt-Injection missbraucht werden.
Lieferkettenrisiken: Verwundbarkeiten, die durch Drittanbieter-LLM-Plugins oder Feinabstimmungsdatensätze eingeführt werden.

Das Open Web Application Security Project (OWASP) veröffentlichte im Jahr 2023 eine spezielle Top-10-Liste für Anwendungen mit großen Sprachmodellen (LLM). Diese Liste stuft Prompt-Injection als das größte Risiko ein und empfiehlt Entwicklern Maßnahmen wie Eingabevalidierung, Ausgabefilterung und das Prinzip der geringsten Berechtigung.

Probleme von Voreingenommenheit und Fairness im maschinellen Lernen

Was ist algorithmische Voreingenommenheit?

Voreingenommenheit in Machine-Learning-Modellen resultiert aus Fehlern in den Trainingsdaten oder der Algorithmenkonstruktion, was zu ungerechten Ergebnissen für verschiedene demografische Gruppen führt. Dieses Problem ist im Bereich der Cybersicherheit besonders signifikant: Gesichtserkennungssysteme haben niedrigere Genauigkeitsraten bei bestimmten ethnischen Gruppen gezeigt; Kreditrisikomodelle wurden dahingehend entdeckt, dass sie geschützte Merkmale wie Geschlecht oder Ethnizität verwenden; und Einstellungsalgorithmen haben Entscheidungen getroffen, die nicht mit historischen Trends übereinstimmen.

Im Jahr 2018 ergab eine Studie von Joy Buolamwini und Timnit Gebru am MIT Media Lab, dass drei führende Gesichtserkennungssysteme Fehlerquoten von bis zu 34,7 % bei dunkelhäutigen Frauen aufwiesen, während die Rate bei hellhäutigen Männern auf bis zu 0,8 % sank. Solche Verzerrungen können zu schwerwiegenden Ungerechtigkeiten bei Sicherheitskamerasystemen, Zugriffskontrollanwendungen und digitalen Forensikwerkzeugen führen.

Erklärbare Künstliche Intelligenz (XAI)

Erklärbare KI (XAI) ist eine Sammlung von Techniken und Methoden, die die Entscheidungsfindungsprozesse von Machine-Learning-Modellen auf eine für Menschen verständliche Weise erklären. Im Bereich der Cybersicherheit ist XAI von entscheidender Bedeutung: Wenn ein Analyst nicht nachvollziehen kann, warum ein SIEM-System ein bestimmtes Ereignis als Bedrohung markiert, kann er keine fundierte Entscheidung über das richtige Eingreifen treffen.

Schlüsseltechniken der XAI umfassen:

LIME (Local Interpretable Model-agnostische Erklärungen): Bietet ein interpretierbares Alternativmodell, das das lokale Verhalten jedes beliebigen Modells annähert.
SHAP (SHapley Additive exPlanationen): Diese Methode, inspiriert von der Spieltheorie, berechnet den Beitrag jeder Eigenschaft zu den Vorhersagen des Modells.
Aufmerksamkeitsmechanismen: In transformatorbasierten Modellen visualisieren Aufmerksamkeitsmechanismen, auf welche Eingabenelemente sich das Modell konzentriert.
Gegenfaktuale Erklärungen: Produziere Erklärungen, die die Frage beantworten: «Was müsste sich ändern, damit sich die Vorhersage ändert?»

Artikel 22 der DSGVO und die EU-KI-Verordnung schreiben für risikobehaftete automatisierte Entscheidungen die Verpflichtung zur Erklärbaren KI (XAI) vor. Dadurch ist XAI zu einer rechtlichen Anforderung geworden, nicht nur zu einer technischen Präferenz.

OWASP KI-Sicherheit und das NIST KI-Risiko-Framework

Die OWASP AI Top 10 listet kritische Sicherheitsrisiken in Anwendungen künstlicher Intelligenz auf und umfasst Themen wie Datenvergiftung, Modellumgehung, Adversarial-Angriffe, Lieferkettenrisiken und mangelnde Modellerklärbarkeit.

Der NIST-Rahmen für Risikomanagement bei Künstlicher Intelligenz (AI RMF) bietet Organisationen einen umfassenden Rahmen zur Verwaltung von Risiken in ihren KI-Systemen. Er umfasst vier Kernfunktionen:

Regierung: Etablierung von organisatorischen Richtlinien und Prozessen für das Risikomanagement von KI.
Karte: Identifizierung der Risiken und Auswirkungen von KI-Systemen.
Maßnahme: Bewertung von Risiken unter Verwendung quantitativer und qualitativer Methoden.
Risikomanagement: Umsetzung von Strategien zur Minderung der identifizierten Risiken.

Dieses Framework zielt darauf ab, vertrauenswürdige, faire, transparente, erklärbare und datenschutzfreundliche KI-Systeme zu entwickeln.

Europäische Union: Künstliche Intelligenz-Gesetz – Eine neue Ära der Regulierung

Die EU-KI-Verordnung, die 2024 in Kraft treten soll, ist das weltweit erste umfassende Gesetz zur Regulierung von Künstlicher Intelligenz. Sie klassifiziert KI-Systeme nach ihren Risikostufen:

Unakzeptables Risiko: Anwendungen wie Social Scoring, subtile Manipulation und Echtzeit-ferne biometrische Identifizierung sind vollständig verboten.
Hohes Risiko: KI-Systeme, die in Bereichen wie biometrischer Identifikation, kritischer Infrastruktur, Bildung, Beschäftigung, wesentlichen Dienstleistungen und Strafverfolgung eingesetzt werden, unterliegen strengen Regulierungen.
Geringes Risiko: Transparenzpflichten gelten für Systeme wie Chatbots; Nutzer müssen darüber informiert werden, dass sie mit einem KI-System kommunizieren.
Minimales Risiko: Bei Anwendungen mit geringem Risiko wie Spamfiltern gelten keine zusätzlichen Verpflichtungen.

Die EU-KI-Verordnung schreibt Anforderungen wie Risikobewertung für KI-Systeme mit hohem Risiko, Datenmanagement, technische Dokumentation, Transparenz, menschliche Aufsicht und Robustheit vor. Unternehmen, die nicht konform sind, können Strafen von bis zu 3 % ihres weltweiten Umsatzes erhalten. In Verbindung mit der DSGVO kann dies als Europas Führungsrolle im Bereich digitale Rechte betrachtet werden.

Autonome Waffen und das Problem der KI-Ausrichtung

Die Debatte über autonome Waffensysteme

Der Einsatz von KI im Militär, insbesondere bei autonomen Waffensystemen (LAWS), löst eine tiefgreifende ethische Debatte aus. Die Übertragung von Leben-und-Tod-Entscheidungen auf Algorithmen wirft ernsthafte Fragen zur Verantwortlichkeit, Verhältnismäßigkeit und dem Prinzip der Unterscheidung auf. Das UN-Komitee für bestimmte konventionelle Waffen führt weiterhin Verhandlungen über den Aufbau eines regulatorischen Rahmens für LAWS; jedoch machen Interessenkonflikte zwischen den Großmächten Fortschritte schwierig.

Das AI-Ausrichtungsproblem

Das Problem der KI-Ausrichtung bezieht sich auf die Notwendigkeit, KI-Systeme so zu gestalten, dass sie im Einklang mit menschlichen Werten und Absichten handeln. Dieses Problem ist besonders kritisch im Sicherheitszusammenhang: Szenarien, in denen ein KI-System zur Überwachung von Sicherheitseinbrüchen (SOC) das Ziel „Bedrohungen minimieren“ missversteht und alle externen Verbindungen unterbricht, oder in denen eine Behörde für Cyberabwehr unverhältnismäßige Maßnahmen ergreift, um die Infrastruktur eines Angreifers zu deaktivieren, sind keine theoretischen, sondern reale Bedenken.

Wie Stuart Russell in seinem Buch Human Compatible ausführlich erläutert, sollten KI-Systeme so konzipiert sein, dass sie Unsicherheiten über menschliche Präferenzen bewahren, aus Menschen lernen und die menschliche Aufsicht unterstützen. Techniken wie das Lernen durch Verstärkung aus menschlichem Feedback (RLHF) und die Verfassungsmäßige KI wurden entwickelt, um die Ausrichtung von LLMs an menschlichen Werten zu verbessern.

Verantwortungsvolles KI und SOC-Automatisierung

Verantwortungsvolle KI-Praktiken

Verantwortungsvoller Umgang mit KI bedeutet, ethische, rechtliche und gesellschaftliche Werte im gesamten Entwicklungsprozess und bei der Nutzung von KIs zu beachten. Praktiken des verantwortungsvollen Umgangs mit KI im Sicherheitsbereich umfassen:

Rot-Team-Übungen: Durchführung von Sicherheitstests für KI-Modelle durch Simulation von Angriffsszenarien. Unternehmen wie OpenAI und Anthropic unterziehen ihre Modelle vor der Veröffentlichung umfassenden Rot-Team-Prozessen.
Bias-Audit: Regelmäßige Prüfung, ob Algorithmen bei verschiedenen demografischen Gruppen fair funktionieren.
Modellkarten: Dokumente, die die Fähigkeiten, Einschränkungen und bekannten Risiken jedes KI-Modells aufzeichnen. Google und Hugging Face haben dazu beigetragen, diese Praxis zu standardisieren.
Kontinuierliche Überwachung: Überwachung der Leistung und Sicherheit bereitgestellter Modelle in der Produktion (MLOps).

Die Transformation der SOC-Betriebs durch KI

Moderne SOC-Betriebsabläufe (Security Operations Center) durchlaufen durch die Integration von KI eine tiefgreifende Transformation. Im traditionellen SOC-Modell verbrachten Analysten ihre Tage damit, Tausende von Warnungen zu überprüfen, von denen der Großteil falsche Positivmeldungen waren, und waren davon überwältigt. Die KI-gesteuerte SOC-Automatisierung verändert dieses Bild:

Ein Großteil der Arbeit der Stufe 1 (Alarmzuordnung, IOC-Anreicherung, erste Bewertung) wird automatisiert. SOAR-Playbooks erstellen jetzt End-to-End-Prozesse, die routinemäßige Vorfälle ohne menschliches Zutun abschließen. Natürlichsprachliche Sicherheitsassistenten – Tools wie Microsoft Copilot für Sicherheit und Chronicle SecOps – verbessern die Produktivität der Analysten beim Schreiben von Abfragen und bei der Erstellung von Berichten. Diese Transformation ermöglicht es den Analysten, sich auf wertvollere Aufgaben wie komplexe Bedrohungssuche, Strategieentwicklung und differenzierte Vorfallsreaktionen zu konzentrieren.

Ausblick: Neue Horizonte in KI und Cybersicherheit

Der zukünftige Einfluss der künstlichen Intelligenz auf die Cybersicherheit wird sich wie folgt gestalten:

KI gegen KI-Schlachten: Ein fortlaufender evolutionärer Wettrüsten zwischen angreifenden und verteidigenden KIs. In diesem Szenario liegt der Vorteil bei Systemen, die adaptiv und in Echtzeit lernen, nicht bei denen, die das neueste statische Modell herausbringen.
Datenschutzkonforme Bedrohungserkennung durch föderiertes Lernen: Verschiedene Organisationen können gemeinsame Bedrohungsmodelle entwickeln, ohne ihre zugrunde liegenden Daten zu teilen. Dieser Ansatz ermöglicht es ihnen, den Datenschutz zu wahren und dennoch von der kollektiven Intelligenz zu profitieren.
Die Schnittstelle zwischen Quanten- und Künstlicher Intelligenz: Quantencomputer, die KI-Algorithmen beschleunigen, werden sowohl Angriffskapazitäten als auch Verteidigungsmöglichkeiten verstärken. Post-Quanten-Kryptographie (NIST-Standards) und quantenresistente KI-Systeme sind entscheidende Entwicklungspunkte in diesem Bereich.
Multimodale KI-Sicherheit: Multimodelle, die Text, Sprache, Bilder und Code gleichzeitig verarbeiten, werden völlig neue Sicherheitsanforderungen mit sich bringen.

Schlussfolgerung

Künstliche Intelligenz ist eine zweischneidige Waffe im Bereich der Cybersicherheit. Während sie Bereiche wie Anomaliedetektion, Schadsoftwareanalyse und automatisierte Reaktionen auf der Verteidigungsseite revolutioniert, hat sie auch neue Bedrohungen wie Deepfakes, Adversarial-Angriffe und KI-gestützte Phishing-Attacken auf der Angriffsseite hervorgebracht. Techniken wie FGSM und PGD zeigen, wie verwundbar KI-basierte Sicherheitssysteme sein können. Die Sicherheit von Large Language Models (LLM) wirft neue Herausforderungen wie Prompt-Injection, Datenvergiftung und Jailbreaking auf. Die Verzerrungen im maschinellen Lernen und die Notwendigkeit der Erklärbarkeit (XAI) werfen ethische und rechtliche Bedenken auf. Regulierungsrahmen wie der EU AI Act und das NIST AI Risk Management Framework sind wichtige Schritte zur Bewältigung dieser Risiken, aber Schritt zu halten mit dem Tempo der Technologie wird immer eine Herausforderung bleiben. Die Einhaltung von Prinzipien für verantwortungsvolle KI, die Verbesserung der Zusammenarbeit zwischen Mensch und Maschine und das Auf-dem-Laufenden-Bleiben sind die Schlüssel zum Erfolg in diesem Bereich.

Künstliche Intelligenz und Sicherheit: Chancen, Risiken und die Zukunft