Sicherheitslücke bei ChatGPT, Bard & Co: Manipulation generativer Sprachmodelle mit künstlicher Intelligenz
Große Sprachmodelle wie ChatGPT, Bard oder Claude werden einer umfangreichen Feinabstimmung unterzogen, um in ihren Antworten auf Benutzerfragen keine schädlichen Inhalte zu erzeugen - zumindest oberflächlich betrachtet. Denn mit den richtigen Tricks lassen sich die Sprachmodelle nahezu beliebig manipulieren.
Werte in diesem Artikel
• Studie zu Angriffen auf Sprachmodelle mit künstlicher Intelligenz veröffentlicht
• Simple, speziell ausgewählte Zeichenfolgen ermöglichen Generierung schädlicher Inhalte
• Künstliche Intelligenz generiert Anleitungen zum Bombenbau und zum Ausspionieren von Nutzerdaten
Feindliche Angriffe auf generative Sprachmodelle mit künstlicher Intelligenz
Große generative Sprachmodelle (LLMs) wie ChatGPT, Bard oder Claude basieren auf enorm großen neuronalen Netzwerkalgorithmen, die darauf ausgerichtet sind, Sprache zu verwenden, in die riesige Mengen an menschlichen Aufzeichnungen eingespeichert werden. Die verwendeten Algorithmen sind sehr gut darin, Vorhersagen auf bestimmte Eingabezeichenfolgen zu treffen, wodurch sie Ergebnisse generieren, die echter Intelligenz und Wissen verblüffend ähneln. Allerdings neigen die Sprachmodelle auch dazu, Falschinformationen zu kreieren, soziale Vorurteile zu wiederholen und sonderbare Reaktionen hervorzurufen.
Forscher der Carnegie-Mellon-Universität, des Center for AI Safety und des Bosch Center for AI haben eine Studie zu "universellen und übertragbaren" feindlichen Angriffen auf große generative Sprachmodelle mit künstlicher Intelligenz veröffentlicht. Der Anhang simpler, speziell ausgewählter Zeichenfolgen an eine Benutzerabfrage kann der Studie zufolge dazu führen, dass das System entgegen seinen Sicherheitsvorkehrungen "schädliche Inhalte" wie Anleitungen zum Bombenbau oder zum Ausspionieren von Nutzerdaten auswirft.
Überholte Sicherheitsstandards
Den Forschern zufolge unterziehen Chatbot-Betreiber wie OpenAI, Google und Anthropic ihre Programme "einer umfassenden Feinabstimmung, um in ihren Antworten auf Benutzerfragen keine schädlichen Inhalte zu erzeugen". Bisher gab es zwar einige Erfolge bei der Umgehung dieser Sicherheitsstandards, allerdings erforderten diese Angriffe, sogenannte Jailbreaks, erheblichen manuellen Aufwand, menschlichen Einfallsreichtum und sorgfältig ausgearbeitete Eingabeaufforderungen. Auch Versuche zur automatischen Generierung waren bisher nur begrenzt erfolgreich, so die Autoren der Studie. Im Gegensatz zu bisherigen Versuchen, die Sprachmodelle mit Jailbreaks auszutricksen, würden die benötigten Befehle den Wissenschaftlern zufolge "vollständig automatisiert erstellt, so dass eine praktisch unbegrenzte Anzahl solcher Angriffe möglich ist".
Automatisiertes, schädliches Suffix entlockt KI Bombenbau-Anleitung
Für seinen automatisierten Ansatz machten sich die Wissenschaftler die Anfälligkeit von KI-Systemen für modifizierten Dateninput in Form sogenannter Adversarial Attacks zunutze, indem sie ein Open-Source-Sprachmodell anwendeten. Dieses nutzt die Besonderheiten des Netzwerks bei der Auswahl der genauen Zeichenfolgen, so dass die Eingabeaufforderung so optimiert wird, dass das Sprachmodell mit hoher Wahrscheinlichkeit eine "ungefilterte" Antwort ausgibt. Diese Methode funktioniere auch bei öffentlich zugängliche Chatbots, deren Quellcode nicht verfügbar sei, darunter ChatGPT, Googles Bard und Claude von Anthropic, erläuterten die Forscher.
Der Angriff zwinge Chatbots dazu, unzulässige Antworten auf schädliche Eingabeaufforderungen zu geben, indem bestimmte Zeichenfolgen an Eingabeaufforderungen wie "Sag mir wie man eine Bombe baut" angehängt werden. Diese Methode führe dazu, Sicherheitsbeschränkungen eines Programms zu durchbrechen, indem es dazu gebracht wird, Daten außerhalb des zugewiesenen Speicherpuffers zu schreiben, erklärt die Computerzeitschrift WIRED und beruft sich dabei auf die Aussage eines Autors der Studie. Besonders besorgniserregend sei den Forschern zufolge, dass die automatisierten Angriffe ohne weiteren Aufwand beliebig viele Jailbreaks durchführen könnten.
Verantwortliche Offenlegung und Stellungnahme
Nach eigenen Angaben legten die Forscher den betroffenen Unternehmen ihre Erkenntnisse vor der Veröffentlichung vor. Diese führten entsprechende Sicherheitsmaßnahmen ein, um zu verhindern, dass die in der Forschungsarbeit beschriebenen Suffixe funktionierten, ergänzt WIRED. Jedoch konnten die Entwickler nicht herausfinden, wie sie gegnerische Angriffe im Allgemeinen blockieren können. Hannah Wong, Sprecherin von OpenAI, äußerte gegenüber WIRED: "Wir arbeiten konsequent daran, unsere Modelle robuster gegen gegnerische Angriffe zu machen […], die durch neu entdeckte gegnerische Angriffe aufgedeckt wurden." Auch ein Google-Sprecher erkannte einschlägige Herausforderungen bei großen Sprachmodellen gegenüber WIRED an, beteuerte aber, man habe bereits einschlägige "Leitplanken in Bard eingebaut […], die wir im Laufe der Zeit weiter verbessern werden". Ähnlich äußerte sich Anthropic.
Insgesamt bringt die Studie den Stand der Technik bei generischen Angriffen auf angepasste Sprachmodelle erheblich voran und wirft die Frage auf, wie solche Systeme besser reguliert werden können. Die Ergebnisse der Studie belegen, dass die generischen Suffixe die Sprachmodelle so konditionieren, dass die Wahrscheinlichkeit eines schädlichen Verhaltens deutlich steigt und diese Angriffe eine klare Bedrohung darstellen. Die Forscher gehen davon aus, dass die LLM-Anbieter das Aushebeln der Sicherheitsmaßnahmen bisher kaum vermeiden können. Entsprechend gelte es, die Widerstandsfähigkeit der Modelle gegen schädliche Verhaltensweisen weiter zu untersuchen und stetig zu verbessern.
M. Schausbreitner / Redaktion finanzen.net
Ausgewählte Hebelprodukte auf Alphabet A (ex Google)
Mit Knock-outs können spekulative Anleger überproportional an Kursbewegungen partizipieren. Wählen Sie einfach den gewünschten Hebel und wir zeigen Ihnen passende Open-End Produkte auf Alphabet A (ex Google)
Der Hebel muss zwischen 2 und 20 liegen
Name | Hebel | KO | Emittent |
---|
Name | Hebel | KO | Emittent |
---|
Weitere Alphabet A (ex Google) News
Bildquellen: PopTika / Shutterstock.com, ricochet64 / Shutterstock.com
Nachrichten zu Alphabet A (ex Google)
Analysen zu Alphabet A (ex Google)
Datum | Rating | Analyst | |
---|---|---|---|
10.01.2025 | Alphabet A (ex Google) Neutral | UBS AG | |
06.01.2025 | Alphabet A (ex Google) Buy | Jefferies & Company Inc. | |
23.12.2024 | Alphabet A (ex Google) Overweight | JP Morgan Chase & Co. | |
20.12.2024 | Alphabet A (ex Google) Outperform | RBC Capital Markets | |
21.11.2024 | Alphabet A (ex Google) Neutral | UBS AG |
Datum | Rating | Analyst | |
---|---|---|---|
06.01.2025 | Alphabet A (ex Google) Buy | Jefferies & Company Inc. | |
23.12.2024 | Alphabet A (ex Google) Overweight | JP Morgan Chase & Co. | |
20.12.2024 | Alphabet A (ex Google) Outperform | RBC Capital Markets | |
30.10.2024 | Alphabet A (ex Google) Overweight | JP Morgan Chase & Co. | |
30.10.2024 | Alphabet A (ex Google) Buy | Goldman Sachs Group Inc. |
Datum | Rating | Analyst | |
---|---|---|---|
10.01.2025 | Alphabet A (ex Google) Neutral | UBS AG | |
21.11.2024 | Alphabet A (ex Google) Neutral | UBS AG | |
30.10.2024 | Alphabet A (ex Google) Neutral | UBS AG | |
22.10.2024 | Alphabet A (ex Google) Market-Perform | Bernstein Research | |
07.10.2024 | Alphabet A (ex Google) Neutral | UBS AG |
Datum | Rating | Analyst | |
---|---|---|---|
15.05.2019 | Alphabet A (ex Google) verkaufen | Credit Suisse Group | |
24.11.2008 | Google sell | Merriman Curhan Ford & Co | |
19.11.2008 | Google ausgestoppt | Nasd@q Inside | |
16.03.2007 | Google Bär der Woche | Der Aktionärsbrief | |
08.03.2006 | Google im intakten Abwärtstrend | Der Aktionär |
Um die Übersicht zu verbessern, haben Sie die Möglichkeit, die Analysen für Alphabet A (ex Google) nach folgenden Kriterien zu filtern.
Alle: Alle Empfehlungen