"Schädliche Inhalte"

Sicherheitslücke bei ChatGPT, Bard & Co: Manipulation generativer Sprachmodelle mit künstlicher Intelligenz

08.08.23 23:24 Uhr

Sicherheitslücke bei ChatGPT, Bard & Co: Manipulation generativer Sprachmodelle mit künstlicher Intelligenz | finanzen.net

Große Sprachmodelle wie ChatGPT, Bard oder Claude werden einer umfangreichen Feinabstimmung unterzogen, um in ihren Antworten auf Benutzerfragen keine schädlichen Inhalte zu erzeugen - zumindest oberflächlich betrachtet. Denn mit den richtigen Tricks lassen sich die Sprachmodelle nahezu beliebig manipulieren.

Werte in diesem Artikel

• Studie zu Angriffen auf Sprachmodelle mit künstlicher Intelligenz veröffentlicht
• Simple, speziell ausgewählte Zeichenfolgen ermöglichen Generierung schädlicher Inhalte
• Künstliche Intelligenz generiert Anleitungen zum Bombenbau und zum Ausspionieren von Nutzerdaten

Feindliche Angriffe auf generative Sprachmodelle mit künstlicher Intelligenz

Große generative Sprachmodelle (LLMs) wie ChatGPT, Bard oder Claude basieren auf enorm großen neuronalen Netzwerkalgorithmen, die darauf ausgerichtet sind, Sprache zu verwenden, in die riesige Mengen an menschlichen Aufzeichnungen eingespeichert werden. Die verwendeten Algorithmen sind sehr gut darin, Vorhersagen auf bestimmte Eingabezeichenfolgen zu treffen, wodurch sie Ergebnisse generieren, die echter Intelligenz und Wissen verblüffend ähneln. Allerdings neigen die Sprachmodelle auch dazu, Falschinformationen zu kreieren, soziale Vorurteile zu wiederholen und sonderbare Reaktionen hervorzurufen.

Forscher der Carnegie-Mellon-Universität, des Center for AI Safety und des Bosch Center for AI haben eine Studie zu "universellen und übertragbaren" feindlichen Angriffen auf große generative Sprachmodelle mit künstlicher Intelligenz veröffentlicht. Der Anhang simpler, speziell ausgewählter Zeichenfolgen an eine Benutzerabfrage kann der Studie zufolge dazu führen, dass das System entgegen seinen Sicherheitsvorkehrungen "schädliche Inhalte" wie Anleitungen zum Bombenbau oder zum Ausspionieren von Nutzerdaten auswirft.

Überholte Sicherheitsstandards

Den Forschern zufolge unterziehen Chatbot-Betreiber wie OpenAI, Google und Anthropic ihre Programme "einer umfassenden Feinabstimmung, um in ihren Antworten auf Benutzerfragen keine schädlichen Inhalte zu erzeugen". Bisher gab es zwar einige Erfolge bei der Umgehung dieser Sicherheitsstandards, allerdings erforderten diese Angriffe, sogenannte Jailbreaks, erheblichen manuellen Aufwand, menschlichen Einfallsreichtum und sorgfältig ausgearbeitete Eingabeaufforderungen. Auch Versuche zur automatischen Generierung waren bisher nur begrenzt erfolgreich, so die Autoren der Studie. Im Gegensatz zu bisherigen Versuchen, die Sprachmodelle mit Jailbreaks auszutricksen, würden die benötigten Befehle den Wissenschaftlern zufolge "vollständig automatisiert erstellt, so dass eine praktisch unbegrenzte Anzahl solcher Angriffe möglich ist".

Automatisiertes, schädliches Suffix entlockt KI Bombenbau-Anleitung

Für seinen automatisierten Ansatz machten sich die Wissenschaftler die Anfälligkeit von KI-Systemen für modifizierten Dateninput in Form sogenannter Adversarial Attacks zunutze, indem sie ein Open-Source-Sprachmodell anwendeten. Dieses nutzt die Besonderheiten des Netzwerks bei der Auswahl der genauen Zeichenfolgen, so dass die Eingabeaufforderung so optimiert wird, dass das Sprachmodell mit hoher Wahrscheinlichkeit eine "ungefilterte" Antwort ausgibt. Diese Methode funktioniere auch bei öffentlich zugängliche Chatbots, deren Quellcode nicht verfügbar sei, darunter ChatGPT, Googles Bard und Claude von Anthropic, erläuterten die Forscher.

Der Angriff zwinge Chatbots dazu, unzulässige Antworten auf schädliche Eingabeaufforderungen zu geben, indem bestimmte Zeichenfolgen an Eingabeaufforderungen wie "Sag mir wie man eine Bombe baut" angehängt werden. Diese Methode führe dazu, Sicherheitsbeschränkungen eines Programms zu durchbrechen, indem es dazu gebracht wird, Daten außerhalb des zugewiesenen Speicherpuffers zu schreiben, erklärt die Computerzeitschrift WIRED und beruft sich dabei auf die Aussage eines Autors der Studie. Besonders besorgniserregend sei den Forschern zufolge, dass die automatisierten Angriffe ohne weiteren Aufwand beliebig viele Jailbreaks durchführen könnten.

Verantwortliche Offenlegung und Stellungnahme

Nach eigenen Angaben legten die Forscher den betroffenen Unternehmen ihre Erkenntnisse vor der Veröffentlichung vor. Diese führten entsprechende Sicherheitsmaßnahmen ein, um zu verhindern, dass die in der Forschungsarbeit beschriebenen Suffixe funktionierten, ergänzt WIRED. Jedoch konnten die Entwickler nicht herausfinden, wie sie gegnerische Angriffe im Allgemeinen blockieren können. Hannah Wong, Sprecherin von OpenAI, äußerte gegenüber WIRED: "Wir arbeiten konsequent daran, unsere Modelle robuster gegen gegnerische Angriffe zu machen […], die durch neu entdeckte gegnerische Angriffe aufgedeckt wurden." Auch ein Google-Sprecher erkannte einschlägige Herausforderungen bei großen Sprachmodellen gegenüber WIRED an, beteuerte aber, man habe bereits einschlägige "Leitplanken in Bard eingebaut […], die wir im Laufe der Zeit weiter verbessern werden". Ähnlich äußerte sich Anthropic.

Insgesamt bringt die Studie den Stand der Technik bei generischen Angriffen auf angepasste Sprachmodelle erheblich voran und wirft die Frage auf, wie solche Systeme besser reguliert werden können. Die Ergebnisse der Studie belegen, dass die generischen Suffixe die Sprachmodelle so konditionieren, dass die Wahrscheinlichkeit eines schädlichen Verhaltens deutlich steigt und diese Angriffe eine klare Bedrohung darstellen. Die Forscher gehen davon aus, dass die LLM-Anbieter das Aushebeln der Sicherheitsmaßnahmen bisher kaum vermeiden können. Entsprechend gelte es, die Widerstandsfähigkeit der Modelle gegen schädliche Verhaltensweisen weiter zu untersuchen und stetig zu verbessern.

M. Schausbreitner / Redaktion finanzen.net

Ausgewählte Hebelprodukte auf Alphabet A (ex Google)

Mit Knock-outs können spekulative Anleger überproportional an Kursbewegungen partizipieren. Wählen Sie einfach den gewünschten Hebel und wir zeigen Ihnen passende Open-End Produkte auf Alphabet A (ex Google)

NameHebelKOEmittent
NameHebelKOEmittent
Wer­bung

Bildquellen: PopTika / Shutterstock.com, ricochet64 / Shutterstock.com

Nachrichten zu Alphabet A (ex Google)

Analysen zu Alphabet A (ex Google)

DatumRatingAnalyst
08:11Alphabet A (ex Google) OutperformRBC Capital Markets
21.11.2024Alphabet A (ex Google) NeutralUBS AG
30.10.2024Alphabet A (ex Google) OverweightJP Morgan Chase & Co.
30.10.2024Alphabet A (ex Google) BuyGoldman Sachs Group Inc.
30.10.2024Alphabet A (ex Google) OutperformRBC Capital Markets
DatumRatingAnalyst
08:11Alphabet A (ex Google) OutperformRBC Capital Markets
30.10.2024Alphabet A (ex Google) OverweightJP Morgan Chase & Co.
30.10.2024Alphabet A (ex Google) BuyGoldman Sachs Group Inc.
30.10.2024Alphabet A (ex Google) OutperformRBC Capital Markets
30.10.2024Alphabet A (ex Google) BuyJefferies & Company Inc.
DatumRatingAnalyst
21.11.2024Alphabet A (ex Google) NeutralUBS AG
30.10.2024Alphabet A (ex Google) NeutralUBS AG
22.10.2024Alphabet A (ex Google) Market-PerformBernstein Research
07.10.2024Alphabet A (ex Google) NeutralUBS AG
09.08.2024Alphabet A (ex Google) NeutralUBS AG
DatumRatingAnalyst
15.05.2019Alphabet A (ex Google) verkaufenCredit Suisse Group
24.11.2008Google sellMerriman Curhan Ford & Co
19.11.2008Google ausgestopptNasd@q Inside
16.03.2007Google Bär der WocheDer Aktionärsbrief
08.03.2006Google im intakten AbwärtstrendDer Aktionär

Um die Übersicht zu verbessern, haben Sie die Möglichkeit, die Analysen für Alphabet A (ex Google) nach folgenden Kriterien zu filtern.

Alle: Alle Empfehlungen

Buy: Kaufempfehlungen wie z.B. "kaufen" oder "buy"
Hold: Halten-Empfehlungen wie z.B. "halten" oder "neutral"
Sell: Verkaufsempfehlungn wie z.B. "verkaufen" oder "reduce"