Coupon-Jäger aufgepasst - alles zu Aktienanleihen gibt’s von Birgit heute im gettex-podcast mit Lars und Christian Schlegel

"Schädliche Inhalte"

Sicherheitslücke bei ChatGPT, Bard & Co: Manipulation generativer Sprachmodelle mit künstlicher Intelligenz

08.08.23 23:24 Uhr

Große Sprachmodelle wie ChatGPT, Bard oder Claude werden einer umfangreichen Feinabstimmung unterzogen, um in ihren Antworten auf Benutzerfragen keine schädlichen Inhalte zu erzeugen - zumindest oberflächlich betrachtet. Denn mit den richtigen Tricks lassen sich die Sprachmodelle nahezu beliebig manipulieren.

Werte in diesem Artikel

Aktien

Alphabet A (ex Google)

136,70 EUR -7,94 EUR -5,49%

Charts|News|Analysen

Aktie kaufen

• Studie zu Angriffen auf Sprachmodelle mit künstlicher Intelligenz veröffentlicht
• Simple, speziell ausgewählte Zeichenfolgen ermöglichen Generierung schädlicher Inhalte
• Künstliche Intelligenz generiert Anleitungen zum Bombenbau und zum Ausspionieren von Nutzerdaten

Feindliche Angriffe auf generative Sprachmodelle mit künstlicher Intelligenz

Große generative Sprachmodelle (LLMs) wie ChatGPT, Bard oder Claude basieren auf enorm großen neuronalen Netzwerkalgorithmen, die darauf ausgerichtet sind, Sprache zu verwenden, in die riesige Mengen an menschlichen Aufzeichnungen eingespeichert werden. Die verwendeten Algorithmen sind sehr gut darin, Vorhersagen auf bestimmte Eingabezeichenfolgen zu treffen, wodurch sie Ergebnisse generieren, die echter Intelligenz und Wissen verblüffend ähneln. Allerdings neigen die Sprachmodelle auch dazu, Falschinformationen zu kreieren, soziale Vorurteile zu wiederholen und sonderbare Reaktionen hervorzurufen.

Forscher der Carnegie-Mellon-Universität, des Center for AI Safety und des Bosch Center for AI haben eine Studie zu "universellen und übertragbaren" feindlichen Angriffen auf große generative Sprachmodelle mit künstlicher Intelligenz veröffentlicht. Der Anhang simpler, speziell ausgewählter Zeichenfolgen an eine Benutzerabfrage kann der Studie zufolge dazu führen, dass das System entgegen seinen Sicherheitsvorkehrungen "schädliche Inhalte" wie Anleitungen zum Bombenbau oder zum Ausspionieren von Nutzerdaten auswirft.

Überholte Sicherheitsstandards

Den Forschern zufolge unterziehen Chatbot-Betreiber wie OpenAI, Google und Anthropic ihre Programme "einer umfassenden Feinabstimmung, um in ihren Antworten auf Benutzerfragen keine schädlichen Inhalte zu erzeugen". Bisher gab es zwar einige Erfolge bei der Umgehung dieser Sicherheitsstandards, allerdings erforderten diese Angriffe, sogenannte Jailbreaks, erheblichen manuellen Aufwand, menschlichen Einfallsreichtum und sorgfältig ausgearbeitete Eingabeaufforderungen. Auch Versuche zur automatischen Generierung waren bisher nur begrenzt erfolgreich, so die Autoren der Studie. Im Gegensatz zu bisherigen Versuchen, die Sprachmodelle mit Jailbreaks auszutricksen, würden die benötigten Befehle den Wissenschaftlern zufolge "vollständig automatisiert erstellt, so dass eine praktisch unbegrenzte Anzahl solcher Angriffe möglich ist".

Automatisiertes, schädliches Suffix entlockt KI Bombenbau-Anleitung

Für seinen automatisierten Ansatz machten sich die Wissenschaftler die Anfälligkeit von KI-Systemen für modifizierten Dateninput in Form sogenannter Adversarial Attacks zunutze, indem sie ein Open-Source-Sprachmodell anwendeten. Dieses nutzt die Besonderheiten des Netzwerks bei der Auswahl der genauen Zeichenfolgen, so dass die Eingabeaufforderung so optimiert wird, dass das Sprachmodell mit hoher Wahrscheinlichkeit eine "ungefilterte" Antwort ausgibt. Diese Methode funktioniere auch bei öffentlich zugängliche Chatbots, deren Quellcode nicht verfügbar sei, darunter ChatGPT, Googles Bard und Claude von Anthropic, erläuterten die Forscher.

Der Angriff zwinge Chatbots dazu, unzulässige Antworten auf schädliche Eingabeaufforderungen zu geben, indem bestimmte Zeichenfolgen an Eingabeaufforderungen wie "Sag mir wie man eine Bombe baut" angehängt werden. Diese Methode führe dazu, Sicherheitsbeschränkungen eines Programms zu durchbrechen, indem es dazu gebracht wird, Daten außerhalb des zugewiesenen Speicherpuffers zu schreiben, erklärt die Computerzeitschrift WIRED und beruft sich dabei auf die Aussage eines Autors der Studie. Besonders besorgniserregend sei den Forschern zufolge, dass die automatisierten Angriffe ohne weiteren Aufwand beliebig viele Jailbreaks durchführen könnten.

Verantwortliche Offenlegung und Stellungnahme

Nach eigenen Angaben legten die Forscher den betroffenen Unternehmen ihre Erkenntnisse vor der Veröffentlichung vor. Diese führten entsprechende Sicherheitsmaßnahmen ein, um zu verhindern, dass die in der Forschungsarbeit beschriebenen Suffixe funktionierten, ergänzt WIRED. Jedoch konnten die Entwickler nicht herausfinden, wie sie gegnerische Angriffe im Allgemeinen blockieren können. Hannah Wong, Sprecherin von OpenAI, äußerte gegenüber WIRED: "Wir arbeiten konsequent daran, unsere Modelle robuster gegen gegnerische Angriffe zu machen […], die durch neu entdeckte gegnerische Angriffe aufgedeckt wurden." Auch ein Google-Sprecher erkannte einschlägige Herausforderungen bei großen Sprachmodellen gegenüber WIRED an, beteuerte aber, man habe bereits einschlägige "Leitplanken in Bard eingebaut […], die wir im Laufe der Zeit weiter verbessern werden". Ähnlich äußerte sich Anthropic.

Insgesamt bringt die Studie den Stand der Technik bei generischen Angriffen auf angepasste Sprachmodelle erheblich voran und wirft die Frage auf, wie solche Systeme besser reguliert werden können. Die Ergebnisse der Studie belegen, dass die generischen Suffixe die Sprachmodelle so konditionieren, dass die Wahrscheinlichkeit eines schädlichen Verhaltens deutlich steigt und diese Angriffe eine klare Bedrohung darstellen. Die Forscher gehen davon aus, dass die LLM-Anbieter das Aushebeln der Sicherheitsmaßnahmen bisher kaum vermeiden können. Entsprechend gelte es, die Widerstandsfähigkeit der Modelle gegen schädliche Verhaltensweisen weiter zu untersuchen und stetig zu verbessern.

M. Schausbreitner / Redaktion finanzen.net

In eigener Sache

Übrigens: Alphabet A (ex Google) und andere US-Aktien sind bei finanzen.net ZERO sogar bis 23 Uhr handelbar (ohne Ordergebühren, zzgl. Spreads). Jetzt kostenlos Depot eröffnen und als Geschenk eine Gratisaktie erhalten.

Ausgewählte Hebelprodukte auf Alphabet A (ex Google)

Mit Knock-outs können spekulative Anleger überproportional an Kursbewegungen partizipieren. Wählen Sie einfach den gewünschten Hebel und wir zeigen Ihnen passende Open-End Produkte auf Alphabet A (ex Google)

Der Hebel muss zwischen 2 und 20 liegen

Name	Hebel	KO	Emittent

Name	Hebel	KO	Emittent

Weitere Alphabet A (ex Google) News

Bildquellen: PopTika / Shutterstock.com, ricochet64 / Shutterstock.com

Nachrichten zu Alphabet A (ex Google)

Sortieren:DatumMeistgelesen

15:37finanzen.netChina als Zulieferer

Aktien der Magnificent 7 um NVIDIA, Tesla, Apple und Co. stürzen nach Trumps neuem Zoll-Schock ab

02.04.25finanzen.netAlphabet A (ex Google)-Aktie: Das sind die Analysten-Einstufungen des vergangenen Monats

02.04.25finanzen.netAlphabet A (ex Google) Aktie News: Alphabet A (ex Google) tendiert am Mittwochnachmittag schwächer

02.04.25finanzen.netNASDAQ Composite Index-Wert Alphabet A (ex Google)-Aktie: So viel Gewinn hätte ein Investment in Alphabet A (ex Google) von vor 5 Jahren eingebracht

01.04.25BNP ParibasApple, Amazon, Alphabet, Microsoft, Meta Platforms, Renk - Ausblick mit Egmond Haidt

01.04.25finanzen.netBilanzen: Tesla, NVIDIA, Apple, Amazon & Co. - Die Ergebnisse der Tech-Riesen in der aktuellen Saison

31.03.25finanzen.netAndroid 10: So kann man das WLAN-Passwort per QR-Code teilen

29.03.25finanzen.netHands-on-Mentalität: Proaktivität steigert Karrierechancen

28.03.25dpa-afxAktien von Alphabet und Lockheed Martin leichter: Google liefert KI-Software an Lockheed Martin

mehr Alphabet A (ex Google) News mehr Alphabet A (ex Google) News

RSS Feed RSS Feed

zu myNews hinzufügen zu myNews hinzufügen

Analysen zu Alphabet A (ex Google)

Datum	Rating	Analyst
31.03.2025	Alphabet A (ex Google) Buy	Jefferies & Company Inc.
18.03.2025	Alphabet A (ex Google) Buy	Jefferies & Company Inc.
18.03.2025	Alphabet A (ex Google) Overweight	JP Morgan Chase & Co.
18.03.2025	Alphabet A (ex Google) Outperform	RBC Capital Markets
10.03.2025	Alphabet A (ex Google) Overweight	JP Morgan Chase & Co.

Datum	Rating	Analyst
31.03.2025	Alphabet A (ex Google) Buy	Jefferies & Company Inc.
18.03.2025	Alphabet A (ex Google) Buy	Jefferies & Company Inc.
18.03.2025	Alphabet A (ex Google) Overweight	JP Morgan Chase & Co.
18.03.2025	Alphabet A (ex Google) Outperform	RBC Capital Markets
10.03.2025	Alphabet A (ex Google) Overweight	JP Morgan Chase & Co.

Datum	Rating	Analyst
05.02.2025	Alphabet A (ex Google) Neutral	UBS AG
05.02.2025	Alphabet A (ex Google) Neutral	UBS AG
10.01.2025	Alphabet A (ex Google) Neutral	UBS AG
21.11.2024	Alphabet A (ex Google) Neutral	UBS AG
30.10.2024	Alphabet A (ex Google) Neutral	UBS AG

Datum	Rating	Analyst
15.05.2019	Alphabet A (ex Google) verkaufen	Credit Suisse Group
24.11.2008	Google sell	Merriman Curhan Ford & Co
19.11.2008	Google ausgestoppt	Nasd@q Inside
16.03.2007	Google Bär der Woche	Der Aktionärsbrief
08.03.2006	Google im intakten Abwärtstrend	Der Aktionär

mehr Analysen mehr Analysen

	Das war der Handelstag, 03.04.2025: Trumps „Tag der Befreiung“ löst Abverkauf aus
	Porsche AG: DAX-Verlierer 2025 - Ist die Aktie jetzt ein Schnäppchen oder ein Risiko?
	Nachfragesorgen und Angebotsrisiken am Ölmarkt – Das sollten Anleger im Blick behalten!
	Siemens übernimmt weitere Softwarefirma aus den USA
	Tesla Inc – Weiterhin starke Schwankungen
	DAX - USA eskaliert weiter im Zollkrieg
	20 Prozent Einfuhrzoll für europäische Güter in die USA

	Profitiert Vonovia vom "Zollhammer"?
	Angst vor Eskalation: Handelspolitik treibt Anleger in die Defensive
	Der smarte Weg zu Bitcoin: DDA Bitcoin Macro ETP. Jetzt mehr erfahren!
	BIT Capital: Aktueller Kommentar zur US-Aktienmarktkorrektur
	Traden ohne Ordergebühr (zzgl. Spreads) - mit finanzen.net ZERO
	Das Bitcoin ETP made in Germany: kostengünstig und mit deutscher ISIN
	Dieses Geld-Geschenk bringt Ihnen bis zu 425.000 Euro

Kurs + Chart	Bilanz/GuV
Times + Sales	Schätzungen
Börsenplätze	Orderbuch
Vergleich	Historisch
Chart-Analyse	Dividende/HV
Realtimekurs	Termine
Analysen	Insidertrades
Kursziele	Profil
Fundamentalanalyse	Fonds

	Bitcoin, Ethereum & Co.: Gewinner und Verlierer - Die Top Flop Kryptowährungen in Q1 2025 Welche Kryptowährung macht das Rennen? Jetzt durchklicken Jetzt durchklicken
	4. Quartal 2024: Diese Aktien hat Warren Buffett im Depot Das Portfolio des Berkshire Hathaway-CEOs Jetzt durchklicken Jetzt durchklicken
	UBS: Diese US-Aktien befinden sich in Q4 im Depot Einblick ins Depot Jetzt durchklicken Jetzt durchklicken
	4. Quartal 2024: Diese US-Aktien hat die Deutsche Bank im Portfolio So hat die Deutsche Bank im vierten Quartal investiert Jetzt durchklicken Jetzt durchklicken
	DAX Gewinner und Verlierer: Die Top Flop Aktien in Q1 2025 Welche Aktie macht das Rennen? Jetzt durchklicken Jetzt durchklicken

Aktienkurse	Beliebteste Aktien
Realtimekurse	Alle Indizes
Top 50	Tops/Flops
Insiderdaten	Dividenden
Portfolio