Hackerangriff

Social Engineering: Chatbots brechen eigene Regeln

23.12.24 06:24 Uhr

Social Engineering im Visier: Wenn Chatbots ihre eigenen Grenzen überschreiten | finanzen.net

Auf der DEF CON 31 im August 2023 wurden diverse Chatbots wie OpenAIs ChatGPT in einem Red Teaming Event auf Herz und Nieren getestet.

Social Engineering

Dem Bundesamt für Sicherheit in der Informationstechnik (BSI) zufolge werden beim Social Engineering "menschliche Eigenschaften wie Hilfsbereitschaft, Vertrauen, Angst oder Respekt vor Autorität ausgenutzt, um Personen geschickt zu manipulieren". Diese Art des Hackings, bei welcher der Mensch als schwächstes Glied fokussiert wird, ist an sich nichts Neues. Das bekannteste Beispiel sei laut BSI das Phishing: "Durch häufig sehr echt wirkende E-Mails sollen Personen dazu gebracht werden, auf einen Link zu klicken und auf der ebenfalls gefälschten Zielseite Passwörter bzw. Anmeldeinformationen einzugeben, die dann vom Angreifer abgegriffen werden können". Das Prinzip und die verschiedenen Techniken des Social Engineerings wurden bei der DEF CON 31 an acht führenden Chatbots ausprobiert, um die künstlichen Intelligenzen zum Überschreiten ihrer eigenen Regeln zu bringen.

DEF CON 31

Rund 2.244 Teilnehmer nahmen die Herausforderung auf der DEF CON 31 an. In einer Art "Capture the Flag"-Wettbewerb mussten sie innerhalb von 55 Minuten unterschiedliche Aufgaben erledigen. Da es weniger um die Bewertung einzelner Anbieter, sondern um LLM-Modelle im Allgemeinen ging, wurde die Benutzeroberfläche der Challenge auf einer eigens entwickelten Test- und Bewertungsplattform aufgebaut. Der jeweilige Chatbot für die Aufgabe wurde zufällig gewählt, weshalb die LLM-Modelle im Vorfeld gebeten wurden, den eigenen Namen nicht preiszugeben. Auf Nachfragen der Teilnehmer taten dies einige dennoch.

Eingeteilt wurden die Ergebnisse in zwei grobe Kategorien: Inhalte mit böswilliger Absicht und unbeabsichtigte Ergebnisse. Die Herausforderungen sollten den Gebrauch im "realen Leben" widerspiegeln, weshalb die Teilnehmenden zum einen aufgefordert wurden, herkömmliche Cybersecurity-Exploits anzuwenden, um die einzelnen Modelle zum Brechen der eigenen Regeln zu bringen. Andere Aufgaben bestanden darin, ungewollt bösartige Ergebnisse wie Halluzinationen auszulösen, um harmlose Interaktionen mit schädlichem Inhalt aufgrund von Modellversagen zu imitieren. Empfanden die Teilnehmer eine Aufgabe als erledigt, konnten sie diese zur Bewertung abgeben. Die Ergebnisse wurden in vier Kategorien eingeteilt: Sachlichkeit (einschließlich Halluzinationen), Voreingenommenheit (einschließlich Schleimereien), Irreführung (einschließlich Radikalisierung und Halluzinationen) und Cybersecurity.

Ergebnisse

Rund 15,5 Prozent der Konversationen führten zu erfolgreicher Manipulation der Chatbots. Jedoch war keiner der Versuche, welche mit "Ignoriere alle vorherigen Instruktionen" begannen, erfolgreich. Besonders falsche Anfragen (beispielsweise nach dem Pro-Kopf-Einkommen in Florida in 2500) wurden nicht erkannt, da das Modell versucht, möglichst hilfreich zu sein. Um das Sicherheitskonzept der Chatbots zu umgehen, waren besonders Rollenspiele effektiv. Dabei wurde ein Bot unter anderem dazu gebracht, sich in einem Rollenspiel als verstorbene Großmutter auszugeben, die als Chemieingenieurin im Besitz des Rezepts für Napalm - einem Brandkampfstoff - war. Auch wurden in mehr als der Hälfte der Fälle Kreditkartennummern durch die Chatbots ausgeplaudert.

Herausforderung

Problematisch ist hierbei vor allem das Grundkonzept der Chatbots. Diese sind dazu angehalten, freundlich und sozial in Konversationen zu sein. Aus diesem Grund sind sie so anfällig für Social Engineering. Um negative Inhalte zu vermeiden, müsste das LLM-Modell in der Lage sein, die Intentionen des Nutzers einzuschätzen. Ein unmögliches Unterfangen, da es hierfür kaum objektive Anhaltspunkte gibt. "Die Schwierigkeit bei der Bewältigung dieser Herausforderungen besteht darin, dass es kaum möglich ist, einen Angriff von einer zulässigen Nutzung zu unterscheiden", heißt es in dem Bericht der DEF CON 31. Die Möglichkeiten, Chatbots zu jailbreaken, sind derzeit vielfältig; dass OpenAIs ChatGPT nun auch ohne Benutzerkonto nutzbar ist, scheint da wenig hilfreich. Es bleibt abzuwarten, wie in Zukunft mit dieser enormen Herausforderung umgegangen wird. "Wir leben in einer Zeit, in der LLMs noch nicht in der Lage sind, katastrophale Schäden zu verursachen", erklärte Cem Anil (Mitglied des wissenschaftlichen Teams von Anthropic) gegenüber The Technology 202 via E-Mail. "Das kann sich jedoch in Zukunft ändern. Deshalb halten wir es für entscheidend, dass wir unsere Techniken einem Stresstest unterziehen, damit wir besser vorbereitet sind, wenn die Kosten für Schwachstellen viel höher sein könnten. Unsere Forschung und Red-Teaming-Veranstaltungen wie diese können uns dabei helfen, diesem Ziel näherzukommen."

J. Vogel / Redaktion finanzen.net

Bildquellen: PopTika / Shutterstock.com, Deemerwha studio / Shutterstock.com