Künstliche Intelligenz

Warum Kinder im Bereich logisches Denken besser als ChatGPT & Co. abschneiden

23.08.24 19:47 Uhr

ChatGPT vs. Kinder: Warum Kinder im logischen Denken überlegen sind | finanzen.net

Large Language Models (LLM) wie ChatGPT haben in den letzten Jahren an Beliebtheit gewonnen. Doch wenn es um Logikaufgaben geht, liefern künstliche Intelligenzen bisher mäßige Ergebnisse.

Studie der University of Bristol

Eine im Juni 2024 veröffentlichte Studie von Nezhurina und Kollegen an der University of Bristol konnte die Schwierigkeit einfachster Logikaufgaben für LLM aufzeigen. Dabei stellten die Forscher Programmen wie GPT-3.5/4, Claude, Gemini oder Mistral eine einfache Frage: "Alice hat N Brüder und sie hat M Schwestern. Wie viele Schwestern hat der Bruder von Alice?" Während die meisten Erwachsenen und auch Kinder die richtige Lösung "M + 1" auf Anhieb erkennen würden, schnitten die KIs unterdurchschnittlich ab.

Ergebnisse ernüchternd

Selbst als die Variablen N und M mit konkreten Zahlen ersetzt wurden, konnten die LLM keine richtige Antwort liefern. Laut Studie "kommt es [bei den meisten Modellen] zu schwerwiegenden Störungen und viele sind nicht in der Lage, auch nur eine einzige richtige Antwort zu geben." Lediglich Open AIs GPT-4 und Claude 3 Opus waren in der Lage, zumindest teilweise korrekte Antworten zu produzieren - in rund 30 Prozent der Fälle. Doch noch viel besorgniserregender als die falschen Antworten seien die vermeintlichen Argumente für deren Richtigkeit und die Beharrlichkeit, mit welchen diese verteidigt wurden.

Argumentationsfehler

"Dieser Zusammenbruch kann nicht nur deshalb als dramatisch angesehen werden, weil er bei einem so scheinbar einfachen Problem passiert, sondern auch, weil die Modelle dazu neigen, ihre falschen Lösungen als richtig zu bezeichnen, während sie oft Konfabulationen liefern, um die gegebene Antwort zusätzlich zu erklären, wobei sie einen argumentationsähnlichen Tonfall imitieren, aber unsinnige Argumente als Unterstützung für die ebenso unsinnigen, falschen, endgültigen Antworten liefern", so die Forschenden in ihrer Arbeit. Während einige Argumente den Anschein logischen Schlussfolgerns aufrechterhielten, waren andere zu simpel gestrickt. Eine Begründung lautete beispielsweise "Diese Schlussfolgerung ist einfach und klar".

Warnung für Unternehmen

Als Konsequenz ziehen die Forschenden, dass künftige Arbeiten sich mit den Ursprüngen der Reasoning-Defizite, also dem Mangel an logischem Denken, auseinandersetzen sollten. Zudem sollten aktuelle Benchmarks überarbeitet werden, um Schwächen offenzulegen. Die Ergebnisse der Studie sollen als "Warnung vor überzogenen Ansprüchen […] dienen, die oft von kommerziellen Unternehmen gemacht werden, um ihre Modelle als ausgereiftes Produkt für Nutzer darzustellen".

J. Vogel / Redaktion finanzen.net

Bildquellen: PopTika / Shutterstock.com, Deemerwha studio / Shutterstock.com