Was ist

Zwei Studien zu Sprachmodellen sind viral gegangen:

  • The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity (PDF): Apple-Forscherïnnen untersuchen, ob Reasoning-Modelle in der Lage sind, komplexe Probleme zu lösen.
  • Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task (PDF): MIT-Forscherïnnen untersuchen, was im Hirn von Studierenden geschieht, die Essays mithilfe von ChatGPT schreiben.

Das Netz war voll mit Takes wie:

Die KI-kritische Bluesky-Bubble triumphierte: Hier ist der Beweis, dass Sprachmodelle zu nichts zu gebrauchen sind und das Hirn degenerieren lassen.

Das Problem: Die Studien geben diese Schlussfolgerung überhaupt nicht her. Tatsächlich weisen die Autorïnnen sogar ausdrücklich auf die Limitationen ihrer Untersuchungen hin und warnen davor, die Ergebnisse zu generalisieren. Das hinderte Menschen, die KI schon immer doof fanden, aber natürlich nicht daran, sich in ihrem Weltbild bestätigt zu fühlen.

Kurz darauf wurde es noch absurder. Ein "Paper" namens The Illusion of the Illusion of Thinking (arXiv) machte die Runde. Jetzt sahen sich KI-Fans bestätigt: Die Apple-Studie taugt nichts, Sprachmodelle denken doch.

Das nächste Problem: Dummerweise lautet einer der beiden Autoren C. Opus – das steht für das Sprachmodell Claude Opus von Anthropic. Der vermeintliche Takedown stammte also von einer KI, war eher als Witz gedacht und ist voller Fehler. Das hinderte Menschen, die KI schon immer super fanden, aber natürlich nicht daran, sich in ihrem Weltbild bestätigt zu fühlen.

Warum das wichtig ist

Ende Mai verfassten wir "Ein kleines Plädoyer für bessere KI-Kritik" und wünschten uns eine faktenbasierte Debatte statt oberflächlicher Rants:

LLMs sind nicht magisch, aber mächtig. Sie verändern bereits jetzt die Arbeit und den Alltag von Hunderten Millionen Menschen. KI ist eine kulturelle, soziale und politische Technologie, die ähnlich tiefgreifende Auswirkungen haben wird wie Sprache, Schrift, Druck oder Elektrizität – im Guten wie im Schlechten. Deshalb braucht es fundierte KI-Kritik, die den Hype entlarvt, aber die potenzielle Disruption und die damit verbundenen Probleme ernst nimmt. (…)
Wenn Menschen darauf beharren, dass Sprachmodelle zu nichts zu gebrauchen seien, dann sagt das mehr über sie selbst aus als über KI. Diese Haltung ist genauso wenig hilfreich wie die blinde Begeisterung, die Tausende KI-"Experten" mit ihren vermeintlichen Wunder-Prompts und Produktivitäts-Hacks schüren.

Die Reaktionen auf die aktuellen Studien zeigen, wie weit wir davon entfernt sind.

Was die Apple-Studie (nicht) sagt

Die Wissenschaftlerïnnen haben untersucht, wie der Reasoning-Prozess von Modellen wie o3-mini, Claude 3.7 Sonnet Thinking und DeepSeek R1 funktioniert, wenn Aufgaben zunehmend komplex werden. Dafür sollten die LLMs vier unterschiedliche Puzzle-Probleme lösen: Tower of Hanoi, Checkers Jumping, River Crossing und Blocks World.

Bei einfachen Aufgaben schneiden gewöhnliche LLMs ohne Reasoning-Fähigkeiten besser ab. Mittelschwere Probleme lösen die Reasoning-Modelle besser. Hohe Komplexität überfordert alle Modelle. Die Reasoning-LLMs stoppen dann den "Denk"-Prozess, obwohl dafür noch ausreichend Tokens vorhanden wären.

Die Forschenden schreiben in ihrem Fazit aber selbst:

Wir sind uns der Grenzen unserer Arbeit bewusst. Unsere Puzzle-Umgebungen (…) decken nur einen kleinen Ausschnitt von Schlussfolgerungsaufgaben ab und bilden die Vielfalt realer, wissensintensiver Probleme nicht vollständig ab. (…)
Außerdem setzen wir auf deterministische Puzzle-Simulatoren, die unterstellen, dass sich jeder Schritt des Denkprozesses perfekt validieren lässt. In weniger strukturierten Domänen ist eine derart präzise Überprüfung jedoch oft nicht möglich, was die Übertragbarkeit unserer Ergebnisse auf allgemeinere Formen des Reasonings einschränkt.

Das Paper hat trotzdem einen Wert. Es zeigt bestimmte Limitationen von LLMs und wirft die berechtigte Frage auf, wie gut die aktuelle Modellarchitektur skaliert. Pauschale Aussagen wie "Reasoning ist nutzlos" lassen sich daraus aber nicht ziehen.

Alberto Romero schreibt dazu in seinem Newsletter:

Die Hauptverantwortung liegt bei den KI-Influencern, die nichts weiter als Schwätzer sind. Ihnen ist die Wahrheit so gleichgültig, dass sie sie an einem Tag unter Anti-Hype-Posts begraben und am nächsten Tag verkünden: "BREAKING: OpenAI hat AGI erreicht."
Ich verabscheue diese Leute. Sie richten im Informationsökosystem größeren Schaden an als Lügner, Hype-Verbreiter oder notorische Skeptiker.

Hinter der allenfalls halb ernst gemeinten Entgegnung auf das Apple-Paper steckt Alex Lawson, der Claude dazu aufforderte, Schwachstellen in der Argumentation zu finden. Er bastelte ein PDF, schickte es ein paar Freundïnnen und lud es schließlich bei arXiv hoch. Es kam, wie es kommen musste:

Die Leute behandelten meinen Shitpost wie echte Wissenschaft, und obwohl ich damit auf einige reale Probleme hinweisen wollte, hatte ich nicht damit gerechnet, dass ihn jemand wirklich ernst nehmen würde.

Lawsons Erfahrung scheint kein Einzelfall zu sein und zeigt, dass AI Slop auf Facebook wohl eines der kleineren Probleme ist, die generative KI mit sich bringt:

Der vielleicht surrealste Moment dieser ganzen Geschichte war, als mir ein Freund schrieb, Facebook habe ihm eine KI-generierte Zusammenfassung des arXiv-Papiers vorgeschlagen. Meine gemeinsam mit Claude verfasste Kritik an der Forschungsqualität wurde also von anderen KIs zusammengefasst und als legitimer Inhalt ausgespielt.
Erst ein echter Wissenschaftler lieferte mir den fehlenden Kontext: Er müsse regelmäßig Konferenzbeiträge begutachten, die genau dieses Qualitätsniveau haben. Was ich als offensichtliche Satire angelegt hatte, war offenbar nicht von dem zu unterscheiden, was viele tatsächlich als seriöse Arbeit verkaufen wollen.

Was die MIT-Studie (nicht) sagt

Das Paper der acht Forscherïnnen umfasst 206 Seiten. Nur ein Bruchteil der Menschen, die es teilten, dürfte die gesamte Studie gelesen haben. Das ist aber gar nicht nötig, um zu bemerken, dass die Autorïnnen nicht ansatzweise behaupten, dass KI Menschen dümmer macht.

In einem Q&A schreiben Nataliya Kosmyna und Eugene Hauptmann, zwei der Forscherïnnen am MIT:

Kann man guten Gewissens sagen, dass LLMs uns im Wesentlichen "dümmer" machen?
Nein! Bitte benutzen Sie keine Begriffe wie "dumm", "blöd", "Hirnfäule", "Schaden", "Beschädigung", "Passivität", "Trimming" u. Ä. – das würde der Arbeit einen Bärendienst erweisen, denn wir haben diese Wortwahl im Paper nicht verwendet, insbesondere nicht, wenn Sie als Journalist darüber berichten. (…)
Zusätzlich bitten wir, auf Ausdrücke wie "Gehirnscans", "LLMs lassen einen aufhören zu denken", "negative Auswirkungen", "Hirnschäden" und "erschreckende Erkenntnisse" zu verzichten.

Tja. Das hat leider nicht so gut geklappt. Genau diese Begriffe dominieren die Reaktionen – zumindest die Hottakes, die viral gegangen sind.

Das ist schade, denn die Studie ist viel differenziert und lässt trotz des kleinen Samples einige Rückschlüsse zu. Die Forscherïnnen haben mithilfe eines EEG die Gehirnströme gemessen und unter anderem festgestellt:

  • Studierende, die Essays zuerst mithilfe von ChatGPT schreiben, und anschließend selbst denken müssen, klingen dabei oft wie eine KI. Zudem erinnern sie sich kaum noch an den ersten Text, bei dem KI geholfen hat.
  • Im Hirn werden dabei andere Areale aktiviert. Wer sich ausschließlich auf LLMs verlässt, löst weniger tiefgehende kognitive Prozesse aus.
  • Wenn man zuerst selbst schreibt und erst für eine weitere Aufgabe eine KI nutzt, reagiert das Hirn anders. Es werden mehr Neuronen aktiviert, und das Ergebnis erinnert weniger an ein Sprachmodell.

Dieser Artikel ist nur für zahlende Mitglieder

Jetzt Mitglied werden und vollen Zugriff auf alle Artikel erhalten.

Jetzt Mitglied werden Hast du schon einen Account? Einloggen