Was ist
Zwei Studien zu Sprachmodellen sind viral gegangen:
- The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity (PDF): Apple-Forscherïnnen untersuchen, ob Reasoning-Modelle in der Lage sind, komplexe Probleme zu lösen.
- Your Brain on ChatGPT: Accumulation of Cognitive Debt when Using an AI Assistant for Essay Writing Task (PDF): MIT-Forscherïnnen untersuchen, was im Hirn von Studierenden geschieht, die Essays mithilfe von ChatGPT schreiben.
Das Netz war voll mit Takes wie:
- A knockout blow for LLMs? (Gary Marcus)
- Using ChatGPT for work? It might make you stupid (The Times)
Die KI-kritische Bluesky-Bubble triumphierte: Hier ist der Beweis, dass Sprachmodelle zu nichts zu gebrauchen sind und das Hirn degenerieren lassen.
Das Problem: Die Studien geben diese Schlussfolgerung überhaupt nicht her. Tatsächlich weisen die Autorïnnen sogar ausdrücklich auf die Limitationen ihrer Untersuchungen hin und warnen davor, die Ergebnisse zu generalisieren. Das hinderte Menschen, die KI schon immer doof fanden, aber natürlich nicht daran, sich in ihrem Weltbild bestätigt zu fühlen.
Kurz darauf wurde es noch absurder. Ein "Paper" namens The Illusion of the Illusion of Thinking (arXiv) machte die Runde. Jetzt sahen sich KI-Fans bestätigt: Die Apple-Studie taugt nichts, Sprachmodelle denken doch.
Das nächste Problem: Dummerweise lautet einer der beiden Autoren C. Opus – das steht für das Sprachmodell Claude Opus von Anthropic. Der vermeintliche Takedown stammte also von einer KI, war eher als Witz gedacht und ist voller Fehler. Das hinderte Menschen, die KI schon immer super fanden, aber natürlich nicht daran, sich in ihrem Weltbild bestätigt zu fühlen.
Warum das wichtig ist
Ende Mai verfassten wir "Ein kleines Plädoyer für bessere KI-Kritik" und wünschten uns eine faktenbasierte Debatte statt oberflächlicher Rants:
LLMs sind nicht magisch, aber mächtig. Sie verändern bereits jetzt die Arbeit und den Alltag von Hunderten Millionen Menschen. KI ist eine kulturelle, soziale und politische Technologie, die ähnlich tiefgreifende Auswirkungen haben wird wie Sprache, Schrift, Druck oder Elektrizität – im Guten wie im Schlechten. Deshalb braucht es fundierte KI-Kritik, die den Hype entlarvt, aber die potenzielle Disruption und die damit verbundenen Probleme ernst nimmt. (…)
Wenn Menschen darauf beharren, dass Sprachmodelle zu nichts zu gebrauchen seien, dann sagt das mehr über sie selbst aus als über KI. Diese Haltung ist genauso wenig hilfreich wie die blinde Begeisterung, die Tausende KI-"Experten" mit ihren vermeintlichen Wunder-Prompts und Produktivitäts-Hacks schüren.
Die Reaktionen auf die aktuellen Studien zeigen, wie weit wir davon entfernt sind.
Was die Apple-Studie (nicht) sagt
Die Wissenschaftlerïnnen haben untersucht, wie der Reasoning-Prozess von Modellen wie o3-mini, Claude 3.7 Sonnet Thinking und DeepSeek R1 funktioniert, wenn Aufgaben zunehmend komplex werden. Dafür sollten die LLMs vier unterschiedliche Puzzle-Probleme lösen: Tower of Hanoi, Checkers Jumping, River Crossing und Blocks World.
Bei einfachen Aufgaben schneiden gewöhnliche LLMs ohne Reasoning-Fähigkeiten besser ab. Mittelschwere Probleme lösen die Reasoning-Modelle besser. Hohe Komplexität überfordert alle Modelle. Die Reasoning-LLMs stoppen dann den "Denk"-Prozess, obwohl dafür noch ausreichend Tokens vorhanden wären.
Die Forschenden schreiben in ihrem Fazit aber selbst:
Wir sind uns der Grenzen unserer Arbeit bewusst. Unsere Puzzle-Umgebungen (…) decken nur einen kleinen Ausschnitt von Schlussfolgerungsaufgaben ab und bilden die Vielfalt realer, wissensintensiver Probleme nicht vollständig ab. (…)
Außerdem setzen wir auf deterministische Puzzle-Simulatoren, die unterstellen, dass sich jeder Schritt des Denkprozesses perfekt validieren lässt. In weniger strukturierten Domänen ist eine derart präzise Überprüfung jedoch oft nicht möglich, was die Übertragbarkeit unserer Ergebnisse auf allgemeinere Formen des Reasonings einschränkt.
Das Paper hat trotzdem einen Wert. Es zeigt bestimmte Limitationen von LLMs und wirft die berechtigte Frage auf, wie gut die aktuelle Modellarchitektur skaliert. Pauschale Aussagen wie "Reasoning ist nutzlos" lassen sich daraus aber nicht ziehen.
Alberto Romero schreibt dazu in seinem Newsletter:
Die Hauptverantwortung liegt bei den KI-Influencern, die nichts weiter als Schwätzer sind. Ihnen ist die Wahrheit so gleichgültig, dass sie sie an einem Tag unter Anti-Hype-Posts begraben und am nächsten Tag verkünden: "BREAKING: OpenAI hat AGI erreicht."
Ich verabscheue diese Leute. Sie richten im Informationsökosystem größeren Schaden an als Lügner, Hype-Verbreiter oder notorische Skeptiker.
Hinter der allenfalls halb ernst gemeinten Entgegnung auf das Apple-Paper steckt Alex Lawson, der Claude dazu aufforderte, Schwachstellen in der Argumentation zu finden. Er bastelte ein PDF, schickte es ein paar Freundïnnen und lud es schließlich bei arXiv hoch. Es kam, wie es kommen musste:
Die Leute behandelten meinen Shitpost wie echte Wissenschaft, und obwohl ich damit auf einige reale Probleme hinweisen wollte, hatte ich nicht damit gerechnet, dass ihn jemand wirklich ernst nehmen würde.
Lawsons Erfahrung scheint kein Einzelfall zu sein und zeigt, dass AI Slop auf Facebook wohl eines der kleineren Probleme ist, die generative KI mit sich bringt:
Der vielleicht surrealste Moment dieser ganzen Geschichte war, als mir ein Freund schrieb, Facebook habe ihm eine KI-generierte Zusammenfassung des arXiv-Papiers vorgeschlagen. Meine gemeinsam mit Claude verfasste Kritik an der Forschungsqualität wurde also von anderen KIs zusammengefasst und als legitimer Inhalt ausgespielt.
Erst ein echter Wissenschaftler lieferte mir den fehlenden Kontext: Er müsse regelmäßig Konferenzbeiträge begutachten, die genau dieses Qualitätsniveau haben. Was ich als offensichtliche Satire angelegt hatte, war offenbar nicht von dem zu unterscheiden, was viele tatsächlich als seriöse Arbeit verkaufen wollen.
Was die MIT-Studie (nicht) sagt
Das Paper der acht Forscherïnnen umfasst 206 Seiten. Nur ein Bruchteil der Menschen, die es teilten, dürfte die gesamte Studie gelesen haben. Das ist aber gar nicht nötig, um zu bemerken, dass die Autorïnnen nicht ansatzweise behaupten, dass KI Menschen dümmer macht.
In einem Q&A schreiben Nataliya Kosmyna und Eugene Hauptmann, zwei der Forscherïnnen am MIT:
Kann man guten Gewissens sagen, dass LLMs uns im Wesentlichen "dümmer" machen?
Nein! Bitte benutzen Sie keine Begriffe wie "dumm", "blöd", "Hirnfäule", "Schaden", "Beschädigung", "Passivität", "Trimming" u. Ä. – das würde der Arbeit einen Bärendienst erweisen, denn wir haben diese Wortwahl im Paper nicht verwendet, insbesondere nicht, wenn Sie als Journalist darüber berichten. (…)
Zusätzlich bitten wir, auf Ausdrücke wie "Gehirnscans", "LLMs lassen einen aufhören zu denken", "negative Auswirkungen", "Hirnschäden" und "erschreckende Erkenntnisse" zu verzichten.
Tja. Das hat leider nicht so gut geklappt. Genau diese Begriffe dominieren die Reaktionen – zumindest die Hottakes, die viral gegangen sind.
Das ist schade, denn die Studie ist viel differenziert und lässt trotz des kleinen Samples einige Rückschlüsse zu. Die Forscherïnnen haben mithilfe eines EEG die Gehirnströme gemessen und unter anderem festgestellt:
- Studierende, die Essays zuerst mithilfe von ChatGPT schreiben, und anschließend selbst denken müssen, klingen dabei oft wie eine KI. Zudem erinnern sie sich kaum noch an den ersten Text, bei dem KI geholfen hat.
- Im Hirn werden dabei andere Areale aktiviert. Wer sich ausschließlich auf LLMs verlässt, löst weniger tiefgehende kognitive Prozesse aus.
- Wenn man zuerst selbst schreibt und erst für eine weitere Aufgabe eine KI nutzt, reagiert das Hirn anders. Es werden mehr Neuronen aktiviert, und das Ergebnis erinnert weniger an ein Sprachmodell.
Ironischerweise scheinen sich viele Menschen, die das Paper weiterverbreiteten, auf eine KI-generierte Zusammenfassung verlassen haben (Steffi Kieefer):
Wie kennen das alle: Wir verbreiten Studien über die Gefahren von KI, setzen dabei aber genau diese KI ein, um sie überhaupt erst zu verstehen.
Nutzt KI, um das Terrain abzustecken – und erkundet es anschließend selbst. Macht sie zu eurer Forschungsassistentin, nicht zu eurem Ersatzgehirn.
Be smart
Wer sich täglich mit KI beschäftigt, hält viele Dinge für selbstverständlich. Tatsächlich ist der Einstieg aber schwer. Allein die Bezeichnungen der LLMs sind eine Wissenschaft für sich, und es dauert eine Weile, bis man herausfindet, wobei Sprachmodelle wirklich helfen können.
Ethan Mollick hat eine nützliche Anleitung für alle geschrieben, die jetzt mit KI anfangen wollen (One Useful Thing). Auf Deutsch gibt es ähnliche Tipps von mir (Simon) bei der SZ, inklusive zehn Ideen, wobei LLMs im Alltag helfen können.
Mindestens genauso wichtig ist es, zu wissen, wofür sich KI nicht eignet. Katie Harbath nennt vier Aufgaben, bei denen man besser die Finger von Sprachmodellen lässt (Anchor Change).
Wir ergänzen ihre Liste mit einer Beobachtung von Clayton Ramsey:
Ich habe noch nie ein Ergebnis eines generativen Modells gesehen – ob Bild, Text, Audio oder Video –, das ich dem ursprünglichen Prompt vorziehen würde. Das Resultat enthält weniger Substanz als der Prompt und zeigt keinerlei menschliche Vision. Der Sinn kreativen Schaffens besteht doch darin, die eigene Erfahrung zu teilen. Gibt es keine Erfahrung, lohnt sich der Aufwand nicht. Ist etwas nicht wert, geschrieben zu werden, ist es auch nicht wert, gelesen zu werden.
Microsoft: Comms ohne KI? Ohne mich!
2 Jahre KI in der Kommunikation – was geht heute, was bringt morgen?
Online-Event am 3. Juli 2025, 11:00–13:00 Uhr
Das Microsoft-Kommunikationsteam zeigt, was im Arbeitsalltag mit generativer KI bereits möglich ist und wie sie sicher in die Kommunikationsprozesse integriert wird. Außerdem gibt es inspirierende Praxisbeispiele von Kunden, einen Ausblick auf die nächste Welle der KI-Revolution (KI-Agenten!) sowie die Gelegenheit, im Chat Einblick in die Ansätze anderer Kommunikator*innen zu bekommen und sich direkt auszutauschen.
Jetzt kostenlos anmelden: https://forms.office.com/r/Kr5qFYKmuA

Politics
- TikTok-Aus zum dritten Mal verschoben: Nun ist es amtlich. Donald Trump hat die Deadline für das TikTok-Verbot ein weiteres Mal verlängert (AP). Nur zur Erinnerung: Das ist juristisch mindestens fragwürdig (SMWB). Wirkliche Gegenwehr ist aber öffentlich nicht zu vernehmen. Mehr noch: In Cannes tun einfach alle so, als gäbe es das Thema überhaupt nicht. Happy Hours und Pickleball for the win (New York Times).
- Tech-Unternehmen 🤝 Militär: Lange Zeit galt eine Zusammenarbeit zwischen Tech-Giganten und Militär als verpönt. Jetzt aber hat sich der Wind gedreht und die großen Tech-Firmen machen mit dem (US-) Militär zunehmend gemeinsame Sache. Metas CTO Andrew Bosworth, OpenAI-Größen wie Kevin Weil und Bob McGrew sowie Palantirs CTO Shyam Sankar sind nun alle Reservisten der US-Armee im Rahmen der neu gegründeten Gruppe Detachment 201 (U.S. Army). Das Ziel der Gruppe: „Fuse cutting-edge tech expertise with military innovation“. Open AI freut sich über einen neuen 200 Millionen Dollar schweren Deal, um KI-Prototypen zu entwickeln (Reuters). Spotify-Boss Daniel Ek führt eine 600 Millionen Dollar schwere Finanzierungsrunde in die deutsche Drohnenfirma Helsing an (TechCrunch).
- EU: Keine Werbung bei WhatsApp vor 2026: Meta hat bei der EU vorgesprochen und erklärt, dass in der EU bei WhatsApp vorerst noch keine Anzeigen lanciert werden (können). (Politico)
- Australien: Social-Media-Verbot für Kids unter 16 Jahren nimmt weiter Fahrt auf: Eine von der australischen Regierung in Auftrag gegebene Studie zeigt, dass es technisch durchaus möglich sei, Alterskontrollen durchzusetzen (Bloomberg). Ja, klar. Es ist halt nur die Frage, was dann noch von der Privatsphäre der Nutzenden übrig bleibt.
Money
- Reddit verwandelt Posts in Anzeigen, also wenn die Werbetreibenden den Post so gut finden, dass sie gern damit werben möchten. Ob die Verfasser der Posts dafür etwas bekommen? Nope. (The Verge)
- YouTube bittet zum Vorsprechen: Werbetreibende können fortan Themen pitchen und schauen, welche Creator die besten Inhalte liefern. Der Clou: Die Videos kriegen dann zunächst nur die Marketing-Kollegïnnen zu sehen. Ob die eingereichten Videos auch zum gewünschten Sponsoring-Deal führen, ist keineswegs sicher. (Google)
- X will Trading anbieten: CEO Linda Yaccarino hat gegenüber der Financial Times erklärt, dass Trading ein weiterer Baustein auf dem Weg zur „Everything App“ sein soll.
Next
- Meta kündigt Verkauf smarter Oakley-Brillen an: Die Sonnenbrillen mit integrierter Kamera, Mikrofon und Kopfhörer richten sich vor allem an Sportbegeisterte sowie Selbstverliebte, sind ab Sommer erhältlich und kosten 399 Dollar. (Meta)
- Midjourney hat einen Video-Generator gelauncht: Userïnnen können nun aus statischen Bildern Bewegtbilder machen. (Midjourney)
- Google trainiert Gemini und Veo 3 mit YouTube-Videos: Soweit so klar. Dass diese (alte) Nachricht aber so viele Creator überrascht hat, überrascht wiederum uns. (CNBC)
Beobachtungen
- Substack zieht immer mehr Top-Journalistïnnen an: Nun startet also auch Derek Thompson von The Atlantic seinen eigenen Newsletter bei Substack (Status). Wirklich spannend, wie das Thema Newsletter-Journalismus derzeit noch einmal wieder Fahrt aufnimmt in den USA. Hierzulande ist das ja gefühlt schon wieder ziemlich durch. Also bis auf yours truly natürlich — wir sind gekommen, um zu bleiben ✊🏻 🤞🏻 🤙🏻
Sommerpause: Vom 7.7. bis zum 20.7. machen wir zwei Wochen Sommerpause. In dieser Zeit verschicken wir keine Briefings, sondern fahren mit dem Fahrrad durch die Toskana und zelten im Wald. Frische Luft, ftw!
Mitglieder-Diskussion