Was ist

Gestern Abend hat OpenAI bemerkenswerte Neuigkeiten vorgestellt. Keine Suchmaschine, die Google und Verlagen gefährlich werden könnte (Washington Post), und auch nicht GPT-5, über das seit Monaten spekuliert wird. Der Anlass des kurzfristig angekündigten Livestreams war ein anderer: GPT-4o, die neue Entwicklungsstufe seines Sprachmodells.

Was GPT-4o kann

Das o steht für omni, das Modell kann gleichzeitig Text, Töne und Videos verarbeiten und ausgeben. Bislang kombinierte OpenAI dafür unterschiedliche Modelle und ließ Spracheingaben der Nutzerïnnen erst transkribieren, um dann die Text-Antwort des LLMs als zu Audio abzuspielen. GPT-4o beherrscht alle Formate nativ (Googles Gemini-Modell ist ebenfalls multimodal, bislang allerdings nicht so schnell). Zudem soll es signifikant schneller, leistungsfähiger und effizienter sein als GPT-4 Turbo, das bisherige Spitzenmodell.

Wir verzichten darauf, die Beispielvideos und Live-Demos auf der Bühne zu beschreiben. Die Clips werden gerade ohnehin auf allen Plattformen herumgereicht. Wenn Du Dir selbst einen Eindruck verschaffen willst, dann sieh Dir am besten ein paar der kurzen Videos im Blogeintrag von OpenAI an. Auch der rund 25-minütige Livestream (YouTube) vermittelt einen guten Eindruck.

Ein Teil der KI-Crowd wirft seit gestern mit Superlativen um sich, zieht Vergleich zu Science-Fiction-Filmen und quillt über vor Begeisterung. Dafür ist es etwas zu früh. Die Demos waren zwar live, aber die Erfahrung zeigt, dass nicht alles, was unter optimalen Bedingungen gut vorbereitet auf einer Bühne gezeigt wird, später genauso gut für alle Nutzerïnnen funktioniert.

Zu Recht tritt KI-Forscher Gary Marcus auf die Euphoriebremse (Marcus on AI). Er weist darauf hin, dass GPT-5 seit 14 Monaten auf sich warten lässt und GPT-4o nur geringfügig leistungsfähiger ist als die Vorgänger GPT-4 Turbo und GPT-4. Sein Fazit:

OpenAI has presumably pivoted to new features precisely because they don’t know how produce the kind of capability advance that the “exponential improvement” would have predicted. Most importantly, each day in which there is no GPT-5 level model–from OpenAI or any of their well-financed, well-motivated competitors—is evidence that we may have reached a phase of diminishing returns.

Diese Perspektive ist hilfreich zur Einordnung. Marcus ist in Zeiten des KI-Hypes ein wertvolles Korrektiv. Wir glauben aber, dass er mit seiner Kritik übers Ziel hinausschießt. GPT-4o mag in bestimmten Benchmarks nur etwas besser abschneiden und nach wie vor dazu neigen, Fakten mit Fiktion zu vermischen.

Doch darum geht es gar nicht. Die entscheidenden Teile der Ankündigung waren unserer Meinung nach andere.

Warum GPT-4o bemerkenswert ist

Die beiden zentralen Punkte nennt Sam Altman auf seinem privaten Blog:

  • Zum einen ist GPT-4o gratis für alle Nutzerïnnen verfügbar. Bislang blieben die jeweils leistungsfähigsten Modelle zahlenden Kundïnnen vorbehalten, künftig erhalten sie lediglich höhere Nutzungs-Limits. Auch Google und Anthropic setzen Abonnements für Gemini Ultra und Claude Pro voraus. Die Entscheidung von OpenAI setzt die Konkurrenten unter Druck und wird die Geschäftsmodelle kostenpflichtiger KI-Produkte verändern. Altman schreibt dazu:
Our initial conception when we started OpenAI was that we’d create AI and use it to create all sorts of benefits for the world. Instead, it now looks like we’ll create AI and then other people will use it to create all sorts of amazing things that we all benefit from. We are a business and will find plenty of things to charge for, and that will help us provide free, outstanding AI service to (hopefully) billions of people.
  • Zum anderen könnte GPT-4o verändern, wie Menschen mit KI interagieren. Von Anfang an war klar, dass Chatbots nur eine Übergangslösung sein würden. Auf allen anderen Plattformen ist Text auf dem Rückzug, Fotos, Sprachnachrichten und Videos dominieren. Warum sollte man plötzlich wieder tippen und lesen? Das denkt offenbar auch Altman:
Second, the new voice (and video) mode is the best computer interface I’ve ever used. It feels like AI from the movies; and it’s still a bit surprising to me that it’s real. Getting to human-level response times and expressiveness turns out to be a big change. The original ChatGPT showed a hint of what was possible with language interfaces; this new thing feels viscerally different. It is fast, smart, fun, natural, and helpful. Talking to a computer has never felt really natural for me; now it does.

Die Mischung aus bislang unerreichter Geschwindigkeit (Stratechery) und natürlicher Sprache lässt jetzt schon einen Schluss zu: Die Tage von Siri, Alexa und dem Google Assistant sind gezählt (The Atlantic):

Watching the presentation, I felt that I was witnessing the murder of Siri, along with that entire generation of smartphone voice assistants, at the hands of a company most people had not heard of just two years ago.

Kein Wunder, dass Google den limitierten Assistenten durch Gemini ersetzen möchte und Apple bereits mit OpenAI und Google verhandelt, um deren Technologie für iPhones zu lizenzieren (NYT).

Was GPT-4o über OpenAIs Vision verrät

Seit OpenAI im November 2022 ChatGPT vorstellte, neigen verblüffend viele und gut informierte Menschen dazu, KI zu vermenschlichen (The Verge). Sie schreiben der Maschine Emotionen und Persönlichkeit zu, obwohl sie wissen, dass sie mit einem Sprachmodell interagieren. Manche entwickeln gar Gefühle für Bots (Washington Post).

Google hat aus guten Gründen versucht, die Anthropomorphismus-Falle zu umschiffen. Gemini und der Vorgänger Bard sind klar erkennbar Bots, die Sicherheitsmaßnahmen wirken schärfer als bei OpenAI. Man möchte hilfreiche Technologien entwickeln, die sich nahtlos in den Alltag integrieren, aber als artifiziell erkennbar bleiben.

Mit GPT-4o scheint OpenAI einen anderen Ansatz zu verfolgen. Es ist wohl kein Zufall, dass GPT-4o klingt wie Scarlett Johansson im Film Her. Technikchefin Mira Murati streitet diesen Zusammenhang ab (The Verge), doch Altman selbst ließ auf X mit einem Ein-Wort-Post tiefer blicken: "her"

Das o in GPT-4o könnte auch für omnipräsent stehen. Dieses Ziel hat sich OpenAI offenbar gesetzt. KI soll natürlich und selbstverständlich werden, in alle Geräte einziehen und Interaktionen mit Menschen gleichen (One Useful Thing):

All of these features (…) are about making AI more present and more naturally connected to human systems and processes. If an AI that seems to reason like a human being can see and interact and plan like a human being, then it can have influence in the human world. This is where AI labs are leading us: to a near future of AI as coworker, friend, and ubiquitous presence. I don’t think anyone, including OpenAI, has a full sense of all of the implications of this shift, and what it will mean for all of us.

In den Beispielen und Demos simuliert GPT-4o immer wieder menschliche Emotionen. Die weibliche Stimme ändert den Tonfall, singt und lacht, summt und flirtet, fällt Nutzerïnnen ins Wort und scheint Gefühle zu erkennen. Das birgt Risiken (Platformer):

If you think the debate over teens and social media feels heated today, wait until the average child is spending as much time talking to their virtual friends as they are to their real ones. It remains to be seen whether technology like this will primarily lift people out of loneliness and isolation, or worsen it by encouraging people to spend ever more of their time interacting with screens and digital media.

Das Fazit von John Herrman erscheint uns treffend (New York Magazine):

OpenAI’s sudden emphasis on ChatGPT’s performance over, well, its performance is worth thinking about in critical terms, too. The new voice features aren’t widely available yet, but what the company showed off was powerfully strange: a chatbot that laughs at its own jokes, uses filler words, and is unapologetically ingratiating. To borrow Altman’s language, the fact that Monday’s demo “feels like magic” could be read as a warning or an admission: ChatGPT is now better than ever at pretending it’s something that it’s not.

Be smart

OpenAI scheint es darauf anzulegen, Google die Show zu stehlen. Zum wiederholten Mal kündigt man eigene Produkte an, kurz bevor Google etwas vorstellt. So war es bei Sora (SMWB), so ist es bei GPT-4o.

Heute Abend startet Googles Entwicklerkonferenz I/O. Auch dort wird sich fast alles um KI drehen, vermutlich wird es Neuigkeiten zu Gemini geben. OpenAI hat die Latte aber ziemlich hochgelegt. Wir halten es zumindest für unwahrscheinlich, dass Google sein Spitzenmodell künftig gratis für alle anbieten wird.


Social Media & Politik

  • Wie YouTube die Integrität der EU-Wahlen 2024 schützen möchte : klare Regeln für KI-Inhalte, zielgerichtete Content-Moderation und Weiterleitungen auf offizielle Seiten. (YouTube)
  • Stellt die TikTok-Präsenz des Bundeskanzlers ein Verstoß gegen den Datenschutz dar? Netzpolitik erklärt die Unterschiede zwischen privaten Accounts und Social-Media-Profilen von Mandatsträgern.
  • Die EU möchte gern von Elon Musk wissen, wie viele Menschen bei X noch in der Content Moderation tätig sind. Im letzten Bericht wurde zum Beispiel nicht eine einzige Person mit polnischer Muttersprache ausgewiesen. Warum auch? Das Land hat ja nur 36 Millionen Einwohner. /satireoff (Zeit Online)
  • MAGA Inc ist jetzt bei TikTok: Da läuft sich wohl einer warm, um bald selbst einen Account zu starten. (Semafor)

Social Media & Journalismus

  • Facebook bringt Publishern 50 Prozent weniger Traffic: Da hat einer wirklich überhaupt keine Lust mehr auf News auf seiner Plattform. (Press Gazette)
  • Speaking of which: Business Insider hat einen spannenden Artikel darüber, wie sich Mark Zuckerberg immer stärker von Nachrichten-Angeboten abwandte.

Neue Features bei den Plattformen

TikTok

  • TikTok labelt jetzt automatisch KI-Inhalte. Also die, die es erkennt. (TikTok)
  • TikTok testet zudem KI-generierte Suchergebnisse — in Koop mit ChatGPT. (The Verge)

Threads

  • Threads-Userïnnen können jetzt checken, wie viele Menschen einen Post gesehen haben. (The Verge)