Zum Inhalt springen

Warum Daten der wertvollste Rohstoff des KI-Zeitalters sind

Texte wie dieser könnten bald viel wert sein. Weil ihn kein Sprachmodell zusammengesetzt hat, sondern ein Mensch.

Was ist

Seit mindestens einem Jahrzehnt ist klar, wie wertvoll Daten sein können. Fast alle werbebasierten Geschäftsmodelle beruhen auf gewaltigen Datenschätzen, auf deren Grundlage Anzeigen personalisiert werden. Suchmaschinen und soziale Medien haben deshalb unvorstellbare Mengen an Daten angehäuft.

Doch im Zuge des KI-Booms haben Daten einen neuen Wert gewonnen. Jetzt geht es nicht mehr um Nutzerdaten, sondern um Trainingsdaten. OpenAI und Google füttern GPT-4 und Gemini mit allem, was nicht bei drei widerspricht und Crawler explizit ausschließt. Auch private und sensible Informationen landen in den Datensätzen (Scientific American). Das Urheberrecht? Eher nebensächlich (Axios, SMWB).

Binnen weniger Jahre ist der Datenhunger ins Unermessliche gestiegen. GPT-2 beruhte 2019 auf 1,5 Milliarden Tokens, also Wörtern oder Wortfragmenten. Der Nachfolger GPT-3 erschien 2020 und wurde mit 300 Milliarden Tokens trainiert. Für aktuelle Modelle wurden mehrere Billionen Token verwendet.

Das Problem: Selbst das schier unendlich große Netz ist endlich – zumindest, was qualitativ hochwertige Inhalte angeht. Für halbwegs brauchbare LLMs braucht es gutes Trainingsmaterial, sonst reproduzieren sie Bullshit. Deshalb haben Unternehmen wie Reddit und WordPress begonnen, ihren Datenschatz zu kommerzialisieren.

Sie lizenzieren ihre Archive an Google und OpenAI, ohne die Urheber zu fragen: ihre Nutzerïnnen, die jahrelang fleißig gepostet und gebloggt haben (SWMB). Auch Nachrichtenagenturen, Bilddatenbanken und Verlage wie Axel Springer haben Verträge mit OpenAI geschlossen und verkaufen Trainingsdaten. Heute wurde bekannt, dass auch Adobe seinen Nutzerïnnen mehrere Dollar pro Minute Videomaterial bezahlt, mit denen es KI-Modelle füttern kann (Bloomberg).

Doch auch damit lässt sich Peak Data allenfalls einige Jahre aufschieben. KI-Modelle verschlingen das Material schneller, als Menschen neue Texte erzeugen können (WSJ). Vergangene Woche schrieben wir deshalb (SWMB):

Der Punkt, an dem das Internet leer gelesen ist, könnte schneller kommen, als man denkt. OpenAI denkt bereits darüber nach, künftige Modelle mit Transkripten von YouTube-Videos zu trainieren, weil die Texte ausgehen, die als Tokens für den Input dienen können.

An dieser Stelle knüpfen wir heute an. Denn eine Recherche der New York Times verdeutlicht, welch absurden und teils illegalen Ausmaße die Datensammelwut mittlerweile angenommen hat.

Wie KI-Konzerne um Daten wetteifern

The team was told specifically to release the new terms on the Fourth of July weekend, when people were typically focused on the holiday, the employees said. The revised policy debuted on July 1, at the start of the long weekend.
At Meta, which owns Facebook and Instagram, managers, lawyers and engineers last year discussed buying the publishing house Simon & Schuster to procure long works, according to recordings of internal meetings obtained by The Times. They also conferred on gathering copyrighted data from across the internet, even if that meant facing lawsuits. (…) Mr. Zuckerberg demanded a solution, employees said.
They also talked about how they had summarized books, essays and other works from the internet without permission and discussed sucking up more, even if that meant facing lawsuits. One lawyer warned of “ethical” concerns around taking intellectual property from artists but was met with silence, according to the recordings.
Meta’s executives said OpenAI seemed to have used copyrighted material without permission. It would take Meta too long to negotiate licenses with publishers, artists, musicians and the news industry, they said, according to the recordings.

Wie synthetische Daten helfen könnten

OpenAI and others have explored a technique where two different A.I. models work together to generate synthetic data that is more useful and reliable.
One A.I. model generates the data. Then a second model judges the data, much like a human would, deciding whether the data is good or bad, accurate or not. A.I. models are actually better at judging text than writing it.

Warum das riskant ist