Was ist
Da machen wir mal einen Tag Klausur, entwickeln Ideen für die Zukunft des Watchblogs, ignorieren Handys, Mails und RSS-Feeds – und schwuppdiwupp, schon steht die KI-Welt auf dem Kopf. Die Sprachmodelle des chinesischen Start-ups DeepSeek haben in den USA eine Mischung aus Panik und Begeisterung ausgelöst.
Die einen fürchten, dass eine Billionen-Blase platzen könnte, die anderen legen den Fokus auf die Chancen für die KI-Entwicklung. Klar ist auf jeden Fall, dass man einige Grundannahmen über den Haufen werfen muss, die bislang für Training und Betrieb von Sprachmodellen galten.
Unser Briefing besteht aus drei Teilen:
- Wir erklären in leicht verständlicher Sprache, was DeepSeek erreicht hat. Dabei verzichten wir weitgehend auf Zahlen und technische Details, stattdessen verlinken auf weiterführende Texte.
- Wir beschreiben die möglichen Auswirkungen des Durchbruchs von DeepSeeks.
- Wir sammeln offene Fragen, Risiken und Probleme.
Was DeepSeek erreicht hat
- DeepSeek ist eine Ausgründung des chinesischen Hedgefonds High-Flyers und entwickelt erst seit 2023 eigene Sprachmodelle. Mehr über die Geschichte des Start-ups und seines Gründers liest du bei Wired und der Washington Post.
- Ende Dezember veröffentlichte DeepSeek V3 große Teile seines Sprachmodells als Open-Source-Code, vergangene Woche folgte R1. Dabei handelt es sich um ein Modell mit Reasoning-Fähigkeiten. R1 versucht also ähnlich wie o1 von OpenAI, selbstständig logische Schlussfolgerungen zu ziehen und die Denkprozesse von Menschen nachzuahmen.