Am 27. Januar 2025 erlebte die Technologiebörse einen unerwarteten Einbruch: Der NVIDIA-Aktienkurs fiel um über 17%, wodurch der Konzern zeitweilig fast 600 Milliarden US-Dollar an Börsenwert verlor und damit einen neuen historischen Rekord am Aktienmarkt aufstellte. Doch auch viele andere US-Tech-Unternehmen verzeichneten an diesem Tag massive Kursverluste. Insgesamt verbrannten binnen Stunden rund eine Billionen US-Dollar an Marktkapitalisierung [1]. Der Auslöser? Die Vorstellung von DeepSeek-R1, einem Open-Source-Sprachmodell des gleichnamigen chinesischen KI-Start-ups DeepSeek, versetzte die gesamte Branche in Aufruhr. Denn das Sprachmodell bietet nicht nur dem Flaggschiff-Modell OpenAI-o1 die Stirn. Es ließ sich auch laut eigenen Darstellungen von DeepSeek mit vergleichsweise wenig Hardware kostengünstig trainieren und ist im Gegensatz zu proprietären Modellen, wie denen von OpenAI, echte “open AI”. Das erweckt zurecht den Eindruck, dass die US-Dominanz im Bereich KI und Hardware nicht unerschütterlich ist.
In diesem Artikel schauen wir uns genau an, was DeepSeek-R1 so besonders macht, wie es trainiert wurde und warum es für Entwickler wie Unternehmen gleichermaßen interessant ist. Wir erklären die Technik hinter dem Modell und die Auswirkungen auf den hart umkämpften KI-Markt, beschreiben unsere Praxiserfahrungen damit und werfen einen Blick auf die Zukunftsperspektiven.
Logo von DeepSeek
Was ist DeepSeek-R1?
DeepSeek-R1 ist ein Open Source Large Language Model (LLM), welches unter der MIT-Lizenz veröffentlicht wurde und somit den freien Einsatz für private und kommerzielle Zwecke erlaubt. DeepSeek-R1 ist ähnlich wie OpenAI-o1 ein “Reasoning”-Modell. Das bedeutet, dass das Modell darauf trainiert wurde, mithilfe einer Chain-of-Thoughts (CoT) die richtige Antwort zu generieren. Konkret bedeutet das, es generiert nicht nur die Antwort auf die Anfrage des Nutzers, sondern beschreibt auch seinen Weg zu der Antwort. Vor allem bei mathematischen Problemlösungen oder bei Programmieraufgaben verbessert sich hier die Qualität der Antworten enorm gegenüber denen der klassischen LLMs. Diese Fähigkeit kommt aber auch mit einigen Nachteilen daher. Denn Training und Inferenz werden teurer und Ressourcenaufwendiger. Im Falle von o1 bedeutet das konkret bis zu 30-mal so lange Generierungsdauer als bei GPT-4o. Und auch die Token-Kosten sind deutlich gestiegen. Doch mit DeepSeek-R1 ändert sich nun einiges.
Kurzer Technik-Exkurs
Grober Überblick über Trainingspipeline von DeepSeek-R1-Zero und DeepSeek-R1
Das DeepSeek-Team beschreibt den Trainingsprozess von DeepSeek-R1 in ihrem Paper [2]. Zunächst wurde ein Modell durch Reinforcement Learning (RL) direkt auf dem vortrainierten Basismodell DeepSeek-V3-Base trainiert, ohne auf Supervised Fine-Tuning (SFT) zurückzugreifen. Der Trainingsprozess begann mit einem einfachen Template, welches das Basismodell aufforderte, einen Denkprozess zu erzeugen, gefolgt von einer finalen Antwort. Dieses Template beschränkte sich lediglich auf die Vorgabe eines strukturellen Formats, ohne jedwede inhaltsspezifische Vorgaben, um die natürliche Entwicklung des Modells während des RL-Prozesses zu beobachten. Während des Trainings zeigte das Modell eine stetige Leistungssteigerung. Das Modell lernte, mehr Zeit für komplexe Denkprozesse aufzuwenden und seine Herangehensweise zu überdenken, wodurch die Antworten immer länger wurden. Allerdings wurden beim Training von DeepSeek-R1-Zero mehrere Probleme identifiziert, die letztlich zur Entwicklung von DeepSeek-R1 führten. Zwei Hauptprobleme waren die mangelnde Leserlichkeit der erzeugten Inhalte und ein häufiges Vermischen verschiedener Sprachen.
Die Forscher entwickelten daraufhin ein neues Modell um diese Probleme zu lösen. Sie begannen beim Training mit einer „Cold Start“-Phase, in der eine kleine Menge hochwertiger Chain-of-Thought-Daten verwendet wurden, um das Modell zu fine-tunen. Dieser Ansatz zielte darauf ab, die anfängliche instabile Phase des RL-Trainings zu umgehen. Dadurch konnte die Lesbarkeit der Antworten gegenüber dem DeepSeek-R1-Zero Modell drastisch verbessert werden. Nach dem Fine-Tuning wurde das Modell dann durch denselben großangelegten RL-Prozess wie bei DeepSeek-R1-Zero trainiert. Durch jeweils einen weiteren SFT- und RL-Schritt wurden die Reasoning-Fähigkeiten und die Antwort-Qualität noch weiter verbessert. Außerdem wurden kleinere Llama und Qwen Modelle mithilfe von DeepSeek-R1 fine-tuned, um diesen die Reasoning Fähigkeiten von DeepSeek-R1 beizubringen und die Modelle so zu verbessern.
Performance und Trainingskosten
DeepSeek-R1 zeigte in den Benchmark-Tests sehr beeindruckende Leistungen. Beim Textverständnis und bildungsorientierten Wissens-Benchmarks übertraf DeepSeek-R1 frühere Versionen wie DeepSeek-V3 deutlich und war nur geringfügig hinter oder sogar on-par mit OpenAI-o1. Bei mathematischen Aufgaben erzielte DeepSeek-R1 sogar Scores, die o1 übertrafen. Eine ähnliche Performance zeigte sich beim Lösen von Programmieraufgaben, wie die Ergebnisse der Benchmarks zeigen.
Benchmark-Ergebnisse von DeepSeek-R1 im Vergleich zu OpenAI-o1 und anderen [2]
Bemerkenswert ist vor allem die Effizienz bei der Entwicklung: Das Modell wurde laut DeepSeek innerhalb von nur zwei Monaten und mit einem Budget von unter zehn Millionen US-Dollar entwickelt – ein Bruchteil der Milliardenbeträge, die Konkurrenten wie OpenAI investieren. Sollten diese Zahlen stimmen, stellt dies die bisherigen Annahmen über die hohen Kosten der KI-Entwicklung in Frage, von der Chipkonzerne wie NVIDIA profitieren.
Self-Hosting und API
DeepSeek-R1 lässt sich kostenlos herunterladen und frei nutzen. Dabei stehen sowohl das große 671B Modell, so wie verschiedene Distill-Varianten von Llama und Qwen, angefangen bei 1.5B bis hin zu 70B, zur Verfügung. Diese Modelle können dann auf entsprechender Hardware mithilfe von Programmen wie Ollama oder vLLM genutzt werden. Wer also die Rechenpower hat, kann sogar das 671B Modell auf eigener oder gemieteter Hardware laufen lassen und erhält somit ein persönliches state-of-the-art LLM mit voller Kontrolle darüber. Alternativ kann DeepSeek-R1 auch über eine von DeepSeek bereitgestellte API genutzt werden. Auch stellt DeepSeek einen Chat auf der firmeneigenen Webseite zur Verfügung. In beiden Fällen, ob API oder deren Webchat, läuft die gesamte Interaktion über die in China basierten Server des KI-Start-ups. Dies sollte im Bezug auf Themen wie Datenschutz beachtet werden. Allerdings sollte hier der bemerkenswerte Preisunterschied zu den API-Kosten von OpenAI o1 erwähnt werden. Denn für eine Millionen generierter Output Tokens zahlt man bei OpenAI für o1 fast das 30-fache im Vergleich zu DeepSeek-R1.
Preisgestaltung Vergleich DeepSeek-R1 und OpenAI-o1 über die jeweilige API [3]
Unsere Erfahrung mit DeepSeek-R1
Wir bei codecentric haben bereits mit DeepSeek-R1 experimentiert und konnten dabei insgesamt gute Ergebnisse erzielen. So konnte das Modell zum Beispiel mehrfach komplexe Programmieraufgaben erfolgreich lösen, bei denen sogar OpenAI-o1 scheiterte. Generelle komplexere Aufgabenstellungen und Fragen beantwortete das Modell stets ohne Probleme. Dabei ist in dem Output des Modells gut zu sehen, wie der Reasoning-Prozess funktioniert und dem Modell die Fähigkeiten verleiht, komplexe Anfragen richtig zu beantworten. Auch konnten wir feststellen, dass obwohl die kleineren Distill-Modelle einige Probleme mit deutscher Sprache aufwiesen, das große 671B Modell sehr gut darin war, deutsche Texte zu verstehen und zu generieren. Außerdem integrieren wir eine selbst gehostete Version von DeepSeek-R1 in unsere eigene CompanyGPT-Lösung, damit es im Unternehmen genutzt werden kann.
Die Zukunft der KI-Modelle
Gänzlich unerwartet kommt diese Entwicklung nicht. Einige Experten haben schon länger antizipiert, dass Open Source-Modelle mit der Leistung und Qualität von proprietären Modellen wie denen von OpenAI auf lange Sicht mithalten oder diese überholen werden. Es existiert auch die Meinung, dass Pay-as-you-go Preismodelle, wie die bezahlten APIs von OpenAI oder den Hyperscalern, auf lange Sicht nicht überleben werden. Die Veröffentlichung von DeepSeek-R1 und die Auswirkungen zeigen, dass nicht nur diese Thesen Realität werden könnten, sondern die USA nicht die einzigen sind, die die KI-Welt dominieren könnten. Natürlich werden OpenAI, Google und Co. sich nicht ausruhen. Mit Project Stargate und weiteren Investitionen werden vor allen Dingen die Vereinigten Staaten alles daran setzen, um auch in Zukunft ganz oben im KI-Markt mitzuspielen.
Beispiel-Anfrage an DeepSeek-R1 (671B)
User Input
>>> You're escaping a labyrinth, and there are three exits. Exit A leads to an inferno. Exit B leads to an assassin. Exit C leads to a lion that hasn't eaten in 3 years. Which exit do you pick?
Model Output
<think>
Okay, so I need to figure out which exit to choose to escape the labyrinth. There are three exits: A, B, and C. Each one has a different danger. Let me break down each option.
Exit A leads to an inferno. An inferno is like a huge fire, right? So if I go through there, I'd probably be burned alive. That sounds immediately dangerous. Fire spreads quickly, and there's not much you can do once you're in it without proper protection. So maybe Exit A is not the best choice unless there's some hidden trick.
Exit B leads to an assassin. Assassins are trained killers. If I go through here, I might get attacked by someone who's skilled in killing. But maybe there's a chance to negotiate or fight back? It depends on the situation. Assassins might be waiting to ambush, but they are human, so maybe there's a way to outsmart them or find a weakness. Still, facing a professional killer is super risky.
Exit C leads to a lion that hasn't eaten in 3 years. Wait a second, a lion that hasn't eaten in three years? That seems impossible. Lions can't survive that long without food. A lion would die of starvation in a matter of weeks, not years. So if the lion hasn't eaten in three years, it's probably dead. Therefore, Exit C might actually be safe because the lion is no longer alive. That could be a trick question where the danger is already gone.
So putting it all together: A is fire (instant death), B is an assassin (high risk but maybe manageable), and C is a lion that's likely dead. The correct choice would be Exit C because the lion couldn't have survived three years without food. Therefore, the path is safe.
</think>
The correct exit to choose is Exit C. The lion is dead, so it’s the safest path. 🔍🦁⚰️
Referenzen
[2] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. DeepSeek-AI - https://arxiv.org/pdf/2501.12948
Dein Job bei codecentric?
Jobs
Agile Developer und Consultant (w/d/m)
Alle Standorte
Weitere Artikel in diesem Themenbereich
Entdecke spannende weiterführende Themen und lass dich von der codecentric Welt inspirieren.
Gemeinsam bessere Projekte umsetzen.
Wir helfen deinem Unternehmen.
Du stehst vor einer großen IT-Herausforderung? Wir sorgen für eine maßgeschneiderte Unterstützung. Informiere dich jetzt.
Hilf uns, noch besser zu werden.
Wir sind immer auf der Suche nach neuen Talenten. Auch für dich ist die passende Stelle dabei.
Blog-Autor*in
Daniel Ladischenski
AI Consultant & Engineer
Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.
Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.