Analyse: DeepSeek R1 revolutioniert Kosten und Leistung in KI-Entwicklung

Das chinesische Unternehmen DeepSeek hat mit seinem neuen R1-Modell für Aufsehen in der KI-Branche gesorgt, da es die Leistung von OpenAIs o1 zu nur 3-5% der Kosten erreicht. Das am 20. Januar 2025 veröffentlichte Modell wurde bereits über 109.000 Mal auf HuggingFace heruntergeladen und zeigt damit großes Interesse seitens der Entwicklergemeinschaft. Der Durchbruch basiert auf …

Weiterlesen …

Chinesisches KI-Startup DeepSeek fordert Branchenführer mit Open-Source-Modell heraus

Das chinesische KI-Unternehmen DeepSeek hat mit der Veröffentlichung seines Sprachmodells DeepSeek-R1 große Aufmerksamkeit in der Technologiebranche erregt. Das von Hedgefonds-Manager Liang Wenfengs Team entwickelte Modell erreicht nach Unternehmensangaben die Leistung des führenden OpenAI-Modells, wurde jedoch zu einem Bruchteil der Kosten – etwa 5,6 Millionen Dollar unter Verwendung von 2.048 Nvidia H800-Chips – trainiert. Im Gegensatz …

Weiterlesen …

Tencent Hunyuan3D 2.0 erstellt 3D-Modelle in Sekunden

Tencent hat ein neues KI-System namens Hunyuan3D 2.0 entwickelt, das innerhalb von Sekunden 3D-Modelle aus Einzelbildern oder Textbeschreibungen erstellt. Die Technologie, über die Michael Nuñez berichtet, automatisiert einen Prozess, der Künstler üblicherweise Tage oder Wochen kostet. Das System nutzt zwei Hauptkomponenten für Form und Oberflächendetails und erreicht laut Tencent bessere Ergebnisse als bisherige Lösungen. Die …

Weiterlesen …

DeepSeek veröffentlicht neue Reasoning-Modelle

Das chinesische KI-Unternehmen DeepSeek hat seine neuen Sprachmodelle DeepSeek-R1-Zero und DeepSeek-R1 sowie sechs kleinere destillierte Versionen vorgestellt. Die Hauptmodelle, die auf DeepSeeks V3-Architektur basieren, verfügen über insgesamt 671 Milliarden Parameter, von denen 37 Milliarden aktiv sind, und eine Kontextlänge von 128.000 Token. Laut Unternehmensangaben erreicht DeepSeek-R1 eine mit OpenAI-Modellen vergleichbare Leistung in den Bereichen Mathematik, …

Weiterlesen …

MiniMax stellt Modell mit Rekord-Kontextfenster vor

Das Unternehmen MiniMax aus Singapur hat ein neues Open-Source-Sprachmodell vorgestellt, das bis zu 4 Millionen Token verarbeiten kann. Wie Carl Franzen in VentureBeat berichtet, übertrifft dies die bisherige Höchstmarke um das Doppelte. Das MiniMax-01 genannte Modell nutzt eine neuartige „Lightning Attention“-Architektur und ein System mit 32 Experten-Modulen. Die API-Nutzung kostet 0,2 Dollar pro Million Eingabe-Token, …

Weiterlesen …

Diffbot stellt KI-Modell mit Echtzeit-Faktenprüfung vor

Das Silicon-Valley-Unternehmen Diffbot hat ein neues KI-Modell entwickelt, das KI mit Echtzeit-Faktenüberprüfung verbindet. Wie Michael Nuñez für VentureBeat berichtet, basiert das System auf der GraphRAG-Technologie und nutzt Meta’s Llama 3.3. Das Modell greift auf Diffbots Knowledge Graph zu, eine Datenbank mit über einer Billion Fakten, die alle vier bis fünf Tage aktualisiert wird. In Benchmark-Tests …

Weiterlesen …

Microsoft veröffentlicht KI-Modell Phi-4 als Open Source

Microsoft hat sein KI-Modell Phi-4 als Open-Source-Software auf der Plattform Hugging Face freigegeben, wie Carl Franzen berichtet. Das Modell war zuvor nur über Microsofts Azure AI Foundry-Plattform verfügbar. Phi-4 verfügt über 14 Milliarden Parameter und zeigt besondere Stärken im mathematischen Denken und Sprachverständnis. Microsoft hat die vollständigen Modellgewichte unter der MIT-Lizenz veröffentlicht. Diese Lizenz erlaubt …

Weiterlesen …

Im Test: DeepSeek-V3 konkurriert mit Marktführern bei niedrigeren Kosten

Das neue KI-Modell DeepSeek-V3 erreicht vergleichbare Leistungen wie führende proprietäre Systeme bei deutlich niedrigeren Kosten. Dies geht aus einer umfassenden Analyse von Sunil Kumar Dash hervor. Das Modell übertrifft demnach die Fähigkeiten von GPT-4 und Claude 3.5 Sonnet bei mathematischen Aufgaben und erreicht ähnliche Leistungen im Programmierbereich. Diese Erfolge basieren auf mehreren technischen Innovationen, darunter …

Weiterlesen …

DeepSeek-V3 auf Augenhöhe mit GPT-4 und Claude 3.5 Sonnet

Das chinesische KI-Startup DeepSeek hat sein neues KI-Modell DeepSeek-V3 vorgestellt. Wie Shubham Sharma für VentureBeat berichtet, verfügt das Modell über 671 Milliarden Parameter, aktiviert jedoch durch seine Experten-Mischarchitektur nur 37 Milliarden für jede Aufgabe. Das Modell wurde mit 14,8 Billionen verschiedenen Tokens trainiert und zeigt überlegene Leistung in mehreren Bereichen, besonders in Mathematik und Programmierung. …

Weiterlesen …

IBM stellt verbesserte Granite 3.1 Sprachmodelle vor

IBM hat eine neue Version seiner Open-Source-Sprachmodelle, Granite 3.1, veröffentlicht. Wie Sean Michael Kerner für VentureBeat berichtet, bieten die neuen Modelle deutliche Verbesserungen in Leistung und Funktionalität. Das Granite 8B Instruct Modell übertrifft laut IBM vergleichbare Konkurrenzprodukte wie Meta Llama 3.1 und Google Gemma 2 in akademischen Benchmarks. Die Kontextlänge wurde von 4.000 auf 128.000 …

Weiterlesen …