Mistral Small 3 kann mit größeren Konkurrenten mithalten

Das französische KI-Startup Mistral AI hat Mistral Small 3 veröffentlicht, ein Sprachmodell mit 24 Milliarden Parametern, das laut Unternehmensangaben die Leistung von dreimal größeren Modellen erreicht. Dem Unternehmen zufolge erzielt das neue Modell eine Genauigkeit von 81% bei Standardtests und verarbeitet 150 Token pro Sekunde, was es mit Metas Llama 3.3 70B Modell vergleichbar macht, …

Weiterlesen …

DeepSeek-R1 senkt Entwicklungskosten für Enterprise KI

DeepSeeks neues KI-Reasoning-Modell R1 reduziert die Kosten für KI-Entwicklung erheblich. Wie Ben Dickson in VentureBeat berichtet, bietet DeepSeek-R1 vergleichbare Fähigkeiten wie führende Modelle zu einem Bruchteil des Preises. Das Modell kostet 2,19 Dollar pro Million Output-Token, während OpenAIs o1 mit 60 Dollar pro Million Token zu Buche schlägt. Auch über US-amerikanische Anbieter wie Together.ai und …

Weiterlesen …

Hugging Face arbeitet an Open-Source-Version von DeepSeeks R1

Hugging Face hat ein Projekt gestartet, um eine vollständig offene Version des KI-Reasoning-Modells R1 von DeepSeek zu entwickeln. Wie Kyle Wiggers für TechCrunch berichtet, zielt das Open-R1-Projekt darauf ab, sämtliche Komponenten des Originalmodells nachzubauen. Das Forschungsteam unter der Leitung von Leandro von Werra nutzt dafür den firmeneigenen Science Cluster mit 768 Nvidia H100 GPUs. Das …

Weiterlesen …

DeepSeek Janus Pro Bild-KI fordert etablierte Wettbewerber heraus

Das chinesische KI-Unternehmen DeepSeek hat eine neue Familie von KI-Modellen namens Janus-Pro eingeführt, die sowohl Bildanalyse als auch Bilderstellung ermöglichen. Die Modelle, die zwischen 1 Milliarde und 7 Milliarden Parameter umfassen, sind auf der Hugging Face-Plattform unter MIT-Lizenz verfügbar und erlauben eine uneingeschränkte kommerzielle Nutzung. Laut DeepSeek übertrifft das größte Modell der Familie, Janus-Pro-7B, mehrere …

Weiterlesen …

Analyse: DeepSeek R1 revolutioniert Kosten und Leistung in KI-Entwicklung

Das chinesische Unternehmen DeepSeek hat mit seinem neuen R1-Modell für Aufsehen in der KI-Branche gesorgt, da es die Leistung von OpenAIs o1 zu nur 3-5% der Kosten erreicht. Das am 20. Januar 2025 veröffentlichte Modell wurde bereits über 109.000 Mal auf HuggingFace heruntergeladen und zeigt damit großes Interesse seitens der Entwicklergemeinschaft. Der Durchbruch basiert auf …

Weiterlesen …

Chinesisches KI-Startup DeepSeek fordert Branchenführer mit Open-Source-Modell heraus

Das chinesische KI-Unternehmen DeepSeek hat mit der Veröffentlichung seines Sprachmodells DeepSeek-R1 große Aufmerksamkeit in der Technologiebranche erregt. Das von Hedgefonds-Manager Liang Wenfengs Team entwickelte Modell erreicht nach Unternehmensangaben die Leistung des führenden OpenAI-Modells, wurde jedoch zu einem Bruchteil der Kosten – etwa 5,6 Millionen Dollar unter Verwendung von 2.048 Nvidia H800-Chips – trainiert. Im Gegensatz …

Weiterlesen …

Tencent Hunyuan3D 2.0 erstellt 3D-Modelle in Sekunden

Tencent hat ein neues KI-System namens Hunyuan3D 2.0 entwickelt, das innerhalb von Sekunden 3D-Modelle aus Einzelbildern oder Textbeschreibungen erstellt. Die Technologie, über die Michael Nuñez berichtet, automatisiert einen Prozess, der Künstler üblicherweise Tage oder Wochen kostet. Das System nutzt zwei Hauptkomponenten für Form und Oberflächendetails und erreicht laut Tencent bessere Ergebnisse als bisherige Lösungen. Die …

Weiterlesen …

DeepSeek veröffentlicht neue Reasoning-Modelle

Das chinesische KI-Unternehmen DeepSeek hat seine neuen Sprachmodelle DeepSeek-R1-Zero und DeepSeek-R1 sowie sechs kleinere destillierte Versionen vorgestellt. Die Hauptmodelle, die auf DeepSeeks V3-Architektur basieren, verfügen über insgesamt 671 Milliarden Parameter, von denen 37 Milliarden aktiv sind, und eine Kontextlänge von 128.000 Token. Laut Unternehmensangaben erreicht DeepSeek-R1 eine mit OpenAI-Modellen vergleichbare Leistung in den Bereichen Mathematik, …

Weiterlesen …

MiniMax stellt Modell mit Rekord-Kontextfenster vor

Das Unternehmen MiniMax aus Singapur hat ein neues Open-Source-Sprachmodell vorgestellt, das bis zu 4 Millionen Token verarbeiten kann. Wie Carl Franzen in VentureBeat berichtet, übertrifft dies die bisherige Höchstmarke um das Doppelte. Das MiniMax-01 genannte Modell nutzt eine neuartige „Lightning Attention“-Architektur und ein System mit 32 Experten-Modulen. Die API-Nutzung kostet 0,2 Dollar pro Million Eingabe-Token, …

Weiterlesen …

Diffbot stellt KI-Modell mit Echtzeit-Faktenprüfung vor

Das Silicon-Valley-Unternehmen Diffbot hat ein neues KI-Modell entwickelt, das KI mit Echtzeit-Faktenüberprüfung verbindet. Wie Michael Nuñez für VentureBeat berichtet, basiert das System auf der GraphRAG-Technologie und nutzt Meta’s Llama 3.3. Das Modell greift auf Diffbots Knowledge Graph zu, eine Datenbank mit über einer Billion Fakten, die alle vier bis fünf Tage aktualisiert wird. In Benchmark-Tests …

Weiterlesen …