DeepSeek veröffentlicht neue Reasoning-Modelle

Das chinesische KI-Unternehmen DeepSeek hat seine neuen Sprachmodelle DeepSeek-R1-Zero und DeepSeek-R1 sowie sechs kleinere destillierte Versionen vorgestellt. Die Hauptmodelle, die auf DeepSeeks V3-Architektur basieren, verfügen über insgesamt 671 Milliarden Parameter, von denen 37 Milliarden aktiv sind, und eine Kontextlänge von 128.000 Token. Laut Unternehmensangaben erreicht DeepSeek-R1 eine mit OpenAI-Modellen vergleichbare Leistung in den Bereichen Mathematik, …

Weiterlesen …

MiniMax stellt Modell mit Rekord-Kontextfenster vor

Das Unternehmen MiniMax aus Singapur hat ein neues Open-Source-Sprachmodell vorgestellt, das bis zu 4 Millionen Token verarbeiten kann. Wie Carl Franzen in VentureBeat berichtet, übertrifft dies die bisherige Höchstmarke um das Doppelte. Das MiniMax-01 genannte Modell nutzt eine neuartige „Lightning Attention“-Architektur und ein System mit 32 Experten-Modulen. Die API-Nutzung kostet 0,2 Dollar pro Million Eingabe-Token, …

Weiterlesen …

Diffbot stellt KI-Modell mit Echtzeit-Faktenprüfung vor

Das Silicon-Valley-Unternehmen Diffbot hat ein neues KI-Modell entwickelt, das KI mit Echtzeit-Faktenüberprüfung verbindet. Wie Michael Nuñez für VentureBeat berichtet, basiert das System auf der GraphRAG-Technologie und nutzt Meta’s Llama 3.3. Das Modell greift auf Diffbots Knowledge Graph zu, eine Datenbank mit über einer Billion Fakten, die alle vier bis fünf Tage aktualisiert wird. In Benchmark-Tests …

Weiterlesen …

Microsoft veröffentlicht KI-Modell Phi-4 als Open Source

Microsoft hat sein KI-Modell Phi-4 als Open-Source-Software auf der Plattform Hugging Face freigegeben, wie Carl Franzen berichtet. Das Modell war zuvor nur über Microsofts Azure AI Foundry-Plattform verfügbar. Phi-4 verfügt über 14 Milliarden Parameter und zeigt besondere Stärken im mathematischen Denken und Sprachverständnis. Microsoft hat die vollständigen Modellgewichte unter der MIT-Lizenz veröffentlicht. Diese Lizenz erlaubt …

Weiterlesen …

Im Test: DeepSeek-V3 konkurriert mit Marktführern bei niedrigeren Kosten

Das neue KI-Modell DeepSeek-V3 erreicht vergleichbare Leistungen wie führende proprietäre Systeme bei deutlich niedrigeren Kosten. Dies geht aus einer umfassenden Analyse von Sunil Kumar Dash hervor. Das Modell übertrifft demnach die Fähigkeiten von GPT-4 und Claude 3.5 Sonnet bei mathematischen Aufgaben und erreicht ähnliche Leistungen im Programmierbereich. Diese Erfolge basieren auf mehreren technischen Innovationen, darunter …

Weiterlesen …

DeepSeek-V3 auf Augenhöhe mit GPT-4 und Claude 3.5 Sonnet

Das chinesische KI-Startup DeepSeek hat sein neues KI-Modell DeepSeek-V3 vorgestellt. Wie Shubham Sharma für VentureBeat berichtet, verfügt das Modell über 671 Milliarden Parameter, aktiviert jedoch durch seine Experten-Mischarchitektur nur 37 Milliarden für jede Aufgabe. Das Modell wurde mit 14,8 Billionen verschiedenen Tokens trainiert und zeigt überlegene Leistung in mehreren Bereichen, besonders in Mathematik und Programmierung. …

Weiterlesen …

IBM stellt verbesserte Granite 3.1 Sprachmodelle vor

IBM hat eine neue Version seiner Open-Source-Sprachmodelle, Granite 3.1, veröffentlicht. Wie Sean Michael Kerner für VentureBeat berichtet, bieten die neuen Modelle deutliche Verbesserungen in Leistung und Funktionalität. Das Granite 8B Instruct Modell übertrifft laut IBM vergleichbare Konkurrenzprodukte wie Meta Llama 3.1 und Google Gemma 2 in akademischen Benchmarks. Die Kontextlänge wurde von 4.000 auf 128.000 …

Weiterlesen …

Microsoft entwickelt kompaktes KI-Modell mit hoher Leistung

Microsoft hat ein neues KI-Modell namens Phi-4 vorgestellt, das trotz geringerer Größe bessere Leistungen als konkurrierende Systeme erzielt. Wie Michael Nuñez für VentureBeat berichtet, übertrifft das Modell mit nur 14 Milliarden Parametern größere Systeme wie Google’s Gemini Pro 1.5. Phi-4 zeigt besondere Stärken im mathematischen Denken und erreichte Bestwerte bei standardisierten Mathematik-Wettbewerben. Microsoft stellt das …

Weiterlesen …

NitroFusion erstellt Bilder blitzschnell auf Standardhardware

Die Universität Surrey hat ein bahnbrechendes KI-Modell namens NitroFusion vorgestellt. Das System erzeugt Bilder in Echtzeit, während Benutzer tippen. Die Entwicklung stammt aus dem SketchX-Labor des universitären Instituts für Menschen-zentrierte Künstliche Intelligenz (PAI). Das Besondere: NitroFusion läuft auf handelsüblichen Grafikkarten. Im Gegensatz zu bestehenden Bildgenerierungssystemen benötigt das Modell keine aufwendige Computerinfrastruktur. Es nutzt ein dynamisches …

Weiterlesen …

ServiceNow stellt KI-Trainings-Beschleuniger als Open Source vor

ServiceNow hat Fast-LLM veröffentlicht, ein Open-Source-Framework zur Beschleunigung von KI-Modelltraining um 20%. Dies berichtet Sean Michael Kerner für VentureBeat. Das System wurde bereits erfolgreich beim Training von ServiceNows StarCoder 2 Sprachmodell eingesetzt. Fast-LLM führt zwei wichtige Neuerungen ein: „Breadth-First Pipeline Parallelism“ für optimierte Berechnungsabläufe und ein verbessertes Speichermanagement. Das Framework lässt sich als direkter Ersatz …

Weiterlesen …