DeepSeek Janus Pro Bild-KI fordert etablierte Wettbewerber heraus

Das chinesische KI-Unternehmen DeepSeek hat eine neue Familie von KI-Modellen namens Janus-Pro eingeführt, die sowohl Bildanalyse als auch Bilderstellung ermöglichen. Die Modelle, die zwischen 1 Milliarde und 7 Milliarden Parameter umfassen, sind auf der Hugging Face-Plattform unter MIT-Lizenz verfügbar und erlauben eine uneingeschränkte kommerzielle Nutzung. Laut DeepSeek übertrifft das größte Modell der Familie, Janus-Pro-7B, mehrere …

Weiterlesen …

OpenAI Operator ist ein KI-Agent zur Automatisierung webbasierter Aufgaben

OpenAI hat Operator eingeführt, einen KI-gestützten Agenten, der webbasierte Aufgaben eigenständig über eine eigene Browser-Schnittstelle ausführen kann. Das Tool, das derzeit als Forschungsvorschau für ChatGPT-Pro-Abonnenten in den Vereinigten Staaten verfügbar ist, stellt den ersten Vorstoß des Unternehmens in Richtung KI-Agenten dar, die direkt mit Computeroberflächen interagieren können. Das System basiert auf einem neuen Computer-Using Agent …

Weiterlesen …

Hugging Face stellt kompakte KI-Modelle für Bild- und Textanalyse vor

Hugging Face präsentiert zwei neue KI-Modelle für die Verarbeitung von Bildern, Videos und Texten auf ressourcenbeschränkten Geräten. Die als SmolVLM-256M und SmolVLM-500M bezeichneten Systeme benötigen weniger als 1GB Arbeitsspeicher. Wie der TechCrunch-Autor Kyle Wiggers berichtet, können die Modelle Bilder beschreiben, Videoclips analysieren und PDF-Dokumente auswerten. Die Entwicklung basiert auf den firmeneigenen Datensätzen „The Cauldron“ und …

Weiterlesen …

ByteDance stellt UI-TARS vor: KI-System steuert Computer selbstständig

ByteDance präsentiert mit UI-TARS ein neues KI-System, das Computer und mobile Geräte automatisch bedienen kann. Wie aus einer Forschungsarbeit auf Arxiv hervorgeht, übertrifft das System bestehende KI-Modelle wie GPT-4o und Claude in verschiedenen Leistungstests, berichtet VentureBeat. UI-TARS wurde mit 50 Milliarden Tokens trainiert und ist in Versionen mit 7 und 72 Milliarden Parametern verfügbar. Das …

Weiterlesen …

Googles Gemini 2.0 Flash Thinking jetzt kostenlos testen

Google hat ein neues KI-Modell namens Gemini 2.0 Flash Thinking veröffentlicht, das bis zu eine Million Texttoken verarbeiten kann. Wie Michael Nuñez von VentureBeat berichtet, ist das Modell kostenlos im Google AI Studio unter der experimentellen Bezeichnung „Exp-01-21“ verfügbar. Das System erreichte bei mathematischen und wissenschaftlichen Tests beachtliche Ergebnisse: 73,3% beim American Invitational Mathematics Examination …

Weiterlesen …

Gerüchteküche: OpenAI wird KI-Assistenten zur Browserkontrolle vorstellen

OpenAI steht kurz vor der Veröffentlichung eines neuen KI-Tools namens Operator. Wie Thomas Maxwell für Gizmodo berichtet, soll die Software noch diese Woche erscheinen. Das System kann im Webbrowser der Nutzer bestimmte Aufgaben ausführen. Es navigiert selbstständig durch Websites und kann beispielsweise Flüge suchen oder E-Mails vorbereiten. Die finale Bestätigung von Transaktionen bleibt beim Nutzer. …

Weiterlesen …

Perplexity stellt neue KI-Suche-API mit zwei Preismodellen vor

Perplexity hat einen neuen API-Dienst namens Sonar eingeführt, über den Entwickler KI-gestützte Suchfunktionen in ihre Anwendungen integrieren können. Wie Maxwell Zeff berichtet, bietet der Service zwei Preisstufen an: Sonar für schnelle, kostengünstige Suchen und Sonar Pro für detailliertere Antworten bei komplexen Fragen. Der Dienst zeichnet sich durch seine Echtzeit-Internetverbindung aus, die aktuelle Informationen mit Quellenangaben …

Weiterlesen …

Tencent Hunyuan3D 2.0 erstellt 3D-Modelle in Sekunden

Tencent hat ein neues KI-System namens Hunyuan3D 2.0 entwickelt, das innerhalb von Sekunden 3D-Modelle aus Einzelbildern oder Textbeschreibungen erstellt. Die Technologie, über die Michael Nuñez berichtet, automatisiert einen Prozess, der Künstler üblicherweise Tage oder Wochen kostet. Das System nutzt zwei Hauptkomponenten für Form und Oberflächendetails und erreicht laut Tencent bessere Ergebnisse als bisherige Lösungen. Die …

Weiterlesen …

Google Gemini Assistant erweitert Funktionen mit Multi-App-Unterstützung

Google hat bedeutende Aktualisierungen für seinen KI-Assistenten Gemini angekündigt, zeitgleich mit der Vorstellung des Samsung Galaxy S25. Die wichtigste Neuerung ermöglicht es Gemini, Aufgaben über mehrere Anwendungen hinweg in einer einzigen Interaktion auszuführen. Zudem wird Gemini der standardmäßige Assistent auf Samsungs neuen Flagship-Smartphones und ersetzt damit Bixby. Die erweiterte Gemini Live-Funktion unterstützt nun die Integration …

Weiterlesen …

DeepSeek veröffentlicht neue Reasoning-Modelle

Das chinesische KI-Unternehmen DeepSeek hat seine neuen Sprachmodelle DeepSeek-R1-Zero und DeepSeek-R1 sowie sechs kleinere destillierte Versionen vorgestellt. Die Hauptmodelle, die auf DeepSeeks V3-Architektur basieren, verfügen über insgesamt 671 Milliarden Parameter, von denen 37 Milliarden aktiv sind, und eine Kontextlänge von 128.000 Token. Laut Unternehmensangaben erreicht DeepSeek-R1 eine mit OpenAI-Modellen vergleichbare Leistung in den Bereichen Mathematik, …

Weiterlesen …