Google Gemini erhält neue Interaktionen für Videos und Bildschirminhalte

Google erweitert seinen KI-Assistenten Gemini mit neuen Interaktionsmöglichkeiten für Videos und Bildschirminhalte. Wie Ivan Mehta von TechCrunch berichtet, ermöglicht die „Screenshare“-Funktion Nutzern, ihren Smartphone-Bildschirm mit Gemini zu teilen und dazu Fragen zu stellen. So können beispielsweise Einkaufende Empfehlungen erhalten, welche Kleidungsstücke zu ausgewählten Artikeln passen würden. Zudem wird es möglich sein, Gemini während der Videoaufnahme …

Weiterlesen …

GPT-4.5: Eine „andere Art von Intelligenz“ mit hohen Kosten und gemischter Kritik

OpenAIs neuestes Sprachmodell GPT-4.5 hat seit seiner Veröffentlichung erhebliche Diskussionen in der KI-Gemeinschaft ausgelöst. Obwohl es OpenAIs größtes und kenntnisreichstes Modell darstellt, bleibt sein praktischer Wert unter Experten und Nutzern umstritten. Ein kostspieliger Fortschritt GPT-4.5 kommt mit einem stolzen Preisschild: etwa 10 bis 20 Mal teurer als Claude 3.7 Sonnet und 15 bis 30 Mal …

Weiterlesen …

OpenAI will Sora-Videogenerator in ChatGPT integrieren

OpenAI plant, sein KI-Videotool Sora direkt in ChatGPT einzubinden, wie Unternehmensvertreter via Discord bekannt gaben. Maxwell Zeff berichtet, dass Sora derzeit nur über eine separate Web-App verfügbar ist, die im Dezember gestartet wurde. Rohan Sahai, Produktleiter für Sora bei OpenAI, erklärte, dass die ChatGPT-Integration zwar in Arbeit sei, aber möglicherweise weniger Kontrollfunktionen als die eigenständige …

Weiterlesen …

Microsoft bringt Copilot-App für Mac mit neuen Funktionen

Microsoft hat eine native Copilot-App für macOS-Nutzer in den USA, Großbritannien und Kanada veröffentlicht. Tom Warren von The Verge berichtet, dass die App Zugang zum webbasierten KI-Assistenten von Microsoft bietet. Nutzer können damit Bilder und Texte generieren oder Bilder hochladen. Die Mac-Version verfügt über einen Dunkelmodus und lässt sich mit Command + Space aktivieren, ähnlich …

Weiterlesen …

Diese Sprachmodelle sind zehnmal schneller als die Konkurrenz

Inception Labs hat mit Mercury eine neue Familie von Sprachmodellen vorgestellt, die auf Diffusionstechnologie basieren und Texte bis zu zehnmal schneller generieren können als herkömmliche LLMs. Die Mercury-Modelle erreichen laut Unternehmensangaben mehr als 1.000 Token pro Sekunde auf NVIDIA H100 Grafikprozessoren – eine Geschwindigkeit, die bisher nur mit Spezialchips möglich war. Das erste öffentlich verfügbare …

Weiterlesen …

You.com KI-Recherche-Tool verarbeitet über 400 Quellen gleichzeitig

You.com hat ein neues KI-Recherche-Tool namens Advanced Research & Insights Agent (ARI) eingeführt, das mehr als 400 Quellen gleichzeitig analysieren kann. Im Gespräch mit Michael Nuñez von VentureBeat erklärte CEO Richard Socher, dass das Tool Marktforschung revolutionieren soll, indem es umfassende Berichte in Minuten statt Wochen erstellt. ARI bietet direkte Quellenüberprüfung: Nutzer können auf Zitate …

Weiterlesen …

ElevenLabs’ Spracherkennungsmodell Scribe liefert 96,7% Genauigkeit

ElevenLabs hat Scribe v1 veröffentlicht, ein neues Spracherkennungsmodell mit Höchstwerten bei der Genauigkeit in 99 Sprachen. Wie Carl Franzen für VentureBeat berichtet, übertrifft das Modell Konkurrenzprodukte von Google, OpenAI und Deepgram mit einer Genauigkeitsrate von 96,7% für Englisch. Scribe kann bis zu 32 verschiedene Sprecher in einer Audiodatei unterscheiden und erkennt nichtverbale Elemente wie Lachen …

Weiterlesen …

IBM Granite 3.2 bringt „conditional reasoning“ zu Enterprise-KI

IBM hat seine Granite 3.2 Sprachmodell-Familie mit einem neuen Ansatz namens „conditional reasoning“ (bedingte Schlussfolgerung) vorgestellt. Wie Sean Michael Kerner für VentureBeat berichtet, integriert dieses Update Reasoning-Fähigkeiten direkt in die Kernmodelle, anstatt separate Reasoning-Modelle zu erstellen. Das System ermöglicht Nutzern, die Reasoning-Funktion nur bei Bedarf zu aktivieren, was die Effizienz bei komplexen Aufgaben verbessern soll. …

Weiterlesen …

Alibaba veröffentlicht KI-Modell Wan 2.1 als Open Source

Der chinesische E-Commerce-Konzern Alibaba hat sein KI-Modell Wan 2.1 zur Generierung von Videos und Bildern als Open Source freigegeben. Vier Varianten des Modells sind nun weltweit über die Plattformen ModelScope und HuggingFace für akademische, Forschungs- und kommerzielle Zwecke verfügbar, wie Reuters berichtet. Die leistungsstärksten Versionen können bis zu 14 Milliarden Parameter verarbeiten und damit präzisere …

Weiterlesen …

Sesame zeigt KI-Assistenten mit natürlicher Gesprächspräsenz

Sesame, ein Startup unter der Leitung des Oculus-Mitbegründers Brendan Iribe, hat einen neuen KI-Sprachassistenten namens Maya vorgestellt, der darauf abzielt, „das Uncanny Valley der Konversationssprache“ zu überwinden. Laut eines kürzlich erschienenen Artikels des Technologiejournalisten Sean Hollister bietet Maya natürlichere und ansprechendere Gespräche im Vergleich zu bestehenden Sprachassistenten wie Amazon’s Alexa oder Google’s Gemini. Das Unternehmen …

Weiterlesen …

×