Hume AI stellt Octave vor, ein Text-to-Speech-Modell mit emotionalen Steuerelementen

Das Startup Hume AI hat ein neues Text-to-Speech-System namens Octave eingeführt, das emotional nuancierte KI-Stimmen erzeugt. Laut einem Bericht von Carl Franzen für VentureBeat basiert das Modell auf einem Large Language Model, das Ton, Rhythmus und Sprachmelodie kontextabhängig anpassen kann. Nutzer können Emotionen auf Satzebene durch einfache Textbefehle wie „fröhlicher“ oder „sarkastischer“ steuern. Octave richtet …

Weiterlesen …

Microsoft macht Voice und Think Deeper für alle Copilot-Nutzer verfügbar

Microsoft bietet ab sofort unbegrenzten Zugang zu den Funktionen Voice und Think Deeper kostenlos für alle Copilot-Nutzer an. Das Copilot-Team stellte diese erweiterten Fähigkeiten vor, um den KI-Assistenten weiterzuentwickeln. Voice ermöglicht ausgedehnte Sprachgespräche mit der KI. Think Deeper, das auf OpenAIs o1-Modell basiert, bewältigt komplexe Denkaufgaben. Bisher stießen Nutzer bei diesen Funktionen auf Nutzungsbeschränkungen. Das …

Weiterlesen …

OpenAI führt Sora in Europa ein

OpenAI hat sein Videogenerierungstool Sora nun in Großbritannien und Kontinentaleuropa verfügbar gemacht. Das Werkzeug, das per Texteingabe Videos erstellt, steht zahlenden ChatGPT Plus und Pro Nutzern zur Verfügung. Wie Dan Milmo vom Guardian berichtet, präsentierte OpenAI Beispiele von Künstlern aus der Region, darunter die britische Digitalkünstlerin Josephine Miller mit einem zweiminütigen Video von Models in …

Weiterlesen …

Microsoft zeigt effizientes Phi-4 für Text-, Bild- und Sprachverarbeitung

Microsoft hat zwei neue KI-Modelle in seiner Phi-Serie vorgestellt: Phi-4-multimodal mit 5,6 Milliarden Parametern und Phi-4-mini mit 3,8 Milliarden Parametern. Diese kleinen Sprachmodelle (SLMs) liefern außergewöhnliche Leistung bei deutlich geringerem Rechenaufwand als größere Systeme und stellen damit die Vorstellung in Frage, dass größere KI-Modelle immer besser sind. Das Phi-4-multimodal-Modell zeichnet sich durch seine Fähigkeit aus, …

Weiterlesen …

Amazon stellt Alexa+ mit erweiterten KI-Fähigkeiten vor

Amazon hat Alexa+ vorgestellt, ein bedeutendes Upgrade seines Sprachassistenten mit fortschrittlicher KI. Diese überarbeitete Version zeigte das Unternehmen bei einer Pressekonferenz in New York City und ist die umfassendste Überarbeitung der Plattform seit ihrer Einführung vor über einem Jahrzehnt. Alexa+ verwendet einen von Amazon als „modellagnostisch“ beschriebenen Ansatz mit einem ausgeklügelten Routing-System, das für jede …

Weiterlesen …

OpenAI stellt GPT-4.5-Modell vor

OpenAI hat offiziell GPT-4.5 eingeführt, sein neuestes und größtes KI-Sprachmodell. Das intern zuvor als „Orion“ bekannte Modell wird als Forschungsvorschau veröffentlicht und verspricht verbesserte Gesprächsfähigkeiten, reduzierte Halluzinationsraten und eine verbesserte emotionale Intelligenz im Vergleich zu früheren Modellen. Während OpenAI GPT-4.5 als „größtes und bestes Modell für Chat“ positioniert, räumt das Unternehmen ein, dass es kein …

Weiterlesen …

OpenAIs Deep Research verfügbar für alle zahlenden ChatGPT-Nutzer

OpenAI hat seine „Deep Research“-Funktion für alle zahlenden Kunden zugänglich gemacht, darunter Plus, Team, Edu und Enterprise-Abonnenten. Igor Bonifacic berichtet für Engadget, dass OpenAI damit sein Anfang Februar gegebenes Versprechen einhält, das Tool innerhalb eines Monats für Plus-Nutzer bereitzustellen. Zuvor war die Funktion nur für Abonnenten des monatlich 200 Dollar teuren Pro-Plans verfügbar. Plus-Nutzer erhalten …

Weiterlesen …

Claude 3.7 Sonnet hat stufenlose Reasoning-Funktion integriert

Anthropic hat mit Claude 3.7 Sonnet ein neues KI-Modell vorgestellt, das als erstes hybrides Reasoning-Modell sowohl schnelle Antworten als auch ausführliche Analysen ermöglicht. Benutzer können zwischen sofortigen Antworten und gründlicherer Verarbeitung wählen, wobei API-Nutzer die Reasoning-Phase bis zu 128.000 Token präzise steuern können. Zentrale Eigenschaften und Fähigkeiten Das neue Modell behält Anthropics bestehende Preisstruktur von …

Weiterlesen …

Google entfernt Gemini aus iOS-App zugunsten eigenständiger Version

Google beendet die Integration seiner KI Gemini in der Haupt-iOS-App. Wie Ben Schoon für 9to5Google berichtet, werden iPhone- und iPad-Nutzer per E-Mail über diese Änderung informiert. Die eigenständige Gemini-App, die seit November verfügbar ist, bietet nun alle Funktionen an einem Ort. Während Gemini bisher in der Google-App über einen Umschalter zugänglich war, waren neuere Funktionen …

Weiterlesen …

Fiverr führt KI-System zur Automatisierung von Freelancer-Arbeit ein

Die Gig-Economy-Plattform Fiverr startet ein neues System, mit dem Freelancer KI auf Basis ihrer bisherigen Arbeiten trainieren können, berichtet TechCrunch. Das „Personal AI Creation Model“ ermöglicht es demnach freiberuflichen Kreativen, ihre Dienste wie Grafikdesign oder Sprachaufnahmen teilweise zu automatisieren. Der Dienst kostet 25 Dollar pro Monat und steht zunächst ausgewählten Nutzern zur Verfügung. Wie Firmenchef …

Weiterlesen …

×