Nvidia veröffentlicht kostenloses Spracherkennungsmodell

Nvidia hat ein neues Open-Source-Modell zur automatischen Spracherkennung namens Parakeet-TDT-0.6B-v2 veröffentlicht. Das Modell kann laut Bericht des VentureBeat-Journalisten Carl Franzen auf Nvidia-GPU-Hardware 60 Minuten Audio in nur einer Sekunde transkribieren. Es führt aktuell die Hugging Face Open ASR Rangliste mit einer Wortfehlerrate von nur 6,05% an. Das am 1. Mai 2025 veröffentlichte Modell steht unter …

Weiterlesen …

Recrafts KI-Bildmodell übertrifft Konkurrenz bei Marketingmaterialien

Recraft, ein auf Bildgenerierung spezialisiertes KI-Startup, hat eine Series-B-Finanzierung in Höhe von 30 Millionen Dollar unter Führung von Accel erhalten. Laut eines Berichts von Charles Rollet für TechCrunch übertraf das „red_panda“-Modell des Unternehmens kürzlich OpenAIs DALL-E und Midjourney im Artificial Analysis Benchmark. Gründerin und CEO Anna Veronika Dorogush betonte, dass Recrafts Technologie besonders bei der …

Weiterlesen …

Amazon stellt Nova Premier für komplexe KI-Aufgaben vor

Amazon hat sein fortschrittlichstes KI-Modell Nova Premier eingeführt, das Text, Bilder und Videos verarbeiten kann. Das Modell ist ab sofort über die KI-Entwicklungsplattform Amazon Bedrock verfügbar. Kyle Wiggers von TechCrunch berichtet, dass Nova Premier bei komplexen Aufgaben mit Kontextverständnis und mehrstufiger Planung besonders leistungsfähig ist. Mit einer Kontextlänge von 1 Million Tokens kann es etwa …

Weiterlesen …

Google integriert KI-Modus testweise in die Suchfunktion

Google führt einen neuen KI-Modus in seiner Suchfunktion ein, der in den kommenden Wochen für einen kleinen Prozentsatz der US-Nutzer verfügbar sein wird, wie Jess Weatherbed berichtet. Der KI-Modus erscheint als eigener Tab in der Suchleiste, positioniert vor den Tabs „Alle“, „Bilder“, „Videos“ und „Shopping“. Im Gegensatz zur herkömmlichen Suche, die URLs als Ergebnisse anzeigt, …

Weiterlesen …

Freepik veröffentlicht Bildgenerator mit lizenziertem Trainingsmaterial

Das Grafikdesign-Unternehmen Freepik hat ein neues KI-Modell namens F Lite eingeführt, das ausschließlich mit kommerziell lizenzierten Bildern trainiert wurde. Wie Kyle Wiggers von TechCrunch berichtet, umfasst das in Zusammenarbeit mit Fal.ai entwickelte Modell etwa 10 Milliarden Parameter. Das Training erfolgte auf 64 Nvidia H100 GPUs über einen Zeitraum von zwei Monaten mit einem internen Datensatz …

Weiterlesen …

Microsoft erweitert Phi-Sprachmodellfamilie mit neuen Reasoning-Fähigkeiten

Microsoft hat drei neue kleine Sprachmodelle (SLMs) vorgestellt, die sich auf komplexe Reasoning-Aufgaben konzentrieren: Phi-4-reasoning, Phi-4-reasoning-plus und Phi-4-mini-reasoning. Diese Modelle sind für angesichts ihrer kompakten Größe erstaunlich leistungsfähig, besonders bei mathematischem Reasoning und mehrstufiger Problemlösung. Das Flaggschiff Phi-4-reasoning-plus, ein Modell mit 14 Milliarden Parametern, zeigt eine Leistung, die offenbar mit viel größeren KI-Systemen mithalten kann. …

Weiterlesen …

Claude verbindet sich mit Drittanbieter-Apps und verbessert Recherchefunktionen

Anthropic hat „Integrations“ vorgestellt, eine neue Funktion, die Claude mit externen Apps und Tools verbindet. Die Funktion nutzt das Model Context Protocol (MCP), um Claude mit Web- und Desktop-Anwendungen zu verknüpfen. Zum Start unterstützt Claude zehn Dienste, darunter Jira, Confluence, Zapier, Cloudflare und Intercom. Weitere Partnerschaften sind bereits geplant. Das Unternehmen hat außerdem Claudes Recherchefähigkeiten …

Weiterlesen …

OpenAI erklärt, warum ChatGPT zum unkritischen Ja-Sager wurde

OpenAI hat das jüngste Update von GPT-4o zurückgenommen, nachdem Nutzer berichteten, dass das Modell übermäßig schmeichelnd und zustimmend reagierte. In einer offiziellen Erklärung räumte das Unternehmen ein, dass bei der Anpassung zu stark auf kurzfristiges Nutzerfeedback geachtet wurde, was zu „übertrieben unterstützenden, aber unaufrichtigen“ Antworten führte. Bei der Entwicklung der Modellpersönlichkeit berücksichtigt OpenAI Nutzersignale wie …

Weiterlesen …

Meta startet eigenständige KI-App mit sozialen Funktionen

Meta hat eine neue eigenständige Meta AI App veröffentlicht, die auf der Llama 4 Modellfamilie basiert. Die App bietet personalisierte KI-Interaktionen durch Sprach- und Textgespräche, Bildgenerierung und Websuche. Verfügbar für iOS und Android in ausgewählten Ländern, steht die App für Metas Vision, KI persönlicher zu gestalten und stärker in den Alltag zu integrieren. Ein besonderes …

Weiterlesen …

NotebookLM Audio Overviews nun in über 50 Sprachen verfügbar

Google hat seine NotebookLM Audio Overviews-Funktion auf mehr als 50 Sprachen erweitert. Die Google Labs-Mitarbeiter Michael Chen und Arielle Fox gaben die Aktualisierung in einem offiziellen Beitrag bekannt. Die Funktion wandelt Quellmaterialien in podcast-ähnliche Gespräche um und unterstützt jetzt Sprachen von Afrikaans bis Hindi und Türkisch. Nutzer können ihre bevorzugte Ausgabesprache in den NotebookLM-Einstellungen auswählen. …

Weiterlesen …