Amazon stellt Nova Act vor: KI-Agent zur Steuerung von Webbrowsern

Amazon hat mit Nova Act einen neuen KI-Agenten eingeführt, der Webbrowser steuern und einfache Aktionen ausführen kann. Wie Maxwell Zeff von TechCrunch berichtet, wird diese Technologie auch Funktionen des kommenden Alexa+-Updates antreiben. Entwickler können mit dem Nova Act SDK Agenten-Prototypen erstellen, die Aufgaben wie Essensbestellungen oder Reservierungen automatisieren. Amazon behauptet, Nova Act übertreffe ähnliche Technologien …

Weiterlesen …

Googles Gemini 2.5 Pro führt in Benchmarks und du kannst es kostenlos ausprobieren

Google hat überraschend sein neuestes KI-Modell, Gemini 2.5 Pro, für alle Nutzer kostenlos zugänglich gemacht, nicht nur für Premium-Abonnenten. Das Modell hat schnell Anerkennung für seine außergewöhnlichen Reasoning-Fähigkeiten gewonnen und führt derzeit die Branchenbenchmarks an. Gemini 2.5 Pro zeichnet sich durch sein enormes Kontextfenster von 1 Million Token aus (mit Plänen zur Erweiterung auf 2 …

Weiterlesen …

ChatGPTs neue Bildfunktion: Was macht diese Bild-KI so besonders?

ChatGPTs neuer Bildgenerator ist nicht nur ein Upgrade – er verändert grundlegend, wie KI Bilder erstellt. Das bedeutet: Exaktere Resultate, bessere Handhabung komplexer Szenen und lesbarer, verwendbarer Text im Bild selbst. Das ist ein erheblicher Fortschritt, wenn du im Bereich Design, Content-Erstellung, Marketing oder in einem anderen visuellen Bereich arbeitest. Während andere Bildgeneratoren ebenfalls große Fortschritte …

Weiterlesen …

ChatGPT kann nun auf unternehmensinterne Datenquellen zugreifen

OpenAI hat eine neue Funktion eingeführt, die es ChatGPT-Team-Nutzern ermöglicht, interne Wissensdatenbanken direkt mit der Plattform zu verbinden. Wie Emilia David von VentureBeat berichtet, befindet sich diese lang erwartete Funktion derzeit in der Beta-Phase. Administratoren können zunächst Google Drive mit ChatGPT verbinden, wobei laut OpenAI-Produktmanager Nate Gonzales weitere Datenquellen folgen werden. Das System führt semantische …

Weiterlesen …

Groq und PlayAI stellen neues Text-to-Speech-System Dialog vor

Groq und PlayAI haben gemeinsam das Text-to-Speech-System Dialog entwickelt, das natürlicher klingende KI-Stimmen ermöglicht. Wie Michael Nuñez von VentureBeat berichtet, verbindet das System PlayAIs Expertise in Sprach-KI mit Groqs schneller Inferenz-Plattform. Dialog nutzt einen „adaptive speech contextualizer“, der den gesamten Gesprächsverlauf berücksichtigt und so Antworten mit passender Betonung und Emotion erzeugt. Das System ist sowohl …

Weiterlesen …

Microsofts neue KI-Tools für Recherche und Datenanalyse

Microsoft hat zwei neue KI-Agenten namens Researcher und Analyst für die Microsoft 365 Copilot-Plattform vorgestellt. Wie Richard Lawler von The Verge berichtet, sind diese Tools für komplexe Rechercheaufgaben und Datenanalysen konzipiert. Researcher, der auf OpenAIs Forschungsmodell basiert, kann mehrstufige Recherchen durchführen und auf Daten von Drittanbietern wie Salesforce zugreifen. Analyst hingegen nutzt OpenAIs o3-mini-Modell und …

Weiterlesen …

Amazon testet KI-Assistenten für Shopping und Gesundheitsberatung

Amazon entwickelt neue generative KI-Tools für sein E-Commerce-Angebot. Der Konzern testet derzeit zwei neue Assistenten: Interests AI für personalisierte Produktempfehlungen und Health AI für medizinische Beratung. Wie Annie Palmer von CNBC berichtet, sind beide Funktionen aktuell nur für eine begrenzte Nutzergruppe verfügbar. Interests AI ermöglicht es Kunden, ihre Wünsche in natürlicher Sprache zu beschreiben und …

Weiterlesen …

OpenAI bringt KI-Bildgenerierung auf ein neues Level

OpenAI hat native Bildgenerierungsfunktionen direkt in ChatGPT eingeführt, die vom multimodalen Modell GPT-4o angetrieben werden. Diese neue Funktion, „Images in ChatGPT“ genannt, steht jetzt Nutzern der Plus-, Pro-, Team- und kostenlosen Zugänge zur Verfügung. Optionen für Enterprise, Edu und über die API folgen in Kürze. Im Gegensatz zum bisherigen DALL-E 3-Bildgenerator, der ein separates Diffusionsmodell …

Weiterlesen …

Googles Gemini 2.5 Pro hat Reasoning-Funktionen integriert

Google hat Gemini 2.5 Pro veröffentlicht und beschreibt es als sein bisher „intelligentestes KI-Modell“. Das neue Modell stellt einen bedeutenden Fortschritt in Googles KI-Fähigkeiten dar, mit besonderem Fokus auf Reasoning-Funktionen, die jetzt direkt ins System integriert sind. Laut Googles Ankündigung sind Gemini 2.5-Modelle „denkende Modelle“, die in einem Zwischenschritt überlegen können, bevor sie antworten, was …

Weiterlesen …

Reve Image 1.0 ist ein vielversprechender neuer KI-Bildgenerator

Reve AI hat Reve Image 1.0 veröffentlicht, ein neues Text-zu-Bild-Modell, das laut des unabhängigen Bewertungsdienstes Artificial Analysis derzeit auf Platz eins im Bereich Bildqualität rangiert. Wie Carl Franzen in VentureBeat berichtet, übertrifft das Modell Konkurrenten wie Midjourney v6.1 und Googles Imagen 3 besonders bei der Einhaltung von Eingabeaufforderungen, Ästhetik und Typografie. Das in Palo Alto …

Weiterlesen …