Selbst fortgeschrittene KI scheitert als Agent

Ein neuer Benchmark-Test von Sierra zeigt, dass selbst fortschrittliche Sprachmodelle wie GPT-4o bei komplexen Aufgaben in realistischen Szenarien noch Schwierigkeiten haben und eine Erfolgsquote von unter 50 Prozent erreichen. Der Test namens TAU-bench soll Entwicklern helfen, die Leistung von KI-Agenten in realitätsnahen Situationen zu bewerten, indem er Faktoren wie mehrfache Interaktionen und komplexe Aufgaben berücksichtigt.

Googles „AI Overviews“ stolpern

Die kürzlich vorgestellten „AI Overviews“ in der Google-Suche haben zu einigen kuriosen Ergebnissen geführt – manche davon peinlich, andere lächerlich, wieder andere gefährlich.  Es zeigt sich an diesem Beispiel, was diverse Fachleute bereits wissen und predigen: Lass deine KI nicht unbeaufsichtigt arbeiten.  So fand sich unter den Empfehlungen der Google-KI etwa, dass Käse besser auf der Pizza …

Weiterlesen …

Google blamiert sich mit Geminis „political correctness“

Wir hatten bereits über Googles KI-Offensive unter dem „Gemini“-Banner berichtet, aber bald darauf machte vor allem der integrierte Bildgenerator Schlagzeilen: Er war offenbar zu sehr auf Diversität getrimmt. Was generell eine gute Idee ist, ergibt keinen Sinn, wenn man etwa ein Bild der „Gründerväter“ der USA haben möchte. Google schränkte folgend den Bildgenerator ein, so dass …

Weiterlesen …

Air Canada muss für falsche Auskunft seines Chatbots geradestehen

Der Chatbot von Air Canada hat einem Kunden eine falsche Auskunft zu den Bedingungen für eine Erstattung gegeben. Vor Gericht argumentierte die Fluggesellschaft, der Chatbot sei für seine Aussagen selbst verantwortlich, nicht Air Canada. Das sah das Gericht anders und das Unternehmen musste zahlen. Quelle: The Guardian