Selbst fortgeschrittene KI scheitert als Agent

Ein neuer Benchmark-Test von Sierra zeigt, dass selbst fortschrittliche Sprachmodelle wie GPT-4o bei komplexen Aufgaben in realistischen Szenarien noch Schwierigkeiten haben und eine Erfolgsquote von unter 50 Prozent erreichen. Der Test namens TAU-bench soll Entwicklern helfen, die Leistung von KI-Agenten in realitätsnahen Situationen zu bewerten, indem er Faktoren wie mehrfache Interaktionen und komplexe Aufgaben berücksichtigt.

Achtung: KI-Detektoren sind „weder genau noch zuverlässig“

Es gibt zahlreiche Dienste, die damit werben, dass sie KI-Texte mit „99% Genauigkeit“ erkennen können – ohne die Nachweise dafür öffentlich zu machen. Zugleich gibt es Dienste, die damit werben, dass sie KI-Texte so anpassen, dass sie angeblich kein Detektor erkennen kann. Beides zugleich kann nicht stimmen. Zugegeben: Einen unveränderten Text von GPT 3.5 würde …

Weiterlesen …

Neue Quellen für bessere KI-Trainingsdaten

Große Sprachmodelle (LLMs) werden nicht mehr nur mit Daten aus dem Internet trainiert. Früher basierten LLMs auf dem riesigen Datenfundus des Internets, doch die Grenzen dieses Ansatzes sind erreicht. Um LLMs weiterzuentwickeln, greifen Unternehmen wie OpenAI auf neue Datentypen zurück: Gezielte Kommentierung und Filterung verbessern die Qualität bestehender Daten, menschliches Feedback optimiert das Verhalten der Modelle, …

Weiterlesen …

Die unrühmliche Geschichte eines KI-getriebenen Newsportals

BNN Breaking, eine Nachrichtenseite mit Millionen von Lesern, einem internationalen Journalistenteam und einer Partnerschaft mit Microsoft, erwies sich als Quelle zahlreicher Fehler und Falschmeldungen. Ehemalige Mitarbeiter berichten, dass die Seite in großem Umfang auf KI-generierte Inhalte setzte, die oft ohne ausreichende Prüfung veröffentlicht wurden. Dies führte zu Beschwerden von Personen, die fälschlicherweise in Artikeln genannt wurden, …

Weiterlesen …

Hinter den Kulissen von Anthropic (Claude): Sicherheit als Priorität

In einem ausführlichen Artikel beleuchtet Time Magazine das KI-Unternehmen Anthropic und dessen Bemühungen, Sicherheit als oberste Priorität zu setzen. Der Mitbegründer und CEO Dario Amodei entschied sich bewusst dagegen, den leistungsstarken Chatbot Claude frühzeitig zu veröffentlichen, um potenzielle Risiken zu vermeiden. Anthropic sieht seine Mission darin, durch den Aufbau und die Erforschung mächtiger KI-Systeme empirisch zu …

Weiterlesen …

OpenAI-Insider warnen vor einer gefährlichen Unternehmenskultur

In einem offenen Brief warnen aktuelle und ehemalige Mitarbeiter von OpenAI vor einer „rücksichtslosen“ Entwicklung im Wettlauf um die Vorherrschaft bei Künstlicher Intelligenz. Sie fordern weitreichende Veränderungen in der KI-Branche, darunter mehr Transparenz und einen besseren Schutz für Whistleblower. Die Unterzeichner kritisieren eine Kultur der Geheimniskrämerei und des Profits um jeden Preis bei OpenAI. Das Unternehmen …

Weiterlesen …

Forscher arbeiten an besserer lokaler KI

Forscher erzielen große Fortschritte bei der Entwicklung von 1-Bit-LLMs, die trotz deutlich geringerem Speicherbedarf und Energieverbrauch eine ähnliche Leistung wie ihre größeren Pendants erreichen können. Diese Entwicklung könnte die Tür für komplexere KI-Anwendungen auf alltäglichen Geräten wie Smartphones öffnen, da sie weniger Rechenleistung und Energie benötigen.

Zwei Drittel aller Unternehmen nutzen generative KI regelmäßig

Eine neue Umfrage von McKinsey zeigt, dass bereits 65% der Unternehmen regelmäßig Generative AI einsetzen und die Mehrheit erwartet, dass diese Technologie zu signifikanten Veränderungen in ihren Branchen führen wird. Allerdings haben 44% der Befragten auch negative Folgen durch den Einsatz von Gen AI erlebt, wie z.B. ungenaue Ergebnisse oder Cybersicherheitsprobleme, weshalb Experten betonen, dass …

Weiterlesen …

KI-Angst anno 1927

Schon 1927 zeigte Fritz Lang in seinem Film „Metropolis“ eine künstliche Intelligenz, die den Menschen Angst machte. In dem Film, der eine Zukunft mit klaren Klassenunterschieden beschreibt, sorgt ein Roboter, der als „Maschinenmensch“ bezeichnet wird, für Unruhe. Der Roboter, der zunächst als Arbeitskraft eingesetzt wird, nimmt später die Gestalt einer jungen Frau namens Maria an …

Weiterlesen …

Anthropic untersucht KI-Prozesse

Anthropic hat eine neue Forschungsarbeit veröffentlicht, die beleuchtet, wie grosse Sprachmodelle genau funktionieren. Dafür haben sie gezielt bestimmte Neuronen im Modell aktiviert, zum Beispiel für das Konzept der Golden Gate Bridge. In der Folge hat diese abgewandelte Version von Claude laufend die Golden Gate Bridge in Antworten eingeflochten, auch vollkommen zusammenhanglos. Diese Experimente dienen dazu, in …

Weiterlesen …