KI-Zusammenfassungen: Claude schlägt ChatGPT in Test, aber kein Tool erreicht mehr als 70%

Eine neue Studie zeigt erhebliche Unterschiede bei der Textanalyse verschiedener KI-Chatbots. Geoffrey A. Fowler von der Washington Post testete fünf große KI-Tools auf ihr Verständnis von Literatur, Rechtsdokumenten, wissenschaftlichen Arbeiten und politischen Reden.

Der Wettbewerb umfasste ChatGPT, Claude, Copilot, Meta AI Llama und Gemini. Die Systeme beantworteten 115 Fragen zu vier verschiedenen Dokumenttypen. Fachexperten bewerteten die Antworten, darunter Bestsellerautor Chris Bohjalian und Kardiologe Eric Topol.

Claude gewann mit 69,9 von 100 Punkten knapp vor ChatGPT mit 68,4 Punkten. Die anderen Chatbots schnitten deutlich schlechter ab: Gemini erreichte 49,7 Punkte, Copilot 49,0 und Meta AI 45,0.

Die Leistung variierte stark je nach Fachgebiet. ChatGPT analysierte politische Reden und Literatur am besten, während Claude bei Rechtsverträgen und wissenschaftlichen Texten führte. Alle Bots außer Claude „halluzinierten“ Fakten, erfanden also Informationen.

Die Studie deckte dabei systematische Schwächen auf. KI-Zusammenfassungen ließen häufig wichtige Details weg und betonten positive Aspekte, während sie negative ignorierten. Literatur erwies sich als schwierigste Kategorie mit teilweise mangelhaftem Textverständnis.

Trotz beeindruckender Analysefähigkeiten erreichte kein KI-Tool letztlich mehr als 70 Prozent. Rechtsexperte Sterling Miller warnte, KI könne professionelle Expertise nicht ersetzen. Sie sei nur eine „akzeptable“ Lösung, wenn professionelle Hilfe nicht verfügbar sei.

Mehr zum Thema:

Bleib up-to-date: