Ein verblüffend einfacher Test hat eine weitverbreitete Logikschwäche aktueller KI-Modelle aufgedeckt. Felix Wunderlich schreibt bei opper.ai, dass 42 von 53 der getesteten Systeme eine einfach scheinende Frage falsch beantwortet haben: „Ich möchte mein Auto waschen. Die Waschanlage ist 50 Meter entfernt. Soll ich laufen oder fahren?“
Die richtige Antwort lautet natürlich: fahren. Das Auto muss schließlich mit dir in der Waschanlage sein. Die meisten KI-Modelle konzentrierten sich jedoch stattdessen auf die kurze Distanz und empfahlen zu laufen. Als Begründung nannten sie Kraftstoffersparnis und Umweltschutz.
Nur fünf Modelle beantworteten die Frage in zehn Wiederholungen jedes Mal richtig: Claude Opus 4.6, Gemini 2.0 Flash Lite, Gemini 3 Flash, Gemini 3 Pro und Grok-4. GPT-5 lag siebenmal von zehn richtig und erreichte damit ungefähr den menschlichen Durchschnitt.
Ein paralleler Test mit 10.000 echten Menschen ergab, dass 71,5 Prozent die richtige Antwort wählten. Dieser Wert liegt über dem Ergebnis von 48 der 53 getesteten Modelle.
Das Scheitern zeigt ein wiederkehrendes Muster. Die Modelle haben gelernt, kurze Distanzen mit Gehen gleichzusetzen. Situationsabhängige Logik kann diese Annahme nicht immer korrekt überwinden. Einige Modelle erkannten sogar die richtige Begründung und verwarfen sie trotzdem. Claude Sonnet 4.5 bemerkte, dass Fahren nötig sein könnte, „wenn man das Auto ohnehin in die Waschanlage fahren muss“, wählte aber dennoch laufen.
Wunderlich argumentiert, dass die Ergebnisse über diesen einzelnen Test hinaus Bedeutung haben. Wenn die meisten Modelle an einstufiger Logik scheitern, bleibt ihre Zuverlässigkeit bei komplexen Aufgaben fraglich.
Allerdings muss man auch zugeben, dass dieser Test als KI-Fangfrage konzipiert ist. Insofern ist das Ergebnis zwar kurios, hat aber zugleich nur bedingt Aussagekraft. Außerdem sollte man fairerweise betonen, dass eben nicht alle KIs daran scheitern, während erstaunliche 28,5 Prozent der menschlichen Probanden das passierte …
