Neuere, größere Versionen von KI-Chatbots neigen stärker dazu, falsche Antworten zu geben, statt Unwissenheit einzugestehen. Das ergab eine Studie von José Hernández-Orallo und Kollegen, die in der Fachzeitschrift Nature veröffentlicht wurde. Die Forscher untersuchten drei große Sprachmodelle: GPT, LLaMA und BLOOM. Sie stellten fest, dass die Genauigkeit der Antworten mit der Größe der Modelle zwar zunimmt, die Zuverlässigkeit aber abnimmt.
Die Studie zeigte auch, dass Menschen oft Schwierigkeiten haben, falsche Antworten der Chatbots zu erkennen. Zwischen 10% und 40% der ungenauen Antworten wurden fälschlicherweise als korrekt eingestuft. Die Forscher empfehlen, die Leistung der KI bei einfachen Fragen zu verbessern und sie bei schwierigen Fragen eher zum Ablehnen einer Antwort zu ermutigen. Dies könnte Nutzern helfen, die Zuverlässigkeit der KI-Systeme besser einzuschätzen.