Googles KI-Zusammenfassung im Test:
Millionen Lügen pro Stunde

Eine aktuelle Analyse wirft ein kritisches Licht auf die Zuverlässigkeit der neuen KI-Zusammenfassungen in der Google-Suche: Zwar liefern die sogenannten "AI Overviews" in rund 90 Prozent der Fälle korrekte Antworten, doch jede zehnte Antwort ist falsch.
Google, Ki, Suchmaschine, Suche, Chatbot, Websuche, Suchergebnisse, Bard, Google Bard
Google

Jede zehnte Antwort ist falsch

Die Untersuchung wurde von der US-Tageszeitung The New York Times gemeinsam mit dem KI-Start-up Oumi durchgeführt. Grundlage war ein standardisierter Test namens SimpleQA, der mehr als 4.000 überprüfbare Fragen umfasst und zur Bewertung der Faktengenauigkeit von KI-Modellen dient.

Die Ergebnisse zeigen zwar Fortschritte: Während ältere Versionen des Google-Modells Gemini noch etwa 85 Prozent korrekte Antworten lieferten, stieg die Trefferquote mit neueren Versionen auf rund 91 Prozent. Dennoch bleibt ein signifikanter Anteil fehlerhafter Antworten bestehen - mit potenziell weitreichenden Folgen bei Milliarden täglichen Suchanfragen.


Die Fehler können gravierend sein. In einem Beispiel fragte der Test nach dem Datum, an dem das ehemalige Wohnhaus von Bob Marley zum Museum wurde. Die KI verwies auf mehrere Quellen, von denen jedoch nur eine überhaupt relevante Informationen enthielt, und selbst dort entschied sie sich für ein falsches Datum. In einem anderen Fall erkannte die KI zwar den Cellisten Yo-Yo Ma korrekt, behauptete jedoch gleichzeitig fälschlicherweise, es gebe keine "Classical Music Hall of Fame".

Google wiegelt ab

Google selbst weist die Kritik teilweise zurück. Ein Unternehmenssprecher erklärte, der verwendete Test enthalte fehlerhafte oder unrealistische Fragestellungen. Stattdessen nutze man intern strengere Bewertungsmethoden mit besser geprüften Datensätzen. Zudem sei die Funktionsweise der KI komplex: Je nach Suchanfrage kämen unterschiedliche Modellvarianten zum Einsatz - von leistungsstarken, aber langsamen Versionen bis hin zu schnelleren, weniger präzisen Systemen.

Grundsätzlich bleibt die Bewertung von KI-Systemen schwierig. Ergebnisse können variieren, selbst wenn identische Fragen mehrfach gestellt werden. Hinzu kommt, dass auch die Testverfahren selbst teilweise auf KI basieren und somit fehleranfällig sind.

Trotz aller Fortschritte zeigt die Analyse ein zentrales Problem: Nutzer werden dazu verleitet, den KI-generierten Antworten zu vertrauen, ohne die zugrunde liegenden Quellen zu überprüfen. Dabei warnt Google selbst am Ende jeder Zusammenfassung, dass KI Fehler machen kann. Bereits bei der Einführung der Funktion sorgte Google mit fehlerhaften Ergebnissen wie der "Klebstoff-Pizza" für Aufsehen. Experten raten daher weiterhin dazu, Informationen kritisch zu hinterfragen und gegebenenfalls die Originalquellen zu konsultieren.

Zusammenfassung
  • Googles KI-Zusammenfassungen liefern in etwa zehn Prozent der Fälle Fehler
  • Die Analyse wurde von der New York Times und dem Start-up Oumi durchgeführt
  • Neuere Gemini-Versionen erreichen eine Trefferquote von rund 91 Prozent
  • Fehlerhafte Antworten können bei Milliarden Suchanfragen schwer wiegen
  • Die KI nannte etwa bei einer Frage zu Bob Marleys Museum ein falsches Datum
  • Google weist die Kritik zurück und verweist auf eigene Testmethoden
  • Experten raten dazu, KI-Antworten kritisch zu prüfen und Quellen zu lesen

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!