Wer erkennt es besser? Kleinkinder schlagen die besten KI-Systeme

Selbst die besten KI-Bilderkennungs-Modelle schauen alt aus - wenn man sie gegen Vorschulkinder testet. Eine neue Studie zeigt: Kinder erkennen Objekte schneller, robuster und mit weniger Erfahrung als jedes aktuelle Deep-Learning-System.

John Woll, 04.07.2025 16:52 Uhr

Computer, Schule, Kinder, Schüler, Jubel

Pixabay

Kleinkinder schlagen die besten KIs

Man könnte meinen, dass KI-Systeme wie CLIP, DINOv2 oder ConvNext - teils auf Milliarden Bildern trainierte neuronale Netze zur Objekterkennung - inzwischen alles im Griff haben. Doch in einem direkten Vergleich mit Vorschulkindern müssen selbst diese KI-Modelle zurückstecken. Denn schon 3- bis 5-Jährige erkennen in wenigen Millisekunden, was selbst große neuronale Netze nur unter idealen Bedingungen leisten. Und das oft besser und mit deutlich weniger Vorwissen.

Genau das hat eine jetzt veröffentlichte Studie im Fachmagazin Science Advances untersucht. Ziel war es, herauszufinden, wie schnell und unter welchen Bedingungen Kinder vertraute Objekte erkennen - etwa, wenn deren Konturen gestört oder halb gelöscht sind. Dafür setzten die Forscher auf ein standardisiertes Testverfahren mit Vorwärts- und Rückwärtsmaskierung und reduzierten Darbietungszeiten bis auf 100 ms - Bedingungen, wie sie sonst bei Erwachsenen oder im Vergleich zu KI verwendet werden.

Das Ergebnis: Bereits 3-jährige Kinder erkennen einfache Umrisse deutlich über das Zufallsniveau, und mit 4 Jahren funktioniert die Erkennung selbst dann, wenn die Form nicht vollständig erkennbar ist. Frühere Annahmen, wonach globale Formverarbeitung und perzeptuelle Vervollständigung erst mit etwa 10 Jahren reifen, mussten damit deutlich revidiert werden.

Noch spannender wird der direkte Vergleich mit KI: Die Forscher testeten 17 neuronale Netze (engl. deep neural networks, DNNs) - darunter rekurrente Modelle wie VoneNet, Transformer wie ViT-DINOv2 und Multimodalmodelle wie CLIP. Einige dieser Modelle erreichen zwar punktuell die Leistung von Kindern - aber nur, wenn sie zuvor mit riesigen Datensätzen trainiert wurden. CLIP verarbeitet etwa über 12 Milliarden Bild-Text-Paare von Objekten. Ein Vorschulkind kommt im echten Leben auf einen Bruchteil davon - und schlägt die KI trotzdem in mehreren Bedingungen.

Viel zu lernen

Was lernen wir daraus? Die Forscher betonen: Es geht nicht nur um Datenmenge. Vielmehr zeigt sich, dass Kinder mit wenigen, aber vielfältigen Erlebnissen ein robustes Erkennungsmodell entwickeln. Die aktuellen DNNs dagegen sind oft stark auf ihre Trainingsdaten fixiert und versagen bei kleinsten Abweichungen. Besonders überraschend: Selbst biologisch inspirierte Architekturen mit rekurrenten Schleifen oder kindlichen Trainingsdaten aus der Perspektive von Kopfkameras (SAYCam) konnten mit Kindern nur bedingt mithalten.

Zum Schluss drehen die Forscher die Perspektive um: Statt Kinder mit KI zu vergleichen, sollten künftige Systeme vielleicht von Kindern lernen. Etwa durch effizientere Repräsentationen, durch Bewegung und Variation im Training - und durch frühe visuelle Verzerrungen, wie sie auch das Sehen von Neugeborenen prägen. So könnte das kindliche Gehirn nicht nur Vorbild, sondern vielleicht auch Blaupause für eine neue Generation von Bildverarbeitungssystemen werden.

Download Chatbox - Client für KI-Chatbots Download LM Studio - KI-Chatbots offline verwenden

Zusammenfassung

Vorschulkinder übertreffen moderne KI-Systeme bei der Objekterkennung
3- bis 5-jährige Kinder erkennen Objekte schneller und robuster als KI
Kinder benötigen deutlich weniger Trainingsdaten als neuronale Netze
Die Studie zeigt überraschend frühe Reifung der visuellen Verarbeitung
Selbst mit Milliarden Trainingsdaten kann KI nicht mit Kindern mithalten
Kindliche Lernprozesse könnten als Vorbild für bessere KI-Systeme dienen
Biologisch inspirierte KI-Architekturen zeigen nur bedingt Erfolg

Siehe auch:

Thema:

Künstliche Intelligenz

Gefällt dir dieser Artikel? WinFuture in der Google-Suche bevorzugen WinFuture auf folgen

Kommentieren8

Hinweis einsenden

Weitere Nachrichten zum Thema Selbstbewusst falsch: Forscher haben entschlüsselt, warum KI lügtMassenentlassungen in IT wegen KI? CEOs wollen, dass man das denktSchlaue Bilderkennung zählt Partikel und deckt unbekannte Prozesse aufBilderkennungs-KI: Microsoft untersagt die Nutzung durch die PolizeiDunkelhäutige oder Gorillas? Googles Bilderkennung weiterhin ratlosBilderkennung: Microsoft Research schlägt Google, Intel etc. klar