Google hat seinem E-Mail-Dienst Google Mail einen deutlich verbesserten Spam-Filter verpasst. Das Unternehmen geht hier sogar so weit, die Neuerungen als "eine der größten Verbesserungen in der Gefahrenabwehr in den letzten Jahren" zu bezeichnen.

Spam-Killer RETVec

KI erkennt Text-Bild

Das ist durchaus nachvollziehbar. Zwar gibt es natürlich starke Sicherheitsrisiken in Form ausgeklügelter Malware - doch ist Spam aufgrund seiner Masse im gesamten Maßstab das weitaus größere Problem. Bei der Eindämmung der unerwünschten Nachrichten will man hier nun einen entscheidenden Schritt nach vorn gemacht haben.Den Kern des Updates macht das neue Textklassifizierungssystem RETVec (Resilient & Efficient Text Vectorizer) aus. Hinter diesem arbeiten - wie es in der heutigen Zeit erwartbar ist - moderne KI-Algorithmen . Diese sind nun laut Google in der Lage, "feindliche Textmanipulationen" zu verstehen.Darunter versteht man den Einsatz von Sonderzeichen, Emojis, Tippfehlern und anderen Junk-Zeichen, mit denen die maschinellen Spam-Algorithmen in die Irre geführt werden sollen. Während der Computer hier Probleme bei der Erkennung und Zuordnung hat, bleibt der Text für Menschen mit ihrer deutlich besseren Abstraktionsfähigkeit problemlos lesbar.Insbesondere die umfassenden Möglichkeiten, die der Unicode-Zeichensatz bietet, halfen den Spammern zuletzt, die Filter in großem Stil zu umgehen. So kann für den Nutzer der Text "Herzlichen Glückwunsch! Ein Guthaben von 1.000 Dollar ist für Ihr Jackpot-Konto verfügbar" in einer Nachricht stehen - für die Maschine hingegen handelt es sich hier lediglich um eine Aneinanderrreihung von Unicode-Sonderzeichen, deren Inhalt der Filter nicht entschlüsseln kann.Das allerdings soll sich nun ändern. Die KI-Systeme wurden darauf trainiert, genau solche Manipulationen ausfindig zu machen und aus dem Schriftbild auf den Inhalt schließen zu können. "RETVec ist so trainiert, dass es gegen Manipulationen auf Zeichenebene wie Einfügen, Löschen, Tippfehler, Homoglyphen, LEET-Substitution und vieles mehr resistent ist. Das RETVec-Modell wurde auf der Grundlage eines neuartigen Zeichenkodierers trainiert, der alle UTF-8-Zeichen und -Wörter effizient kodieren kann. So funktioniert RETVec sofort in über 100 Sprachen, ohne dass eine Nachschlagetabelle oder eine feste Vokabulargröße erforderlich ist", teilte Google mit.Allein das Wort "Glückwunsch" kann in scheinbar endlosen Varianten vorliegen, wenn man ein oder mehrere Zeichen durch Zahlen, mathematische Symbole, Kyrillisch, Hebräisch oder Emojis ersetzt. Statt aber mit einer gigantischen Homoglyphen-Nachschlagetabelle zu arbeiten, die auf Millionen von Parametern hinausläuft, benötigt die RETVec "nur" rund 200.000 Parameter. Dadurch ist der Filter so klein und effizient, dass er auch auf lokalen Geräten arbeiten kann. RETVec wird außerdem quelloffen zur Verfügung gestellt und soll auch von anderen Unternehmen eingesetzt werden können.