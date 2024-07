KI-Modelle , mit denen Texte, Bilder, Musik und auch Videos generiert werden können, sind inzwischen hinlänglich bekannt. Jetzt allerdings haben Microsoft-Forscher ein System vorgestellt, das auch komplexe Excel-Tabellen erzeugen kann.

Bisher ist das neue SpreadsheetLLM nicht öffentlich verfügbar, Interessenten können sich allerdings bereits durch ein Paper mit dem Modell vertraut machen. Dieses soll "bei einer Vielzahl von Tabellenkalkulationsaufgaben äußerst effektiv" sein und das Potenzial haben, "die Verwaltung und Analyse von Tabellenkalkulationsdaten zu revolutionieren und den Weg für intelligentere und effizientere Interaktionen der Benutzer zu ebnen".Das Meistern einer Tabellenkalkulation klingt nach einer relativ einfachen Sache, ist für die KI-Entwickler aber eine wesentlich schwierigere Aufgabe als das Erzeugen verschiedener Medienformate. Denn in Bildern und Videos kann man über kleinere Ungenauigkeiten problemlos hinweggehen.Wenn es aber darum geht, Daten in einer Tabelle mit diversen Formeln zu einem gewünschten Ergebnis zu bringen, kommt es auf einen hohen Grad an Genauigkeit an. Ein kleiner Fehler kann hier am Ende bereits zu völlig verfälschten Daten führen, womit das gesamte Projekt nutzlos wäre.Eines der Probleme bei der Verwendung von LLMs in Tabellenkalkulationen ist, dass sie durch zu viele Token (also grundlegende Informationseinheiten, die das Modell verarbeitet) ausgebremst werden. Um dieses Problem zu lösen, hat Microsoft den SheetCompressor entwickelt, ein "innovatives Codierungs-Framework, das Tabellenkalkulationen effektiv für LLMs komprimiert".Die LLM nähert sich dem Verständnis einer Tabelle mit ihren strukturierten Daten auf mehreren Stufen. Zuerst werden "strukturelle Anker" platziert, die der KI helfen, die Berechnungen schrittweise zu verstehen. Anschließend werden überflüssige Inhalte, die eher Verwirrung stiften, entfernt und eine "Skelett-Version" der Tabelle erstellt, die sich leichter analysieren lässt."Um die Effizienz zu verbessern, weichen wir von der traditionellen zeilen- und spaltenweisen Serialisierung ab und verwenden eine verlustfreie, invertierte Indexübersetzung im JSON-Format", so Microsoft. "Diese Methode erstellt ein Wörterbuch, das nicht leere Zelltexte indiziert und Adressen mit identischem Text zusammenführt, wodurch die Token-Nutzung optimiert und gleichzeitig die Datenintegrität gewahrt wird."