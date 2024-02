Die Blogging-Dienste Tumblr und WordPress.com haben über viele Jahre Raum für die Inhalte von Millionen Nutzern geboten. Jetzt wollen sie den Zugang zu ihren umfassenden Datenbeständen an verschiedene große KI-Entwickler verkaufen.

Sammlung wirft Fragen auf

AGB geben es her

Zusammenfassung Tumblr und WordPress.com planen Verkauf von Daten an KI-Firmen

Abkommen mit Midjourney und OpenAI im Gespräch

Tumblr-Produktmanager erklärt Vorbereitung von Daten

Fehler bei Zusammenstellung von Tumblr-Daten aufgetreten

Private Posts irrtümlich in Daten-Dump inkludiert

Rechtliche Lage der Datenweitergabe meist durch AGB gedeckt

Komplexe Rechte bei Firmen-Blogs könnten Probleme bereiten

KI-Entwickler benötigen große Datenmengen für Algorithmen-Training

Entsprechende Abkommen sollen unter anderem mit Midjourney und OpenAI auf den Weg gebracht werden, berichtet das US-Magazin 404media unter Berufung auf eine Quelle mit Zugang zu internen Geschäftsvorgängen. Auch Kommunikation der Betreiber von Tumblr und WordPress.com soll die Berichte über solche Vorgänge stützen, hieß es.Als bei Tumblr Fragen aufkamen, warum es einen gesammelten Zugriff auf eine riesige Menge von Nutzer-Content gegeben habe, erklärte Produktmanager Cyle Gage, dass es darum ging, Daten für OpenAI und Midjourney vorzubereiten. Ob diese auch schon an die KI-Firmen übermittelt wurde, blieb hingegen noch unklar.Wahrscheinlich gibt es erst noch eine Bereinigung der Inhalte - denn bei der Zusammenstellung habe es Fehler gegeben. "Die Art und Weise, wie die Daten für den anfänglichen Dump an Midjourney/OpenAI abgefragt wurden, bedeutet, dass wir eine Liste aller öffentlichen Tumblr-Post-Inhalte zwischen 2014 und 2023 zusammengestellt haben, die aber leider auch private Posts enthielt, die nicht hätten enthalten sein sollen", erklärte Gage.Grundsätzlich dürfte die Weitergabe und Verarbeitung der Daten rechtmäßig sein - denn insbesondere bei kostenlosen Angeboten wird in den Nutzungsbedingungen meist geregelt, dass dem Plattformbetreiber umfassende Rechte an den Inhalten gegeben werden. Unsicherheit gibt es derzeit lediglich bei den Blogs einiger Firmenkunden - so betrieb Apple unter anderem das Blog des Apple-Music-Dienstes auf Tumblr. Hier könnten Inhalte mit komplizierten Rechten enthalten sein, sodass eine Vermarktung schwierig werden könnte.Die KI-Entwickler sind immer auf der Suche nach großen Mengen guter Daten. Denn je mehr Daten die Trainingsprogramme der selbstlernenden Algorithmen erhalten, desto besser werden die Ergebnisse. Schließlich sind KI-Algorithmen im Wesentlichen effektive Statistik-Tools, die anhand von Wahrscheinlichkeiten möglichst passende Ergebnisse liefern.