Chatbots sind praktisch und werden immer besser. Wie Large Language Models (LLMs) zu ihren Ergebnissen kommen, interessiert aber die wenigsten. Denn ChatGPT und Co. müssen trainiert werden und auch hier gelten Copyrights. OpenAI und Co. sehen das jedoch nicht so eng.

ChatGPT und Co. benötigen riesige Datenmengen

ChatGPT erlebt seit Monaten einen riesigen Hype und in der Tat sind die Ergebnisse oftmals faszinierend. Doch wie erwähnt, ist das kein Zufall: Denn um menschlich zu klingen, müssen derartige Sprachmodelle mit gewaltigen Datensätzen gefüttert werden. Allerdings sind Texte nicht unbegrenzt verfügbar und Anbieter wie OpenAI grasen das Internet ab, um genügend von Menschen geschriebenes Material zu finden.Dabei stellt sich immer wieder die Frage nach den Urheberrechten, denn immer mehr Dienste und Medien wollen nicht, dass Large Language Models auf ihre Angebote zugreifen. Das betrifft soziale Medien wie Twitter bzw. X, aber auch renommierte Tageszeitungen wie die New York Times, die derzeit versucht, KIs einen Riegel vorzuschieben.In vielen Fällen ist das Copyright jedoch klar geregelt, allen voran bei literarischen Werken. Doch das kümmert OpenAI und auch andere LLM-Anbieter wie Google, Meta und Microsoft aber nur wenig. Es gab auch schon erste Klagen von Autoren, doch OpenAI und Co. reagierten pragmatisch: Sie veröffentlichen die Quellen für die Trainings schlichtweg nicht mehr.Denn wie Insider berichtet, versucht ChatGPT nun immer mehr, zu vertuschen, dass man auf urheberrechtlich geschütztes Material zugegriffen hat. Das ist auch Gegenstand einer neuen Studie . In dieser heißt es, dass ChatGPT sich tarnt, indem die Ausgaben unterbrochen werden, "wenn man versucht, kontinuierlich den nächsten Satz zu extrahieren ... was in der vorherigen Version von ChatGPT nicht der Fall war", so die KI-Forscher.Weiter heißt es: "Wir vermuten, dass die ChatGPT-Entwickler einen Mechanismus implementiert haben, um zu erkennen, ob die Aufforderungen darauf abzielen, urheberrechtlich geschützte Inhalte zu extrahieren oder die Ähnlichkeit zwischen den generierten Ausgaben und urheberrechtlich geschützten Inhalten zu überprüfen."Die Studie konnte auch nachweisen, dass alle gängigen KI-Modelle sich direkt bei den Harry-Potter-Romanen J.K. Rowling bedient haben, da Phrasen und Sätze vorkommen, die jenen aus den Büchern exakt oder fast exakt gleichen - in einigen Fällen wurden allenfalls ein oder zwei Wörter geändert.