KI-Chatbots sind faszinierend und funktionieren bereits jetzt erstaunlich gut. Allerdings sind derartige Programme und Dienste nicht alleine so weit gekommen, sondern müssen trainiert werden. Womit ist aber eine große Frage, denn die Quellen sind nicht unendlich vorhanden.

KIs brauchen gewaltigen Datenmengen

OpenAI "Whisper"

Zusammenfassung KI-Chatbots benötigen Training mit großen Datenmengen

OpenAI nutzte YouTube-Videos für KI-Training

New York Times klagte gegen OpenAI wegen Datennutzung

Whisper-Modell transkribierte Millionen Stunden YouTube

OpenAI bewegt sich in rechtlichem Graubereich

Google lehnt unerlaubtes Scraping von YouTube-Inhalten ab

Google passt Nutzungsbedingungen für eigene Zwecke an

Es gab bereits in Vergangenheit immer wieder Vorwürfe in Richtung der Anbieter von künstlichen Intelligenzen, vor allem jene, dass diese es mit den Quellen für das KI-Training nicht ganz genau nehmen. Überraschend ist das nicht, denn KI-Chatbots brauchen gewaltige Datenmengen, um ihre Large Language Models (LLMs) menschlich klingen zu lassen. Das können Bücher, soziale Medien und sonstige Internet-Quellen sein.Ein Name, der hier immer wieder fällt, ist OpenAI . Der ChatGPT-Macher wurde auch schon verklagt, doch nun gibt es erneut schwere Vorwürfe in Richtung des Unternehmens, in das Microsoft zuletzt mehrere Milliarden Dollar investiert hat. Laut der renommierten New York Times (die seinerseits OpenAI schon wegen des Vorwurfs des unautorisierten Trainings verklagt hat) hat OpenAI zuletzt "Millionen Stunden" an YouTube-Videos verwendet, um seine Software zu verbessern.Die NYT schreibt, dass OpenAI für diesen Zweck ein spezielles Audio-Transkriptions-Modell namens Whisper entwickelt hat, dieses wurde auf YouTube eingesetzt, um mehr als eine Million Stunden zu transkribieren und diese zum Training von GPT-4 zu verwenden. Laut dem Bericht weiß man bei OpenAI, dass man hier in einem rechtlichen Graubereich operiert. Greg Brockman, President von OpenAI, soll auch persönlich in diese Art der Datensammlung involviert gewesen sein.OpenAI soll bereits 2021 an einen Punkt gekommen sein, an dem man alle brauchbaren Datenquellen ausgeschöpft hatte. Daraufhin wurde diskutiert und offenbar beschlossen, dass man auch auf Videos, Podcasts und Audiobooks zurückgreifen wird.Google bestätigte, dass man "unbestätigte Berichte" zu derartigen Aktivitäten von OpenAI gesehen habe und verwies darauf, dass "sowohl unsere robots.txt-Dateien als auch unsere Nutzungsbedingungen das unerlaubte Scraping oder Herunterladen von YouTube-Inhalten untersagen".Gleichzeitig dürfte Google aber keine Scheu haben, YouTube für eigene Zwecke bzw. Trainings zu nutzen. Das Nachsehen haben letztlich die Nutzer, denn Google hat selbst die Nutzungsbedingungen so angepasst, dass man eine ausreichend große rechtliche Defacto-Lücke bekommt - zum eigenen Vorteil natürlich und nicht jenem von Konkurrenten.