ChatGPT soll mehr als eine Million Stunden YouTube abgegriffen haben

KI-Chatbots sind faszinierend und funktionieren bereits jetzt erstaunlich gut. Allerdings sind derartige Programme und Dienste nicht alleine so weit gekommen, sondern müssen trainiert werden. Womit ist aber eine große Frage, denn die Quellen sind nicht unendlich vorhanden.

Witold Pryjda, 08.04.2024 08:56 Uhr

KIs brauchen gewaltigen Datenmengen

Es gab bereits in Vergangenheit immer wieder Vorwürfe in Richtung der Anbieter von künstlichen Intelligenzen, vor allem jene, dass diese es mit den Quellen für das KI-Training nicht ganz genau nehmen. Überraschend ist das nicht, denn KI-Chatbots brauchen gewaltige Datenmengen, um ihre Large Language Models (LLMs) menschlich klingen zu lassen. Das können Bücher, soziale Medien und sonstige Internet-Quellen sein.

Ein Name, der hier immer wieder fällt, ist OpenAI. Der ChatGPT-Macher wurde auch schon verklagt, doch nun gibt es erneut schwere Vorwürfe in Richtung des Unternehmens, in das Microsoft zuletzt mehrere Milliarden Dollar investiert hat. Laut der renommierten New York Times (die seinerseits OpenAI schon wegen des Vorwurfs des unautorisierten Trainings verklagt hat) hat OpenAI zuletzt "Millionen Stunden" an YouTube-Videos verwendet, um seine Software zu verbessern.

OpenAI "Whisper"

Die NYT schreibt, dass OpenAI für diesen Zweck ein spezielles Audio-Transkriptions-Modell namens Whisper entwickelt hat, dieses wurde auf YouTube eingesetzt, um mehr als eine Million Stunden zu transkribieren und diese zum Training von GPT-4 zu verwenden. Laut dem Bericht weiß man bei OpenAI, dass man hier in einem rechtlichen Graubereich operiert. Greg Brockman, President von OpenAI, soll auch persönlich in diese Art der Datensammlung involviert gewesen sein.

OpenAI soll bereits 2021 an einen Punkt gekommen sein, an dem man alle brauchbaren Datenquellen ausgeschöpft hatte. Daraufhin wurde diskutiert und offenbar beschlossen, dass man auch auf Videos, Podcasts und Audiobooks zurückgreifen wird.

Google bestätigte, dass man "unbestätigte Berichte" zu derartigen Aktivitäten von OpenAI gesehen habe und verwies darauf, dass "sowohl unsere robots.txt-Dateien als auch unsere Nutzungsbedingungen das unerlaubte Scraping oder Herunterladen von YouTube-Inhalten untersagen".

Gleichzeitig dürfte Google aber keine Scheu haben, YouTube für eigene Zwecke bzw. Trainings zu nutzen. Das Nachsehen haben letztlich die Nutzer, denn Google hat selbst die Nutzungsbedingungen so angepasst, dass man eine ausreichend große rechtliche Defacto-Lücke bekommt - zum eigenen Vorteil natürlich und nicht jenem von Konkurrenten.

Zusammenfassung

KI-Chatbots benötigen Training mit großen Datenmengen
OpenAI nutzte YouTube-Videos für KI-Training
New York Times klagte gegen OpenAI wegen Datennutzung
Whisper-Modell transkribierte Millionen Stunden YouTube
OpenAI bewegt sich in rechtlichem Graubereich
Google lehnt unerlaubtes Scraping von YouTube-Inhalten ab
Google passt Nutzungsbedingungen für eigene Zwecke an

Siehe auch:

Thema:

Künstliche Intelligenz

Gefällt dir dieser Artikel? WinFuture in der Google-Suche bevorzugen WinFuture auf folgen

Kommentieren21

Hinweis einsenden

Weitere Nachrichten zum Thema Google-Killer: ChatGPT-Suchmaschine schon ab nächster Woche online?Bald wohl noch mehr Werbung auf YouTube - wenn Videos pausiert sindTrotz Microsofts Millioneninvest: OpenAI "priorisiert" MacOSGoogle testet für YouTube KI-basiertes "Vorwärts springen"-FeatureChatGPT frei verfügbar: OpenAI hebt Account-Zwang aufCopilot "schlechter" als ChatGPT: Microsoft gibt Nutzern die Schuld