ChatGPT soll mehr als eine Million Stunden YouTube abgegriffen haben
KI-Chatbots sind faszinierend und funktionieren bereits jetzt erstaunlich gut. Allerdings sind derartige Programme und Dienste nicht alleine so weit gekommen, sondern müssen trainiert werden. Womit ist aber eine große Frage, denn die Quellen sind nicht unendlich vorhanden.
Ein Name, der hier immer wieder fällt, ist OpenAI. Der ChatGPT-Macher wurde auch schon verklagt, doch nun gibt es erneut schwere Vorwürfe in Richtung des Unternehmens, in das Microsoft zuletzt mehrere Milliarden Dollar investiert hat. Laut der renommierten New York Times (die seinerseits OpenAI schon wegen des Vorwurfs des unautorisierten Trainings verklagt hat) hat OpenAI zuletzt "Millionen Stunden" an YouTube-Videos verwendet, um seine Software zu verbessern.
OpenAI soll bereits 2021 an einen Punkt gekommen sein, an dem man alle brauchbaren Datenquellen ausgeschöpft hatte. Daraufhin wurde diskutiert und offenbar beschlossen, dass man auch auf Videos, Podcasts und Audiobooks zurückgreifen wird.
Google bestätigte, dass man "unbestätigte Berichte" zu derartigen Aktivitäten von OpenAI gesehen habe und verwies darauf, dass "sowohl unsere robots.txt-Dateien als auch unsere Nutzungsbedingungen das unerlaubte Scraping oder Herunterladen von YouTube-Inhalten untersagen".
Gleichzeitig dürfte Google aber keine Scheu haben, YouTube für eigene Zwecke bzw. Trainings zu nutzen. Das Nachsehen haben letztlich die Nutzer, denn Google hat selbst die Nutzungsbedingungen so angepasst, dass man eine ausreichend große rechtliche Defacto-Lücke bekommt - zum eigenen Vorteil natürlich und nicht jenem von Konkurrenten.
Siehe auch:
KIs brauchen gewaltigen Datenmengen
Es gab bereits in Vergangenheit immer wieder Vorwürfe in Richtung der Anbieter von künstlichen Intelligenzen, vor allem jene, dass diese es mit den Quellen für das KI-Training nicht ganz genau nehmen. Überraschend ist das nicht, denn KI-Chatbots brauchen gewaltige Datenmengen, um ihre Large Language Models (LLMs) menschlich klingen zu lassen. Das können Bücher, soziale Medien und sonstige Internet-Quellen sein.Ein Name, der hier immer wieder fällt, ist OpenAI. Der ChatGPT-Macher wurde auch schon verklagt, doch nun gibt es erneut schwere Vorwürfe in Richtung des Unternehmens, in das Microsoft zuletzt mehrere Milliarden Dollar investiert hat. Laut der renommierten New York Times (die seinerseits OpenAI schon wegen des Vorwurfs des unautorisierten Trainings verklagt hat) hat OpenAI zuletzt "Millionen Stunden" an YouTube-Videos verwendet, um seine Software zu verbessern.
OpenAI "Whisper"
Die NYT schreibt, dass OpenAI für diesen Zweck ein spezielles Audio-Transkriptions-Modell namens Whisper entwickelt hat, dieses wurde auf YouTube eingesetzt, um mehr als eine Million Stunden zu transkribieren und diese zum Training von GPT-4 zu verwenden. Laut dem Bericht weiß man bei OpenAI, dass man hier in einem rechtlichen Graubereich operiert. Greg Brockman, President von OpenAI, soll auch persönlich in diese Art der Datensammlung involviert gewesen sein.OpenAI soll bereits 2021 an einen Punkt gekommen sein, an dem man alle brauchbaren Datenquellen ausgeschöpft hatte. Daraufhin wurde diskutiert und offenbar beschlossen, dass man auch auf Videos, Podcasts und Audiobooks zurückgreifen wird.
Google bestätigte, dass man "unbestätigte Berichte" zu derartigen Aktivitäten von OpenAI gesehen habe und verwies darauf, dass "sowohl unsere robots.txt-Dateien als auch unsere Nutzungsbedingungen das unerlaubte Scraping oder Herunterladen von YouTube-Inhalten untersagen".
Gleichzeitig dürfte Google aber keine Scheu haben, YouTube für eigene Zwecke bzw. Trainings zu nutzen. Das Nachsehen haben letztlich die Nutzer, denn Google hat selbst die Nutzungsbedingungen so angepasst, dass man eine ausreichend große rechtliche Defacto-Lücke bekommt - zum eigenen Vorteil natürlich und nicht jenem von Konkurrenten.
Zusammenfassung
- KI-Chatbots benötigen Training mit großen Datenmengen
- OpenAI nutzte YouTube-Videos für KI-Training
- New York Times klagte gegen OpenAI wegen Datennutzung
- Whisper-Modell transkribierte Millionen Stunden YouTube
- OpenAI bewegt sich in rechtlichem Graubereich
- Google lehnt unerlaubtes Scraping von YouTube-Inhalten ab
- Google passt Nutzungsbedingungen für eigene Zwecke an
Siehe auch:
- ChatGPT frei verfügbar: OpenAI hebt Account-Zwang auf
- Copilot "schlechter" als ChatGPT: Microsoft gibt Nutzern die Schuld
- Schwachstelle ChatGPT-Erweiterung: Lascher Umgang mit Sicherheit
- Neue Art Cyberattacke: KI-Wurm infiziert ChatGPT und Gemini
- ChatGPT-Macher zeigen erstmals ihre Text-zu-Video-KI "Sora"
Thema:
Videos zum Thema KI
- KI hält in Kameras Einzug: Was sie dort tut und was es bringt
- Super Bowl 2026: OpenAI lässt uns mit Codex Neues erschaffen
- Super Bowl 2026: Claude verrät, wie man einen Sixpack bekommt
- Super Bowl 2026: Oakley Meta-Brillen halten epische Sportmomente fest
- Super Bowl 2026: Base44 zeigt, wie KI jeden zum Programmierer macht
Beiträge aus dem Forum
Interessante Links
Neue Nachrichten
- Zero Trust: Windows Server startet verschlüsselte Namensauflösung
- Nvidia GPU RTX Pro 6000: Preis steigt um krasse 55 Prozent
- Google Earth: Flugsimulator jetzt kostenlos im Browser nutzbar
- iPhone Fold Ultra im Hands-on-Video: Alle Details im Überblick
- Tesla-Autopilot: Fahrer hebeln Sicherheitssystem mit 8-€-Gadget aus
- Spiele bis zu 95 % schneller laden: Riesiger Boost für AMD-GPUs ist da
- Nur heute: Media Markt und Saturn mit genialen Wochenendknallern
Videos
Neueste Downloads
❤ WinFuture unterstützen
Sie wollen online einkaufen?
Dann nutzen Sie bitte einen der folgenden Links,
um WinFuture zu unterstützen:
Vielen Dank!
Alle Kommentare zu dieser News anzeigen