Apple ausgesperrt: Große Webseiten verweigern Zugriff auf ihre Inhalte

Schon seit Jahren verwendet Apple Crawler, um die Inhalte von Webseiten zu erfassen. Auf diese Weise werden etwa Siri und Spotlight mit Informationen gefüttert. Die braucht auch Apple Intelligence. Etliche große Webseiten sagen jetzt aber: Nein!
Kriminalität, Cybersecurity, Gesetz, Cybercrime, Internetkriminalität, Sperre, Netzsperren, Verbindungsprobleme, Gesperrt, Kein Empfang, Netzsperre, Websperre, Unterbrechung

KI-Training als Streitpunkt

Um nützlich zu sein und sinnvolle Ergebnisse zu liefern, müssen KI-Modelle zuerst trainiert werden. Dazu werden riesige Datenmengen analysiert und der künstlichen Intelligenz 'einverleibt'. Dabei gilt: Je mehr Daten erfasst werden, desto schlauer ist hinterher die KI. Das Internet bietet für dieses Training das optimale Umfeld. Denn mit einem sogenannten Webcrawler lassen sich die Inhalte von Webseiten unkompliziert abgreifen.

Auch Apple nutzt diese Möglichkeit. Seit 2015 durchsucht der Applebot das Internet, um Suchfunktionen der Firma wie Siri oder Spotlight mit Informationen zu versorgen. Mit Applebot-Extended hat man nun eine Erweiterung des Webcrawlers in Betrieb, mit der auch Daten für KI-Training gesammelt werden.


Allerdings besteht für Betreiber einer Internetseite die Option, durch einen Eintrag in der sogenannten robots.txt einen Widerspruch gegen das Scraping einzulegen und somit eine Verwendung ihrer Daten zu untersagen.

Hintergrund: Robots.txt ist eine Datei auf Webservern, um bestimmten Bots mitzuteilen, ob und inwieweit sie willkommen oder unerwünscht sind. Webcrawler sollen darin niedergeschriebene Grenzen achten. Der Standard ist allerdings rein hinweisend und auf die Mitarbeit des Webcrawlers angewiesen.

Betreiber schließen Apple aus

Wie Wired berichtet, haben genau das eine Menge großer Webseiten und Verlage getan. So darf Apple keine Inhalte von Seiten wie Facebook, Instagram, Tumblr, der New York Times, der Financial Times oder USA Today verwenden, um seine künstliche Intelligenz zu trainieren.

Bei den zu Meta gehörigen Seiten ist das nicht überraschend. Schließlich will man dort nicht die eigenen kostbaren Daten an einen direkten Konkurrenten im KI-Wettrennen übergeben. Andere Webseiten könnten zudem auf einen Deal mit Apple spekulieren, bei dem der Zugang zu den Webseiteninhalten gegen eine Gebühr zur Verfügung gestellt wird. Dazu passen auch die Aussagen einiger Publisher.

Wir blockieren Applebot-Extended auf allen Vox Media-Websites, wie wir es auch bei vielen anderen AI-Scraping-Tools getan haben, wenn wir keine kommerzielle Vereinbarung mit der anderen Partei haben.
Lauren Starke, Vox Media

Kontroverse über Einhaltung

Im Gegensatz zu anderen Firmen will man sich in Cupertino aber in jedem Fall an die Vorgaben halten. Zuletzt hatte Anthropic für Ärger bei Webseitenbetreibern gesorgt, da der Webcrawler der Firma trotz entsprechender Anweisungen in den robots.txt-Dateien die Inhalte der Seiten abgegriffen hatte. Laut den Betroffenen wie etwa ifixit.com hätten die dadurch erzeugten massiven Seitenaufrufe beinahe zu einem Serverzusammenbruch geführt.

Zusammenfassung
  • Apple nutzt Webcrawler, um Siri und Spotlight zu versorgen
  • Applebot seit 2015 aktiv, neue Erweiterung sammelt Daten für KI
  • Webseiten können Nutzung durch Eintrag in robots.txt blockieren
  • Große Publisher wie Facebook und New York Times blockieren Apple
  • Einige Betreiber erhoffen sich eine kommerzielle Vereinbarung
  • Apple will sich im Gegensatz zu anderen Firmen an robots.txt halten

Siehe auch:
Jetzt einen Kommentar schreiben


Alle Kommentare zu dieser News anzeigen
Apples Aktienkurs in Euro
Tipp einsenden
❤ WinFuture unterstützen
Sie wollen online einkaufen? Dann nutzen Sie bitte einen der folgenden Links, um WinFuture zu unterstützen: Vielen Dank!