Apple ausgesperrt: Große Webseiten verweigern Zugriff auf ihre Inhalte

Schon seit Jahren verwendet Apple Crawler, um die Inhalte von Webseiten zu erfassen. Auf diese Weise werden etwa Siri und Spotlight mit Informationen gefüttert. Die braucht auch Apple Intelligence. Etliche große Webseiten sagen jetzt aber: Nein!

Felix Krauth, 29.08.2024 18:53 Uhr

Kriminalität, Cybersecurity, Gesetz, Cybercrime, Internetkriminalität, Sperre, Netzsperren, Verbindungsprobleme, Gesperrt, Kein Empfang, Netzsperre, Websperre, Unterbrechung

KI-Training als Streitpunkt

Um nützlich zu sein und sinnvolle Ergebnisse zu liefern, müssen KI-Modelle zuerst trainiert werden. Dazu werden riesige Datenmengen analysiert und der künstlichen Intelligenz 'einverleibt'. Dabei gilt: Je mehr Daten erfasst werden, desto schlauer ist hinterher die KI. Das Internet bietet für dieses Training das optimale Umfeld. Denn mit einem sogenannten Webcrawler lassen sich die Inhalte von Webseiten unkompliziert abgreifen.

Auch Apple nutzt diese Möglichkeit. Seit 2015 durchsucht der Applebot das Internet, um Suchfunktionen der Firma wie Siri oder Spotlight mit Informationen zu versorgen. Mit Applebot-Extended hat man nun eine Erweiterung des Webcrawlers in Betrieb, mit der auch Daten für KI-Training gesammelt werden.

Allerdings besteht für Betreiber einer Internetseite die Option, durch einen Eintrag in der sogenannten robots.txt einen Widerspruch gegen das Scraping einzulegen und somit eine Verwendung ihrer Daten zu untersagen.

Hintergrund: Robots.txt ist eine Datei auf Webservern, um bestimmten Bots mitzuteilen, ob und inwieweit sie willkommen oder unerwünscht sind. Webcrawler sollen darin niedergeschriebene Grenzen achten. Der Standard ist allerdings rein hinweisend und auf die Mitarbeit des Webcrawlers angewiesen.

Betreiber schließen Apple aus

Wie Wired berichtet, haben genau das eine Menge großer Webseiten und Verlage getan. So darf Apple keine Inhalte von Seiten wie Facebook, Instagram, Tumblr, der New York Times, der Financial Times oder USA Today verwenden, um seine künstliche Intelligenz zu trainieren.

Bei den zu Meta gehörigen Seiten ist das nicht überraschend. Schließlich will man dort nicht die eigenen kostbaren Daten an einen direkten Konkurrenten im KI-Wettrennen übergeben. Andere Webseiten könnten zudem auf einen Deal mit Apple spekulieren, bei dem der Zugang zu den Webseiteninhalten gegen eine Gebühr zur Verfügung gestellt wird. Dazu passen auch die Aussagen einiger Publisher.

Wir blockieren Applebot-Extended auf allen Vox Media-Websites, wie wir es auch bei vielen anderen AI-Scraping-Tools getan haben, wenn wir keine kommerzielle Vereinbarung mit der anderen Partei haben.
Lauren Starke, Vox Media

Kontroverse über Einhaltung

Im Gegensatz zu anderen Firmen will man sich in Cupertino aber in jedem Fall an die Vorgaben halten. Zuletzt hatte Anthropic für Ärger bei Webseitenbetreibern gesorgt, da der Webcrawler der Firma trotz entsprechender Anweisungen in den robots.txt-Dateien die Inhalte der Seiten abgegriffen hatte. Laut den Betroffenen wie etwa ifixit.com hätten die dadurch erzeugten massiven Seitenaufrufe beinahe zu einem Serverzusammenbruch geführt.

Zusammenfassung

Apple nutzt Webcrawler, um Siri und Spotlight zu versorgen
Applebot seit 2015 aktiv, neue Erweiterung sammelt Daten für KI
Webseiten können Nutzung durch Eintrag in robots.txt blockieren
Große Publisher wie Facebook und New York Times blockieren Apple
Einige Betreiber erhoffen sich eine kommerzielle Vereinbarung
Apple will sich im Gegensatz zu anderen Firmen an robots.txt halten

Siehe auch:

Thema:

Apple

Kommentieren4

Hinweis einsenden

Weitere Nachrichten zum Thema Auslauf: Diese Geräte fallen nächste Woche wohl aus Apples SortimentApple Intelligence: So teuer könnte der KI-Dienst für iPhones werdeniOS 18.1 Beta ist da: Apple Intelligence für Tester - nur nicht in der EUApple verschiebt KI-Start: iOS 18.1 bringt "Intelligence" erst im OktoberApple Intelligence kommt vorerst nicht nach EuropaiOS 18: Keine Apple Intelligence, aber zumindest Siri wird klüger