Dürfen urheberrechtlich geschützte Inhalte zum Erstellen eines Trainingsdatensatzes für KI-Modelle verwendet werden? Das Landgericht (LG) Hamburg beschäftigte sich als erstes Gericht in Deutschland mit dieser Frage. Die Richter beleuchten dabei die Grenzen des Data Minings und setzen sich mit den Schrankenregelungen des Urheberrechts auseinander (Urteil vom 27. September 2024, Az.: 310 O 227/23).
Was ist Data Mining?
Data Mining ist eine automatisierte Analyse großer Datenmengen, um darin verborgene Muster, Zusammenhänge oder Trends zu erkennen. Mithilfe statistischer Methoden, maschinellem Lernen und Algorithmen werden Daten ausgewertet, um neue Erkenntnisse zu gewinnen oder Vorhersagen zu treffen.
Data Mining wird häufig in Bereichen wie Marktforschung, Finanzanalyse und künstlicher Intelligenz (KI) eingesetzt. Besonders beim Training von KI-Modellen dient Data-Mining dazu, Daten automatisch zu durchsuchen und für maschinelles Lernen aufzubereiten.
Das Urheberrecht wird hierbei dann relevant, wenn der Gegenstand dieses Vorgangs digitale oder digitalisierte Werke sind, d.h. urheberrechtlich geschützte Inhalte.
Der Vorfall
Der Beklagte ist ein gemeinnütziger Verein, der sich die Förderung von Forschung im Bereich künstliche Intelligenz zum Ziel gesetzt hat, indem er open access Datensätze bereitstellt. Zu diesem Zweck veröffentlichte der Verein kostenfrei einen Datensatz mit knapp 6 Milliarden Bild-Text-Paaren, der für das Training generativer KI-Modelle genutzt werden kann. Zur Erstellung dieses Datensatzes hatte der Beklagte die Meta-Daten verschiedener Bilder, insbesondere die URL des Speicherorts und die Bildbeschreibung, extrahiert und in einen neuen Datensatz integriert.
Im Rahmen dieses Prozesses wurde in den Datensatz auch das streitgegenständliche Bild aufgenommen, das von der Website einer Bildagentur heruntergeladen wurde und mit einem Wasserzeichen versehen war. Auf der Bildagentur-Website war ein Nutzungsvorbehalt zu finden, der es Nutzern in englischer Sprache untersagte, Bilder mit „automated programs“ herunterzuladen oder zu „scrapen“.
Der Kläger, der Urheber eines Bildes, warf dem Beklagten vor, das Urheberrecht durch eine unzulässige Vervielfältigung im Rahmen des Analyseprozesses verletzt zu haben. Der Kläger ist hierbei Inhaber der Urheberrechte an dem Bild, während die Bildagentur berechtigt war, das Bild zu zeigen und Lizenzen für Nutzungsrechte zu vergeben.
Im vorliegenden Verfahren betonte das LG Hamburg, dass es nicht um die Frage ging, ob das Bild für das KI-Training verwendet werden durfte, sondern lediglich um die Zulässigkeit des Downloads des Bildes, um es im Wege von Data Mining weiterzuverarbeiten.
Das Gericht entschied, dass dem Beklagten eine solche Nutzung im Rahmen des Urheberrechts nicht verweigert werden kann.
Aktuelle Urteile zur DSGVO
In unseren regelmäßigen Besprechungen von Urteilen zum Datenschutzrecht erklären wir Ihnen die Konsequenzen für den Unternehmensalltag.
Das Urteil
Das LG Hamburg beschäftigte sich in seiner Entscheidung insbesondere mit den Schrankenregelungen des § 44b UrhG und § 60d des Urheberrechtsgesetzes (UrhG).
Schrankenregelungen stellen Ausnahmen vom ausschließlichen Nutzungsrecht des Urhebers dar. Sie ermöglichen bestimmte Nutzungen urheberrechtlich geschützter Werke, ohne dass eine gesonderte Zustimmung des Rechteinhabers erforderlich ist.
Eingriff in Nutzungsrechte liegt vor
Das Gericht stellte zunächst fest, dass das Bild gemäß § 72 Abs. 1 UrhG als Lichtbild urheberrechtlich geschützt und der Kläger als Urheber nach § 72 Abs. 2 UrhG berechtigt sei, Verletzungsansprüche nach § 97 UrhG geltend zu machen.
Zudem hielten die Richter fest, dass im Zuge des Downloads eine Vervielfältigung des Bildes im Sinne von § 16 Abs. 1 UrhG vorgenommen wurde, die grundsätzlich die Zustimmung des Klägers erfordert hätte. Eine Ausnahme von dieser Zustimmungspflicht können jedoch Schrankenregelungen darstellen. Das Gericht beschäftigte sich alsdann mit den Schrankenregelungen des § 44a UrhG, § 44b UrhG und § 60d UrhG.
Die Schrankenregelung des § 44a UrhG
Das LG sah den Anwendungsbereich der Schrankenregelung des § 44a UrhG (vorübergehende Vervielfältigungshandlungen) als nicht eröffnet. Die Vervielfältigung sei weder flüchtig noch begleitend gewesen:
- Sie sei nicht flüchtig, da die Verarbeitung nicht unbewusst und unabhängig vom Nutzer erfolgte, sondern vielmehr das Ergebnis einer gezielten und bewussten Programmierung des Analyseprozesses war.
- Ebenso sei sie nicht begleitend, da das Herunterladen des Bildes kein bloß begleitender Prozess der Analyse, sondern ein vorgelagerter, gezielt gesteuerter Prozess zur Beschaffung der relevanten Daten sei.
Die Schrankenregelung des § 44b UrhG
Die Schrankenregelung des § 44b UrhG (Text und Data Mining) wurde ebenfalls untersucht. Gemäß § 44b Abs. 1, 2 UrhG sind Vervielfältigungen von rechtmäßig zugänglichen Werken für Zwecke des Text und Data Minings grundsätzlich erlaubt. Eine Ausnahme besteht jedoch für online zugängliche Werke, wenn ein Nutzungsvorbehalt vorliegt. Dieser ist gemäß § 44b Abs. 3 UrhG nur dann wirksam, wenn er in maschinenlesbarer Form vorliegt.
Das LG Hamburg führte aus, dass der Beklagte sich voraussichtlich nicht auf die Schrankenregelung des § 44b UrhG berufen könne. Eine abschließende Verneinung dieser Frage ließ das Gericht jedoch offen, da es die Erlaubnis zur Vervielfältigung letztendlich auf der Grundlage des § 60d UrhG ableitete, so dass eine endgültige Klärung der Frage nicht mehr erforderlich war.
Interessanterweise erfolgt die Untersuchung der Anforderungen an die Maschinenlesbarkeit des Nutzungsvorbehalts des Rechteinhabers in diesem Fall in Form eines obiter dictum. Dies gewährt einen Einblick in die rechtliche Einschätzung des Richters, ohne rechtliche Bindungswirkung zu entfalten. Gleichwohl könnte diese Stellungnahme potenziell als argumentative Grundlage für zukünftige Entscheidungen zu dieser aktuell intensiv diskutierten Rechtsfrage dienen.
Bislang war es nämlich umstritten, ob für einen maschinenlesbaren Nutzungsvorbehalt, wie er in § 44b UrhG und Art. 4 Abs. 3 der DSM-Richtlinie gefordert wird, auch eine Erklärung in „natürlicher Sprache“ ausreichend ist. Das LG Hamburg bejahte diese Frage, da moderne KI-Anwendungen in der Lage seien, natürliche Sprache zu verstehen und zu interpretieren. Das Gericht wies zudem darauf hin, dass der europäische Gesetzgeber gemäß Art. 53 Abs. 1 lit. c AI Act ausdrücklich fordere, dass KI-Anbieter „modernste Technologien“ einsetzen, um Rechtsvorbehalte zu erkennen und zu berücksichtigen. Wenn moderne KI-Technologien in der Lage seien, solche Vorbehalte in natürlicher Sprache zu erfassen, sei dies daher ebenfalls als maschinenlesbar zu werten.
Ob sich diese Auffassung auch in zukünftigen gerichtlichen Entscheidungen durchsetzen wird, bleibt abzuwarten. Dem steht eine andere rechtliche Perspektive gegenüber, nach der lediglich Nutzungsvorbehalte, die in einem technischen Format wie ein „noindex“-Befehl in der „robots.txt“ einer Website die Nutzung zu Trainingszwecken untersagen, als maschinenlesbar gelten sollen.
Die Schrankenregelung des § 60d UrhG
Die Vervielfältigung wurde schließlich unter die Schrankenregelung des § 60d UrhG (Text und Data Mining für Zwecke der wissenschaftlichen Forschung) eingeordnet. Diese erlaubt die Vervielfältigung für Text und Data Mining im Rahmen wissenschaftlicher Forschung, wenn diese von nicht-kommerziellen Forschungsorganisationen betrieben wird (§ 60d Abs. 1 und Abs. 2 Nr. 1 UrhG).
Das Gericht befand, dass der Beklagte den Datensatz zu Forschungszwecken erstellt und kostenfrei bereitgestellt hat, was den Anforderungen des § 60d UrhG entspricht. Nach Auffassung des LG könne bereits die Erstellung eines Datensatzes als wissenschaftliche Forschung angesehen werden. Zwar sei dieser Schritt an sich noch nicht unmittelbar mit einem Erkenntnisgewinn verbunden, stelle jedoch einen grundlegenden Arbeitsschritt dar, dessen Ziel es sei, den Datensatz später für die Generierung von Erkenntnissen zu nutzen. Ein solcher Zweck der späteren Wissensgewinnung sei in diesem Fall gegeben.
Fazit
Die Entscheidung des LG Hamburg stellt einen wichtigen Schritt in der Klärung der rechtlichen Zulässigkeit von Data-Mining im Zusammenhang mit KI-Training dar. Insbesondere die Auseinandersetzung um die Schrankenregelungen des Urheberrechts bietet wertvolle Einsichten in die Rechte der Urheber und die Möglichkeiten der Nutzung von Daten für wissenschaftliche Forschung. Dies gilt umso mehr für den KI-Bereich, in welchem typischerweise große Datenmengen benötigt und verarbeitet werden.
Es ist zu betonen, dass das Gericht lediglich über die Erstellung des Trainingsdatensatzes und nicht über die spätere (potenziell kommerzielle) Nutzung dieses Datensatzes für das KI-Training entschied. Ob die Nutzung des Trainingsdatensatzes für das KI-Training urheberrechtlich zulässig ist, bleibt unklar. Da die Verwendung von Bildern über das bloße Data Mining hinausgeht, bleibt abzuwarten, wie zukünftige gerichtliche Entscheidungen solche Fälle beurteilen werden.