Die Entwicklung leistungsfähiger KI-Modelle steht und fällt mit der Qualität und Menge der verfügbaren Trainingsdaten. Gleichzeitig bewegen sich Anbieter beim Sammeln, Strukturieren und Aufbereiten solcher Daten in einem urheberrechtlichen Umfeld, das bisher durch Unsicherheiten geprägt war. Die Entscheidungen des Landgerichts Hamburg aus dem Jahr 2024 sowie des Oberlandesgerichts Hamburg aus dem Jahr 2025 zum Trainingsdatensatz des Vereins LAION stellen an dieser Stelle einen Meilenstein dar. Erstmals wurde detailliert geklärt, ob die automatisierte Vervielfältigung urheberrechtlich geschützter Inhalte zur Erstellung von Trainingsdatensätzen unter urheberrechtliche Schranken fallen kann und welche Anforderungen an einen wirksamen Nutzungsvorbehalt zu stellen sind.
- LG und OLG Hamburg setzen Meilenstein: Text- und Data Mining kann KI-Trainingsdatensätze urheberrechtlich legitimieren, trotz temporärer Vervielfältigungen.
- § 60d UrhG angewendet: Tätigkeit von LAION als wissenschaftlich eingestuft; offene Bereitstellung für Forschung ist maßgeblich, nicht spätere kommerzielle Nutzung.
- Nutzungsvorbehalt nach § 44b Abs. 3 UrhG erfordert eindeutig maschinenlesbare Implementierung; bloße AGB-Hinweise genügen nicht.
- Reine Links im Datensatz sind keine urheberrechtliche Nutzung; relevante Vervielfältigungsschritte werden durch Schranken gedeckt.
- Für KI-Anbieter: Scraping rechtmäßig zugänglicher Inhalte möglich, wenn Opt-out-Signale technisch erkannt und dokumentiert werden.
- Fokus auf Metadaten, Embeddings und abgeleitete Repräsentationen wird bestätigt; keine dauerhafte Speicherung vollständiger Werke.
- BGH-Revision zugelassen; mögliche Leitlinien zu Abgrenzung Datensatz-Erstellung, Modelltraining, Modellnutzung und EU-rechtlicher Präzisierung.
Die Urteile haben unmittelbare Auswirkungen auf Anbieter spezialisierter KI-Systeme, die auf kuratierte oder domänenspezifische Datensätze angewiesen sind, etwa im Bereich Medizin, Recht, Logistik, Finanzen, Computerspiele, E-Commerce oder Medienproduktion. Die Entscheidungen geben Orientierung dazu, wie automatisierte Datengewinnung rechtssicher gestaltet werden kann und in welchem Rahmen Trainingsmaterial verarbeitet werden darf.
Verfahrensstand und Ausgangspunkt: Das Landgericht Hamburg (LG Hamburg, 310 O 227/23)
Das Verfahren nahm seinen Ausgang in der behaupteten unberechtigten Nutzung eines professionellen Fotos in einem öffentlich zugänglichen KI-Trainingsdatensatz. Der Kläger ist Berufsfotograf und stellte fest, dass eines seiner Bilder über eine Bildagentur auf Webseiten erschienen war, die wiederum automatisch von LAION erfasst und in einem Datensatz verarbeitet worden waren. LAION, ein gemeinnütziger Verein, extrahiert Bild-Text-Paare aus frei zugänglichen Quellen, trennt die Inhalte technisch aus und veröffentlicht die strukturierten Metadaten in Datensätzen, die weltweit von Forschungseinrichtungen und KI-Anbietern genutzt werden.
Der Fotograf machte gegenüber LAION urheberrechtliche Unterlassungs- und Schadensersatzansprüche geltend. Nach seiner Auffassung stelle bereits der technische Vorgang des Herunterladens, Zwischenspeicherns und Klassifizierens seines Fotos eine Vervielfältigungshandlung gemäß § 16 UrhG dar. Die Tatsache, dass LAION das Foto selbst nicht in den Datensatz übernahm, sondern lediglich den Bildlink samt Beschreibung, sah er nicht als ausreichend an, um die Handlung urheberrechtlich zu neutralisieren. Entscheidend sei, dass LAION zum Zwecke der Datenanalyse Kopien des Fotos erstellt habe.
Das Landgericht wies die Klage ab. Das Gericht begründete dies maßgeblich mit der Anwendbarkeit der Schranken des Text- und Data Mining. Die Kammer ordnete die Tätigkeit von LAION in erster Linie der wissenschaftlichen Forschung zu und sah die Voraussetzungen des § 60d UrhG als erfüllt an. Die Nutzung erfolgte automatisiert, war auf die Analyse von Korrelationen zwischen Text und Bild gerichtet und endete damit, dass nicht das Werk selbst veröffentlicht wurde, sondern lediglich Metadaten.
Darüber hinaus stellte das Landgericht klar, dass selbst für eine mögliche Anwendung des § 44b UrhG – also der allgemeinen Text- und Data-Mining-Schranke – kein wirksamer Nutzungsvorbehalt gegeben sei. Ein maschinenlesbarer Nutzungsvorbehalt müsse strukturiert abgebildet werden. Hinweise in AGB oder Nutzungsbedingungen in natürlicher Sprache seien hierfür nicht zwingend ausreichend. Entscheidend sei, dass die Erklärung automatisiert erfasst werden könne. Dies könne etwa durch technische Mechanismen wie Metadatenfelder, robots.txt oder standardisierte Lizenztags erfolgen, deren Einsatz in der Praxis aber bislang inkonsistent sei.
Der Tenor der Entscheidung des Landgerichts brachte erstmals ein klares Signal: Das Erstellen von Trainingsdatensätzen kann unter bestimmten Voraussetzungen von der Schranke für wissenschaftliches Text- und Data Mining erfasst sein, auch wenn dabei vorübergehende Vervielfältigungen urheberrechtlich geschützter Werke stattfinden. Für die juristische Diskussion und die KI-Industrie war dies ein bedeutsamer Schritt, da bis dahin unklar war, wie weit der Schrankenschutz im Kontext algorithmischer Datenverarbeitung reicht.
Die Berufungsinstanz: Das OLG Hamburg bestätigt die Entscheidung und präzisiert den Umgang mit Nutzungsvorbehalten
Die Berufung des Klägers führte zur Überprüfung des Urteils durch das Oberlandesgericht Hamburg. Das OLG bestätigte das erstinstanzliche Urteil in sämtlichen tragenden Punkten. Erneut stand die Frage im Mittelpunkt, ob die Erstellung eines KI-Trainingsdatensatzes, der auf frei zugänglichen Internetquellen beruht, eine urheberrechtswidrige Nutzung darstellt.
Das OLG bejahte die Anwendbarkeit der Schranke des § 60d UrhG und führte aus, dass die Tätigkeit von LAION in technischer und funktionaler Hinsicht als wissenschaftlich einzustufen sei. Der Datensatz werde offen zugänglich bereitgestellt, diene der Forschung und ermögliche es, KI-Systeme zu entwickeln, auszubilden und zu evaluieren. Das Gericht stellte außerdem klar, dass es für die Anwendung der Schranke nicht darauf ankommt, ob einzelne Nutzer später kommerzielle Zwecke verfolgen. Entscheidend ist, dass die Erstellung des Datensatzes selbst der Wissenschaft dient und nicht in ein gewinnorientiertes Geschäftsmodell eingebettet ist.
Besondere Aufmerksamkeit erhielten die Ausführungen des OLG zum Nutzungsvorbehalt nach § 44b Abs. 3 UrhG. Das Landgericht hatte die Frage der Maschinenlesbarkeit noch offengelassen. Das OLG positionierte sich deutlicher: Ein wirksamer Nutzungsvorbehalt muss technisch so implementiert sein, dass automatisierte Datenanalyseprozesse ihn zuverlässig erkennen können. Allgemeine Hinweise in Nutzungsbedingungen reichen hierfür nicht aus. Dies bedeutet, dass Rechteinhaber, die eine Verarbeitung ihrer Werke im Rahmen von Text- und Data-Mining-Prozessen verhindern möchten, systematisch standardisierte, eindeutig maschinenlesbare Formate bereitstellen müssen.
Gleichzeitig betonte das OLG, dass reine Links auf urheberrechtlich geschützte Werke im Datensatz selbst keine urheberrechtlich relevante Nutzung darstellen. Für die Vervielfältigung des Werks ist allein der technische Zwischenschritt relevant. Da dieser jedoch durch die Schranken gedeckt ist, scheiden Ansprüche aus.
Das OLG ließ die Revision zum Bundesgerichtshof zu. Die grundlegende Bedeutung der Sache sei evident. Da Urheberrecht und KI-Training international diskutiert werden und die DSM-Richtlinie europäisch harmonisiert ist, ist zudem nicht ausgeschlossen, dass der EuGH die Thematik künftig weiter präzisieren wird.
Bedeutung der Entscheidungen: Rechtsrahmen für KI-Training, Trainingsdaten und spezialisierte KI-Anwendungen
Die Entscheidungen aus Hamburg sind weit mehr als eine Einzelfallbeurteilung. Sie klären zentrale Fragen, die bisher ungeordnet waren und für KI-Unternehmen erhebliche Rechtsunsicherheiten erzeugten.
Für spezialisierte KI-Systeme, die für Geschäftszwecke, SaaS-Anwendungen, hochangepasste interne Modelle oder Produktfeatures aufgebaut werden, lässt sich aus der Hamburger Rechtsprechung Folgendes ableiten:
Die Vervielfältigungshandlungen im Rahmen des Trainingsdatensatz-Aufbaus sind grundsätzlich urheberrechtlich relevant. Dennoch können sie unter die Schranken fallen, wenn das Werk rechtmäßig zugänglich ist und kein wirksamer menschenles- und maschinenlesbarer Nutzungsvorbehalt besteht.
Die Entscheidungen schränken die Möglichkeit von Rechteinhabern ein, die Nutzung ihrer Werke im TDM-Kontext durch allgemeine AGB auszuschließen. Anbieter spezialisierter KI gewinnen dadurch ein höheres Maß an Rechtssicherheit beim Scraping öffentlich zugänglicher Daten.
Unternehmen, die selbst Daten bereitstellen, sollten optierte Möglichkeiten prüfen, etwa eigene Nutzungsvorbehalte technisch eindeutig zu implementieren. Für Anbieter, die Daten erheben, bedeutet dies im Gegenzug, dass der Einsatz struktureller Opt-Out-Erkennung Teil ihrer Compliance-Strategie sein muss.
Die Entscheidungen beginnen die bisher ungeklärte Grenze zwischen Datensatz-Erstellung und Modelltraining zu systematisieren. Zwar bezogen sich die Hamburger Gerichte zunächst ausschließlich auf die Datensatzebene, doch die juristischen Argumente lassen erwarten, dass spätere Instanzen auch das eigentliche Modelltraining unter Einbezug des Drei-Stufen-Tests bewerten werden.
Für Anbieter spezialisierter KI-Systeme ist insbesondere relevant, dass selbst große Datenmengen aus frei zugänglichen Quellen prinzipiell genutzt werden dürfen, solange technische Nutzungsvorbehalte respektiert und die Schrankenregelungen eingehalten werden. Dies eröffnet insbesondere kleinen und mittleren Unternehmen die Möglichkeit, spezialisierte KI-Lösungen aufzubauen, ohne prohibitive Lizenzkosten tragen zu müssen.
Die Entscheidungen geben Start-ups zudem Handlungssicherheit beim Aufbau eigener Trainingspipelines: Architekturen, die darauf ausgerichtet sind, Daten ausschließlich zu Analysezwecken zwischenzuspeichern und dabei keine vollständigen Werkexemplare dauerhaft zu speichern oder weiterzugeben, werden durch die Rechtsprechung gestützt. Der Fokus auf Metadaten, Embeddings oder Modellparameter, die nicht das Originalwerk enthalten, entspricht dem, was die Hamburger Gerichte als zulässige Weiterverarbeitung anerkennen.
Einordnung für den Markt: Konsequenzen für KI-Anbieter, Regulierungsperspektiven und strategische Weichenstellungen
Die Entscheidungen des LG und OLG Hamburg fügen sich in die europäische Rechtsentwicklung ein, die durch die DSM-Richtlinie und künftig den AI Act strukturiert wird. Die Schrankenregelungen des Urheberrechts sind damit nicht isoliert zu interpretieren, sondern im Zusammenhang mit Transparenzpflichten, Risiko- und Governance-Regeln für KI-Systeme zu sehen.
In der Praxis bedeutet dies für Unternehmen, die spezialisierte KI-Modelle aufbauen:
Der Aufbau eigener Datensätze ist rechtlich möglich, sofern klare Grenzen eingehalten werden. Das betrifft die technische Zugriffsgestaltung, die Implementierung von Nutzungsvorbehalts-Erkennung und die Dokumentation der verwendeten Datenquellen. Unternehmen, die eigene Trainingsdaten kuratieren, sollten technische Verfahren nutzen, die lediglich strukturierte oder abgeleitete Informationen speichern. Dies entspricht der Logik der Hamburger Entscheidungen.
Spezialisierte KI-Modelle leben häufig weniger von Massenmaterial, sondern von hochqualitativen domänenspezifischen Daten. Gerade hier entfaltet die Rechtsprechung Wirkung, weil viele dieser Daten öffentlich zugänglich sind, aber nicht ohne Weiteres lizenziert werden können. Die Entscheidungen schließen solche Anwendungsfälle nicht aus, solange ein datenschutz- und urheberrechtlich konformer Rahmen geschaffen wird.
Technologien wie Embeddings, Vektordatenbanken oder abstrakte Repräsentationsmodelle profitieren davon, dass sie inhaltlich nicht zurück auf das ursprüngliche Werk führen. Die Hamburger Entscheidungen untermauern diese strukturelle Trennung als rechtlich relevanten Aspekt.
Für Rechteinhaber ergibt sich die Pflicht, Nutzungsvorbehalte künftig technisch standardisiert zu erklären. Für Anbieter ergibt sich daraus die Pflicht, solche Vorbehalte systematisch auswerten zu können.
Die Revision vor dem Bundesgerichtshof wird voraussichtlich Leitlinien schaffen, die weit über den konkreten Fall hinausgehen. Es ist möglich, dass der BGH eine differenzierte Abgrenzung zwischen Datensatz-Erstellung, Modelltraining und Modellnutzung entwickelt und die Anforderungen an die wissenschaftliche Nutzung weiter präzisiert. Auch eine Vorlage an den EuGH ist nicht ausgeschlossen, etwa zur Auslegung des Art. 4 DSM-Richtlinie.
Für KI-Anbieter bedeutet dies, dass Investitionen in Compliance-Systeme, automatisierte Erkennungsmechanismen und dokumentierte Trainingsprozesse zunehmend zwingend werden. Unternehmen, die frühzeitig auf entsprechende technische und organisatorische Strukturen setzen, erhalten nicht nur Rechtssicherheit, sondern stärken auch ihre Position gegenüber Investoren und Regulierung.
Ein ergänzender Beitrag zur Thematik des KI-Trainings unter urheberrechtlichen Schranken findet sich bereits hier.
Fazit
Die Hamburger Gerichte haben durch ihre Entscheidungen erstmals klare rechtliche Leitlinien für den Umgang mit urheberrechtlich geschützten Werken im Rahmen des KI-Trainings geschaffen. Sie stärken die Anwendung der Schranken des Text- und Data Mining und betonen, dass die automatisierte Analyse frei zugänglicher Internetinhalte zulässig sein kann, solange kein wirksamer maschinenlesbarer Nutzungsvorbehalt entgegensteht. Dies verschafft KI-Anbietern, insbesondere im Bereich spezialisierter Modelle, erhebliche Planungssicherheit.
Gleichzeitig zeigen die Entscheidungen, dass technische und organisatorische Compliance-Strukturen unerlässlich sind. Unternehmen, die automatisierte Datenverarbeitung betreiben, müssen sowohl die technischen Grenzen der Schrankenregelungen als auch die regulatorischen Entwicklungen im Blick behalten. Die anstehende Entscheidung des Bundesgerichtshofs und die zunehmende Verzahnung des Urheberrechts mit dem europäischen KI-Recht werden den Rahmen weiter konturieren.
Für die Praxis bedeutet dies: Wer spezialisierte KI-Systeme aufbauen möchte, muss die urheberrechtlichen Spielräume kennen, nutzen und technisch sauber umsetzen. Die Hamburger Entscheidungen bilden dafür eine solide Grundlage und markieren den Übergang von rechtlicher Unsicherheit hin zu einem Strukturrahmen, der Innovation ermöglicht, ohne die Rechteinhaber unangemessen zu beeinträchtigen.












































