Die Entwicklung moderner KI-Systeme ist heute untrennbar mit der Frage verbunden, wie Trainingsdaten gewonnen, verarbeitet und rechtlich bewertet werden. Das Urteil des Oberlandesgerichts Hamburg zum Umgang mit urheberrechtlich geschützten Inhalten im Kontext von Trainingsdatensätzen hat dabei eine Zäsur markiert. Die Entscheidung bildet den bisher klarsten Referenzpunkt der deutschen Rechtsprechung zu automatisierten Datenanalysen und der Anwendung der Text- und Data-Mining-Schranken der §§ 44b, 60d UrhG. Gemeinsam mit dem erstinstanzlichen Urteil des Landgerichts Hamburg ergibt sich ein kohärentes Bild, das juristische und technische Grundlagen miteinander verbindet.
- Technische Differenzierung: Trenne Rohdaten, Metadaten, Embeddings und Trainingsprozess; abgeleitete Repräsentationen sind keine Werkexemplare.
- TDM-Compliance: Respektiere maschinenlesbare Nutzungsvorbehalte nach § 44b Abs. 3 UrhG; AGB-Hinweise genügen nicht.
- Pipeline-Design: Speichere Embeddings/Feature-Vektoren statt Originalwerke; dokumentiere temporäre Kopierschritte und Rechtsgrundlagen.
- Erkennungspflichten: Crawler müssen robots.txt, Lizenzdateien und standardisierte Metadaten automatisiert auswerten und protokollieren.
- Lizenzarchitektur: Verträge trennen Datensatzebene und Modellparameter; nutze Rohdaten zweckgebunden, Parameter frei verwertbar.
- Dokumentation & Transparenz: Lückenlose Nachweise zu Crawl, Opt-Out-Erkennung, Repräsentationserzeugung, Zugriffskontrolle; Modelle als Abstraktionsmaschinen gestalten.
- Regulatorische Vorbereitung: Richte TDM-Policies, Data-Governance und AI-Act-konforme Unterlagen ein; Compliance als Wettbewerbsvorteil.
Die Entscheidungen zeigen, dass die urheberrechtliche Bewertung automatisierter TDM-Prozesse nicht mehr anhand traditioneller Regeln zur Vervielfältigung geprüft werden kann, sondern an der technischen Realität moderner KI-Modelle auszurichten ist. Unternehmen, die spezialisierte KI-Systeme entwickeln, erhalten dadurch erstmals einen belastbaren Rahmen. Die Anforderungen an Compliance steigen allerdings erheblich. Die Struktur von Datenpipelines, die Erkennung maschinenlesbarer Nutzungsvorbehalte und der Aufbau rechtlicher Dokumentation werden zu zentralen Bausteinen der KI-Governance.
Der vorliegende Beitrag ordnet die Rechtsprechung ein und zeigt, welche praktischen und strategischen Leitlinien sich daraus für KI-Anbieter ergeben. Gleichzeitig wird erläutert, wie spezialisierte KI-Modelle – etwa für Branchen wie Medizin, Recht, Finanzen, Logistik oder Medien – rechtskonform aufgebaut werden können. Neben den juristischen Ausführungen wird dargestellt, wie entsprechende Verträge, TDM-Policies und Datenarchitektur-Richtlinien gestaltet werden können, und dass solche Dokumente über itmedialaw.com professionell entworfen werden.
Die Rechtsprechung aus Hamburg als Ausgangspunkt: Datensatz, Trainingsschritt und Nutzungstrennung
Die Entscheidungen des LG und OLG Hamburg beruhen auf einem Umstand, der in der juristischen Diskussion häufig unterschätzt wurde. KI-Systeme bestehen technisch aus mehreren Schichten: dem Quellmaterial, den erzeugten Metadaten, den embeddingsbasierten Repräsentationen und dem eigentlichen Trainingsprozess. Lange Zeit wurde urheberrechtlich allein auf die Frage abgestellt, ob ein Werk vervielfältigt wird. Die Hamburger Gerichte haben diesen klassisch-analogen Ansatz präzisiert und erstmals zwischen den verschiedenen Ebenen differenziert, die ein KI-System typischerweise umfasst.
Im Ausgangsfall war entscheidend, dass LAION zwar Bilder im Rahmen eines automatisierten Verfahrens kurzzeitig vervielfältigte, das Ergebnis des Prozesses aber nicht aus Kopien der Bilder bestand, sondern aus Metadaten und Text-Bild-Zuweisungen. Die Gerichte betonten, dass diese strukturierten Daten keine Werkexemplare seien und daher außerhalb der urheberrechtlichen Verwertungssphären liegen. Sie stellten zudem klar, dass für die vorübergehende Vervielfältigung im Rahmen technisch notwendiger Zwischenschritte die Schrankenregelungen greifen können, sofern die gesetzlichen Voraussetzungen erfüllt sind.
Diese Differenzierung hat erhebliche Bedeutung. Unternehmen, die spezialisierte KI einsetzen, profitieren davon, wenn technische Architekturen nicht auf dem dauerhaften Speichern der Originalwerke beruhen, sondern auf abgeleiteten Repräsentationen. Das entspricht nicht nur modernen Machine-Learning-Verfahren, sondern schafft zugleich einen Abstand zum urheberrechtlichen Schutzbereich.
Die praktische Konsequenz ist, dass Datenerhebungsprozesse als Teil der Compliance-Strategie gestaltet werden können. Wer embeddings oder abstrakte Feature-Vektoren speichert, minimiert das Risiko, urheberrechtliche Verwertungsrechte zu verletzen. Die Hamburger Entscheidungen bestätigen, dass solche Repräsentationen grundsätzlich nicht als Vervielfältigungen des Werks im Sinne von § 16 UrhG anzusehen sind. Damit entsteht ein strukturierter Weg, Trainingsprozesse rechtskonform zu gestalten.
Unternehmen, die für diese Architektur geeignete Verträge oder technische Richtlinien benötigen – etwa für Entwicklerteams, Datenlieferanten oder externe Data-Science-Dienstleister –, können entsprechende Dokumente auf Grundlage dieser Rechtsprechung erstellen lassen. Auf itmedialaw.com besteht die Möglichkeit, solche Verträge präzise an die technische Organisation anzupassen.
Nutzungsvorbehalte und die Pflicht zur Maschinenlesbarkeit: Die neue Grenze des TDM
Ein Kernpunkt der OLG-Entscheidung betrifft die Frage, was ein wirksamer Nutzungsvorbehalt im Sinne des § 44b Abs. 3 UrhG ist. Der Gesetzgeber hat in Umsetzung der DSM-Richtlinie den Grundsatz eingeführt, dass Text- und Data-Mining grundsätzlich erlaubt ist, solange ein Rechteinhaber diesem nicht ausdrücklich widersprochen hat. Dieser Widerspruch muss jedoch so ausgestaltet sein, dass er automatisiert erkennbar ist.
Das OLG Hamburg hat klargestellt, dass ein Hinweis in Nutzungsbedingungen oder Allgemeinen Geschäftsbedingungen diesen Anforderungen nicht genügt. In Zeiten automatisierter Datenerhebung müssen Nutzungsvorbehalte nicht an juristische Personen adressiert werden, sondern an technische Systeme. Ein Hinweis, der nur für menschliche Leser bestimmt ist, reicht nicht aus, um automatisierte Abrufe zu verhindern.
Dies bedeutet zweierlei. Rechteinhaber müssen technische Standards einsetzen, um Opt-Out-Erklärungen in maschinenlesbarer Form zu kommunizieren. Und KI-Anbieter müssen technische Mechanismen einsetzen, um solche Nutzungsvorbehalte zu erkennen und zu respektieren. Die Pflicht geht über moralische oder vertragsrechtliche Erwägungen hinaus; sie ist gesetzliche Voraussetzung dafür, dass die TDM-Schranke greift.
Damit ergeben sich für Unternehmen klare Compliance-Anforderungen. Crawler und Datenpipelines müssen in der Lage sein, robots.txt, maschinenlesbare Lizenzdateien oder standardisierte Metadatenformate auszuwerten. Die Systeme müssen dokumentieren, ob auf Quelldaten ein Nutzungsvorbehalt bestand und wie dieser technisch erkannt wurde. Die Entscheidungen aus Hamburg zeigen, dass die Verantwortung hierfür beim KI-Anbieter liegt.
Unternehmen, die Trainingsdaten aus öffentlichen Quellen beziehen, benötigen daher eine TDM-Policy, die technische und organisatorische Regeln zusammenfasst. Eine solche Policy sollte in Entwicklerteams implementiert und im Rahmen der internen Verantwortlichkeiten dokumentiert werden. Über itmedialaw.com können entsprechende Policies, interne Anweisungen und technische Compliance-Konzepte entworfen werden, die unmittelbar in Entwicklungsumgebungen implementiert werden können.
Verträge mit Datenlieferanten, Plattformen und API-Anbietern: Lizenzarchitektur als Wettbewerbsvorteil
Die Hamburger Rechtsprechung verdeutlicht zugleich, dass die Schranken des Urheberrechts nicht als Ersatz für vertragliche Regelungen dienen. Viele wertvolle Datensätze, die für spezialisierte KI-Modelle benötigt werden, sind nicht öffentlich zugänglich. Für diese Szenarien ist die Lizenzierung nach wie vor der zentrale Rechtsmechanismus.
Im Bereich hochspezialisierter KI-Modelle – etwa medizinischer Diagnosesysteme, juristischer Expertensysteme, Finanzmarktanalysen, Industrie-IoT-Systeme oder Spielebalance-Engines – stammen wesentliche Trainingsdaten häufig aus kommerziellen Quellen. Dies betrifft sowohl große Plattformen als auch interne Datenpools von Unternehmen. Die Einzelheiten der Nutzung dieser Daten lassen sich nicht über die Schrankenregelungen abbilden; sie erfordern saubere Verträge.
Die Entscheidungen aus Hamburg geben dafür eine Struktur: Verträge sollten klar zwischen der Datensatzebene und der Modellparameter-Ebene unterscheiden. Während Rohdaten reguläre urheberrechtlich geschützte Materialien sein können, können abgeleitete Repräsentationen wie embeddings selbst nicht mehr als Werkexemplare gelten. Dies eröffnet Spielräume für Vertragsgestaltung.
Lizenzverträge können so aufgebaut werden, dass sie die Nutzung der Rohdaten nur für den Zweck der Erstellung abgeleiteter Repräsentationen erlauben, während die späteren Modellparameter frei nutzbar sind. Dadurch entsteht für den Lizenzgeber ein klarer Schutz und für den Lizenznehmer ein präziser Rahmen zur wirtschaftlichen Verwertung. Gleichzeitig wird das Risiko minimiert, dass spätere Modellnutzungen in Konflikt mit urheberrechtlichen Rechten stehen.
Unternehmen, die solche Vertragswerke benötigen, können diese individuell ausarbeiten lassen. Auf itmedialaw.com besteht die Möglichkeit, strukturierte Lizenzverträge, API-Nutzungsverträge, Data-Supply-Agreements oder Data-Collaboration-Verträge zu entwerfen, die sowohl rechtliche Schranken als auch technische Gegebenheiten berücksichtigen. Durch die Verbindung juristischer Expertise mit technischer Architekturanalyse können Verträge erstellt werden, die nicht nur rechtssicher, sondern praktisch einsetzbar sind.
Organisatorische und technische Compliance: Dokumentation, Modelltransparenz und regulatorische Zukunft
Die OLG-Entscheidung fällt in eine Zeit, in der die europäische Regulierung von KI vor dem größten Umbruch ihrer Geschichte steht. Mit dem AI Act entstehen neue Dokumentations- und Transparenzpflichten. Die Rechtsprechung aus Hamburg lässt erkennen, dass auch das Urheberrecht künftig stärker als bisher auf organisatorische und technische Dokumentation abstellt.
Für KI-Anbieter ergibt sich daraus die Notwendigkeit, alle Schritte des Datenumgangs nachvollziehbar zu dokumentieren. Dies betrifft den Crawl-Prozess, die Erkennung maschinenlesbarer Nutzungsvorbehalte, die Erzeugung abgeleiteter Repräsentationen sowie die interne Zugriffskontrolle. Die Gerichte orientieren sich zunehmend an technischen Standards. Wer Compliance durch eindeutige Dokumentation belegt, reduziert das Risiko von Rechtsstreitigkeiten und erfüllt gleichzeitig Anforderungen von Investoren, Geschäftspartnern und Aufsichtsbehörden.
Die Modelltransparenz spielt hier eine wesentliche Rolle. Systeme sollten so aufgebaut sein, dass sie nicht als Replikationsmaschinen wirken, sondern als Abstraktionsmaschinen. Je deutlicher erkennbar ist, dass Modelle nicht in der Lage sind, Originalwerke zu extrahieren oder zu rekonstruieren, desto eher lassen sich Schrankenregelungen vertrags- und urheberrechtlich rechtfertigen.
Für Anbieter spezialisierter KI-Systeme hat dies große Bedeutung. Branchen wie MedTech, LegalTech, FinTech und GameTech sind zunehmend davon abhängig, dass Modelle nachvollziehbare und auditierbare Trainingsprozesse vorweisen können. Ein gut formulierter Compliance-Rahmen wird dadurch zum Wettbewerbsvorteil. Unternehmen, die entsprechende Dokumente benötigen – etwa TDM-Policies, Data-Governance-Manuals, interne Schulungsunterlagen oder regulatorische Dokumentation im Sinne des AI Acts – können diese spezifisch erstellen lassen.
Fazit
Die Hamburger Entscheidungen markieren einen Wendepunkt im Umgang mit Trainingsdaten und automatisierten Analyseprozessen. Die Rechtsprechung schafft Klarheit, hebt die Bedeutung technischer Maschinenerkennungsmechanismen hervor und trennt präzise zwischen Datensatzebene und Modellparameter-Ebene. Für KI-Anbieter bedeutet dies, dass rechtssichere Trainingsprozesse heute technisch umsetzbar sind, wenn sie durch geeignete Compliance-Strukturen begleitet werden.
Die Gestaltung der Datenarchitektur ist nicht allein eine technische, sondern zunehmend eine rechtliche Aufgabe. Je sorgfältiger Unternehmen ihre Datenpipelines dokumentieren und je besser sie zwischen Rohdaten und abgeleiteten Repräsentationen differenzieren, desto stabiler ist ihr Geschäftsmodell.
Die Entscheidung macht zudem deutlich, dass Verträge mit Datenlieferanten, Plattformen und Entwicklern weiterhin eine zentrale Rolle spielen. Sie schaffen die Grundlage für hochwertige, domänenspezifische Trainingsdaten und ermöglichen die Entwicklung spezialisierter Modelle, die sowohl rechtlich als auch wirtschaftlich belastbar sind.
Für Unternehmen besteht die Möglichkeit, sämtliche hierfür benötigten Dokumente – von TDM-Policies über Compliance-Leitfäden bis hin zu detaillierten Data-Supply-Agreements – maßgeschneidert erstellen zu lassen. Der rechtliche Rahmen erlaubt Innovation, wenn er ernst genommen und strukturiert umgesetzt wird. Die Hamburger Entscheidungen bilden dafür die Grundlage.












































