Kurzüberblick: Generative KI braucht Daten. Beim Training treffen Urheberrecht (TDM-Ausnahmen und Opt-out), DSGVO (Rechtsgrundlagen, Informationspflichten, Betroffenenrechte) und der AI Act (Transparenz- und Copyright-Compliance für General-Purpose-Modelle) unmittelbar aufeinander. Entscheidend ist ein sauberer Aufbau aus Rechtsgrundlagen, vertraglichen Zusicherungen, technischen Opt-out-Mechanismen und Prozessen für Einwände, Löschungen und Nachweise. Dieser Leitfaden bündelt die praxistauglichen Schritte – mit Fokus auf deutsche und europäische Regeln.

Inhaltsverzeichnis Verbergen

1. Rechtsrahmen kompakt: TDM-Ausnahmen, Opt-out und die deutsche Umsetzung

2. 2) DSGVO beim Web- und Nutzerdaten-Training: Rechtsgrundlagen, Grenzen, Pflichten

3. AI Act und Copyright-Compliance: Pflichten für General-Purpose-Modelle

4. Opt-out in der Praxis: maschinenlesbare Vorbehalte und wie KI-Teams sie beachten

5. Urheberrecht + DSGVO zusammen denken: Vier typische Stolpersteine

6. Praxisfahrplan: Governance, Verträge, Technik

7. Umsetzungsschritte für Produkt-Teams: „Legal by Architecture“

8. Häufige Fehlannahmen – und wie sie vermieden werden

9. Checkliste 2025: Von der Rechtstheorie zur Revisionssicherheit

10. Fazit

10.1. Author: Marian Härtel

Rechtsrahmen kompakt: TDM-Ausnahmen, Opt-out und die deutsche Umsetzung

Der unionsrechtliche Dreh- und Angelpunkt für das Training auf urheberrechtlich geschützten Inhalten sind die TDM-Ausnahmen der Richtlinie (EU) 2019/790 (DSM). Art. 3 privilegiert Text- und Data-Mining durch Forschungseinrichtungen/Kulturerbeeinrichtungen bei rechtmäßigem Zugang – ohne Widerspruchsmöglichkeit der Rechteinhaber. Art. 4 eröffnet eine allgemeine TDM-Schranke für weitere Zwecke (auch kommerzielles KI-Training), allerdings nur, soweit Rechteinhaber die Nutzung nicht „in geeigneter Form“ ausdrücklich vorbehalten (Opt-out, online idealerweise maschinenlesbar). In Deutschland sind diese Regeln als § 60d UrhG (Forschung) und § 44b UrhG (allgemeines TDM mit Opt-out) umgesetzt. Für die Praxis heißt das:
– Forschungstraining mit rechtmäßigem Zugang fällt regelmäßig in § 60d UrhG.
– Kommerzielles Training kann auf § 44b UrhG gestützt werden, sofern kein wirksamer Opt-out gesetzt wurde und der Zugang rechtmäßig war.
– Zusätzlich können Datenbankrechte betroffen sein; die TDM-Ausnahmen adressieren auch Extraktionen aus geschützten Datenbanken.

Das Opt-out ist insbesondere online maschinenlesbar auszudrücken. Diskussionen und erste Entscheidungen in Deutschland konkretisieren, dass „maschinenlesbar“ nicht automatisch klassische robots.txt-Verbote meint; vielmehr setzt sich eine spezifische TDM-Reservation durch, die klar und technisch auswertbar signalisiert, dass TDM-Nutzungen vorbehalten werden. Erste Gerichtsentscheidungen haben zudem gezeigt: Die Rechtmäßigkeit des Zugriffs, die Einhaltung von Opt-outs und die saubere Dokumentation sind haftungsrelevant – auch schon bei der Datensatzbildung für das Training, nicht erst beim eigentlichen Modelltraining.

2) DSGVO beim Web- und Nutzerdaten-Training: Rechtsgrundlagen, Grenzen, Pflichten

KI-Training auf personenbezogenen Daten braucht eine tragfähige Rechtsgrundlage nach Art. 6 DSGVO. Die Debatte dreht sich vor allem um berechtigte Interessen (Art. 6 Abs. 1 lit. f). Datenschutzaufsichten betonen: Berechtigte Interessen können denkbar sein, verlangen aber einen strengen Drei-Stufen-Test, Sicherheits- und Transparenzmaßnahmen, Interessenabwägung, Opt-Out-Mechanismen und eine nachvollziehbare Accountability. Für besondere Kategorien (Art. 9 DSGVO) ist der Maßstab erheblich höher; eine Stützung auf berechtigte Interessen scheidet aus, es braucht z. B. ausdrückliche Einwilligung oder eine andere spezielle Ausnahme.

Weitere Eckpunkte:
– Transparenz/Informationspflichten (Art. 13/14): Auch bei Web-Scraping sind Informationspflichten grundsätzlich zu erfüllen; Ausnahmen müssen begründet und dokumentiert werden.
– Betroffenenrechte: Widerspruch (Art. 21), Löschung (Art. 17), Berichtigung/Anmerkung zur Richtigkeit – auch bezogen auf Trainingsdatensätze und unter Umständen Modelle.
– Datenminimierung & Speicherbegrenzung (Art. 5 Abs. 1 lit. c/e): Korpora kuratieren, sensible Felder filtern, Retention begrenzen, Löschroutinen und „Do-Not-Train“-Sperrlisten vorhalten.
– Risikosteuerung & DPIA (Art. 35): Für breit angelegte Scraping/Training-Projekte regelmäßig erforderlich; Ergebnis in Policies und Technik spiegeln.

Europäische und nationale Behörden haben 2024/2025 Leitlinien und Task-Force-Berichte veröffentlicht, die den Rahmen schärfen: EDPB adressiert Transparenz, Richtigkeitsrisiken und Rechtsgrundlagen; CNIL erläutert Bedingungen, unter denen sich Training auf berechtigte Interessen stützen lässt (einschließlich technischer/organisatorischer Schutzmaßnahmen); ICO (UK) konkretisiert die Anforderungen an Web-Scraping und Legitimate-Interest-Tests. Für die Praxis ist entscheidend, diese Vorgaben nachweisbar in Governance und Technik zu verankern.

AI Act und Copyright-Compliance: Pflichten für General-Purpose-Modelle

Der AI Act ist seit Juli 2024 im Amtsblatt; zentrale Teile greifen stufenweise bis 2026. Für General-Purpose-AI-Modelle (GPAI) normiert der Rechtsrahmen Transparenz- und Copyright-Compliance-Pflichten. Anbieter von GPAI-Modellen müssen u. a. eine Policy zur Beachtung des EU-Urheberrechts vorhalten und eine hinreichend detaillierte Zusammenfassung der zum Training verwendeten Inhalte veröffentlichen – unabhängig davon, wo das Training stattfand. Parallel entsteht ein GPAI-Code of Practice (2025) als freiwilliger Anknüpfungspunkt, um die Pflichten – einschließlich Copyright-Respekt und Dokumentation – praktisch umzusetzen. Konsequenz: Rechte- und Daten-Compliance werden prüf- und nachweispflichtig, nicht nur „Best Efforts“.

Opt-out in der Praxis: maschinenlesbare Vorbehalte und wie KI-Teams sie beachten

Die DSM-Richtlinie verlangt für online verfügbare Inhalte einen maschinenlesbaren Vorbehalt. In der Praxis etabliert sich das TDM-Reservation Protocol (TDMRep) als dedizierter, auswertbarer Standard. Es kann u. a. per HTTP-Header oder TDM-Datei signalisieren, dass TDM-Nutzungen vorbehalten sind, und optional auf Lizenzpfade verweisen. Daneben kursieren inoffizielle Signale (z. B. „noai“-Meta/robots-Tags); diese sind nicht harmonisiert und werden inkonsistent beachtet. Wer auf § 44b UrhG setzt, sollte in der Pipeline konsequent TDM-Signale parsen und belegen, dass Opt-outs respektiert werden – andernfalls drohen Urheberrechtsrisiken. Öffentliche Stellen (Rat/Kommission) treiben parallel Standards/Registry-Überlegungen voran, um das Opt-out europaweit interoperabel zu machen.

Technische Mindestmaßnahmen für Scraper/Loader
– Parser für tdm-reservation und – soweit vorhanden – tdm-policy (Fallback: robuste robots-Ehre allein genügt nicht).
– Positiv-/Negativlisten und Blocker gegen bekannte AI-Crawler-Sperren und TDM-Vorbehalte.
– Evidenzspeicher: Für jede Quelle Zeitpunkt, HTTP-Header/Datei-Snapshot, Status des Opt-outs, Lizenzpfad, rechtmäßiger Zugang.
– Re-Crawl-Regeln: TDM-Opt-outs können nachträglich gesetzt werden; Reconcile-Läufe sind einzuplanen.
– Lizenz-Router: Wenn Vorbehalt gesetzt ist, den Lizenzweg anstoßen (z. B. Rechte-Contact-URL aus TDM-Policy).

Urheberrecht + DSGVO zusammen denken: Vier typische Stolpersteine

Rechtmäßiger Zugang ist kein Freifahrtschein. Kostenlos zugängliche Inhalte können urheberrechtlich frei abrufbar sein, aber datenschutzrechtlich bleibt eine Rechtsgrundlage erforderlich. Ohne tragfähige Art. 6-Basis und ohne transparente Information wird Training auf personenbezogenen Daten riskant – selbst wenn kein Opt-out gesetzt ist.

Spezialkategorien in Web-Daten schleichen sich in großem Stil in Korpora ein (Gesundheit, politische Meinung, Religion). Für das Training existiert regelmäßig keine tragfähige Ausnahme ohne Einwilligung oder engste Spezialtatbestände. Filter/Exklusion sind daher Pflicht, ebenso Sperr-Listen für sensible Entitäten.

Datenbankrechte werden unterschätzt. Viele „offene“ Sammlungen sind sui-generis-Datenbanken; massenhafte Extraktionen können das § 87b UrhG-Recht verletzen, wenn kein TDM-Privileg greift.

Nachträgliche Opt-outs und Betroffenenrechte betreffen nicht nur Datensätze, sondern teils auch Modellartefakte (z. B. Vektoren, Embeddings). Nicht immer besteht ein „Löschanspruch im Modell“, aber belastbare Prozesse für Suppression, Fine-Tuning-Korrekturen und Auskunft sind gefordert – und werden von Aufsichten zunehmend eingefordert. (Gesetze im Internet, EDPB)

Praxisfahrplan: Governance, Verträge, Technik

Governance & Dokumentation
– Policy-Stack: TDM-Compliance-Policy (Opt-out-Respekt, Lizenzpfade), Copyright-Policy (Werks-/Leistungsschutzrechte, Datenbankrechte), Privacy-Policy (Art. 6/9, Transparenz, Betroffenenrechte), Retention-Policy für Korpora/Artefakte.
– Rollen: Data Sourcing, Rights & Privacy Counsel, Dataset Steward, Security/ML-Ops, Audit.
– DPIA und Legitimate-Interest-Abwägung mit konkreten Safeguards (Pseudonymisierung, Blacklists, Sensitive-Data-Filter, Rate-Limits, Zugriffskontrollen, Zweckbindung).
– Transparenz: Layered Notices, Model Cards/Datasheets; für GPAI: Trainingsinhalts-Zusammenfassung gem. AI Act.

Verträge & Rechtekette
– Content-Quellen: Lizenzklauseln zu TDM-Erlaubnis/-Beschränkung, Zweckbindung „Training/Fine-Tuning/Evaluierung“, Gebiete, Laufzeit, Vergütung, Audit/Rechtekette, No-Scrape-Gewährleistung.
– API/Partner: Zusicherung rechtmäßiger Bereitstellung, keine Opt-outs verletzt, keine besondere Kategorien ohne Grundlage, Freistellung + Audit-Rechte.
– Nutzerinhalte (SaaS/UGC): klare AGB-Erlaubnis oder Default No-Training mit granularen Opt-ins; respektive Opt-out in Privacy-Settings; explizite Regeln für fein granulare Zwecke (z. B. „nur Qualitätsverbesserung“, „kein Drittmodell-Training“).
– Datenlieferanten (Annotation, Synthesis): Geheimhaltung, Urheber-/Leistungsschutz, personenbezogene Daten, Bias-/Qualitäts-KPIs, Rechte an Labels.

Technik & Prozesse
– Crawler/Loader respektieren tdm-reservation; Parser verpflichtend in die Pipeline.
– Sensitive-Data-Filter vor Aufnahme in Trainingskorpora; Hash/Heuristik/Regeln + menschliche Stichprobe.
– Betroffenenrechte: Such-/Suppressions-Funktion über Korpus und Artefakte; dokumentierter Widerspruchs- und Lösch-Prozess; differenziert für Trainings- vs. Evaluierungs-Sets und für Fine-Tuning-Adapter.
– Dataset-Provenance: Inhalte, Quellen-URL, Timestamp, Opt-out-Status, Lizenzpfad, Rechtsgrundlage; Unveränderlichkeit (z. B. WORM-Store) und Audit-Trail.
– Model-Level-Kontrollen: Red-Team-Eval für personenbezogene Ausgaben, Prompt-Guards, Throttling, Output-Transparenzhinweise.
– Security by Design: Zugriff/Keys, Segmentierung, Secret Management; Schutz vor Datenabflüssen und Poisoning; regelmäßige Audits.

Umsetzungsschritte für Produkt-Teams: „Legal by Architecture“

Korpus-Design
– Erstes Sourcing nur aus Quellen ohne TDM-Vorbehalt bzw. mit Lizenz; technische Whitelists.
– Dediziertes Forschungs-Korpus getrennt von kommerziellem Korpus; § 60d-Nutzungen nicht ungeprüft in kommerzielle Pfade kippen.
– Rezidives Sampling vermeiden (wiederholte Ziehungen sensibler Inhalte), um Overfit auf personenbezogene Muster zu reduzieren.

Transparenz & Nutzersteuerung
– Bei Produkten mit Nutzer-Uploads granulare Einwilligungen/Opt-ins zum Training; Default restriktiv; separate Einwilligung für besondere Daten.
– Informationslayer für Scraping-Quellen und Betroffenenrechte; leicht auffindbare „Do-Not-Train“-Schaltflächen.

Evaluation & Betrieb
– Richtigkeit/Accuracy bei personenbeziehbaren Ausgaben adressieren; EDPB hebt Genauigkeitsanforderungen hervor.
– Inhaltszusammenfassung (AI Act) sorgfältig kuratieren: Kategorien, Quellenklassen, Lizenzwege, Opt-out-Respekt – ohne Geschäftsgeheimnisse zu entblößen.
– Incident-Response für Rechte-/Datenschutzverstöße: Intake-Kanal, Sofortmaßnahmen (Block/Suppress), Benachrichtigungen, Remediation.

Häufige Fehlannahmen – und wie sie vermieden werden

„Öffentlich zugänglich = frei trainierbar“ – falsch. Auch öffentlich verfügbare Inhalte sind urheber- und datenrechtlich geschützt. Es braucht TDM-Privileg oder Lizenz und DSGVO-Grundlage.

„robots.txt genügt als Opt-out“ – unzuverlässig. Das TDM-Reservierungs-Signal ist der bessere, auswertbare Weg.

„Einmal trainiert, nie mehr löschbar“ – so pauschal nicht. Ein Lösch-/Widerspruchsprozess kann an Korpus (Entfernung/Suppress), Artefakte (Filter/Adapter-Retraining) und Output-Steuerung anknüpfen; ob ein Modell-Retrain nötig ist, hängt vom Einzelfall ab (Verhältnismäßigkeit, technische Machbarkeit, Risiko).

„Forschungsklausel heilt alles“ – tut sie nicht. § 60d UrhG ist auf berechtigte Träger und rechtmäßigen Zugang begrenzt; Überführungen in kommerzielle Nutzung sind gesondert zu lizenzieren/zu prüfen.

Checkliste 2025: Von der Rechtstheorie zur Revisionssicherheit

Datenquellen-Register mit Opt-out-Status (tdm-reservation), Rechtmäßigkeit, Lizenzpfad.
TDM-Parser produktiv, Blocker für TDM-Vorbehalte aktiv.
DSGVO-Grundlage ausgewiesen (Art. 6/9), LIA/DPIA dokumentiert, Transparenztexte verfügbar.
Sensitive-Data-Mitigation vor Training, Ausschlusslisten aktuell.
Betroffenenrechte-Prozess (Auskunft, Widerspruch, Löschung) end-to-end.
AI-Act-GPAI: Copyright-Policy + Trainingsinhalts-Zusammenfassung implementiert; Code of Practice ggf. gezeichnet.
Vertragliche Zusicherungen mit Content-/API-Partnern (Clearing, Freistellung, Audit).
Audit-Trail für Sourcing, Training, Evaluierung, Releases; regelmäßige Management-Reviews.

Fazit

Rechtskonformes KI-Training ist kein Ratespiel, sondern Prozess- und Beweisdisziplin. Wer TDM-Opt-outs technisch respektiert, DSGVO-Pflichten organisatorisch abbildet und AI-Act-Transparenz substanziell erfüllt, reduziert Streit- und Sanktionsrisiken erheblich – und gewinnt zugleich die Grundlage, um mit Rechteinhabern planbar zu lizenzieren. Der operative Unterschied entsteht nicht in Grundsatzpapieren, sondern in Crawler-Logs, Parsern, Filtern, Policies und Verträgen, die dem Audit standhalten.

Author: Marian Härtel

Marian Härtel ist Rechtsanwalt und Fachanwalt für IT-Recht mit einer über 25-jährigen Erfahrung als Unternehmer und Berater in den Bereichen Games, E-Sport, Blockchain, SaaS und Künstliche Intelligenz. Seine Beratungsschwerpunkte umfassen neben dem IT-Recht insbesondere das Urheberrecht, Medienrecht sowie Wettbewerbsrecht. Er betreut schwerpunktmäßig Start-ups, Agenturen und Influencer, die er in strategischen Fragen, komplexen Vertragsangelegenheiten sowie bei Investitionsprojekten begleitet. Dabei zeichnet sich seine Beratung durch einen interdisziplinären Ansatz aus, der juristische Expertise und langjährige unternehmerische Erfahrung miteinander verbindet. Ziel seiner Tätigkeit ist stets, Mandanten praxisorientierte Lösungen anzubieten und rechtlich fundierte Unterstützung bei der Umsetzung innovativer Geschäftsmodelle zu gewährleisten.