Kurzüberblick: Generative KI braucht Daten. Beim Training treffen Urheberrecht (TDM-Ausnahmen und Opt-out), DSGVO (Rechtsgrundlagen, Informationspflichten, Betroffenenrechte) und der AI Act (Transparenz- und Copyright-Compliance für General-Purpose-Modelle) unmittelbar aufeinander. Entscheidend ist ein sauberer Aufbau aus Rechtsgrundlagen, vertraglichen Zusicherungen, technischen Opt-out-Mechanismen und Prozessen für Einwände, Löschungen und Nachweise. Dieser Leitfaden bündelt die praxistauglichen Schritte – mit Fokus auf deutsche und europäische Regeln.
Rechtsrahmen kompakt: TDM-Ausnahmen, Opt-out und die deutsche Umsetzung
Der unionsrechtliche Dreh- und Angelpunkt für das Training auf urheberrechtlich geschützten Inhalten sind die TDM-Ausnahmen der Richtlinie (EU) 2019/790 (DSM). Art. 3 privilegiert Text- und Data-Mining durch Forschungseinrichtungen/Kulturerbeeinrichtungen bei rechtmäßigem Zugang – ohne Widerspruchsmöglichkeit der Rechteinhaber. Art. 4 eröffnet eine allgemeine TDM-Schranke für weitere Zwecke (auch kommerzielles KI-Training), allerdings nur, soweit Rechteinhaber die Nutzung nicht „in geeigneter Form“ ausdrücklich vorbehalten (Opt-out, online idealerweise maschinenlesbar). In Deutschland sind diese Regeln als § 60d UrhG (Forschung) und § 44b UrhG (allgemeines TDM mit Opt-out) umgesetzt. Für die Praxis heißt das:
– Forschungstraining mit rechtmäßigem Zugang fällt regelmäßig in § 60d UrhG.
– Kommerzielles Training kann auf § 44b UrhG gestützt werden, sofern kein wirksamer Opt-out gesetzt wurde und der Zugang rechtmäßig war.
– Zusätzlich können Datenbankrechte betroffen sein; die TDM-Ausnahmen adressieren auch Extraktionen aus geschützten Datenbanken.
Das Opt-out ist insbesondere online maschinenlesbar auszudrücken. Diskussionen und erste Entscheidungen in Deutschland konkretisieren, dass „maschinenlesbar“ nicht automatisch klassische robots.txt-Verbote meint; vielmehr setzt sich eine spezifische TDM-Reservation durch, die klar und technisch auswertbar signalisiert, dass TDM-Nutzungen vorbehalten werden. Erste Gerichtsentscheidungen haben zudem gezeigt: Die Rechtmäßigkeit des Zugriffs, die Einhaltung von Opt-outs und die saubere Dokumentation sind haftungsrelevant – auch schon bei der Datensatzbildung für das Training, nicht erst beim eigentlichen Modelltraining.
2) DSGVO beim Web- und Nutzerdaten-Training: Rechtsgrundlagen, Grenzen, Pflichten
KI-Training auf personenbezogenen Daten braucht eine tragfähige Rechtsgrundlage nach Art. 6 DSGVO. Die Debatte dreht sich vor allem um berechtigte Interessen (Art. 6 Abs. 1 lit. f). Datenschutzaufsichten betonen: Berechtigte Interessen können denkbar sein, verlangen aber einen strengen Drei-Stufen-Test, Sicherheits- und Transparenzmaßnahmen, Interessenabwägung, Opt-Out-Mechanismen und eine nachvollziehbare Accountability. Für besondere Kategorien (Art. 9 DSGVO) ist der Maßstab erheblich höher; eine Stützung auf berechtigte Interessen scheidet aus, es braucht z. B. ausdrückliche Einwilligung oder eine andere spezielle Ausnahme.
Weitere Eckpunkte:
– Transparenz/Informationspflichten (Art. 13/14): Auch bei Web-Scraping sind Informationspflichten grundsätzlich zu erfüllen; Ausnahmen müssen begründet und dokumentiert werden.
– Betroffenenrechte: Widerspruch (Art. 21), Löschung (Art. 17), Berichtigung/Anmerkung zur Richtigkeit – auch bezogen auf Trainingsdatensätze und unter Umständen Modelle.
– Datenminimierung & Speicherbegrenzung (Art. 5 Abs. 1 lit. c/e): Korpora kuratieren, sensible Felder filtern, Retention begrenzen, Löschroutinen und „Do-Not-Train“-Sperrlisten vorhalten.
– Risikosteuerung & DPIA (Art. 35): Für breit angelegte Scraping/Training-Projekte regelmäßig erforderlich; Ergebnis in Policies und Technik spiegeln.
Europäische und nationale Behörden haben 2024/2025 Leitlinien und Task-Force-Berichte veröffentlicht, die den Rahmen schärfen: EDPB adressiert Transparenz, Richtigkeitsrisiken und Rechtsgrundlagen; CNIL erläutert Bedingungen, unter denen sich Training auf berechtigte Interessen stützen lässt (einschließlich technischer/organisatorischer Schutzmaßnahmen); ICO (UK) konkretisiert die Anforderungen an Web-Scraping und Legitimate-Interest-Tests. Für die Praxis ist entscheidend, diese Vorgaben nachweisbar in Governance und Technik zu verankern.
AI Act und Copyright-Compliance: Pflichten für General-Purpose-Modelle
Der AI Act ist seit Juli 2024 im Amtsblatt; zentrale Teile greifen stufenweise bis 2026. Für General-Purpose-AI-Modelle (GPAI) normiert der Rechtsrahmen Transparenz- und Copyright-Compliance-Pflichten. Anbieter von GPAI-Modellen müssen u. a. eine Policy zur Beachtung des EU-Urheberrechts vorhalten und eine hinreichend detaillierte Zusammenfassung der zum Training verwendeten Inhalte veröffentlichen – unabhängig davon, wo das Training stattfand. Parallel entsteht ein GPAI-Code of Practice (2025) als freiwilliger Anknüpfungspunkt, um die Pflichten – einschließlich Copyright-Respekt und Dokumentation – praktisch umzusetzen. Konsequenz: Rechte- und Daten-Compliance werden prüf- und nachweispflichtig, nicht nur „Best Efforts“.
Opt-out in der Praxis: maschinenlesbare Vorbehalte und wie KI-Teams sie beachten
Die DSM-Richtlinie verlangt für online verfügbare Inhalte einen maschinenlesbaren Vorbehalt. In der Praxis etabliert sich das TDM-Reservation Protocol (TDMRep) als dedizierter, auswertbarer Standard. Es kann u. a. per HTTP-Header oder TDM-Datei signalisieren, dass TDM-Nutzungen vorbehalten sind, und optional auf Lizenzpfade verweisen. Daneben kursieren inoffizielle Signale (z. B. „noai“-Meta/robots-Tags); diese sind nicht harmonisiert und werden inkonsistent beachtet. Wer auf § 44b UrhG setzt, sollte in der Pipeline konsequent TDM-Signale parsen und belegen, dass Opt-outs respektiert werden – andernfalls drohen Urheberrechtsrisiken. Öffentliche Stellen (Rat/Kommission) treiben parallel Standards/Registry-Überlegungen voran, um das Opt-out europaweit interoperabel zu machen.
Technische Mindestmaßnahmen für Scraper/Loader
– Parser für tdm-reservation und – soweit vorhanden – tdm-policy (Fallback: robuste robots-Ehre allein genügt nicht).
– Positiv-/Negativlisten und Blocker gegen bekannte AI-Crawler-Sperren und TDM-Vorbehalte.
– Evidenzspeicher: Für jede Quelle Zeitpunkt, HTTP-Header/Datei-Snapshot, Status des Opt-outs, Lizenzpfad, rechtmäßiger Zugang.
– Re-Crawl-Regeln: TDM-Opt-outs können nachträglich gesetzt werden; Reconcile-Läufe sind einzuplanen.
– Lizenz-Router: Wenn Vorbehalt gesetzt ist, den Lizenzweg anstoßen (z. B. Rechte-Contact-URL aus TDM-Policy).
Urheberrecht + DSGVO zusammen denken: Vier typische Stolpersteine
Rechtmäßiger Zugang ist kein Freifahrtschein. Kostenlos zugängliche Inhalte können urheberrechtlich frei abrufbar sein, aber datenschutzrechtlich bleibt eine Rechtsgrundlage erforderlich. Ohne tragfähige Art. 6-Basis und ohne transparente Information wird Training auf personenbezogenen Daten riskant – selbst wenn kein Opt-out gesetzt ist.
Spezialkategorien in Web-Daten schleichen sich in großem Stil in Korpora ein (Gesundheit, politische Meinung, Religion). Für das Training existiert regelmäßig keine tragfähige Ausnahme ohne Einwilligung oder engste Spezialtatbestände. Filter/Exklusion sind daher Pflicht, ebenso Sperr-Listen für sensible Entitäten.
Datenbankrechte werden unterschätzt. Viele „offene“ Sammlungen sind sui-generis-Datenbanken; massenhafte Extraktionen können das § 87b UrhG-Recht verletzen, wenn kein TDM-Privileg greift.
Nachträgliche Opt-outs und Betroffenenrechte betreffen nicht nur Datensätze, sondern teils auch Modellartefakte (z. B. Vektoren, Embeddings). Nicht immer besteht ein „Löschanspruch im Modell“, aber belastbare Prozesse für Suppression, Fine-Tuning-Korrekturen und Auskunft sind gefordert – und werden von Aufsichten zunehmend eingefordert. (Gesetze im Internet, EDPB)
Praxisfahrplan: Governance, Verträge, Technik
Governance & Dokumentation
– Policy-Stack: TDM-Compliance-Policy (Opt-out-Respekt, Lizenzpfade), Copyright-Policy (Werks-/Leistungsschutzrechte, Datenbankrechte), Privacy-Policy (Art. 6/9, Transparenz, Betroffenenrechte), Retention-Policy für Korpora/Artefakte.
– Rollen: Data Sourcing, Rights & Privacy Counsel, Dataset Steward, Security/ML-Ops, Audit.
– DPIA und Legitimate-Interest-Abwägung mit konkreten Safeguards (Pseudonymisierung, Blacklists, Sensitive-Data-Filter, Rate-Limits, Zugriffskontrollen, Zweckbindung).
– Transparenz: Layered Notices, Model Cards/Datasheets; für GPAI: Trainingsinhalts-Zusammenfassung gem. AI Act.
Verträge & Rechtekette
– Content-Quellen: Lizenzklauseln zu TDM-Erlaubnis/-Beschränkung, Zweckbindung „Training/Fine-Tuning/Evaluierung“, Gebiete, Laufzeit, Vergütung, Audit/Rechtekette, No-Scrape-Gewährleistung.
– API/Partner: Zusicherung rechtmäßiger Bereitstellung, keine Opt-outs verletzt, keine besondere Kategorien ohne Grundlage, Freistellung + Audit-Rechte.
– Nutzerinhalte (SaaS/UGC): klare AGB-Erlaubnis oder Default No-Training mit granularen Opt-ins; respektive Opt-out in Privacy-Settings; explizite Regeln für fein granulare Zwecke (z. B. „nur Qualitätsverbesserung“, „kein Drittmodell-Training“).
– Datenlieferanten (Annotation, Synthesis): Geheimhaltung, Urheber-/Leistungsschutz, personenbezogene Daten, Bias-/Qualitäts-KPIs, Rechte an Labels.
Technik & Prozesse
– Crawler/Loader respektieren tdm-reservation; Parser verpflichtend in die Pipeline.
– Sensitive-Data-Filter vor Aufnahme in Trainingskorpora; Hash/Heuristik/Regeln + menschliche Stichprobe.
– Betroffenenrechte: Such-/Suppressions-Funktion über Korpus und Artefakte; dokumentierter Widerspruchs- und Lösch-Prozess; differenziert für Trainings- vs. Evaluierungs-Sets und für Fine-Tuning-Adapter.
– Dataset-Provenance: Inhalte, Quellen-URL, Timestamp, Opt-out-Status, Lizenzpfad, Rechtsgrundlage; Unveränderlichkeit (z. B. WORM-Store) und Audit-Trail.
– Model-Level-Kontrollen: Red-Team-Eval für personenbezogene Ausgaben, Prompt-Guards, Throttling, Output-Transparenzhinweise.
– Security by Design: Zugriff/Keys, Segmentierung, Secret Management; Schutz vor Datenabflüssen und Poisoning; regelmäßige Audits.
Umsetzungsschritte für Produkt-Teams: „Legal by Architecture“
Korpus-Design
– Erstes Sourcing nur aus Quellen ohne TDM-Vorbehalt bzw. mit Lizenz; technische Whitelists.
– Dediziertes Forschungs-Korpus getrennt von kommerziellem Korpus; § 60d-Nutzungen nicht ungeprüft in kommerzielle Pfade kippen.
– Rezidives Sampling vermeiden (wiederholte Ziehungen sensibler Inhalte), um Overfit auf personenbezogene Muster zu reduzieren.
Transparenz & Nutzersteuerung
– Bei Produkten mit Nutzer-Uploads granulare Einwilligungen/Opt-ins zum Training; Default restriktiv; separate Einwilligung für besondere Daten.
– Informationslayer für Scraping-Quellen und Betroffenenrechte; leicht auffindbare „Do-Not-Train“-Schaltflächen.
Evaluation & Betrieb
– Richtigkeit/Accuracy bei personenbeziehbaren Ausgaben adressieren; EDPB hebt Genauigkeitsanforderungen hervor.
– Inhaltszusammenfassung (AI Act) sorgfältig kuratieren: Kategorien, Quellenklassen, Lizenzwege, Opt-out-Respekt – ohne Geschäftsgeheimnisse zu entblößen.
– Incident-Response für Rechte-/Datenschutzverstöße: Intake-Kanal, Sofortmaßnahmen (Block/Suppress), Benachrichtigungen, Remediation.
Häufige Fehlannahmen – und wie sie vermieden werden
„Öffentlich zugänglich = frei trainierbar“ – falsch. Auch öffentlich verfügbare Inhalte sind urheber- und datenrechtlich geschützt. Es braucht TDM-Privileg oder Lizenz und DSGVO-Grundlage.
„robots.txt genügt als Opt-out“ – unzuverlässig. Das TDM-Reservierungs-Signal ist der bessere, auswertbare Weg.
„Einmal trainiert, nie mehr löschbar“ – so pauschal nicht. Ein Lösch-/Widerspruchsprozess kann an Korpus (Entfernung/Suppress), Artefakte (Filter/Adapter-Retraining) und Output-Steuerung anknüpfen; ob ein Modell-Retrain nötig ist, hängt vom Einzelfall ab (Verhältnismäßigkeit, technische Machbarkeit, Risiko).
„Forschungsklausel heilt alles“ – tut sie nicht. § 60d UrhG ist auf berechtigte Träger und rechtmäßigen Zugang begrenzt; Überführungen in kommerzielle Nutzung sind gesondert zu lizenzieren/zu prüfen.
Checkliste 2025: Von der Rechtstheorie zur Revisionssicherheit
- Datenquellen-Register mit Opt-out-Status (tdm-reservation), Rechtmäßigkeit, Lizenzpfad.
- TDM-Parser produktiv, Blocker für TDM-Vorbehalte aktiv.
- DSGVO-Grundlage ausgewiesen (Art. 6/9), LIA/DPIA dokumentiert, Transparenztexte verfügbar.
- Sensitive-Data-Mitigation vor Training, Ausschlusslisten aktuell.
- Betroffenenrechte-Prozess (Auskunft, Widerspruch, Löschung) end-to-end.
- AI-Act-GPAI: Copyright-Policy + Trainingsinhalts-Zusammenfassung implementiert; Code of Practice ggf. gezeichnet.
- Vertragliche Zusicherungen mit Content-/API-Partnern (Clearing, Freistellung, Audit).
- Audit-Trail für Sourcing, Training, Evaluierung, Releases; regelmäßige Management-Reviews.
Fazit
Rechtskonformes KI-Training ist kein Ratespiel, sondern Prozess- und Beweisdisziplin. Wer TDM-Opt-outs technisch respektiert, DSGVO-Pflichten organisatorisch abbildet und AI-Act-Transparenz substanziell erfüllt, reduziert Streit- und Sanktionsrisiken erheblich – und gewinnt zugleich die Grundlage, um mit Rechteinhabern planbar zu lizenzieren. Der operative Unterschied entsteht nicht in Grundsatzpapieren, sondern in Crawler-Logs, Parsern, Filtern, Policies und Verträgen, die dem Audit standhalten.