Im Jahr 2026 ist eines in nahezu jeder Tech-Due-Diligence offensichtlich: Der eigentliche Unternehmenswert vieler KI-Startups liegt nicht primär im Code. Er liegt in den Daten. Trainingsdaten, kuratierte Datensätze, annotierte Inhalte, proprietäre Feedback-Loops und Nutzungsdaten bilden die Grundlage leistungsfähiger KI-Modelle. Je besser, exklusiver und strukturierter diese Datenbasis, desto höher regelmäßig die technische Qualität – und desto attraktiver das Unternehmen im M&A-Prozess.
Gleichzeitig herrscht auf rechtlicher Ebene häufig Unklarheit. Können Trainingsdaten bilanziert werden? Sind sie Eigentum? Wie werden sie lizenziert? Wie werden sie geschützt? Und was passiert im Exit-Fall, wenn sich herausstellt, dass ein Teil der Datenbasis rechtlich angreifbar ist?
Die rechtliche Einordnung von Trainingsdaten als Vermögenswert berührt Gesellschaftsrecht, Bilanzrecht, Urheberrecht, Datenschutzrecht und das Recht der Geschäftsgeheimnisse. Wer KI-Unternehmen strukturiert, investiert oder verkauft, sollte diese Fragen nicht erst im Datenraum klären.
Daten als immaterielles Wirtschaftsgut: Bilanzierung und Bewertung
Zunächst ist festzuhalten: Daten sind kein „Eigentum“ im sachenrechtlichen Sinne. Das deutsche Zivilrecht kennt kein absolutes Eigentumsrecht an Daten als solchen. Schutz entsteht regelmäßig nur über flankierende Rechtspositionen – Urheberrecht, Datenbankrecht, Geschäftsgeheimnisschutz, Vertragsrecht oder Datenschutzrecht.
Bilanzrechtlich stellt sich die Frage, ob Trainingsdaten als immaterielle Vermögensgegenstände aktiviert werden können. Maßgeblich sind hier insbesondere die handelsrechtlichen Grundsätze ordnungsmäßiger Buchführung sowie § 248 HGB. Selbst geschaffene immaterielle Vermögensgegenstände des Anlagevermögens können unter bestimmten Voraussetzungen aktiviert werden, sofern sie einzeln identifizierbar, selbstständig bewertbar und dem Unternehmen wirtschaftlich zuordenbar sind.
In der Praxis scheitert die Aktivierung häufig an der fehlenden Abgrenzbarkeit oder an Bewertungsunsicherheiten. Bei gezielt aufgebauten, kuratierten und dokumentierten Trainingsdatensätzen – etwa im Bereich Medizin, Legal Tech oder Industrie-KI – ist eine Aktivierung jedoch durchaus diskutabel. Voraussetzung ist eine klare Dokumentation der Entwicklungskosten, der Struktur und der wirtschaftlichen Verwertbarkeit.
International – insbesondere unter IFRS – kann die Behandlung abweichen. Für wachstumsorientierte Startups mit Investorenstruktur ist daher eine bilanzielle Strategie im Vorfeld zu klären. Spätestens im Exit-Prozess wird die Frage relevant, ob der Datenbestand als eigenständiger Werttreiber ausgewiesen werden kann.
Entscheidend ist: Wer Trainingsdaten strategisch als Asset positionieren will, muss sie organisatorisch, technisch und rechtlich sauber strukturieren. Ohne klare Zuordnung, Versionierung und Dokumentation wird es im Bewertungsprozess schwierig, einen substanziellen Wert darzustellen.
IP-Strategie für Trainingsdaten: Schutz ohne Eigentumstitel
Da es kein absolutes Eigentumsrecht an Daten gibt, erfolgt der Schutz regelmäßig über ein Bündel von Rechtspositionen.
Urheberrecht und Datenbankrecht
Einzelne Daten – etwa Texte, Bilder oder Code – können urheberrechtlich geschützt sein. Die bloße Nutzung solcher Inhalte als Trainingsdaten kann urheberrechtliche Fragen aufwerfen. Insbesondere ist zu klären, ob eine zulässige Nutzung vorliegt oder ob Lizenzrechte erforderlich sind.
Für strukturierte Datensammlungen kommt zudem der Schutz als Datenbankwerk oder als Datenbankherstellerrecht in Betracht. Voraussetzung ist regelmäßig eine wesentliche Investition in die Beschaffung, Überprüfung oder Darstellung der Inhalte. Gerade bei kuratierten Trainingsdatensätzen kann dieses Schutzinstrument relevant sein.
Allerdings schützt das Datenbankrecht nicht den Inhalt als solchen, sondern die Struktur und die Investition. Für die IP-Strategie bedeutet das: Der Aufbau einer strukturierten, dokumentierten Datenbank erhöht nicht nur den technischen Nutzen, sondern auch die rechtliche Schutzposition.
Geschäftsgeheimnisschutz nach dem GeschGehG
In der Praxis ist der Schutz als Geschäftsgeheimnis häufig das zentrale Instrument. Nach §§ 2 ff. GeschGehG ist eine Information geschützt, wenn sie geheim ist, wirtschaftlichen Wert besitzt und angemessenen Geheimhaltungsmaßnahmen unterliegt.
Für Trainingsdaten bedeutet das:
– klare Zugriffsbeschränkungen
– vertragliche Vertraulichkeitsklauseln
– technische Sicherungsmaßnahmen
– Dokumentation interner Compliance-Prozesse
Ohne nachweisbare Schutzmaßnahmen entfällt der Geheimnisschutz. Gerade im Exit-Prozess wird regelmäßig geprüft, ob ein Unternehmen tatsächlich „angemessene Maßnahmen“ implementiert hat. Fehlen diese, kann der behauptete Datenwert erheblich relativiert werden.
Vertragliche Exklusivität
Ein weiterer zentraler Baustein der IP-Strategie ist die vertragliche Sicherung exklusiver Nutzungsrechte. Werden Daten von Dritten bezogen – etwa über Kooperationspartner, Plattformnutzer oder Kunden – ist exakt zu regeln:
– Wer darf die Daten nutzen?
– Zu welchen Zwecken?
– Besteht Exklusivität?
– Dürfen sie weitergegeben oder sublicenziert werden?
Gerade bei Plattformmodellen ist häufig unklar, ob Nutzungsbedingungen tatsächlich ein Trainingsrecht für KI-Modelle einräumen. Fehlt eine solche Grundlage, kann die gesamte Trainingsbasis rechtlich angreifbar sein.
Lizenzierung von Trainingsdaten: Struktur und Risiken
Im Jahr 2026 ist die Lizenzierung von Daten ein eigenständiger Markt. Unternehmen lizenzieren Datensätze für KI-Training, Modellvalidierung oder Fine-Tuning. Rechtlich handelt es sich regelmäßig um schuldrechtliche Nutzungsvereinbarungen, die präzise ausgestaltet werden müssen.
Zentrale Punkte einer Datenlizenz sind:
– Definition des Lizenzgegenstands
– Umfang der Nutzungsrechte
– Exklusivität oder Nicht-Exklusivität
– territoriale Reichweite
– Laufzeit
– Weitergabe- und Sub-Lizenzrechte
– Haftung für Rechtsmängel
Besonders kritisch ist die Frage der Rechtsmängelhaftung. Wer Trainingsdaten lizenziert, übernimmt regelmäßig eine Garantie oder zumindest eine Zusicherung, dass keine Rechte Dritter verletzt werden. Ist diese Zusicherung zu weit formuliert, entstehen erhebliche Haftungsrisiken.
Umgekehrt müssen lizenznehmende KI-Unternehmen prüfen, ob die Lizenz tatsächlich ausreicht, um Modelle zu trainieren, kommerziell zu nutzen und gegebenenfalls zu verkaufen. Unklare Formulierungen zur „Nutzung“ können im Streitfall eng ausgelegt werden.
Ein weiterer Aspekt betrifft derivative Modelle. Darf das trainierte Modell frei genutzt werden, wenn es auf lizenzierten Daten basiert? Bestehen Beschränkungen oder Miturheberrechte? Diese Fragen sollten vertraglich eindeutig geklärt werden.
Datenschutzrechtliche Zulässigkeit als Wertfaktor
Ein erheblicher Teil moderner Trainingsdaten enthält personenbezogene Daten – sei es direkt oder indirekt über Nutzungsprofile, Interaktionen oder Metadaten. Die datenschutzrechtliche Zulässigkeit der Verarbeitung ist damit kein Nebenthema, sondern zentraler Bestandteil des Unternehmenswerts.
Die DSGVO verlangt eine Rechtsgrundlage für jede Verarbeitung personenbezogener Daten. Für Trainingszwecke kommen insbesondere Einwilligungen, Vertragserfüllung oder berechtigte Interessen in Betracht. Jede dieser Grundlagen ist mit spezifischen Anforderungen verbunden.
Problematisch wird es insbesondere bei:
– Zweckänderungen
– fehlender Transparenz
– unzureichender Anonymisierung
– internationalen Datentransfers
Im Due-Diligence-Prozess wird regelmäßig geprüft, ob die Trainingsdaten datenschutzkonform erhoben und genutzt wurden. Bestehen Zweifel, kann dies zu erheblichen Kaufpreisabschlägen führen oder Garantieklauseln auslösen.
Für Startups bedeutet das: Datenschutz ist nicht nur Compliance-Thema, sondern unmittelbar wertrelevant. Eine saubere Dokumentation von Rechtsgrundlagen, Einwilligungen und technischen Schutzmaßnahmen ist entscheidend.
Trainingsdaten in der Due Diligence und im Exit-Prozess
Im M&A-Prozess wird der Datenbestand zunehmend wie ein eigenständiger Vermögenswert behandelt. Käufer prüfen unter anderem:
– Herkunft der Daten
– Rechtsgrundlagen der Nutzung
– Lizenzketten
– Exklusivität
– technische Sicherung
– Zugriffskontrollen
– Streitigkeiten oder Abmahnungen
Unklare Rechteketten sind einer der häufigsten Deal-Risiken im KI-Sektor. Wenn nicht lückenlos nachgewiesen werden kann, dass alle Trainingsdaten rechtmäßig genutzt wurden, steigt das Haftungsrisiko erheblich.
Zudem stellt sich die Frage der Übertragbarkeit. Sind Lizenzrechte übertragbar? Sind sie an die Person des Lizenznehmers gebunden? Enthalten Verträge Change-of-Control-Klauseln? Ohne klare Regelungen kann ein Exit an formalen Hürden scheitern.
In Share Deals ist regelmäßig die gesamte Gesellschaft betroffen, während bei Asset Deals einzelne Datenbestände separat übertragen werden müssen. Letzteres erfordert eine saubere Identifizierbarkeit der Datensätze.
Strategische Implikationen für KI-Startups
Wer Trainingsdaten als Vermögenswert positionieren will, sollte frühzeitig strategisch denken. Dazu gehört:
– klare Datenarchitektur
– dokumentierte Rechteketten
– vertragliche Exklusivität
– interne Compliance-Strukturen
– technische Schutzmaßnahmen
Ein professionell strukturierter Datenbestand wirkt sich nicht nur auf die technische Leistungsfähigkeit, sondern unmittelbar auf Unternehmensbewertung, Investoreninteresse und Exit-Fähigkeit aus.
KI-Unternehmen, die ihre Datenbasis lediglich als „Nebenprodukt“ betrachten, riskieren im Exit-Fall erhebliche Wertverluste. Umgekehrt kann eine strategisch aufgebaute, rechtlich abgesicherte Trainingsdaten-Infrastruktur zu einem entscheidenden Differenzierungsmerkmal werden.
Fazit
Trainingsdaten sind im Jahr 2026 einer der zentralen Werttreiber im KI-Sektor. Ihre rechtliche Einordnung ist komplex und interdisziplinär. Eigentumsähnliche Schutzpositionen existieren nicht; Schutz entsteht durch eine Kombination aus IP-Rechten, Geschäftsgeheimnisschutz, Vertragsgestaltung und Datenschutz-Compliance.
Wer Trainingsdaten als Vermögenswert versteht, muss sie strukturell, rechtlich und organisatorisch absichern. Bilanzielle Fragen, Lizenzmodelle, Geheimnisschutz und Due-Diligence-Festigkeit sind keine isolierten Einzelthemen, sondern Teil einer integrierten IP- und Finanzierungsstrategie.
Für KI-Startups, SaaS-Anbieter und Investoren gilt gleichermaßen: Der Wert eines Modells bemisst sich nicht nur an seiner Performance, sondern an der rechtlichen Tragfähigkeit seiner Trainingsgrundlage. Eine vorausschauende Strukturierung entscheidet darüber, ob Daten im Exit-Fall als belastbarer Asset-Wert oder als Risikofaktor erscheinen.










































