KI und Recht - Trainingsdaten, Produkthaftung und Einsatz im Unternehmen
Einleitung:
KI-Systeme verändern Abläufe, Entscheidungen und Wertschöpfung. Damit steigen jedoch auch die rechtlichen Anforderungen – von Datenschutz und Urheberrecht über Geschäftsgeheimnisse bis hin zu Produkthaftung und Arbeitsrecht. Dieser Leitfaden führt strukturiert durch die zentralen Fragen: Welche Daten darf KI zum Training „sehen“? Wo greifen Schranken oder Verbote? Wie sichern Unternehmen Governance, Nachvollziehbarkeit und Haftung ab – und zwar so, dass Innovation nicht ausgebremst, sondern gezielt ermöglicht wird.
Daten & Trainingsverbote – Was KI wirklich „sehen“ darf
Einleitung:
Die Nutzung von Daten für das Training von KI-Systemen berührt mehrere Rechtsbereiche gleichzeitig. Unternehmen müssen daher sorgfältig prüfen, welche Daten sie wie einsetzen können, wo rechtliche Schranken greifen und wie eine sichere, compliant Datennutzung organisatorisch und technisch aufgesetzt wird. Im Fokus stehen Datenschutz, Urheberrecht, Geschäftsgeheimnisse sowie Data Governance als Klammer.
Rechtsgrundlagen für KI-Trainingsdaten (DSGVO & Co.)
Einleitung:
Sobald personenbezogene Daten im Trainingskorpus auftauchen, führt am DSGVO-Regime kein Weg vorbei. Jede Verarbeitung braucht eine Rechtsgrundlage nach Art. 6 Abs. 1 DSGVO – in der Praxis meist Einwilligung, vertragliche Erforderlichkeit oder berechtigtes Interesse. Für besondere Kategorien (Art. 9 DSGVO) gelten nochmals höhere Hürden. Der Abschnitt ordnet diese Grundlagen praxisnah ein, inklusive der Frage, wann ein berechtigtes Interesse trägt und wie Opt-out-Mechanismen und öffentliche Verfügbarkeit in die Abwägung einzubeziehen sind.
Urheberrechtliche Schranken: Text- und Data-Mining
Einleitung:
Neben der DSGVO ist das Urheberrecht der zweite große Hebel beim KI-Training – insbesondere, wenn Texte, Bilder, Videos oder Code geschützt sind. Die TDM-Schranken (u. a. § 44b UrhG für kommerzielle Nutzungen und § 60d UrhG für Forschung) schaffen einen legitimen Korridor, allerdings unter Bedingungen: rechtmäßige Quellen, Opt-out-Respekt, keine Umgehung technischer Schutzmaßnahmen. Der Abschnitt erläutert, wo TDM trägt, wo Lizenzen erforderlich bleiben und wie Unternehmen rechtssicher unterscheiden.
Personenbezogene Daten: Anonymisierung vs. Pseudonymisierung
Einleitung:
Anonymisierte Daten fallen nicht mehr unter die DSGVO – pseudonymisierte sehr wohl. In der Praxis entscheidet die Re-Identifizierbarkeit: Nur wenn sie praktisch ausgeschlossen ist, gilt echte Anonymität. Dieser Abschnitt erklärt, warum technische und organisatorische Maßnahmen (PII-Filter, In-/Output-Kontrollen, Leak-Tests) entscheidend sind, und wie Unternehmen sensible Daten (Art. 9 DSGVO) strikt trennen oder vorab eliminieren.
Geschäftsgeheimnisse und geistiges Eigentum im Training
Einleitung:
Trainingsdatensätze können vertrauliche Informationen und Geschäftsgeheimnisse enthalten – eigene oder solche Dritter. Parallel kollidieren urheberrechtliche und vertragliche Rechte (z. B. Nutzungsbedingungen, NDA/AVV). Hier klären wir, wann eine Berechtigung/Lizenz erforderlich ist, wie Geheimnisschutz vertraglich/technisch abgesichert wird und weshalb auch am fertigen Modell Rechte bestehen können, die im Training beachtet werden müssen.
Dataset-Governance und Compliance
Einleitung:
Ohne Governance keine belastbare Compliance: Unternehmen brauchen auditierbare Datenkataloge, Lizenz- und Rechteprüfungen, DSFA-Prozesse (wo nötig), Löschkonzepte, Zugriffskontrollen sowie Schulungen. Dieser Abschnitt skizziert die Pflichtenarchitektur und zeigt, wie sich Rechts-, Datenschutz- und Technikteams so verzahnen, dass Transparenz, Nachweisbarkeit und Sicherheit im gesamten KI-Lebenszyklus gewährleistet sind.
Rechtsgrundlagen für KI-Trainingsdaten (DSGVO & Co.)
1. Warum die DSGVO hier den Takt vorgibt
Sobald personenbezogene Daten im Spiel sind – und das ist bei Texten, Social-Media-Beiträgen, Bildern oder Sprachaufnahmen oft der Fall – greift in Europa unmittelbar die Datenschutz-Grundverordnung (DSGVO). Sie schreibt vor: Jede Verarbeitung braucht eine Rechtsgrundlage. Ohne diese ist die Nutzung von Daten für KI-Training schlicht unzulässig.
Das Besondere im Kontext von KI: Meist handelt es sich nicht um Einzeldaten, sondern um Massendaten aus heterogenen Quellen. Das macht die Wahl der Rechtsgrundlage nicht einfacher, sondern anspruchsvoller – denn jede einzelne Kategorie von Daten muss sauber eingeordnet sein.
2. Die drei typischen Rechtsgrundlagen nach Art. 6 Abs. 1 DSGVO
2.1 Einwilligung (lit. a)
Die Einwilligung der betroffenen Person ist der „klassische“ Weg. Sie muss freiwillig, informiert, spezifisch und jederzeit widerrufbar sein.
- Vorteile: rechtlich eindeutig, wenn korrekt eingeholt; starke Transparenz.
- Nachteile: Für Massendaten kaum praktikabel – es ist schlicht unmöglich, Millionen Nutzer individuell zu fragen. Zudem kann ein Widerruf die Weiterverwendung von Daten und sogar ein Unlearning im Modell erzwingen.
Beispiel: Ein Gesundheits-App-Anbieter holt explizite Einwilligungen seiner Nutzer ein, um ihre Daten für die Verbesserung eines KI-Diagnosemodells zu verwenden. Hier funktioniert das – bei offenen Webdaten dagegen nicht.
2.2 Vertragliche Notwendigkeit (lit. b)
Diese Grundlage greift, wenn die Datenverarbeitung objektiv erforderlich ist, um einen Vertrag zu erfüllen.
- Praxisrelevanz: sehr eingeschränkt. Denn das KI-Training ist in den seltensten Fällen notwendig, um eine einzelne vertragliche Leistung zu erfüllen.
- Beispiel: Ein Sprachlern-Tool verspricht im Vertrag ausdrücklich, die individuellen Sprachaufnahmen der Nutzer für personalisierte Modelle einzusetzen. Dann kann Art. 6 Abs. 1 lit. b DSGVO tragfähig sein.
Für generisches Training (z. B. für ein allgemein nutzbares LLM) reicht diese Grundlage in der Regel nicht.
2.3 Berechtigtes Interesse (lit. f)
In der Praxis ist das berechtigte Interesse oft der wichtigste Hebel. Unternehmen können argumentieren, dass sie ein legitimes Interesse an der Verbesserung von KI-Systemen haben. Doch: Dieses Interesse muss gegen die Rechte und Freiheiten der Betroffenen abgewogen werden.
- Wann es trägt: wenn die Daten öffentlich zugänglich sind, der Eingriff gering ist und Betroffene vernünftigerweise damit rechnen konnten.
- Aktuelles Beispiel: Das OLG Köln entschied 2025, dass ein soziales Netzwerk öffentliche Profile für KI-Training nutzen durfte – gestützt auf Art. 6 Abs. 1 lit. f DSGVO. Bedingung: Nutzer hatten ein Opt-out und konnten ihre Profile auf „privat“ stellen.
Das Urteil zeigt: Mit Transparenz und Widerspruchsoptionen kann berechtigtes Interesse eine tragfähige Grundlage sein.
3. Besondere Kategorien: der rote Bereich (Art. 9 DSGVO)
Noch strenger wird es bei sensiblen Daten: Gesundheitsinformationen, biometrische Daten, politische Meinungen oder ethnische Herkunft. Diese dürfen nur verarbeitet werden, wenn eine klare Ausnahme greift: etwa eine ausdrückliche Einwilligung oder ein gesetzlich vorgesehener Forschungszweck mit Garantien.
Für Unternehmen bedeutet das praktisch: Finger weg von sensiblen Daten, es sei denn, der Anwendungsfall rechtfertigt sie absolut und die Rechtslage ist wasserdicht.
4. Internationale Datenflüsse – oft übersehen
Viele Trainingspipelines nutzen Cloud-Dienste oder Datenlabeling in Drittländern. Spätestens hier wird Art. 44 ff. DSGVO relevant. Datenübermittlungen außerhalb des EWR sind nur erlaubt, wenn:
- ein Angemessenheitsbeschluss vorliegt (z. B. EU–US Data Privacy Framework), oder
- Standardvertragsklauseln (SCCs) eingesetzt werden, ergänzt um Transfer Impact Assessments (TIA) und ggf. technische Zusatzmaßnahmen wie Verschlüsselung.
5. Praktische Empfehlungen für Unternehmen
- Dateninventur: Führen Sie eine Übersicht über alle Datenquellen – und ordnen Sie zu, auf welche Rechtsgrundlage Sie sich stützen.
- Opt-out-Mechanismen: Bieten Sie Widerspruchsmöglichkeiten an, wenn Sie auf berechtigtes Interesse setzen.
- Sensibles ausschließen: Filtern Sie Daten, die potenziell Art. 9 betreffen, bereits im Pre-Processing heraus.
- Drittlandtransfers prüfen: Dokumentieren Sie genau, wo Daten gespeichert und verarbeitet werden – inkl. Cloud-Anbieter.
- DSFA durchführen: Für risikoreiche Trainings (etwa mit sensiblen Daten oder großer gesellschaftlicher Wirkung) ist eine Datenschutz-Folgenabschätzung Pflicht.
Urheberrechtliche Schranken: Text- und Data-Mining
1. Warum Urheberrecht beim KI-Training unvermeidbar ist
Während die DSGVO vor allem die Nutzung personenbezogener Daten regelt, schützt das Urheberrecht die Interessen von Kreativen, Verlagen und Rechteinhabern. KI-Modelle greifen jedoch in der Regel auf große Mengen von Texten, Bildern, Videos oder Code zurück – Inhalte, die in aller Regel urheberrechtlich geschützt sind.
Grundsatz: Ohne Lizenz keine Nutzung.
Doch: Der Gesetzgeber hat mit den Text- und Data-Mining-Schranken (TDM) eine Ausnahme geschaffen, die KI-Training überhaupt erst praktikabel macht.
2. Die TDM-Schranke in Deutschland – § 44b UrhG
Die wichtigste Vorschrift ist § 44b UrhG, eingeführt 2021 als Umsetzung der EU-Urheberrechtsrichtlinie.
- Erlaubt: die Vervielfältigung von rechtmäßig zugänglichen Werken zum Zweck des Text- und Data-Mining.
- Gilt für: kommerzielle und nicht-kommerzielle Anwendungen – also auch für Unternehmen, die KI-Modelle zu Geschäftszwecken trainieren.
- Bedingungen:
- Die Quelle muss rechtmäßig zugänglich sein (z. B. frei zugängliche Websites, rechtmäßig erworbene E-Books, eigene Datenbanken).
- Inhalte aus offensichtlich rechtswidrigen Quellen (z. B. Raubkopien) sind tabu.
- Technische Schutzmaßnahmen wie Paywalls oder DRM dürfen nicht umgangen werden.
Praktisch bedeutet das: Webscraping, Crawler und Data Lakes können sich auf § 44b UrhG stützen – aber nur, wenn die Quelle sauber ist.
3. Opt-out-Möglichkeiten der Rechteinhaber
§ 44b Abs. 3 UrhG gibt Rechteinhabern das Recht, TDM zu untersagen.
Das geschieht über maschinenlesbare Hinweise, zum Beispiel:
- robots.txt-Einträge auf Websites,
- HTTP-Header oder Meta-Tags, die TDM ausschließen,
- Datenbankhinweise mit „no AI“ oder „no data mining“-Klauseln.
Für KI-Entwickler bedeutet das: Crawler müssen Opt-outs erkennen und respektieren.
Ein Verstoß kann Abmahnungen oder Unterlassungsansprüche nach sich ziehen – selbst wenn die Daten urheberrechtlich frei abrufbar waren.
Praxis-Tipp: Führen Sie ein Opt-out-Log – also eine technische Dokumentation, welche Quellen ausgeschlossen wurden. So können Sie im Streitfall nachweisen, dass Sie Vorgaben beachtet haben.
4. Forschungsausnahme – § 60d UrhG
Neben § 44b gibt es in Deutschland eine zweite wichtige Schranke: § 60d UrhG.
- Adressaten: wissenschaftliche Forschungseinrichtungen und Bibliotheken.
- Besonderheit: Rechteinhaber können hier kein Opt-out erklären.
- Praxisfall: Der Verein LAION nutzte diese Vorschrift, um Bilddatenbanken für nicht-kommerzielle Forschungszwecke aufzubauen (LG Hamburg 2024).
Allerdings: Sobald das Training einem kommerziellen Zweck dient, ist § 60d nicht mehr anwendbar. Unternehmen können sich dann nur auf § 44b UrhG stützen – und dort gilt das Opt-out.
5. Grenzen und Unsicherheiten
Die TDM-Schranken bieten keinen Freifahrtschein. Es gibt rechtliche Grauzonen:
- Manuelle Auswahl: Wenn ein Unternehmen gezielt bestimmte geschützte Werke kuratiert (z. B. ein Bildkatalog einzelner Künstler), reicht die TDM-Schranke nicht mehr. Hier ist eine Lizenz nötig.
- Drei-Stufen-Test: Jede Schrankenregelung darf die berechtigten Interessen der Rechteinhaber nicht unzumutbar beeinträchtigen. Massives Crawling ohne Rücksicht auf Geschäftsmodelle könnte problematisch werden.
- Outputs: Die Schranke legitimiert nur das Training, nicht die spätere Wiedergabe. Gibt das Modell Originalinhalte wieder, liegt eine Rechtsverletzung vor.
6. Praktische Empfehlungen für Unternehmen
- Rechtslage prüfen: Dokumentieren Sie für jede Quelle, ob sie rechtmäßig zugänglich ist.
- Crawler konfigurieren: Sorgen Sie dafür, dass Opt-outs (robots.txt, Meta-Tags) technisch beachtet werden.
- Log führen: Halten Sie nach, welche Quellen ausgeschlossen wurden.
- Lizenzbedarf klären: Bei kuratierten Datensätzen oder Stock-Material immer Lizenzverträge prüfen.
- Outputs testen: Implementieren Sie Mechanismen, die verhindern, dass Modelle geschützte Werke reproduzieren.
Personenbezogene Daten: Anonymisierung vs. Pseudonymisierung
1. Warum diese Unterscheidung entscheidend ist
Für Unternehmen, die KI trainieren, ist die Frage zentral: Handelt es sich noch um personenbezogene Daten?
- Anonymisierte Daten fallen nicht mehr unter die DSGVO, weil sie keiner Person mehr zugeordnet werden können.
- Pseudonymisierte Daten dagegen bleiben personenbezogen, da eine Rückführung – etwa durch einen Schlüssel oder Abgleich mit anderen Daten – möglich ist.
Das bedeutet: Wer echte Anonymisierung erreicht, bewegt sich außerhalb des Datenschutzrechts. Wer hingegen nur Pseudonyme vergibt, bleibt im vollen DSGVO-Regime.
2. Anforderungen an eine wirksame Anonymisierung
Die europäische Datenschutzaufsicht (EDPB/EDSA) hat klargestellt: Eine Anonymisierung ist nur dann rechtlich wirksam, wenn eine Re-Identifizierung praktisch ausgeschlossen ist. Maßstab ist dabei nicht die theoretische Möglichkeit, sondern das vernünftige Risiko in der Praxis.
Techniken, die häufig kombiniert werden müssen:
- Generalisierung und Aggregation: Statt exakten Geburtsdaten nur Altersgruppen speichern.
- Noise und Randomisierung: Daten leicht verfremden, um Rückschlüsse zu verhindern.
- k-Anonymität und l-Diversität: Sicherstellen, dass jedes Datenelement nicht allein, sondern in einer Gruppe auftritt.
- Differential Privacy: Mathematisch garantierte Rauschverfahren im Training, die individuelle Beiträge verschleiern.
Praxisbeispiel: Ein Modell, das aus medizinischen Daten lernt, darf nicht ermöglichen, die Krankengeschichte eines Patienten durch gezielte Abfragen wieder freizulegen. Hier sind Output-Filter und Leak-Tests Pflicht.
3. Pseudonymisierung – sinnvoll, aber nicht entlastend
Bei der Pseudonymisierung werden Identifikatoren (z. B. Name, Adresse) durch Codes ersetzt. Der Schlüssel zur Rückführung wird separat gespeichert.
- Vorteil: Erhöht die Sicherheit, reduziert Missbrauchsrisiken.
- Nachteil: Daten bleiben personenbezogen, also DSGVO-pflichtig.
Unternehmen dürfen pseudonymisierte Daten für Training nutzen, brauchen aber eine tragfähige Rechtsgrundlage(siehe Abschnitt DSGVO). Zudem sind strenge Zugriffskontrollen notwendig, damit nur Berechtigte die Rückführung überhaupt vornehmen können.
4. Sensible Daten: besondere Vorsicht nach Art. 9 DSGVO
Wenn es um besondere Kategorien personenbezogener Daten geht – etwa Gesundheitsdaten, biometrische Daten oder politische Meinungen – gelten nochmals verschärfte Regeln:
- Verarbeitung grundsätzlich verboten, es sei denn, eine ausdrückliche Ausnahme liegt vor.
- Zulässige Ausnahmen: ausdrückliche Einwilligung, medizinische Forschung mit Garantien, Arbeits- und Sozialrechtspflichten.
Für das Training allgemeiner Modelle gilt praktisch: solche Daten frühzeitig herausfiltern. Schon einzelne Leaks von biometrischen oder genetischen Daten können hohe Bußgelder nach sich ziehen.
5. Technische und organisatorische Schutzmaßnahmen
Damit Anonymisierung oder Pseudonymisierung tragfähig ist, braucht es mehr als nur „findige Technik“. Unternehmen sollten eine Gesamtarchitektur aufsetzen:
- Pre-Processing-Filter: Entfernen von PII (Personally Identifiable Information) schon beim Import.
- In-/Output-Filter: Prüfen, dass keine sensiblen Daten in das Modell gelangen oder bei Abfragen ausgegeben werden.
- Leakage-Tests: Versuchen, mit gezielten Prompts Trainingsdaten zurückzuholen – und dokumentieren, dass es nicht gelingt.
- Zugriffsrechte: Nur ausgewählte Personen dürfen mit Rohdaten arbeiten; Modelle für den Betrieb nur mit vorverarbeiteten Daten füttern.
6. Praktische Empfehlungen für Unternehmen
- Klares Ziel setzen: Anonymisierung immer dort anstreben, wo es möglich ist.
- Pseudonymisierung absichern: Wenn Anonymisierung nicht realisierbar ist, Pseudonymisierung mit strengen Sicherheitsvorkehrungen kombinieren.
- Filter implementieren: Namen, Adressen, Fotos und Kontonummern automatisiert erkennen und entfernen.
- Re-Identifizierungsrisiko prüfen: Interne Red-Team-Tests durchführen, um Leaks zu erkennen.
- Dokumentation führen: Jede Maßnahme in einem Datenschutz-Folgenprotokoll festhalten.
Geschäftsgeheimnisse und geistiges Eigentum im Training
1. Warum Geschäftsgeheimnisse im KI-Training relevant sind
KI-Trainingsdatensätze bestehen oft nicht nur aus öffentlich zugänglichen Quellen, sondern auch aus internen oder zugekauften Daten. Darin können Geschäftsgeheimnisse oder vertrauliche Informationen enthalten sein: Kundenlisten, interne Berichte, proprietäre Algorithmen oder sensible Produktinformationen.
Wenn diese Daten ohne ausreichende Absicherung im Training landen, drohen nicht nur Datenschutzverstöße, sondern auch zivilrechtliche Ansprüche nach dem Geschäftsgeheimnisgesetz (GeschGehG) oder aus Verträgen.
2. Das Geschäftsgeheimnisgesetz (GeschGehG) im Überblick
Seit 2019 schützt das GeschGehG Informationen, die:
- geheim sind, also nicht allgemein bekannt oder leicht zugänglich,
- von wirtschaftlichem Wert sind, und
- durch angemessene Geheimhaltungsmaßnahmen geschützt werden.
Wird ein Geschäftsgeheimnis ohne Berechtigung genutzt oder offengelegt, kann der Betroffene Unterlassung, Vernichtung, Rückgabe oder Schadensersatz verlangen.
Praxisbeispiel: Ein KI-Dienstleister erhält interne Logistikdaten eines Kunden für das Modelltraining. Wenn der Dienstleister diese Daten auch für andere Projekte nutzt, ohne dass der Vertrag das erlaubt, liegt eine rechtswidrige Nutzung von Geschäftsgeheimnissen vor.
3. Vertragsrechtliche Absicherung
Um solche Konflikte zu vermeiden, braucht es klare vertragliche Regelungen:
- Nutzungszweck: Verträge sollten eindeutig regeln, ob Daten nur für ein bestimmtes Projekt oder auch für generisches Training verwendet werden dürfen.
- Vertraulichkeitsklauseln (NDA): Standardmäßig sollten Vertraulichkeitsvereinbarungen sicherstellen, dass sensible Daten nicht unbefugt weitergegeben werden.
- Freigaben: Wenn ein Kunde ausdrücklich zustimmt, dass seine Daten für allgemeines Modelltraining verwendet werden dürfen, sollte dies schriftlich fixiert sein.
Anti-Pattern: „Stillschweigende Nutzung“ – also die Annahme, dass Daten schon verwendet werden dürfen, solange nichts Gegenteiliges geregelt ist. Das führt fast immer zu Streit.
4. Abgrenzung zu Urheberrechten
Nicht alle Daten sind durch Urheberrecht geschützt. Reine Fakten, Messwerte oder technische Parameter genießen in der Regel keinen Schutz. Aber:
- Texte, Bilder, Code, Präsentationen können urheberrechtlich geschützte Werke sein.
- Datenbanken können ein eigenes Schutzrecht (sui generis) genießen.
- AGB und Verträge können Nutzungsbeschränkungen enthalten, auch wenn kein Urheberrecht greift.
Beispiel: Ein Unternehmen crawlt technische Datenblätter aus einer Industrieplattform. Obwohl die Datenblätter inhaltlich eher faktisch sind, können die Nutzungsbedingungen der Plattform eine kommerzielle Verwendung untersagen. Wer dagegen verstößt, verletzt zwar nicht das Urheberrecht, aber das Vertragsrecht.
5. IP-Rechte am trainierten Modell
Auch das trainierte KI-Modell selbst kann rechtlich geschützt sein:
- Computerprogramme sind nach § 69a UrhG automatisch urheberrechtlich geschützt, wenn eine persönliche geistige Schöpfung vorliegt.
- Viele Machine-Learning-Modelle erfüllen diese Anforderungen.
- Urheber ist in der Regel der Ersteller des Codes – nicht derjenige, der Trainingsdaten beigesteuert hat.
Besonderheit: Manche Open-Data-Lizenzen enthalten Klauseln, dass auch abgeleitete Modelle oder deren Outputs bestimmten Lizenzbedingungen unterliegen (z. B. Share-Alike). Unternehmen müssen prüfen, ob Trainingsdaten mit solchen Lizenzen das Modellrecht beeinflussen.
6. Praktische Empfehlungen für Unternehmen
- Datenquelle prüfen: Klären Sie bei jedem Datensatz: Ist er öffentlich? Unterliegt er Geheimhaltung? Greifen AGB oder Lizenzbeschränkungen?
- Verträge schärfen: Vereinbaren Sie explizit, ob und wie Daten für KI-Training genutzt werden dürfen.
- Geheimhaltungsmaßnahmen dokumentieren: Nur wenn ein Unternehmen zeigt, dass es Daten als „geheim“ behandelt hat, kann es sich später auf den Schutz des GeschGehG berufen.
- Rechtekette absichern: Stellen Sie sicher, dass Ihre Modelle keine Rechte Dritter verletzen – sei es durch unerlaubte Nutzung von Geheimnissen oder urheberrechtlich geschützten Inhalten.
- Interne Policies: Definieren Sie klare Regeln, welche Daten ins Training dürfen und welche nicht.
Dataset-Governance und Compliance
1. Warum Governance für KI-Daten unverzichtbar ist
Ohne belastbare Governance-Strukturen ist KI-Training ein rechtliches Risiko. Unternehmen müssen jederzeit nachweisen können:
- Woher stammen die Daten?
- Auf welcher Rechtsgrundlage werden sie verarbeitet?
- Welche Lizenzen gelten?
- Welche Filter und Schutzmaßnahmen wurden implementiert?
Eine klare Governance ist daher nicht nur Compliance-Pflicht, sondern auch ein Vertrauensfaktor gegenüber Investoren, Aufsichtsbehörden und Kunden.
2. Auditierbare Datenkataloge
Der erste Schritt ist die Einführung eines Data Catalogs, in dem jeder verwendete Datensatz dokumentiert ist. Darin sollten enthalten sein:
- Quelle (Domain, Anbieter, Vertragspartner),
- Zeitpunkt der Erhebung,
- Rechtsgrundlage (z. B. Art. 6 DSGVO, TDM-Schranke, Lizenzvertrag),
- Art der Daten (personenbezogen, anonymisiert, sensibel),
- Status von Opt-outs oder Einschränkungen.
Praxisbeispiel: Wenn eine Datenschutzbehörde prüft, ob Webdaten rechtmäßig genutzt wurden, können Sie mit einem vollständigen Katalog sofort nachweisen, welche Quelle auf welcher Grundlage eingebunden wurde.
3. Lizenz- und Rechteprüfung
Vor allem bei zukunftsgerichteten KI-Produkten müssen Unternehmen sicherstellen, dass keine Rechte Dritter verletzt werden. Dazu gehört:
- Prüfung von Creative-Commons-Lizenzen (NC = nicht kommerziell, ND = keine Bearbeitung),
- Beachtung von Presseleistungsschutzrechten und Datenbankrechten,
- AGB-Check bei jeder genutzten Plattform.
Empfehlung: Führen Sie eine Lizenz-Matrix, in der je Datensatz hinterlegt ist, welche Nutzung erlaubt ist und welche nicht.
4. Datenschutz-Folgenabschätzung (DSFA)
Sobald Trainingsdaten personenbezogene Informationen enthalten und das Modell potenziell erhebliche Auswirkungen auf Betroffene hat (z. B. bei Kreditentscheidungen, Bewerbungsprozessen oder Gesundheitsdiagnosen), ist eine DSFA nach Art. 35 DSGVO Pflicht.
Diese umfasst:
- eine systematische Beschreibung des Vorhabens,
- eine Bewertung der Notwendigkeit und Verhältnismäßigkeit,
- eine Analyse der Risiken für Betroffene,
- geplante Abhilfemaßnahmen (Anonymisierung, Filter, Zugriffsbeschränkungen).
Ohne DSFA drohen nicht nur Bußgelder, sondern auch Reputationsschäden, wenn Missbrauch oder Leaks bekannt werden.
5. Löschkonzepte und Speicherbegrenzung
Ein häufiger Fehler ist die Haltung: „Wir speichern lieber alles, man weiß ja nie.“
Doch die DSGVO verlangt Datenminimierung.
- Daten dürfen nur solange gespeichert werden, wie sie für den Trainingszweck erforderlich sind.
- Nach Abschluss des Trainings sollten Rohdaten entweder gelöscht oder in einem streng kontrollierten Archiv verschoben werden.
- Bei Widerruf von Einwilligungen oder Opt-outs müssen Lösch- und Unlearning-Prozesse greifen.
Praxis-Tipp: Definieren Sie klare Fristen – z. B. automatische Löschung von Rohdaten nach 12 Monaten, wenn kein weiterer Trainingslauf geplant ist.
6. Zugriffskontrollen und interne Sicherheit
Nicht jeder Entwickler braucht Zugriff auf jeden Datensatz.
- Implementieren Sie ein Need-to-know-Prinzip,
- protokollieren Sie jeden Zugriff,
- prüfen Sie regelmäßig, ob Berechtigungen noch erforderlich sind.
So wird verhindert, dass sensible Daten in falsche Hände geraten – sei es intern oder durch externe Angriffe.
7. Schulungen und interne Richtlinien
Technische Maßnahmen reichen nicht aus. Alle Mitarbeitenden, die mit Daten arbeiten, müssen wissen:
- welche Daten sie nutzen dürfen,
- wie Opt-outs und Lizenzvorgaben zu beachten sind,
- welche Daten tabu sind (z. B. sensible Kategorien ohne Ausnahme).
Best Practice: Führen Sie jährliche Schulungen für Entwickler, Juristen und Produktmanager durch. Ergänzen Sie diese mit internen Richtlinien, die verbindlich vorgeben, welche Daten genutzt werden dürfen und wie mit ihnen umzugehen ist.
8. Governance-Gremien und Audits
Um sicherzustellen, dass Vorgaben nicht nur auf dem Papier stehen, braucht es interne Kontrollmechanismen:
- Ein KI-Governance-Gremium (Legal, Data, IT, Produkt) entscheidet über strittige Fälle.
- Regelmäßige Audits prüfen, ob Kataloge, DSFA und Löschkonzepte umgesetzt werden.
- Externe Zertifizierungen (z. B. ISO 27701, ISO/IEC 42001) können zusätzlich Vertrauen schaffen.
9. Zusammenfassung und Handlungsempfehlung
Dataset-Governance ist kein Selbstzweck, sondern der Rückgrat der KI-Compliance.
Unternehmen sollten:
- einen auditierbaren Datenkatalog führen,
- Lizenz- und Rechteprüfungen standardisieren,
- DSFA-Pflichten ernst nehmen,
- klare Löschkonzepte umsetzen,
- Zugriffskontrollen und Schulungen etablieren,
- Governance-Strukturen mit Audits verankern.
So können Unternehmen sicherstellen, dass ihre KI nicht nur leistungsfähig, sondern auch rechtlich belastbar und gesellschaftlich akzeptiert ist.
Fazit: Saubere Daten – starke KI
KI kann nur so gut sein wie die Daten, auf denen sie trainiert wird. Doch Daten sind nicht frei verfügbar, sondern rechtlich eingebettet: DSGVO, Urheberrecht, Geschäftsgeheimnisschutz und Lizenzbedingungen setzen den Rahmen.
Wer hier sorgfältig vorgeht, schützt sich nicht nur vor Bußgeldern und Rechtsstreitigkeiten, sondern schafft auch Vertrauen bei Kunden, Partnern und Investoren. Compliance ist kein Innovationshemmnis – sie ist ein Qualitätssiegel, das KI-Produkte am Markt belastbarer macht.
Die Kernbotschaft lautet daher: Daten müssen „sauber“ sein. Unternehmen brauchen klare Governance, dokumentierte Prozesse und technische Schutzmaßnahmen. Nur so kann KI wirklich „sehen“ und lernen, ohne rote Linien zu überschreiten.
30/90/180-Tage-Plan für Unternehmen
Innerhalb von 30 Tagen – Inventur und Quick Wins
- Dateninventur: Alle Quellen erfassen (Web, Kunden, Partner, gekaufte Sets).
- Rechtsgrundlagen prüfen: DSGVO-Matrix anlegen (Einwilligung, Vertrag, berechtigtes Interesse).
- Opt-outs respektieren: Crawler so konfigurieren, dass robots.txt und „no AI“-Signale beachtet werden.
- PII-Filter einbauen: Namen, Adressen, IDs automatisiert herausfiltern.
- Erste Governance-Policy: interne Regeln, welche Daten genutzt werden dürfen.
Innerhalb von 90 Tagen – Prozesse und Strukturen
- Datenkatalog aufbauen: auditierbar, mit Quelle, Lizenz, Rechtsgrundlage, Datum.
- Lizenzmatrix erstellen: CC-Lizenzen, Presse-/Datenbankrechte, AGB-Beschränkungen prüfen.
- DSFA durchführen: bei risikoreichen Anwendungen (z. B. Kredit, Gesundheit).
- Löschkonzept definieren: automatische Fristen für Rohdaten.
- Rollen & Zugriffskontrollen: Need-to-know-Prinzip umsetzen, Logging aktivieren.
- Schulungen starten: Data-Science-Teams für Rechtsfragen sensibilisieren.
Innerhalb von 180 Tagen – Governance und Assurance
- Governance-Gremium einrichten: Legal × IT × Data entscheidet über Grenzfälle.
- Audits & Reviews: interne Prüfungen, ob Datenkatalog und DSFA gelebt werden.
- Output-Tests: Similarity-Scanner und Leakage-Checks ins Deployment integrieren.
- Externe Zertifizierung prüfen: ISO 27701 oder ISO/IEC 42001 als Vertrauenssignal.
- Unlearning-Prozesse verproben: technische Möglichkeit, einzelne Daten rückwirkend zu entfernen.