Urheberrecht & KI-Training: Schranken, Lizenzen und Opt-out
Einleitung: Warum Urheberrecht das Nadelöhr im KI-Training ist
Künstliche Intelligenz lebt von Inhalten – Texte, Bilder, Musik, Videos oder Code. Genau diese Inhalte sind aber in aller Regel urheberrechtlich oder leistungsschutzrechtlich geschützt. Unternehmen, die KI-Systeme trainieren, bewegen sich daher in einem sensiblen Bereich: Was rechtlich erlaubt ist, regeln die Schrankenbestimmungen für Text- und Data-Mining (TDM). Wo die Schranken nicht greifen, braucht es Lizenzen – oder man riskiert Unterlassungsklagen, Schadensersatzforderungen und Reputationsverluste.
Dieser Aufsatz zeigt, wie Unternehmen rechtssicher zwischen Schranke und Lizenzpflicht unterscheiden, welche Rolle Creative-Commons-Inhalte, AGB und ToS, Datenbankrechte und das Presse-Leistungsschutzrecht spielen und wie sich eine Compliance-taugliche Lizenzpraxis im Unternehmen etablieren lässt.
Überblick: Urheberrechtliche Leitplanken für KI-Training
- TDM-Schranken (§ 44b UrhG für kommerzielle Nutzung, § 60d UrhG für wissenschaftliche Forschung) definieren den Rahmen.
- Opt-out-Möglichkeiten der Rechteinhaber müssen technisch respektiert werden.
- Creative Commons & Open Content sind keine „freien Daten“ – Lizenzbedingungen sind einzuhalten.
- AGB & ToS von Plattformen können zusätzliche vertragliche Verbote enthalten, auch wenn das Urheberrecht eine Schranke vorsieht.
- Datenbanken & Presseverlegerrechte bilden zusätzliche Schutzschichten, die KI-Training lizenzpflichtig machen können.
- Vertragsgestaltung mit Datenlieferanten oder Partnern ist entscheidend, um Rechteketten abzusichern.
1. Die TDM-Schranken im Detail
1.1 § 44b UrhG – kommerzielles Text- und Data-Mining
§ 44b UrhG erlaubt es, rechtmäßig zugängliche Werke zu vervielfältigen, wenn dies ausschließlich dem Text- und Data-Mining dient.
Kernpunkte:
- Die Vorschrift gilt auch für Unternehmen, die Modelle zu kommerziellen Zwecken trainieren.
- „Rechtmäßig zugänglich“ bedeutet: nur Inhalte, die ohne Rechtsbruch abrufbar sind (keine Leaks, keine Umgehung von Paywalls oder DRM).
- Vorübergehende und dauerhafte Kopien sind zulässig, soweit sie für das Mining erforderlich sind.
Damit ist § 44b UrhG die wichtigste Rechtsgrundlage für kommerzielle Trainingspipelines, wenn keine individuelle Lizenz eingeholt werden soll.
1.2 § 60d UrhG – wissenschaftliches Data-Mining
Für die nicht-kommerzielle Forschung gibt es mit § 60d UrhG eine noch weitergehende Schranke:
- Adressaten: Forschungseinrichtungen, Hochschulen, Bibliotheken.
- Besonderheit: Rechteinhaber können hier kein Opt-out erklären.
- Praxis: Ein Forschungsinstitut darf also große Text- oder Bildbestände crawlen und analysieren, auch wenn Rechteinhaber das nicht wünschen.
Grenze: Sobald die Ergebnisse für kommerzielle Zwecke verwendet werden, verlässt man § 60d und fällt zurück auf § 44b oder Lizenzpflicht.
1.3 Opt-out nach § 44b Abs. 3 UrhG
Das zentrale Gegengewicht zur Schranke ist das Opt-out-Recht: Rechteinhaber dürfen TDM untersagen.
- Form: Opt-out muss „in geeigneter Weise“ erklärt werden, typischerweise durch maschinenlesbare Formate (robots.txt, Meta-Tags, HTTP-Header).
- Pflicht: Crawler und Pipelines müssen solche Signale erkennen und respektieren.
- Beweislast: Unternehmen sollten dokumentieren, dass Opt-outs technisch verarbeitet und Quellen ausgeschlossen wurden.
Anti-Pattern: Viele Firmen betrachten robots.txt nur als „Empfehlung“. Im TDM-Recht ist sie eine rechtswirksame Schranke.
1.4 Grenzen der Schranke
Auch wenn § 44b großzügig klingt, gibt es enge Grenzen:
- Drei-Stufen-Test: Schranken dürfen die normale Werknutzung nicht beeinträchtigen oder die berechtigten Interessen der Rechteinhaber unzumutbar verletzen. Massives Crawling von Presseportalen könnte hier problematisch werden.
- Gezielte Kuratierung: Wer nicht nur massenhaft Daten verarbeitet, sondern gezielt bestimmte Werke auswählt (z. B. Bilder eines Künstlers), überschreitet die Schranke → Lizenzpflicht.
- Output-Nutzung: TDM erlaubt die Analyse, nicht die Wiedergabe. Gibt ein Modell längere Originalpassagen wieder, liegt ein Urheberrechtsverstoß vor.
1.5 Praktische Folgen für Unternehmen
- § 44b UrhG ist die rechtliche Basis für automatisiertes Crawling – aber nur, wenn Opt-outs eingehalten werden.
- Forschung kann sich auf § 60d stützen – kommerzielle Akteure nicht.
- Unternehmen müssen ihre Pipelines technisch so gestalten, dass sie Schranken- und Opt-out-Regeln respektieren.
- In Zweifelsfällen (gezielte Datensätze, Outputs mit hoher Werknähe) ist eine Lizenzierung Pflicht.
2. Creative Commons & Open Content: Chancen und Risiken für KI-Training
2.1 Warum Open Content attraktiv ist
Viele Entwickler und Unternehmen greifen auf Creative-Commons-Inhalte (CC) oder andere Open-Content-Quellen zurück. Grund: Diese Inhalte sind leicht verfügbar und scheinbar „frei“. Doch „frei“ bedeutet nicht „rechtsfrei“. Jede CC-Lizenz bringt Verpflichtungen mit sich – und wer diese im KI-Kontext nicht erfüllt, riskiert Lizenzverstöße.
2.2 Die wichtigsten CC-Lizenztypen im Überblick
- CC BY (Namensnennung erforderlich):
Nutzung erlaubt, auch kommerziell, aber der Urheber muss genannt werden.
→ Problem im KI-Training: Wie dokumentiert man Namensnennung bei Milliarden Trainingssamples? Unternehmen müssen ein Attributionskonzept entwickeln (z. B. Quelllisten oder Metadatenarchiv). - CC BY-SA (Share-Alike):
Nutzung erlaubt, aber abgeleitete Werke müssen unter denselben Bedingungen veröffentlicht werden.
→ Risiko: Manche Juristen argumentieren, dass auch ein trainiertes Modell als abgeleitetes Werk gilt. Dann müsste das Modell oder seine Outputs unter CC-Bedingungen stehen. - CC BY-NC (Non-Commercial):
Nutzung nur für nicht-kommerzielle Zwecke erlaubt.
→ KI-Training in Start-ups oder Unternehmen fällt in der Regel nicht darunter. Kommerzielles Training wäre ein klarer Verstoß. - CC BY-ND (No Derivatives):
Bearbeitungen sind verboten.
→ Fraglich, ob KI-Training eine Bearbeitung darstellt – viele gehen davon aus. Vorsicht: hier droht ein Risiko. - CC0 (Public Domain):
Verzicht auf alle Rechte. Nutzung ist frei möglich.
→ Dennoch: Quellen sollten dokumentiert werden, um Transparenz und Auditierbarkeit zu sichern.
2.3 Open-Source-Code im KI-Training
Auch Software-Code kann unter Open-Source-Lizenzen stehen, die KI-Training beeinflussen:
- MIT, Apache-2.0: relativ liberal.
- GPL/AGPL: Copyleft-Klauseln können „Rückwirkungen“ erzeugen.
→ Beispiel: Wenn ein KI-Modell mit GPL-Code trainiert wird, könnte diskutiert werden, ob auch das Modell unter GPL gestellt werden muss.
Praxisregel:
- Open-Source-Code nur trainieren, wenn Lizenzrisiken geklärt sind.
- Modell-Output sollte so gestaltet sein, dass kein urheberrechtlich geschützter Code reproduziert wird.
2.4 Risiken bei Open Content
- Lizenzbedingungen verletzen: Attribution vergessen, Share-Alike ignoriert, kommerzielle Nutzung bei NC-Inhalten → Lizenzbruch.
- Rechteketten unsicher: Manche Inhalte sind falsch als CC gekennzeichnet. Beispiel: Jemand lädt urheberrechtlich geschütztes Foto hoch und stellt es fälschlich unter CC.
- Verwechslungsgefahr: Plattformen wie Wikipedia oder Flickr mischen Inhalte mit unterschiedlichen Lizenzen – wer nicht prüft, riskiert Verstöße.
2.5 Empfehlungen für Unternehmen
- Lizenzmatrix führen: Für jeden genutzten CC-Datensatz Lizenztyp und Bedingungen dokumentieren.
- Attributionskonzept entwickeln: Namensnennung technisch und organisatorisch sicherstellen.
- Share-Alike prüfen: Vor Einsatz von BY-SA-Inhalten klären, ob sich die Pflicht auf das Modell erstrecken könnte.
- NC und ND meiden: Für kommerzielles Training ungeeignet.
- CC0 bevorzugen: Wo möglich, auf Public-Domain-Inhalte setzen – aber Dokumentation nicht vergessen.
3. AGB & ToS von Plattformen: Warum Verträge oft schärfer sind als Urheberrecht
3.1 Schranke vs. Vertrag: Wer gewinnt?
Das Urheberrecht erlaubt durch Schrankenregelungen wie § 44b UrhG unter bestimmten Bedingungen Text- und Data-Mining. Doch: Plattformen wie Social Media, Bilddatenbanken oder Newsportale können in ihren Allgemeinen Geschäftsbedingungen (AGB) oder Terms of Service (ToS) die Nutzung für KI-Training vertraglich untersagen.
→ Ergebnis: Auch wenn TDM urheberrechtlich erlaubt wäre, liegt bei Missachtung der AGB ein Vertragsbruch vor – mit Unterlassungs- und Schadensersatzansprüchen.
3.2 Typische Verbotsklauseln
Viele Plattformen haben in den letzten Jahren klare „No-AI“-Regeln aufgenommen, z. B.:
- „Kein Scraping“ von Inhalten, außer über offizielle APIs.
- „Keine Nutzung für KI-Training“ oder Machine Learning, wenn nicht ausdrücklich gestattet.
- „Nur persönliche Nutzung“, keine kommerzielle Weiterverwertung.
Beispiele aus der Praxis:
- Stockfoto-Plattformen untersagen oft die Verwendung ihrer Bilder für Trainingszwecke.
- Social-Media-Plattformen wie Twitter/X haben die API-Nutzung für KI-Projekte stark eingeschränkt.
- News-Verlage beginnen, explizit Verträge mit KI-Unternehmen auszuhandeln, statt Schranken gelten zu lassen.
3.3 Rechtsfolgen bei Missachtung
Ein Verstoß gegen die AGB hat andere Konsequenzen als ein Urheberrechtsverstoß:
- Unterlassung: Plattformen können sofortige Unterlassung verlangen.
- Schadensersatz: Vertragliche Ansprüche können teuer werden – auch ohne Nachweis eines klassischen Urheberrechtsverstoßes.
- Konto- oder Zugangsverlust: Accounts oder API-Schlüssel können gesperrt werden, was Projekte abrupt stoppen kann.
Wichtig: Vertragsverletzungen lassen sich nicht mit „aber das Urheberrecht erlaubt TDM“ rechtfertigen.
3.4 Praktische Handlungsempfehlungen
- ToS-Check etablieren: Vor Einbindung neuer Datenquellen müssen Juristen die AGB prüfen.
- Vertragsklauseln sichern: Wenn möglich, mit Plattformen oder Rechteinhabern explizite Vereinbarungen zur Nutzung für KI-Training schließen.
- Risikomanagement: Quellen mit restriktiven ToS klar kennzeichnen oder auf „Stop-Listen“ setzen.
- API vs. Scraping unterscheiden: Manche Plattformen erlauben KI-Nutzung über APIs, verbieten aber Crawling. Diese Differenz muss im Governance-Prozess dokumentiert werden.
4. Datenbank- und Presse-Leistungsschutzrechte: zusätzliche Hürden für KI-Training
4.1 Datenbankherstellerrecht (sui generis)
Neben dem klassischen Urheberrecht schützt die EU auch Investitionen in Datenbanken.
- Eine Datenbank ist nach § 87a UrhG geschützt, wenn eine wesentliche Investition in die Beschaffung, Überprüfung oder Darstellung der Inhalte geflossen ist.
- Geschützt ist nicht der einzelne Datensatz, sondern die strukturierte Sammlung.
- Problem für KI-Training: Wer „wesentliche Teile“ einer geschützten Datenbank entnimmt oder wiederverwendet, verletzt dieses Recht.
Beispiele:
- Crawling großer Teile einer wissenschaftlichen Datenbank.
- Export einer Presse- oder Statistikdatenbank für Trainingszwecke.
→ Lösung: Entnahmen nur in nicht wesentlichem Umfang oder Lizenzvereinbarungen mit dem Datenbankbetreiber.
4.2 Presse-Leistungsschutzrecht
Seit 2019 gibt es in der EU das Leistungsschutzrecht für Presseverleger (§§ 87f ff. UrhG). Es schützt journalistische Pressepublikationen vor unlizenzierter Nutzung im Netz.
Kernpunkte:
- Schon kleine Auszüge (Snippets, Überschriften) können lizenziert werden müssen.
- Plattformen wie Google oder Facebook haben deshalb Verträge mit Verlagen geschlossen.
- Für KI-Training heißt das: Das massenhafte Crawlen von Nachrichtenportalen kann ohne Lizenz eine Verletzung darstellen, selbst wenn § 44b UrhG (TDM) formal greifen würde.
4.3 Zusammenspiel mit TDM-Schranken
- Grundsätzlich gilt: TDM-Schranken (§ 44b, § 60d UrhG) überlagern auch Datenbank- und Presse-Schutzrechte.
- Aber: Der Drei-Stufen-Test wirkt als Korrektiv. Wenn das Training die reguläre Verwertung von Presseinhalten oder Datenbanken unzumutbar beeinträchtigt, könnte eine Lizenzpflicht bestehen bleiben.
- Faktisch haben viele Verlage begonnen, Opt-outs zu erklären oder direkt Lizenzen mit KI-Unternehmenauszuhandeln.
4.4 Handlungsempfehlungen für Unternehmen
- Datenbankprüfung: Vor Nutzung klären, ob die Quelle unter § 87a UrhG fällt. Wenn ja, „wesentliche Teile“ nur mit Lizenz verwenden.
- Presseinhalte vorsichtig nutzen: Nachrichtenportale sind hochsensibel. Besser Lizenz oder Kooperation als stilles Crawlen.
- Stop-Listen einrichten: Für Quellen mit bekannten Leistungsschutzansprüchen (z. B. große Verlagshäuser) eindeutige Ausschlussregeln in den Pipelines definieren.
- Monitoring etablieren: Verfolgen, ob Verlage Opt-outs erklären oder Lizenzmodelle veröffentlichen.
5. Vertragsgestaltung mit Datenlieferanten und Partnern: Rechteketten absichern
5.1 Warum Verträge so wichtig sind
Auch wenn TDM-Schranken oder Open-Content-Lizenzen manches erlauben: Die größte Rechtssicherheit entsteht durch klare Verträge. Denn nur so können Unternehmen die gesamte Rechtekette nachvollziehen – vom ursprünglichen Urheber über Datenbroker bis zum eigenen Trainingsteam. Fehlt diese Absicherung, drohen Unterlassungsklagen, Abmahnungen oder sogar Rückabwicklungen ganzer Projekte.
5.2 Zentrale Vertragsklauseln
1. Nutzungszweck klar regeln
- Steht im Vertrag ausdrücklich, dass die Daten für „KI-Training und Machine Learning“ verwendet werden dürfen?
- Oder ist nur die interne Nutzung erlaubt?
2. Rechtekette absichern
- Lieferanten sollten garantieren, dass sie die nötigen Rechte selbst besitzen oder eingeholt haben.
- Typische Klausel: „Der Lieferant sichert zu, dass die gelieferten Daten frei von Rechten Dritter sind und für KI-Training genutzt werden dürfen.“
3. Freistellungsklauseln
- Falls doch Ansprüche Dritter geltend gemacht werden, verpflichtet sich der Lieferant, das KI-Unternehmen von allen Kosten freizustellen.
- Ohne solche Klauseln tragen Unternehmen das volle Risiko selbst.
4. Geheimhaltung und Vertraulichkeit
- Oft enthalten Datensätze sensible Informationen.
- NDAs (Non-Disclosure Agreements) sollten die Vertraulichkeit absichern – auch über die Trainingsphase hinaus.
5. Haftungsregelungen
- Klare Vereinbarungen, wer im Streitfall zahlt, schaffen Planungssicherheit.
- Pauschale Haftungsbeschränkungen der Lieferanten („keine Haftung für Rechte Dritter“) sind kritisch und sollten nicht akzeptiert werden.
5.3 Typische Problemfälle
- „Stillschweigende Nutzung“: Daten werden geliefert, aber nicht ausdrücklich für KI-Training freigegeben. → hohes Risiko.
- „Exklusive vs. nicht-exklusive Rechte“: Ohne klare Vereinbarung können Daten parallel an Wettbewerber verkauft werden.
- „Unklare Lizenzbedingungen bei Resellern“: Manche Datenbroker geben Rechte weiter, ohne die Originalrechte zu prüfen.
5.4 Handlungsempfehlungen
- Vor Nutzung externer Daten immer schriftliche Vereinbarungen einholen.
- Verträge von juristischen Experten prüfen lassen, insbesondere Lizenzklauseln und Freistellung.
- Rechtekette dokumentieren: Vom Urheber bis zum Training, damit im Auditfall ein sauberer Nachweis existiert.
- Nur mit Lieferanten arbeiten, die transparente Policies für KI-Training anbieten.
Fazit: Ohne Lizenzen kein sicheres KI-Training
Das Urheberrecht ist für KI-Training kein Nebenschauplatz, sondern das eigentliche Nadelöhr. Zwar erlauben die TDM-Schranken (§ 44b, § 60d UrhG) unter bestimmten Bedingungen automatisierte Analysen. Doch sobald Rechteinhaber Opt-outs erklären, Inhalte gezielt kurativer genutzt werden oder zusätzliche Leistungsschutzrechte greifen, bleibt nur der Weg über Lizenzen und klare Verträge.
Unternehmen müssen daher zweigleisig fahren:
- Technische Compliance durch Respekt vor Opt-outs, Crawler-Regeln und dokumentierte Datenkataloge.
- Juristische Compliance durch Lizenzprüfungen, AGB-Checks und belastbare Verträge mit Datenlieferanten.
Wer das umsetzt, kann KI-Modelle trainieren, ohne ständig die rote Karte von Rechteinhabern oder Gerichten zu riskieren – und gewinnt zusätzlich Vertrauen am Markt.
30/90/180-Tage-Plan für urheberrechtskonformes KI-Training
Innerhalb von 30 Tagen – Grundlagen schaffen
- Quelleninventur: Alle genutzten Websites, Datenbanken und Inhalte erfassen.
- Opt-out-Check: Crawler so konfigurieren, dass robots.txt, Meta-Tags und „No AI“-Hinweise technisch respektiert werden.
- Stop-Listen anlegen: Plattformen mit bekannten „No-AI“- oder restriktiven AGB identifizieren und ausschließen.
Innerhalb von 90 Tagen – Prozesse etablieren
- Lizenzmatrix aufbauen: Für jede Datenquelle Lizenztyp, CC-Bedingungen oder Vertragsstatus dokumentieren.
- Verträge prüfen: Lieferantenvereinbarungen auf KI-Nutzung, Freistellung und Rechtekette kontrollieren.
- Rechtsberatung einholen: Besonders bei Share-Alike (CC BY-SA) oder GPL/AGPL-Code Risiken bewerten lassen.
- Presse- und Datenbankquellen absichern: Klären, ob Leistungsschutzrechte greifen, ggf. Lizenz abschließen.
Innerhalb von 180 Tagen – Governance und Assurance
- Auditierbare Datenregister: Nachweis, woher Daten stammen und unter welchen Bedingungen sie genutzt werden.
- Output-Kontrollen: Similarity-Scanner und Leak-Guards, um Wiederholungen geschützter Werke zu verhindern.
- Lizenzprogramme: Kooperationen mit Verlagen, Bilddatenbanken oder Datenbrokern einrichten.
- Externes Audit oder Zertifizierung: Rechtssichere Nutzung durch unabhängige Prüfung dokumentieren.
Quintessenz
Urheberrechtliches KI-Training funktioniert nicht mit „Augen zu und durch“. Es braucht klare Strukturen, saubere Rechteketten und technisch-juristische Doppelabsicherung. Wer das beherzigt, spart nicht nur Rechtskosten, sondern legt den Grundstein für skalierbare, vertrauenswürdige KI-Systeme.