Urheberrecht & KI-Training: Schranken, Lizenzen und Opt-out

Verfasst von
Max Hortmann
03 Oct 2025
Lesezeit:
15 Minuten
Diesen Beitrag teilen

Urheberrecht & KI-Training: Schranken, Lizenzen und Opt-out

Einleitung: Warum Urheberrecht das Nadelöhr im KI-Training ist

Künstliche Intelligenz lebt von Inhalten – Texte, Bilder, Musik, Videos oder Code. Genau diese Inhalte sind aber in aller Regel urheberrechtlich oder leistungsschutzrechtlich geschützt. Unternehmen, die KI-Systeme trainieren, bewegen sich daher in einem sensiblen Bereich: Was rechtlich erlaubt ist, regeln die Schrankenbestimmungen für Text- und Data-Mining (TDM). Wo die Schranken nicht greifen, braucht es Lizenzen – oder man riskiert Unterlassungsklagen, Schadensersatzforderungen und Reputationsverluste.

Dieser Aufsatz zeigt, wie Unternehmen rechtssicher zwischen Schranke und Lizenzpflicht unterscheiden, welche Rolle Creative-Commons-Inhalte, AGB und ToS, Datenbankrechte und das Presse-Leistungsschutzrecht spielen und wie sich eine Compliance-taugliche Lizenzpraxis im Unternehmen etablieren lässt.

Überblick: Urheberrechtliche Leitplanken für KI-Training

  • TDM-Schranken (§ 44b UrhG für kommerzielle Nutzung, § 60d UrhG für wissenschaftliche Forschung) definieren den Rahmen.
  • Opt-out-Möglichkeiten der Rechteinhaber müssen technisch respektiert werden.
  • Creative Commons & Open Content sind keine „freien Daten“ – Lizenzbedingungen sind einzuhalten.
  • AGB & ToS von Plattformen können zusätzliche vertragliche Verbote enthalten, auch wenn das Urheberrecht eine Schranke vorsieht.
  • Datenbanken & Presseverlegerrechte bilden zusätzliche Schutzschichten, die KI-Training lizenzpflichtig machen können.
  • Vertragsgestaltung mit Datenlieferanten oder Partnern ist entscheidend, um Rechteketten abzusichern.

1. Die TDM-Schranken im Detail

1.1 § 44b UrhG – kommerzielles Text- und Data-Mining

§ 44b UrhG erlaubt es, rechtmäßig zugängliche Werke zu vervielfältigen, wenn dies ausschließlich dem Text- und Data-Mining dient.

Kernpunkte:

  • Die Vorschrift gilt auch für Unternehmen, die Modelle zu kommerziellen Zwecken trainieren.
  • „Rechtmäßig zugänglich“ bedeutet: nur Inhalte, die ohne Rechtsbruch abrufbar sind (keine Leaks, keine Umgehung von Paywalls oder DRM).
  • Vorübergehende und dauerhafte Kopien sind zulässig, soweit sie für das Mining erforderlich sind.

Damit ist § 44b UrhG die wichtigste Rechtsgrundlage für kommerzielle Trainingspipelines, wenn keine individuelle Lizenz eingeholt werden soll.

1.2 § 60d UrhG – wissenschaftliches Data-Mining

Für die nicht-kommerzielle Forschung gibt es mit § 60d UrhG eine noch weitergehende Schranke:

  • Adressaten: Forschungseinrichtungen, Hochschulen, Bibliotheken.
  • Besonderheit: Rechteinhaber können hier kein Opt-out erklären.
  • Praxis: Ein Forschungsinstitut darf also große Text- oder Bildbestände crawlen und analysieren, auch wenn Rechteinhaber das nicht wünschen.

Grenze: Sobald die Ergebnisse für kommerzielle Zwecke verwendet werden, verlässt man § 60d und fällt zurück auf § 44b oder Lizenzpflicht.

1.3 Opt-out nach § 44b Abs. 3 UrhG

Das zentrale Gegengewicht zur Schranke ist das Opt-out-Recht: Rechteinhaber dürfen TDM untersagen.

  • Form: Opt-out muss „in geeigneter Weise“ erklärt werden, typischerweise durch maschinenlesbare Formate (robots.txt, Meta-Tags, HTTP-Header).
  • Pflicht: Crawler und Pipelines müssen solche Signale erkennen und respektieren.
  • Beweislast: Unternehmen sollten dokumentieren, dass Opt-outs technisch verarbeitet und Quellen ausgeschlossen wurden.

Anti-Pattern: Viele Firmen betrachten robots.txt nur als „Empfehlung“. Im TDM-Recht ist sie eine rechtswirksame Schranke.

1.4 Grenzen der Schranke

Auch wenn § 44b großzügig klingt, gibt es enge Grenzen:

  • Drei-Stufen-Test: Schranken dürfen die normale Werknutzung nicht beeinträchtigen oder die berechtigten Interessen der Rechteinhaber unzumutbar verletzen. Massives Crawling von Presseportalen könnte hier problematisch werden.
  • Gezielte Kuratierung: Wer nicht nur massenhaft Daten verarbeitet, sondern gezielt bestimmte Werke auswählt (z. B. Bilder eines Künstlers), überschreitet die Schranke → Lizenzpflicht.
  • Output-Nutzung: TDM erlaubt die Analyse, nicht die Wiedergabe. Gibt ein Modell längere Originalpassagen wieder, liegt ein Urheberrechtsverstoß vor.

1.5 Praktische Folgen für Unternehmen

  • § 44b UrhG ist die rechtliche Basis für automatisiertes Crawling – aber nur, wenn Opt-outs eingehalten werden.
  • Forschung kann sich auf § 60d stützen – kommerzielle Akteure nicht.
  • Unternehmen müssen ihre Pipelines technisch so gestalten, dass sie Schranken- und Opt-out-Regeln respektieren.
  • In Zweifelsfällen (gezielte Datensätze, Outputs mit hoher Werknähe) ist eine Lizenzierung Pflicht.

2. Creative Commons & Open Content: Chancen und Risiken für KI-Training

2.1 Warum Open Content attraktiv ist

Viele Entwickler und Unternehmen greifen auf Creative-Commons-Inhalte (CC) oder andere Open-Content-Quellen zurück. Grund: Diese Inhalte sind leicht verfügbar und scheinbar „frei“. Doch „frei“ bedeutet nicht „rechtsfrei“. Jede CC-Lizenz bringt Verpflichtungen mit sich – und wer diese im KI-Kontext nicht erfüllt, riskiert Lizenzverstöße.

2.2 Die wichtigsten CC-Lizenztypen im Überblick

  • CC BY (Namensnennung erforderlich):
    Nutzung erlaubt, auch kommerziell, aber der Urheber muss genannt werden.
    → Problem im KI-Training: Wie dokumentiert man Namensnennung bei Milliarden Trainingssamples? Unternehmen müssen ein Attributionskonzept entwickeln (z. B. Quelllisten oder Metadatenarchiv).
  • CC BY-SA (Share-Alike):
    Nutzung erlaubt, aber abgeleitete Werke müssen unter denselben Bedingungen veröffentlicht werden.
    → Risiko: Manche Juristen argumentieren, dass auch ein trainiertes Modell als abgeleitetes Werk gilt. Dann müsste das Modell oder seine Outputs unter CC-Bedingungen stehen.
  • CC BY-NC (Non-Commercial):
    Nutzung nur für nicht-kommerzielle Zwecke erlaubt.
    → KI-Training in Start-ups oder Unternehmen fällt in der Regel nicht darunter. Kommerzielles Training wäre ein klarer Verstoß.
  • CC BY-ND (No Derivatives):
    Bearbeitungen sind verboten.
    → Fraglich, ob KI-Training eine Bearbeitung darstellt – viele gehen davon aus. Vorsicht: hier droht ein Risiko.
  • CC0 (Public Domain):
    Verzicht auf alle Rechte. Nutzung ist frei möglich.
    → Dennoch: Quellen sollten dokumentiert werden, um Transparenz und Auditierbarkeit zu sichern.

2.3 Open-Source-Code im KI-Training

Auch Software-Code kann unter Open-Source-Lizenzen stehen, die KI-Training beeinflussen:

  • MIT, Apache-2.0: relativ liberal.
  • GPL/AGPL: Copyleft-Klauseln können „Rückwirkungen“ erzeugen.
    → Beispiel: Wenn ein KI-Modell mit GPL-Code trainiert wird, könnte diskutiert werden, ob auch das Modell unter GPL gestellt werden muss.

Praxisregel:

  • Open-Source-Code nur trainieren, wenn Lizenzrisiken geklärt sind.
  • Modell-Output sollte so gestaltet sein, dass kein urheberrechtlich geschützter Code reproduziert wird.

2.4 Risiken bei Open Content

  • Lizenzbedingungen verletzen: Attribution vergessen, Share-Alike ignoriert, kommerzielle Nutzung bei NC-Inhalten → Lizenzbruch.
  • Rechteketten unsicher: Manche Inhalte sind falsch als CC gekennzeichnet. Beispiel: Jemand lädt urheberrechtlich geschütztes Foto hoch und stellt es fälschlich unter CC.
  • Verwechslungsgefahr: Plattformen wie Wikipedia oder Flickr mischen Inhalte mit unterschiedlichen Lizenzen – wer nicht prüft, riskiert Verstöße.

2.5 Empfehlungen für Unternehmen

  • Lizenzmatrix führen: Für jeden genutzten CC-Datensatz Lizenztyp und Bedingungen dokumentieren.
  • Attributionskonzept entwickeln: Namensnennung technisch und organisatorisch sicherstellen.
  • Share-Alike prüfen: Vor Einsatz von BY-SA-Inhalten klären, ob sich die Pflicht auf das Modell erstrecken könnte.
  • NC und ND meiden: Für kommerzielles Training ungeeignet.
  • CC0 bevorzugen: Wo möglich, auf Public-Domain-Inhalte setzen – aber Dokumentation nicht vergessen.

3. AGB & ToS von Plattformen: Warum Verträge oft schärfer sind als Urheberrecht

3.1 Schranke vs. Vertrag: Wer gewinnt?

Das Urheberrecht erlaubt durch Schrankenregelungen wie § 44b UrhG unter bestimmten Bedingungen Text- und Data-Mining. Doch: Plattformen wie Social Media, Bilddatenbanken oder Newsportale können in ihren Allgemeinen Geschäftsbedingungen (AGB) oder Terms of Service (ToS) die Nutzung für KI-Training vertraglich untersagen.
→ Ergebnis: Auch wenn TDM urheberrechtlich erlaubt wäre, liegt bei Missachtung der AGB ein Vertragsbruch vor – mit Unterlassungs- und Schadensersatzansprüchen.

3.2 Typische Verbotsklauseln

Viele Plattformen haben in den letzten Jahren klare „No-AI“-Regeln aufgenommen, z. B.:

  • „Kein Scraping“ von Inhalten, außer über offizielle APIs.
  • „Keine Nutzung für KI-Training“ oder Machine Learning, wenn nicht ausdrücklich gestattet.
  • „Nur persönliche Nutzung“, keine kommerzielle Weiterverwertung.
Beispiele aus der Praxis:
  • Stockfoto-Plattformen untersagen oft die Verwendung ihrer Bilder für Trainingszwecke.
  • Social-Media-Plattformen wie Twitter/X haben die API-Nutzung für KI-Projekte stark eingeschränkt.
  • News-Verlage beginnen, explizit Verträge mit KI-Unternehmen auszuhandeln, statt Schranken gelten zu lassen.

3.3 Rechtsfolgen bei Missachtung

Ein Verstoß gegen die AGB hat andere Konsequenzen als ein Urheberrechtsverstoß:

  • Unterlassung: Plattformen können sofortige Unterlassung verlangen.
  • Schadensersatz: Vertragliche Ansprüche können teuer werden – auch ohne Nachweis eines klassischen Urheberrechtsverstoßes.
  • Konto- oder Zugangsverlust: Accounts oder API-Schlüssel können gesperrt werden, was Projekte abrupt stoppen kann.

Wichtig: Vertragsverletzungen lassen sich nicht mit „aber das Urheberrecht erlaubt TDM“ rechtfertigen.

3.4 Praktische Handlungsempfehlungen

  • ToS-Check etablieren: Vor Einbindung neuer Datenquellen müssen Juristen die AGB prüfen.
  • Vertragsklauseln sichern: Wenn möglich, mit Plattformen oder Rechteinhabern explizite Vereinbarungen zur Nutzung für KI-Training schließen.
  • Risikomanagement: Quellen mit restriktiven ToS klar kennzeichnen oder auf „Stop-Listen“ setzen.
  • API vs. Scraping unterscheiden: Manche Plattformen erlauben KI-Nutzung über APIs, verbieten aber Crawling. Diese Differenz muss im Governance-Prozess dokumentiert werden.

4. Datenbank- und Presse-Leistungsschutzrechte: zusätzliche Hürden für KI-Training

4.1 Datenbankherstellerrecht (sui generis)

Neben dem klassischen Urheberrecht schützt die EU auch Investitionen in Datenbanken.

  • Eine Datenbank ist nach § 87a UrhG geschützt, wenn eine wesentliche Investition in die Beschaffung, Überprüfung oder Darstellung der Inhalte geflossen ist.
  • Geschützt ist nicht der einzelne Datensatz, sondern die strukturierte Sammlung.
  • Problem für KI-Training: Wer „wesentliche Teile“ einer geschützten Datenbank entnimmt oder wiederverwendet, verletzt dieses Recht.

Beispiele:

  • Crawling großer Teile einer wissenschaftlichen Datenbank.
  • Export einer Presse- oder Statistikdatenbank für Trainingszwecke.

→ Lösung: Entnahmen nur in nicht wesentlichem Umfang oder Lizenzvereinbarungen mit dem Datenbankbetreiber.

4.2 Presse-Leistungsschutzrecht

Seit 2019 gibt es in der EU das Leistungsschutzrecht für Presseverleger (§§ 87f ff. UrhG). Es schützt journalistische Pressepublikationen vor unlizenzierter Nutzung im Netz.

Kernpunkte:

  • Schon kleine Auszüge (Snippets, Überschriften) können lizenziert werden müssen.
  • Plattformen wie Google oder Facebook haben deshalb Verträge mit Verlagen geschlossen.
  • Für KI-Training heißt das: Das massenhafte Crawlen von Nachrichtenportalen kann ohne Lizenz eine Verletzung darstellen, selbst wenn § 44b UrhG (TDM) formal greifen würde.

4.3 Zusammenspiel mit TDM-Schranken

  • Grundsätzlich gilt: TDM-Schranken (§ 44b, § 60d UrhG) überlagern auch Datenbank- und Presse-Schutzrechte.
  • Aber: Der Drei-Stufen-Test wirkt als Korrektiv. Wenn das Training die reguläre Verwertung von Presseinhalten oder Datenbanken unzumutbar beeinträchtigt, könnte eine Lizenzpflicht bestehen bleiben.
  • Faktisch haben viele Verlage begonnen, Opt-outs zu erklären oder direkt Lizenzen mit KI-Unternehmenauszuhandeln.

4.4 Handlungsempfehlungen für Unternehmen

  • Datenbankprüfung: Vor Nutzung klären, ob die Quelle unter § 87a UrhG fällt. Wenn ja, „wesentliche Teile“ nur mit Lizenz verwenden.
  • Presseinhalte vorsichtig nutzen: Nachrichtenportale sind hochsensibel. Besser Lizenz oder Kooperation als stilles Crawlen.
  • Stop-Listen einrichten: Für Quellen mit bekannten Leistungsschutzansprüchen (z. B. große Verlagshäuser) eindeutige Ausschlussregeln in den Pipelines definieren.
  • Monitoring etablieren: Verfolgen, ob Verlage Opt-outs erklären oder Lizenzmodelle veröffentlichen.

5. Vertragsgestaltung mit Datenlieferanten und Partnern: Rechteketten absichern

5.1 Warum Verträge so wichtig sind

Auch wenn TDM-Schranken oder Open-Content-Lizenzen manches erlauben: Die größte Rechtssicherheit entsteht durch klare Verträge. Denn nur so können Unternehmen die gesamte Rechtekette nachvollziehen – vom ursprünglichen Urheber über Datenbroker bis zum eigenen Trainingsteam. Fehlt diese Absicherung, drohen Unterlassungsklagen, Abmahnungen oder sogar Rückabwicklungen ganzer Projekte.

5.2 Zentrale Vertragsklauseln

1. Nutzungszweck klar regeln

  • Steht im Vertrag ausdrücklich, dass die Daten für „KI-Training und Machine Learning“ verwendet werden dürfen?
  • Oder ist nur die interne Nutzung erlaubt?

2. Rechtekette absichern

  • Lieferanten sollten garantieren, dass sie die nötigen Rechte selbst besitzen oder eingeholt haben.
  • Typische Klausel: „Der Lieferant sichert zu, dass die gelieferten Daten frei von Rechten Dritter sind und für KI-Training genutzt werden dürfen.“

3. Freistellungsklauseln

  • Falls doch Ansprüche Dritter geltend gemacht werden, verpflichtet sich der Lieferant, das KI-Unternehmen von allen Kosten freizustellen.
  • Ohne solche Klauseln tragen Unternehmen das volle Risiko selbst.

4. Geheimhaltung und Vertraulichkeit

  • Oft enthalten Datensätze sensible Informationen.
  • NDAs (Non-Disclosure Agreements) sollten die Vertraulichkeit absichern – auch über die Trainingsphase hinaus.

5. Haftungsregelungen

  • Klare Vereinbarungen, wer im Streitfall zahlt, schaffen Planungssicherheit.
  • Pauschale Haftungsbeschränkungen der Lieferanten („keine Haftung für Rechte Dritter“) sind kritisch und sollten nicht akzeptiert werden.

5.3 Typische Problemfälle

  • „Stillschweigende Nutzung“: Daten werden geliefert, aber nicht ausdrücklich für KI-Training freigegeben. → hohes Risiko.
  • „Exklusive vs. nicht-exklusive Rechte“: Ohne klare Vereinbarung können Daten parallel an Wettbewerber verkauft werden.
  • „Unklare Lizenzbedingungen bei Resellern“: Manche Datenbroker geben Rechte weiter, ohne die Originalrechte zu prüfen.

5.4 Handlungsempfehlungen

  • Vor Nutzung externer Daten immer schriftliche Vereinbarungen einholen.
  • Verträge von juristischen Experten prüfen lassen, insbesondere Lizenzklauseln und Freistellung.
  • Rechtekette dokumentieren: Vom Urheber bis zum Training, damit im Auditfall ein sauberer Nachweis existiert.
  • Nur mit Lieferanten arbeiten, die transparente Policies für KI-Training anbieten.

Fazit: Ohne Lizenzen kein sicheres KI-Training

Das Urheberrecht ist für KI-Training kein Nebenschauplatz, sondern das eigentliche Nadelöhr. Zwar erlauben die TDM-Schranken (§ 44b, § 60d UrhG) unter bestimmten Bedingungen automatisierte Analysen. Doch sobald Rechteinhaber Opt-outs erklären, Inhalte gezielt kurativer genutzt werden oder zusätzliche Leistungsschutzrechte greifen, bleibt nur der Weg über Lizenzen und klare Verträge.

Unternehmen müssen daher zweigleisig fahren:

  1. Technische Compliance durch Respekt vor Opt-outs, Crawler-Regeln und dokumentierte Datenkataloge.
  2. Juristische Compliance durch Lizenzprüfungen, AGB-Checks und belastbare Verträge mit Datenlieferanten.

Wer das umsetzt, kann KI-Modelle trainieren, ohne ständig die rote Karte von Rechteinhabern oder Gerichten zu riskieren – und gewinnt zusätzlich Vertrauen am Markt.

30/90/180-Tage-Plan für urheberrechtskonformes KI-Training

Innerhalb von 30 Tagen – Grundlagen schaffen

  • Quelleninventur: Alle genutzten Websites, Datenbanken und Inhalte erfassen.
  • Opt-out-Check: Crawler so konfigurieren, dass robots.txt, Meta-Tags und „No AI“-Hinweise technisch respektiert werden.
  • Stop-Listen anlegen: Plattformen mit bekannten „No-AI“- oder restriktiven AGB identifizieren und ausschließen.

Innerhalb von 90 Tagen – Prozesse etablieren

  • Lizenzmatrix aufbauen: Für jede Datenquelle Lizenztyp, CC-Bedingungen oder Vertragsstatus dokumentieren.
  • Verträge prüfen: Lieferantenvereinbarungen auf KI-Nutzung, Freistellung und Rechtekette kontrollieren.
  • Rechtsberatung einholen: Besonders bei Share-Alike (CC BY-SA) oder GPL/AGPL-Code Risiken bewerten lassen.
  • Presse- und Datenbankquellen absichern: Klären, ob Leistungsschutzrechte greifen, ggf. Lizenz abschließen.

Innerhalb von 180 Tagen – Governance und Assurance

  • Auditierbare Datenregister: Nachweis, woher Daten stammen und unter welchen Bedingungen sie genutzt werden.
  • Output-Kontrollen: Similarity-Scanner und Leak-Guards, um Wiederholungen geschützter Werke zu verhindern.
  • Lizenzprogramme: Kooperationen mit Verlagen, Bilddatenbanken oder Datenbrokern einrichten.
  • Externes Audit oder Zertifizierung: Rechtssichere Nutzung durch unabhängige Prüfung dokumentieren.

Quintessenz

Urheberrechtliches KI-Training funktioniert nicht mit „Augen zu und durch“. Es braucht klare Strukturen, saubere Rechteketten und technisch-juristische Doppelabsicherung. Wer das beherzigt, spart nicht nur Rechtskosten, sondern legt den Grundstein für skalierbare, vertrauenswürdige KI-Systeme.

Max Hortmann
Rechtsanwalt
,
Hortmann Law

Nicht genau das gefunden, wonach Sie suchen?

Wir helfen Ihnen gerne persönlich weiter – schildern Sie uns Ihr Anliegen und wir finden gemeinsam eine Lösung.

Verwandte Artikel

Das könnte Sie auch interessieren

Lorem ipsum dolor sit amet, consectetur adipiscing elit.