In der heutigen digitalen Ära sind Daten eine der wertvollsten Ressourcen, die es gibt. Sie bilden die Grundlage für die Entwicklung und das Training von Künstlichen Intelligenzmodellen (KI), die unser Leben und unsere Arbeitswelt zunehmend prägen. Doch während Unternehmen mit diesen KI-Systemen immense Profite erzielen, stellt sich die Frage, warum die Menschen, die diese Daten bereitstellen oder generieren, oftmals leer ausgehen. Dieses Thema wird fortwährend kontrovers diskutiert und wirft ernste ethische, soziale und wirtschaftliche Fragen auf, die es zu beleuchten gilt. Zunächst einmal muss klargestellt werden, dass fast jede Aktivität, bei der Menschen digitale Inhalte erstellen oder verarbeiten, potenziell zur Datenquelle für KI-Trainingsdatensätze werden kann.
Ob es sich um Programmierer handelt, die komplexe Codes schreiben, Content-Ersteller, die Tutorials und Produktvorstellungen publizieren, oder Datenannotatoren, die präzise Markierungen für maschinelles Lernen setzen – ihre Arbeit schafft geistiges Eigentum, das mithilfe von Algorithmen in KI-Systeme einfließt. Das Problem liegt darin, dass diese Beiträge meist ohne angemessene Anerkennung oder Vergütung verwendet werden. Unternehmen erheben massenhaft Daten auf unterschiedlichsten Wegen und trainieren ihre KI-Modelle, um daraus finanziellen Mehrwert zu ziehen. Dabei scheinen die ursprünglichen „Datenlieferanten“ oft nur selten oder überhaupt nicht davon zu profitieren. Es erfolgt keine regelmäßige Entlohnung oder keine Beteiligung am Gewinn, obwohl ohne diese Arbeit die Modelle in ihrer heutigen Form nicht existieren könnten.
Ein Vergleich, der häufig zur Verdeutlichung herangezogen wird, ist der zwischen Datenabbau und Bergbau. Ähnlich wie Bergbau Unternehmen Zugang zu wertvollen Rohstoffen wie Gold oder Diamanten ermöglicht, gewährt Datenabbau Zugriff auf nutzbare Informationen und Arbeitsergebnisse von Menschen. Leider wird genau wie in vielen Bergbauregionen häufig von den Arbeitnehmern und Ursprungsgemeinschaften wenig abgesehen. Die Daten werden vielfach ohne ausreichende Transparenz und mit wenig Einverständnis entnommen oder verwendet. Vor allem im Kontext von Künstlicher Intelligenz nimmt diese Problematik eine neue Dimension an.
Da KI-Technologien immer leistungsfähiger und leistungsorientierter werden, steigt der Bedarf an qualitativ hochwertigen und umfangreichen Trainingsdaten exponentiell. Unternehmen investieren erhebliche Ressourcen in Computing-Power und Infrastruktur, doch die Basis bleibt die Masse und Qualität der bereitgestellten Daten. Ohne sie bleibt das Voranschreiten der KI eingeschränkt oder ineffizient. Aus der Sicht der Datengeber stellt sich deshalb die Frage, wie ein fairer Ausgleich aussehen könnte. Einige Stimmen fordern die Einführung von Tantiemen oder fortlaufenden Lizenzgebühren für Daten, welche für KI-Trainings verwendet werden.
Andere sehen die Gründung von Datengewerkschaften oder Datenverbänden als Weg, um gemeinsame Interessen zu vertreten und bessere Verhandlungspositionen gegenüber den Konzernen zu erreichen. Auch der Gedanke von offener Eigentümerschaft an internen Beiträgen – etwa innerhalb eines Unternehmens – könnte sicherstellen, dass Mitarbeitende angemessen an Wertbeiträgen beteiligt werden. Die tatsächlich vorhandenen Geschäftsmodelle für Daten sind keineswegs ein Novum. Schon heute implementieren einige Datenanbieter nicht nur einmalige Gebühren für Datenlieferungen, sondern auch wiederkehrende Nutzungsbasierte Entgelte. Warum also sollte dieses Prinzip nicht auch auf die breitere Nutzung personenbezogener oder kreativer Daten angewandt werden? Die Etablierung von fairen Mechanismen zur Datenvergütung ist nicht nur aus ethischer Sicht sinnvoll, sondern auch ökonomisch förderlich.
Die Qualität und Vielfalt der verfügbaren Daten ist selbst ein Schlüsselfaktor für den Fortschritt der KI. Wenn mehr Menschen und Arbeitsgruppen angemessen entlohnt werden, steigt die Motivation, bessere und vielfältigere Inhalte bereitzustellen. Dies führt zu besseren Modellen, die wiederum in unterschiedlichsten Anwendungsfeldern zuverlässiger und effizienter funktionieren. Zudem ist Transparenz ein wesentliches Element. Viele Nutzer wissen gar nicht, ob und in welchem Umfang ihre Daten genutzt werden.
Die fehlende Kontrolle sowie oftmals schwer verständliche Nutzungsbedingungen führen zu einem Ungleichgewicht zwischen Datengebern und Unternehmen. Hier könnten gesetzgeberische Maßnahmen eine wichtige Rolle spielen, etwa indem genauer definiert wird, wie Daten gesammelt, verarbeitet und monetarisiert werden dürfen und wie die Rechte der Nutzer geschützt bleiben. Auf der anderen Seite argumentieren manche, dass sämtlicher Code und sämtliche digitale Inhalte, die im Rahmen eines Arbeitsverhältnisses oder Auftrags erbracht werden, Eigentum des Unternehmens sind. Solange dies vertraglich geregelt ist, seien die Mitarbeitenden nicht berechtigt, zusätzliche Ansprüche geltend zu machen. Dies ist aus juristischer Perspektive oft korrekt, führt aber nicht zwingend zu sozialer Gerechtigkeit oder langfristiger Motivation bei der Arbeit mit KI-Systemen.
Außerdem erfordert die Thematik eine Betrachtung über den unmittelbaren wirtschaftlichen Nutzen hinaus. Wenn KI-Modelle durch die Nutzung von Daten Einzelner deren berufliche Relevanz oder gar den Wert ihrer Arbeit verringern, entsteht eine gesellschaftliche Herausforderung. Es wird schwieriger für Menschen, sich durch ihre Fähigkeiten und Erfahrungen zu differenzieren, wenn Maschinen ihre Arbeit übernehmen oder verfremden. Dies kann insbesondere für weniger privilegierte Gruppen oder Branchen eine signifikante Belastung bedeuten. Um auf diese Herausforderungen zu reagieren, entstehen bereits neue Ansätze und Technologien.
Einige Entwickler setzen beispielsweise auf offene KI-Modelle, die transparent trainiert werden und bei denen die Teilnahme und Nutzung gemeinschaftlich organisiert ist. Kleinere, zugängliche Modelle ermöglichen es Nutzern, eigene Anwendungen zu erstellen, die auf individuellen Datensätzen basieren, ohne unterdrückt zu werden durch große Plattformen. Darüber hinaus bieten technische Innovationen die Möglichkeit, Datenherkunft und -nutzung genauer zu verfolgen und abzurechnen. Blockchain-Technologien oder dezentrale Datenprotokolle könnten künftig als Grundlage dienen, um auf faire Weise Besitzrechte und Vergütungen zu managen. Solche Systeme wären auch für Unternehmen attraktiv, da sie Vertrauen schaffen und regulatorische Risiken mindern.