Die rasante Entwicklung künstlicher Intelligenz (KI) hat in den letzten Jahren zahlreiche Lebensbereiche beeinflusst. Chatbots, automatisierte Übersetzungen und intelligente Suchmaschinen sind nur einige der Anwendungen, die heute dank KI möglich sind. Doch so beeindruckend diese Fortschritte auch sind, stoßen die Entwickler bei der Verbesserung von KI-Systemen zunehmend an eine Grenze: Es mangelt an hochwertigen und vielfältigen Datenquellen, um die Systeme mit ausreichend substanziellem Wissen zu trainieren. Eine Antwort darauf bieten Bibliotheken, die ihren historischen Fundus für KI-Projekte öffnen und so eine ganz neue Art von Trainingsdaten bereitstellen. Besonders hervorzuheben ist dabei eine Initiative rund um Harvard University, die mehrere hunderttausend digitalisierte Bücher freigibt, viele davon jahrhundertealt und aus unterschiedlichsten Sprachen und Kulturen stammend.
Zunächst lässt sich fragen, warum gerade Bücher als Trainingsmaterial für KI so wichtig sind. Im Online-Zeitalter scheint das Internet als gigantische Datenquelle nahezu unerschöpflich. Social-Media-Beiträge, Webseiten, Wikis und Foren werden bereits vielfach als Rohmaterial genutzt. Doch diese Quellen bieten oft nur eine begrenzte Sicht auf menschliches Wissen, zuweilen privilegieren sie populäre oder aktuelle Inhalte und enthalten mitunter auch viel „Rauschen“ und nicht geprüfte Informationen. Bücher hingegen sind Ergebnis jahrzehntelanger oder gar jahrhundertelanger Forschung, Reflexion und Dokumentation.
Sie sind häufig gut kuratiert, sorgfältig editert und enthalten Wissen, das von Philosophie über Naturwissenschaften bis hin zu Kultur und Geschichte reicht. Indem KI auf diese Art von Quellen zurückgreift, kann sie ein fundierteres und zugleich vielfältigeres Wissen entwickeln, das über flüchtige Internetinhalte hinausgeht. Die Harvard-Institutional Data Initiative spielt hierbei eine Schlüsselrolle. Mit der Freigabe von Institutional Books 1.0 stellt das Projekt mehr als 394 Millionen Seiten gescannter Werke zur Verfügung, darunter Bücher, Zeitungen und Regierungsdokumente, die bis ins 15.
Jahrhundert zurückreichen. Diese Bibliotheksbestände sind nicht nur gewaltig, sondern auch bemerkenswert divers in Sprache und Inhalt. Während viele Datensätze im KI-Bereich eine starke Sprachdominanz – oft auf Englisch – aufweisen, enthält diese Sammlung Werke in mehr als 250 Sprachen. Sie umfasst somit auch umfangreiche Materialien in Deutsch, Französisch, Spanisch, Latein und sogar in weniger verbreiteten Sprachen. Dies ist ein entscheidender Vorteil, um KI-Modelle zu trainieren, die in unterschiedlichen Kulturräumen verlässlich funktionieren.
Neben dem kulturellen Reichtum sind auch rechtliche Aspekte von Bedeutung. KI-Entwickler stehen weltweit vor großen Herausforderungen, da viele aktuelle Bücher und Werke noch dem Urheberrecht unterliegen. Das Training von KI-Systemen mit solchen Materialien ohne explizite Erlaubnis führt häufig zu Klagen von Autorinnen und Autoren oder anderen Rechteinhabern. Die Öffnung von öffentlich zugänglichen, gemeinfreien Werken aus Bibliotheken schafft hier einen rechtlich unbedenklichen Zugang zu wertvollem Wissen. „Öffentliche Domain“-Bücher sind frei verfügbar und können legal genutzt werden, um KI-Modelle weiter zu verbessern.
Mit Harvard, dem Boston Public Library sowie weiteren Institutionen gibt es bereits erste wichtige Partnerschaften, die diesen Zugang ermöglichen. Der Wert dieser historischen Texte geht über das reine Wissen hinaus. Sie enthalten auch Einblicke in Denkweisen, Philosophien und gesellschaftliche Strukturen längst vergangener Zeiten. Für KI-Systeme, die möglichst menschenähnlich denken und argumentieren sollen, ist es deshalb enorm wichtig, auf solche Daten zugreifen zu können. Für die Entwicklung künftiger KI-Agenten, die beispielsweise komplexe Planungen vornehmen oder tiefere Analysen durchführen können, sind diese Quellen von unschätzbarem Wert.
Die fundierte Wissensbasis ermöglicht es, nicht nur Oberflächliches zu replizieren, sondern komplexe Zusammenhänge zu verstehen und reflektiert darauf zu reagieren. Natürlich bringt die Integration historischer Daten auch Herausforderungen mit sich. Viele Werke enthalten veraltete oder heute als problematisch angesehene Inhalte, etwa falsche wissenschaftliche Theorien, diskriminierende Narrative oder rassistische Ideologien, die in früheren Jahrhunderten verbreitet waren. KI-Entwickler müssen daher sorgfältig prüfen, wie sie diese Informationen in ihre Modelle einfließen lassen und wie sie potenzielle schädliche Effekte vermeiden. Bei Harvard und den beteiligten Bibliotheken wird diesem Aspekt besondere Aufmerksamkeit gewidmet.
Initiativen wie die Library Innovation Lab versuchen gemeinsam mit KI-Forscherinnen und Forschern, Leitlinien für einen verantwortungsvollen Umgang mit den Daten zu erarbeiten. Finanziell gesehen ist die Digitalisierung und Aufbereitung solcher Bestände aufwendig und teuer. Die Zusammenarbeit mit Unternehmen wie Microsoft und OpenAI, die großzügige Förderungen bereitstellen, ermöglicht es den Bibliotheken, diese Arbeit zu stemmen und gleichzeitig den öffentlichen Zugang zu verbessern. OpenAI beispielsweise unterstützt auch die Bodleian Library in Oxford bei der digitalen Erfassung seltener Texte, um diese zugänglich zu machen und maschinell auswertbar zu machen. Dabei profitieren nicht nur KI-Entwickler, sondern ebenso die wissenschaftliche Gemeinschaft und die interessierte Öffentlichkeit.
Der Schritt weg von bibliotheksfernen Datenquellen und hin zu originären, physischen Sammlungen ist auch für die Qualität der KI-Modelle entscheidend. Wie Greg Leppert von der Harvard-Institutional Data Initiative hervorhebt, stammen bisher viele Trainingsdaten aus sekundären oder piratisierten Quellen, deren Ursprung und Qualität schwer zu prüfen sind. Die neu freigegebenen Bibliotheksdaten sind hingegen sorgfältig katalogisiert und liefern so eine transparente und nachvollziehbare Wissensbasis. Das trägt zur Vertrauenswürdigkeit und Belastbarkeit von KI-Systemen bei. Zudem spielt der datenumfang eine Rolle.
Das heute veröffentlichte Datenpaket verfügt über geschätzt 242 Milliarden „Tokens“ – einzelne Datenbausteine, die beim Training von KI verwendet werden. Das klingt nach enorm viel, ist aber im Vergleich zu den Datenmengen, die etwa bei den großen Techkonzernen genutzt werden, immer noch überschaubar. Meta etwa verwendet für sein neuestes Sprachmodell über 30 Billionen Tokens aus Texten, Bildern und Videos. Trotzdem führen solche umfangreichen Bibliotheksbestände zu einer neuen Qualität und Vielfalt in den Trainingsdaten. Die Bereitschaft von Bibliotheken, sich in das KI-Ökosystem einzubringen, kann auch als ein Versuch gewertet werden, die Machtverhältnisse im Bereich der KI-Datenhoheit neu auszutarieren.
Bisher dominieren große Tech-Firmen das Feld und verfügen über riesige Datenmengen und Ressourcen. Die Öffnung von traditionellen Institutionen wie Bibliotheken ist ein Schritt, die Kontrolle über kulturelles Wissen teilweise zurück an die Gemeinschaften und Institutionen zu geben, die diese Daten ursprünglich verwalten. Die Reaktionen verschiedener Interessengruppen sind vielschichtig. Die Autorenvereinigung Authors Guild begrüßt die Initiative, weil sie nicht nur den Zugang zu sonst verborgenen Schätzen ermöglicht, sondern auch eine rechtssichere Grundlage für das Training neuer KI-Modelle bietet. Gleichzeitig bleibt abzuwarten, wie stark die historischen Daten die Entwicklung neuer KI-Anwendungen tatsächlich prägen werden.
Der Zugang über Plattformen wie Hugging Face, die offene Datensätze und KI-Modelle bereitstellen, sichert aber immerhin eine breite Verfügbarkeit und fördert die Forschung unabhängig von großen Konzernen. Insgesamt steht die Öffnung der Bibliotheksbestände für künstliche Intelligenz symbolisch für eine neue Ära in der KI-Entwicklung. Von der schieren Datenmenge über die sprachliche und kulturelle Vielfalt bis hin zu den ethischen und rechtlichen Rahmenbedingungen ist dies ein umfassender Paradigmenwechsel. Während die Digitalisierung jahrhundertealter Texte ursprünglich vor allem aus wissenschaftlichem oder kulturellem Interesse vorangetrieben wurde, erhält sie nun eine zusätzliche Dimension als Grundlage für die nächste Generation intelligenter Systeme. Für die Zukunft ist denkbar, dass weitere Bibliotheken weltweit diesem Beispiel folgen und ihre historischen Bestände digital erfassen und öffnen werden.
In Kooperation mit Technologieunternehmen, Universitäten und Forschungseinrichtungen kann so ein globales Wissen geschaffen werden, das der KI-Forschung und der Gesellschaft gleichermaßen zugutekommt. Die Herausforderungen bei der Datenaufbereitung, dem Schutz vor problematischen Inhalten und der Wahrung von Urheberrechten bleiben bestehen, doch der Nutzen einer solchen Wissensbasis für fundiertere, verlässlichere und kulturell sensiblere KI-Modelle ist erheblich. Letztlich könnten uns diese Bibliotheksdaten helfen, künstliche Intelligenz nicht bloß als Abbild der Gegenwart zu verstehen, sondern als lernfähiges System, das auch die Tiefe und Breite menschlichen Wissens über Jahrhunderte hinweg in sich trägt. Damit öffnet sich eine faszinierende Perspektive, wie digitalisierte Bücher von der Vergangenheit aus in die Zukunft wirken und die Art und Weise verändern, wie wir mit intelligenten Maschinen interagieren und gesellschaftliche Herausforderungen angehen.