Im digitalen Zeitalter gewinnt der Zugang zu umfangreichen und vielfältigen Wissensquellen immer mehr an Bedeutung. Das Projekt Institutional Books, initiiert von der Institutional Data Initiative am Harvard Law School Library, ist eine bahnbrechende Entwicklung auf dem Gebiet der digitalen Bibliotheken und der Nutzung großer Textkorpora für Forschung und künstliche Intelligenz. Institutional Books stellt eine öffentlich zugängliche Sammlung von über 980.000 digitalisierten Büchern aus dem öffentlichen Bereich dar. Dieses Corpus umfasst beeindruckende 386 Millionen Seiten und über 242 Milliarden Tokens, was es zu einem der größten und vielfältigsten digitalen Buchkorpora macht, die derzeit verfügbar sind.
Die Initiative hat sich zum Ziel gesetzt, renommierten Bibliotheken und anderen Wissensinstitutionen eine Plattform zu bieten, um gemeinsam an der Erweiterung und Verbesserung dieser Sammlung zu arbeiten. Die Bedeutung von Institutional Books liegt nicht nur in der Masse an Daten, sondern auch in der Vielfalt und Qualität der enthaltenen Materialien. Die Sammlung umfasst Werke aus 254 Sprachen, wobei der Schwerpunkt auf westlichen europäischen Sprachen liegt, insbesondere Englisch, Deutsch, Französisch und Italienisch, aber auch Sprachen wie Latein, Spanisch, Russisch, Griechisch, Niederländisch und Hebräisch sind präsent. Durch eine gründliche Sprachdetektion auf Textebene konnte das Projekt insgesamt 379 unterschiedliche Sprachen identifizieren. Diese umfassende sprachliche Vielfalt eröffnet völlig neue Möglichkeiten für mehrsprachige Forschung und die Entwicklung von KI-Modellen mit verbessertem Sprachverständnis für seltenere Sprachen.
Ein weiterer wesentlicher Aspekt von Institutional Books ist die temporale Vielfalt der Sammlung. Rund zwei Drittel der Werke weisen genaue Publikationsdaten auf, die vor allem Werke aus dem 19. und 20. Jahrhundert umfassen. Dies erlaubt nicht nur eine historische Einordnung der Texte, sondern bietet Forschern die Chance, Entwicklungen über verschiedene Epochen hinweg nachzuvollziehen und zu analysieren.
Besonders interessant ist die thematische Klassifikation der Bücher. Anhand der ersten Ebene der Library of Congress Classification Outline wurden die Werke einer inhaltlichen Kategorisierung unterzogen. Die Analyse zeigt eine hohe Konzentration auf die Themengebiete Sprache und Literatur, Recht, Philosophie, Psychologie, Religion sowie Wissenschaft. Diese breite Themenvielfalt zeigt, dass die Sammlung eine große Bandbreite akademischer Disziplinen abdeckt und somit eine wertvolle Ressource für unterschiedliche Fachrichtungen darstellt. Neben der Sammlung selbst legt die Institutional Data Initiative großen Wert darauf, die Qualität und Nutzbarkeit der Daten kontinuierlich zu verbessern.
Zu diesem Zweck wurde eine Pipeline entwickelt, die die Probleme der vorhergehenden OCR-(Optical Character Recognition)-Textextraktion adressiert. Obwohl die Zeichen- und Worterkennung der OCR-Daten meist zufriedenstellend ist, treten häufig De-Kontextualisierungen auf, die das inhaltliche Verständnis erschweren. Durch eine Neustrukturierung der OCR-Texte anhand von Zeilentyp-Erkennung gelingt es, die Lesbarkeit und semantische Einordnung der Texte deutlich zu erhöhen. Dieser Schritt stellt wichtige Fortschritte bei der Erschließung von historischen digitalisierten Büchern dar und verbessert die Anwendungsmöglichkeiten für alle Nutzer, sei es in der humanistischen Forschung, digitaler Archivarbeit oder im Bereich der maschinellen Sprachanalyse. Die Institutional Data Initiative verfolgt damit nicht nur die technische Aufbereitung der Daten, sondern fördert auch eine lebendige Gemeinschaft aus Forschern, Bibliothekaren, KI-Entwicklern und anderen Technologen.
Sie lädt Interessenten ein, an der weiteren Verfeinerung sowie an der Erforschung und Anwendung der Datensätze mitzuwirken. Ziel ist es, nachhaltige Partnerschaften entstehen zu lassen, die die Entwicklung offener Benchmarks, Evaluierungen und innovativer Anwendungen vorantreiben. Ein besonders wichtiger Aspekt ist die Rolle von Bibliotheken als Wissensstewards in der KI-Ära. Die Initiative unterstützt Bibliotheken dabei, ihre Bestände als öffentlich nutzbare und vertrauenswürdige Quellen aufzubereiten, die in der Entwicklung künstlicher Intelligenz verwendet werden können. Gerade angesichts der zunehmenden Bedeutung von KI-Systemen bei der Nutzung, Verarbeitung und Verbreitung von Wissen wird die Rolle der Bibliotheken als ethische Gatekeeper und Kuratoren von qualitativ hochwertigen Daten immer wichtiger.
Die Zusammenarbeit zwischen Bibliotheken und KI-Entwicklern, wie sie von der Institutional Data Initiative gefördert wird, stellt einen bedeutenden Hebel dar, um inklusive, ethisch vertretbare und kulturell vielfältige KI-Modelle zu schaffen. Die Offenheit des Projekts, seine Quellen transparent und für die Öffentlichkeit zugänglich zu halten, trägt zudem dazu bei, das Vertrauen in KI-Technologien zu stärken und die wissenschaftliche Zusammenarbeit weltweit zu fördern. Institutional Books basieren auf der ursprünglichen Digitalisierung durch die Google Books Initiative, wurden jedoch von Harvard weiter verfeinert und zugänglich gemacht. Die Daten stehen über Plattformen wie Hugging Face zum Download bereit, sodass Forscher und Entwickler direkten Zugriff auf die umfassenden Textmaterialien haben. Darüber hinaus sorgt ein offener Software-Pipeline-Ansatz dafür, dass Werkzeuge zur Datengewinnung, Analyse und Optimierung gemeinsam weiterentwickelt werden können.