Datenbanken sind das Rückgrat moderner wissenschaftlicher und statistischer Forschung. Sie haben traditionelle Nachschlagewerke weitgehend ersetzt und ermöglichen eine schnellere, größere und durchsuchbarere Informationsquelle, die sowohl für Menschen als auch Maschinen zugänglich ist. Besonders im Bereich der Molekularbiologie existieren Tausende kuratierter Datenbanken, die in ihrer Organisation und Art der Datenpräsentation einen enormen Mehrwert bieten. Doch wie lässt sich der Einfluss solch umfangreicher und komplex strukturierter Datenbanken messen? Diese Frage gewinnt zunehmend an Bedeutung, vor allem da Datenbanken zunehmend als eigenständige Publikationsformen auftreten – vergleichbar mit wissenschaftlichen Autoren und Fachzeitschriften. Die Herausforderung besteht darin, geeignete Methoden zu finden, die den Einfluss von Datenbanken analog zu den etablierten bibliometrischen Kennzahlen erfassen können.
Traditionelle bibliometrische Maße wie der h-Index basieren auf der Anzahl und Qualität (gemessen über Zitationen) von Veröffentlichungen. Beim h-Index handelt es sich um eine Kennzahl, die angibt, wie viele Arbeiten eines Autors mindestens eine bestimmte Anzahl an Zitaten erreicht haben. Eine direkte Übertragung auf Datenbanken gestaltet sich schwierig, da sich Datenbanken nicht als einzelne Publikationen verstehen lassen, sondern aus einer Vielzahl von Einheiten bestehen, die unterschiedlich zitiert werden. Gleichzeitig muss vermieden werden, dass bei der Bewertung einzelne Zitationen mehrfach angerechnet werden, wenn beispielsweise übergeordnete und untergeordnete Datenbankeinträge beiden gezählt werden. Ein vielversprechender Ansatz ist die Betrachtung der hierarchischen Struktur von Datenbanken.
Viele kuratierte Datenbanken orientieren sich an Klassifikationsschemata, Taxonomien oder Ontologien, die natürlicherweise in Form einer Hierarchie organisiert sind. Beispielsweise sieht die Drugbank-Datenbank eine hierarchische Einteilung der Arzneimittel vor, bei der nur die Blätter der Hierarchie, also die einzelnen Medikamente, direkt zitiert werden. Für die Bewertung höherer Ebenen werden die Zitationszahlen der darunterliegenden Blätter aggregiert. Auf diese Weise lässt sich die Zerlegung einer Datenbank in eine Menge von "Publikationen" schaffen, die sich mithilfe der Hierarchie und Zitationsdaten analysieren lässt. Die Erweiterung des h-Indexes auf solche hierarchischen Strukturen ist eine natürliche und effiziente Methode, den Einfluss einer Datenbank zu messen.
Dabei wird ein sogenannter h-Index auf der Ebene von Antichains bestimmt – dies sind Mengen von Knoten im Hierarchiebaum, in denen kein Knoten Vorfahre eines anderen ist. Diese Einschränkung verhindert doppelte Anrechnungen von Zitaten. Die Bestimmung des maximalen h-Indexes aus allen möglichen Antichains eines Hierarchiesystems liefert so einen aussagekräftigen Indikator für die Wirkung und Bedeutung der Datenbank. Praktisch entfällt dabei die Notwendigkeit, alle Antichains zu prüfen, obwohl deren Anzahl exponentiell wächst. Durch eine ausgeklügelte Top-Down-Algorithmik, die auf dem Rang der Knoten (zum Beispiel der Zitationszahl) basiert, kann die Suche effizient eingegrenzt werden.
So lassen sich auch sehr große Datenbanken wie die des National Center for Biotechnology Information (NCBI) mit Millionen von Knoten und Milliarden eingehender Links analysieren, ohne den Rechenaufwand zu sprengen. Anwendungsbeispiele aus der Praxis untermauern die Nützlichkeit dieses Verfahrens. So ergab die Analyse der Drugbank, einer umfassenden Datenbank zu Medikamenten, einen h-Index, der sich durchaus mit dem von Fachzeitschriften vergleichen lässt. Auch die IUPHAR/BPS Guide to Pharmacology-Datenbank, die biologische Zielstrukturen von Arzneistoffen erfasst, weist eine hierarchische Struktur mit diversen Ebenen von Zitationen auf, die mit der erweiterten h-Index-Methode bewertet werden konnte. Zudem zeigen Untersuchungen der NCBI-Taxonomie, einer phylogenetisch orientierten biologischen Klassifikation, die Möglichkeiten, mit riesigen Datenmengen und einer komplexen Hierarchie aussagekräftige Einflusswerte zu ermitteln.
Nicht nur traditionelle wissenschaftliche Zitationen können dabei genutzt werden, sondern auch eingehende Weblinks oder andere Formen von Referenzen, was die Bewertung noch umfassender und aussagekräftiger macht. Insbesondere bei NCBI, wo statt nur bibliografischer Zitate auch Weblinks in die Bewertung einfließen, zeigt sich, dass sich die Verteilung der Zitationen stark verändern kann. Interessanterweise zeigt sich, dass der h-Index für eingehende Links deutlich höher liegt, wobei jedoch das Verhältnis zur Gesamtzahl der Zitationen oder Links deutlich variieren kann, was Rückschlüsse auf die Art des Einflusses ermöglicht. Ein weiteres innovatives Konzept ist die sogenannte "Lifting"-Transformation, die die Analyse hierarchischer Datenbanken noch erweitert. Dabei wird für jeden inneren Knoten (nicht-Blatt) ein neuer Surrogatknoten eingeführt, der als Elternteil aller Kinder fungiert, während der ursprüngliche Knoten zum Blatt wird.
Auf diese Weise können sowohl Eltern- als auch Kindknoten unabhängig voneinander in die h-Index-Berechnung einfließen, was der Realität von Datenbanken entspricht, in denen sowohl übergeordnete Zusammenfassungen als auch einzelne Datenobjekte separat zitiert werden. Die Messung des Einflusses von Datenbanken mittels eines hierarchischen h-Indexes bringt auch methodische Herausforderungen mit sich. Im Gegensatz zu klassischen Publikationen unterliegen Datenbanken einer kontinuierlichen Weiterentwicklung, was die Festlegung eines stabilen Zitationszeitpunkts erschwert. Zudem ist die Praxis der Datenzitation bislang nicht flächendeckend etabliert. Viele Wissenschaftler zitieren Datenbanken entweder nicht oder inkonsistent.
Dies führt dazu, dass die ermittelten Einflusswerte derzeit noch als vorläufig gelten müssen und auf eine Verbesserung der Zitationspraktiken warten. Des Weiteren ist die Auswahl der Hierarchie nicht immer eindeutig. Unterschiedliche Klassifikationsschemata können existieren, oder es handelt sich um Datenstrukturen mit mehreren Elternteilen (DAGs), was die Berechnung des h-Indexes erheblich erschwert. In solchen Fällen sind neue Modelle erforderlich, um Zitationsbeiträge angemessen zu verteilen oder zu gewichten. Trotz dieser Herausforderungen macht die Anwendung des h-Indexes auf hierarchisch strukturierte Datenbanken einen wichtigen Schritt hin zu einer besseren Anerkennung der Leistungen von Datenbankautoren und Kuratoren.
Dadurch wird ihr Beitrag messbar und vergleichbar gemacht, was wiederum die Motivation zur Datenpublikation und -pflege erhöht. Auch für Forscher, die auf Daten angewiesen sind, schafft diese Methode mehr Transparenz über die Qualität und Relevanz von Datenquellen. Zusammengefasst bietet die Erweiterung des h-Indexes als Maß für den Einfluss von Datenbanken nicht nur ein nützliches Werkzeug für die Wissenschaftsmetrik, sondern fördert auch die Entwicklung eines neuen Verständnisses von Daten als wissenschaftliche Publikationen. Die Tür zur systematischen Bewertung und Wertschätzung von Datenbanken ist damit einen großen Schritt weiter geöffnet – ein Fortschritt, der in der zunehmend datengetriebenen Wissenschaftswelt unverzichtbar ist.