Institutionelle Akzeptanz

Kann man den Einfluss einer Datenbank messen? Eine neue Perspektive auf Datenpublikationen

Institutionelle Akzeptanz
Can We Measure the Impact of a Database?

Die Messung des Einflusses von Datenbanken gewinnt in der heutigen wissenschaftlichen Landschaft zunehmend an Bedeutung. Durch die Anwendung erweiterter bibliometrischer Methoden, insbesondere des h-Indexes auf hierarchisch strukturierte Datenbanken, lassen sich neue Wege aufzeigen, um den Wert und die Wirkung von Datenbanken exakt zu bestimmen.

Datenbanken sind das Rückgrat moderner wissenschaftlicher und statistischer Forschung. Sie haben traditionelle Nachschlagewerke weitgehend ersetzt und ermöglichen eine schnellere, größere und durchsuchbarere Informationsquelle, die sowohl für Menschen als auch Maschinen zugänglich ist. Besonders im Bereich der Molekularbiologie existieren Tausende kuratierter Datenbanken, die in ihrer Organisation und Art der Datenpräsentation einen enormen Mehrwert bieten. Doch wie lässt sich der Einfluss solch umfangreicher und komplex strukturierter Datenbanken messen? Diese Frage gewinnt zunehmend an Bedeutung, vor allem da Datenbanken zunehmend als eigenständige Publikationsformen auftreten – vergleichbar mit wissenschaftlichen Autoren und Fachzeitschriften. Die Herausforderung besteht darin, geeignete Methoden zu finden, die den Einfluss von Datenbanken analog zu den etablierten bibliometrischen Kennzahlen erfassen können.

Traditionelle bibliometrische Maße wie der h-Index basieren auf der Anzahl und Qualität (gemessen über Zitationen) von Veröffentlichungen. Beim h-Index handelt es sich um eine Kennzahl, die angibt, wie viele Arbeiten eines Autors mindestens eine bestimmte Anzahl an Zitaten erreicht haben. Eine direkte Übertragung auf Datenbanken gestaltet sich schwierig, da sich Datenbanken nicht als einzelne Publikationen verstehen lassen, sondern aus einer Vielzahl von Einheiten bestehen, die unterschiedlich zitiert werden. Gleichzeitig muss vermieden werden, dass bei der Bewertung einzelne Zitationen mehrfach angerechnet werden, wenn beispielsweise übergeordnete und untergeordnete Datenbankeinträge beiden gezählt werden. Ein vielversprechender Ansatz ist die Betrachtung der hierarchischen Struktur von Datenbanken.

Viele kuratierte Datenbanken orientieren sich an Klassifikationsschemata, Taxonomien oder Ontologien, die natürlicherweise in Form einer Hierarchie organisiert sind. Beispielsweise sieht die Drugbank-Datenbank eine hierarchische Einteilung der Arzneimittel vor, bei der nur die Blätter der Hierarchie, also die einzelnen Medikamente, direkt zitiert werden. Für die Bewertung höherer Ebenen werden die Zitationszahlen der darunterliegenden Blätter aggregiert. Auf diese Weise lässt sich die Zerlegung einer Datenbank in eine Menge von "Publikationen" schaffen, die sich mithilfe der Hierarchie und Zitationsdaten analysieren lässt. Die Erweiterung des h-Indexes auf solche hierarchischen Strukturen ist eine natürliche und effiziente Methode, den Einfluss einer Datenbank zu messen.

Dabei wird ein sogenannter h-Index auf der Ebene von Antichains bestimmt – dies sind Mengen von Knoten im Hierarchiebaum, in denen kein Knoten Vorfahre eines anderen ist. Diese Einschränkung verhindert doppelte Anrechnungen von Zitaten. Die Bestimmung des maximalen h-Indexes aus allen möglichen Antichains eines Hierarchiesystems liefert so einen aussagekräftigen Indikator für die Wirkung und Bedeutung der Datenbank. Praktisch entfällt dabei die Notwendigkeit, alle Antichains zu prüfen, obwohl deren Anzahl exponentiell wächst. Durch eine ausgeklügelte Top-Down-Algorithmik, die auf dem Rang der Knoten (zum Beispiel der Zitationszahl) basiert, kann die Suche effizient eingegrenzt werden.

So lassen sich auch sehr große Datenbanken wie die des National Center for Biotechnology Information (NCBI) mit Millionen von Knoten und Milliarden eingehender Links analysieren, ohne den Rechenaufwand zu sprengen. Anwendungsbeispiele aus der Praxis untermauern die Nützlichkeit dieses Verfahrens. So ergab die Analyse der Drugbank, einer umfassenden Datenbank zu Medikamenten, einen h-Index, der sich durchaus mit dem von Fachzeitschriften vergleichen lässt. Auch die IUPHAR/BPS Guide to Pharmacology-Datenbank, die biologische Zielstrukturen von Arzneistoffen erfasst, weist eine hierarchische Struktur mit diversen Ebenen von Zitationen auf, die mit der erweiterten h-Index-Methode bewertet werden konnte. Zudem zeigen Untersuchungen der NCBI-Taxonomie, einer phylogenetisch orientierten biologischen Klassifikation, die Möglichkeiten, mit riesigen Datenmengen und einer komplexen Hierarchie aussagekräftige Einflusswerte zu ermitteln.

Nicht nur traditionelle wissenschaftliche Zitationen können dabei genutzt werden, sondern auch eingehende Weblinks oder andere Formen von Referenzen, was die Bewertung noch umfassender und aussagekräftiger macht. Insbesondere bei NCBI, wo statt nur bibliografischer Zitate auch Weblinks in die Bewertung einfließen, zeigt sich, dass sich die Verteilung der Zitationen stark verändern kann. Interessanterweise zeigt sich, dass der h-Index für eingehende Links deutlich höher liegt, wobei jedoch das Verhältnis zur Gesamtzahl der Zitationen oder Links deutlich variieren kann, was Rückschlüsse auf die Art des Einflusses ermöglicht. Ein weiteres innovatives Konzept ist die sogenannte "Lifting"-Transformation, die die Analyse hierarchischer Datenbanken noch erweitert. Dabei wird für jeden inneren Knoten (nicht-Blatt) ein neuer Surrogatknoten eingeführt, der als Elternteil aller Kinder fungiert, während der ursprüngliche Knoten zum Blatt wird.

Auf diese Weise können sowohl Eltern- als auch Kindknoten unabhängig voneinander in die h-Index-Berechnung einfließen, was der Realität von Datenbanken entspricht, in denen sowohl übergeordnete Zusammenfassungen als auch einzelne Datenobjekte separat zitiert werden. Die Messung des Einflusses von Datenbanken mittels eines hierarchischen h-Indexes bringt auch methodische Herausforderungen mit sich. Im Gegensatz zu klassischen Publikationen unterliegen Datenbanken einer kontinuierlichen Weiterentwicklung, was die Festlegung eines stabilen Zitationszeitpunkts erschwert. Zudem ist die Praxis der Datenzitation bislang nicht flächendeckend etabliert. Viele Wissenschaftler zitieren Datenbanken entweder nicht oder inkonsistent.

Dies führt dazu, dass die ermittelten Einflusswerte derzeit noch als vorläufig gelten müssen und auf eine Verbesserung der Zitationspraktiken warten. Des Weiteren ist die Auswahl der Hierarchie nicht immer eindeutig. Unterschiedliche Klassifikationsschemata können existieren, oder es handelt sich um Datenstrukturen mit mehreren Elternteilen (DAGs), was die Berechnung des h-Indexes erheblich erschwert. In solchen Fällen sind neue Modelle erforderlich, um Zitationsbeiträge angemessen zu verteilen oder zu gewichten. Trotz dieser Herausforderungen macht die Anwendung des h-Indexes auf hierarchisch strukturierte Datenbanken einen wichtigen Schritt hin zu einer besseren Anerkennung der Leistungen von Datenbankautoren und Kuratoren.

Dadurch wird ihr Beitrag messbar und vergleichbar gemacht, was wiederum die Motivation zur Datenpublikation und -pflege erhöht. Auch für Forscher, die auf Daten angewiesen sind, schafft diese Methode mehr Transparenz über die Qualität und Relevanz von Datenquellen. Zusammengefasst bietet die Erweiterung des h-Indexes als Maß für den Einfluss von Datenbanken nicht nur ein nützliches Werkzeug für die Wissenschaftsmetrik, sondern fördert auch die Entwicklung eines neuen Verständnisses von Daten als wissenschaftliche Publikationen. Die Tür zur systematischen Bewertung und Wertschätzung von Datenbanken ist damit einen großen Schritt weiter geöffnet – ein Fortschritt, der in der zunehmend datengetriebenen Wissenschaftswelt unverzichtbar ist.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
Kintsugi
Samstag, 24. Mai 2025. Kintsugi: Die japanische Kunst, Schönheit in der Unvollkommenheit zu finden

Kintsugi ist eine außergewöhnliche japanische Restaurierungstechnik, die zerbrochene Keramik mit Gold repariert und dadurch nicht nur materielle, sondern auch philosophische Werte vermittelt. Die Methode symbolisiert die Akzeptanz von Vergänglichkeit und die Wertschätzung von Narben als Teil eines einzigartigen Lebenswegs.

The U.S. battle with China over an island paradise deep in the Pacific
Samstag, 24. Mai 2025. Der geopolitische Machtkampf zwischen den USA und China um Palau: Ein Inselparadies im Pazifik unter Beschuss

Palau, ein kleines Inselparadies im westlichen Pazifik, ist heute Mittelpunkt eines intensiven geopolitischen Wettstreits zwischen den USA und China. Diese einzigartige Inselgruppe, die einst Schauplatz blutiger Kämpfe im Zweiten Weltkrieg war, gewinnt nun eine neue strategische Bedeutung im globalen Machtspiel.

Show HN: ART – a new open-source RL framework for training agents
Samstag, 24. Mai 2025. ART: Das bahnbrechende Open-Source Framework für Reinforcement Learning in der Agentenausbildung

ART ist ein neues Open-Source Framework für Reinforcement Learning, das speziell darauf ausgelegt wurde, KI-Agenten effizienter und flexibler zu trainieren. Es überwindet bestehende Herausforderungen herkömmlicher Frameworks und bietet innovative Funktionen für mehr GPU-Effizienz, Multi-Turn-Workflows und eine einfache Integration in bestehende Systeme.

Pathocracy
Samstag, 24. Mai 2025. Pathokratie: Wie Persönlichkeitsstörungen die Macht übernehmen und Gesellschaften prägen

Ein tiefgehender Einblick in den Begriff Pathokratie, erklärt von den psychologischen und gesellschaftlichen Aspekten bis hin zu den Herausforderungen und Schutzmaßnahmen gegen die Übernahme durch pathologische Führungspersönlichkeiten.

Prompt Coding with Cursor
Samstag, 24. Mai 2025. Effizientes Programmieren mit Cursor: Wie Prompt Coding die AI-gestützte Softwareentwicklung revolutioniert

Erfahren Sie, wie die Nutzung von Prompt Coding mit Cursor Ihre Softwareentwicklung durch gezielte AI-Unterstützung optimiert. Von der Anpassung an bestehende Codebasen bis hin zur Steigerung der Produktivität in komplexen Projekten – dieser Leitfaden zeigt, wie Cursor mit intelligenten Regeln und Workflows den Entwicklungsprozess vereinfacht und verbessert.

Show HN: Self-Hosted HTTPS Tunnel in 300 LoC with Go, Caddy, and Cloudflare
Samstag, 24. Mai 2025. Selbstgehosteter HTTPS-Tunnel in 300 Zeilen Go: Eine kostengünstige Lösung mit Caddy und Cloudflare

Entdecken Sie, wie Sie mit nur 300 Zeilen Go-Code, Caddy-Webserver und Cloudflare DNS einen sicheren, selbstgehosteten HTTPS-Tunnel einrichten können, der Ihre lokalen Webanwendungen weltweit zugänglich macht – ohne teure Drittanbieterdienste und komplizierte Konfigurationen.

Show HN: Automatically pause Spotify after N tracks
Samstag, 24. Mai 2025. Spotify automatisch pausieren: Wie Pauseify dabei hilft, den Fokus zu behalten

Entdecken Sie, wie Sie mit der Chrome-Erweiterung Pauseify Spotify automatisch nach einer bestimmten Anzahl von Liedern pausieren können, um Ihre Produktivität zu steigern und ablenkende Musik während der Arbeit besser zu kontrollieren.