Die Digitalisierung des Gesundheitswesens hat in den letzten Jahrzehnten eine rasante Entwicklung erlebt. Elektronische Gesundheitsakten (Electronic Health Records, EHR) sind heute in Krankenhäusern und medizinischen Einrichtungen standardmäßig im Einsatz. Dabei fallen riesige Mengen an klinischen Daten an, die eine bisher ungeahnte Fülle an Informationen über Patienten, deren Krankheitsverläufe, Diagnosen, Behandlungen und Ergebnisse bieten. Doch trotz dieser Verfügbarkeit sind viele dieser Daten für die Forschung oftmals nicht zugänglich, weil sie in proprietären Systemen gespeichert oder zu komplex strukturiert sind, um leicht analysiert zu werden. Genau hier setzt MIMIC-IV an – ein bedeutendes frei zugängliches Elektronisches Gesundheitsakten-Datenset, das insbesondere für den Bereich der Intensivmedizin konzipiert wurde und Forschern weltweit neue Chancen eröffnet.
MIMIC-IV (Medical Information Mart for Intensive Care, Version IV) wurde in einer Kooperation zwischen dem Beth Israel Deaconess Medical Center (BIDMC) und dem Massachusetts Institute of Technology (MIT) entwickelt. Das Datenset umfasst elektronische Gesundheitsdaten aus dem Zeitraum von 2008 bis 2019 und beinhaltet detaillierte Informationen zu über 70.000 Patientenaufenthalten in Intensivstationen. Die Inhalte reichen von Vitalwerten und Laborergebnissen über Diagnosecodes und durchgeführte Prozeduren bis hin zu frei formulierten, deidentifizierten medizinischen Berichten. Eine der größten Herausforderungen bei der Nutzung medizinischer Daten für Forschungszwecke ist der Schutz der Privatsphäre der Patienten.
MIMIC-IV setzt hier auf ein umfassendes Deidentifikationsverfahren, um sämtliche identifizierende Informationen sicher zu entfernen, ohne jedoch den klinischen Wert der Daten zu beeinträchtigen. So ist es möglich, die Daten über eine streng geregelte Zugangsplattform, PhysioNet, für Forscher weltweit verfügbar zu machen, nachdem diese entsprechende ethische Schulungen absolviert und Nutzungsvereinbarungen unterschrieben haben. Was macht MIMIC-IV so einzigartig? Im Vergleich zu früheren Versionen wie MIMIC-III bietet die aktuelle Version einen zeitlich aktuelleren und umfangreicheren Datensatz. Die Struktur ist modular aufgebaut, was eine klare Trennung verschiedener Datenarten erlaubt und zugleich eine einfache Verknüpfung ermöglicht. Module wie „hosp“ (Krankenhausdaten), „icu“ (Intensivstationsdaten) und „note“ (medizinische Berichte) bilden dabei die Grundpfeiler der Datenorganisation.
Besonders hervorzuheben ist die Integration neuer Informationsquellen wie beispielsweise die elektronische Medikamentenadministration, die eine minutiöse Dokumentation von verabreichten Therapien ermöglicht. Die Datenqualität steht bei MIMIC-IV ebenfalls im Fokus. So werden Integritäts- und Konsistenzprüfungen durchgeführt, um eine verlässliche Nutzung sicherzustellen. Die Kodierung von Diagnosen erfolgt nach internationalen Standards wie ICD-9 und ICD-10, was die Vergleichbarkeit und Integration mit anderen Datenquellen erleichtert. Zudem werden ergänzende externe Datensätze, etwa für Klassifikationssysteme und Sterberateinformationen aus dem Massachusetts State Registry, integriert.
Forscher aus den Bereichen der Datenwissenschaft, Medizin, Epidemiologie und Informatik haben dank MIMIC-IV vielfältige Möglichkeiten, datengetriebene Studien zu intensivmedizinischen Fragestellungen durchzuführen. So können beispielsweise Risikoabschätzungen für Patientengruppen entwickelt, Wirksamkeiten von Therapieansätzen untersucht oder neue Algorithmen für die Frühwarnung bei kritischen Zuständen trainiert werden. Durch die Verfügbarkeit von sowohl strukturierten Daten als auch freien Texten in den klinischen Berichten bietet MIMIC-IV zudem die Grundlage für fortschrittliche Methoden der natürlichen Sprachverarbeitung (Natural Language Processing) im medizinischen Kontext. Darüber hinaus fördert MIMIC-IV die Ausbildung und Weiterbildung von Medizinstudenten, Data Scientists und Fachkräften im Gesundheitswesen. Die Datenbank wird vielfach für Lehrzwecke und Wettbewerbe im Bereich maschinelles Lernen verwendet, um praktische Fähigkeiten im Umgang mit realen klinischen Daten zu vermitteln.
Open-Source-Code, Tutorial-Materialien und eine lebendige Community unterstützen Nutzer dabei, den Einstieg zu erleichtern und Standards im Umgang mit klinischen Daten zu etablieren. Im internationalen Vergleich positioniert sich MIMIC-IV als eine der größten und zugleich am besten dokumentierten öffentlich zugänglichen Datenbanken im Bereich der Intensivmedizin. Ergänzende Datenbanken wie eICU-CRD, HiRID oder AmsterdamUMCdb bieten jeweils spezifische Stärken, beispielsweise in Bezug auf die Anzahl der Krankenhäuser oder die Datenauflösung. MIMIC-IV zeichnet sich durch seinen Fokus auf die Vielschichtigkeit der Daten und die langjährige kontinuierliche Sammlung aus. Für die Zukunft ist geplant, MIMIC-IV schrittweise durch weitere Datenquellen zu erweitern, darunter bildgebende Verfahren, physiologische Wellenformen und molekulargenetische Informationen.
Damit wird das Potenzial der Daten für personalisierte Medizin und interdisziplinäre Forschung noch weiter gesteigert. Insgesamt markiert MIMIC-IV einen Meilenstein in der medizinischen Datenforschung. Die Kombination aus umfangreicher klinischer Datenbasis, sorgfältiger Deidentifikation, modularer Datenstruktur und offener Zugänglichkeit macht es zu einem unverzichtbaren Werkzeug für die Wissenschaft. Es unterstützt den Weg hin zu datenbasierter Medizin, in der klinische Entscheidungen durch fundierte Analyse gestützt werden und letztlich die Patientenversorgung verbessert wird. Das breite Interesse an MIMIC-IV zeigt sich auch in der schnellen Verbreitung und den zahlreichen wissenschaftlichen Veröffentlichungen, die den Datensatz nutzen.
Neue Erkenntnisse aus diesen Studien fließen zurück in die klinische Praxis, stärken die Evidenzbasierung und fördern Innovationen in Therapie und Diagnostik. Für alle, die im Bereich der Gesundheitsdaten arbeiten oder forschen, ist MIMIC-IV deshalb eine wertvolle Ressource und ein Paradebeispiel für den verantwortungsvollen Umgang mit sensiblen Patientendaten zugunsten der Allgemeinheit.