In der heutigen digitalen Welt eröffnen innovative Technologien neue Möglichkeiten, komplexe Daten auf eine völlig neuartige Weise zu visualisieren und zu nutzen. Eine besonders spannende Entwicklung ist die Umwandlung von zweidimensionalen Kartenbildern, wie sie bei Google Maps verwendet werden, in realistische und interaktive 3D-Modelle. Diese Technik ermöglicht nicht nur Architekten und Stadtplanern neue Perspektiven, sondern auch Entwicklern und Forschern, die virtuelle Welt noch immersiver und detailreicher darzustellen. Besonders bemerkenswert ist, dass dieser Prozess mittlerweile in einem einzigen Jupyter Notebook erfolgen kann – ein leistungsfähiges Werkzeug für Datenanalyse und -visualisierung, das vor allem in der Wissenschaft und im Machine Learning weit verbreitet ist. Die Grundlagen dieser Methode basieren auf den jüngsten Fortschritten in der monokularen Tiefenschätzung, einem Zweig des maschinellen Sehens, der es ermöglicht, aus einem einzelnen Bild die Tiefeninformationen zu extrahieren.
Dabei werden Algorithmen eingesetzt, die das räumliche Verhältnis von Objekten und deren Entfernung zum Betrachter ableiten, selbst wenn nur ein einzelnes Foto vorliegt. Dieses Verfahren ist besonders wertvoll für die Nutzung von Google Maps Screenshots, da diese Bilder in der Regel aus der Vogelperspektive aufgenommen werden und für sich genommen keine dreidimensionalen Informationen enthalten. Voraussetzung für gute Ergebnisse ist insbesondere die Qualität und Art des Screenshots. Das Bild sollte möglichst rechteckig sein, um Verzerrungen zu vermeiden. Zudem ist es wichtig, dass darauf Gebäudestrukturen gut zu erkennen sind, idealerweise mit sichtbaren Fassaden, da diese für die Tiefenschätzung entscheidend sind.
Bereiche ohne markante Merkmale wie Straßen, Grünflächen oder Wasserflächen werden vom Algorithmus meist ausgeblendet, da sie wenig zur räumlichen Tiefe beitragen. Die optimale Komposition eines Screenshots sollte zudem berücksichtigen, dass mindestens ein prominentes Gebäude etwa 20 Prozent der Bildfläche einnimmt, um ein ausgewogenes Verhältnis zwischen Details und Struktur zu gewährleisten. Nach dem Laden des Bildes beginnt das technische Herzstück des Verfahrens mit der Tiefenschätzung. Moderne Modelle und neuronale Netze analysieren hierbei jede Bildregion und berechnen eine Tiefenkarte, die im nächsten Schritt invertiert wird, um Höheninformationen zu generieren. So entsteht eine Art digitale Landschaft, bei der Gebäude nicht mehr flach erscheinen, sondern volumetrisch dargestellt werden können.
Wichtig ist außerdem die Entfernung des Hintergrunds, da unnötige Bildteile wie Himmel oder leere Flächen die Qualität des 3D-Modells verschlechtern können. Hierfür wird eine sogenannte MinPool Subtraktion angewendet, die gezielt niedrige Kontraste eliminiert und somit die relevanten Strukturen hervorhebt. Für die Darstellung in drei Dimensionen sind perspektivische Verzerrungen des ursprünglichen Bildes noch zu korrigieren. Um diesen sogenannten „Schraubeneffekt“ zu beheben, erfolgen horizontale und vertikale Bildverschiebungen, die das Bild quasi „entschrauben“ und dadurch eine realistischere Ansicht ermöglichen. Schließlich ermöglicht die Visualisierung der erzeugten Punktwolken und 3D-Meshes einen interaktiven Zugang zum Modell.
Zwei gängige Tools sind hier Plotly und Open3D. Plotly arbeitet webbasiert und lässt sich direkt im Jupyter Notebook einbinden, neigt allerdings hin und wieder zu Darstellungsproblemen, die meist durch einfaches Aktualisieren behoben werden können. Open3D hingegen generiert glatte und qualitativ hochwertige Punktwolken, erfordert aber eine lokale Installation und ist besonders unter Linux-Systemen mit spezifischen Umgebungsvariablen zu konfigurieren. Trotz beeindruckender Ergebnisse handelt es sich bei diesem Verfahren weiterhin um eine experimentelle Methode. Die erzeugten 3D-Modelle können je nach Bild- und Modellqualität variieren und sind mitunter noch grob oder verzerrt.
Dennoch eröffnet die Technologie spannende Möglichkeiten, insbesondere wenn sie weiterentwickelt wird und mit leistungsstärkeren Tiefenschätzungsmodellen wie Apples DepthPro kombiniert wird. Die Anwendungsmöglichkeiten sind vielfältig und reichen von urbaner Planung über Architekturvisualisierung bis hin zu digitalen Kunstprojekten. Besonders interessant ist die offene Lizenzierung dieses Projekts unter der MIT-Lizenz, die es ermöglicht, den zugrundeliegenden Code frei zu nutzen und weiterzuentwickeln. Die Modellgewichte und Abhängigkeiten unterliegen eigenen Lizenzen der jeweiligen Autoren, was allerdings in der Praxis kaum Einschränkungen bedeutet. Für Entwickler und Interessierte bietet das gesamte Verfahren ein spannendes Experimentierfeld, das geographische Informationen auf innovative Weise zugänglich macht.