Die fortschreitende Digitalisierung und die rasante Entwicklung im Bereich der Künstlichen Intelligenz schaffen neue Möglichkeiten für die Analyse und Interpretation von Satellitenbildern. Besonders die Tiefenschätzung – also das Erkennen und Messen von Entfernungen und Höhen in Bildern – gewinnt zunehmend an Bedeutung für verschiedene Branchen wie Stadtplanung, Umweltüberwachung und Katastrophenmanagement. Ein aktuelles und beeindruckendes Beispiel für diese Entwicklung ist das Modell Depth Anything V2, das von einem Team der TikTok-Forschungsabteilung und der Universität Hongkong entwickelt wurde. Dieses Modell setzt neue Maßstäbe in der automatisierten Tiefenrekonstruktion aus Bildern, die aus dem Weltraum stammen und äußerst komplexe Stadtlandschaften abbilden. Depth Anything V2 wurde auf einem riesigen Datensatz trainiert, der fast 600.
000 synthetisch erzeugte, genau beschriftete Bilder und über 62 Millionen reale, unbeschriftete Bilder umfasst. Diese Kombination aus synthetischen und echten Daten ermöglicht dem Modell eine robuste Generalisierung. Es ist somit in der Lage, auch unvertraute Szenarien wie Satellitenaufnahmen hochdetaillierter urbaner Gebiete zuverlässig zu analysieren. Die Fähigkeit, Tiefendaten aus zweidimensionalen Bildern zu extrahieren, stellt eine wichtige Grundlage für vielerlei Anwendungen dar. Ein herausragendes Beispiel für die Praxisanwendung des Modells ist die Analyse von Maxars hochauflösenden Satellitenbildern aus dem Jahr 2025, die unter anderem Gebiete im Herzen Bangkoks abdecken.
Maxar ist bekannt für seine hochwertigen GeoTIFF-Pyramiden, die im Falle dieser Studie eine Auflösung von 38 cm pro Pixel aufwiesen. Die betrachteten Bilder umfassen das Gebiet rund um die Chatuchak-Distrikt und die stark bebauten Bereiche entlang der Ratchadaphisek Road, wo mehrere Hochhäuser die Skyline prägen. Bei der ersten Inferenz mit dem größten verfügbaren Modell von Depth Anything V2 stieß man auf unerwartete Schwierigkeiten. Das Modell hatte Probleme, die Gebäude in den großen Satellitenbildern richtig zu erkennen, da Teile der Aufnahmen komplett schwarz waren. Diese „leeren“ Bereiche erzeugten eine Fehlinterpretation, indem das Modell solche schwarzen Flächen fälschlicherweise als Höheninformationen wertete.
Durch diese Erfahrung wurde deutlich, wie wichtig eine sorgfältige Vorbereitung der Bilddaten ist, insbesondere bei der Arbeit mit umfangreichem Satellitenmaterial, das über unterschiedliche Pixelabdeckungen und Qualitätsbereiche verfügt. Eine weitere Analyse mit einem deutlich kleineren, aus dem größeren Satellitenbild ausgeschnittenen Bildausschnitt führte zu wesentlich besseren Ergebnissen. Hier zeigte Depth Anything V2 seine Fähigkeit, Differenzen in der Bildtiefe, insbesondere bei urbaner Bebauung, sichtbar zu machen. Durch eine manuelle Georeferenzierung konnte eine präzise Verortung des Resultats sichergestellt werden, was für die spätere Einbindung in geographische Informationssysteme (GIS) von großer Bedeutung ist. Die gewonnenen Tiefeninformationen sind jedoch zunächst relativ, sodass sie noch skaliert werden müssen, um echte Höhenangaben zu liefern.
Dazu könnte beispielsweise ein weiteres GIS-gestütztes Verfahren eingesetzt werden, das bekannte Höhenwerte aus Gebäudedaten mit den Tiefenkarten abgleicht. Die Kombination von satellitengestützter Tiefenerfassung und den umfangreichen Datenbanken zu urbaner Bebauung, wie etwa von Overture, wäre ein vielversprechender Weg, um automatisch und großflächig genaue Höhenmodelle von Städten zu erstellen. Die Bedeutung solcher Verfahren liegt nicht nur im Bereich der Stadtplanung und Architektur, sondern spielt auch eine zentrale Rolle in der Umweltüberwachung und im Katastrophenmanagement. Das Beispiel der Satellitenüberwachung nach dem verheerenden Erdbeben in Myanmar und Thailand zeigt, wie wichtig aktuelle Geodaten für Hilfseinsätze und strategische Planung sind. Mit Tiefenschätzungsmodellen lassen sich Schäden an Gebäuden besser einschätzen und betroffene Areale identifizieren, was die Koordination von Rettungsmaßnahmen effizient unterstützt.
Auch im Bereich der Luftbildfotografie und der Vermessung aus der Vogelperspektive zeigen sich beeindruckende Anwendungsfälle. So liefert Depth Anything V2 ebenfalls überzeugende Ergebnisse bei Aufnahmen, die von hohen Gebäuden oder Beobachtungstürmen stammen. Ein Beispiel hierfür ist eine Aufnahme der Altstadt von Tallinn aus der Vogelperspektive, bei der das Modell die Tiefendimensionen der historischen Gebäude zuverlässig herausarbeiten konnte. Diese Vielseitigkeit unterstreicht das große Potenzial der KI-gestützten Tiefenschätzung in verschiedensten Kontexten. Technisch gesehen basiert Depth Anything V2 auf einer Transformer-Architektur, die mit einer großen Anzahl von Parametern arbeitet, um auf Basis kleiner visueller Merkmale präzise Rückschlüsse auf Raumtiefe zu ziehen.
Die hohe Rechenleistung moderner CPUs und GPUs, wie beispielsweise der AMD Ryzen 9 9950X mit 16 Kernen und 32 Threads, stellen die notwendige Hardware-Grundlage für die Ausführung solcher Modelle bereit. Eine optimale Systemumgebung, umfassender Arbeitsspeicher und schnelle Speicherlösungen sind ebenso notwendig, um die Verarbeitung großer Satellitendatenmengen effizient zu ermöglichen. Softwareseitig wurden bei der Arbeit mit Depth Anything V2 aktuelle Bibliotheken und Programme wie Python 3.12 sowie ArcGIS Pro 3.5 eingesetzt.
Letzteres ist ein spezialisierter GIS-Client, der in der Geodatenanalyse industriellen Standards entspricht und für viele professionelle Anwender in der Raum- und Stadtplanung unverzichtbar ist. Die Kombination von KI-Tiefenmodellen und robusten GIS-Werkzeugen bildet somit eine effektive Schnittstelle zwischen moderner Bildverarbeitung und klassischem Geomapping. Der Zugang zu hochqualitativen Satellitendaten wie denen von Maxar ist durch offene Datenprogramme zunehmend möglich, was die Forschung und Entwicklung in diesem Gebiet weiter fördert. Gleichzeitig zeigen die Nutzungsversuche mit Depth Anything V2, dass trotz herausragender Leistungsfähigkeit noch Herausforderungen bei der Datenvorbereitung und bei der Handhabung großer Bildformate bestehen. Eine mögliche Lösung besteht darin, große Bilddaten in kleinere Kacheln zu zerlegen, diese getrennt zu verarbeiten und anschließend die Ergebnisse zusammenzuführen.
Zukunftsorientiert eröffnen die Fortschritte in der Tiefenschätzung das Potential, Städte mit präzisen, aktuellen 3D-Stadtmodellen zu versorgen, die für smarte Stadtentwicklung, Verkehrsplanung, Energieeffizienzprogramme und den Katastrophenschutz von unschätzbarem Wert sind. Automatisierte Verfahren könnten dazu beitragen, Veränderungen in der Bebauung nahezu in Echtzeit zu überwachen und so frühzeitig auf problematische Entwicklungen zu reagieren. Die Kombination von KI-basiertem Computer-Vision, leistungsfähiger Hard- und Software sowie hochwertigen Fernerkundungsdaten transformiert zunehmend die Art und Weise, wie wir Geodaten interpretieren und nutzen. Modelle wie Depth Anything V2 sind ein Beleg dafür, dass komplexe Aufgaben wie die Tiefenschätzung in urbanen Satellitenbildern nicht nur möglich, sondern bereits implementierbar sind. Abschließend lässt sich sagen, dass die Verbindung von Satellitenbildern und Tiefenschätzung eine neue Dimension der räumlichen Datenanalyse eröffnet.
Für professionelle Anwender in den Bereichen Stadtplanung, Umweltmanagement, Vermessung und Katastrophenschutz eröffnen sich hier durch KI-gestützte Methoden praktische Werkzeuge, die effizient und hochgenau wichtige Geoinformationen generieren können. Die fortlaufende Weiterentwicklung solcher Modelle und die Integration in bestehende GIS-Systeme werden künftig eine entscheidende Rolle bei der nachhaltigen und intelligenten Nutzung urbaner Räume spielen.