Der Iceberg Summit 2025 brachte führende Experten und Anwender aus Unternehmen wie Airbnb, Bloomberg, Pinterest, Wise, Autodesk, Mediaset und Slack zusammen, um ihre Erfahrungen und Herausforderungen rund um den Einsatz von Apache Iceberg zu teilen. Die gewonnenen Erkenntnisse geben wertvolle Einblicke in die Entwicklung von Data Lakes und zeigen konkrete Trends und Herausforderungen bei der Datenverarbeitung in der heutigen dynamischen und umfangreichen Datenlandschaft auf. Ein zentrales Motiv hinter der Einführung von Iceberg ist die Verbesserung der Interoperabilität zwischen verschiedenen Verarbeitungssystemen. Das bedeutet, dass Unternehmen nun mehrere Engines wie Trino, Spark und Flink gleichzeitig einsetzen, um unterschiedliche Anforderungen abzudecken, sei es Streaming, Batch Processing oder Analyse. Diese Mehrfachnutzung schafft eine flexible Plattform, die neue Anwendungsfälle ermöglicht und zur Kostensenkung beiträgt.
Ein weiterer bedeutender Aspekt sind die Kosten. Slack betont etwa die Ersparnis durch effizientere Streaming-Ingestionsprozesse und den Wegfall von Datenkopien, was sowohl Speicher als auch Rechenressourcen schont. Zudem eröffnet Iceberg für verschiedene Organisationen die Chance, nahezu in Echtzeit Entscheidungen auf Basis von Streaming-Daten treffen zu können. Die Möglichkeiten sind ebenso vielfältig wie die Herausforderungen, die dabei auftreten. Das Thema Data-Kataloge spielt nach wie vor eine zentrale Rolle.
Obwohl Iceberg verschiedene Kataloglösungen wie Polaris, Lakekeeper oder Gravitino anbietet, verlassen sich viele Unternehmen auf maßgeschneiderte Implementierungen, die auf REST-APIs basieren. Diese Entscheidung spiegelt den aktuellen Stand wider, dass der Bereich noch nicht vollständig standardisiert oder industrialisiert ist. Airbnb entwickelt zum Beispiel einen firmeneigenen Katalog mit Anbindung an interne Zugriffssysteme. Dies stellt deutlich heraus, dass die Zukunft der Data-Kataloge in REST-basierten Architekturen liegen wird, da diese bessere Integration, Zugriffssteuerung und Engine-übergreifende Unterstützung gewährleisten. Daten-Governance ist ein weiterer dominanter Trend.
Der Wunsch nach feingranularer Kontrolle über Datenzugriffe ist bei Unternehmen wie Microsoft, Bloomberg und Autodesk enorm gewachsen. Techniken wie Row-Level Security, Spaltenmaskierung und rollenbasierte Zugriffsverwaltung sind mittlerweile unerlässlich. Bloomberg etwa realisiert Tabellenebene-Zugriffssteuern durch Metadaten-Tags in einem eigenen REST-Katalog. Autodesk nutzt Privacera, sucht aber nach Open-Source-Alternativen. Dieser Fokus zeigt, dass Sicherheitsmechanismen in Open-Source-Katalogen zwar intensiv diskutiert werden, aber deren Umsetzung oft hinter den Bedürfnissen der Unternehmen zurückbleibt.
Ein weiterer interessanter Befund vom Summit ist, dass Streaming-Verarbeitung weiterhin hohe Relevanz besitzt, ohne Batch-Verfahren zu verdrängen. Zahlreiche Use Cases aus Digitalunternehmen und etablierten Konzernen zeigen, dass ein Mix aus Streaming und Batch die Realität ist. Dies trifft unter anderem auf Airbnb, Pinterest, Wise, Slack, Bloomberg und Autodesk zu. Methoden wie Change Data Capture (CDC) in Kombination mit Streaming-Ingestions werden häufig genutzt, um aktuelle Daten schnell verfügbar zu machen, eine einheitliche historische Abdeckung oder Re-Analysen erfodert jedoch nach wie vor Batch-Verarbeitung. Die Kombination von Streaming-Ingestions mit der Wartung und Verwaltung der zugrundeliegenden Dateien und Tabellen zieht eine erhebliche betriebliche Komplexität nach sich.
Anwender wie Airbnb stellen fest, dass Streaming mit Flink zwar schnelle Datenimporte ermöglicht, die Tabellenpflege zum Beispiel über aggressive Kompaktierung jedoch aufwendig und technisch anspruchsvoll ist. Slack kämpft mit der Vermehrung sogenannter „orphan files“, verursacht durch viele parallele Schreibvorgänge. Auch Wise musste für das Streaming komplexe Wartungslösungen selbst entwickeln. Dieses Spannungsfeld zwischen Aktualität der Daten und sauberen, performanten Tabellen steht im Zentrum vieler Herausforderungen der Iceberg-Nutzung. Im Umgang mit diesen Komplexitäten setzen viele Plattform-Teams auf DevOps-ähnliche Konzepte.
Automatisierte Prozesse mit YAML-Konfigurationen, Pull Requests und CI/CD-Pipelines erleichtern für die Nutzer die Interaktion mit der Infrastruktur. So beschreiben Airbnb und Wise beispielsweise einfache Interfaces, bei denen Nutzer nur Schema- und Partitionierungsdetails angeben, während die Plattform den Rest automatisiert abwickelt. Autodesk integriert Spark-Job-Submissions in Workflows über Airflow, um den Usern eine weitgehend freihändige Job-Ausführung zu ermöglichen. Durch diese Vorgehensweise können Komplexitätsbarrieren abgebaut und die Akzeptanz innerhalb der Organisation gesteigert werden. Trotz aller technischen Begeisterung über Iceberg-Hauptkomponenten haben viele Unternehmen festgestellt, dass der überzeugende Schritt von Plattformen zu den Endanwender-Teams eine der größten Herausforderungen darstellt.
Autodesk etwa arbeitet mit Feature-Flags, um den Nutzen von Hive und Iceberg parallel abzusichern. Airbnb geht den Weg über eine schrittweise Migration und bietet zunächst Basisfunktionen an, um später auf komplexere Features umzusteigen. Auch Mediaset verfolgt mit seinen „Renegade Engineers“ einen bottom-up-Ansatz, um interne Überzeugung und Akzeptanz zu fördern. Diese Erfahrungen verdeutlichen, dass erfolgreiche Migrationen zu Iceberg keine einmalige technische Umsetzung sind, sondern iterative Prozesse mit interner Unterstützung und benutzerfreundlicher Gestaltung erfordern. Zusammengefasst steht Iceberg bei vielen Plattformen für einen Paradigmenwechsel hin zu interoperablen, kosteneffizienten und flexiblen Data Lakes, die Streaming- und Batch-Daten nahtlos verarbeiten können.