Im Rahmen des Zero Prime Podcasts gewährte Sudarshan, Gründeringenieur und technischer Leiter von e6data, spannende Einblicke in die technische Architektur des Unternehmens. Das Gespräch mit Pete zeigte eindrucksvoll, wie e6data versucht, die Herausforderungen moderner Datenverarbeitung zu meistern und gleichzeitig neue Wege zu gehen, um Effizienz, Skalierbarkeit und Flexibilität zu gewährleisten. Die Diskussion wendete sich dabei vor allem den Kernproblemen zu, welche die heutigen Dateninfrastrukturen prägen und zeigte auf, warum traditionelle Ansätze immer weniger taugen, um aktuelle und zukünftige Anforderungen zu erfüllen. Ein zentraler Punkt der Unterhaltung war das Thema der Entkopplung von Compute und Storage, eine gängige Annahme in der Branche, die e6data kritisch hinterfragt. Während viele Systeme behaupten, dass Rechenleistung und Datenspeicherung unabhängig voneinander skaliert werden können, zeigt sich in der Praxis ein anderes Bild.
Die Skalierung des Clusters erfolgt oft anhand der Ausnahmeanfragen oder temporären Lastspitzen, die aber nur einen kleinen Teil der Gesamtarbeitslast ausmachen. Dies führt dazu, dass die Infrastruktur ständig überdimensioniert und ineffizient betrieben wird. Der Scheduler moderner Systeme ist zudem selten in der Lage, in Echtzeit flexibel auf Laständerungen zu reagieren, weshalb Unternehmen in teure Ressourcen investieren, die nicht ständig ausgelastet sind. Genau hier setzt e6data an und bietet mit seinem innovativen Ansatz eine neue Herangehensweise an die Architektur von Datenverarbeitungssystemen an. Im Gegensatz zum traditionellen Driver-Executor-Modell verzichtet e6data auf zentrale Koordinatoren und Monolithen.
Stattdessen trennt das System die internen Komponenten auf, sodass der Planner, die Metadatenoperationen und die Worker völlig unabhängig voneinander skalieren können. Diese Disaggregation ermöglicht eine wesentlich feinere Abstimmung von Ressourcen und eine dynamische Anpassung während der Ausführung von Abfragen. Ein weiterer Meilenstein in der Architektur von e6data ist die Fähigkeit zur dynamischen Skalierung während der Abfrageausführung. Anwender müssen keine Ressourcen im Vorfeld für Worst-Case-Szenarien festlegen. Stattdessen skaliert das System nach Bedarf und sorgt so für eine Effizienz, die herkömmliche Systeme kaum erreichen.
So können selbst tausende parallele, benutzerorientierte Anfragen mit hoher QPS (Queries per Second) problemlos bearbeitet werden, ohne dass es zu Flaschenhälsen oder Verzögerungen kommt. Das System arbeitet mit einer sogenannten Push-basierten, vektorisierten Ausführung ähnlich zu Technologien wie DuckDB oder Photon, geht jedoch noch weiter in der Koordination und Optimierung der Compute-Ressourcen. Diese tiefergehende Orchestrierung ist essenziell, um den Herausforderungen modernster Einsatzszenarien wie dem Betrieb von großen, vielseitigen Data Lakes und dem Management von hochfrequenten Anfragen gerecht zu werden. Eine der größten Stärken von e6data liegt in der Offenheit der Plattform. Nutzer sind nicht an einen einzigen Stack gebunden.
Statt ein geschlossenes System zu bieten, erlaubt e6data die Einbindung beliebiger Kataloge, Governance-Lösungen und Datenformate. Iceberg, Delta und Hudi sind zum Beispiel vollständig unterstützt und können nahtlos interoperabel genutzt werden. Dies gewährleistet, dass Unternehmen nicht durch proprietäre, eingeschränkte Technologien gebunden sind, sondern flexibel und zukunftssicher agieren können. Aus wirtschaftlicher Sicht sind die Vorteile der Architektur von e6data signifikant. Bei Workloads mit einer Belastung von etwa 1000 Queries pro Sekunde gelingt es dem System, die Gesamtkosten der Infrastruktur um rund 60 Prozent im Vergleich zu klassischen Systemen zu senken.
Gleichzeitig wird bei der Latenz eine beeindruckende Performance von unter zwei Sekunden für die 95. Perzentil-Latenz erreicht, selbst wenn heterogene Workloads parallel ablaufen. Die technologische Basis von e6data ist vollständig cloud-native und kann problemlos in bestehende Kubernetes-Infrastrukturen integriert werden. Dadurch profitieren Unternehmen von einer besseren Wiederverwendbarkeit vorhandener Ressourcen und vermeiden die Notwendigkeit für aufwändige, separate Systemlandschaften. Im Blick auf die Zukunft plant e6data mehrere spannende Erweiterungen.
Unter anderem soll die Latenz zwischen Echtzeit-Datenaufnahme (Ingest) und Abfragemöglichkeit auf weniger als 15 Sekunden reduziert werden. Außerdem wird an der Integration von Vektor- und SQL-Funktionalitäten gearbeitet, sodass beispielsweise Kosinus-Ähnlichkeiten direkt innerhalb von SQL-Filtern berechnet werden können. Dies eröffnet neue Möglichkeiten im Bereich von semantischen Suchfunktionen und KI-gestützter Datenanalyse. Darüber hinaus sind AI-gesteuerte Features wie intelligente Partitionierung, automatische Query-Optimierung und selbstlernende Schutzmechanismen in der Entwicklung, die den Betrieb weiter vereinfachen und automatisieren sollen. Damit unterstreicht e6data den Anspruch, nicht nur eine leistungsstarke Datenplattform zu sein, sondern auch Vorreiter für die Integration von künstlicher Intelligenz in Data-Warehouse- und Lakehouse-Systeme.
Das Gespräch auf dem Zero Prime Podcast zeigt eindrücklich, wie e6data die Grundprinzipien moderner Datenverarbeitung neu definiert. Statt auf starre, zentralisierte Architekturen setzen die Entwickler auf Flexibilität, Skalierbarkeit, Offenheit und intelligente Automatisierung. Diese Kombination verspricht nicht nur technische, sondern auch betriebswirtschaftliche Vorteile und könnte einen Paradigmenwechsel im Bereich der Dateninfrastrukturen einleiten. Unternehmen, die heute bereits mit der heterogenen Mischung aus On-Premises, Cloud und Multi-Cloud-Umgebungen arbeiten, profitieren besonders von der Modularität und Offenheit von e6data. Die Möglichkeit, verschiedene Datenformate nahtlos zu integrieren und die Infrastruktur elastisch zu skalieren, ermöglicht es, agil auf Marktanforderungen zu reagieren und gleichzeitig Kosten zu optimieren.
Zusammenfassend kann man sagen, dass e6data mit seinem innovativen Ansatz nicht nur ein technologisches Update für die Zukunftsfähigkeit von Data-Warehouse und Lakehouse-Systemen liefert, sondern auch dem Problem traditioneller Overprovisionierung und Ineffizienz entgegenwirkt. Es zeigt sich, dass das Verwerfen überkommener Architekturmuster und das Denken in flexiblen, skalierbaren Komponenten Grundvoraussetzung dafür ist, um die Datenverarbeitung von morgen zu meistern. Das Gespräch auf dem Zero Prime Podcast ist somit eine Pflichtlektüre für alle, die sich für die Zukunft von Dateninfrastrukturen interessieren und einen Einblick in eine fortschrittliche, praxisnahe Lösung suchen, die technische Exzellenz mit wirtschaftlicher Effizienz verbindet.