Nachrichten zu Krypto-Börsen

Parquet auf Iceberg schlägt MergeTree: Ein Durchbruch für moderne Daten-Architekturen

Nachrichten zu Krypto-Börsen
Parquet on Iceberg Outperforms MergeTree

Die Kombination von Parquet als Speicherformat mit dem Iceberg-Tabellen-Layout revolutioniert die Performance von Datenbankabfragen und bietet eine leistungsfähigere Alternative zu ClickHouse MergeTree, insbesondere bei der Nutzung von Objektspeichern wie S3. Ein tiefer Einblick in die Technik, Tests und Vorteile dieser vielversprechenden Entwicklung.

In der Welt der Datenverarbeitung und -analyse sind kontinuierliche Innovationen und Verbesserungen gefragt, um mit den rasant wachsenden Datenmengen und Anforderungen an Geschwindigkeit und Skalierbarkeit Schritt zu halten. Eine der jüngsten und vielversprechendsten Entwicklungen ist die Kombination aus dem spaltenbasierten Speicherformat Parquet mit dem Open-Source-Tabellenformat Iceberg. Dieses Duo bietet eine beeindruckende Performance, die in manchen Szenarien sogar die bewährte MergeTree-Engine von ClickHouse übertrifft. Das hat erhebliche Auswirkungen auf die Gestaltung moderner Datenplattformen, besonders wenn Objekt-Storage wie Amazon S3 zum Einsatz kommt. Werfen wir zunächst einen Blick darauf, warum Parquet auf Iceberg solch großes Potenzial entfaltet und wo die Grenzen von MergeTree liegen.

MergeTree wurde von vornherein für die Arbeit mit Block-Storage konzipiert, bei dem das Öffnen von Dateien schnell und nahezu kostenlos ist. In lokalen oder blockbasierten Dateisystemen ist MergeTree dadurch äußerst effizient. Die Engine basiert auf der Aufteilung von Daten in viele kleine Teile, sogenannte Parts, und verwaltet diese konsistent durch eine ausgeklügelte, automatische Zusammenführung und Kompression. Doch mit dem Wechsel zu objektbasiertem Speicher wie S3 ergeben sich neue Herausforderungen. Objektspeicher zeichnen sich durch eine höhere Latenz bei Zugriffen aus, da jede Datei in diesem Fall einem Objekt entspricht, der per HTTPS-Aufruf angesprochen werden muss.

Das verursacht signifikante Verzögerungen und stellt eine Einschränkung dar, weil häufig eine sehr große Anzahl an Dateien beziehungsweise Objekten parallel gelesen werden muss. Die Anzahl der Objekte kann bei großen MergeTree-Tables leicht in die Hunderttausende gehen, was selbst hoch skalierte Systeme belastet und teuer wird, da Cloud-Anbieter für jeden Zugriff Gebühren erheben. Hier setzt Parquet auf Iceberg an. Iceberg ist ein Offenes-Tabellenformat, das zur Organisation großer Datenmengen auf Objektspeichern dient. Es erlaubt die Verwaltung von Metadaten in einer Weise, die die Anzahl der Objektaufrufe minimiert und somit die Abfrageeffizienz deutlich erhöht.

Parquet wiederum ist ein spaltenbasiertes Speicherformat, das eine hohe Kompressionsrate und effizientes Lesen einzelner Spalten ermöglicht. Diese Vorteile kombiniert Iceberg mit intelligentem Partitioning, Dateimanagement und ausgefeiltem Metadaten-Handling, um so die Performance deutlich zu verbessern. Ein weiterer Aspekt ist die Offenheit und Interoperabilität der Iceberg-Tabellen. MergeTree ist eng an ClickHouse gebunden und dessen Datenformate sind proprietär. Das schränkt den Einsatz in heterogenen Systemlandschaften ein.

Iceberg und Parquet hingegen können problemlos von unterschiedlichen Systemen gelesen und beschrieben werden, was beim Aufbau moderner Data Lakes und hybrider Datenarchitekturen ein großer Vorteil ist. Die Praxisuntersuchungen, die unter dem Namen Altinity Antalya Projekt durchgeführt wurden, zeigen beeindruckende Benchmark-Ergebnisse mit dem realistischen New York Taxi Rides Datensatz, welcher 1,3 Milliarden Zeilen umfasst. Bei der Ausführung verschiedener analytischer Abfragen konnten Parquet auf Iceberg Tabellen mitunter deutlich bessere Antwortzeiten erzielen als ein mit herkömmlichen Einstellungen betriebener MergeTree-Tisch. Besonders bei komplexeren Gruppierungen und Joins entfaltet die Iceberg-Implementierung ihre Stärken. Ursprünglich überraschten insbesondere langsame Ergebnisse bei einigen Abfragen mit MergeTree, bis Optimierungen wie die Verwendung des ZSTD-Kompressionsverfahrens, Deaktivierung eines bestimmten Query-Analysators und die Anpassung der Lese-Methoden vorgenommen wurden.

Nach diesen Anpassungen konnte MergeTree zwar wieder seine Schnelligkeit unter Beweis stellen, allerdings auf Kosten von höherem administrativem Aufwand und technischem Fachwissen. Für Anwender, die „Out of the Box“-Performance erwarten, ist die Iceberg-Lösung bereits jetzt deutlich anwenderfreundlicher. Ein weiterer faszinierender Entwicklungsstrang ist die sogenannte „Swarm Execution“. Dabei wird die Trennung von Compute und Storage konsequent umgesetzt, indem rechenintensive Abfragen nicht lokal, sondern durch zusätzliche, schnelle, zustandslose Rechenknoten (Swarm-Knoten) ausgeführt werden. Diese Knoten lesen direkt vom Objektspeicher und können flexibel skaliert werden.

Das erhöht nicht nur die Performance, sondern auch die Kosten-Effizienz, da teure on-premise Serverressourcen geschont werden und bei Bedarf kostengünstige Cloud Spot-Instanzen verwendet werden können. Gerade Iceberg mit Parquet profitiert von diesem Modell, da die Metadatenstruktur den Swarm-Knoten eine effiziente Aufteilung der Arbeit ermöglicht. Paradigmatisch zeigt sich, wie die Verteilung der Abfragen auf mehrere Knoten die Antwortzeiten nahezu linear verbessert. Die Ergebnisse der Swarm-Benchmarks verdeutlichen, dass mit zunehmender Anzahl der aktiven Knoten, die Zeit für komplexe Analysen deutlich sinkt – und zwar schneller als bei einem vergleichbaren Konzept mit MergeTree. Trotz der vielen Vorteile ist die Kombination aus Parquet auf Iceberg nicht ohne Herausforderungen.

Einige Datentypen und Funktionen werden vom Parquet-Format oder der Iceberg-Implementierung noch nicht vollumfänglich unterstützt. Enums beispielsweise sind eine Schwäche, ebenso wie native Unterstützung für bestimmte Unsigned Integer Typen. Außerdem arbeiten Entwickler weiter daran, die Effizienz beim Caching, bei der Metadatenverwaltung und beim Ausbalancieren der Last auf Swarm-Knoten zu verbessern. Joins innerhalb von Swarm-Abfragen sind derzeit noch in der Erprobung und werden stetig weiterentwickelt. Langfristig wird die Integration von Iceberg in ClickHouse möglicherweise eine duale Speicherstrategie ermöglichen, bei der „heiße“ Daten in lokalen MergeTree-Tabellen verbleiben, während ältere oder historische Daten in Parquet-Form auf Iceberg gespeichert und von Swarm-Clustern effizient abgefragt werden.

Diese Trennung bietet enormes Potenzial zur Kosteneinsparung und Skalierungsfähigkeit, ohne dabei Nachteile bei der Performance zu riskieren. Im Kern verspricht die Verbindung aus Parquet und Iceberg eine neue Ära für analytische Datenbanken, bei der Open-Format-Prinzipien, Cloud-Konnektivität, Skalierbarkeit und Performance harmonisch zusammenspielen. Für Unternehmen, die auf wachsende Datenmengen reagieren müssen und nach effizienten Wegen suchen, Analyse-Workloads zu flexibilisieren und zu beschleunigen, ist dieser Ansatz wegweisend. Die Ergebnisse des Altinity Antalya Projekts machen Mut, dass diese Technologie praktikabel und messbar besser ist – gerade in einer Zeit, in der Datenökosysteme immer heterogener und verteilt werden. Zusammenfassend bedeutet Parquet auf Iceberg in der Praxis weniger Aufwand für die Administration, bessere Möglichkeiten zur Datenfreigabe und -integration mit anderen Systemen und nicht zuletzt konkurrenzfähige oder sogar bessere Performance gegenüber traditionellen MergeTree-Tabellen, insbesondere im Cloud- und Objekspeicher-Setup.

Die laufenden Entwicklungen und die aktive Community hinter Iceberg, unterstützt von großen Namen wie AWS, Databricks und Cloudflare, sichern eine kontinuierliche Weiterentwicklung und Integration in unterschiedlichste Datenplattformen. Mit Iceberg als zukunftsweisendem Metadaten-Manager und Parquet als bewährtes spaltenbasiertes Speicherformat eröffnet sich für moderne Data Plattformen ein großer Spielraum, um den Herausforderungen des Datenzeitalters gerecht zu werden. Das Zusammenspiel von Storagekosteneffizienz, schneller Abfrageverarbeitung und nahtloser Skalierbarkeit wird neue technologische Standards setzen, die die bisherigen Grenzen von Datenbankspeicherformaten wie MergeTree erweitern oder sogar überwinden. Die Evolution hin zu flexiblen, offenen und hochperformanten Datenarchitekturen ist in vollem Gange – und Parquet auf Iceberg ist ein wichtiger Meilenstein auf diesem Weg.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
 US Senate to vote on amended stablecoin bill on June 17
Dienstag, 02. September 2025. US-Senat stimmt am 17. Juni über überarbeitetes Stablecoin-Gesetz ab – Ein Wendepunkt für die Krypto-Regulierung in den USA

Der US-Senat steht vor einer wegweisenden Abstimmung über den GENIUS Act, der eine umfassende rechtliche Grundlage für Stablecoins schaffen soll. Diese Entscheidung könnte die Zukunft des Krypto-Marktes in den Vereinigten Staaten maßgeblich beeinflussen und zeigt zudem die politischen Herausforderungen und Chancen im Bereich digitaler Währungen auf.

Oil prices could top $90 as Israel-Iran conflict escalates tensions in Middle East
Dienstag, 02. September 2025. Steigende Ölpreise durch eskalierenden Israel-Iran-Konflikt: Auswirkungen auf den Weltmarkt

Die angespannten Beziehungen zwischen Israel und Iran im Nahen Osten führen zu einer nachhaltigen Verunsicherung auf den globalen Ölmärkten. Experten warnen vor einem möglichen Anstieg der Ölpreise auf über 90 US-Dollar pro Barrel, was weitreichende Folgen für Wirtschaft und Verbraucher weltweit haben könnte.

Shopify Will Start Accepting USDC Payments with Coinbase and Stripe
Dienstag, 02. September 2025. Shopify integriert USDC-Zahlungen: Ein Quantensprung für den E-Commerce mit Coinbase und Stripe

Shopify revolutioniert den E-Commerce durch die native Integration von USDC-Stablecoin-Zahlungen in Zusammenarbeit mit Coinbase und Stripe, was Händlern und Kunden neue Möglichkeiten im digitalen Zahlungsverkehr eröffnet.

I collect 8k leads/week w AI Lead Magnet
Dienstag, 02. September 2025. Wie Sie mit AI Lead Magneten wöchentlich 8.000 hochwertige Leads generieren

Erfahren Sie, wie moderne Unternehmen Künstliche Intelligenz einsetzen, um mit interaktiven Lead Magneten ihre Reichweite zu erhöhen, wertvolle Kundendaten zu sammeln und die Conversion-Raten signifikant zu steigern. Entdecken Sie bewährte Strategien und Tools, die den Vertriebsprozess revolutionieren und langfristiges Wachstum sicherstellen.

Erie Insurance Reports 'Information Security Event' Caused Network Outage
Dienstag, 02. September 2025. Erie Insurance meldet Informationssicherheitsvorfall und anhaltenden Netzausfall

Erie Insurance hat einen schwerwiegenden Informationssicherheitsvorfall gemeldet, der zu einem weitreichenden Netzausfall führte, der die Systeme des Unternehmens seit mehreren Tagen beeinträchtigt. Die Versicherungsgesellschaft arbeitet intensiv mit Cybersecurity-Experten und Strafverfolgungsbehörden zusammen, um den Umfang und die Auswirkungen zu klären und die Sicherheit der Kundendaten zu gewährleisten.

IBM Has a Roadmap to a 'Fault-Tolerant' Quantum Computer by 2029
Dienstag, 02. September 2025. IBM's Vision für einen fehlerresistenten Quantencomputer bis 2029

IBM verfolgt ehrgeizige Ziele im Bereich der Quantencomputing-Technologie und plant bis 2029 einen fehlerresistenten Quantencomputer zu entwickeln, der die heutige Rechenleistung revolutionieren könnte. Die Entwicklung dieses Systems würde die Tür zu bahnbrechenden Anwendungen in Wissenschaft, Wirtschaft und Technologie öffnen und neue Standards im Computing setzen.

 Panic or opportunity? What crypto capitulation tells smart investors
Dienstag, 02. September 2025. Panik oder Chance? Was Kryptokapitulation klugen Investoren verrät

Ein umfassender Einblick in den Begriff der Kryptokapitulation, ihre Bedeutung für den Markt und wie intelligente Anleger diese Phasen nutzen können, um fundierte Entscheidungen zu treffen und Chancen zu erkennen.