Krypto-Startups und Risikokapital

Revolutionäre Neuerungen im Parquet-Writer: Einfaches Einfügen, Löschen und Bearbeiten von Daten

Krypto-Startups und Risikokapital
New Parquet writer allows easy insert/delete/edit

Die Entwicklung eines neuen Parquet-Writers mit Content-Defined Chunking eröffnet völlig neue Möglichkeiten für effiziente Datenmanipulation. Diese Innovation vereinfacht das Einfügen, Löschen und Bearbeiten von Daten in Parquet-Dateien, steigert die Speicheroptimierung und verbessert die Handhabung großer Datenmengen für moderne Anwendungen im Datenmanagement.

Die Welt der Datenverarbeitung und Datenspeicherung steht niemals still. Gerade im Zeitalter von Big Data und Cloud Computing gewinnt die effiziente Verwaltung von Datenformaten zunehmend an Bedeutung. Ein Format, das sich in der Datenanalyse und beim Speichern großer Mengen strukturierter Daten großer Beliebtheit erfreut, ist Parquet. Parquet, ein spaltenbasiertes Speicherformat, wurde entwickelt, um sowohl Speicherplatz zu sparen als auch die Abfragegeschwindigkeit zu erhöhen. Allerdings bedeutete die bisherige Handhabung von Parquet-Dateien oftmals eine Herausforderung, wenn es darum ging, Daten nachträglich zu verändern.

Nun bringt eine bahnbrechende Neuerung im Parquet-Writer das Potenzial mit sich, diese Einschränkungen zu überwinden. Die Integration eines neuen, sogenannten Content-Defined Chunking-Mechanismus revolutioniert den Umgang mit Parquet-Dateien und erlaubt einfacher denn je das Einfügen, Löschen und Bearbeiten von Daten. Parquet-Dateien und ihre Herausforderungen Das Parquet-Format wurde ursprünglich entworfen, um die Anforderungen moderner, spaltenorientierter Datenverarbeitung zu erfüllen. Durch die Spaltenorientierung werden nur die tatsächlich benötigten Spalten gelesen, was die Verarbeitung beschleunigt und den Ressourcenverbrauch senkt. Trotzdem gab es über Jahre hinweg eine grundlegende Einschränkung: Parquet-Dateien sind grundsätzlich immutable, das bedeutet, sie sind unveränderlich, sobald sie geschrieben wurden.

Jede Änderung erforderte eine vollständige Neugenerierung der Datei oder zumindest großer Teile davon. Dies führte bei Anwendungsfällen, bei denen häufige Updates oder Datenmanipulationen nötig sind, zu einem nicht unerheblichen Mehraufwand und längeren Wartezeiten. Darüber hinaus wurde die Speicheroptimierung, vor allem in großen Speicherumgebungen, durch redundante Daten erschwert. Selbst wenn nur ein kleiner Teil der Daten sich ändert, müssen oft ganze Datenblöcke neu geschrieben werden, was die Effizienz schmälert. Besonders in Content-Addressable-Storage-Systemen (CAS) wurde so Speicher verschwendet, da identische Inhalte mehrfach abgelegt werden mussten.

Innovation durch Content-Defined Chunking Die aktuelle Innovation liegt darin, dass der Parquet-Writer nun Content-Defined Chunking (CDC) unterstützt. CDC ist ein Verfahren, bei dem die Daten nicht in starren Größenblöcken, sondern anhand ihres Inhalts zerlegt werden. Dies ermöglicht eine variable Chunk-Größe, die sich intelligent an den Daten orientiert. Das Resultat ist eine bedeutend effizientere Speicherung und Verarbeitung, insbesondere wenn es darum geht, Daten zu verändern. Diese Art der Chunking-Methode hat bereits zuvor in unkomprimierten row-major Formaten zum Einsatz gefunden, wo sie eine bessere Deduplication, also Datenreduzierung, unterstützt.

Nun wurde sie erfolgreich in den Parquet-Writer integriert, der üblicherweise mit komprimierten, spaltenorientierten Daten arbeitet. Entwicklung und Integration wurden sowohl in der C++-Codebasis als auch in den Python-Bindings von PyArrow umgesetzt, was die Nutzung in verschiedensten Anwendungen erleichtert. Vorteile für Einfügen, Löschen und Bearbeiten von Daten Durch die CDC-Implementierung kann der Parquet-Writer Daten effizient in kleine, inhaltsbasierte Chunks zerlegen und speichern. Wenn eine Änderung an den Daten vorgenommen wird, betrifft dies nur die betroffenen Chunks, anstatt ganze Datenblöcke neu zu schreiben. Dies führt zu erheblichen Performancegewinnen bei Operationen wie Einfügen, Löschen und Bearbeiten von einzelnen Datenzeilen oder -abschnitten.

Diese verbesserte Granularität bei der Datenmanipulation macht es möglich, mit Parquet-Dateien fast so flexibel zu arbeiten wie mit klassischen Datenbanken – ohne die Vorteile des effizienten, spaltenbasierten Formats zu verlieren. Insbesondere Organisationen, die mit immer größer werdenden Datenmengen hantieren, profitieren davon, da Speicherplatz und Rechenzeit massiv optimiert werden. Leistungsdaten und Evaluation Die Umstellung auf Content-Defined Chunking zeigt deutliche Verbesserungen in der Praxis. Bei der Komprimierung mit ZSTD beispielsweise konnten erhebliche Einsparungen bei der Größe der gespeicherten Datenblöcke beobachtet werden. Messungen mit realen Datensätzen wie „datasets.

parquet“ und „food.parquet“ belegen, dass deduplizierte und chunk-basierte Parquet-Files um mehrere Gigabyte kleiner ausfallen als herkömmliche Dateien, während die Kompressionsraten deutlich steigen. Die Redaktion solcher Änderungen ermöglicht auch eine verbesserte Übertragung von Daten über Netzwerke, da weniger Datenvolumen bewegt werden muss. Auf Content-Addressable-Storage-Systemen wie dem Hugging Face Hub, welche auf der effizienten Identifikation und Ablage von Inhalt basieren, konnte die neue Chunking-Strategie den Bedarf an Speicherplatz erheblich reduzieren. Dies ist für Cloud-Anwendungen, die große Versionierungshistorien von Daten verwalten, von enormer Bedeutung.

Integration und Nutzung Der neue Parquet-Writer kann von Anwendern durch neue Writer-Optionen aktiviert werden. Auf der C++-Seite sind die Funktionen enable_content_defined_chunking() und content_defined_chunking_options() integriert, mit denen CDC aktiviert und konfiguriert werden kann. Die Parameter erlauben beispielsweise das Festlegen minimaler und maximaler Chunk-Größen sowie ein Normierungsfaktor für die Chunk-Erkennung. Für Python-Nutzer ist das Feature über das pyarrow-Interface mit dem Schlüsselwort use_content_defined_chunking direkt beim Schreiben von Tabellen in Parquet-Dateien zugänglich. Damit steht ein experimentelles, aber bereits ausgereiftes Werkzeug bereit, um bestehende Parquet-Datenpipelines ohne großen Aufwand zu optimieren und flexibler zu gestalten.

Zukunftsperspektiven und weiterführende Entwicklungen Obwohl Content-Defined Chunking bereits wesentliche Vorteile bringt, ist das Feature derzeit noch als experimentell gekennzeichnet. Zukünftige Erweiterungen könnten das Aktivieren von CDC pro einzelne Spalte erlauben, was noch granularere Optimierungen ermöglicht. Zudem sind Überlegungen im Gange, wie man einfache Shortcut-Deduplikationsverfahren implementieren kann, die bei sehr ähnlichen Datenversionen noch schneller arbeiten. Auch die Speicherung der CDC-Konfigurationen als Metadaten in Parquet-Dateien ist geplant, damit Lesewerkzeuge und weitere Programme effektiv mit den chunk-basierten Dateien umgehen können. Zusätzlich soll eine Hierarchie von Parquet-spezifischen Ausnahmebehandlungen in Python das API-Handling verbessern.

Die Integration dieser Technologie ebnet den Weg für flexiblere und effizientere Datenmanagementstrategien. Organisationen, die dynamische Datensätze mit häufigen Änderungen verwalten, werden in Zukunft von deutlich geringeren Bearbeitungszeiten und einer besseren Speicherökonomie profitieren. Fazit Der neue Parquet-Writer mit Unterstützung für Content-Defined Chunking stellt einen wichtigen Meilenstein in der Parquet-Entwicklung dar. Die Möglichkeit, Daten einfacher einfügen, löschen und bearbeiten zu können, ohne auf die bewährten Vorteile der Spaltenkompression verzichten zu müssen, öffnet viele Türen in der Datenverwaltung. Die Integration dieser Technologie verbessert nicht nur die Speicheroptimierung und Performance, sondern macht Parquet zu einem noch mächtigeren Werkzeug im Umgang mit Big Data.

Durch die fortlaufende Entwicklung und die zunehmende Verbreitung dieses Features ist absehbar, dass Parquet auch künftig eine zentrale Rolle in Data Lakes, Analytics-Plattformen und Cloud-basierten Speicherlösungen einnehmen wird. Die einfache Manipulation von Daten und die effiziente Speicherung ermöglichen es Unternehmen, schneller auf Änderungen zu reagieren und zugleich Kosten zu senken. Content-Defined Chunking ist somit nicht nur ein technisches Upgrade, sondern ein Game-Changer für das Datenmanagement von morgen.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
Microsoft Build Conf – Day 1
Samstag, 28. Juni 2025. Microsoft Build 2025: Ein umfassender Rückblick auf den ersten Tag der Entwicklerkonferenz

Ein detaillierter Überblick über die Highlights, Innovationen und Erkenntnisse vom ersten Tag der Microsoft Build 2025, der führenden Entwicklerkonferenz, mit Fokus auf AI, Cloud-Technologien und Partnerschaften.

Microsoft Open Sources Copilot Exclusive Interview W Erich Gamma Kai Maetzel
Samstag, 28. Juni 2025. Microsoft Open Sources Copilot: Ein exklusives Interview mit Erich Gamma und Kai Maetzel

Ein tiefgehender Einblick in Microsofts Entscheidung, Copilot als Open Source freizugeben, und die Perspektiven von Erich Gamma und Kai Maetzel zu den Auswirkungen auf Entwickler und die Softwarebranche.

Stock market today: Dow wavers, S&P 500, Nasdaq slide after Moody's downgrades US credit rating
Samstag, 28. Juni 2025. US-Aktienmarkt im Wandel: Moody’s Herabstufung und ihre Folgen für Dow, S&P 500 und Nasdaq

Die globale Finanzwelt reagiert auf die Herabstufung der US-Kreditwürdigkeit durch Moody’s. Ein detaillierter Blick auf die Marktbewegungen von Dow Jones, S&P 500 und Nasdaq sowie die zugrundeliegenden Ursachen und Auswirkungen auf Investoren und Wirtschaft.

Windows is getting support for the 'USB-C of AI apps'
Samstag, 28. Juni 2025. Windows integriert Model Context Protocol: Der neue Standard für KI-Anwendungen

Microsoft revolutioniert Windows durch die native Unterstützung des Model Context Protocol (MCP), einem offenen Standard für die nahtlose Vernetzung von KI-Anwendungen. Diese Innovation ebnet den Weg für eine neue Generation intelligenter, vernetzter und sicherer KI-Agenten auf dem Windows-Betriebssystem.

Microsoft's plan to fix the web: letting every website run AI search for cheap
Samstag, 28. Juni 2025. Wie Microsoft das Web revolutioniert: Günstige KI-Suche für jede Website

Microsofts neues Protokoll NLWeb ermöglicht es Webseitenbetreibern, leistungsfähige KI-Suchfunktionen kostengünstig zu integrieren und so das Internet grundlegend zu verändern. Die Technologie verspricht mehr Unabhängigkeit, bessere Nutzererfahrung und eine dezentrale Evolution der Websuche.

Using Photometry to Render Real-World Light Sources Consistently [video]
Samstag, 28. Juni 2025. Photometrie im Rendering: Realistische Beleuchtung für digitale Welten

Ein tiefgehender Einblick in die Anwendung von Photometrie zur konsistenten Wiedergabe realer Lichtquellen in computergenerierten Szenen für beeindruckende visuelle Effekte und verbesserte Nutzererfahrungen.

Computex: Intel Unveils New GPUs for AI and Workstations
Samstag, 28. Juni 2025. Intel präsentiert auf Computex 2025 bahnbrechende GPUs für KI und Workstations

Intel stellt auf der Computex 2025 in Taipeh neue Grafikprozessoren und KI-Beschleuniger vor, die speziell auf professionelle Anwender und KI-Entwickler ausgerichtet sind. Diese Innovationen stärken die Wettbewerbsfähigkeit im Bereich AI-Inferenz und Workstation-Leistung und untermauern Intels langjährige Partnerschaft mit dem taiwanesischen Technologieökosystem.