Kategorien
Altcoins Analyse des Kryptomarkts Bitcoin Blockchain-Technologie Dezentrale Finanzen Digitale NFT-Kunst Institutionelle Akzeptanz Interviews mit Branchenführern Investmentstrategie Krypto-Betrug und Sicherheit	Krypto-Events Krypto-Startups und Risikokapital Krypto-Wallets Mining und Staking Nachrichten zu Krypto-Börsen Rechtliche Nachrichten Stablecoins Steuern und Kryptowährungen Token-Verkäufe (ICO) Virtuelle Realität

Seiten
Start Über uns Begriffe	Suchen

Folge uns

Kategorien
Altcoins Analyse des Kryptomarkts Bitcoin Blockchain-Technologie Dezentrale Finanzen Digitale NFT-Kunst Institutionelle Akzeptanz Interviews mit Branchenführern Investmentstrategie Krypto-Betrug und Sicherheit	Krypto-Events Krypto-Startups und Risikokapital Krypto-Wallets Mining und Staking Nachrichten zu Krypto-Börsen Rechtliche Nachrichten Stablecoins Steuern und Kryptowährungen Token-Verkäufe (ICO) Virtuelle Realität

Seiten
Start Über uns Begriffe	Suchen

Folge uns

Kategorien
Altcoins Analyse des Kryptomarkts Bitcoin Blockchain-Technologie Dezentrale Finanzen Digitale NFT-Kunst	Institutionelle Akzeptanz Interviews mit Branchenführern Investmentstrategie Krypto-Betrug und Sicherheit Krypto-Events Krypto-Startups und Risikokapital	Krypto-Wallets Mining und Staking Nachrichten zu Krypto-Börsen Rechtliche Nachrichten Stablecoins Steuern und Kryptowährungen	Token-Verkäufe (ICO) Virtuelle Realität

Seiten
Start Über uns Begriffe	Suchen

Folge uns

Kategorien
Altcoins Analyse des Kryptomarkts Bitcoin Blockchain-Technologie Dezentrale Finanzen Digitale NFT-Kunst	Institutionelle Akzeptanz Interviews mit Branchenführern Investmentstrategie Krypto-Betrug und Sicherheit Krypto-Events Krypto-Startups und Risikokapital	Krypto-Wallets Mining und Staking Nachrichten zu Krypto-Börsen Rechtliche Nachrichten Stablecoins Steuern und Kryptowährungen	Token-Verkäufe (ICO) Virtuelle Realität

Seiten
Start Über uns Begriffe	Suchen

Folge uns

Mittwoch, 28. Mai 2025.

Schnellere Reguläre Ausdrücke in Ruby: Ein Vergleich der leistungsstarken Regex-Engines

Dezentrale Finanzen Stablecoins

Das Geld, dasgeld.co

Fast(er) regular expression engines in Ruby

Eine detaillierte Analyse moderner regulärer Ausdrucks-Engines in Ruby, die Entwicklern hilft, die passende Lösung für höhere Performance und bessere Unicode-Unterstützung zu finden.

Reguläre Ausdrücke sind ein essenzieller Bestandteil der Programmierung, insbesondere bei der Textanalyse, Datenextraktion und Validierung. Im Ruby-Ökosystem sitzt standardmäßig die Onigmo-Engine am Steuer, die mit der Version 3.2 zwar viele Verbesserungen erfahren hat, jedoch immer noch Performance-Limits aufweist. Gerade wenn es um das Durchsuchen großer Datenmengen oder komplexe Muster geht, können diese Grenzen spürbar sein. Deshalb lohnt sich die Betrachtung alternativer Regex-Engines, die versprechen, die Geschwindigkeit und Effizienz in Ruby-Anwendungen deutlich zu steigern.

Ein zentraler Herausforderer im Bereich der schnellen Pattern-Matching-Lösungen ist die von Google entwickelte RE2-Engine. RE2 basiert auf einem deterministischen endlichen Automaten (DFA), der „on-the-fly“ erzeugt wird. Diese Technik ermöglicht es, reguläre Ausdrücke zu verarbeiten, ohne in exponentialen Backtracking-Fallen zu landen, was insbesondere Schutz gegen sogenannte ReDoS-Angriffe bietet. Ruby-Anwendungen können über gut gepflegte Bindings auf RE2 zugreifen, ohne den Stack erweitern zu müssen. Neben RE2 glänzt vor allem die Rust-basierte Regex-Bibliothek, die auf Geschwindigkeit optimiert ist.

Obwohl aktuell noch keine weitverbreiteten, stabilen Ruby-Bindings für Rust Regex vorliegen, wurden erste Proof-of-Concept-Implementierungen erstellt. Dieses rust_regexp-Modul setzt auf eine ähnliche DFA-Strategie wie RE2, kann aber durch die Modernität von Rust und dessen effizienten Speicherverwaltungsmechanismen teilweise noch bessere Ergebnisse erzielen. Eine weitere bekannte Engine ist PCRE2, die zwar in zahlreichen Projekten und Sprachen, etwa PHP und R, erfolgreich eingesetzt wird und sogar eine JIT-Unterstützung bietet, die Suchzeiten drastisch reduziert, jedoch sind die Ruby-Bindings aktuell veraltet. Die praktische Nutzung mit Ruby gestaltet sich durch fehlende JIT-Aktivierungsmöglichkeiten eingeschränkt – was ihren Vorteil aktuell zunichte macht. Benchmark-Tests geben wichtige Aufschlüsse über die Leistungsunterschiede zwischen diesen Engines.

Einer der Grundtests bezieht sich auf einfache Literale. Hier zeigt die rust/regex-Engine sowohl bei englischem ASCII-Text als auch bei kleineren Unicode-Anteilen deutlich bessere Durchsatzraten als RE2 und das Standard-Ruby. Während RE2 im ASCII-Bereich fast auf Augenhöhe mit Ruby agiert, verliert es bei umfangreichen Unicode-Daten, wie in kyrillischem Text, massiv an Geschwindigkeit. Rust/regex bleibt auch in solchen Umgebungen führend. Insbesondere bei case-insensitiven Suchen offenbart Ruby deutliche Schwächen durch langsamere Verarbeitung.

RE2 schlägt sich besser, verliert aber ebenfalls bei nicht-englischen UTF-8-Zeichenfolgen spürbar an Performance. Die Rust-Variante bietet hier die beste Mischung aus Performance und Unicode-Kompatibilität. Steigende Komplexität in Regexmustern zeigt sich in der Kategorie „Literal mit Alternation“. Diese Tests erweitern einfache Strings durch alternative Muster. Rust/regex verteidigt seine Spitzenposition mit großem Abstand, während RE2 und Ruby abgeschlagen folgen.

Die Unterschiede werden mit zunehmender Fallunterscheidung noch deutlicher, da Ruby erwartungsgemäß langsam wird, RE2 aber deutlich besser skaliert. Komplexe reguläre Ausdrücke wie solche zur Datumsextraktion (z.B. aus dem Datefinder-Projekt) verdeutlichen zusätzlich den Performance-Benefit der Automata-basierten Lösungen. Ruby als klassische Backtracking-Engine fällt gegenüber RE2 und rust/regex extrem zurück und ist bis zu 30-mal langsamer.

Auch in Bezug auf Sicherheit und Stabilität bringt RE2 klare Vorteile mit sich. Der Cloudflare-ReDoS-Fall zeigt exemplarisch, wie die Wahl der Engine auf die Vermeidung teurer ReDoS-Schwachstellen Einfluss nimmt. RE2 und rust/regex verarbeiten solche problematischen Muster bis zu 7- bis 28-mal schneller als Ruby. Insbesondere rust/regex zeigt in verkürzten und vereinfachten Tests mit großem Abstand die höchste Geschwindigkeit. Beim Finden von Wörtern oder langen Wortsegmenten in Texten tritt RE2 gerade bei langen Wörtern in den Vordergrund, während Rust-Regex bei allen Wortlängen stabil bleibt.

RE2 punktet bei ASCII-Daten mit hoher Geschwindigkeit, jedoch zeigen sich Einschränkungen bezüglich Unicode-unterstützter Wortgrenzen. Komplexe bounded repeats (begrenzte Wiederholungen), zum Beispiel a{3,5}, sind eine Herausforderung für viele Regex-Engines. Während RE2 hier in reinen ASCII-Szenarien glänzt, verliert es mit steigender Unicode-Komplexität stark an Performance, wohingegen Rust-Regex weitgehend stabil bleibt. Ruby ist im Vergleich generell langsamer. Noseyparker-Benchmarks, die auf die Erkennung vieler unterschiedlicher Muster in großen Texten abzielen, machen einen interessanten Unterschied zwischen sequentiellen Regex-Suchen und „set-based“ Suchen sichtbar.

RE2s Set-Funktion performt deutlich besser als einzelne Ausdrücke, während rust/regex-Set in manchen Szenarien deutlich langsamer ausfällt als die hintereinander ausgeführten einzelnen Regex-Ausdrücke. Das zeigt, dass Rust Regex zwar viel Potenzial bietet, aber auch eine sorgfältige Auswahl der Suchmethoden erfordert. Eine wichtige Limitation von RE2 liegt in dessen Umgang mit Unicode: Die bekannten Regex-Metazeichen wie \w, \d, \s oder \b sind in RE2 standardmäßig auf ASCII beschränkt. Für mehr Unicode-Compliance müssen alternative Zeichenklassen genutzt werden, was zusätzlichen Aufwand bedeutet. Ruby selbst unterstützt in diesen Fällen beispielsweise POSIX-Schreibweisen wie [[:alpha:]] für Unicode-Character, was RE2 jedoch nicht vollständig repliziert.

Rust Regex hingegen ist Unicode-freundlich und bietet einen Schalter, mit dem die Analyse auf ASCII-Modus umgestellt werden kann, was je nach Anwendungsfall für Performance-Optimierungen genutzt werden kann. Auch hinsichtlich maximaler Wiederholungszahlen unterscheiden sich die Engines: RE2 limitiert beispielsweise die maximale Anzahl bei bounded repeats standardmäßig auf 1000, während Ruby und Rust teils deutlich höhere Werte ohne Fehler verarbeiten. Ein weiteres praktisches Problem zeigt sich bei Ruby im Umgang mit ungültigen UTF-8 Byte-Sequenzen, die zu Fehlern führen, während sowohl RE2 als auch Rust Regex solche Eingaben ohne Crash verarbeiten können – ein Vorteil in Umgebungen mit potenziell beschädigten oder gemischten Datenquellen. Zusammenfassend ergeben sich klare Empfehlungen für Ruby-Entwickler, die Performance und Stabilität bei Regex-Anwendungen anstreben. RE2 bietet eine robuste, sicherheitsorientierte und zu weiten Teilen schnelle Alternative mit der Einschränkung bei Unicode.

Rust Regex ist die ultimative Engine bezüglich Geschwindigkeit, Unicode-Unterstützung und Flexibilität, benötigt jedoch momentan noch einen reiferen Integrationsstatus in Ruby. PCRE2 kann zurzeit aufgrund von Binding-Problemen in Ruby nicht empfohlen werden. Anwendungsszenarien mit hohem Durchsatz, bei denen Unicode eine untergeordnete Rolle spielt oder gezielt auf ASCII-Datenbereiche fokussiert wird, profitieren besonders stark von RE2. Bei Unicode-intensiven Textverarbeitungsaufgaben und komplexen Regex-Mustern liegt die Zukunft dagegen bei Rust Regex, insofern dessen Einbindung in Ruby weiter ausgereift wird. Wer also die Leistung seines Ruby-Codes mit regulären Ausdrücken optimieren möchte, sollte diese modernen Engines in die Evaluierung einbeziehen.

Mithilfe geeigneter Ruby-Bindings können die bedeutenden Performancevorteile heute schon genutzt werden. Dabei sollten jedoch Limitationen und spezifische Anwendungsfälle immer genau geprüft werden, um das geeignete Werkzeug auszuwählen und damit unerwarteten Einbußen oder sogar Sicherheitslücken vorzubeugen.

Als Nächstes

Mittwoch, 28. Mai 2025. Quadratwurzel-Tag: Das ungewöhnliche mathematische Fest, das alle begeistert

Der Quadratwurzel-Tag ist ein besonderes Ereignis, das Mathematikliebhaber und Neugierige gleichermaßen fasziniert. Ein Tag, an dem Zahlen und Daten auf faszinierende Weise zusammenkommen und auf kreative Weise gefeiert werden.

U.S. Senate Moves Toward Action on Stablecoin Bill

Mittwoch, 28. Mai 2025. US-Senat treibt Regulierung für Stablecoins voran: Ein neuer Meilenstein für die Kryptowährungsbranche

Der US-Senat steht kurz davor, bedeutende Gesetze zur Regulierung von Stablecoin-Emittenten zu verabschieden. Damit läutet die Regierung eine neue Ära ein, die Innovation auf dem Digital Asset-Markt schützt und gleichzeitig für mehr Sicherheit und Transparenz sorgt.

Dragonz Land: The Ultimate Play-to-Earn Card Game

Mittwoch, 28. Mai 2025. Dragonz Land: Das ultimative Play-to-Earn Kartenspiel erobert die Gaming-Welt

Dragonz Land revolutioniert die Welt der Play-to-Earn Spiele mit einem fesselnden Kartenspiel, das strategische Tiefe, spannende PvP-Kämpfe und lukrative Belohnungen in einem visuell beeindruckenden Universum vereint. Das Spiel bietet Spielern vielfältige Möglichkeiten, mit ihrem Können und ihrer Strategie echte Werte zu verdienen.

Trust Me, I'm Local: Chrome Extensions, MCP, and the Sandbox Escape

Mittwoch, 28. Mai 2025. Vertrauen ist gut, Kontrolle ist besser: Chrome-Erweiterungen, MCP und die Gefahr des Sandbox-Ausbruchs

Ein tiefer Einblick in die Sicherheitsrisiken von Chrome-Erweiterungen, die mit lokalen MCP-Servern interagieren, und die damit verbundenen Bedrohungen für die Systemsicherheit. Erfahren Sie, wie ungesicherte lokale Verbindungen Angreifern erlauben, die Chrome-Sandbox zu umgehen und welche Maßnahmen Unternehmen ergreifen sollten, um sich vor dieser neuen Angriffswelle zu schützen.

Mittwoch, 28. Mai 2025. Kubeflow: Der Schlüssel zum erfolgreichen Einstieg in KI- und Machine-Learning-Projekte

Kubeflow ist eine Open-Source-Plattform, die Entwicklern den Einstieg in KI- und Machine-Learning-Projekte erheblich erleichtert. Mit einer tiefen Integration in Kubernetes bietet Kubeflow sämtliche Werkzeuge für das Training und die Bereitstellung von KI-Modellen.

Show HN: FounderFiles – stories of tech founders that made it

Mittwoch, 28. Mai 2025. FounderFiles: Inspirierende Erfolgsgeschichten von Tech-Gründern, die es geschafft haben

Erfahren Sie, wie erfolgreiche Tech-Gründer ihre Visionen in die Realität umsetzen konnten, welche Herausforderungen sie überwinden mussten und welche wertvollen Lektionen zukünftige Unternehmer daraus ziehen können.

Tether Reports $1 Billion Operating Profit and $5.6 Billion in Excess Reserves for Q1

Mittwoch, 28. Mai 2025. Tether erzielt 1 Milliarde US-Dollar Betriebsgewinn und 5,6 Milliarden US-Dollar Überschussreserven im ersten Quartal 2025

Tether zeigt im ersten Quartal 2025 mit einem Betriebsgewinn von 1 Milliarde US-Dollar und Überschussreserven von 5,6 Milliarden US-Dollar eine beeindruckende finanzielle Stabilität und unterstreicht seine führende Position im Stablecoin-Markt.