Krypto-Events

Warum Microsoft Clarity auf ClickHouse setzt: Aufbau einer skalierbaren Analyseplattform

Krypto-Events
Building a Scalable Analytics Platform: Why Microsoft Clarity Chose ClickHouse

Erfahren Sie, wie Microsoft Clarity mithilfe der leistungsfähigen Datenbank ClickHouse eine hochskalierbare Analytics-Plattform geschaffen hat, die Millionen von Nutzerinteraktionen effizient verarbeitet und schnelle, detaillierte Einblicke ermöglicht.

In der heutigen digitalen Welt ist die Fähigkeit, große Datenmengen schnell und effizient zu analysieren, für Unternehmen und Plattformen von zentraler Bedeutung. Microsoft Clarity, ein kostenloses Analysewerkzeug, das Website- und App-Besitzern detaillierte Einblicke in das Nutzerverhalten bietet, steht genau vor dieser Herausforderung. Clarity verarbeitet täglich Millionen von Nutzersitzungen, was enorme Anforderungen an Skalierbarkeit, Performance und Kosten mit sich bringt. Um diese Anforderungen zu erfüllen, entschied sich Microsoft Clarity für den Einsatz von ClickHouse, einer leistungsstarken, spaltenorientierten Datenbank, die speziell für OLAP-Szenarien entwickelt wurde. Doch warum fiel die Wahl gerade auf ClickHouse und welche Herausforderungen mussten dabei bewältigt werden? Ein Blick hinter die Kulissen zeigt, wie eine skalierbare Analytics-Plattform erfolgreich umgesetzt wurde.

Zu Beginn von Microsoft Clarity stand ein Proof of Concept (POC), der vor allem intern eingesetzt wurde, um einige Microsoft-Websites zu überwachen. Dieses frühe System basierte auf Elastic Search und Spark, was sich jedoch schnell als unzureichend für den geplanten Einsatz erwies. Die Durchsatzraten bei der Datenaufnahme waren gering, Abfragen benötigten lange Zeit, und insbesondere die Generierung von Heatmaps war ein zeitintensiver Offline-Prozess, der Nutzer bis zu einer halben Stunde warten ließ. Zudem machten die hohen Betriebskosten eine breite öffentliche Nutzung nahezu unmöglich. Das Team von Clarity stand somit vor der Herausforderung, eine robuste Infrastruktur zu entwickeln, die Millionen von Projekten und hunderte Billionen von Events bewältigen kann – bei einer Datenmenge von mehreren hundert Petabyte.

Die Anforderungen an das neue System waren enorm: Es sollte Daten mit extrem hoher Geschwindigkeit erfassen, komplexe Berechnungen und Aggregationen ermöglichen und sofortige Einblicke bieten. Gleichzeitig sollten detaillierte Filtermöglichkeiten erhalten bleiben, um Nutzern die genaueste Analyse ihrer Daten zu erlauben. Diese vielseitigen und hohen Anforderungen führten das Clarity-Team zu einer umfassenden Evaluierung verschiedener Technologien. Mit der Einführung von ClickHouse im Oktober 2020 wurde ein Meilenstein erreicht. Im Vergleich zu allen zuvor getesteten Technologien, darunter Elastic Search und Spark, zeigte ClickHouse deutliche Vorteile.

Die Geschwindigkeit bei Abfragen und Datenaufnahme war um ein Vielfaches besser, Heatmaps konnten nun in Echtzeit generiert werden, und die Betriebskosten waren signifikant niedriger. Diese Vorteile machten ClickHouse zur klaren Wahl für die ständig wachsenden Anforderungen von Microsoft Clarity. ClickHouse ist eine spaltenorientierte Datenbank, die speziell für Online Analytical Processing (OLAP) entwickelt wurde. Dies bedeutet, dass sie Daten in Spalten statt in Zeilen speichert, was für analytische Abfragen besonders effizient ist. Mit dem MergeTree-Engine-Design unterstützt ClickHouse sehr hohe Ingestionsraten, was entscheidend für die Verarbeitung der riesigen Datenmengen bei Clarity ist.

Ebenso beeindruckend sind die extrem schnellen Abfragezeiten, wodurch selbst die Aggregation von Milliarden von Zeilen innerhalb von Millisekunden gelingt. Ein weiterer Vorteil ist die Effizienz hinsichtlich Speicherplatz. Durch fortschrittliche Kompressionstechniken spart ClickHouse erheblich Kosten ein, ohne dabei die Datenqualität oder Detailgenauigkeit zu beeinträchtigen. Zusätzlich erlaubt das System die Konfiguration von Speicherhierarchien, bei denen häufig genutzte Daten auf schnellen Festplatten und selten abgefragte Daten auf kostengünstigeren „kalten“ Speichern abgelegt werden können. Die horizontale Skalierbarkeit von ClickHouse ist ein weiterer wichtiger Punkt.

Als verteilt arbeitende Master-Master-Datenbank mit eingebauter Replikation kann Clarity das System bei steigender Nachfrage problemlos ausweiten, was gerade bei Millionen von Projekten und wachsendem Datenvolumen unerlässlich ist. Das Open-Source-Modell und die aktive Community rund um ClickHouse haben zudem für Vertrauen und eine breite Unterstützung bei der Entwicklung und dem Betrieb gesorgt. Microsoft beteiligte sich sogar direkt am ClickHouse-Projekt, was die enge Zusammenarbeit unterstreicht. Nichtsdestotrotz brachte die Einführung von ClickHouse auch Herausforderungen mit sich. Eine der größten war die operationelle Komplexität und Kosten, die durch den eigenverantwortlichen Betrieb des Clusters entstanden.

Während viele Cloud-Dienste die Verwaltung von Datenbanken als Managed Services anbieten, war ClickHouse zu diesem Zeitpunkt nicht als solcher auf Azure verfügbar. Das führte dazu, dass Microsoft eigene Automatisierungen, Werkzeuge und Services entwickeln musste, um den Betrieb und die Skalierung effizient zu gestalten. Dies erforderte zusätzliche Kompetenz und einen Fokus auf Infrastrukturaufgaben, der vom eigentlichen Kerngeschäft ablenkte. Technisch ist die Clarity-Architektur so gestaltet, dass das ClickHouse-Cluster aus hunderten von Maschinen besteht, die in sogenannte Layer strukturiert sind. Diese Schichten verwalten jeweils bestimmte Projektgruppen, sodass die Datenverwaltung übersichtlich und performant bleibt.

Gleichzeitig ermöglichen Verbindungen zwischen den Layern abteilungsübergreifende Abfragen, was die Flexibilität erhöht. Die Replikation erfolgt über ein zentrales ZooKeeper-Ensemble, das für hohe Ausfallsicherheit und Synchronisation sorgt. Die zugrunde liegende Datenstruktur basiert auf einem großen ReplicatedMergeTree-Table, ergänzt durch weitere sekundäre Tabellen. Die Wahl der Partitionierungs- und Primärschlüssel wurde bewusst getroffen, um die Indexeffizienz und Datenkompression zu optimieren. Zudem kommen Materialized Views zum Einsatz, um spezielle Abfragen durch vorstrukturierte und aggregierte Datenmengen zu beschleunigen.

Der Weg der Daten beginnt bei den JavaScript-SDKs und mobilen SDKs, die visuelle Informationen sowie Nutzerinteraktionen sammeln. Diese werden zunächst an Backend-Gateways übertragen, die sowohl die visuelle Playback-Daten in Blob-Speicher auslagern, als auch die Interaktionsdaten für weitere Verarbeitung zwischenspeichern. Anstelle der integrierten Buffer-Tabellen von ClickHouse setzt Clarity eigene Puffermechanismen ein, um Datenverlust im Falle von Serverausfällen zu vermeiden. Für die Darstellung und Analyse im Portal werden alle Daten von ClickHouse über spezielle Serving APIs abgerufen. Dabei wurde zunächst der Open Source Proxy Chproxy verwendet, doch um den Anforderungen der individuellen Schichtung und des Bi-Shardings gerecht zu werden, wurde ein maßgeschneiderter Service entwickelt.

Dieser bietet zusätzliche Funktionalitäten wie Rate Limiting und detailliertes Logging, um den Betrieb stabil und sicher zu gestalten. Microsoft Clarity hat sich so als leistungsfähiges Tool etabliert, das Website- und App-Betreibern tiefgreifende Einblicke eröffnet. Die Entscheidung für ClickHouse war dabei ein entscheidender Schritt, der es ermöglichte, enorme Datenmengen effizient zu verarbeiten und gleichzeitig die Kosten im Griff zu behalten. Trotz der anfänglichen Betriebshürden ist Clarity heute ein Musterbeispiel für eine skalierbare, performante Analytics-Plattform. Die Zukunft von Clarity wird durch kontinuierliche Weiterentwicklung geprägt sein.

Das Ziel ist, Nutzer immer schneller und detaillierter zu informieren, um digitale Erlebnisse optimal zu gestalten. Die Kombination aus leistungsfähiger Infrastruktur und benutzerfreundlichen Analysefunktionen macht Clarity zu einem unverzichtbaren Begleiter im digitalen Ökosystem – und das alles kostenlos. Die Wahl von ClickHouse als Herzstück der Plattform unterstreicht die Bedeutung moderner, skalierbarer Datenbanklösungen in einer Zeit, in der Daten zum wichtigsten Asset von Unternehmen avancieren.

Automatischer Handel mit Krypto-Geldbörsen Kaufen Sie Ihre Kryptowährung zum besten Preis

Als Nächstes
US Border Agents Asking for Help Taking Photos of Everyone Entering by Car
Samstag, 07. Juni 2025. US-Grenzschutz setzt auf Gesichtserkennung: Fotos aller Autoeinsteiger für mehr Kontrolle

Die US-Grenzschutzbehörde verstärkt den Einsatz von Gesichtserkennungstechnologie, um alle Personen, die mit dem Auto in die USA einreisen, präzise zu erfassen. Die neuen Maßnahmen zielen darauf ab, Sicherheitslücken zu schließen und Einreisekontrollen zu verbessern, stoßen jedoch auf Datenschutzbedenken.

Grafana 12.0 Released
Samstag, 07. Juni 2025. Grafana 12.0: Die Zukunft der Observability und Visualisierung ist da

Grafana 12. 0 bringt bahnbrechende Neuerungen für Monitoring, Observability und Dashboards.

GTA VI Trailer 2
Samstag, 07. Juni 2025. GTA VI Trailer 2: Was Fans vom zweiten Trailer des mit Spannung erwarteten Spiels erwarten können

Der zweite Trailer zu GTA VI hat die Gaming-Community weltweit elektrisiert und neue Einblicke in das kommende Kapitel der ikonischen Spieleserie geboten. Erfahren Sie mehr über die Highlights, Features und was der Trailer über die Handlung und das Gameplay verrät.

Show HN: We build custom fine-tuning datasets in 24–72h
Samstag, 07. Juni 2025. Individuelle Fine-Tuning-Datensätze im Handumdrehen: Revolutionäre Lösungen für KI-Training

Maßgeschneiderte Fine-Tuning-Datensätze tragen entscheidend zur Optimierung von KI-Modellen bei. Die Fähigkeit, in nur 24 bis 72 Stunden spezifische Trainingsdaten zu liefern, verändert die Landschaft des maschinellen Lernens und eröffnet neue Möglichkeiten für Unternehmen jeder Größe.

Haliey Welch’s Talk Tuah podcast finally returns with first episode since crypto controversy
Samstag, 07. Juni 2025. Haliey Welchs Talk Tuah kehrt nach Krypto-Kontroverse triumphierend zurück

Haliey Welchs Talk Tuah Podcast erlebt nach einer turbulenten Phase rund um die Krypto-Kontroverse sein lang erwartetes Comeback. Die Rückkehr markiert einen Neuanfang für die beliebte Show, die sich durch spannende Gespräche und tiefgründige Analysen auszeichnet.

Hawk Tuah Girl has been cast in Glen Powell’s ‘Chad Powers’ TV series
Samstag, 07. Juni 2025. Hawk Tuah Girl begeistert in Glen Powells TV-Serie ‚Chad Powers‘ – Ein neuer Stern am Serienhimmel

Entdecken Sie die spannende Besetzung von Hawk Tuah Girl in Glen Powells kommender TV-Serie ‚Chad Powers‘. Erfahren Sie mehr über die Handlung, die Schauspieler und warum diese Serie ein Must-See für Serienfans wird.

Petrobras doubles processing capacity of Boaventura UPGN
Samstag, 07. Juni 2025. Petrobras verdoppelt Verarbeitungskapazität der Boaventura UPGN – Ein bedeutender Schritt für Brasiliens Energiesektor

Die Petrobras erhöht die Verarbeitungskapazität der Boaventura Erdgas-Verarbeitungseinheit (UPGN) auf 21 Millionen Kubikmeter pro Tag. Dies stärkt die nationale Gasversorgung, fördert die wirtschaftliche Unabhängigkeit Brasiliens und unterstützt die nachhaltige Energieentwicklung im Land.