In der Welt der Datenanalyse sticht manchmal ein scheinbar unbedeutendes Detail hervor und wirft Fragen auf, die tiefergehende Untersuchungen erfordern. So verhält es sich mit der auffälligen Seltenheit der Erwähnung des 11. Tages in Monatsdaten, beobachtet in der Google Ngrams-Datenbank. Die Ursprungsidee stammt von Randall Munroe, dem Schöpfer des bekannten Comics xkcd, der im November 2012 eine Grafik veröffentlichte, die die Häufigkeit von Datumsangaben im englischen Sprachraum darstellte. Dabei fiel auf, dass der 11.
eines Monats im Vergleich zu den anderen Tagen auffallend selten erwähnt wird – ausgenommen der berühmte 11. September. Dieses Phänomen weckte Neugier und führte zu einer wissenschaftlichen Analyse, die tief in historische Schreibstile, typografische Eigenheiten und maschinelle Lesefehler eintaucht. Der Einstieg in das Thema erfolgte durch die offene Beobachtung, dass die Größe der Zahlen in Munroes Kalender proportional zur Häufigkeit ihrer Erwähnung war. Erwartungsgemäß waren bedeutungsverheißende Daten wie der 4.
Juli oder der 25. Dezember stark vertreten, ebenso der erste und der fünfzehnte Tag eines Monats, als wichtige Bezugspunkte des Kalenders. Im Gegensatz dazu zeigte sich der 11. als scheinbar außerhalb des Trends liegend mit einer signifikanten Unterrepräsentanz. Mit dem Blick auf die Daten der Google Ngrams-Datenbank von 2000 bis 2008 wurde der Befund bestätigt.
Durch die Verwendung des Medians über die Monatsdaten wurde sichergestellt, dass Ausreißer wie der 4. Juli nicht den Schnitt verzerren. Das Ergebnis zeigte klar, dass der 11. Tag des Monats signifikant seltener genannt wird als jeder andere. Die Untersuchung über längere Zeiträume zeigte darüber hinaus, dass dieses Phänomen kein modernes Zufallsergebnis ist, sondern bis ins 19.
Jahrhundert zurückreicht. Es fiel jedoch auf, dass die Diskrepanz im 19. Jahrhundert, insbesondere ab den 1860er Jahren, dramatisch anwuchs, was eine weitere Erklärung erforderte. Andere ähnlich positionierte Tage wie der 2., 3.
, 22. und 23. Tag wiesen zeitweise ebenfalls niedrige Werte auf, doch deren Effekt verblasste im Laufe des 20. Jahrhunderts, während die Anomalie beim 11. weiterhin bestand.
Die Lösung des Rätsels lag nicht in einem gesellschaftlichen Tabu oder einem besonderen Ereignis, das dem 11. Tag absprach, erwähnt zu werden. Stattdessen waren die Ursachen in den Eigenheiten der Schrift und der maschinellen Texterkennung zu suchen. Die Ziffer Eins ist in vielen Druckschriften kaum von den Buchstaben I, l oder i zu unterscheiden. Eine doppelte Eins, wie sie für den 11.
notwendig ist, kann in entsprechender Typografie leicht mit einem kleinen n verwechselt werden. Diese Unsicherheit bei der optischen Zeichenerkennung führte bei Google-Algorithmen dazu, dass das »11th« fälschlicherweise als »n-th«, »IIth«, »llth« oder andere ähnliche Varianten eingelesen und in der Datenbank falsch zugeordnet wurde. Die Suche nach den fehlerhaft erkannten Begriffen zeigte, dass zahlreiche Varianten wie »IIth«, »Ilth«, »iith«, »lith« oder »llth« in der Datenbank vorhanden sind. Hinzu kamen Mischformen mit Kombinationen von Eins und den genannten Buchstaben. Durch das Hinzufügen dieser fehlerhaften Leseergebnisse zu den ursprünglichen 11.
Erwähnungen stieg die Häufigkeit deutlich an, insbesondere vor den 1860er Jahren wurde die Abweichung weitgehend aufgehoben. Danach blieben jedoch noch signifikante Lücken bestehen. Ein überraschender Faktor war die Fehlinterpretation von »11th« als »nth«. Dieser Begriff, der in mathematischen und wissenschaftlichen Texten üblich ist, wurde ab den 1860er Jahren vielfach als Ersatz falsch eingelesen. Die Anzahl dieser Missverständnisse überstieg in manchen Zeiträumen sogar die korrekten Lesungszahlen.
Wenn diese fehlerhaften »nth« Nennungen zu den »11th« Begriffen addiert wurden, verschwand nahezu die gesamte Diskrepanz. Dies lässt den Schluss zu, dass die Mehrheit der »verlorenen« 11. des Monats lediglich in der Datenbank falsch klassifiziert ist. Die historische Erklärung für die erreichte Häufigkeit der Fehler liegt in der Einführung und Verbreitung der Schreibmaschine in der Mitte des 19. Jahrhunderts.
Frühe Maschinen besaßen keine eigene Taste für die Nummer Eins, sodass oftmals der Kleinbuchstabe l als Ersatz verwendet wurde. Die Typografie und die Schriftentwicklung passten sich dieser Praxis an, sodass die Schriftzeichen Eins und l kaum noch zu unterscheiden waren. Auch in gedruckten Büchern wurde diese Ambivalenz übernommen, was die maschinelle Texterkennung vor große Herausforderungen stellte. Die Unterscheidung wurde selbst in modernen Schriften durch minimale Unterschiede wie Serifen oder Kerning versucht, blieb jedoch fehleranfällig. Dieser Wandel in der Schrift und die zunehmende maschinelle Verarbeitung von Texten führten dazu, dass der 11.
eines Monats in Textdatenbanken oft unterschätzt wird. Während die Druckqualität und die Algorithmen ab den 1970er Jahren präziser wurden, ist das Phänomen der Fehllesung und somit eine unterschätzte Datenmenge noch immer vorhanden. Dies erklärt auch den Ausgangspunkt von Munroes xkcd-Comic, der immer noch sichtbar war und Aufmerksamkeit auf sich zog. Ein besonders interessantes Detail ist die häufige Verwechslung mit dem Begriff »nth«. Trotz seines wissenschaftlichen Ursprungs und einer gewissen Normierung ist diese Fehllesung rätselhaft.
Warum bevorzugt der Algorithmus gerade diese Fehlinterpretation, obwohl die Kombination beispielsweise »January nth« keinen sinnvollen Kontext bildet? Ein Teil der Antwort könnte darin liegen, dass sich bei der maschinellen Analyse von Zeichen und Kontexten das große N und die Nullschwelle des Anfangsbuchstabens in der Schrift ähnlich auswirken. Möglicherweise stammt der Fehler aus Trainingstexten, in denen 11th fehlerhaft als nth markiert wurde, was zu einer systematischen Fehlinterpretation führte. Die genaue Ursache bleibt jedoch offen und könnte nur durch Einsicht in die Quellcodes der Texterkennungsalgorithmen aufgeklärt werden. Die Untersuchung dieses scheinbar kleinen Anomalie-Falls zeigt exemplarisch, wie komplex und vielschichtig die Interpretation großer Textdatensätze sein kann. Typografische Feinheiten, technologische Veränderungen und Fehlerquellen beeinflussen die Datenbasis und können zu falschen Schlüssen führen, wenn sie nicht sorgfältig analysiert werden.
Gerade bei automatisierten Verfahren ist das Verständnis der historischen und technischen Hintergründe entscheidend, um Verzerrungen aufzudecken und richtige Interpretationen zu ermöglichen. Das Phänomen des "fehlenden" 11. Tages im Monat erinnert zudem daran, wie sich Technologien und Sprache im Laufe der Zeit gegenseitig beeinflussen. Die Schreibmaschine, als Meilenstein der Bürotechnologie, brachte neue Schriftgewohnheiten hervor, die wiederum die maschinelle Texterkennung herausforderten. Die Analyse von historischen Daten wird so zu einer multidisziplinären Herausforderung, die Kenntnisse in Linguistik, Informatik und Geschichte erfordert.
Die Ergebnisse der Analyse sind auch für zukünftige Projekte wichtig, die auf der Erfassung schriftlicher Inhalte basieren. Sie verdeutlichen die Notwendigkeit, technische und typografische Eigenheiten in Algorithmen einzubeziehen und nicht blind auf die Korrektheit der Daten zu vertrauen. Eine mögliche Lösung liegt in der Entwicklung von speziell trainierten Modellen, die solche typografischen Besonderheiten erkennen und korrigieren können, um die Datenqualität zu steigern. Zusammenfassend lässt sich sagen, dass das scheinbare Verschwinden des 11. Tages eines Monats in Textdaten keine Folge eines gesellschaftlichen Tabus oder eines Fehlens kultureller Bedeutung ist, sondern vielmehr eine Folge typografischer Verwechslungen und Fehler in der maschinellen Texterkennung.
Die Einführung der Schreibmaschine und ihre Auswirkungen auf Schriftarten führten zu einer erhöhten Rate an Fehleingaben, die später von Algorithmen falsch interpretiert wurden. Dieses Beispiel unterstreicht die Komplexität der Datenanalyse bei großen Textkorpora und weist auf die Bedeutung einer interdisziplinären Herangehensweise hin, um scheinbar simple Datenphänomene korrekt einzuordnen und zu verstehen.