Mit dem rasanten Vormarsch generativer Künstlicher Intelligenz (KI) stehen Unternehmen, Analysten und Technologiebeobachter vor einer elementaren Herausforderung: Wie misst man eigentlich den Erfolg und das Wachstum dieser Technologie? Anders als bei früheren Plattformen oder Produkten, bei denen relativ klare Kennzahlen etabliert wurden, herrscht bei KI aktuell eine große Unklarheit darüber, welche Metriken sinnvoll und aussagekräftig sind. Diese Unsicherheit ist auf verschiedene Faktoren zurückzuführen – sowohl auf die technologische Vielfalt als auch auf die unterschiedlichen Nutzungsarten und Anwendungsbereiche von KI. Ein Blick auf die Geschichte der Technologiemessung gibt wertvolle Hinweise, wie heute mit der Bewertung von KI umgegangen werden kann. Die Geschichte der Messung im Technologiesektor zeigt, dass es nie eine Norm gab, die von Anfang an galt. Im frühen Internetzeitalter dominierte beispielsweise die Zahl der Internet-Hosts oder die Anzahl der verkauften PCs als wichtige Größen.
Als das World Wide Web aufkam, war „Hits“ eine zeitlang das Maß der Dinge – obwohl der Begriff viel über das Nutzererlebnis verzerrte, denn selbst einfache Änderungen an einer Webseite konnten die „Hits“ vermehren, ohne dass tatsächlich mehr Nutzer gewonnen wurden. Später entwickelten Plattformen sehr spezielle Metriken, die besser auf das Nutzerverhalten eingingen: So wurden bei sozialen Netzwerken zum Beispiel MAU (Monthly Active Users) und DAU (Daily Active Users) zum Standard. Im Smartphone-Zeitalter traten andere Kennzahlen in den Vordergrund – beispielsweise die Anzahl der verkauften Geräte, die installierte Nutzerbasis und Kennzahlen wie Average Selling Price (ASP) oder Average Revenue Per User (ARPU). Diese Zahlen lieferten abstrakte, aber trotzdem vergleichbare Maßstäbe für Wachstum und Marktakzeptanz. Doch das brachte auch eine neue Herausforderung mit sich: Unternehmen wählten bewusst die Metrik, die ihre Perspektive am vorteilhaftesten darstellte.
Apple fokussierte sich zum Beispiel gerne auf die Anzahl der Apps im App Store, während Google eher über „kumulative Aktivierungen“ von Android sprach. Nicht zuletzt sorgen solche Kennzahlen auch für Abgrenzungsdebatten wie im Fall der FTC, die zunächst zweifelte, ob Instagram tatsächlich mit TikTok konkurriert, da unterschiedliche Messgrößen wie Verweildauer, Anzahl der abgespielten Videos oder realweltliche Verbindungen herangezogen wurden. Mit generativer KI tritt dieser Messproblem-Komplex besonders deutlich zu Tage. Konkrete, vergleichbare und aussagekräftige Metriken fehlen weitgehend. OpenAI beispielsweise veröffentlicht hin und wieder Zahlen zu „Weekly Active Users“ (WAU), was zwar eine greifbare Kennzahl ist, aber auch als eingeschränkter Maßstab gilt.
Wer ein Tool nur einmal pro Woche nutzt, ändert damit seinen Alltag kaum nachhaltig – wichtig wäre also zu wissen, wie tiefgreifend eine KI im Leben oder Arbeitsalltag der Menschen verankert ist. Zudem bestehen Probleme bei der Definition: Bezieht sich „KI-Nutzung“ auf KI-gestützte Chatbots wie ChatGPT, Claude oder Gemin? Oder umfasst sie auch smarte Filter bei Snapchat oder Alexa-basierte Sprachsteuerungen? Die Grenzen zwischen Anwendungsszenarien sind fließend und machen Umfragen und Erhebungen problematisch. Ein weiteres Messinstrument, das von Microsoft und Google verwendet wird, ist die Zahl der generierten Tokens. Solche Rohdaten geben Aufschluss über die reine Nutzung, aber sie sind nicht ohne weiteres interpretierbar. Denn der Tokenverbrauch hängt erheblich von Faktoren ab, die nichts mit echter Nutzerbindung oder Wachstum zu tun haben: Zum Beispiel werden Agenten und Medien-Erzeugungs-Tools viel mehr Tokens für ähnliche Anfragen verbrauchen als einfache Chatbots.
Zusätzlich werden Modelle immer effizienter im Umgang mit Tokens, sodass ein Anstieg des Tokenaufkommens nicht unbedingt ein Wachstum der Nutzerzahlen oder der Nutzung insgesamt widerspiegelt. Solche Metriken lassen sich mit der frühen Aufmerksamkeit für steigende Bandbreite im Internet der 1990er-Jahre vergleichen – für sich genommen beeindruckend, aber wenig aussagekräftig, wenn man nicht versteht, was genau die Zunahme verursacht. Zeitlich messbare und aussagekräftige Daten zur tatsächlichen Verweildauer bei KI-Anwendungen fehlen bislang größtenteils. Wo Umfragen zu Daily Active Users und durchschnittlicher Nutzungsdauer vorliegen, sind sie meist unspezifisch und selten langfristig erhoben. Drittanbieter haben insbesondere in mobilen Ökosystemen Probleme, verlässlich an solche Daten heranzukommen.
Ein weiteres Paradoxon bieten unterschiedliche Kennzahlen zur Bindung von Nutzern: Während manche Berichte steigende Loyalitätswerte zeigen, sinkt gleichzeitig die absolute Nutzerzahl. Mathematisch ist das logisch, doch es sorgt im Kontext der PR und Marktanalyse für Verwirrung. Unternehmen wie Google und Meta als Branchenvorreiter nutzen weit mehrschichtige und präzise Metriken, die stark auf das Nutzerverhalten eingehen. Google überwacht beispielsweise die Suchantwortzeiten – eine Kennziffer, die lange unterschätzt wurde, damit aber die Basis dafür bildet, wie effizient eine Suche für Nutzer abläuft. Überdies achtet Google darauf, dass User schnell wieder abspringen, falls die Suchergebnisse nicht passen, was für eine Optimierung des Produkts wesentlich ist.
Solche Rückkopplungssysteme schaffen Netzwerkeffekte, die das Produkt stetig verbessern. Im Bereich Künstlicher Intelligenz stehen allerdings viele Anbieter noch am Anfang und bringen kaum vergleichbare Rückkopplungsschleifen zum Einsatz, die validemetrisch nutzbare Daten über Nutzerzufriedenheit oder genaue Interaktionen liefern können. Die große Euphorie rund um generative KI führt häufig zu Vergleichen mit historischen Disruptionen wie dem Aufstieg des Internets oder der Smartphone-Einführung. Dabei gilt es, solche Vergleiche mit Vorsicht zu genießen. Die ursprünglichen Macintosh-Computer kosteten mehrere tausend Dollar, das erste iPhone war mit annähernd 800 US-Dollar vergleichsweise teuer.
Heute erreicht man generative KI per Website oder App, ohne zusätzliche Hardware zu benötigen. Der Zugang zu Milliarden von Internetnutzern ist heute selbstverständlich, während früher viele Nutzer erst erschlossen werden mussten. Nvidia zum Beispiel profitiert stark von dieser Infrastruktur und kann ihre Hardware schnell skalieren. Dennoch müssen solche Vergleiche die unterschiedlichen Voraussetzungen und Rahmenbedingungen berücksichtigen, um nicht zu irreführenden Schlüssen zu verleiten. Aus dieser Perspektive ist es verständlich, dass die Auswahl der richtigen Metriken auch eine Frage der noch nicht abgeschlossenen Entwicklung von Geschäftsmodellen und Produktangeboten im Bereich KI ist.
Während einige Large Language Models (LLMs) als eigenständige Chatbots agieren, werden andere vor allem in bestehende Produkte und Prozesse eingebettet – ähnlich wie Datenbanken oder Machine Learning Algorithmen, die im Hintergrund ablaufen und kaum unmittelbar vom Endnutzer wahrgenommen werden. Die Messung der Verbreitung von KI als eigenständige Plattform wird dadurch komplexer und in ihrer Aussagekraft begrenzt. Nicht zuletzt bleiben viele Fragen zum Einfluss von KI auf Märkte und Nutzergewohnheiten offen. Wird KI wie Google die Anzahl der Suchanfragen beeinflussen? Führt die Interaktion mit LLMs zu häufigeren Gerätetauschzyklen? Ändert sich durch KI das Verhalten beim Onlinehandel oder die Suchmaschinenoptimierung? Diese Fragen verlangen nicht nur neue Metriken, sondern auch ein Umdenken in der Art und Weise, wie technologischer Erfolg gemessen wird. Angesichts der Unsicherheit, wie genau der Markt für KI sich entwickelt und welche Produkte sich durchsetzen werden, spielen finanzielle Indikatoren und Zeit als Ressource eine besonders zentrale Rolle.
Letztlich lässt sich die Relevanz von KI durch die Investition von Geld oder die eingesparte Zeit bewerten. Doch aufgrund der Vielzahl von Anwendungen, der unterschiedlichen Nutzergruppen und der sich schnell wandelnden Technologie bleibt die Messung aktuell ein Puzzle mit vielen offenen Teilen. Insgesamt zeigt die Entwicklung in der Technologiegeschichte, dass gerade die Anfangsphasen neuer Paradigmen mit Unklarheiten bei der richtigen Daten- und Kennzahlenwahl verbunden sind. Für Künstliche Intelligenz gilt dies in besonderem Maße, da sie nicht nur eine Technologie, sondern ein Fundament für eine Vielzahl von zukünftigen Anwendungen bildet. Die Identifikation und Standardisierung von belastbaren Metriken wird erst im Laufe der kommenden Jahre möglich sein, wenn sich klarere Geschäftsmodelle und Nutzerstrukturen etabliert haben.
Bis dahin bleibt die Herausforderung bestehen, verschiedene Dimensionen zu berücksichtigen: Von den bloßen Aktivitätszahlen über die Qualität und Tiefe der Nutzung bis hin zu den langfristigen Effekten auf Wirtschaft und Gesellschaft. Wer diesen Wandel begleiten möchte, benötigt ein feines Gespür für Bedeutung, Kontext und Grenzen von Zahlen – und ein Bewusstsein darüber, dass die derzeitigen Metriken Momentaufnahmen in einem sich dynamisch entwickelnden Feld sind.