Die rasante Entwicklung Künstlicher Intelligenz (KI) fordert eine Infrastruktur, die nicht nur leistungsfähig, sondern auch hochgradig belastbar und skalierbar ist. Immer mehr Unternehmen setzen auf KI-Lösungen zur Automatisierung, Analyse und Entscheidungsfindung. Gleichzeitig steigen die Anforderungen an die Verfügbarkeit und Performance der zugrunde liegenden Modelle exponentiell. Harvey, ein führendes Unternehmen im Bereich KI-gestützter Assistenzsysteme, demonstriert eindrucksvoll, wie eine robuste KI-Infrastruktur aussehen kann, die hunderttausende von täglichen Anfragen zuverlässig bewältigt und gleichzeitig höchste Qualitätsstandards erfüllt.Im Zentrum von Harveys Lösung steht die Fähigkeit, KI-Modelle effizient zu steuern, zu skalieren und auf verteilte Ressourcen zu verteilen.
Die Kernherausforderung besteht darin, die Rechenlast über verschiedene Modellversionen und deren Einsatzzwecke so zu managen, dass eine stets stabile Systemleistung gewährleistet ist. Diese Aufgabe wird durch die unterschiedlichen Anforderungen der Anfragen erschwert. So variieren Anfragen beispielsweise hinsichtlich der Länge der Aufforderungstexte (Prompt Tokens) sowie der zu generierenden Antworten (Completion Tokens). In der Praxis bedeutet dies, dass jede Abfrage individuell eine unterschiedliche Menge an Rechenkapazität beansprucht. Die Infrastruktur muss also flexibel und intelligent genug sein, um diesen dynamischen Anforderungen gerecht zu werden und gleichzeitig die Performance für den Endnutzer konstant hoch zu halten.
Harvey verarbeitet dabei täglich Milliarden von Eingabetokens und generiert dabei hundert Millionen Ausgabetokens. Darüber hinaus zeigt das Nutzungsverhalten oft ein „bursty traffic“-Muster: Während einige Funktionen nur wenige Anfragen mit hohem Token-Volumen generieren, kommen andere Features mit vielen, jedoch leichteren Requests. Um dieser Dynamik gerecht zu werden, setzt Harvey auf eine aktive Lastverteilung in Verbindung mit einem kontinuierlichen Monitoring der Modellressourcen in allen eingesetzten Umgebungen. Ziel ist es, die Auslastung zu optimieren und Fehler oder Überlastungen schon im Vorfeld zu vermeiden.Die Zuverlässigkeit der KI-Systeme steht dabei an erster Stelle.
Jedes Modelldeployment verfügt über begrenzte Ressourcen, deren Kapazität bei gleichzeitig eintreffenden Anfragen leicht überschritten werden kann. Ein solcher Engpass führt zu längeren Antwortzeiten, Timeouts oder gar Ausfällen, was wiederum das Benutzererlebnis beeinträchtigt. Besonders bei Traffic-Spitzenzeiten steigt dieses Risiko an. Daher hat Harvey eine Reihe von Schutzmechanismen etabliert, die auch bei hoher Last die Verfügbarkeit der Systeme gewährleisten.Neben der einfachen Skalierbarkeit ist ein weiteres großes Anliegen, die Einführung neuer Modelle und Features so unkompliziert und schnell wie möglich zu gestalten.
Im schnelllebigen KI-Umfeld ist es entscheidend, neue Modelle umfassend zu bewerten, ihre Leistung zu messen und ihre Integration in die Produktlandschaft zügig voranzutreiben, ohne dabei Entwickler unnötig zu bremsen. Bei Harvey wird dies durch eine zentrale Python-Bibliothek realisiert, die sämtliche Modellinteraktionen abstrahiert und durch eine modulare Konfigurationsstruktur einen schnellen Wechsel und die Erweiterung des Model-Portfolios ermöglicht. Diese Bibliothek verbindet auch eine interne Proxylösung sowie einen Gesundheitsmonitor für Modelle, was maximale Ausfallsicherheit und Skalierbarkeit sicherstellt.Ein wesentlicher Baustein für eine verlässliche Performance ist die intelligente Auswahl von Modellendpunkten (Model Endpoint Selection). Harvey unterhält parallele Deployments für jedes Modellfamilie und bewertet deren Leistungsfähigkeit anhand kontinuierlich erhobener Service Level Indicators, wie etwa Latenzzeiten und Erfolgsraten.
Nur gesunde und zuverlässige Instanzen werden für Anfragen in Betracht gezogen. Dabei erfolgt die Auswahl basierend auf einem gewichteten Verfahren, das Kapazitäten, Standort und Zustandsindikatoren berücksichtigt. Dieses komplexe System sorgt dafür, dass Anfragen stets an geeignete und verfügbare Modelle weitergeleitet werden, selbst wenn einzelne Deployments temporär beeinträchtigt sind.Ein weiterer wichtiger Faktor ist das Ressourcenmanagement durch ein zentrales Quoten- und Ratenlimitierungssystem. Die Infrastruktur schützt sich damit vor Überlastung und ermöglicht gleichzeitig eine kontrollierte Auslastung basierend auf dem konkreten Nutzungskontext, der sowohl den Anwendungsfall, die Umgebung, den Benutzer als auch Workspace-Daten umfasst.
Die Gewichtung von Anfragen erfolgt nach der Anzahl der beteiligten Prompt Tokens, sodass auch im Falle plötzlicher Traffic-Veränderungen die Systemstabilität gewahrt bleibt. Das genutzte Algorithmusdesign basiert auf einer verteilten Token-Bucket-Strategie, die sowohl schnelle Reaktionszeiten als auch eine konstante Speicherkomplexität gewährleistet und sich gut für Bursts eignet. Besonders hervorzuheben ist die Möglichkeit, Quotenkonfigurationen in Echtzeit und ohne Neustart sämtlicher Frontend-Cluster anzupassen. Ein solcher Mechanismus trägt zur schnellen Fehlerbehebung und Lastumverteilung bei.Die Entwickler bei Harvey profitieren zudem von einem leichten und sicheren Zugang zu den Modellservices.
Anstelle von verstreuten, komplizierten API-Zugängen sorgt ein zentraler Modellproxy für einen konsolidierten und überwachten Zugriff. Diese transparente API-Proxylösung ist kompatibel mit existierenden Standards wie der OpenAI API Spezifikation, was die Adoption von neuen Modellen und Workflows vereinfacht. Zugleich schützt der Proxy kritische Zugangsdaten, ermöglicht eine zentrale Nachverfolgung aller Modellaufrufe und vermeidet unbeabsichtigte Belastungen der Systemressourcen durch lokale Entwicklungsumgebungen oder automatisierte Pipelines.Ein essenzielles Element für den langfristigen Erfolg des KI-Stacks ist die umfassende Beobachtbarkeit und Monitoringfähigkeit der gesamten Infrastruktur. Trotz vielseitiger Absicherungen können unerwartete Fehler und Zustandsänderungen auftreten.
Um diese frühzeitig zu erkennen, setzt Harvey auf fein granulierte Telemetriedaten und strikte Burn Rate Alarme zur Einhaltung der vereinbarten Servicelevel. Die erfassten Daten umfassen neben technischen Metriken auch eine detaillierte Verbrauchsabrechnung von Prompt- und Output Tokens. Alle relevanten Messpunkte werden in einem firmeneigenen Daten-Pipeline-System gesammelt und für Analyse- und Reporting-Zwecke in einem zentralen Data Warehouse (Snowflake) abgelegt. Dies erlaubt datengetriebene Entscheidungen zur Kostenkontrolle und zur Optimierung der Infrastruktur.Auch wenn die bislang erreichten Fortschritte beeindruckend sind, bleibt die Weiterentwicklung der AI-Infrastruktur bei Harvey ein Dauerprojekt.
Ständig werden neue Möglichkeiten zur Reduktion von Latenzen, Kosten und Komplexität gesucht. Aspekte wie eine noch feinere Quotenverteilung, verbesserte Echtzeit-Metriken oder optimierte Rate Limiter stehen auf der Agenda. Dabei verfolgt das Team eine pragmatische Philosophie mit dem Fokus auf einfache, robuste Lösungen, die sich horizontal skalieren lassen und somit für das erwartete Wachstum gewappnet sind.Im Ergebnis zeigt die Arbeit bei Harvey exemplarisch, wie moderne KI-Anwendungen nur dann erfolgreich am Markt bestehen können, wenn sie auf einer durchdachten technischen Basis aufgebaut sind, die Lasten intelligent verteilt, neue Modelle schnell integriert und gleichzeitig eine hohe Verfügbarkeit garantiert. Die Investitionen in ein resilienten und gut überwachten Infrastrukturstack erlauben es, den Kunden jederzeit hochwertige KI-Erlebnisse zu bieten und zugleich die internen Abläufe schlank und effizient zu halten.
Für Unternehmen und Entwickler, die vor der Herausforderung stehen, KI in großem Maßstab zu betreiben, liefert Harveys Architektur wertvolle Impulse und Best Practices für die Zukunft der KI-Infrastruktur.