Die rasante Entwicklung von Künstlicher Intelligenz in den letzten Jahren wird maßgeblich durch die Verbreitung von Large Language Models (LLMs) vorangetrieben. Diese Modelle, die auf Milliarden von Parametern basieren, sind in der Lage, natürliche Sprache zu verstehen und zu generieren. Häufig werden solche Modelle auf leistungsfähigen GPUs ausgeführt, die enorme Ressourcen verlangen. Doch wie sieht es aus, wenn man ein LLM wie DeepSeek auf einem FPGA-basierten Prozessor laufen lässt? Diese faszinierende Fragestellung wurde intensiv am Beispiel des ZUBoards von Tria Technologies untersucht, das den AMD Zynq™ UltraScale+™ MPSoC beherbergt. Das Fazit: Der Betrieb ist langsam, aber durchaus spannend und nützlich – vor allem in speziellen Edge-Szenarien.
DeepSeek ist eine moderne Familie von Sprach- und multimodalen Modellen, die mit besonderen Architekturen und quantisierten Varianten gezielt für effiziente Ausführung optimiert wurden. Das Konzept hinter DeepSeek ist es, eine Open-Source-Alternative zu bekannten großen Modellen zu bieten, die dennoch zeitgemäße Benchmark-Ergebnisse vorweisen kann. Die besondere Herausforderung ist dabei, die Komplexität der einzelnen Modelle an die Hardware-Bedingungen anzupassen. Das ZUBoard ermöglicht durch seine Kombination aus ARM Cortex-A53 Prozessoren und FPGA-Funktionalität eine interessante Plattform, um Deep Learning Modelle ohne dedizierte GPUs zu testen. Die verfügbaren 1 GB LPDDR4 RAM und die begrenzten Rechenressourcen signalisieren sofort, dass der Betrieb eines 1,5 Milliarden Parameter Modells wie DeepSeek auf diesem Gerät mit erheblichen Einschränkungen einhergeht.
Dennoch bietet die Installation und Ausführung dieser KI auf der Plattform viel Lernpotential und praktischen Wert. Eines der Hauptargumente für lokale LLM-Ausführungen liegt in Datenschutz und Unabhängigkeit. Beim Edge-Deployment verbleiben sowohl die Daten als auch das Modell vollständig auf dem Gerät. Dies eliminiert den Bedarf an ständiger Internetverbindung und gibt Endanwendern volle Kontrolle über ihre Daten. Gerade in Branchen wie dem Gesundheitswesen oder der Verteidigung kann dies ein entscheidender Vorteil sein.
Technisch gesehen ist die Konfiguration für den Betrieb von DeepSeek auf dem ZUBoard jedoch nicht trivial. Wegen des knappen Arbeitsspeichers ist ein großes Swap-File auf der SD-Karte notwendig, um Speicherüberläufe zu verhindern. Dies führt aber zwangsläufig zu einer Verlangsamung der Modellinferenz, da der SD-Kartenzugriff wesentlich langsamer ist als RAM-Zugriffe. Die Open-Source-Frameworks wie PYNQ und Ollama sind wichtige Komponenten, um das Setup und die Verwaltung des Modells zu erleichtern. PYNQ bietet ein Linux-basiertes Betriebssystem, das speziell für die Zynq Familie entwickelt wurde, inklusive der notwendigen Treiber und Entwicklungsumgebungen.
Ollama wiederum fungiert als Framework zur einfachen Installation und Lokalausführung von LLMs und vereinfacht so auch das Management des Speicherbedarfs und der Modellgewichte. Beim Einsatz des DeepSeek 1,5-Milliarden-Parameter-Modells fällt schnell auf, dass die Reaktionszeiten deutlich höher sind als auf einer GPU. Einfache Befehle und Textanfragen erfordern mehrere Sekunden oder gar Minuten, das Modell verarbeitet Daten äußerst langsam. Dennoch ist die Genauigkeit trotz der reduzierten Modellgröße überzeugend und für viele Anwendungsfälle ausreichend. Der Einsatz auf Edge-Geräten ermöglicht es, Szenarien zu realisieren, die in der Cloud aufgrund von Datenschutzrichtlinien oder fehlender Netzanbindung nicht möglich wären.
Beispiele hierfür sind smarte Industrieanlagen, autonome Fahrzeuge oder sichere lokale Assistenten. Ein weiterer faszinierender Aspekt des Projekts ist die Möglichkeit, neben textbasierten auch multimodale Modelle von DeepSeek (DeepSeek-VL) zu verwenden. Diese erweitern die Fähigkeiten um Bild-Text-Verarbeitung und öffnen somit ganz neue Horizonte für Embedded KI-Systeme. Aus Performance-Sicht gibt es noch erheblichen Optimierungsbedarf. Der eingeschränkte Arbeitsspeicher, die fehlende native Hardwarebeschleunigung für Multiplikationen und die verwendete Swap-Datei bremsen die Ausführung aus.
Zukünftige Versionen könnten von kleineren, quantisierten Modellen profitieren, die speziell für FPGA-Umgebungen optimiert sind. Außerdem sind anspruchsvollere FPGA-Implementierungen mit spezialisierten KI-Beschleunigern wie DSP-Blöcken denkbar, um die Geschwindigkeit deutlich zu steigern. Zusammenfassend eröffnet die Umsetzung von DeepSeek auf dem FPGA-Prozessor des ZUBoards eine spannende Perspektive, wie KI-Modelle auch auf ressourcenbegrenzter Edge-Hardware betrieben werden können. Zwar ist die Leistung nicht mit der von GPU-basierten Systemen vergleichbar, jedoch zeigt das Projekt, dass solche Systeme durchaus sinnvoll für bestimmte Anwendungsfälle eingesetzt werden können, insbesondere dort, wo Datenschutz, Kostenersparnis und Unabhängigkeit im Vordergrund stehen. Dieser langsame, aber dennoch funktionale Betrieb ist ein wichtiger Schritt, um KI fernab großer Rechenzentren erlebbar zu machen und gleichzeitig neue Wege für die Nutzung künstlicher Intelligenz am Rande des Netzes zu schaffen.
Die Kombination aus Open-Source-Software, kostengünstiger Hardware und innovativen Modellen wie DeepSeek zeigt, dass die Zukunft der KI nicht ausschließlich in gigantischen Serverfarmen liegen muss, sondern auch in kleinen, eigenständigen Geräten stattfinden kann. Die Zukunft verspricht dank Fortschritten in Quantisierung, Hardware-Design und Optimierung noch schnellere und effizientere Lösungen, die präzise auf die Anforderungen und Beschränkungen von Edge-Geräten zugeschnitten sind. Interessierte Entwickler und Forscher können vom Projekt dadurch profitieren, dass sie praktische Einblicke in die Herausforderungen der KI-Integration auf FPGAs erhalten und gleichzeitig innovative Anwendungen entwerfen können, die abseits traditioneller Infrastrukturen angesiedelt sind. Letztendlich beweist der Versuch, DeepSeek auf einem FPGA-Prozessor auszuführen, dass auch wenn Geschwindigkeit und Performance aktuell limitiert sind, Spaß, Erkenntnisgewinn und der Blick in die Zukunft der Embedded-KI enorme Motivation bieten und ein wertvolles Erlebnis darstellen.