In der Welt der künstlichen Intelligenz dominiert oft die Vorstellung, dass leistungsfähige Modelle enorme Ressourcen und moderne Hochleistungsrechner benötigen. Während Rechenzentren und schnelle GPUs als unverzichtbar gelten, hat eine spannende Entwicklung diese Denkweise auf den Kopf gestellt: Die erfolgreiche Implementierung des Llama-Modells auf einem 25 Jahre alten Windows 98 Rechner mit Pentium II Prozessor. Dieses Projekt, realisiert im Rahmen der „12 Tage von EXO“-Reihe, zeigt eindrucksvoll, dass moderne KI auch auf älterer, scheinbar veralteter Hardware laufen kann und öffnet damit Türen zu völlig neuen Anwendungsmöglichkeiten und Perspektiven für KI-Unterstützung auf weniger leistungsfähigen Geräten.Die Herausforderung, Llama auf Windows 98 auszuführen, umfasst mehrere technische Hürden, angefangen bei der Hardwarebeschaffung bis hin zur Kompatibilität moderner Software mit einem Betriebssystem von 1998. Für das Projekt wurde ein Windows 98 PC mit Pentium II und 128 MB Arbeitsspeicher für rund 118 Pfund über eBay gekauft.
Diese Hardwareausstattung mag inzwischen antiquiert erscheinen, doch sie stellt den ultimativen Prüfstein für die Portabilität eines KI-Modells dar. Die Botschaft dahinter ist klar: Wenn es auf so einer Maschine läuft, dann läuft es grundsätzlich überall.Ein erstes Hindernis war die Integration moderner Peripheriegeräte. USB-Tastaturen und -Mäuse funktionierten auf dem alten System nicht, sodass auf PS/2-Anschlüsse zurückgegriffen werden musste. Interessanterweise funktionieren diese nur, wenn die Maus am ersten und die Tastatur am zweiten PS/2-Port angeschlossen werden – eine Unwägbarkeit, die mit der veralteten Hardware zusammenhängt, aber entscheidend für die Bedienbarkeit des Systems war.
Beim Transfer von Dateien auf das Windows 98 System stießen die Entwickler auf weitere Komplikationen. Weder RW-Datenträger noch moderne USB-Sticks mit großer Speicherkapazität wurden vom Betriebssystem erkannt oder unterstützt. Als Lösung diente altbewährtes FTP, um Daten vom modernen MacBook Pro über ein Ethernet-Netzwerk auf den Retro-PC zu übertragen. Dieses Vorgehen unterstrich eindrucksvoll, wie bewährte Technologien über Jahrzehnte hinweg kompatibel geblieben sind und neue sowie alte Hardwarewelten miteinander verbinden können.Das Kompilieren des KI-Modells stellte die nächste große Herausforderung dar.
Moderne Compiler wie mingw, die theoretisch Windows 98 unterstützen könnten, scheiterten wegen fehlender Hardwareunterstützung für bestimmte Prozessorinstruktionen wie CMOV. Stattdessen griff das Team auf Borland C++ 5.02 zurück, einen 26 Jahre alten, aber bewährten Compiler, der sowohl auf dem alten Betriebssystem läuft als auch mit den alten C-Standards kompatibel ist. Diese Einschränkungen bedeuteten, dass für das Projekt die Software auf den älteren Standard angepasst und teilweise erheblich umgeschrieben werden musste. Variablen mussten zum Beispiel strikt am Anfang einer Funktion deklariert werden, da spätere C-Standards, die flexiblere Deklarationen erlauben, nicht unterstützt werden.
Ein großer Glücksfall war das Vorhandensein von Andrej Karpathys „llama2.c“. Dieses schlanke KI-Modell besteht aus rund 700 Zeilen C-Code und eignet sich hervorragend, um als Basis zu dienen. Für die Windows 98 Portierung wurden mehrere Anpassungen vorgenommen: Datentypen wie „long long“ wurden durch eigens definierte Typen ersetzt, der Code für das Laden von Dateien vereinfacht, um Kompatibilitätsprobleme zu vermeiden, und zeitbasierte Funktionen wurden durch Windows-spezifische Aufrufe wie GetTickCount() ersetzt. Dieses sorgfältige Arbeiten machte es möglich, dass eine reduzierte Version des Llama-Modells mit 260.
000 Parametern tatsächlich lauffähig wurde und auf dem SSD Pentium II System einwandfrei Geschichten generierte.Die Leistungsdaten des Projekts sind zwar weit entfernt von aktuellen ChatGPT-Geschwindigkeiten, dennoch beeindruckend: Das kleinste Modell erzielte knapp 40 Token pro Sekunde, während ein Modell mit einer Milliarde Parametern immerhin noch knapp 0,009 Token pro Sekunde erreichte. Das zeigt, dass auch auf alten Prozessoren eine rudimentäre Ausführung moderner KI möglich ist, natürlich mit deutlichen Performance-Einbußen. Doch für ein System von vor einem Vierteljahrhundert ist das bereits ein bemerkenswerter Erfolg.Neben der praktischen Umsetzung auf alter Hardware wirft das Projekt einen Blick in die Zukunft der KI mit dem BitNet-Ansatz.
BitNet nutzt ternäre Gewichte, die nur die Werte 0, 1 oder -1 annehmen, was die Rechenoperationen auf das einfache Addieren und Subtrahieren reduziert. Durch diese drastische Vereinfachung benötigt ein 7-Milliarden-Parameter-BitNet-Modell lediglich etwa 1,38 Gigabyte Speicher – ein Fassungsvermögen, das sogar ein 20 Jahre alter PC mit kleiner Festplatte bewältigen kann.Dieser neue Weg verfolgt nicht nur die Reduktion des Speicherbedarfs, sondern auch eine deutliche Steigerung der Energieeffizienz und verbessert die Ausführungsgeschwindigkeit auf CPUs erheblich. Während ein traditionelles vollpräzises Modell sehr ressourcenintensiv ist, kann BitNet auf einem modernen Intel i7-Prozessor 18 Token pro Sekunde erzeugen und sogar auf Apples M2 Ultra mehr als 50 Token pro Sekunde. Die Skalierbarkeit auf mehrere hundert Milliarden Parameter mit akzeptabler Geschwindigkeit macht BitNet spannend für eine breite Masse an Nutzern und Anwendungen.
Die Verbreitung und Weiterentwicklung von BitNet-Modellen bedeutet eine entscheidende Verschiebung im KI-Markt: Weg von massiven und spezialisierten Rechenzentren hin zu dezentral erledigten Prozessen, die auf alltäglichen Geräten laufen können. Das eröffnet eine neue Ära, in der AI nicht nur mächtiger, sondern auch zugänglicher und ökologischer wird.Die Initiatoren des Projekts rufen dazu auf, ähnliche Herausforderungen anzugehen und KI auf verschiedensten Geräten zum Laufen zu bringen – angefangen von alten Macs, Gameboys, Smartphones älterer Generationen bis hin zu preisgünstigen Einplatinencomputern. Der ins Leben gerufene Discord-Kanal #retro dient dabei als Plattform zum Austausch, zur gemeinsamen Problemlösung und zur Gemeinschaftsbildung rund um das Retro-KI-Computing.Insgesamt zeigt das Projekt eindrucksvoll, dass künstliche Intelligenz nicht zwangsläufig an neueste Hardware und riesige Rechenzentren gebunden ist.
Vielmehr kann sie so gestaltet werden, dass sie auf erschwinglicher, bewährter und vorhandener Infrastruktur läuft. So können mehr Menschen von den Möglichkeiten der KI profitieren, ohne enorme Investitionen tätigen oder auf Cloud-Lösungen angewiesen zu sein.Das Laufenlassen von Llama auf einem Windows 98 Pentium II PC ist mehr als nur ein technisches Experiment. Es symbolisiert den Wunsch, KI für alle zugänglich zu machen und bewährte Computertechnik in Zeiten ständiger Innovation nicht einfach auszuschließen. Mit der Weiterentwicklung von Architekturen wie BitNet steht die KI vor einer Revolution, die Energieeffizienz, Hardware-Kompatibilität und Zugänglichkeit neu definiert.
Wer heute noch denkt, dass KI nur in großen Rechenzentren möglich ist, sollte das Llama-auf-Windows-98-Projekt betrachten und seine Perspektive überdenken. Es beweist, dass der Geist der Innovation keine Altersgrenze kennt. Die ärgste Konkurrenz für den neuesten High-End-Prozessor könnte künftig ein Computer sein, der seit Jahrzehnten zuverlässig seinen Dienst tut – bereit, durch geschickte Softwareentwicklung und neue Modellarchitekturen auch im Jahr 2024 und darüber hinaus wieder zum Leben erweckt zu werden.