In der modernen Softwareentwicklung sind Continuous Integration und Continuous Delivery (CI/CD) essenzielle Bestandteile, um agile Release-Zyklen zu gewährleisten und die Qualität von Software kontinuierlich zu verbessern. GitHub Actions hat sich dabei als leistungsstarke Plattform etabliert, die Automatisierungen im Softwareentwicklungsprozess unterstützt. Doch gerade in großen, global agierenden Konzernen wie Cisco entstehen durch den Einsatz von GitHub Actions neue Herausforderungen. Die Skalierung, der sichere Betrieb und die effiziente Verwaltung von Runner-Infrastrukturen sind komplex und ressourcenintensiv. Genau hier setzt Cisco mit seiner Plattform ForgeMT an, die ephemere Runner (also flüchtige und temporäre Runner) sowie eine strikte Mandantenisolation nutzt, um Nachhaltigkeit, Sicherheit und Performance zu gewährleisten.
Vor der Einführung von ForgeMT gestaltete es sich so, dass jede Engineering-Gruppe bei Cisco innerhalb der Security Business Group eigene CI-Infrastrukturen aufbaute, was eine Vielzahl an Problemen mit sich brachte. Die technische Fragmentierung führte zu redundanter Arbeit, Sicherheitslücken, hoher Betriebsintensität und einem trägen Ablauf bei der Onboarding-Prozedur neuer Teams. Unterschiedliche CI-Systeme wie Jenkins, Travis oder Concourse taten ihren Dienst, doch der Mangel an Standardisierung erhöhte den Wartungsaufwand und führte zu schwer zu durchschauenden Sicherheitsrichtlinien. Das Ergebnis war eine ineffiziente Nutzung von Ressourcen und eine Limitierung der Skalierbarkeit.Die von Cisco entwickelte Lösung ForgeMT bündelt nun alle Teams und deren Workloads innerhalb einer zentral verwalteten, multi-tenant GitHub Actions Runner Plattform und ermöglicht so sicheres und automatisiertes CI/CD im Unternehmen.
Die Verwendung ephemerer Runner spielt dabei eine herausragende Rolle. Diese Runner werden bei jeder neuen Jobausführung nur temporär bereitgestellt und nach Abschluss unmittelbar wieder entfernt. Diese Architektur gewährleistet, dass keine persistenten Zustände oder Konfigurationsdrifts entstehen, die auswertbar oder anfällig für Angriffsszenarien sind. Jede Ausführung beginnt somit auf einer sauberen und standardisierten Umgebung ohne Backdoors oder Altlasten.Die Mandantenisolation ist eng mit der Ephemerie der Runner verknüpft.
ForgeMT sorgt dafür, dass jede Unternehmensgruppe oder jedes Team eindeutig voneinander abgegrenzt wird und keinerlei Daten, Geheimnisse oder Laufzeitinformationen zwischen Mandanten geteilt werden. Dies wird durch eine Kombination aus IAM-Rollen- und OIDC-gestütztem Zugriff mit fein granulierten Berechtigungen umgesetzt. Darüber hinaus werden im Kubernetes-basierten Teil der Plattform für jeden Mandanten separate Namespaces, Service Accounts und Policies eingesetzt, während auf der EC2-Ebene isolierte Instanzen mit jeweils eigenen Sicherheitsgruppen laufen. Diese Herangehensweise minimiert die Angriffsfläche, vereinfacht Compliance-Prüfungen und erhöht das Vertrauen in die Infrastruktur.Technisch stützt sich ForgeMT auf eine Reihe moderner Tools und Automatisierungen.
Die Runner selbst werden entweder als EC2-Instanzen oder in Kubernetes-Pods mit Actions Runner Controller ausgeführt. EC2-Runner profitieren von optimierten AMIs, die vorkonfiguriert sind und regelmäßig über automatisierte Pipelines auf dem neuesten Sicherheitsstand gehalten werden. Spot-Instances werden mit Bedacht eingesetzt, um Kosten zu reduzieren, ohne die Zuverlässigkeit zu gefährden. Die Kubernetes-Runner hingegen nutzen das Calico-Netzwerk für ein effizientes IP-Management und Karpenter für dynamisches Autoscaling, wodurch eine schnelle, kosteneffektive und skalierbare Auslastung sichergestellt wird.Die Automatisierung in ForgeMT beschränkt sich nicht nur auf die Bereitstellung der Runner.
Das System orchestriert auch das Lifecycle-Management von Runner-Image-Updates, den Schutz vor Terraform-Drifts und die weltweite Koordination der GitHub Actions Locks, um parallele Konflikte zu vermeiden. Die Integration mit Splunk Cloud bringt eine umfassende Observability, bei der sämtliche Logs und Metriken zentral gesammelt, auf Mandantsebene visualisiert und auf Anomalien analysiert werden. Teams erhalten dadurch volle Transparenz über die Auslastung, Kosten und Fehlerquellen ihrer CI-Jobs, was stetige Optimierungen ermöglicht.Die Verwendung eines zentral gesteuerten API-Gateways und Lambda-Funktionen erlaubt eine hochgradig dynamische Registrierung und Löschung der Runner in den passenden GitHub-Runnergruppen. Änderungen an Trainingsdaten oder Workflow-Konfigurationen werden in Echtzeit erkannt und effizient umgesetzt.
Für Entwickler umgeht diese nahtlose Integration jeglichen zusätzlichen Aufwand – der Umstieg erfolgt meist durch einfaches Ändern des runs-on-Labels in den Workflow-Definitionen.Die Vorteile von ForgeMT sind enorm. Durch die Automatisierung werden pro Team über 80 Stunden monatlich an Betriebszeit eingespart, Fehlerquoten bei Jobs sind auf 0,1 Prozent gesunken und es werden mehr als 40.000 Jobs pro Monat mit stabiler Performance abgehandelt. Zudem ermöglicht die Plattform Kostenoptimierung durch den Mix aus Spot- und On-Demand-Instanzen und eine zuverlässige Auslastung.
Die Struktur verhindert zudem potenzielle Sicherheitslücken durch credential leakage oder persistente Runner-Instanzen. Compliance-Anforderungen werden strikt eingehalten, unterstützt durch vollautomatisches Logging, Audits und plattformweite Zero-Trust-Prinzipien.Eine weitere wichtige Innovation ist das sogenannte Warm Pool Konzept. Dieses reduziert für EC2-Runner die Startzeiten durch vorgehaltene, vorinitialisierte Instanzen. In Kubernetes reduziert die nativen Skalierung die Notwendigkeit solcher Warm Pools, sodass Jobs fast sofort starten können, was besonders bei zeitkritischen Aufgaben eine spürbare Beschleunigung bringt.
Obwohl ForgeMT eine hochkomplexe, hochskalierbare Plattform ist, wurde großer Wert auf eine einfache und reibungslose Integration gelegt. Viele Teams konnten praktisch ohne Aufwand ihre Workflows migrieren und dabei sogar eigene AMIs, ECRs oder IAM-Rollen weiterhin verwenden. Somit bleibt die Eigenständigkeit gewahrt, während die Plattform die Sicherheits- und Betriebsverantwortung zentralisiert.Debugging in einer solchen flüchtigen Runner-Umgebung ist allerdings eine Herausforderung. Cisco hat dafür Teleport integriert, mit dem Entwickler bei Bedarf live Zugang zu laufenden Runnern erhalten, um Fehler in Echtzeit zu analysieren.
Logs und Metriken werden zentral gesammelt, so dass auch ohne Live-Debugging umfassende Fehleranalysen möglich sind. Die Reproduzierbarkeit von Fehlern ist durch standardisierte Images garantiert, so dass Jobs zuverlässig in exakt gleichen Umgebungen wiederholbar sind.All diese Bestandteile machen ForgeMT zu einer zukunftsorientierten Plattform, die das CI/CD Management bei Cisco revolutioniert hat. Sie bietet eine sichere, zuverlässige und leicht skalierbare Basis, die Unternehmensanforderungen an Governance, Flexibilität und Kostenkontrolle optimal erfüllt. Durch die modulare Architektur lässt sich ForgeMT auch leicht weiterentwickeln, beispielsweise durch den geplanten Einsatz von KI-gestützten Skalierungsalgorithmen oder erweiterten Observability-Funktionen.
Abschließend lässt sich festhalten, dass die Kombination aus ephemeren Runnern und starker Mandantenisolation bei Cisco eine neue Ära der DevOps-Infrastruktur einläutet. Durch die konsequente Zentralisierung in ForgeMT wurde nicht nur die operative Effizienz erhöht, sondern auch das Sicherheitsniveau deutlich gesteigert. Die klare Trennung der Teams, die Automatisierung sämtlicher Betriebsaufgaben und die durchdachte Netzwerkkonfiguration gewährleisten stabile, schnelle und sichere CI-Pipelines – ein Praxisbeispiel dafür, wie moderne Cloud-Technologien in Unternehmen nachhaltig und effizient eingesetzt werden können.