In der heutigen Welt, in der Roboter immer stärker in Industrie, Forschung und Alltag integriert werden, wächst die Menge an generierten Roboterdaten rasant. Diese Daten enthalten wertvolle Informationen über das Verhalten der Roboter, deren Leistung und deren Interaktionen mit der Umwelt. Doch trotz der verfügbaren Daten stellen sich Robotikforschern und -entwicklern zahlreiche Herausforderungen im Umgang mit ihnen. Hier kommt ARES ins Spiel – die Automatic Robot Evaluation System Plattform, die eine offene und skalierbare Lösung für die Verwaltung und Analyse von Roboterdaten bietet. ARES wurde von Jacob Phillips entwickelt und ist unter der Apache 2.
0 Lizenz frei verfügbar. Die Plattform richtet sich an Robotikforscher, Entwickler und alle, die das Ziel verfolgen, Roboterdaten strukturierter, verständlicher und nutzbarer zu machen. Anders als viele punktuelle Lösungen, die oft nur für einen bestimmten Anwendungsfall oder ein Forschungsprojekt ausgelegt sind, wurde ARES als generelle Plattform mit Fokus auf Benutzerfreundlichkeit und Skalierbarkeit entworfen. Dabei unterstützt ARES Datenverarbeitung auf lokalen Rechnern, aber auch in der Cloud, ohne dass dafür aufwendige Infrastrukturen wie GPU-Cluster manuell eingerichtet werden müssen. Das Herzstück von ARES ist die Nutzung moderner multimodaler maschineller Lernmodelle (ML-Modelle), insbesondere vision-language models (VLMs), um Rohdaten aus Roboter-Umgebungen automatisch in strukturierte, aussagekräftige Informationen zu transformieren.
Die Plattform besteht aus drei Hauptkomponenten: Datenaufnahme, Annotation und Datenkuratierung samt Modellierung. Zunächst erfolgt die automatische Umwandlung der unstrukturierten Rohdaten, zu denen vielfältige Modalitäten wie Videos, Punktwolken, Motorzustände oder Gelenkwinkel gehören können, in eine einheitliche strukturierte Form. Anschließend annotiert die Plattform anhand von Pseudo-Labels die erfassten Abläufe und am Ende werden die Daten analysiert, sortiert und für das Training und die Evaluation von Robotermodellen vorbereitet. Ein zentrales Konzept bei ARES ist der sogenannte Rollout. Dies stellt im Reinforcement-Learning-Kontext die Aufzeichnung einer einzelnen Episode oder eines kompletten Roboter-Laufes in seiner Umgebung dar.
Rollouts enthalten nicht nur Bewegungsdaten und Aktionen des Roboters, sondern auch umfassende Metadaten wie Informationen zur Robotermodellkonfiguration, Task-Beschreibungen und Umgebungsbedingungen. Die Datenstruktur ist flexibel und modular gestaltet, was eine einfache Anpassung und Erweiterung durch Nutzer ermöglicht. Zudem kommen leistungsfähige Tools wie Pydantic zum Einsatz, die nicht nur die Datenvalidierung erleichtern, sondern auch die automatische Erstellung von Prompt-Vorlagen für KI-Modelle unterstützen. Die Verarbeitung der Daten bei ARES umfasst eine dreistufige Pipeline: Strukturiertes Einlesen, Einbettung (Embedding) und Bodenablesung (Grounding). Die strukturelle Ingestion wandelt Rohdaten in ein relationales SQL-Datenbankschema um, das eine einfache und effiziente Abfrage erlaubt.
Die Einbettung wandelt Texte, Trajektorien sowie Zustands- und Aktionsdaten in dichte Vektor-Repräsentationen um, was die semantische Ähnlichkeit und das Auffinden ähnlicher Rollouts ermöglicht. Zuletzt erfolgt das Grounding, bei dem Objekterkennung und -segmentierung automatisiert auf den Videos und Bildern ausgeführt werden, um reale physische Elemente in der Szene zu identifizieren und zu annotieren. Ein wichtiger Vorteil von ARES ist die nahtlose Integration verschiedener Modellanbieter, darunter führende Plattformen wie OpenAI, Anthropic, Gemini und HuggingFace, die über eine einheitliche Schnittstelle genutzt werden können. Damit entfällt die Notwendigkeit, komplexe Hardware oder teure Cloud-Infrastrukturen aufzubauen. Die Rechenlast lässt sich wahlweise lokal oder über gestaltbare Cloud-Services wie Modal orchestrieren, was eine hohe Flexibilität bei der Skalierung garantiert.
Darüber hinaus ermöglicht ARES nicht nur die Isolation und Analyse einzelner Rollouts, sondern auch deren visuelle Erkundung und Vergleich mithilfe interaktiver Oberflächen basierend auf Streamlit und Plotly. Diese erlauben es Nutzern, Metadaten zu filtern, Annotationen einzusehen und Cluster von ähnlichen Datenpunkten zu entdecken. Besonders interessant ist die Möglichkeit, Out-of-Distribution-Szenarien zu identifizieren, also seltene oder unerwartete Roboterzustände oder Verhaltensweisen, die für die Weiterentwicklung von Steuerungsalgorithmen besonders wertvoll sind. Die Plattform unterstützt neben der reinen Datenverarbeitung auch das gezielte Training eigener Modelle. Hierfür stellt ARES angepasste Datenladeklassen für maschinelles Lernen bereit, mit denen sich die annotierten und kuratierten Daten einfach für Trainingsprozesse nutzen lassen.
Ebenso sind Exportfunktionen enthalten, die es ermöglichen, Datensätze im CSV- oder Parquet-Format auszugeben oder visuelle Zusammenfassungen als PDF oder HTML zu speichern. Die Leistungsfähigkeit von ARES wurde eindrucksvoll in mehreren Fallstudien demonstriert. Zum Beispiel wurde mit Hilfe der Plattform die Embodied Chain-of-Thought (ECoT)-Methode effizient umgesetzt und skaliert, was zeigt, wie komplexe reasoning-basierte Annotationen parallel und kosteneffizient erzeugt werden können. Eine weitere Demo basierte auf den Datensätzen der Physical Intelligence π₀ Veröffentlichung, bei der Paare von Erfolg- und Fehlschlägen in Realrobot-Experimenten verarbeitet wurden. Diese Flexibilität zeigt das Potenzial von ARES, sich an neue und unterschiedlichste Datensätze schnell anzupassen.
Trotz all dieser Stärken gibt es auch Herausforderungen. Aktuelle VLMs sind nicht frei von Ungenauigkeiten, was die Annotation etwas fehleranfällig macht. Dies wird jedoch durch kontinuierliche Verbesserungen in den zugrundeliegenden KI-Modellen sowie durch menschliche Korrekturen weiter minimiert. Zukünftige Entwicklungen zielen darauf ab, die Plattform noch besser zu skalieren, Cloud-Integration durch Managed Dienste zu erleichtern und mehr Rollouts aus großen Robotik-Datensammlungen einzubinden. Nicht zuletzt bietet ARES der Robotik-Community die Möglichkeit, auf eine umfassende, offene und einfach handhabbare Infrastruktur zurückzugreifen, um den oft komplexen Prozess der Datenverarbeitung zu vereinfachen.
Durch die Kombination von moderner KI, flexiblen Datenstrukturen und benutzerfreundlichen UI-Komponenten schafft ARES eine Brücke zwischen experimentellem Forschungsprototyp und praktischer Produktivlösung. Kurz gesagt, ARES stellt einen bedeutenden Fortschritt in der Robotikforschung dar. Die Plattform bietet eine wegweisende Lösung für die systematische Sammlung, Annotation und Analyse von Roboterdaten und adressiert damit zentrale Probleme beim Forschen und Entwickeln moderner Robotersteuerungen. Damit ist ARES ein wertvolles Werkzeug für alle, die mit Robotern arbeiten und auf verlässliche, gut annotierte Daten angewiesen sind, um ihre Modelle und Steuerungssysteme zu verbessern und weiterzuentwickeln.