Robotik-Foundation-Models 2026 — Helix, Pi-0, RT-2, GR00T, OpenVLA im Vergleich

Die folgende League-Table konsolidiert alle Robotik-Foundation-Models, die Anfang 2026 öffentlich kommuniziert oder als kommerziell eingesetzt bezeichnet wurden. Wo der Hersteller keine harten Zahlen veröffentlicht hat (typisch für proprietäre Stacks wie Helix oder den Tesla-Optimus-Stack), sind die Angaben als berichtet oder Größenordnung markiert.

Die Spalte Modalitäten zeigt, welche Eingabe- und Ausgabe-Token-Typen ein Modell verarbeiten kann. V = Vision, L = Language, A = Action, T = Tactile, P = Proprioception. Die Spalte Lizenz unterscheidet zwischen Open-Source (Apache/MIT/CC), Research-only (nicht-kommerzielle Lizenz) und Closed (proprietär).

League-Table · 10 Foundation-Models

Robotik-Foundation-Models im Direktvergleich

#	Modell	Entwickler	Parameter	Trainings-Daten	Modalitäten	Lizenz	Release
1	HelixTwo-System VLA	Figure AIUSA · privat	~7 Mrd berichtet	Proprietäre Teleoperations- und Internet-VL-Daten; Größenordnung tausende Stunden	VLAP	Closed	02/2025
2	Pi-0Flow-Matching VLA	Physical IntelligenceUSA · privat	~3,3 Mrd	Open-X-Embodiment + ~10.000 h proprietäre Cross-Embodiment-Daten	VLAP	Closed	11/2024
3	Pi-0.5Erweitertes Pi-0	Physical IntelligenceUSA · privat	~5 Mrd berichtet	Erweiterte Datensätze inkl. mobiler Manipulation in unbekannten Wohnungen	VLAP	Closed	04/2025
4	RT-2Vision-Language-Action	Google DeepMindUSA	~12 – 55 Mrd PaLI / PaLM-E-Basis	Co-Training auf RT-1-Robotik-Daten und WebLI-Vision-Language-Korpus	VLA	Closed	07/2023
5	RT-X / Open-XCross-Embodiment	DeepMind + 21 LabsKonsortium	~35 Mrd	Open-X-Embodiment-Dataset: ~1 Mio Episoden über 22 Roboter-Embodiments	VLA	Research	10/2023
6	GR00T N1Humanoid Foundation	NVIDIAUSA	2 Mrd offen kommuniziert	Hybrid: Internet-VL + synthetische Isaac-Sim-Daten + reale Teleoperation	VLAP	Open	03/2025
7	OpenVLAOpen Vision-Language-Action	Stanford + BerkeleyForschung	7 Mrd	Open-X-Embodiment-Dataset (970k Trajektorien), Llama-2-Backbone	VLA	Open	06/2024
8	OctoGeneralist-Policy	UC BerkeleyForschung	93 M / 200 M small / base	Open-X-Embodiment-Subset; Diffusion-Action-Head	VLAP	Open	05/2024
9	Optimus-StackTesla-intern	TeslaUSA	n/a nicht offengelegt	Eigene Teleoperations-Daten aus Tesla-Fabriken; Vision-Pipeline auf FSD-Hardware-Basis	VAP	Closed	2024-26
10	CarbonSanctuary AI	Sanctuary AIKanada · privat	n/a nicht offengelegt	Proprietäre Teleoperations-Daten für Manipulation; Phoenix-Plattform	VLAP	Closed	2024-25

„Die wichtigste Veränderung 2024 – 2026 ist nicht Größe, sondern Kross-Embodiment-Generalisation: ein Modell, das mit Daten von vielen Roboter-Plattformen trainiert wurde, performt auf einer neuen Plattform besser als ein speziell darauf trainiertes."

Beobachtung aus Open-X-Embodiment-Paper · DeepMind et al. 2023

Profile · vier ausgewählte Modelle

Vier Modelle im Detail

Pi-0 · Physical Intelligence

11/2024 · ~3,3 Mrd Param · Closed

Pi-0 ist das erste kommerziell relevante VLA, das Flow-Matching als Action-Decoder nutzt. Statt Aktionen Token für Token autoregressiv zu erzeugen, generiert Pi-0 in wenigen Schritten eine vollständige Trajektorie — Faktor 5 bis 10 schnellere Inferenz als token-basierte VLAs. Trainiert auf Open-X plus rund 10.000 Stunden eigener Cross-Embodiment-Demonstrationen. Pi-0.5 erweitert um Long-Horizon-Reasoning und mobile Manipulation in Wohnungen.

Helix · Figure AI

02/2025 · ~7 Mrd Param · Closed

Helix ist als two-system architecture konzipiert: ein langsamer System-2-Reasoner (5 – 10 Hz) und ein schneller System-1-Visuomotor-Policy (200 Hz). Beide laufen on-device auf den Figure-02-Embedded-GPUs. Helix war 2025 das erste öffentlich gezeigte VLA, das Whole-Body-Humanoid-Steuerung inklusive bimanualer Manipulation aus Sprachbefehlen heraus demonstrierte.

GR00T N1 · NVIDIA

03/2025 · 2 Mrd Param · Open

GR00T N1 ist NVIDIAs offenes Foundation-Model speziell für humanoide Roboter. Mit nur 2 Milliarden Parametern bewusst klein gehalten für Edge-Inferenz auf Jetson Thor. Trainiert auf einer Mischung aus Internet-Vision-Language-Daten, synthetisch in Isaac Sim erzeugten Trajektorien und realer Teleoperation. Wird von Apptronik (Apollo), Boston Dynamics, Agility Robotics und 1X als Basis-Modell evaluiert.

OpenVLA · Stanford + Berkeley

06/2024 · 7 Mrd Param · Open (Apache-2.0)

OpenVLA ist das wichtigste vollständig offene VLA. Kombiniert Llama-2-7B als Sprachbackbone mit DinoV2- und SigLIP-Vision-Encodern. Trainiert auf 970.000 Trajektorien aus dem Open-X-Embodiment-Dataset. Läuft auf einer einzelnen A100/H100-GPU für Inferenz. Bildet die Grundlage für nahezu alle akademischen VLA-Vergleiche 2024 – 2026.

Hinweise zur Datengrundlage

Parameterzahlen sind, wo nicht offiziell publiziert, als berichtet oder Größenordnung markiert — sie stammen aus Pressestatements, Konferenz-Talks oder Reverse-Engineering-Analysen und sind ohne offizielle Bestätigung des Herstellers zu lesen. Trainings-Daten-Volumina sind bei kommerziellen Stacks (Helix, Pi-0, Optimus, Carbon) Schätzungen aus öffentlichen Aussagen; tatsächliche Korpora sind Geschäftsgeheimnis. Für Open-Source-Modelle (OpenVLA, Octo, GR00T N1) sind die Angaben aus Modellkarten und Repositories belegt.

Zehn Foundation-Models, eine Tabelle — und der Stand der Robotik-KI 2026.