Die folgende League-Table konsolidiert alle Robotik-Foundation-Models, die Anfang 2026 öffentlich kommuniziert oder als kommerziell eingesetzt bezeichnet wurden. Wo der Hersteller keine harten Zahlen veröffentlicht hat (typisch für proprietäre Stacks wie Helix oder den Tesla-Optimus-Stack), sind die Angaben als berichtet oder Größenordnung markiert.
Die Spalte Modalitäten zeigt, welche Eingabe- und Ausgabe-Token-Typen ein Modell verarbeiten kann. V = Vision, L = Language, A = Action, T = Tactile, P = Proprioception. Die Spalte Lizenz unterscheidet zwischen Open-Source (Apache/MIT/CC), Research-only (nicht-kommerzielle Lizenz) und Closed (proprietär).
League-Table · 10 Foundation-ModelsRobotik-Foundation-Models im Direktvergleich
| # | Modell | Entwickler | Parameter | Trainings-Daten | Modalitäten | Lizenz | Release |
|---|---|---|---|---|---|---|---|
| 1 | HelixTwo-System VLA | Figure AIUSA · privat | ~7 Mrd berichtet |
Proprietäre Teleoperations- und Internet-VL-Daten; Größenordnung tausende Stunden | VLAP | Closed | 02/2025 |
| 2 | Pi-0Flow-Matching VLA | Physical IntelligenceUSA · privat | ~3,3 Mrd | Open-X-Embodiment + ~10.000 h proprietäre Cross-Embodiment-Daten | VLAP | Closed | 11/2024 |
| 3 | Pi-0.5Erweitertes Pi-0 | Physical IntelligenceUSA · privat | ~5 Mrd berichtet |
Erweiterte Datensätze inkl. mobiler Manipulation in unbekannten Wohnungen | VLAP | Closed | 04/2025 |
| 4 | RT-2Vision-Language-Action | Google DeepMindUSA | ~12 – 55 Mrd PaLI / PaLM-E-Basis |
Co-Training auf RT-1-Robotik-Daten und WebLI-Vision-Language-Korpus | VLA | Closed | 07/2023 |
| 5 | RT-X / Open-XCross-Embodiment | DeepMind + 21 LabsKonsortium | ~35 Mrd | Open-X-Embodiment-Dataset: ~1 Mio Episoden über 22 Roboter-Embodiments | VLA | Research | 10/2023 |
| 6 | GR00T N1Humanoid Foundation | NVIDIAUSA | 2 Mrd offen kommuniziert |
Hybrid: Internet-VL + synthetische Isaac-Sim-Daten + reale Teleoperation | VLAP | Open | 03/2025 |
| 7 | OpenVLAOpen Vision-Language-Action | Stanford + BerkeleyForschung | 7 Mrd | Open-X-Embodiment-Dataset (970k Trajektorien), Llama-2-Backbone | VLA | Open | 06/2024 |
| 8 | OctoGeneralist-Policy | UC BerkeleyForschung | 93 M / 200 M small / base |
Open-X-Embodiment-Subset; Diffusion-Action-Head | VLAP | Open | 05/2024 |
| 9 | Optimus-StackTesla-intern | TeslaUSA | n/a nicht offengelegt |
Eigene Teleoperations-Daten aus Tesla-Fabriken; Vision-Pipeline auf FSD-Hardware-Basis | VAP | Closed | 2024-26 |
| 10 | CarbonSanctuary AI | Sanctuary AIKanada · privat | n/a nicht offengelegt |
Proprietäre Teleoperations-Daten für Manipulation; Phoenix-Plattform | VLAP | Closed | 2024-25 |
„Die wichtigste Veränderung 2024 – 2026 ist nicht Größe, sondern Kross-Embodiment-Generalisation: ein Modell, das mit Daten von vielen Roboter-Plattformen trainiert wurde, performt auf einer neuen Plattform besser als ein speziell darauf trainiertes."
Beobachtung aus Open-X-Embodiment-Paper · DeepMind et al. 2023Vier Modelle im Detail
Pi-0 · Physical Intelligence
Pi-0 ist das erste kommerziell relevante VLA, das Flow-Matching als Action-Decoder nutzt. Statt Aktionen Token für Token autoregressiv zu erzeugen, generiert Pi-0 in wenigen Schritten eine vollständige Trajektorie — Faktor 5 bis 10 schnellere Inferenz als token-basierte VLAs. Trainiert auf Open-X plus rund 10.000 Stunden eigener Cross-Embodiment-Demonstrationen. Pi-0.5 erweitert um Long-Horizon-Reasoning und mobile Manipulation in Wohnungen.
Helix · Figure AI
Helix ist als two-system architecture konzipiert: ein langsamer System-2-Reasoner (5 – 10 Hz) und ein schneller System-1-Visuomotor-Policy (200 Hz). Beide laufen on-device auf den Figure-02-Embedded-GPUs. Helix war 2025 das erste öffentlich gezeigte VLA, das Whole-Body-Humanoid-Steuerung inklusive bimanualer Manipulation aus Sprachbefehlen heraus demonstrierte.
GR00T N1 · NVIDIA
GR00T N1 ist NVIDIAs offenes Foundation-Model speziell für humanoide Roboter. Mit nur 2 Milliarden Parametern bewusst klein gehalten für Edge-Inferenz auf Jetson Thor. Trainiert auf einer Mischung aus Internet-Vision-Language-Daten, synthetisch in Isaac Sim erzeugten Trajektorien und realer Teleoperation. Wird von Apptronik (Apollo), Boston Dynamics, Agility Robotics und 1X als Basis-Modell evaluiert.
OpenVLA · Stanford + Berkeley
OpenVLA ist das wichtigste vollständig offene VLA. Kombiniert Llama-2-7B als Sprachbackbone mit DinoV2- und SigLIP-Vision-Encodern. Trainiert auf 970.000 Trajektorien aus dem Open-X-Embodiment-Dataset. Läuft auf einer einzelnen A100/H100-GPU für Inferenz. Bildet die Grundlage für nahezu alle akademischen VLA-Vergleiche 2024 – 2026.
Parameterzahlen sind, wo nicht offiziell publiziert, als berichtet oder Größenordnung markiert — sie stammen aus Pressestatements, Konferenz-Talks oder Reverse-Engineering-Analysen und sind ohne offizielle Bestätigung des Herstellers zu lesen. Trainings-Daten-Volumina sind bei kommerziellen Stacks (Helix, Pi-0, Optimus, Carbon) Schätzungen aus öffentlichen Aussagen; tatsächliche Korpora sind Geschäftsgeheimnis. Für Open-Source-Modelle (OpenVLA, Octo, GR00T N1) sind die Angaben aus Modellkarten und Repositories belegt.