Dossier · Foundation-Models · Stand April 2026

Zehn Foundation-Models, eine Tabelle — und der Stand der Robotik-KI 2026.

Helix, Pi-0, RT-2, GR00T und sechs weitere Modelle bilden den derzeit relevanten Korpus an Robotik-Foundation-Models. Diese League-Table ordnet sie nach Entwickler, berichteter Parameterzahl, Trainings-Daten, Modalitäten und Lizenzstatus.

Modelle in League-Table
10
VLA, hierarchisch, klassisch hybrid
Open-Source-Anteil
3 / 10
OpenVLA, Octo, GR00T N1
Größtes berichtetes Modell
~55 Mrd
RT-2 PaLM-E-Variante (Größenordnung)
Erste Serien-Auslieferung
2025-26
Figure 02 (Helix), Apptronik Apollo

Die folgende League-Table konsolidiert alle Robotik-Foundation-Models, die Anfang 2026 öffentlich kommuniziert oder als kommerziell eingesetzt bezeichnet wurden. Wo der Hersteller keine harten Zahlen veröffentlicht hat (typisch für proprietäre Stacks wie Helix oder den Tesla-Optimus-Stack), sind die Angaben als berichtet oder Größenordnung markiert.

Die Spalte Modalitäten zeigt, welche Eingabe- und Ausgabe-Token-Typen ein Modell verarbeiten kann. V = Vision, L = Language, A = Action, T = Tactile, P = Proprioception. Die Spalte Lizenz unterscheidet zwischen Open-Source (Apache/MIT/CC), Research-only (nicht-kommerzielle Lizenz) und Closed (proprietär).

League-Table · 10 Foundation-Models

Robotik-Foundation-Models im Direktvergleich

# Modell Entwickler Parameter Trainings-Daten Modalitäten Lizenz Release
1 HelixTwo-System VLA Figure AIUSA · privat ~7 Mrd
berichtet
Proprietäre Teleoperations- und Internet-VL-Daten; Größenordnung tausende Stunden VLAP Closed 02/2025
2 Pi-0Flow-Matching VLA Physical IntelligenceUSA · privat ~3,3 Mrd Open-X-Embodiment + ~10.000 h proprietäre Cross-Embodiment-Daten VLAP Closed 11/2024
3 Pi-0.5Erweitertes Pi-0 Physical IntelligenceUSA · privat ~5 Mrd
berichtet
Erweiterte Datensätze inkl. mobiler Manipulation in unbekannten Wohnungen VLAP Closed 04/2025
4 RT-2Vision-Language-Action Google DeepMindUSA ~12 – 55 Mrd
PaLI / PaLM-E-Basis
Co-Training auf RT-1-Robotik-Daten und WebLI-Vision-Language-Korpus VLA Closed 07/2023
5 RT-X / Open-XCross-Embodiment DeepMind + 21 LabsKonsortium ~35 Mrd Open-X-Embodiment-Dataset: ~1 Mio Episoden über 22 Roboter-Embodiments VLA Research 10/2023
6 GR00T N1Humanoid Foundation NVIDIAUSA 2 Mrd
offen kommuniziert
Hybrid: Internet-VL + synthetische Isaac-Sim-Daten + reale Teleoperation VLAP Open 03/2025
7 OpenVLAOpen Vision-Language-Action Stanford + BerkeleyForschung 7 Mrd Open-X-Embodiment-Dataset (970k Trajektorien), Llama-2-Backbone VLA Open 06/2024
8 OctoGeneralist-Policy UC BerkeleyForschung 93 M / 200 M
small / base
Open-X-Embodiment-Subset; Diffusion-Action-Head VLAP Open 05/2024
9 Optimus-StackTesla-intern TeslaUSA n/a
nicht offengelegt
Eigene Teleoperations-Daten aus Tesla-Fabriken; Vision-Pipeline auf FSD-Hardware-Basis VAP Closed 2024-26
10 CarbonSanctuary AI Sanctuary AIKanada · privat n/a
nicht offengelegt
Proprietäre Teleoperations-Daten für Manipulation; Phoenix-Plattform VLAP Closed 2024-25

„Die wichtigste Veränderung 2024 – 2026 ist nicht Größe, sondern Kross-Embodiment-Generalisation: ein Modell, das mit Daten von vielen Roboter-Plattformen trainiert wurde, performt auf einer neuen Plattform besser als ein speziell darauf trainiertes."

Beobachtung aus Open-X-Embodiment-Paper · DeepMind et al. 2023
Profile · vier ausgewählte Modelle

Vier Modelle im Detail

Pi-0 · Physical Intelligence

11/2024 · ~3,3 Mrd Param · Closed

Pi-0 ist das erste kommerziell relevante VLA, das Flow-Matching als Action-Decoder nutzt. Statt Aktionen Token für Token autoregressiv zu erzeugen, generiert Pi-0 in wenigen Schritten eine vollständige Trajektorie — Faktor 5 bis 10 schnellere Inferenz als token-basierte VLAs. Trainiert auf Open-X plus rund 10.000 Stunden eigener Cross-Embodiment-Demonstrationen. Pi-0.5 erweitert um Long-Horizon-Reasoning und mobile Manipulation in Wohnungen.

Helix · Figure AI

02/2025 · ~7 Mrd Param · Closed

Helix ist als two-system architecture konzipiert: ein langsamer System-2-Reasoner (5 – 10 Hz) und ein schneller System-1-Visuomotor-Policy (200 Hz). Beide laufen on-device auf den Figure-02-Embedded-GPUs. Helix war 2025 das erste öffentlich gezeigte VLA, das Whole-Body-Humanoid-Steuerung inklusive bimanualer Manipulation aus Sprachbefehlen heraus demonstrierte.

GR00T N1 · NVIDIA

03/2025 · 2 Mrd Param · Open

GR00T N1 ist NVIDIAs offenes Foundation-Model speziell für humanoide Roboter. Mit nur 2 Milliarden Parametern bewusst klein gehalten für Edge-Inferenz auf Jetson Thor. Trainiert auf einer Mischung aus Internet-Vision-Language-Daten, synthetisch in Isaac Sim erzeugten Trajektorien und realer Teleoperation. Wird von Apptronik (Apollo), Boston Dynamics, Agility Robotics und 1X als Basis-Modell evaluiert.

OpenVLA · Stanford + Berkeley

06/2024 · 7 Mrd Param · Open (Apache-2.0)

OpenVLA ist das wichtigste vollständig offene VLA. Kombiniert Llama-2-7B als Sprachbackbone mit DinoV2- und SigLIP-Vision-Encodern. Trainiert auf 970.000 Trajektorien aus dem Open-X-Embodiment-Dataset. Läuft auf einer einzelnen A100/H100-GPU für Inferenz. Bildet die Grundlage für nahezu alle akademischen VLA-Vergleiche 2024 – 2026.

Hinweise zur Datengrundlage

Parameterzahlen sind, wo nicht offiziell publiziert, als berichtet oder Größenordnung markiert — sie stammen aus Pressestatements, Konferenz-Talks oder Reverse-Engineering-Analysen und sind ohne offizielle Bestätigung des Herstellers zu lesen. Trainings-Daten-Volumina sind bei kommerziellen Stacks (Helix, Pi-0, Optimus, Carbon) Schätzungen aus öffentlichen Aussagen; tatsächliche Korpora sind Geschäftsgeheimnis. Für Open-Source-Modelle (OpenVLA, Octo, GR00T N1) sind die Angaben aus Modellkarten und Repositories belegt.

Weiterlesen