Robotergehirn — Foundation-Models, VLA-Architekturen und der KI-Stack humanoider Roboter

In 60 Sekunden

„Robotergehirn" ist kein technischer Standardbegriff, sondern eine sprachliche Verkürzung für den vollständigen KI- und Steuerungs-Stack eines Roboters. Moderne humanoide Plattformen wie Figure 02, 1X NEO oder Apptronik Apollo arbeiten mit einer hierarchischen Architektur, in der ein großes neuronales Netz (Foundation-Model) hochpegelige Aufgabenrepräsentation übernimmt, während ein klassischer Echtzeit-Controller die Aktoren mit 500 bis 1.000 Hertz ansteuert.

Im Zentrum stehen seit etwa 2023 Vision-Language-Action-Models (VLAs), die Kamera, Sprache und Bewegung in einem einzigen Token-Raum vereinen. Im April 2026 sind die kommerziell relevanten Vertreter Helix (Figure), Pi-0 und Pi-0.5 (Physical Intelligence), RT-2 (Google DeepMind) und GR00T N1 (NVIDIA). OpenVLA und Octo sind die wichtigsten Open-Source-Forschungsmodelle.

Eckdaten Robotik-KI · April 2026

Humanoid-Markt global 2026: ~2,03 Mrd USD · Prognose 2031: 13,8 Mrd USD · CAGR ~47 %

Foundation-Model-Größen für Robotik: typisch 3 bis 10 Mrd Parameter (kleiner als Sprach-LLMs)

Open-X-Embodiment-Dataset (2023): ~1 Mio Episoden über 22 Roboter-Embodiments

Typische Steuerfrequenz Foundation-Model: 5 bis 30 Hz · Low-Level-Controller: 500 bis 1.000 Hz

Edge-Compute Standard 2026: NVIDIA Jetson AGX Orin (275 TOPS) bzw. Thor (Vorbereitung Serie)

Der populäre Begriff „Robotergehirn" lässt vermuten, im Roboter sitze ein einziger Algorithmus, der alles steuert. Diese Vorstellung ist falsch. Tatsächlich verarbeiten in einem modernen humanoiden Roboter mehrere unterschiedlich getaktete Prozesse parallel — vom langsamen Sprach- und Aufgabenverständnis bei wenigen Hertz bis zur hochfrequenten Drehmomentregelung mit über tausend Schritten pro Sekunde. Dieses Dossier ordnet die Schichten und beschreibt, welche Modelle 2026 produktiv im Einsatz sind.

Der vier-schichtige KI-Stack

Die meisten Humanoid-Plattformen folgen 2026 demselben strukturellen Muster: ein Foundation-Model auf der höchsten Ebene, ein spezialisierter Vision-Encoder darunter, ein Action-Decoder, der Bewegungstoken erzeugt, und ein klassischer Echtzeit-Controller am untersten Ende, der die einzelnen Drehmomente an den Servomotoren regelt. Jede Schicht hat ihre eigene Zeitskala — eine wichtige Erkenntnis, die in vielen populären Beschreibungen verloren geht.

L4 · System-2

Foundation-Model

Großes Vision-Language-Action-Model. Empfängt Sprachbefehl und Kamerabilder, plant Aufgabenfolge, erzeugt Sub-Goals. Beispiele: Helix, Pi-0.5, RT-2, GR00T N1.

5 – 30 HzAufgabenebene

L3 · Perception

Vision-Encoder & Sensor-Fusion

Encodiert Multi-Kamera-Stream, Tiefenbilder, taktile Daten und Proprioception in einen gemeinsamen Repräsentationsraum. Häufig SigLIP, DinoV2 oder hauseigene Encoder.

30 – 60 HzSensorrate

L2 · Action-Decoder

Diffusion- oder Flow-Policy

Erzeugt aus dem Foundation-Model-Output eine kontinuierliche Trajektorie, oft als Diffusion-Policy oder Flow-Matching-Policy. Pi-0 nutzt Flow-Matching, RT-2 token-basiert.

50 – 100 HzTrajektorie

L1 · Whole-Body-Control

Echtzeit-Controller

Klassische Robotik: Inverse-Kinematics, Whole-Body-Control, Torque-Loops. Läuft auf einem Echtzeit-OS (ROS 2 mit RT-Patches oder herstellereigenes RTOS).

500 – 1.000 HzAktor-Loop

Diese hierarchische Trennung ist nicht zufällig. Sie löst ein technisches Problem: Foundation-Models brauchen für Inferenz heute mehrere zehn bis hundert Millisekunden — viel zu langsam, um direkt Aktoren zu regeln. Klassische Whole-Body-Controller dagegen sind extrem reaktiv (sub-millisekunden), aber sie verstehen weder Sprache noch komplexe Szenen. Die Hybrid-Architektur kombiniert beide Welten und ist derzeit der einzige bekannte Weg, generelle Aufgabenflexibilität mit physikalischer Echtzeit-Stabilität zu vereinen.

VLA-Models — die Schlüsseltechnologie 2024-2026

Die wichtigste Architektur-Innovation der letzten drei Jahre sind Vision-Language-Action-Models. Bis etwa 2022 waren Vision-Language-Models (CLIP, GPT-4V) und Robotik-Policies (RL- oder Imitation-Learning-basierte Netze) zwei getrennte Forschungsfelder. Mit RT-2 (Google DeepMind, 2023) wurde erstmals gezeigt, dass ein einziges Transformer-Modell Sprache, Bild und Aktion gemeinsam tokenisieren und verarbeiten kann.

Seitdem sind mehrere VLA-Generationen entstanden. OpenVLA (Stanford, 2024) ist mit 7 Mrd Parametern das wichtigste offene Modell und Basis für viele akademische Arbeiten. Pi-0 (Physical Intelligence, 2024) hat den Flow-Matching-Ansatz für die Action-Generierung eingeführt; Pi-0.5 (2025) erweitert um längeres Aufgaben-Reasoning. Helix von Figure (2025) ist ein zweistufiges System: ein langsamer Reasoner und ein schneller Action-Encoder, beide on-device.

Die wirtschaftliche Bedeutung dieser Modelle liegt in ihrer Generalisierbarkeit. Klassische Robotik-Policies mussten pro Aufgabe und pro Roboter neu trainiert werden. VLAs können nach hinreichendem Pretraining oft mit wenigen Hundert bis wenigen Tausend Demonstrationen auf eine neue Aufgabe feingetunt werden — ein qualitativer Sprung, der die Wirtschaftlichkeit von Service-Robotik überhaupt erst denkbar macht.

Wie Robotergehirne trainiert werden

Das Training eines modernen Robotik-Foundation-Models verläuft in drei Phasen. Phase 1 — Pretraining: Das Modell wird auf einem großen Korpus aus Internet-Vision-Language-Daten und Roboter-Trajektorien vortrainiert. Das öffentlich zugängliche Open-X-Embodiment-Dataset enthält etwa 1 Million Episoden über 22 verschiedene Roboter-Embodiments und ist die Grundlage vieler aktueller Modelle.

Phase 2 — Co-Training mit Teleoperations-Daten: Die Hersteller sammeln gezielt Demonstrationen, in denen Menschen den Roboter über Master-Slave-Schnittstellen steuern. Physical Intelligence, Figure und Tesla berichten öffentlich von zehntausenden Stunden solcher Daten — die genauen Zahlen sind Geschäftsgeheimnis. Phase 3 — Sim-to-Real-Finetuning: Die finale Policy wird in Simulatoren wie NVIDIA Isaac Sim, MuJoCo oder Genesis verfeinert und mit Domain-Randomization gegen Reality-Gap-Effekte gehärtet.

Die Compute-Anforderungen sind im Vergleich zu Sprach-LLMs moderat. Aktuelle Robotik-Foundation-Models liegen bei 3 bis 10 Milliarden Parametern — kleiner als GPT-4-Klassen-Modelle, aber groß genug, um in der Inferenz auf On-Device-Beschleuniger wie NVIDIA Jetson Thor angewiesen zu sein. Das macht den Edge-Compute-Stack zum kritischen Engpass für die Wave-2028-These.

Offene Forschungsfragen 2026

Trotz der Fortschritte bleiben drei zentrale Probleme ungelöst. Erstens — Long-Horizon-Reasoning: Aktuelle VLAs scheitern zuverlässig an Aufgaben, die mehr als ein bis zwei Minuten Planungstiefe brauchen (z. B. „räume die Spülmaschine ein und falte danach die Wäsche"). Zweitens — taktile Generalisierung: Die Integration taktiler Sensorik (visuotaktil, klassische Force-Torque) in den Foundation-Model-Stack ist Forschungsgebiet; produktive Lösungen fehlen weitgehend.

Drittens — Sicherheits-Garantien: VLAs sind statistische Modelle. Für sicherheitskritische Einsätze in Industrie- oder Haushaltsumgebungen fehlen formale Garantien. Aktuelle kommerzielle Plattformen lösen das pragmatisch durch konservative Geschwindigkeits-Limits, Force-Limits und sicherheitszertifizierte Low-Level-Controller — aber das ist eine Übergangslösung, kein dauerhafter Standard.

Häufig gestellte Fragen

Was ist ein Robotergehirn?

Als Robotergehirn bezeichnet man umgangssprachlich den hierarchischen KI- und Steuerungs-Stack, der die Wahrnehmung, Planung und Bewegungsausführung eines Roboters integriert. Er besteht typischerweise aus vier Schichten: einem Foundation-Model für übergeordnete Aufgabenrepräsentation, einem Vision-Encoder für die Sensorfusion, einem Action-Decoder, der Bewegungstoken erzeugt, und einem Low-Level-Controller, der diese Token in Drehmomente an den Aktoren umsetzt. Aktuelle Beispiele sind Pi-0 von Physical Intelligence, Helix von Figure und GR00T N1 von NVIDIA.

Was ist ein VLA-Model?

Ein Vision-Language-Action-Model (VLA) ist ein neuronales Netzwerk, das visuelle Eingaben (Kamerabilder), Sprachanweisungen und Robotik-Aktionen in einem gemeinsamen Token-Raum verarbeitet. Im Unterschied zu klassischen Vision-Language-Models lernen VLAs zusätzlich, motorische Aktionen als Token zu erzeugen und auszuführen. Bekannte Open-Source-VLAs sind OpenVLA (Stanford) und Octo (Berkeley); bekannte geschlossene VLAs sind RT-2 von Google DeepMind und Helix von Figure.

Was ist Sim-to-Real-Transfer?

Sim-to-Real bezeichnet den Übergang einer in der Simulation trainierten Policy auf einen physischen Roboter. Da Simulation und Realität in Reibung, Sensorrauschen, Kontaktdynamik und Beleuchtung abweichen, scheitert ein naiv übertragenes Modell oft. Standard-Techniken zur Schließung dieser Reality-Gap sind Domain-Randomization (zufällige Variation physikalischer Parameter im Training), Co-Training mit realen Demonstrationsdaten und System-Identification. NVIDIA Isaac Sim, MuJoCo und Genesis sind die meistgenutzten Robotik-Simulatoren 2026.

Wie werden Foundation-Models für Robotik trainiert?

Robotik-Foundation-Models werden auf großen Korpora aus Roboter-Trajektorien trainiert, häufig kombiniert mit Internet-Vision-Language-Daten. Das Open-X-Embodiment-Dataset (2023, ~1 Mio Episoden über 22 Roboter-Embodiments) ist die wichtigste öffentlich zugängliche Trainingsbasis. Geschlossene Modelle wie Pi-0 oder Helix nutzen zusätzlich proprietäre Teleoperations-Demonstrationen — Größenordnungen liegen laut öffentlichen Aussagen im Bereich zehntausender Stunden. Trainings-Compute liegt für aktuelle VLAs typischerweise im Bereich kleiner LLMs (3 bis 10 Mrd Parameter).

Welche Hersteller bauen heute humanoide Roboter mit eigenem Robotergehirn?

Die führenden Anbieter mit proprietärem KI-Stack 2026 sind: Figure AI mit Helix, Physical Intelligence mit Pi-0 und Pi-0.5, Tesla mit dem Optimus-internen Stack, Sanctuary AI mit Carbon, 1X mit dem NEO-Stack, Agility Robotics mit Digit, Apptronik mit Apollo (in Partnerschaft mit NVIDIA GR00T) sowie Boston Dynamics mit Atlas (Electric). NVIDIA liefert mit GR00T N1 ein offenes Foundation-Model, das von mehreren Herstellern als Basis genutzt wird. OpenVLA und Octo sind reine Forschungs-Open-Source-Modelle ohne kommerziellen Anbieter.

Was bedeutet Wave-2028 im Kontext humanoider Roboter?

Wave-2028 ist ein Branchenbegriff für den erwarteten Übergang von Humanoid-Prototypen zu ersten Serien-Einsätzen in Logistik und Fertigung um das Jahr 2028. Tesla, Figure und Agility Robotics nennen öffentlich 2028 bis 2030 als Zielhorizont für niedrige vier- bis fünfstellige Stückzahlen pro Jahr. Voraussetzung ist, dass die Foundation-Models genug Generalisierung über neue Aufgaben und Umgebungen erreichen, dass die Hardware-Zuverlässigkeit kommerzielle Einsatzdauern erreicht, und dass die Stückkosten unter etwa 50.000 USD pro Einheit fallen — die ungefähre Schwelle, ab der laut Goldman Sachs ein Industrie-ROI realistisch wird.