KI-Architekturen für Robotik 2026 — VLA, Diffusion-Policies, Hierarchical-RL, MPC im Vergleich

Architektur-Klassen

Die sieben dominierenden Klassen im Profil

Vision-Language-Action-Models

VLA · Multimodal-Policy

Funktion

Großes Transformer-Modell verarbeitet Kamerabilder, Sprachanweisungen und Robotik-Aktionen in einem gemeinsamen Token-Raum. Ausgabe sind motorische Aktionen oder Sub-Goals.

Modelle

RT-2OpenVLAOctoPi-0HelixGR00T N1

Stärken

Sprach-konditionierte Generalisierung; Few-Shot-Adaption an neue Aufgaben; profitiert von Internet-Pretraining-Daten.

Schwächen

Hohe Inferenz-Latenz (oft 50 – 200 ms); benötigt Edge-Beschleuniger; Long-Horizon-Planung bleibt schwierig.

Beispiel

Figure 02 sortiert Pakete nach Sprachanweisung („leg die roten Beutel ins linke Fach"), gesteuert durch Helix.

End-to-End-Policy-Networks

Pixels-to-Torques

Funktion

Ein einziges neuronales Netz bildet rohe Sensordaten (oft Pixel und Proprioception) direkt auf Aktoren-Befehle ab. Keine explizite Zwischen-Repräsentation.

Modelle

ALOHA-PoliciesAloha-ACTMobile-ALOHARoboCat

Stärken

Sehr niedrige Inferenz-Latenz möglich; einfache Datenpipeline; hohe Reaktivität bei feinmotorischen Aufgaben.

Schwächen

Schlechte Generalisierung außerhalb der Trainingsverteilung; benötigt sehr große, aufgabenspezifische Demonstrationskorpora.

Beispiel

Stanford ALOHA-Setup für bimanuale Manipulation (Schuhe binden, Eier einsortieren) — trainiert auf wenigen Hundert Demonstrationsminuten pro Aufgabe.

Hierarchical Reinforcement Learning

Hierarchical-RL

Funktion

Zwei oder mehr Policy-Ebenen: ein langsamer Manager wählt Sub-Goals, ein schneller Worker setzt sie als Bewegungssequenz um. Trainiert mit Reinforcement-Learning oder Imitation.

Modelle

HIROOption-CriticDirectordiverse Custom-Stacks

Stärken

Kann längere Aufgabenketten meistern; bessere Trainings-Effizienz auf komplexen Aufgaben durch Sub-Goal-Abstraktion.

Schwächen

Komplexe Trainings-Pipeline; Sub-Goal-Definition ist nicht-trivial; viele Forschungs-Setups sind nicht skalierbar produktiv.

Beispiel

In Forschungsprojekten zur autonomen Lager-Navigation: Manager wählt Regal-Ziel, Worker fährt kollisionsfrei dorthin.

Diffusion-Policies

Generative Action-Decoder

Funktion

Diffusionsmodell erzeugt aus Rauschen eine vollständige Bewegungstrajektorie über mehrere Schritte. Kann multi-modale Aktionsverteilungen darstellen — wichtig, wenn mehrere gültige Lösungen existieren.

Modelle

Diffusion-Policy (CMU)3D-Diffuser-ActorPi-0 Flow-Matching

Stärken

Robust gegen Multi-Modalität; hohe Trajektorien-Qualität; lässt sich gut mit VLA-Encodern kombinieren.

Schwächen

Inferenz traditionell langsam (mehrere Diffusionsschritte). Flow-Matching reduziert das, ist aber jüngere Technik.

Beispiel

Pi-0 nutzt Flow-Matching, um aus dem VLA-Output direkt 50-Hz-Trajektorien für 7-DOF-Greifer zu erzeugen.

Behavior-Cloning

Imitation-Learning · Supervised-Policy

Funktion

Klassische überwachte Lernaufgabe: Eingabe ist Sensor-Beobachtung, Ziel ist die vom Demonstrator gezeigte Aktion. Keine Belohnungs-Signale, kein RL.

Modelle

BC-RNNBC-ZAloha-ACTjeder fundamentale Robotik-Datensatz

Stärken

Einfach umzusetzen; benötigt keinen Simulator; ist die Standard-Trainingsmethode für nahezu alle aktuellen VLAs in der Imitationsphase.

Schwächen

Verteilungsverschiebung: Wenn der Roboter vom Demonstrationspfad abweicht, kollabiert die Policy oft. Lösung: DAgger oder zusätzliches Online-Finetuning.

Beispiel

Sortier-Aufgabe in Lager: 1.000 Teleoperations-Demonstrationen → Behavior-Cloning → 80 % Erfolgsrate auf bekannten Objekten.

Model-Predictive Control + ML-Heuristik

MPC · MPPI · Hybrid-Stack

Funktion

Klassisches MPC plant Bewegungen über einen kurzen Vorhersage-Horizont durch numerische Optimierung. ML-Komponenten liefern entweder Kosten-Funktionen, Welt-Modelle oder Sampling-Verteilungen (etwa MPPI mit gelernter Proposal-Verteilung).

Modelle

MPPICross-Entropy-MPCiLQRDifferentiable-MPC

Stärken

Formale Stabilitätsgarantien möglich; hohe Daten-Effizienz; bewährt in Industrieanwendungen mit Sicherheitsanforderungen.

Schwächen

Benötigt verlässliches Welt-Modell; numerische Optimierung kann bei komplexen Kontakten teuer werden; weniger flexibel bei unstrukturierten Szenen.

Beispiel

Boston Dynamics Atlas Locomotion: Whole-Body-MPC mit 500-Hz-Loop, jüngere Generationen mit gelernten Welt-Modellen für Geländewechsel.

Reinforcement-Learning + Sim-to-Real

Sim2Real-RL · Domain-Randomization

Funktion

Policy wird vollständig in Simulation mit RL trainiert (PPO, SAC, DreamerV3) und auf den realen Roboter übertragen. Domain-Randomization randomisiert Reibung, Massen, Sensorrauschen, Beleuchtung.

Modelle

OpenAI DactylANYmal-WalkingDreamerV3Isaac-RL-Stacks

Stärken

Skaliert mit Compute statt mit Demonstrationsdaten; nahezu unbegrenzte Trainingsepisoden; ideal für Locomotion und stark dynamische Aufgaben.

Schwächen

Reality-Gap bleibt für Manipulation und kontaktreiche Aufgaben hartnäckig; Sim-Setup ist arbeitsintensiv; Belohnungsgestaltung kann fragil sein.

Beispiel

ANYbotics ANYmal-Vierbeiner — Locomotion-Policy in NVIDIA Isaac trainiert, läuft auf realer Hardware ohne weitere Anpassung.

Wie diese Klassen kombiniert werden

In der Praxis ist der Stack hybrid.

Eine moderne humanoide Robotik-Plattform 2026 nutzt selten eine einzige Architektur. Typische Kombinationen: VLA als High-Level-Planer + Diffusion-Policy als Action-Decoder + klassischer MPC als Low-Level-Whole-Body-Controller. Locomotion läuft häufig vollständig über Sim-to-Real-RL, während Manipulation auf VLA mit Behavior-Cloning-Phase basiert.

Wer die einzelnen Modelle namentlich vergleichen möchte, findet im Foundation-Models-Dossier die League-Table aller relevanten VLAs. Wer die zugrunde liegende Hardware verstehen will, findet im Hardware-Stack die vollständige Schichtenübersicht.

Foundation-Models 2026

Helix, Pi-0, RT-2, GR00T und die wichtigsten Open-Source-VLAs im Datenblatt-Vergleich.

→ 10 Modelle

Hardware-Stack

Vom GPU-Cluster zum Aktor — Edge-Compute, Sensorik, Echtzeit-OS, Servomotoren.

→ Schicht-Diagramm

Glossar A – Z

VLA, MPPI, Diffusion-Policy, Sim-to-Real, Whole-Body-Control, Embodiment — Definitionen.

→ Nachschlagewerk