robotergehirn.de · KI-Architekturen 7 Architektur-Klassen · Stand 04/2026

Architektur-Atlas · Profile-Cards

Sieben KI-Architekturen, mit denen humanoide und industrielle Roboter 2026 gesteuert werden.

Von monolithischen End-to-End-Policies über Diffusion-basierte Action-Decoder bis zur klassischen Modell-prädiktiven Regelung mit gelernter Heuristik. Jede Klasse mit Funktionsweise, typischen Vertretern, Stärken, Schwächen und konkretem Anwendungsbeispiel.

Übersicht

Was ist eine Robotik-Architektur? Im Kontext dieser Seite: ein konsistentes Schema, wie Wahrnehmung, Repräsentation und Bewegungserzeugung in einem Software-Stack zusammenwirken. Die Architektur entscheidet, welche Datenmenge zum Training nötig ist, wie schnell die Inferenz läuft, und wie generell sich die Policy auf neue Aufgaben übertragen lässt.

Die folgende Sammlung deckt die sieben Architektur-Klassen ab, die in akademischer Forschung und kommerzieller Robotik 2026 dominieren. Die Reihenfolge ist nicht hierarchisch — die Klassen werden in der Praxis häufig kombiniert (etwa VLA als High-Level-Planer plus Diffusion-Policy als Action-Decoder plus klassischer MPC als Low-Level-Controller).

Architektur-Klassen

Die sieben dominierenden Klassen im Profil

01

Vision-Language-Action-Models

VLA · Multimodal-Policy
Funktion
Großes Transformer-Modell verarbeitet Kamerabilder, Sprachanweisungen und Robotik-Aktionen in einem gemeinsamen Token-Raum. Ausgabe sind motorische Aktionen oder Sub-Goals.
Modelle
RT-2OpenVLAOctoPi-0HelixGR00T N1
Stärken
Sprach-konditionierte Generalisierung; Few-Shot-Adaption an neue Aufgaben; profitiert von Internet-Pretraining-Daten.
Schwächen
Hohe Inferenz-Latenz (oft 50 – 200 ms); benötigt Edge-Beschleuniger; Long-Horizon-Planung bleibt schwierig.
Beispiel
Figure 02 sortiert Pakete nach Sprachanweisung („leg die roten Beutel ins linke Fach"), gesteuert durch Helix.
02

End-to-End-Policy-Networks

Pixels-to-Torques
Funktion
Ein einziges neuronales Netz bildet rohe Sensordaten (oft Pixel und Proprioception) direkt auf Aktoren-Befehle ab. Keine explizite Zwischen-Repräsentation.
Modelle
ALOHA-PoliciesAloha-ACTMobile-ALOHARoboCat
Stärken
Sehr niedrige Inferenz-Latenz möglich; einfache Datenpipeline; hohe Reaktivität bei feinmotorischen Aufgaben.
Schwächen
Schlechte Generalisierung außerhalb der Trainings­verteilung; benötigt sehr große, aufgabenspezifische Demonstrations­korpora.
Beispiel
Stanford ALOHA-Setup für bimanuale Manipulation (Schuhe binden, Eier einsortieren) — trainiert auf wenigen Hundert Demonstrations­minuten pro Aufgabe.
03

Hierarchical Reinforcement Learning

Hierarchical-RL
Funktion
Zwei oder mehr Policy-Ebenen: ein langsamer Manager wählt Sub-Goals, ein schneller Worker setzt sie als Bewegungssequenz um. Trainiert mit Reinforcement-Learning oder Imitation.
Modelle
HIROOption-CriticDirectordiverse Custom-Stacks
Stärken
Kann längere Aufgabenketten meistern; bessere Trainings-Effizienz auf komplexen Aufgaben durch Sub-Goal-Abstraktion.
Schwächen
Komplexe Trainings-Pipeline; Sub-Goal-Definition ist nicht-trivial; viele Forschungs-Setups sind nicht skalierbar produktiv.
Beispiel
In Forschungsprojekten zur autonomen Lager-Navigation: Manager wählt Regal-Ziel, Worker fährt kollisionsfrei dorthin.
04

Diffusion-Policies

Generative Action-Decoder
Funktion
Diffusionsmodell erzeugt aus Rauschen eine vollständige Bewegungs­trajektorie über mehrere Schritte. Kann multi-modale Aktions­verteilungen darstellen — wichtig, wenn mehrere gültige Lösungen existieren.
Modelle
Diffusion-Policy (CMU)3D-Diffuser-ActorPi-0 Flow-Matching
Stärken
Robust gegen Multi-Modalität; hohe Trajektorien-Qualität; lässt sich gut mit VLA-Encodern kombinieren.
Schwächen
Inferenz traditionell langsam (mehrere Diffusionsschritte). Flow-Matching reduziert das, ist aber jüngere Technik.
Beispiel
Pi-0 nutzt Flow-Matching, um aus dem VLA-Output direkt 50-Hz-Trajektorien für 7-DOF-Greifer zu erzeugen.
05

Behavior-Cloning

Imitation-Learning · Supervised-Policy
Funktion
Klassische überwachte Lernaufgabe: Eingabe ist Sensor-Beobachtung, Ziel ist die vom Demonstrator gezeigte Aktion. Keine Belohnungs-Signale, kein RL.
Modelle
BC-RNNBC-ZAloha-ACTjeder fundamentale Robotik-Datensatz
Stärken
Einfach umzusetzen; benötigt keinen Simulator; ist die Standard-Trainings­methode für nahezu alle aktuellen VLAs in der Imitations­phase.
Schwächen
Verteilungs­verschiebung: Wenn der Roboter vom Demonstrations­pfad abweicht, kollabiert die Policy oft. Lösung: DAgger oder zusätzliches Online-Finetuning.
Beispiel
Sortier-Aufgabe in Lager: 1.000 Teleoperations-Demonstrationen → Behavior-Cloning → 80 % Erfolgsrate auf bekannten Objekten.
06

Model-Predictive Control + ML-Heuristik

MPC · MPPI · Hybrid-Stack
Funktion
Klassisches MPC plant Bewegungen über einen kurzen Vorhersage-Horizont durch numerische Optimierung. ML-Komponenten liefern entweder Kosten-Funktionen, Welt-Modelle oder Sampling-Verteilungen (etwa MPPI mit gelernter Proposal-Verteilung).
Modelle
MPPICross-Entropy-MPCiLQRDifferentiable-MPC
Stärken
Formale Stabilitäts­garantien möglich; hohe Daten-Effizienz; bewährt in Industrieanwendungen mit Sicherheitsanforderungen.
Schwächen
Benötigt verlässliches Welt-Modell; numerische Optimierung kann bei komplexen Kontakten teuer werden; weniger flexibel bei unstrukturierten Szenen.
Beispiel
Boston Dynamics Atlas Locomotion: Whole-Body-MPC mit 500-Hz-Loop, jüngere Generationen mit gelernten Welt-Modellen für Geländewechsel.
07

Reinforcement-Learning + Sim-to-Real

Sim2Real-RL · Domain-Randomization
Funktion
Policy wird vollständig in Simulation mit RL trainiert (PPO, SAC, DreamerV3) und auf den realen Roboter übertragen. Domain-Randomization randomisiert Reibung, Massen, Sensorrauschen, Beleuchtung.
Modelle
OpenAI DactylANYmal-WalkingDreamerV3Isaac-RL-Stacks
Stärken
Skaliert mit Compute statt mit Demonstrations­daten; nahezu unbegrenzte Trainings­episoden; ideal für Locomotion und stark dynamische Aufgaben.
Schwächen
Reality-Gap bleibt für Manipulation und kontaktreiche Aufgaben hartnäckig; Sim-Setup ist arbeitsintensiv; Belohnungsgestaltung kann fragil sein.
Beispiel
ANYbotics ANYmal-Vierbeiner — Locomotion-Policy in NVIDIA Isaac trainiert, läuft auf realer Hardware ohne weitere Anpassung.
Wie diese Klassen kombiniert werden

In der Praxis ist der Stack hybrid.

Eine moderne humanoide Robotik-Plattform 2026 nutzt selten eine einzige Architektur. Typische Kombinationen: VLA als High-Level-Planer + Diffusion-Policy als Action-Decoder + klassischer MPC als Low-Level-Whole-Body-Controller. Locomotion läuft häufig vollständig über Sim-to-Real-RL, während Manipulation auf VLA mit Behavior-Cloning-Phase basiert.

Wer die einzelnen Modelle namentlich vergleichen möchte, findet im Foundation-Models-Dossier die League-Table aller relevanten VLAs. Wer die zugrunde liegende Hardware verstehen will, findet im Hardware-Stack die vollständige Schichten­übersicht.

Weiterlesen