Robotik-KI-Glossar A-Z — VLA, Foundation-Model, Sim-to-Real, Diffusion-Policy

A2 Einträge

Action-Decoder Robotik-KI: Komponente eines VLA-Stacks, die aus latenten Repräsentationen kontinuierliche Aktions-Trajektorien erzeugt. Realisiert häufig als Diffusion-Policy oder Flow-Matching-Network. Pi-0 nutzt Flow-Matching, Aloha-ACT klassisches Token-Decoding.
Affordance Wahrnehmungs-Theorie: Begriff aus der Wahrnehmungspsychologie (Gibson 1979): die handlungsbezogene Bedeutung eines Objekts für einen Akteur (eine Tasse hat die Affordance „greifbar an Henkel"). In der Robotik-KI als Lern-Ziel: das Modell soll Greif-, Druck- oder Klapp-Stellen aus Bildern vorhersagen.

B2 Einträge

Behavior-Cloning BC · Imitation-Learning: Klassisches überwachtes Lern-Setup: Eingabe ist Sensor-Beobachtung, Ziel-Ausgabe ist die vom Demonstrator gezeigte Aktion. Standard-Ausgangspunkt für nahezu alle aktuellen VLAs. Schwächeln bei Distribution-Shift; oft mit DAgger oder Online-Finetuning kombiniert.
Backdrivability Aktor-Eigenschaft: Fähigkeit eines Aktors, sich durch externe Kraft passiv bewegen zu lassen, ohne Schaden zu nehmen oder hohe Reibung zu zeigen. Wichtig für sichere Mensch-Roboter-Interaktion und für reaktive Force-Control. Quasi-Direct-Drive-Aktoren sind backdrivable, klassische Harmonic-Drive-Getriebe weniger.

C1 Eintrag

Cross-Embodiment Trainings-Strategie: Trainings-Ansatz, bei dem ein Modell auf Daten von vielen verschiedenen Roboter-Embodiments lernt. Open-X-Embodiment (2023) ist die wichtigste Open-Source-Realisierung: ~1 Mio Episoden über 22 Roboter-Plattformen. Verbessert Generalisierungsfähigkeit auf neue Robots erheblich.

D3 Einträge

Diffusion-Policy Generativer Action-Decoder: Robotik-Policy, die mit Diffusionsmodellen Bewegungstrajektorien erzeugt. Kann multi-modale Aktionsverteilungen darstellen — wichtig, wenn mehrere gültige Lösungen existieren (z. B. links- oder rechtshändiges Greifen). Pionier-Paper: CMU 2023.
Domain-Randomization Sim-to-Real-Technik: Standard-Methode zur Schließung der Reality-Gap: Während des Trainings in Simulation werden physikalische Parameter (Reibung, Massen, Sensorrauschen, Beleuchtung) zufällig variiert. Das so trainierte Modell wird robuster gegenüber realen Abweichungen.
DOF Degrees of Freedom: Anzahl unabhängig steuerbarer Achsen. Standard-Industriearm: 6 DOF. Humanoide Roboter typisch 25 – 50 DOF (Beine 6 je, Arme 7 je, Hände 5 – 20 DOF). Höhere DOF-Zahl bringt Bewegungsvielfalt, aber höhere Komplexität in Kontrolle und Training.

E3 Einträge

Edge-Inference On-Device-AI: Inferenz eines KI-Modells direkt auf eingebauter Hardware, ohne Cloud-Anbindung. Pflicht für Robotik wegen Latenz und Verfügbarkeit. Standard-Hardware 2026: NVIDIA Jetson AGX Orin (275 TOPS), Nachfolger Jetson Thor (~2.000 TOPS).
Embodiment Roboter-Verkörperung: Konkrete physische Form eines Roboters (Kinematik, Aktuator-Klassen, Sensorik, DOF). Im Cross-Embodiment-Training werden mehrere Embodiments gemeinsam betrachtet, damit das Modell nicht auf eine Plattform überfittet.
EtherCAT Industrieller Echtzeit-Bus: Deterministischer Feldbus auf Ethernet-Basis (Beckhoff, 2003 vorgestellt). Standard für die Verbindung Echtzeit-Controller zu Servomotor-Treibern in Robotik. Typische Zykluszeit 1 ms, Jitter unter 100 µs.

F2 Einträge

Flow-Matching Generative Methode: Generatives Verfahren, das stetige Wahrscheinlichkeitsflüsse statt schrittweiser Diffusion lernt (Lipman et al. 2023). In der Robotik von Pi-0 als Action-Decoder eingesetzt — Faktor 5 – 10 schneller als klassische Diffusion-Policies bei vergleichbarer Trajektorien-Qualität.
Foundation-Model FM · Großes Basismodell: Großes neuronales Netz, das auf breiten Datenkorpora vortrainiert wird und als Basis für viele nachgelagerte Aufgaben dient. In der Robotik: VLA-Modelle wie Helix, Pi-0, RT-2 oder GR00T N1. Typische Größenordnung 2 – 10 Mrd Parameter — kleiner als Sprach-LLMs.

G1 Eintrag

GR00T N1 NVIDIA-Modell: NVIDIAs offenes Foundation-Model speziell für humanoide Roboter, vorgestellt 03/2025. 2 Mrd Parameter, optimiert für Inferenz auf Jetson-Plattformen. Trainiert auf Mischung aus Internet-VL-Daten, synthetischen Isaac-Sim-Daten und realer Teleoperation.

H1 Eintrag

Helix Figure AI: Two-System-VLA von Figure AI (Vorstellung 02/2025). Kombiniert einen langsamen System-2-Reasoner (5 – 10 Hz) mit einer schnellen System-1-Visuomotor-Policy (200 Hz). Erstes öffentlich gezeigtes VLA mit Whole-Body-Humanoid-Steuerung inklusive bimanualer Manipulation.

I2 Einträge

Imitation-Learning IL · Lern-Paradigma: Sammelbegriff für Verfahren, in denen ein Modell Aktionen aus Demonstrationen lernt. Umfasst Behavior-Cloning, Inverse-RL, GAIL und DAgger. Standard-Methode für die Initial-Trainingsphase aktueller VLAs — gefolgt von optionalem RL-Finetuning.
Inverse-Kinematics IK: Berechnung der Gelenkwinkel, die nötig sind, um den Endeffektor (Greifer, Fuß) an eine gewünschte Pose zu bringen. Mathematisch oft mehrdeutig oder nicht analytisch lösbar; in der Praxis häufig iterativ mit Jacobian-Pseudoinverse oder QP-Solvern. Basis fast jeder klassischen Robotik-Bewegungsplanung.

L1 Eintrag

LoRA-Finetuning Low-Rank Adaptation: Parameter-effiziente Finetuning-Technik (Hu et al. 2021): statt aller Modellgewichte werden nur niedrig-rangige Adapter-Matrizen trainiert. Für VLA-Anpassung an spezifische Aufgaben oder neue Embodiments mit wenigen Hundert Demonstrationen praktikabel.

M2 Einträge

MPPI Model-Predictive Path Integral: Sampling-basiertes Model-Predictive-Control-Verfahren. Generiert Tausende kandidatenbasierter Trajektorien durch ein Welt-Modell und gewichtet sie nach Kosten. Hoch-parallelisierbar, gut für GPU-Implementierungen, in der Locomotion-Planung weit verbreitet.
MPC Model-Predictive Control: Klassisches Regelungs-Paradigma: in jedem Schritt wird ein Optimierungsproblem über einen kurzen Vorhersagehorizont gelöst, um die nächste Steueraktion zu bestimmen. Standard für Whole-Body-Control humanoider Roboter; Boston Dynamics Atlas nutzt seit Jahren Whole-Body-MPC.

O2 Einträge

Open-X-Embodiment Trainings-Datensatz: Konsortium aus 21 Forschungseinrichtungen unter Leitung von DeepMind (10/2023). Veröffentlicht den größten offenen Robotik-Trainingsdatensatz: ~1 Mio Episoden über 22 verschiedene Roboter-Embodiments. Grundlage für nahezu alle aktuellen offenen VLAs.
OpenVLA Open Vision-Language-Action: Vollständig offenes 7-Mrd-Parameter-VLA von Stanford und Berkeley (06/2024). Llama-2-Backbone plus DinoV2- und SigLIP-Vision-Encoder. Trainiert auf 970.000 Trajektorien aus Open-X-Embodiment. Bildet die Grundlage nahezu aller akademischen VLA-Vergleiche 2024 – 2026.

P3 Einträge

Pi-0 / Pi-0.5 Physical Intelligence: Closed-Source-VLA von Physical Intelligence. Pi-0 (11/2024, ~3,3 Mrd Param) führte Flow-Matching als Action-Decoder in der Robotik ein. Pi-0.5 (04/2025) erweitert um Long-Horizon-Reasoning und mobile Manipulation in unbekannten Wohnumgebungen.
Proprioception Eigenwahrnehmung: Wahrnehmung der eigenen Körperhaltung und -bewegung. Beim Roboter: Gelenkwinkel- und Drehmoment-Sensorik aus Encoder- und Strom-Daten. Wichtigster nicht-visueller Eingang in Robotik-Policies; ergänzt Vision und Tactile.
PPO Proximal Policy Optimization: Reinforcement-Learning-Algorithmus von OpenAI (Schulman et al. 2017). Standard-Verfahren für Sim-to-Real-Locomotion-Policies (ANYmal, Unitree, viele Humanoide). Stabil und gut parallelisierbar in GPU-beschleunigten Simulatoren wie Isaac Sim.

Q1 Eintrag

Quantization Modell-Optimierung: Reduktion der Bit-Tiefe von Modell-Gewichten und Aktivierungen (typisch von FP16 oder BF16 auf INT8 oder FP4). Faktor 2 – 4 schnellere Inferenz auf Edge-Hardware bei minimalem Genauigkeitsverlust. Standard für Robotik-Foundation-Models auf Jetson-Plattformen.

R3 Einträge

Real-Time-Loop Echtzeit-Schleife: Wiederkehrende Berechnungs- und Steuerungsschleife mit garantierten zeitlichen Eigenschaften. In Robotik typisch 200 – 1.000 Hz für Whole-Body-Control. Implementierung über RT-Kernel (PREEMPT_RT, Xenomai) oder dedizierte Mikrocontroller mit RTOS.
Reinforcement-Learning RL: Lern-Paradigma, in dem ein Agent durch Belohnungs-Signal eigene Strategien optimiert. In der Robotik vor allem für Locomotion (PPO, SAC, DreamerV3) eingesetzt. Bei Manipulation in Reinform schwieriger; meist mit Imitation-Learning kombiniert.
ROS 2 Robot Operating System 2: Middleware-Standard der modernen Robotik. Pub/Sub-Architektur über DDS-Backend (Cyclone DDS, Fast DDS), Quality-of-Service-Profile, Composable Nodes. Ablöse von ROS 1 (das war kein OS, sondern eine Middleware) — Migrationswelle 2022 – 2024.

S2 Einträge

Sim-to-Real Sim2Real-Transfer: Übertragung einer in Simulation trainierten Policy auf einen realen Roboter. Erfordert Schließung der Reality-Gap durch Domain-Randomization, System-Identification und Co-Training mit realen Daten. Standard-Simulatoren 2026: NVIDIA Isaac Sim, MuJoCo, Genesis.
SigLIP Sigmoid-Loss CLIP: Vision-Language-Encoder von Google (Zhai et al. 2023). Effizientere Variante von CLIP mit sigmoid-basierter Kontrast-Loss. Häufig als Vision-Encoder in Robotik-VLAs eingesetzt (u. a. in OpenVLA und Octo).

T3 Einträge

Tactile-Sensor Berührungssensor: Sensor, der Druck, Vibration oder Slip in den Roboter-Fingerspitzen oder am Greifer misst. Klassen: kapazitiv (z. B. AnySkin), optisch-elastomer (visuotaktil — GelSight, DIGIT), oder MEMS-basiert. Liefert lokales Feedback an Policy mit typisch 50 – 500 Hz.
Token-Embedding Repräsentation: Vektor-Darstellung eines diskreten Symbols (Wort, Bildregion, Aktions-Quantum) in einem hoch-dimensionalen Repräsentationsraum. In VLAs werden Vision-, Sprach- und Aktions-Token gemeinsam embeddet, sodass das Modell sie als verschiedene Zeichen einer Sprache behandelt.
Teleoperation Daten-Erfassung: Steuerung eines Roboters durch einen Menschen über Eingabe-Geräte (Master-Slave-Arm, VR-Controller, ALOHA-Setup). Wichtigste Daten-Quelle für Imitation-Learning und Foundation-Model-Training. Hersteller wie Figure und Physical Intelligence sammeln tausende Stunden solcher Demonstrationen pro Plattform.

V2 Einträge

VLA-Model Vision-Language-Action: Neuronales Netz, das visuelle Eingaben, Sprachanweisungen und Robotik-Aktionen in einem gemeinsamen Token-Raum verarbeitet. Schlüssel-Architektur der Robotik-KI 2024 – 2026. Bekannte Vertreter: RT-2, OpenVLA, Octo, Pi-0, Helix, GR00T N1.
Visuotactile Optisch-taktiler Sensor: Sensor-Klasse, die taktile Information visuell erfasst — eine Kamera filmt die Verformung einer elastomerischen Sensor-Oberfläche. Hochauflösend, robust, kompatibel mit Vision-Encodern. Bekannte Designs: GelSight (MIT, 2009), DIGIT (Meta, 2020), AnySkin (CMU, 2023).

W2 Einträge

Wave-2028 Branchenjargon: Erwarteter Übergang von Humanoid-Prototypen zu ersten Serien-Einsätzen in Logistik und Fertigung um das Jahr 2028. Tesla, Figure und Agility nennen 2028 – 2030 als Zielhorizont für vier- bis fünfstellige Jahres-Stückzahlen. Voraussetzung: Modell-Generalisierung, Stückkosten unter 50.000 USD, kommerziell ausreichende Zuverlässigkeit.
Whole-Body-Control WBC: Regelungs-Paradigma, das alle Gelenke eines Roboters gemeinsam optimiert (statt Arm und Bein separat). Realisiert als Quadratic-Programming-Problem mit Aufgabenprioritäten (z. B. „halte Schwerpunkt über Stützpolygon" hat höchste Priorität, „greife Tasse" niedriger). Standard für humanoide Locomotion und Manipulation seit 2010er.

Tipp

Wenn ein Begriff fehlt: in den KI-Architekturen und im Hardware-Stack kommen oft weitere Fachbegriffe im Kontext vor.

Das Glossar wächst mit den Fragen, die Leser stellen. Für tieferen Kontext zu einzelnen Begriffen lohnt der Blick in die thematischen Dossiers — etwa die Architektur-Profile für Modelle und Methoden oder das Hardware-Dossier für Aktor- und Compute-Begriffe.

KI-Architekturen

Sieben Architektur-Klassen für Robotik — VLA, Diffusion-Policies, Hierarchical-RL.

→ Profile-Cards

Foundation-Models 2026

League-Table aller relevanten Robotik-Foundation-Models.

→ 10 Modelle

Hardware-Stack

Vom GPU-Cluster zum Aktor — Edge-Compute, Sensorik, Echtzeit-OS.

→ Schicht-Diagramm

Begriffe der Robotik-KI, knapp erklärt.

Wenn ein Begriff fehlt: in den KI-Architekturen und im Hardware-Stack kommen oft weitere Fachbegriffe im Kontext vor.