Wo die ersten vier Bücher das Panorama zeichnen, gehen diese vier ins Kleingedruckte: wie moderne KI überhaupt funktioniert (Mitchell), warum Alignment schwer ist (Russell, Christian) und welches Worst-Case-Szenario zu ernst nehmen ist (Bostrom).
B05
Pflicht
Human Compatible — Artificial Intelligence and the Problem of Control
Stuart Russell · 2019
Russell, Mitautor des Standard-Lehrbuchs „AI: A Modern Approach", legt dar, warum „maximize this objective" das falsche Designprinzip für fortgeschrittene KI ist und wie ein Alternativ-Ansatz mit Unsicherheit über die Objektfunktion aussehen könnte. Die reifste Alignment-Argumentation derzeit.
B06
Einführung
Artificial Intelligence — A Guide for Thinking Humans
Melanie Mitchell · 2019
Die einzige KI-Einführung, die man jemandem mit Null-Vorkenntnis geben kann, ohne dass sie vereinfacht oder übersteigert. Mitchell (Santa Fe Institute) erklärt, was heutige Systeme wirklich können — und was nicht, trotz gegenteiliger Marketing-Behauptungen.
B07
Alignment
The Alignment Problem — Machine Learning and Human Values
Brian Christian · 2020
Christian portraitiert die Forscher-Generation, die gerade das Alignment-Feld begründet. Reward-Hacking, Interpretierbarkeit, RLHF — wer die methodische Debatte hinter GPT-Feintuning und Robotik-Reward-Modellen verstehen will, liest das hier zuerst.
B08
Worst-Case
Superintelligence — Paths, Dangers, Strategies
Nick Bostrom · Oxford · 2014
Das Buch, das die ganze moderne Alignment-Debatte angestoßen hat. Bostrom durchdenkt systematisch, wie eine Superintelligenz entstehen kann und welche Kontroll-Probleme dabei entstehen. Stellenweise spekulativ, aber die argumentative Grundlage für alles, was danach kam — auch für Hassabis, Altman, Amodei in ihren jeweiligen Safety-Narrativen.