Reinforcement Learning (Michalski u. a., 1983) – oder verstärkendes Lernen ist analog zu der Art des Lernens aufgebaut, wie wir Menschen es kennen. Das lernende System wird bei Erfolg belohnt, anderenfalls, sollte das Ergebnis nicht der Erwartung entsprechen, bestraft.
Diese Art des Lernens erfordert die Definition einer Umwelt, innerhalb der ein Agent – Robot, Automat etc. – mittels seiner Aktionen und der darauf folgenden Reaktionen der Umwelt durch Belohnungen und Bestrafungen lernt, welche seiner Aktionen die gewünschten Ergebnisse erzielen. Der Agent passt damit so lange sein Verhalten an, bis ein optimales Verhalten erreicht ist.
Im Gegensatz zu anderen Methoden des maschinellen Lernens wie dem überwachten Lernen erhält der Agent keine Trainingsdaten, die ihm die richtigen Entscheidungen zeigen. Stattdessen muss er die richtigen Entscheidungen selbst lernen, indem er die Belohnungen und Strafen für seine Handlungen beachtet.
Diese Art des Lernens kennt man aus der Dressur von Tieren. Hundebesitzer, die ihrem vierbeinigen Begleiter etwas beibringen wollen, haben gelernt, dies mit Belohnung und Bestrafung so lange zu trainieren, bis es klappt. Man kennt auch die Konditionierung des Pawlowschen Hundes, dem beim Erklingen der Glocke so lange Futter gegeben wird, bis alleine der Glockenklang den Speichelfluss veranlasst. „Die Reaktion wird induktiv – und damit iterativ – das heißt von Einzelereignis zu Einzelereignis – verstärkt.“ (Füllsack, 2011, S. 249)
Bei diesem Lernprozess werden Algorithmen eingesetzt, die auf dem Modell von Entscheidungsproblemen beruhen, wie der vorher erwähnte Andrei Andrejewitsch Markow sie mit seiner Lösung des sogenannten Markow Entscheidungsproblems (Markov decision process) entworfen hat. Der Agent lernt so lange, bis er die maximal erreichbare Belohnung erhalten hat.
Zum Einsatz kommt Reinforcement Learning in Bereichen, in denen selbst-ständig agierende Akteure ohne weitere menschliche Kontrolle gewünscht sind. Dies bedingt, dass solche Systeme ausschließlich in Umgebungen Einsatz finden, in denen alle möglichen Zustände und die daraus abzuleitenden Aktionen bekannt sind.
Kommt ein mittels Reinforcement Learning trainierter Roboter in der Lagerhaltung zum Einsatz, so ist dieser Robot zu keiner anderen Tätigkeit als zur Lagerhaltung in einem Lager, das seinem trainierten Zustand entspricht, zu gebrauchen.
Beispiele für den Einsatz von Reinforcement Learning:
- AlphaGo, ein von Google DeepMind entwickelter KI-Agent, hat 2016 den menschlichen Go-Weltmeister Lee Sedol besiegt. AlphaGo nutzte RL, um die besten Go-Strategien zu erlernen.
- Autonome Fahrzeuge nutzen RL, um sicher und effektiv durch den Verkehr zu navigieren. RL ermöglicht es den Fahrzeugen, aus ihren Erfahrungen zu lernen und ihre Fahrweise zu verbessern.
- Finanzdienstleister nutzen RL, um Anlageentscheidungen zu treffen. RL kann dazu verwendet werden, die Wahrscheinlichkeit von Gewinnen und Verlusten zu bewerten und die besten Investitionen zu identifizieren.