Die Organisation OpenAI veröffentlichte einen Algorithmus, der es erlaubt zu reflektieren.
Lernen wie ein Mensch: Man macht einen Fehler und vermeidet ihn anschließend. Diese Fähigkeit von Try and Error soll nun auch den Robotern zu Teil werden.
Möglich macht es ein Algorithmus, der bei einem Erfolg “belohnt” wird. Der Erfolg ist so definiert, dass man näher zum Ziel kommt und die Belohnung ist ein Unteralgorithmus. Derart versucht es das System, bis die Lösung gefunden ist. Aber es merkt sich die Misserfolge, für den Fall, dass dort das Ziel ist.
Das System von OpenAI wurde HER benannt, was ein Kürzel für Hindsight Experience Replay ist und sinngemäß “Erfahrungsanschluss-nochmal-durchgehen” bedeutet.
Die Hauptherausforderung stellen diese Belohnungsalgorithmen dar, deren Entwicklung sehr difizil sei und in der Realität nicht immer funktionieren würden. So kann ein Roboter dem Ziel, einen Berg zu erklimmen, näher gekommen sein, aber der Weg ist eine Sackgasse.
Dabei steht der Algorithmus im Spannungsverhältnis zwischen einfacher Integration des Belohnungsalgorithmus und der Lerngeschwindigkeit.
Quelle (englisch) mit Interview eines OpenAI Mitglieds