OpenAI: Algorithmus, der das Erlebte verarbeitet

Die Organisation OpenAI veröffentlichte einen Algorithmus, der es erlaubt zu reflektieren.

Lernen wie ein Mensch: Man macht einen Fehler und vermeidet ihn anschließend. Diese Fähigkeit von Try and Error soll nun auch den Robotern zu Teil werden.

Möglich macht es ein Algorithmus, der bei einem Erfolg “belohnt” wird. Der Erfolg ist so definiert, dass man näher zum Ziel kommt und die Belohnung ist ein Unteralgorithmus. Derart versucht es das System, bis die Lösung gefunden ist. Aber es merkt sich die Misserfolge, für den Fall, dass dort das Ziel ist.

Das System von OpenAI wurde HER benannt, was ein Kürzel für Hindsight Experience Replay ist und sinngemäß “Erfahrungsanschluss-nochmal-durchgehen” bedeutet.

Die Hauptherausforderung stellen diese Belohnungsalgorithmen dar, deren Entwicklung sehr difizil sei und in der Realität nicht immer funktionieren würden. So kann ein Roboter dem Ziel, einen Berg zu erklimmen, näher gekommen sein, aber der Weg ist eine Sackgasse.

Dabei steht der Algorithmus im Spannungsverhältnis zwischen einfacher Integration des Belohnungsalgorithmus und der Lerngeschwindigkeit.

Quelle (englisch) mit Interview eines OpenAI Mitglieds

David Fluhr

Ich schreibe seit 2011 über das Thema Autonomes & Vernetztes Fahren. Ich habe Sozialwissenschaften an der HU Berlin studiert und bin seit 2012 selbstständiger Journalist. Kontakt: mail@autonomes-fahren.de

Das könnte dich auch interessieren …

Ads Blocker Image Powered by Code Help Pro

Ads Blocker Detected!!!

We have detected that you are using extensions to block ads. Please support us by disabling these ads blocker.

Powered By
Best Wordpress Adblock Detecting Plugin | CHP Adblock