next up previous
Next: Die Bildverarbeitung Up: Die Arbeit von Asada Previous: Der Zustandsraum

Das Lernen

Um nun das Lernen für den Roboter zu ermöglichen, wandte Asada Q-Learning mit einigen zusätzlichen Ideen an.

Die erste Idee sollte das "state-action deviation" Problem beheben. Da nicht wirklich jede Einzelaktion einem Zustandsübergang im diskreten Zustandsraum entspricht werden bestimmte Einzelaktionen zu einer Sequenz zusammengefaßt, die genau bei einem echten Zustandsübergang endet. Erst am Ende einer dieser Sequenzen werden die Q-Values upgedatet. Wie im folgenden Bild zu sehen ist, ist der Bereich "Tor weit entfernt" groß. Daher kommt der Roboter, unabhängig von der ausgeführten Aktion, extrem häufig in diesen selben Zustand zurück. Dies entspricht einer hohen Varianz der Aktionen. Diese steht im Gegensatz zu einem Zustand, der bevorzugte Aktionen bestitzt. Dadurch wird eine Konvergenz der Q-Values für diesen Zustand verhindert.

Als zweite Verbesserung verwendete Asada eine Methode die er selbst als "Learning From Easy Missions" bezeichnete. Seine Motivation dafür war, daß auch nach langer Zeit der Lernprozess nicht zufriedenstellend konvergierte. Als Ursache dafür erkannte Asada, daß er dem Roboter erst im Falle eines Erfolges(er trifft ins Tor) einen positiven Reward gab, und daher der Roboter nicht umgehend ein Feedback auf jede seiner durchgeführten Aktionen erhielt("delayed reinforcement problem").
Basis seiner Idee war, daß es im Zustandsraum Zustände gibt, in denen der Roboter eine optimale Strategie schneller und zuverlässiger lernt als in anderen Zuständen. Steht der Roboter z.B. nahe und frontal zum Tor und liegt der Ball direkt vor dem Roboter, so kann er mittels einer einzigen Aktion (fahr vorwärts) ein Tor schießen und damit unmittelbar einen Reward erhalten. Daher wird dieser Zustand schnell gelernt.
Aus dieser Beobachtung heraus erstellte Asada eine Ordnung der Zustände in Abhängigkeit von der Schwierigkeit, aus diesen heraus das Ziel zu erreichen. Zu Beginn des Lernen beschränkte sich Asada auf die Menge der leichtesten Zustände, die in kurzer Zeit gelernt werden konnten. Nach dieser Phase hatten sich die Q-Werte für diese Zustände stabilisiert, dies ist für Asada der Anlaß in die Menge der nächst schwierigeren Zustände zu wechseln. Dies sind aber im Allgemeinen Zustände, in denen der Roboter keinen direkten reward bekommt, sondern Zustände die ihre Information daraus beziehen, ob eine ausgeführte Aktion sie in einen dem Ziel näheren Folgezustand bringt. Da sich die Q-Werte der Folgezustände bereits stabilisiert haben, konvergiert auch diese Phase schneller. Von nun an wiederholt sich diese Vorgehensweise für Mengen von immer schwierigeren Mengen von Zuständen.

Abschließend verglich Asada seinen Lernalgorithmus mit einem händisch programmierten, auf Gleichungen der Dynamik des Systems basierenden, Regler und einem händisch programmierten regelbasierten Fuzzy-Controller. Wobei die händisch optimierten Steuerungen etwas bessere bzw. gleiche Performance als der Lernalgorithmus lieferten, jedoch zu beachten ist, daß sich der Roboter im Falle des Lernalgorithmus seine Lösungsstrategie selbst aneignete.

Noch eine kleine Anmerkung zu den praktischen Experimenten. Asada führte den Lernprozess nur in einer Computersimulation durch und teste dann die Performance am realen Roboter. Wobei das Lernen am realen Roboter als ein zukünftiges Projekt geplant ist.


next up previous
Next: Die Bildverarbeitung Up: Die Arbeit von Asada Previous: Der Zustandsraum

root
Sun Jul 4 16:38:27 MEST 1999