next up previous
Next: Das Lernen Up: Die Arbeit von Asada Previous: Der Versuchsaufbau

Der Zustandsraum

Eines der ersten Probleme bei der Anwendung von Reinforcement Learning ist die Bestimmung eines Zustandsraumes, der die Umgebung des Roboters möglichst gut modelliert. Dabei sind jedoch folgende Punkte zu beachten:
Es ist ein Mittelweg zwischen der Größe des Zustandsraumes und der Qualität der Modellbildung der Umwelt zu finden, um das Lernen mit einem vertretbaren Aufwand an Zeit und Ressourcen bewältigen zu können. Ein weiterer Punkt ist das Problem, daß im Gegensatz zum kontinuierlichen Zustandsraum der real world durch die Vereinfachung auf einen diskreten Zustandsraum des Roboters für das Lernen relevante Informationen verloren gehen. Asada nennt dies das "state-action deviation problem". Ansätze für einen kontinuierlichen Zustandsraum wurden aber von anderen Gruppen schon untersucht.

Asadas prinzipieller Zustandsraum setzt sich aus den 9 möglichen Zuständen des Balls (3 Größen multipliziert mit 3 Positionen) und den 27 möglichen Zuständen des Tors (3 Größen multipliziert mit 3 Positionen multipliziert mit 3 Orientierungen) zusammen und enthählt somit 27 * 9 = 243 Zustände. Siehe Abbildung.

Zusätzlich führte Asada im Lauf seiner Experimente weitere notwendige Zustände ein, die spezielle Situationen wie z.B. "Ball verloren" repräsentierten.

Als Aktionen für den Roboter wählte Asada die neun Kombinationen, die sich aus den je 3 Motorkommandos vorwärts, rückwarts und stop ergeben, aus.


next up previous
Next: Das Lernen Up: Die Arbeit von Asada Previous: Der Versuchsaufbau

root
Sun Jul 4 16:38:27 MEST 1999