next up previous
Next: Die Arbeit von Asada Up: Seminar Theoretische Informatik D Previous: Abstract

Reinforcement Learning

Eine fundamentale Aufgabe für jedes Lebewesen ist es, Strategien zu erlernen, die sein Verhalten in seinem Lebensraum optimieren. Die Lernsituation des Reinforcement-Lernens ist das allgemeinste, aber auch schwierigste Lernproblem. Die Umgebung erteilt in Abhängigkeit des aktuellen Zustandes x und der gewählten Aktion a(x) positive oder negative Reinforcement Signale r(x,a(x)) (d.h. Belohnungen oder Bestrafungen). Die Aufgabe des Lernenden (Agenten) besteht darin, die Summe der erwarteten zukünftigen Reinforcement Signale zu maximieren. Um diese Zuordnung von Aktionen zu Zuständen zu lernen ist keine Lehrer, sondern nur die Interaktion mit der Umwelt nötig.

Die Summe der zukünftigen Reinforcement Signale in Abhängigkeit von der ausgeführten Aktion ist wie folgt definiert

Um eine Konvergenz der Summe bei beschränkten Reinforcement Signalen zu realisieren führt man eine exponentiell abnehmende Gewichtung durch einen Dämpfungsfaktor gamma ein.

Zur Lösung des Reinfocement-Lernproblems sind vielfältige Lösungsansätze denkbar. Im folgenden soll der Lösungsansatz Q-Learning beschrieben werden.

Grundsätzlich basiert der Ansatz auf folgendem Modell:

Der Agent besteht aus zwei Teilen: einen Bewerter und einem Selektor. Der Bewerter speichert in einer Matrix für alle Zustände x und alle Aktionen a die Summe der zu erwartenden Reinforcement Signale Q(x,a). Der Selektor ist dafür zuständig mit Hilfe von Informationen des Bewerters und Kenntnis des aktuellen Zustandes die nächste Aktion auszusuchen.

Geht man von einem perfektem Agent aus, dessen Matrix Q(x,a) auch tatsächlich der realen Situation entspricht, so ist die Aufgabe des Selektors einfach: Er fragt einfach in der aktuellen Situation x für alle möglichen Aktionen a die, auf lange Sicht zu erwartende, Belohnung Q(x,a) ab und nimmt die Aktion, die die meiste Belohnung verspricht.

In der Lernphase übernimmt der Selektor jedoch noch eine zweite Aufgabe. Er unterstellt der Q Matrix nicht perfekt zu sein. Es erscheint deshalb nicht sinnvoll immer nur die vermeintlich beste Aktion zu wählen, sondern hin und wieder auch eine zufällige. Der Agent probiert also manchmal auch neue Aktionen aus, obwohl er aus seiner bisherigen Erfahrung glaubt, sie seien schlechter als andere. Der Bewerter versucht hingegen aus dem Wissen über die den aktuellen Zustand x, der aktuellen Aktion a und dem dadurch erreichten neuen Zustand x' plus Belohnung r(x,a) seine Q Matrix zu perfektionieren. Dabei folgt er folgender Formel

Die Lernrate alpha (Bereich 0-1) symbolisiert, wie sehr der Agent an das bisher gelernte glaubt. Würde alpha gleich null gesetzt, so würde er nichts lernen, da zu hundert Prozent der alte Q Wert übernommen wird. Ist alpha gleich eins, so ist nur der rechte Teil von Gleichung? aktiv. Er würde alle bisherigen Erfahrungen in dem aktuellen Zustand vergessen und sich nur am aktuellen reward orientieren. Beide Extremfälle sind natürlich unerwünscht. Optimal wäre am Anfang des Lernprozesses ein relativ hoher Wert, der gegen Ende des Lernvorganges, je intelligenter der Agent also wird, immer weiter reduziert wird


next up previous
Next: Die Arbeit von Asada Up: Seminar Theoretische Informatik D Previous: Abstract

root
Sun Jul 4 16:38:27 MEST 1999