Hauptnavigation

Proseminar Sommersemester 2022

Reinforcement Learning and Bandit Algorithms

Ansprechpartner: Pierre Haritz

Lernziele

In diesem Proseminar sollen die Studierenden lernen, sich in wissenschaftliche Themen selbsständig einzuarbeiten, Literatur zu recherchieren und kritisch verschiedene Ansätze zu vergleichen und bewerten.
Neben einem 20-minütigen Vortrag (plus ca. 10 Minuten Fragerunde/Diskussion) muss eine schriftliche Ausarbeitung im Umfang von 15-20 Seiten angefertigt werden (inkl. Literaturverzeichnis).

Ablauf

Nach Erhalten eines Platzes im Seminar können die Studierenden eine Liste an Wunschthemen mit Prioritäten bis zum 27.03.2022 an pierre.haritz@tu-dortmund.de schicken. Die Themen werden dann anhand der Listen verteilt. Sollte keine Prioritätenliste abgeben worden sein, wird nach Ablauf der Frist eines der übriggebliebenen Themen zugewiesen. Eine erste Besprechung erfolgt am 08.04.2022 von 14-16 Uhr per Zoom. Eingeschriebene Studierende erhalten den Link rechtzeitig per Email.
Am 22.04.2022 wird es von 14-16 Uhr eine Einführung in die Literaturrecherche und das Schreiben von wissenschaftlichen Texten geben (Zoom).
Die Vorträge werden als "Block" vorraussichtlich am 23.06.2022 und 24.06.2022 ebenfalls per Zoom gehalten.
Die Abgabe der schriftlichen Ausarbeitung muss bis zum 04.09.2022 erfolgen.
Studierende müssen für das erfolgreiche Abschließen des Moduls den Präsentationskurs der Fakultät besuchen. Es empfiehlt sich diesen vor dem Vortragstermin zu absolvieren.

Inhalt

Reinforcement Learning (RL) bezeichnet eine Klasse von Methoden aus dem Gebiet des maschinellen Lernens. Durch Interaktion mit seiner Umgebung lernt ein Agent, welche Aktionen wie hilfreich beim Erreichen eines Zieles sind. Anwendungsfälle strecken sich von Steuerung in der Robotik über Empfehlungssystemen im Finanz- oder Gesundheitswesen bis hin zum Optimieren von Strategien in Spielen wie Schach oder etwa Atari-Klassiker. In diesem Seminar werden verschiedene RL-Algorithmen vorgestellt und ihre jeweiligen Einsatzgebiete hervorgehoben. Vor- und Nachteile gegenüber anderen Algorithmen werden darüberhinaus diskutiert.

Vorkenntnisse

Die Studierenden sollten erweiterte mathematische Kentnisse haben (Mafi 1 und Mafi 2). Kentnisse in Statistik (WrumS) oder im maschinellen Lernen (GDW) sind ebenfalls von Vorteil.

Themenauswahl

  • Monte Carlo Tree Search
  • Q-Learning and the Bellman Equation
  • SARSA
  • REINFORCE
  • Deep Q Networks
  • Deep Deterministic Policy Gradient
  • Asynchronous Actor-Critic
  • Trust Region Policy Optimization
  • Proximal Policy Optimization
  • Twin Delayed Deep Deterministic Policy Gradient
  • Temporal Difference Learning
  • Temporal Difference Learning with Eligibility Traces
  • Continuous Deep Q-Learning with Model-based Acceleration
  • Scalable Trust-Region Method for Deep Reinforcement Learning
  • Non-Stochastic Multi-Armed Bandits with EXP3
  • Linear Upper Confidence Bounds
  • Follow-the-Perturbated-Leader
  • Upper Confidence Bound with Adaptive Linear Programming
  • Collaborative Filtering Bandits
  • Weighted Least Squares Thompson Sampling
Jedes der möglichen Themen beschäftigt sich mit einem speziellen Algorithmus aus dem Umfeld des Reinforcement Learnings. Gerne können die Studierenden auch eigene Themenvorschläge an die oben genannte Email schicken, sofern es sich um einen hier nicht genannten RL-Algorithmus handelt. Als einführende Lektüre empfiehlt sich für alle Teilnehmer der Artikel "Rationality and Intelligence: A Brief Update" von Russell und die Buchkapitel 1-4 aus "Reinforcement Learning" von Sutton und Barto.