Title |
Gamma-Hadron-Separation im MAGIC-Experiment durch verteilungsgestütztes Sampling |
Description |
Im MAGIC-Experiment werden zwei Cherenkov-Teleskope betrieben, deren Beobachtungen
eine sehr große Datenmenge erzeugen. Dabei macht jedoch der Anteil der für
weitere Analysen interessanten Gamma-Teilchen nur etwa ein Tausendstel aller Ereignisse
aus. Diese müssen durch geeignete Verfahren von den übrigen Ereignissen separiert
werden. Es liegt also ein Klassifikationsproblem vor, für dessen Lösung zur Zeit
ein Random Forest verwendet wird. Die sehr großen Datenmengen, die für das Training
des Klassifikators zur Verfügung stehen, lassen jedoch Klassifikationsverfahren
attraktiv erscheinen, die nicht nur eine begrenzte, statische Trainingsmenge nutzen,
sondern durch Resampling während des Lernens einen beliebig großen Teil der zur
Verfügung stehenden Daten verwenden. Dazu wird eine Erweiterung des Boosting-
Verfahrens Ada2Boost entwickelt, die in einigen Iterationen die Trainingsmenge durch
neu gezogene Daten ersetzt.Weiterhin wird Ada2Boost so modifiziert, dass weiche Basisklassifikatoren
verwendet werden können.
Neben des großen Umfangs der Trainingsdaten besteht die Schwierigkeit, dass sich
die Verteilungen einiger Merkmale in Abhängigkeit von Umgebungsparametern ändern.
Diese Eigenschaft wird derzeit nicht oder nur schwach berücksichtigt. In dieser
Arbeit wird ein Verfahren entwickelt, das die Daten so partitioniert, dass die Verteilung
innerhalb der Partitionen möglichst homogen ist, um dann auf jeder Partition ein
auf die jeweilige Verteilung spezialisiertes Modell zu trainieren. Das Problem nach der
Suche einer optimalen Partitionierung wird in eine Merkmalsselektion transformiert,
so dass vorhandene Verfahren zur Merkmalsselektion angewendet werden können.
Die entwickelten Verfahren werden zur Evaluierung für die Data Mining-Umgebung
RapidMiner implementiert. Weiterhin wird ein Framework vorgestellt, mit dem sich
RapidMiner-Prozesse auf ein Rechencluster verteilen lassen.
Teil I beschreibt die physikalischen Grundlagen und die Vorarbeiten, auf denen die
neu entwickelten Verfahren aufbauen. Kapitel 3 gibt einen Einblick in die Herkunft
kosmischer Teilchen und den Hintergrund des MAGIC-Experiments. Das derzeit etablierte
Klassifikationsverfahren wird beschrieben. Kapitel 4 definiert ein formales Gerüst
für die Klassifikation und erläutert wichtige Verfahren zur Bewertung von Klassifikationsmodellen.
In Kapitel 5 werden einige konkrete Lernverfahren vorgestellt.
Darauf aufsetzende Meta-Verfahren werden in Kapitel 6 beschrieben. Dazu gehören
insbesondere Ada2Boost und der Random Forest. Schließlich werden Methoden zur
Vorverarbeitung und Merkmalsselektion in Kapitel 7.1 beschrieben.
In Teil II werden die neuen Verfahren entwickelt und evaluiert. Kapitel 8 gibt einen
kurzen Überblick über diese Verfahren. Das folgende Kapitel beschreibt die Testumgebung,
die zur Evaluierung genutzt wird. Eine statistische Voruntersuchung der MAGIC-
Daten findet in Kapitel 10 statt und Kapitel 11 stellt den Recall-Chooser vor, ein
Hilfsverfahren, das auf der ROC-Analyse basiert. Kapitel 12 erweitert Ada2Boost um
die Nutzung weicher Basisklassifikatoren. Dieses Verfahren wiederum wird in Kapitel
13 um ein Resampling während des Lernprozesses erweitert, so dass große Datenmengen
verarbeitet werden können. Das Binningverfahren zum Partitionieren der
Trainingsmenge wird in Kapitel 14 beschrieben. Zum Vergleich mit dem etablierten
Verfahren bewertet Kapitel 15 die neuen Verfahren in Bezug auf den Random Forest.
Das letzte Kapitel 16 fasst die Ergebnisse zusammen und gibt einen Ausblick auf möglicheWeiterentwicklungen. |
Proposal |
Im MAGIC-Experiment werden zwei Cherenkov-Teleskope betrieben, deren Beobachtungen
eine sehr große Datenmenge erzeugen. Dabei macht jedoch der Anteil der für
weitere Analysen interessanten Gamma-Teilchen nur etwa ein Tausendstel aller Ereignisse
aus. Diese müssen durch geeignete Verfahren von den übrigen Ereignissen separiert
werden. Es liegt also ein Klassifikationsproblem vor, für dessen Lösung zur Zeit
ein Random Forest verwendet wird. Die sehr großen Datenmengen, die für das Training
des Klassifikators zur Verfügung stehen, lassen jedoch Klassifikationsverfahren
attraktiv erscheinen, die nicht nur eine begrenzte, statische Trainingsmenge nutzen,
sondern durch Resampling während des Lernens einen beliebig großen Teil der zur
Verfügung stehenden Daten verwenden. Dazu wird eine Erweiterung des Boosting-
Verfahrens Ada2Boost entwickelt, die in einigen Iterationen die Trainingsmenge durch
neu gezogene Daten ersetzt.Weiterhin wird Ada2Boost so modifiziert, dass weiche Basisklassifikatoren
verwendet werden können.
Neben des großen Umfangs der Trainingsdaten besteht die Schwierigkeit, dass sich
die Verteilungen einiger Merkmale in Abhängigkeit von Umgebungsparametern ändern.
Diese Eigenschaft wird derzeit nicht oder nur schwach berücksichtigt. In dieser
Arbeit wird ein Verfahren entwickelt, das die Daten so partitioniert, dass die Verteilung
innerhalb der Partitionen möglichst homogen ist, um dann auf jeder Partition ein
auf die jeweilige Verteilung spezialisiertes Modell zu trainieren. Das Problem nach der
Suche einer optimalen Partitionierung wird in eine Merkmalsselektion transformiert,
so dass vorhandene Verfahren zur Merkmalsselektion angewendet werden können.
Die entwickelten Verfahren werden zur Evaluierung für die Data Mining-Umgebung
RapidMiner implementiert. Weiterhin wird ein Framework vorgestellt, mit dem sich
RapidMiner-Prozesse auf ein Rechencluster verteilen lassen.
Teil I beschreibt die physikalischen Grundlagen und die Vorarbeiten, auf denen die
neu entwickelten Verfahren aufbauen. Kapitel 3 gibt einen Einblick in die Herkunft
kosmischer Teilchen und den Hintergrund des MAGIC-Experiments. Das derzeit etablierte
Klassifikationsverfahren wird beschrieben. Kapitel 4 definiert ein formales Gerüst
für die Klassifikation und erläutert wichtige Verfahren zur Bewertung von Klassifikationsmodellen.
In Kapitel 5 werden einige konkrete Lernverfahren vorgestellt.
Darauf aufsetzende Meta-Verfahren werden in Kapitel 6 beschrieben. Dazu gehören
insbesondere Ada2Boost und der Random Forest. Schließlich werden Methoden zur
Vorverarbeitung und Merkmalsselektion in Kapitel 7.1 beschrieben.
In Teil II werden die neuen Verfahren entwickelt und evaluiert. Kapitel 8 gibt einen
kurzen Überblick über diese Verfahren. Das folgende Kapitel beschreibt die Testumgebung,
die zur Evaluierung genutzt wird. Eine statistische Voruntersuchung der MAGIC-
Daten findet in Kapitel 10 statt und Kapitel 11 stellt den Recall-Chooser vor, ein
Hilfsverfahren, das auf der ROC-Analyse basiert. Kapitel 12 erweitert Ada2Boost um
die Nutzung weicher Basisklassifikatoren. Dieses Verfahren wiederum wird in Kapitel
13 um ein Resampling während des Lernprozesses erweitert, so dass große Datenmengen
verarbeitet werden können. Das Binningverfahren zum Partitionieren der
Trainingsmenge wird in Kapitel 14 beschrieben. Zum Vergleich mit dem etablierten
Verfahren bewertet Kapitel 15 die neuen Verfahren in Bezug auf den Random Forest.
Das letzte Kapitel 16 fasst die Ergebnisse zusammen und gibt einen Ausblick auf möglicheWeiterentwicklungen. |
Second Tutor |
Morik, Katharina
|
Assigned To |
Helf, Marius
|