Hauptnavigation

Go to the list of all software

Rapidminer RecallChooser, extended Ada2Boost

Description:

Im MAGIC-Experiment werden zwei Cherenkov-Teleskope betrieben, deren Beobachtungen eine sehr große Datenmenge erzeugen. Dabei macht jedoch der Anteil der für weitere Analysen interessanten Gamma-Teilchen nur etwa ein Tausendstel aller Ereignisse aus. Diese müssen durch geeignete Verfahren von den übrigen Ereignissen separiert werden. Es liegt also ein Klassifikationsproblem vor, für dessen Lösung zur Zeit ein Random Forest verwendet wird. Die sehr großen Datenmengen, die für das Training des Klassifikators zur Verfügung stehen, lassen jedoch Klassifikationsverfahren attraktiv erscheinen, die nicht nur eine begrenzte, statische Trainingsmenge nutzen, sondern durch Resampling während des Lernens einen beliebig großen Teil der zur Verfügung stehenden Daten verwenden. Dazu wurde eine Erweiterung des Boosting-Verfahrens Ada2Boost entwickelt, die in einigen Iterationen die Trainingsmenge durch neu gezogene Daten ersetzt. Weiterhin wird Ada2Boost so modifiziert, dass weiche Basisklassifikatoren verwendet werden können.

Neben des großen Umfangs der Trainingsdaten besteht die Schwierigkeit, dass sich die Verteilungen einiger Merkmale in Abhängigkeit von Umgebungsparametern ändern. Diese Eigenschaft wird derzeit nicht oder nur schwach berücksichtigt. In dieser Arbeit wird ein Verfahren entwickelt, das die Daten so partitioniert, dass die Verteilung innerhalb der Partitionen möglichst homogen ist, um dann auf jeder Partition ein auf die jeweilige Verteilung spezialisiertes Modell zu trainieren. Das Problem nach der Suche einer optimalen Partitionierung wird in eine Merkmalsselektion transformiert, so dass vorhandene Verfahren zur Merkmalsselektion angewendet werden können. Die entwickelten Verfahren wurden zur Evaluierung für die Data Mining-Umgebung RapidMiner implementiert. Weiterhin wird ein Framework vorgestellt, mit dem sich RapidMiner-Prozesse auf ein Rechencluster verteilen lassen.

Software File:

rapidminer-recallChoose-ada2boostExtended.zip (87169 KB)

Authors:

Helf, Marius