Hauptnavigation

Pages about teaching are available in German only Zurück zu der Liste der Abschlussarbeiten

Visualisierung von Embeddings zur Analyse großer Dokumenten-Kollektionen

Title Visualisierung von Embeddings zur Analyse großer Dokumenten-Kollektionen
Description

Proposal

Im Rahmen eines gemeinsamen Forschungsprojektes mit Sozialwissenschaftlern sollen große Mengen von Textdokumenten automatisch untersucht werden. Wichtiges Werkzeug zur explorativen Datenanalyse sind Visualisierungstools. Aus den rohen Textdaten können mit Methoden des maschinellen Lernens aussagekräftige, reellwertige Vektorrepräsentationen berechnet werden, die dann wiederum mit Clusterverfahren wie k-Means in Teilgruppen oder Cluster partitioniert werden können. So können gezielter die wichtigen Dokumente identifiziert und manuell analysiert werden.

Zur Merkmalsextration bietet sich einerseits Latent Dirichlet Allocation von Blei et al, 2003 an. Andererseits bieten sich auch ParagraphVectors von Le und Mikolov, 2014 an. Beide Methoden haben den Vorteil, dass sich die berechneten reellwertigen Features gut interpretieren lassen; sie entsprechen jeweils sogenannten Topics, Wahrscheinlichkeitsverteilungen über die Menge aller Wörter. Intuitiv sind zwei Dokumente ähnlich und sollten demnach im selben Cluster liegen, wenn sie Wörter aus ähnlichen Topics verwenden.

Eine mögliche Form der Visualisierung für ein einzelnes Dokument ist beispielsweise Stacked Bar Plot, der angibt, zu welchen Anteilen ein Dokument aus welchen Topics besteht. Ein ganzes Cluster von Dokumenten könnte visualisiert werden, indem viele dieser Plots nebeneinander gezeichnet werden.

Eine mögliche Form der Visualisierung eines Clusters ergibt sich über die Mittelwerte aller Vektoren in einem Cluster. Diese können wieder als BarPlot oder PiePlot gezeichnet werden. Außerdem kann die Ähnlichkeit verschiedener Cluster auch in einem zweidimensionalen Plot angedeutet werden.

Natürlich muss auch der Rückschluss von der Visualisierung zu den Text-Daten der Dokumente gewährleistet sein. Auch eine rudimentäre Such/Filter Funktion ist mit Sicherheit nützlich.

Ziel dieser Arbeit ist es, ein interaktives Tool zu schreiben und zu evaluieren, was die Ergebnisse dieser Clusteranalyse aufbereitet. Dazu bietet sich die Softwarebibliothek D3 an. Die Dokumentensammlungen sind vorhanden und bereits vorverarbeitet. Die im Rahmen dieser Abschlussarbeit entwickelte Software sollte Open Source veröffentlicht werden, um sie im Verlauf der Zeit erweitern zu können.

Literatur

Qualification
  • Interesse an maschinellem Lernen
  • Freude an Software-Entwicklung
  • Fundierte HTML, Javascript und Python Kenntnisse
  • Gutes Auge für Design
Thesistype Bachelorthesis
Second Tutor Pfahler, Lukas
Assigned To Kilian, Phillip
Status Abgeschlossen
Registered On Jul 11, 2018 11:33:00 AM
Finished On Jun 11, 2017 11:33:00 AM