Hauptnavigation

Pages about teaching are available in German only Zurück zu der Liste der Abschlussarbeiten

Datenzusammenfassungen für interaktive Datenanalyse

Title Datenzusammenfassungen für interaktive Datenanalyse
Description

Tagtäglich werden mehrere Zettabyte an Daten generiert. Diese können schon seit langen nicht mehr von Menschen verarbeitet und verstanden werden, sondern werden zum Großteil automatisiert verarbeitet. Neben der maschinellen Verarbeitung ist es dennoch weiterhin wichtig, dass Menschen mit den Daten interagieren können um diese besser zu verstehen und schlussendlich die maschinelle Verarbeitung zu überwachen.

Mit Hilfe von Datenzusammenfassungen (e.g. Data Summaries) lassen sich die wesentlichen Inhalte eines Datensatzes auf einige wichtige Repräsentanten herunterbrechen, sodass diese dann durch Menschen inspiziert und interpretiert werden können. Bei Data Summaries handelt es sich um ein geschickt gewähltes Sample aus einer Grundgesamtheit, die z.B. den Informationsgehalt maximiert. Theoretisch beruhen Data Summaries auf submodularen Funktionen, welche sich aufgrund ihrer mathematischen Eigenschaften ideal zur Berechnung von Summaries eignen. Formal wird hier eine submodulare Funktion gewählt die jedem Summary einen score zuweist, sodass diese Scorefunktion dann maximiert werden kann. Zur Maximierung gibt es eine Reihe von Verfahren die bereits implementiert sind [1].

Im Rahmen einer Bachelor/Masterarbeit können diverse Aspekte zu submodularen Funktionen und Data Summaries untersucht werden:

  • Berechnen von bessere Zusammenfassungen: Im Kern der Daenzusammenfassung steh die Maximierung der Scorefunktion. In der Literatur finden sich bereits einige Vorschläge für passende Scorefunktionen, welche jedoch immer auf die vorliegende Aufgabe angepasst werden müssen:
    • Finden einer besseren Datenrepräsentation: Die Repräsentation der Daten ist oft entscheidend für die Performance eines Verfahrens. Hierzu lassen sich die Originaldaten in einen niedrigdimensionalen Raum z.B. durch die Nutzung von sog. Autoencodern einbetten um bessere Datenzusammenfassungen zu berechnen.
    • Design neuer submodularer Funktionen: Submodulare Funktionen müssen diverse math. Eigenschaften erfüllen, sind aber ansonsten frei wählbare Funktionen. Welche spezielle Funktion für welche Aufgabe besser geeignet ist, ist aktuell unklar bzw. noch Teil der wissenschaftlichen Diskussion.
  • Vergleich von Data Summaries: Wenn technische Systeme über mehrere Wochen / Monate / Jahre in Betrieb sind, so kommt es üblicherweise zu einer leichten Veränderung in den Daten (eng. Concept Drift). Ein solcher Drift sollte sich auch in der Veränderung von periodisch selektierten Data Summaries finden lassen. Ziel ist hier der (automatische) Vergleich mehrerer Data Summaries zum Auffinden von Concept Drift in Daten.

 

 

 

 

Several zettabytes of data are generated every day. For a long time now, this data can no longer be processed and understood by humans, but is largely processed automatically. In addition to automatic processing, it is still important that humans can interact with the data to better understand it and ultimately monitor the information processing system.

With the help of data summaries the essential content of a data set can be broken down to a few important representatives, so that these can then be inspected and interpreted by humans. Data Summaries are a cleverly chosen sample from a population that maximizes e.g. the information content. Theoretically, data summaries are based on submodular functions, which are ideal for computing summaries due to their mathematical properties. Formally, a submodular function is a set function which assigns a score to each summary and this score function is then maximized. There are a number of methods available for maximization that have already been implemented [1].

In the context of a bachelor/master thesis, various aspects of submodular functions and data summaries can be investigated:

 

  • Finding better summarizes: At the heart of summary selection is the maximization of a score function. Literature contains some examples of score functions for certain tasks, but they need to be adopted for each application at hand.
    • Change the data representation: One way to find better data summaries is to find a better representation of the data by embedding the original features into lower-dimensional embedding space, e.g. by using Deep Autoencoders.
    • Design of new submodular functions: A submodular function must confirm to certain mathematical properties, but can be fine-tuned for each application at hand. There might be function better suited for summary selection than others.
  • Concept Drift detection with Data Summaries: If technical systems are in operation over several weeks / months / years, there is usually a slight change in the data (= Concept Drift). Such a drift should also be found in the change of periodically selected data summaries. Thus, data summaries can theoretically be used to automatically find and detect concept drift.

 

[1] https://github.com/sbuschjaeger/SubmodularStreamingMaximization/

 

Literature

Thesistype Bachelor Masterthesis
Second Tutor Buschjäger, Sebastian
Professor Morik, Katharina
Status Entwurf