Title | Datenzusammenfassungen für interaktive Datenanalyse |
---|---|
Description |
Tagtäglich werden mehrere Zettabyte an Daten generiert. Diese können schon seit langen nicht mehr von Menschen verarbeitet und verstanden werden, sondern werden zum Großteil automatisiert verarbeitet. Neben der maschinellen Verarbeitung ist es dennoch weiterhin wichtig, dass Menschen mit den Daten interagieren können um diese besser zu verstehen und schlussendlich die maschinelle Verarbeitung zu überwachen. Mit Hilfe von Datenzusammenfassungen (e.g. Data Summaries) lassen sich die wesentlichen Inhalte eines Datensatzes auf einige wichtige Repräsentanten herunterbrechen, sodass diese dann durch Menschen inspiziert und interpretiert werden können. Bei Data Summaries handelt es sich um ein geschickt gewähltes Sample aus einer Grundgesamtheit, die z.B. den Informationsgehalt maximiert. Theoretisch beruhen Data Summaries auf submodularen Funktionen, welche sich aufgrund ihrer mathematischen Eigenschaften ideal zur Berechnung von Summaries eignen. Formal wird hier eine submodulare Funktion gewählt die jedem Summary einen score zuweist, sodass diese Scorefunktion dann maximiert werden kann. Zur Maximierung gibt es eine Reihe von Verfahren die bereits implementiert sind [1]. Im Rahmen einer Bachelor/Masterarbeit können diverse Aspekte zu submodularen Funktionen und Data Summaries untersucht werden:
Several zettabytes of data are generated every day. For a long time now, this data can no longer be processed and understood by humans, but is largely processed automatically. In addition to automatic processing, it is still important that humans can interact with the data to better understand it and ultimately monitor the information processing system. With the help of data summaries the essential content of a data set can be broken down to a few important representatives, so that these can then be inspected and interpreted by humans. Data Summaries are a cleverly chosen sample from a population that maximizes e.g. the information content. Theoretically, data summaries are based on submodular functions, which are ideal for computing summaries due to their mathematical properties. Formally, a submodular function is a set function which assigns a score to each summary and this score function is then maximized. There are a number of methods available for maximization that have already been implemented [1]. In the context of a bachelor/master thesis, various aspects of submodular functions and data summaries can be investigated:
[1] https://github.com/sbuschjaeger/SubmodularStreamingMaximization/
Literature
|
Thesistype | Bachelor Masterthesis |
Second Tutor | Buschjäger, Sebastian |
Professor | Morik, Katharina |
Status | Entwurf |
---|