Hauptnavigation

Wissensentdeckung in Datenbanken

Die Vorlesung Wissenentdeckung in Datenbanken ist eine Einführung in die Datenanalyse sowohl aus Sicht der Statistik als auch der Informatik.

Auf dieser Seite findet ihr einige Infos zur Vorlesung und zum Übungsbetrieb. Die genauen Modalitäten zu den Abgaben, dem Scheinerwerb und den Pool-Accounts könnt ihr dem Info-Blatt entnehmen. Bei Fragen zur Vorlesung oder den Übungen helfen wir euch gerne weiter. Ihr erreicht uns hier:

Dipl.-Stat. Gero Szepannek
Campus Nord, Mathe-Tower, Raum M732
szepannek (at) statistik.uni-dortmund.de
Dipl.-Inf. Christian Bockermann
Campus Süd, GB IV, Raum 119
christian.bockermann (at) cs.uni-dortmund.de

Übungen

Hier findet ihr die Einteilung in die Übungsgruppen. Die Übungsblätter des Informatikteils werden ebenfalls hier veröffentlicht, die Blätter zum Statistikteil findet ihr auf den Statistik-Seiten zur Vorlesung.

Übungsblätter

Software

Die in den (Informatik-)Übungen zur Vorlesung verwendete Software ist im Internet frei verfügbar, so dass sämtliche Übungen auch zu Hause durchgeführt werden können. Die Software findet sich leicht über folgende Links:
  • SQLite: http://www.sqlite.org, dort findet Ihr unter dem Punk Downloads vorkompilierte Binär-Versionen für die gängigen Betriebssysteme.
  • RapidMiner: http://rapid-i.com, (unter dem Punkt Downloads -> RapidMiner (Yale)

Vorlesungsinhalte

Nachfolgend findet ihr während der Vorlesung eine laufend aktualisierte Liste der Vorlesungsinhalte. Die Auflistung garantiert keine Vollständigkeit und ist nicht als Grundlage für Prüfungsvorbereitungen sondern lediglich als Erinnerung/Überblick zu verstehen.
8.4.2008 Motivation zum Thema Wissenentdeckung in Datenbanken
Überblick über Einsatzfelder von Data Mining und Statistik
Inhalte und Zeitplan der Vorlesung
Folien:
01_Einfuehrung.pdf
01_Einfuehrung_4p.pdf
10.4.2008 CRISP als standardisierter DM-Prozess (Phasen)
Modell-Evaluation mit Test-Daten, Leave-One-Out
Datenbanken: Relationen, Schemata und Schlüssel
Folien:
02_CRISP.pdf
02_CRISP_4p.pdf
15.04.2008 Anomalien in Relationenschemata
Relationenalgebra, SQL-Anfragen, Kreuzprodukt, Join
Speichern von Daten: Indexierung, B-Tree
Folien:
03_Datenbanken1.pdf
03_Datenbanken1_4p.pdf
04_Datenbanken2.pdf
04_Datenbanken2_4p.pdf
17.04.2008 Hashing: Lineares Hashing, Partitioned Hashing
Data Cube: Roll Up, Drill Down, GROUP BY
Materialisierung von Cube-Teilen: Greedy-Algorithmus
Folien:
05_Datenbanken3_cube.pdf
05_Datenbanken3_cube_4p.pdf
22.04.2008 Assoziationsregeln, Warenkorbanalyse, Binäre Darstellung von Tabellen
Häufige Mengen, Apriori-Eigenschaft, Teilmengenverband
Regelgenerierung, Regelbewertung, Closed Sets
Folien:
05_Datenbanken3_apriori.pdf
05_Datenbanken3_apriori_4p.pdf
24.04.2008 Closed Sets (Wdh), Free sets, MinEx-Algorithmus (freie häufige Mengen)
Zeitphenomene, Granularitäten
Episoden, Häfigkeit von Episoden, WinEPI
Folien:
05_Datenbanken3_freesets.pdf
05_Datenbanken3_freesets_4p.pdf
05_Datenbanken3_episoden.pdf
05_Datenbanken3_episoden_4p.pdf
28.04.2008 Beispiel WinEPI, Indexierung bei WinEPI
Abstraktionsebene bei Data Mining
Clustering von Zeitreihen (Diskretisierung, Gaudam Das et.al.)
Sequenzen (Zeit-Intervalle) nach Höppner
06.05.2008 FPGrowth - Häufige Mengen ohne Kandidatengenerierung
FP-Tree, conditional pattern base
Privacy Preserving Data Mining: k-Anonymity

Link: KDubiq Summerschool 2008
Folien:
06_Datenbanken4.pdf
06_Datenbanken4_4p.pdf
Bonchi_privacy_kdubiq08.pdf
Bonchi_privacy_kdubiq08_4p.pdf
08.05.2008 Überblick/Wiederholung Häufige Mengen
Clustering anhand häfiger Mengen: Clustering von Dokumenten, FTC-Algorithmus
Anwendung von HFTC auf Web 2.0/Tagging Systeme
Multikriterielle Optimierung (kurze Einführung), Genetische Programmingung, Pareto-Konzept/Pareto-Front
Folien:
06_Datenbanken5.pdf
06_Datenbanken5_4p.pdf
12.06.2008 Widerholung/Überblick: Funktionenlernen
Vektorraum der Beispiele, Ähnlichkeit über Skalarprodukt, Hilbertraum
Separierende Hyperebene, Maximum Margin Problem, Formulierung als Optimierungsproblem
Einführung der Lagrange-Multiplier für Nebenbedingungen, Karush-Kuhn-Tucker Bedingung
Folien:
06_SVM1.pdf
06_SVM1_4p.pdf
17.06.2008 Weich trennende Hyperebene, Kernfunktionen: Kerntrick
Polynomielle Kernel, RBF-Kernel, Mercer-Bedingung
Optimierung der Alpha-Werte, SMO-Algorithmus
Folien:
07_SVM2.pdf
07_SVM2_4p.pdf