Hauptnavigation

Wissensentdeckung in Datenbanken

Die Vorlesung Wissenentdeckung in Datenbanken ist eine Einführung in die Datenanalyse sowohl aus Sicht der Statistik als auch der Informatik. Sie wird in diesem Jahr von Herrn Prof. Dr. Claus Weihs (Statistik) und Frau Prof. Dr. Katharina Morik (Informatik) gehalten.

Alle Informationen zur Vorlesung und zum Übungsbetrieb findet ihr grundsätzlich auf der Seite der Statistiker:

Für den Zugang benötigt ihr einen Benutzernamen und ein Kennwort, welche in der Vorlesung bzw. den Übungen bekannt gegeben werden. Auf der Seite, auf der ihr euch gerade befindet, stellen wir den Informatik-Teil der Vorlesung ohne Zugangsbeschränkung zur Verfügung.

Aktuelles

Aktuelle Termine für diese Veranstaltung sind:

  • 21. Juli, 10-12 Uhr, HG 1/HS 2 (Campus Süd):
    Frequent Itemsets über Datenströmen (Morik).
  • 23. Juli, 14-16 Uhr, HG 1/HS 2 (Campus Süd):
    Abschlussvorlesung (Weihs und Morik).
  • 24. Juli, 14-16 Uhr, HG 1/HS 2 (Campus Süd):
    Übungen zu Blatt 13 (Marco).

Übungen

Allgemeine Informationen

Die Anmeldung zu den Übungen erfolgte in der ersten Vorlesung. Die Aufteilung der Teilnehmer auf die Gruppen kann hier eingesehen werden:

Die genauen Uhrzeiten und Modalitäten zu den Abgaben, dem Scheinerwerb und den Pool-Accounts könnt ihr dem folgenden Info-Blatt entnehmen:

Bei Fragen zur Vorlesung oder den Übungen helfen euch - je nach Schwerpunkt - gerne die Übungsgruppenleiter weiter:

  • Dipl.-Stat. Julia Schiffner
    Campus Nord, Mathe-Tower, Raum M/740
    Sprechstunde: Montags von 14 - 16 Uhr
    schiffner(at)statistik.uni-dortmund.de
  • Dipl.-Inform. Marco Stolpe
    Campus Süd, GB IV, Raum 121
    Sprechstunde: gerne nach Vereinbarung
    marco.stolpe(at)tu-dortmund.de

Software

Die Übungsaufgaben erfordern teilweise den Einsatz der in der ersten Übung vorgestellten Softwarepakete R und RapidMiner.

Übungsblätter und Begleitmaterialien

Hier findet Ihr die Übungsblätter und dazugehörige Begleitmaterialien (z. B. Datensätze).

  • Blatt 1 - Abgabe bis zum 21.04., 10:00 Uhr per E-Mail an Julia
  • Blatt 2 - Abgabe bis zum 30.04., 23:59 Uhr per E-Mail an Marco, CSV-Datei (Regression) für RapidMiner.
  • Blatt 3 - Abgabe bis zum 05.05., 10:00 Uhr per E-Mail an Marco, CSV-Datei (Iris) für RapidMiner.
  • Blatt 4 - Abgabe bis zum 12.05., 10:00 Uhr per E-Mail an Julia, CSV-Datei (Banknoten), Infos zum Datensatz.
  • Blatt 5 - Abgabe bis zum 19.05., 10:00 Uhr per E-Mail an Julia, Daten (Spam), Infos zum Datensatz.
  • Blatt 6 - Abgabe bis zum 26.05., 10:00 Uhr per E-Mail an Marco, Daten und Infos siehe Blatt 5!
  • Blatt 7 - Abgabe bis zum 09.06., 10:00 Uhr per E-Mail an Marco, Daten und Infos siehe Blatt 5! Hinweis zu Aufg. 7.3: Das Training der SVM kann mehrere Stunden dauern. Wer keine Möglichkeit hat, so lange zu warten, darf die Parameteroptimierung auch auf einen kleineren Bereich einschränken.
  • Blatt 8 - Abgabe bis zum 16.06., 10:00 Uhr per E-Mail an Marco.
  • Blatt 9 - Abgabe bis zum 23.06., 10:00 Uhr per E-Mail an Marco.
  • Blatt 10 Abgabe bis zum 30.06., 10:00 Uhr per E-Mail an Julia, Rosen-Datensatz, Adidas-Datensatz.
  • Blatt 11 Abgabe bis zum 07.07., 10:00 Uhr per E-Mail an Julia, Aussenhandel-Datensatz.
  • Blatt 12 Abgabe bis zum 14.07., 10:00 Uhr per E-Mail an Julia, mpg_info.txt, mpg_test.txt, mpg_train.txt, Tuba.txt.
  • Blatt 13 Abgabe bis zum 21.07., 10:00 Uhr per E-Mail an Marco.

Vorlesungsinhalte

Nachfolgend findet ihr während der Vorlesung eine laufend aktualisierte Liste der Vorlesungsinhalte für den Informatik-Teil. Die Auflistung garantiert keine Vollständigkeit und ist nicht als Grundlage für Prüfungsvorbereitungen, sondern lediglich als Erinnerung/Überblick zu verstehen.

14.04.2009 Motivation zum Thema Wissenentdeckung in Datenbanken
Überblick über Einsatzfelder von Data Mining und Statistik
Statistik-Grundlagen
Inhalte und Zeitplan der Vorlesung
Folien:
1DMVintro.pdf
1DMVintro_4p.pdf (Druckversion)
21.04.2009 Lineare Modelle
Bias-Varianz-Problem
Folien:
2DMVBiasVar.pdf
2DMVBiasVar_4p.pdf
23.04.2009 k Nächste Nachbarn
Ähnlichkeitsmaße
Funktionsapproximation
Modellselektion
Folien:
3DMVkNN.pdf
3DMVkNN_4p.pdf
28.04.2009 Basisexpansion und Strafterm
Generelle additive Modelle
Baumlerner
Folien:
4DMVadditive.pdf
4DMVadditive_4p.pdf
26.05.2009 Hinführungen zur SVM
Maximum Margin Methode
Lagrange-Optimierung
Weich trennende SVM
Folien:
5DMVsvm1.pdf
5DMVsvm1_4p.pdf
28.05.2009 Lösung des Optimierungsproblems
Kernfunktionen
Bias und Varianz bei SVM
Anwendungen
Folien:
5DMVsvm2.pdf
5DMVsvm2_4p.pdf
09.06.2009 Textkategorisierung mit SVMs
Web Mining
Information Retrieval
Textklassifikation
Verwendung des Modells
Folien:
5DMVsvm3.pdf
5DMVsvm3_4p.pdf
16.06.2009 Strukturelle Modelle
Primales Problem
Duales Problem
Optimierung der SVMstruct
Anwendungen
Folien:
6DMVstrukt.pdf
6DMVstrukt_4p.pdf
18.06.2009 Lernaufgabe Cluster-Analyse
Abstandsmaße
Optimierungsprobleme
K-Means
Agglomeratives Clustering
Folien:
7MLVcluster.pdf
7MLVcluster_4p.pdf
Folien mit korrektem Titel und Datum folgen!
14.07.2009 Data Cube
APRIORI
Folien:
7DMVDataCube.pdf
7DMVDataCube_4p.pdf
7DMVApriori.pdf
7DMVApriori_4p.pdf
16.07.2009 FP-Growth
MinEx
LTree
Folien:
7DMVMinEx.pdf
7DMVMinEx_4p.pdf
7DMVLTree.pdf
7DMVLTree_4p.pdf
21.07.2009 Frequent Itemsets über Datenströmen
Problemdefinition
Online-Algorithmen
Experimente
Folien:
8DMVHHH.pdf
8DMVHHH_4p.pdf

Seitenentwurf und Grafik von Christian Bockermann