Wissensentdeckung in Datenbanken

Die Vorlesung Wissenentdeckung in Datenbanken ist eine Einführung in die Datenanalyse sowohl aus Sicht der Statistik als auch der Informatik. Sie wird in diesem Jahr von Herrn Prof. Dr. Claus Weihs (Statistik) und Frau Prof. Dr. Katharina Morik (Informatik) gehalten.

Alle Informationen zur Vorlesung und zum Übungsbetrieb findet ihr grundsätzlich auf der Seite der Statistiker:

Materialen zur Vorlesung

Für den Zugang benötigt ihr einen Benutzernamen und ein Kennwort, welche in der Vorlesung bzw. den Übungen bekannt gegeben werden. Auf der Seite, auf der ihr euch gerade befindet, stellen wir den Informatik-Teil der Vorlesung ohne Zugangsbeschränkung zur Verfügung.

Aktuelles

Aktuelle Termine für diese Veranstaltung sind:

21. Juli, 10-12 Uhr, HG 1/HS 2 (Campus Süd):
Frequent Itemsets über Datenströmen (Morik).
23. Juli, 14-16 Uhr, HG 1/HS 2 (Campus Süd):
Abschlussvorlesung (Weihs und Morik).
24. Juli, 14-16 Uhr, HG 1/HS 2 (Campus Süd):
Übungen zu Blatt 13 (Marco).

Übungen

Allgemeine Informationen

Die Anmeldung zu den Übungen erfolgte in der ersten Vorlesung. Die Aufteilung der Teilnehmer auf die Gruppen kann hier eingesehen werden:

Teilnehmerliste

Die genauen Uhrzeiten und Modalitäten zu den Abgaben, dem Scheinerwerb und den Pool-Accounts könnt ihr dem folgenden Info-Blatt entnehmen:

Info-Blatt zum Ablauf der Übungen.

Bei Fragen zur Vorlesung oder den Übungen helfen euch - je nach Schwerpunkt - gerne die Übungsgruppenleiter weiter:

Dipl.-Stat. Julia Schiffner
Campus Nord, Mathe-Tower, Raum M/740
Sprechstunde: Montags von 14 - 16 Uhr
schiffner(at)statistik.uni-dortmund.de
Dipl.-Inform. Marco Stolpe
Campus Süd, GB IV, Raum 121
Sprechstunde: gerne nach Vereinbarung
marco.stolpe(at)tu-dortmund.de

Software

Die Übungsaufgaben erfordern teilweise den Einsatz der in der ersten Übung vorgestellten Softwarepakete R und RapidMiner.

Offizielle Seite zu R
Einführung in R
Offizielle Seite zu RapidMiner
Offizielle Dokumentation zu RapidMiner (Tutorial)
Einführung in RapidMiner

Übungsblätter und Begleitmaterialien

Hier findet Ihr die Übungsblätter und dazugehörige Begleitmaterialien (z. B. Datensätze).

Blatt 1 - Abgabe bis zum 21.04., 10:00 Uhr per E-Mail an Julia
Blatt 2 - Abgabe bis zum 30.04., 23:59 Uhr per E-Mail an Marco, CSV-Datei (Regression) für RapidMiner.
Blatt 3 - Abgabe bis zum 05.05., 10:00 Uhr per E-Mail an Marco, CSV-Datei (Iris) für RapidMiner.
Blatt 4 - Abgabe bis zum 12.05., 10:00 Uhr per E-Mail an Julia, CSV-Datei (Banknoten), Infos zum Datensatz.
Blatt 5 - Abgabe bis zum 19.05., 10:00 Uhr per E-Mail an Julia, Daten (Spam), Infos zum Datensatz.
Blatt 6 - Abgabe bis zum 26.05., 10:00 Uhr per E-Mail an Marco, Daten und Infos siehe Blatt 5!
Blatt 7 - Abgabe bis zum 09.06., 10:00 Uhr per E-Mail an Marco, Daten und Infos siehe Blatt 5! Hinweis zu Aufg. 7.3: Das Training der SVM kann mehrere Stunden dauern. Wer keine Möglichkeit hat, so lange zu warten, darf die Parameteroptimierung auch auf einen kleineren Bereich einschränken.
Blatt 8 - Abgabe bis zum 16.06., 10:00 Uhr per E-Mail an Marco.
Blatt 9 - Abgabe bis zum 23.06., 10:00 Uhr per E-Mail an Marco.
Blatt 10 Abgabe bis zum 30.06., 10:00 Uhr per E-Mail an Julia, Rosen-Datensatz, Adidas-Datensatz.
Blatt 11 Abgabe bis zum 07.07., 10:00 Uhr per E-Mail an Julia, Aussenhandel-Datensatz.
Blatt 12 Abgabe bis zum 14.07., 10:00 Uhr per E-Mail an Julia, mpg_info.txt, mpg_test.txt, mpg_train.txt, Tuba.txt.
Blatt 13 Abgabe bis zum 21.07., 10:00 Uhr per E-Mail an Marco.

Vorlesungsinhalte

Nachfolgend findet ihr während der Vorlesung eine laufend aktualisierte Liste der Vorlesungsinhalte für den Informatik-Teil. Die Auflistung garantiert keine Vollständigkeit und ist nicht als Grundlage für Prüfungsvorbereitungen, sondern lediglich als Erinnerung/Überblick zu verstehen.

14.04.2009	Motivation zum Thema Wissenentdeckung in Datenbanken Überblick über Einsatzfelder von Data Mining und Statistik Statistik-Grundlagen Inhalte und Zeitplan der Vorlesung	Folien: 1DMVintro.pdf 1DMVintro_4p.pdf (Druckversion)
21.04.2009	Lineare Modelle Bias-Varianz-Problem	Folien: 2DMVBiasVar.pdf 2DMVBiasVar_4p.pdf
23.04.2009	k Nächste Nachbarn Ähnlichkeitsmaße Funktionsapproximation Modellselektion	Folien: 3DMVkNN.pdf 3DMVkNN_4p.pdf
28.04.2009	Basisexpansion und Strafterm Generelle additive Modelle Baumlerner	Folien: 4DMVadditive.pdf 4DMVadditive_4p.pdf
26.05.2009	Hinführungen zur SVM Maximum Margin Methode Lagrange-Optimierung Weich trennende SVM	Folien: 5DMVsvm1.pdf 5DMVsvm1_4p.pdf
28.05.2009	Lösung des Optimierungsproblems Kernfunktionen Bias und Varianz bei SVM Anwendungen	Folien: 5DMVsvm2.pdf 5DMVsvm2_4p.pdf
09.06.2009	Textkategorisierung mit SVMs Web Mining Information Retrieval Textklassifikation Verwendung des Modells	Folien: 5DMVsvm3.pdf 5DMVsvm3_4p.pdf
16.06.2009	Strukturelle Modelle Primales Problem Duales Problem Optimierung der SVMstruct Anwendungen	Folien: 6DMVstrukt.pdf 6DMVstrukt_4p.pdf
18.06.2009	Lernaufgabe Cluster-Analyse Abstandsmaße Optimierungsprobleme K-Means Agglomeratives Clustering	Folien: 7MLVcluster.pdf 7MLVcluster_4p.pdf Folien mit korrektem Titel und Datum folgen!
14.07.2009	Data Cube APRIORI	Folien: 7DMVDataCube.pdf 7DMVDataCube_4p.pdf 7DMVApriori.pdf 7DMVApriori_4p.pdf
16.07.2009	FP-Growth MinEx LTree	Folien: 7DMVMinEx.pdf 7DMVMinEx_4p.pdf 7DMVLTree.pdf 7DMVLTree_4p.pdf
21.07.2009	Frequent Itemsets über Datenströmen Problemdefinition Online-Algorithmen Experimente	Folien: 8DMVHHH.pdf 8DMVHHH_4p.pdf

Seitenentwurf und Grafik von Christian Bockermann

Hauptnavigation

General

Research

Teaching

Staff