|
Wissensentdeckung in Datenbanken (Spezialvorlesung, 4 SWS)
LehrverantwortlicheProf. Dr. Katharina MorikInhaltDie Vorlesung gibt einen Überblick über das Zusammenspiel von Datenmanagement und Datenanalyse in großen Datenbanken. Der Prozess der Datenanalyse wird anhand des CRISP-Modells vorgestellt, eine Unterstützung der Vorverarbeitungs- und Lernschritte bietet das System Yale.Für die einzelnen Schritte des Datenanalyseprozesses werden jeweils typische Verfahren vermittelt. Die Verfahren reichen von einfachen Datenbankoperationen, wie z.B. SQL-Anfragen an die Datenbank, bis zu komplexen Datenanalyseverfahren aus Statistik oder Maschinellem Lernen. Als besonders wichtige Data Mining Methoden werden Klassifikations- und Clustering-Verfahren eingeführt, darunter die k-means-Methode, das Bestimmen von Entscheidungsbäumen, Assoziationsregeln und die Stützvektormethode. Einen Schwerpunkt bildet auch die Abschätzung der Glaubwürdigkeit der Ergebnisse mit Hilfe von geeigneten Testdesigns wie z.B. Kreuzvalidierung oder Bootstrapping. In den Übungen wird Datenmanagement und Datenanalyse anhand von Daten aus der Praxis eingeübt. Interdisziplinäre VeranstaltungDiese Veranstaltung findet im interdisziplinären Rahmen zusammen mit dem Fachbereich Statistik statt.BemerkungErwünschte Mitarbeit der Studierenden:
Vorraussetzungen:Erforderliche Kenntnisse: Vordiplom InformatikLeistungsnachweis:
Folien:Hier können Sie die aktuellen Folien herunterladen.Data Cube, Assoziationsregeln, etc. SVM 1 SVM 2 Textklassifikation Ensemble- und Subspace-Clustering Vorverarbeitung Übungszettel:Hier können Sie die Übungszettel herunterladen.Blatt 01 Blatt 02 Blatt 02 (in (bad :-)) English) Blatt 03 Blatt 03 (in (better ?) English) Folien zu Blatt 03 aus der Uebung Blatt 04 Der Abgabetermin ist einen Tag spaeter - also am 09.05.2007! Blatt 04 (in English) Blatt 09 Abgabe am 12.06.2007 23.59 Uhr Blatt 10 Abgabe am 19.06.2007 23.59 Uhr Werkzeug:Hier können Sie die in der Vorlesung benutzte Yale-Version herunterladen.YALE 3.4.1 (for windows) YALE 3.4.1 (for linux) Datensätze:Hier können Sie die für die Übung benötigten Datensätze herunterladen.mushrooms.xrff iris.xrff irisTest.xrff LiteraturEmpfohlene Literatur:Wird in der Vorlesung bekannt gegeben. U.a.: Hastie, T., Tibshirani, R., Friedman, J. (2001). The Elements of Statistical Learning. Springer. Hand, D., Mannila, H., Smyth, P. (2001). Principles of Data Mining. MIT Press. Witten, I.H., Frank, E. (2001): Data Mining ? Praktische Werkzeuge und Techniken für das maschinelle Lernen. Mitchell, Tom (1997): Machine Learning, McGraw Hill, 1997 Skript: Ja (teilweise als Folien) |
LS8 News - Teaching - Research - Projects - Software - Staff - General - Internal | Imprint |