Hauptnavigation

Seminar "Verteilte Wissensentdeckung – Distributed Data Mining"

Veranstaltung Wochentag Termin Ort
44606 Donnerstag 10:15 - 12:00 (2 SWS) GB IV / R. 318

Veranstalter

Prof. Dr. Katharina Morik

Kommentar

Für viele Firmen ist es wichtig zu wissen,

  • welche Waren sich besonders gut verkaufen, den Verkauf bestimmter Waren vorauszusagen, um die Lagerhaltungskosten zu senken,
  • die Qualität ihrer Waren zu kontrollieren,
  • Dienste gezielt bereitzustellen oder den Missbrauch von Diensten rechtzeitig zu entdecken.

Dazu werden Daten erhoben und analysiert. Viele Daten werden verteilt gespeichert oder erhoben, z.B. die Verkaufsdaten von Filialen einer Firma, die Daten von Mobiltelefonen, die Daten von Sensoren in Autos. Bisher mussten diese Daten in ein Data Warehouse integriert werden, bevor man mit Verfahren der Wissensentdeckung (Data Mining) eine Übersicht erstellen oder darin Muster erkennen konnte. Data Mining findet Muster, gruppiert Daten oder lernt Klassifikationsregeln aus sehr großen Datenbeständen. Jetzt werden diese Verfahren weiterentwickelt für sehr große verteilte Datenbestände. Es entsteht das neue Gebiet des Distributed Data Mining. Das Seminar führt in dieses neue Forschungsgebiet ein.

Insbesondere werden in dem Seminar die folgenden Verfahren und Ansätze zu ihrer Erweiterung für verteilte Daten vorgestellt:

  • Frequent Set Mining
    [Agarwal et al., 2001], [R.Agrawal and J.C.Shafer,1996]
    [Metwally et al., 2005]

  • Top Down Induction of Decision Trees
    [Andrade et al., 2003],[Gianella et al., 2004]
  • Clustering
    [Datta et al., 2006], [Gosh et al., 2002], [Gionis et al., 2005]
    [Januzaj et al., 2004], [Topchy et al., 2003]

Da eventuell die Analyse verteilter Daten den Schutz persönlicher Daten gefährden könnte, werden auch Techniken entwickelt, die die Privatheit von Daten schützen [Clifton et al., 2002].

Die Anmeldung findet in der ersten Sitzung am 19.10.2006 um 10 Uhr c.t. im GB IV, Raum 318 statt.

Voraussetzung ist die Vorlesung Darstellung, Erwerb und Verarbeitung von Wissen, wünschenswert die Vorlesung Wissensentdeckung in Datenbanken -- Data Mining.

Literaturverzeichnis

[[Agarwal et al., 2001]] Agarwal, R. C., Aggarwal, C. C., and Prasad, V. V. V. (2001). A Tree Projection Algorithm for Generation of Frequent Item Sets. Journal of Parallel and Distributed Computing, 61(3):350-371.

[Andrade et al., 2003] Andrade, H., Kurc, T., Saltz, J., and Sussman, A. (2003). Decision Tree Construction for Data Mining on Clusters of Shared Memory Multiprocessors. In Procs. of the 6th International Workshop on High Performance Data Mining -- Pervasive and Stream Data Mining, in conjunctioni with the 3rd International SIAM Conference.

[Clifton et al., 2002] Clifton, C., Kantarcioglu, M., Vaidya, J., Lin, X and Zhu, M. (2002). Tools for Privacy Preserving Distributed Data Mining. ACM SIGKDD Explorations

[Datta et al., 2006] Datta, S., Giannella, C. and Kargupta, H. (2006). K-Means Clustering over a Large, Dynamic Network. In Proceedings of 2006 SIAM Conference on Data Mining, Bethesda, MD.

[Ghosh et al., 2002] Ghosh, J., Strehl, A. and Merugu, S. (2002). A Consensus Framework for Integrating Distributed Clusterings Under Limited Knowledge Sharing. In Proceedings of NSF Workshop on Next Generation Data Mining, pages 99/108, Baltimore, MD.

[Giannella et al., 2004] Giannella, C., Liu, K., Olsen, T and Kargupta, H. (2004). Communication Efficient Construction of Decision Trees Over Heterogeneously Distributed Data. In Morik, K. and Rastogi, R., editors, Procs. of the 4th IEEE International Conference Data Mining.

[Gionis et al., 2005] Gionis, A., Mannila, H. and Tsaparas, P. (2005). Clustering Aggregation. In Proceedings of the 21st International Conference on Data Engineering (ICDE'05), Tokyo, Japan.

[Januzaj et al., 2004] Gionis, A., Kriegel, H. P. and Pfeifle, M. (2004). Scalable Density Based Distributed Clustering. In Proceedings of EDBT, volume 2992 of Lecture Notes in Computer Science, pages 88 - 105.

[Metwally et al., 2005] Metwally, A., Agrawal, D. and Abbadi, A. E. (2005). Efficient Computation of Frequent and Top-k Elements in Data Streams. In Proceedings of the tenth International Conference on Database Theory (ICDT'05), Edinburgh, Scotland.

[R.Agrawal and J.C.Shafer, 1996] R.Agrawal and J.C.Shafer (1996). Parallel Mining of Association Rules . IEEE REansactions on Knowledge and Data Engineering, pages 962 – 969.

[Topchy et al., 2003] Topchy, A., Jain, A. and Punch, W. (2003). Combining Multiple Weak Clustering. In Proceedings of the 3rd Int. IEEE Int. Conference on Data mining.