Hauptnavigation

Auffinden interessanter Wertebereiche in Datenbankattributen

Abstract
    Die vorliegende Arbeit befaßt sich mit der Aggregation von Attributwerten einer relationalen Datenbank. Hierzu werden zwei Verfahren vorgestellt: ClustDB gruppiert Werte nominaler Attribute gemäß einer Cluster-Analyse unter Verwendung eines eigens für das Verfahren definierten Ähnlichkeitsmaßes. NumInt sucht in numerischen Attributen nach  Intervallen, die sich als sinnvolle Vergröberung der einzelnen Werte anbieten und stellt damit ein Diskretisierungsverfahren dar.

    Beide Verfahren arbeiten auf einer relationalen Datenbank und können als Werkzeug bei der Wissensentdeckung in Datenbanken (KDD) verwendet werden: ClustDB kann der Entdeckung und Überprüfung einstelliger funktionaler Abhängigkeiten dienen und für Begriffslerner eine effektive Dimensionsreduktion bei klassifizierten Beispielen erzielen. Darüber hinaus kann es wie auch NumInt zur Überprüfung der Datenqualität genutzt werden.

    Die zugrundeliegenden Ansätze sind als solche nicht an eine relationale Datenbank gebunden, so daß beide Verfahren auch dann anwendbar bleiben, wenn Daten in anderer Form vorliegen.

Kontakt
  • Christian Franzel
Software
  • NumInt, ClustDB