Hauptnavigation

Datenbereinigung next up previous contents
Weiter: Verarbeitung der Paragraphen Hoch: Parser und Tokenizer Zurück: Header-Gruppe


Datenbereinigung

Die Datenbereinigung (data cleaning) stellt einen Teil des Preprocessingschrittes innerhalb von A D T da. Allgemein geht es bei der Datenbereinigung um das Entfernen fehlerhafter oder irrelevanter Daten aus einer Datenmenge.

Wie bereits im Kapitel 4 erkl?rt, sind die Daten, die aus einem Dokument gewonnen werden, in der Regel nicht fehlerhaft, es finden sich allerdings eine Reihe von Daten die keine Informationen zur L?sung des Problems beitragen.

Zu Beginn des ersten Vorverarbeitungsschritts wird eine Liste der irrelevanten Kontrollw?rter aufgestellt. Die Methode datacleaning(), der Klasse Parser.java, erstellt, nach der in Abschnitt 4.1.2 genau beschrieben Verfahren, eine Liste aller Steuerw?rter. Anschlie?end k?nnen dann alle Kontrollw?rter entfernt werden, die nicht in jedem Paragraphen vorkommen. Am Ende dieses Vorganges enth?lt die Liste alle f?r die Klassifikation irrelevanten Steuerw?rter.



Christian H?ppe, christian.hueppe@web.de