Um die Menge der zu speichernden und zu verarbeitenden Daten m?glichst gering zu halten, ist es sinnvoll, zuerst einmal alle Daten zu entfernen, die keine Informationen zur L?sung des Klassifikationproblems bieten.
Zu diesen Daten geh?rt zum einen die in Abschnitt 2.2.7 beschriebene Header-Gruppe einer RTF-Datei. Das die dort gegebenen Informationen unbeachtet bleiben k?nnen, wird in Abschnitt 8.1.3 ausf?hrlich erl?utert.
Zum anderen wird im ersten Preprocessing-Schritt eine Datenbereinigung durchgef?hrt.
Allgemein geht es bei der Datenbereinigung um das Entfernen fehlerhafter oder irrelevanter Daten aus einer Datenmenge. Die Daten die aus einem Dokument gewonnen werden, sind zwar in der Regel nicht fehlerhaft, es finden sich allerdings eine Reihe von Daten die keine Informationen zur L?sung des Problems beitragen.
In RTF-Dokumenten werden beispielsweise meist vor Beginn eines neuen Paragraphen alle Absatzformatierungen, mit dem Befehl \pard, auf die Standardeinstellung zur?ckgestellt. Folglich m?ssen die Absatzformatierungen anschlie?end wieder neu gesetzt werden. Dies f?hrt dazu, dass es eine gro?e Menge an Kontrollw?rtern gibt, die in allen Paragraphen vorkommen. Daher liefern sie keine Informationen mit denen bestimmte Abschnitte im Dokument beschrieben werden k?nnten.
Der Datenbereinigungsvorgang stellt die Menge B aller irrelevanten Kontrollw?rter auf:
Sei
A : = {A1, A2,..., Am} die Menge aller Paragraphen,
B : = {k1, k2,..., kn} die Menge aller Kontrolw?rter und
kw(Ax);x [1, m],
kw : A
(B), dann ist
Die nach der Datenbereinigung als relevant erkannten Steuerw?rter werden bez?glich eines Paragraphen, den sie formatieren, gespeichert. Wichtig f?r die weitere Verarbeitung im zweiten Preprocessing-Schritt, der Instanzerzeugung, ist hierbei, dass die Anzahl der von einem Kontrollwort beeinflussten Zeichen eines Paragraphen, errechnet und ebenfalls gespeichert wird. Zu beachten ist hierbei, dass im RTF-Format Gruppen geschachtelt werden k?nnen. Dadurch bezieht sich ein Steuerwort einer Gruppe auch auf alle Subgruppen, sofern es nicht von einem anderen ?berschrieben wird.