Wie bereits im Kapitel 4 erkl?rt, sind die Daten, die aus einem Dokument gewonnen werden, in der Regel nicht fehlerhaft, es finden sich allerdings eine Reihe von Daten die keine Informationen zur L?sung des Problems beitragen.
Zu Beginn des ersten Vorverarbeitungsschritts wird eine Liste der irrelevanten Kontrollw?rter aufgestellt. Die Methode datacleaning(), der Klasse Parser.java, erstellt, nach der in Abschnitt 4.1.2 genau beschrieben Verfahren, eine Liste aller Steuerw?rter. Anschlie?end k?nnen dann alle Kontrollw?rter entfernt werden, die nicht in jedem Paragraphen vorkommen. Am Ende dieses Vorganges enth?lt die Liste alle f?r die Klassifikation irrelevanten Steuerw?rter.