Das eine Klassifikation von Paragraphen anhand ihrer Formatierungsmerkmale erfolgen kann, konnte gezeigt werden. Dokumente die im verwendeten RTF-Format gespeichert sind weisen jedoch eine F?lle an Kontrollw?rtern auf, die f?r die Klassifikation unwichtig sind, da sie keine Informationen bieten, die zur Klassifikation verwendet werden k?nnten. In Kapitel 4 wurde gezeigt, wie diese unwichtigen Kontrollw?rter gel?scht werden k?nnen.
Um die Paragraphen besser klassifizieren zu k?nnen, m?ssen neben dem L?schen der irrelevanten Kontrollw?rter allerdings auch neue Attribute eingef?hrt werden. Das Wegfallen und Hinzukommen von Kontrollw?rter bez?glich zweier aufeinanderfolgenden Paragraphen wird durch vier zus?tzliche Attribute beschrieben. Weitere vier Attribute werden bei allen Kontrollw?rtern mit Parameterwerten hinzugef?gt. Diese beschreiben ob sich der Parameterwert verkleinert oder vergr??ert hat, ob er gleich geblieben oder ganz weggefallen ist.
Bereitet man die, durch die Formatierung der Paragraphen gegebenen Attribute, wie beschrieben auf, k?nnen die Abs?tze eines Dokumentes anhand von Formatierungsattributen klassifiziert werden.