Preprocessing 1: Datenstrukturerzeugung

Im ersten Preprocessing¹⁶-Schritt werden die einzelnen Paragraphen, des durch den Parser eingelesenen Dokuments, in eine geeignete Datenstruktur ?berf?hrt.

Um die Menge der zu speichernden und zu verarbeitenden Daten m?glichst gering zu halten, ist es sinnvoll, zuerst einmal alle Daten zu entfernen, die keine Informationen zur L?sung des Klassifikationproblems bieten.

Zu diesen Daten geh?rt zum einen die in Abschnitt 2.2.7 beschriebene Header-Gruppe einer RTF-Datei. Das die dort gegebenen Informationen unbeachtet bleiben k?nnen, wird in Abschnitt 8.1.3 ausf?hrlich erl?utert.

Zum anderen wird im ersten Preprocessing-Schritt eine Datenbereinigung durchgef?hrt.

Allgemein geht es bei der Datenbereinigung um das Entfernen fehlerhafter oder irrelevanter Daten aus einer Datenmenge. Die Daten die aus einem Dokument gewonnen werden, sind zwar in der Regel nicht fehlerhaft, es finden sich allerdings eine Reihe von Daten die keine Informationen zur L?sung des Problems beitragen.

In RTF-Dokumenten werden beispielsweise meist vor Beginn eines neuen Paragraphen alle Absatzformatierungen, mit dem Befehl \pard, auf die Standardeinstellung zur?ckgestellt. Folglich m?ssen die Absatzformatierungen anschlie?end wieder neu gesetzt werden. Dies f?hrt dazu, dass es eine gro?e Menge an Kontrollw?rtern gibt, die in allen Paragraphen vorkommen. Daher liefern sie keine Informationen mit denen bestimmte Abschnitte im Dokument beschrieben werden k?nnten.

Der Datenbereinigungsvorgang stellt die Menge B aller irrelevanten Kontrollw?rter auf:

Sei A : = {A₁, A₂,..., A_m} die Menge aller Paragraphen, B : = {k₁, k₂,..., k_n} die Menge aller Kontrolw?rter und kw(A_x);x $\in$ [1, m], kw : A $\mapsto$ $\wp$ (B), dann ist

B = $\displaystyle \bigcap_{i=1}^{n}$ kw(A_i)

die Menge aller Kontrollw?rter, die in allen Paragraphen von A vorkommen.

Die nach der Datenbereinigung als relevant erkannten Steuerw?rter werden bez?glich eines Paragraphen, den sie formatieren, gespeichert. Wichtig f?r die weitere Verarbeitung im zweiten Preprocessing-Schritt, der Instanzerzeugung, ist hierbei, dass die Anzahl der von einem Kontrollwort beeinflussten Zeichen eines Paragraphen, errechnet und ebenfalls gespeichert wird. Zu beachten ist hierbei, dass im RTF-Format Gruppen geschachtelt werden k?nnen. Dadurch bezieht sich ein Steuerwort einer Gruppe auch auf alle Subgruppen, sofern es nicht von einem anderen ?berschrieben wird.

Weiter: User Interface Hoch: Komponenten des Systems Zurück: Parser

Christian H?ppe, christian.hueppe@web.de

Hauptnavigation

General

Research

Teaching

Staff

Preprocessing 1: Datenstrukturerzeugung