Preprocessing 2: Instanzerzeugung

Im zweiten Preprocessing-Schritt werden Instanzen¹⁸ gebildet die von Lernalgorithmen genutzt werden, um einen Klassifizierer zu erzeugen, mit dessen Hilfe noch nicht klassifizierte Paragraphen einer bestimmten Klasse zu geordnet werden k?nnen.

Um die Instanzen zu bilden sind mehrere Schritte n?tig:

Zu Beginn wird die Gesamtmenge aller relevanten Steuerw?rter, die innerhalb des Dokumentes benutzt werden, gebildet. D.h. alle Kontrollw?rter die nicht ausschlie?lich in der Header-Gruppe vorhanden sind und nicht bei der Datenbereinigung als irrelevant erkannt wurden, bilden diese Menge.

Im zweiten Schritt wird f?r alle, w?hrend der Datenstrukturerzeugung, gefundenen Steuerw?rter ?berpr?ft, ob sie in den einzelnen Paragraphen vorhanden sind oder nicht. Dementsprechend kann f?r jeden Paragraphen eine Instanz erzeugt werden, bei der angegeben wird, ob ein bestimmtes Kontrollwort vorhanden ist oder nicht.

Das Ergebnis der Klassifikation kann entscheidend verbessert werden, wenn weitere Attribute erzeugt und den Instanzen hinzugef?gt werden. Dies ist notwendig, da A D T Attribut-Werte-Lernverfahren verwendet. Die daher nicht vorhandenen Relationen m?ssen approximiert werden.

Hierf?r wird Paragraph n mit Paragraph n + 1 verglichen. Dadurch k?nnen bei der Instanze des n + 1 Paragraphen zus?tzliche Attribute mit vier verschiedenen Attributwerten erg?nzt werden. Der Vergleich der benachbarten Abs?tze erm?glicht es den Anfang oder das Ende einer bestimmten Struktur, wie z. B. von Aufz?hlungen, zu erkennen. Wie dies genau funktioniert zeigt das Beispiel 7 und Tabelle 4.2.

Eine Betrachtung der direkten Nachbarabs?tze ist ausreichend um die Grenzen von Strukturen zu erkennen. D.h. Anf?nge und Beendigungen von Strukturen sind dadurch gekennzeichnet, dass sich genau da, wo sie auftreten die Attributwerte des aktuell betrachteten Paragraphen gegen?ber seinem direkten Vorg?nger ge?ndert haben. Der Vergleich zwischen direkt benachbarten Paragraphen ist also ausreichend.

Tabelle 4.1 zeigt eine M?glichkeit Relationen zu approximieren, die auch im Rahmen der Diplomarbeit verwendet wurde:

Kodierung	entspricht
`ff`	siehe Punkt 1
`ft`	siehe Punkt 2
`tf`	siehe Punkt 3
`tt`	siehe Punkt 4

Ein Attribut ist weder im aktuell betrachteten Paragraphen, noch in seinem direkten Vorg?nger vorhanden.
Ein Attribut ist im aktuell betrachteten Paragraphen nicht, jedoch in seinem direkten Vorg?nger vorhanden.
Ein Attribut ist im aktuellen betrachteten Paragraphen vorhanden, jedoch nicht im Vorg?ngerparagraphen.
Ein Attribut ist im aktuell betrachteten Paragraphen und in seinem direkten Vorg?nger vorhanden.

Mithilfe der zus?tzlichen Attribute kann die Ver?nderung von aufeinanderfolgenden Paragraphen festgestellt werden. Dadurch k?nnen verschiedene Dokumentstrukturen besser erkannt werden. Dies gilt besonders f?r den Beginn und die Beendigung von gleichen, aufeinanderfolgenden Strukturen, die eine Gruppe bilden. Dazu z?hlen beispielsweise Aufz?hlungen, wie sie im folgenden Beispiel 6 gezeigt werden.
$\begin{example} \begin{boxitpara}{box 0.9 setgray fill} \begin{tabbing} \hspa... ... ,,KI\lq\lq genannt, kennenlernen\dots \end{tabbing} \end{boxitpara}\end{example}$

Durch die erg?nzenden Attribute, die eine Ver?nderung der urspr?nglichen Attribute beschreiben, kann ein Klassifizierer nun auch Gruppen von Strukturen erkennen. Ohne die neuen Attribute ergibt sich folgende exemplarische Darstellung der Attribute f?r den Text aus Beispiel 6 (siehe Tabelle 4.2).

Para-	Attribute
graph	`tab`	`bullet`	`li`	`lin`	`par`
1	`f`	`f`	`t`	`t`	`t`
2	`t`	`t`	`t`	`t`	`t`
3	`t`	`t`	`t`	`t`	`t`
4	`t`	`t`	`t`	`t`	`t`
5	`t`	`t`	`t`	`t`	`t`
6	`f`	`f`	`t`	`t`	`t`

Ein Klassifizierer kann mit diesen Attributen zwischen normalem Text und Aufz?hlungen unterscheiden. Bei welchem Paragraphen die Aufz?hlung beginnt bzw. endet kann er allerdings nicht erkennen, da bez?glich der Attribute kein Unterschied zwischen dem zweiten, dritten und vierten Paragraphen besteht.

Mithilfe der erg?nzenden Attribute ist es nun m?glich, den Beginn und die Beendigung der Aufz?hlung zu identifizieren. Die Tabelle 4.3 enth?lt doppelt so viele Attribute wie Tabelle 4.2. Zu jedem Attribut der ersten Tabelle gibt es ein weiteres erg?nzendes Attribut, welches mit dem jeweils selben Namen und der Endung »_C«, f?r change erg?nzt wurde.

Das ein Attribut tab in einem Paragraphen beispielsweise vorhanden ist, im vorherigen Paragraphen allerdings nicht vorhanden war, wird durch tf kodiert.

$\begin{example} Werden alle Paragraphen mit ihrem Vorg?ngern verglichen, unters... ...ten, der Aufz?hlungsgruppe folgendem, Paragraphen gekennzeichnet. \end{example}$

Para-	Attribute
graph	`tab`	`tab_C`	`bullet`	`bullet_C`	`li`	`li_C`	`lin`	`lin_C`	`par`	`par_C`
1	`f`	`ff`	`f`	`tf`	`t`	`ff`	`t`	`tf`	`t`	`tf`
2	`t`	`tf`	`t`	`tf`	`t`	`tt`	`t`	`tt`	`t`	`tt`
3	`t`	`tt`	`t`	`tt`	`t`	`tt`	`t`	`tt`	`t`	`tt`
4	`t`	`tt`	`t`	`tt`	`t`	`tt`	`t`	`tt`	`t`	`tt`
5	`t`	`tt`	`t`	`tt`	`t`	`tt`	`t`	`tt`	`t`	`tt`
6	`f`	`ft`	`f`	`ft`	`t`	`tt`	`t`	`tt`	`t`	`tt`

Neben den Steuerw?rtern ohne Parameter gibt es in der RTF-Spezifikation auch Kontrollw?rter die Zahlenwerte als Parameter verwenden. Die Instanzen sollten f?r diese Steuerw?rter nicht ihr Vor- oder Nichtvorkommen speichern, sondern den Parameterwert des jeweiligen Steuerwortes.

Entsprechend dem oben beschriebenen Vorgehen ist es auch hier sinnvoll, Ver?nderungen zwischen Paragraphen, bez?glich ihrer Parameterwerte, zu analysieren. Die Instanzen k?nnen somit um ein Attribut pro Kontrollwort, mit Parameter, erweitert werden. Die erg?nzenden Attribute beschreiben dann, ob ein Parameter sich vergr??ert oder verkleinert hat oder vorher nicht vorhanden war. Im Kapitel 6 wird an einem Versuch gezeigt, dass die Kenntnis ?ber eine ?nderung von Attributen sehr wichtig ist, um beispielsweise verschachtelte Strukturen zu erkennen.

Um neben den beschriebenen M?glichkeiten noch zus?tzliche Attribute durch vergleichen von Paragraphen zu erzeugen, erweitert A D T die Instanzen noch um weitere Attribute. In einigen Dokumenten kommt es vor, dass bestimmte Abs?tze dadurch charakterisiert werden k?nnen, dass sie stets mit dem selben Wort oder den selben Worten beginnen. Definitionen in Vorlesungsskripten oder Schulb?chern beginnen meist mit dem Wort »Definition«. Das erste Wort stellt hier also ein wichtiges Merkmal da. Um es bei der Klassifikation zu verwenden, werden die Instanzen der Paragraphen jeweils um das Attribut erweitert, das jeweils das erste Wort des jeweiligen Paragraphen als Attributwert enth?lt.

Sollte unter den ersten W?rtern eine Zahl enthalten sein, kann untersucht werden, ob die Ziffern der Zahl durch Punkte getrennt sind. Verschiedene Hierarchien von ?berschriften, also Haupt?berschriften und Unter?berschriften k?nnen so erkannt werden.

Das beschriebene Vorgehen wird f?r alle Paragraphen durchgef?hrt. Die vom Anwender klassifizierten Paragraphen erhalten als zus?tzliches Attribut den Namen ihrer zugeh?rigen Klasse und bilden damit eine Instanzmenge, mit deren Hilfe ein Klassifizierer gebildet wird. Alle vom Anwender nicht klassifizierten Paragraphen enthalten dieses Attribut nicht, da es sich um das Zielattribut handelt, welches vom Klassifizierungsalgorithmus bestimmt werden soll.

Weiter: Lernalgorithmen Hoch: Komponenten des Systems Zurück: User Interface

Christian H?ppe, christian.hueppe@web.de

Hauptnavigation

General

Research

Teaching

Staff

Preprocessing 2: Instanzerzeugung