Um die Algorithmen, die das WEKA-Paket zur Verf?gung stellt, nutzen zu
k?nnen, m?ssen die zu bearbeiteten Daten entweder in Form einer
ARFF-Datei31 vorliegen oder es wird ein Objekt der
Klasse Instances32 verwendet. Ein Instances-Objekt
stellt dabei eine Menge von Instanzen dar.
F?r die Erstellung der einzelnen Instanzen und des Instances-Objekts innerhalb
von A D T sind die, in Abbildung 8.4, dargestellten Klassen
ParLeaner.java und ParClassifier.java zust?ndig.
Beim Instanziieren eines Instance-Objektes muss bekannt sein, welche Attribute
im gesamten Dokument vorkommen. Die Methode
collectAttributes(Vector parVector):void
der Klasse WEKAHandler.java stellt deshalb verschiedene Listen
zusammen. Zum einen eine Liste aller Kontrollw?rter mit Parameter, zum anderen
eine Liste aller Kontrollw?rter ohne Parameter und weiterhin eine Liste aller
verwendeten Annotationen.
F?r die einzelnen, durch einen Anwender, annotierten Paragraphen, kann
anschlie?end die Klasse ParLeaner.java ?berpr?fen, welche Attribute, aus
der Menge aller Attribute eines Dokuments, bei einem bestimmten Paragraphen
vorhanden sind und welche nicht.
Um zus?tzliche Attribute zu erzeugen, wodurch die Paragraphen besser
klassifiziert werden k?nnen, werden wie schon erl?utert, zwei Paragraphen
verglichen und die ?nderungen durch zus?tzliche Attribute kenntlich
gemacht. Die Analyse der Unterschiede ?bernehmen die Methoden der Klasse
ParAnalyser.java:
getAddedCW(Paragraph par1, Paragraph par2):LinkedList
Erstellt eine Liste aller Kontrollw?rter, die im zweiten, jedoch nicht im
ersten der beiden verglichenen Paragraphen vorhanden sind.
getLeftOutCW(Paragraph par1, Paragraph par2):LinkedList
Erstellt eine Liste aller Kontrollw?rter, die im zweiten Paragraphen,
verglichen mit dem ersten der beiden untersuchten Paragraphen, nicht mehr
vorhanden sind.
valueAnalysis(Paragraph par1, Paragraph par2):Hashtable
Analysiert bei Kontrollw?rtern mit numerischen Parametern, ob die verglichen
Parameter, zweier Paragraphen, den selben, einen kleineren oder einen
gr??eren Wert besitzen.
Abbildung 8.4:
ParLearner.java und
ParClassifier.java sind Spezialisierungen vom
WEKAHandler.java
Enth?lt ein Dokument aufeinanderfolgende Paragraphen, die eine zusammenh?ngende
Struktur ergeben, k?nnen diese von A D T erkannt werden. Im Abschnitt
4.1.4 wurde gezeigt, dass der nachfolgende Paragraph einer
solchen Struktur, gegen?ber den Paragraphen der Struktur, bestimmte Attribute
aufweist bzw. nicht mehr aufweist. Das Ende einer zusammenh?ngenden Struktur,
wie z. B. Aufz?hlungen, sind also erst nach dem eigentlichen Ende der Struktur
erkennbar. Ein Anwender, der Auszeichnungen mit Hilfe der Benutzeroberfl?che
erstellt hat, kennzeichnet korrekterweise das Ende am letzten Paragraphen der
Struktur, da es hier allerdings vom Klassifikationalgorithmus nicht erkannt
wird, verschiebt das System die Annotation, wie in Tabelle
8.1 gezeigt, zum Nachfolgerparagraphen.
Tabelle 8.1:
Die Annotation, die das Ende der
Aufz?hlung markiert, wird zum nachfolgenden Paragraphen verschoben.