Hauptnavigation

Generierung der Instanzen next up previous contents
Weiter: Automatische Klassifikation anhand des Hoch: Klassifikation Zurück: manuelle Auszeichnung

Generierung der Instanzen

Um die Algorithmen, die das WEKA-Paket zur Verf?gung stellt, nutzen zu k?nnen, m?ssen die zu bearbeiteten Daten entweder in Form einer ARFF-Datei31 vorliegen oder es wird ein Objekt der Klasse Instances32 verwendet. Ein Instances-Objekt stellt dabei eine Menge von Instanzen dar.

F?r die Erstellung der einzelnen Instanzen und des Instances-Objekts innerhalb von A D T sind die, in Abbildung 8.4, dargestellten Klassen ParLeaner.java und ParClassifier.java zust?ndig.

Beim Instanziieren eines Instance-Objektes muss bekannt sein, welche Attribute im gesamten Dokument vorkommen. Die Methode

  • collectAttributes(Vector parVector):void
der Klasse WEKAHandler.java stellt deshalb verschiedene Listen zusammen. Zum einen eine Liste aller Kontrollw?rter mit Parameter, zum anderen eine Liste aller Kontrollw?rter ohne Parameter und weiterhin eine Liste aller verwendeten Annotationen.

F?r die einzelnen, durch einen Anwender, annotierten Paragraphen, kann anschlie?end die Klasse ParLeaner.java ?berpr?fen, welche Attribute, aus der Menge aller Attribute eines Dokuments, bei einem bestimmten Paragraphen vorhanden sind und welche nicht.

Um zus?tzliche Attribute zu erzeugen, wodurch die Paragraphen besser klassifiziert werden k?nnen, werden wie schon erl?utert, zwei Paragraphen verglichen und die ?nderungen durch zus?tzliche Attribute kenntlich gemacht. Die Analyse der Unterschiede ?bernehmen die Methoden der Klasse ParAnalyser.java:

  • getAddedCW(Paragraph par1, Paragraph par2):LinkedList
    Erstellt eine Liste aller Kontrollw?rter, die im zweiten, jedoch nicht im ersten der beiden verglichenen Paragraphen vorhanden sind.
  • getLeftOutCW(Paragraph par1, Paragraph par2):LinkedList
    Erstellt eine Liste aller Kontrollw?rter, die im zweiten Paragraphen, verglichen mit dem ersten der beiden untersuchten Paragraphen, nicht mehr vorhanden sind.
  • valueAnalysis(Paragraph par1, Paragraph par2):Hashtable
    Analysiert bei Kontrollw?rtern mit numerischen Parametern, ob die verglichen Parameter, zweier Paragraphen, den selben, einen kleineren oder einen gr??eren Wert besitzen.

Abbildung 8.4: ParLearner.java und ParClassifier.java sind Spezialisierungen vom WEKAHandler.java
\begin{figure}\centering\epsfig{file=bilder/UML_WEKAHandler.eps, width=7cm} \end{figure}

Enth?lt ein Dokument aufeinanderfolgende Paragraphen, die eine zusammenh?ngende Struktur ergeben, k?nnen diese von A D T erkannt werden. Im Abschnitt 4.1.4 wurde gezeigt, dass der nachfolgende Paragraph einer solchen Struktur, gegen?ber den Paragraphen der Struktur, bestimmte Attribute aufweist bzw. nicht mehr aufweist. Das Ende einer zusammenh?ngenden Struktur, wie z. B. Aufz?hlungen, sind also erst nach dem eigentlichen Ende der Struktur erkennbar. Ein Anwender, der Auszeichnungen mit Hilfe der Benutzeroberfl?che erstellt hat, kennzeichnet korrekterweise das Ende am letzten Paragraphen der Struktur, da es hier allerdings vom Klassifikationalgorithmus nicht erkannt wird, verschiebt das System die Annotation, wie in Tabelle 8.1 gezeigt, zum Nachfolgerparagraphen.


Tabelle 8.1: Die Annotation, die das Ende der Aufz?hlung markiert, wird zum nachfolgenden Paragraphen verschoben.
Attribute Annota-
tab tab_C bullet bullet_C li li_C lin lin_C par par_C tion
f ff f tf t ff t tf t tf P
t tf t tf t tt t tt t tt li_ul
t tt t tt t tt t tt t tt li
t tt t tt t tt t tt t tt li_/ul
f ft f ft t tt t tt t tt P


\begin{picture}(0,0)(-403,-27) \put(2.5,-7){\vector(-1,0){5}} \put(2.5,0){\oval(10,14)[r]} \put(-9.5,6.5){\circle{22}} \end{picture}



next up previous contents
Weiter: Automatische Klassifikation anhand des Hoch: Klassifikation Zurück: manuelle Auszeichnung
Christian H?ppe, christian.hueppe@web.de