Hauptnavigation

ADT

Automatische Dokument-Strukturauszeichnung mit ADT

von Christian Hüppe, hueppe@ls8.cs.uni-dortmund.de

ADT bietet die Möglichkeit anhand von Formatierungmerkmalen wie z. B. Schriftgröße oder Schriftschnitt eine semantische Auszeichnung eines Dokumentes vorzunehmen. So kann dem System beispielsweise eine Überschrift als solche erkennbar gemacht werden. Dadurch ergeben sich eine Reihe an Vorteilen:

  • Automatische Erstellung von Inhalts- und Stichwortverzeichnissen:
    Wurden Überschriften im Dokument als solche ausgezeichnet, können diese verwendet werden um ein Inhaltsverzeichnis automatisch zu erstellen. Stichwortverzeichnisse werden auf dieselbe Art generiert. Voraussetzung ist auch hier, dass alle Stichwörter im Dokument gekennzeichnet wurden.
  • Einheitliche Formatierungsänderung:
    Alle gleichen Strukturen werden einheitlich formatiert. Die Formatierung für das gesamte Dokument kann so nachträglich ohne großen Aufwand einheitlich geändert werden. Soll beispielsweise die Schriftgröße der Überschriften von 20 Punkte auf 24 Punkte erhöht werden, muss die Änderung nur an einer Stelle durchgeführt werden. Die Modifikation wirkt sich jedoch auf alle Überschriften gleich aus.
  • Sinnvolle Hypertext-Aufbereitung:
    Eine sinnvolle Aufbereitung als Hypertext ist maschinell ohne semantische Auszeichnung nicht möglich. Verwendet man die Exportfunktionen moderner Textverarbeitungsprogramme, um ein Dokument in ein Hypertext-Dokument zu konvertieren, entstehen meist Dokumente, die nur optisch dem ursprünglichen Dokument ähneln. Beispielsweise werden Überschriften oft nicht als Überschriften markiert, wie es in Hypertexten möglich ist, es wird ihnen lediglich eine bestimmte Schriftart und -größe zugeordnet.
Bei älteren Texten war solch eine semantische Textauszeichnung - abhängig vom Programm - oft nicht möglich, oder bei neueren Texten war dem Autor eine semantische Auszeichnung zu kompliziert. In vielen Fällen wird aber eine solche Annotation nachträglich gewünscht, z.B. wenn diese Texte überarbeitet, weiterverwendet oder ins WWW gestellt werden sollen. Sicher ist es möglich, Texte manuell nachträglich semantisch auszuzeichnen. Viele dieser Texte besitzen jedoch eine starke implizite Strukturierung, bei der sich aus den verwendeten Schriftgrößen und weiteren Textattributen eine explizite semantische Strukturierung erstellen lässt.

ADT verwendet verschiedene Algorithmen aus dem Bereich des Maschinellen Lernens um Dokument-Absätze zu klassifizieren. Dadurch ist es möglich, dass beliebige Dokumente bearbeitet werden können. Die Eigenschaften der einzelnen Abschnitte wird bei jedem Dokument anhand von Beispielen neu erlernt. D.h. der Anwender klassifiziert zu Beginn der Bearbeitung eines Dokumentes einige Absätze manuell. Diese Beispielklassifikationen werden vom System genutzt um einen Entscheidungsbaum zu erstellen, mit dem anschließend alle Absätze des Dokumentes automatisch klassifiziert werden.

Als Eingabeformat dient das Rich Text Format (RTF). Dokumente die im Word-Format vorliegen können leicht in das RTF-Format konvertiert werden, indem das Dokument einfach mit Word im RTF-Format gespeichert wird.

Als Ausgabeformat kann zur Zeit XML gewählt werden.

Die in ADT verwendeten Algorithmen J4.8, IBk und KStar stammen aus dem WEKA-Paket der Universiät Waikato.

Download:

Installation:

Um ADT starten zu können, muss eine lauffähige Version des JAVA JRE 1.4.X auf Ihrem System installiert sein. Sollte dies nicht der Fall sein, können Sie hier eine aktuelle Version des JRE herunterladen.

UNIX:
  • xterm öffnen
  • java -jar ADT_0_1.jar
Windows:
  • Eingabeaufforderung öffnen
  • java -jar ADT_0_1.jar
Macintosh (Mac OS X):
  • xterm öffnen
  • java -jar ADT_0_1.jar

Dokumentation:

  • Benutzergeführtes Lernen von Dokument-Strukturauszeichnungen
    aus Formatierungsmerkmalen (Diplomarbeit) (html / pdf)

Screenshots:

Die ADT-GUI nach dem öffnen eines Dokuments
Manuell erstellte Bespielklassifikationen
Automatisch klassifizierte Absätze unter Verwendung des J4.8 Algorithmus
Gelernter Entscheidungsbaum

Known Bugs

  • Zur Zeit keine :-)