Hauptnavigation

Aufgabenbeschreibung next up previous contents
Weiter: Anforderungen: Hoch: Einleitung Zurück: Einleitung

Aufgabenbeschreibung

Moderne Textverarbeitungssysteme besitzen die M?glichkeit, statt physikalischer Textattribute wie Schriftgr??e oder Schriftschnitt eine semantische Annotation vorzunehmen, also beispielsweise eine ?berschrift f?r das System als solche erkennbar zu markieren. Diese semantische Textauszeichnung bietet eine Reihe von Vorteilen:

  • Automatische Erstellung von Inhalts- und Stichwortverzeichnissen:
    Wurden ?berschriften im Dokument als solche ausgezeichnet, k?nnen diese verwendet werden, um ein Inhaltsverzeichnis automatisch zu erstellen. Stichwortverzeichnisse werden auf dieselbe Art generiert. Voraussetzung ist auch hier, dass alle Stichw?rter im Dokument gekennzeichnet wurden.
  • Einheitliche Formatierungs?nderung:
    Alle gleichen Strukturen werden einheitlich formatiert. Die Formatierung f?r das gesamte Dokument kann so nachtr?glich ohne gro?en Aufwand einheitlich ge?ndert werden. Soll beispielsweise die Schriftgr??e der ?berschriften von 20 Punkte auf 24 Punkte erh?ht werden, muss die ?nderung nur an einer Stelle durchgef?hrt werden. Die Modifikation wirkt sich jedoch auf alle ?berschriften gleich aus.
  • Sinnvolle Hypertext-Aufbereitung:
    Eine sinnvolle Aufbereitung als Hypertext ist maschinell ohne semantische Auszeichnung nicht m?glich. Verwendet man die Exportfunktionen moderner Textverarbeitungsprogramme, um ein Dokument in ein Hypertext-Dokument zu konvertieren, entstehen meist Dokumente, die nur optisch dem urspr?nglichen Dokument ?hneln. Beispielsweise werden ?berschriften oft nicht als solche markiert, wie es in Hypertexten m?glich ist, es wird ihnen lediglich eine bestimmte Schriftart und -gr??e zugeordnet.


Bei ?lteren Texten war solch eine semantische Textauszeichnung - abh?ngig vom Programm - oft nicht m?glich, oder bei neueren Texten war dem Autor eine semantische Auszeichnung zu kompliziert. In vielen F?llen wird aber eine solche Annotation nachtr?glich gew?nscht, z.B. wenn diese Texte ?berarbeitet, weiterverwendet oder ins WWW gestellt werden sollen. Sicher ist es m?glich, Texte manuell nachtr?glich semantisch auszuzeichnen. Viele dieser Texte besitzen jedoch eine starke implizite Strukturierung, bei der sich aus den verwendeten Schriftgr??en und weiteren Textattributen eine explizite semantische Strukturierung erstellen l?sst. Diese M?glichkeit wird im Rahmen dieser Diplomarbeit untersucht.

Sollen Dokumentstrukturen ausgezeichnet werden, gibt es eine Reihe von M?glichkeiten dies zu tun:

Der sicherlich einfachste und zu gleich arbeitsaufwendigste Ansatz ist eine komplette manuelle Auszeichnung des Dokumentes. Ein Anwender konvertiert ein Dokument beispielsweise in ein ASCII-Format und bearbeitet das Dokument mit einem normalen Texteditor. Jede gew?nschte Annotation muss dabei vom Anwender manuell vorgenommen werden. Unabh?ngig ob es sich dabei um Auszeichnungen von einzelnen W?rtern (wortbezogene Auszeichnungen) oder um Auszeichnungen von beliebig langem und beliebig geschachteltem Text (geschachtelte Auszeichnungen) handelt. Diese Vorgehensweise kann gerade bei langen Dokumenten sehr zeitaufwendig und unkomfortabel sein. Als Vorteil kann allerdings die hohe Korrektheit der Klassifikation genannt werden. Dies gilt vorallem dann, wenn der Autor selbst die Auszeichnungen vornimmt, da er sein Dokument meist am besten kennt.

Eine L?sung, die weniger Arbeitsaufwand f?r den Anwender bedeuten w?rde, w?re ein System, das Dokumentstrukturen automatisch Auszeichnungen zuordnet. Die unterschiedlichen Strukturen, wie ?berschriften oder Aufz?hlungen, k?nnten mit Hilfe von zuvor definierten Regeln - beispielsweise mit Prolog - beschrieben werden. Ebenfalls ist es m?glich Grammatiken oder regul?re Ausdr?cke zu formulieren, mit denen einzelne W?rter oder beliebig geschachtelte Strukturen ausgezeichnet werden k?nnen. Der Vorteil bei diesem Ansatz wird gerade bei langen Dokumenten deutlich. Sind einmal die Regeln, Grammatiken und regul?re Ausdr?cke erstellt, lassen sich auch lange Texte ohne zus?tzliche Arbeit schnell verarbeiten. Es ergeben sich allerdings auch einige Nachteile:

  • F?r die Formulierung der ben?tigten Regeln wird zum einen Fachkenntnis ben?tigt, zum anderen sind Kenntnisse ?ber die Eigenschaften, welche die verschiedenen Strukturen charakterisieren, bei der Erstellung der Regeln und Grammatiken notwendig.

  • Eine weitere Schw?che dieses Ansatzes ergibt sich aus dem Problem, dass selbst Texte vom selbem Dokumenttyp% latex2html id marker 6645 \setcounter{footnote}{1}\fnsymbol{footnote} oft auf verschiedene Arten formatiert sind. H?ufig verwenden unge?bte Autoren sogar verschiedene Formatierungen f?r gleiche Dokumentstrukturen. Dies f?hrt zu dem Problem, dass die Regeln nicht auf allen Dokumenten angewandt werden k?nnen und dar?berhinaus eventuell falsche Auszeichnungen vorgenommen werden.

    Das nachfolgende Beispiele demonstriert das Problem:

Beispiel 1:
Autor A schreibt ein Skript f?r eine Vorlesung. Bei der Erstellung des Dokumentes ?berlegt er sich, wie er Definitionen, Formeln und Beispiele am besten formatieren k?nnte. Schlie?lich entscheidet er sich f?r Beispiele die Schriftart Typewriter und f?r Definitionen die Schriftart Italic zu verwenden. Um Beispiele zus?tzlich noch besser abzusetzen, werden sie gegen?ber dem normalem Text einger?ckt. Abbildung 1.1 zeigt einen Ausschnitt aus dem erstellten Skript% latex2html id marker 6647 \setcounter{footnote}{1}\fnsymbol{footnote}.

Abbildung 1.1: Auszuge aus einem Skript vom Autor A
\begin{figure}\begin{boxitpara}{box 0.9 setgray fill} \centerline{\vdots}\\ W... ...: v a175 a200 w a100 a200\\ \centerline{\vdots}\\ \end{boxitpara}\end{figure}

Ein anderer Autor B hingegen formatiert Beispiele und Definitionen ganz anders. Abbildung 1.2 zeigt wie hier Definitionen einger?ckt sind und die normale Schriftart »Roman« verwendet wurde. Beispiele benutzen, wie die Definitionen in Abbildung 1.1, die Schriftart Italic und sind hier allerdings nicht einger?ckt.

Abbildung 1.2: Auszuge aus einem Skript vom Autor B
\begin{figure}\begin{boxitpara}{box 0.9 setgray fill} \centerline{\vdots}\\ W... ... 1) wohlgeformt ist. \\ \centerline{\vdots}\\ \end{boxitpara} \end{figure}

Die Ausz?ge aus den Skripten der beiden Autoren zeigen, dass Regel f?r bestimmte Strukturen nicht f?r alle Dokumente benutzt werden k?nnen, auch wenn die Texte vom selben Typ sind.

Der zweite L?sungsansatz ist zwar weniger arbeitsaufw?ndig als der erste, allerdings sind die durch die Regelerstellung anfallenden Arbeitenschritte noch unzufriedenstellend.

Durch die Nachteile des zweiten L?sungsvorschlags ergibt sich die Motivation f?r einen dritten Ansatz: Die strukturcharakterisierenden Eigenschaften werden von einem System erkannt und zur Klassifikation der Dokumentstrukturen verwendet werden. D. h. zu Beginn bearbeitet das System ein beliebiges Dokument und extrahiert f?r jeden Typen der Dokumentstrukturen die jeweiligen Textattribute. Diese und vom Benutzer gegebene Beispielklassifikationen werden anschlie?end von einem Klassifizierungsalgorithmus, aus dem Bereich des Maschinellen Lernens, verarbeitet. Bei dieser Vorgehensweise entsteht eine Reihe von Vorteilen:

  • geringer Arbeitsaufwand auch bei der Verarbeitung von langen Dokumenten
  • es wird kein Fachwissen ben?tigt um komplizierte Regeln f?r Dokumentstrukturen aufzustellen
  • unterschiedliche Formatierungsstile verschiedener Dokumente spielen keine Rolle, da Struktureigenschaften anhand von Beispielen gelernt werden

Von den genannten Vorschl?gen erscheint der letzte Ansatz der vielversprechenste zu sein. Im Rahmen dieser Diplomarbeit wurde daher ein System entwickelt, dass Formatierungsmerkmale von Dokumentstrukturen verwendet, um damit, und unter zu Hilfenahme eines Klassifizierungsalgorithmuses, absatzbezogene Annotationen durchzuf?hren.

Im Bereich des maschinellen Lernens gibt es verschiedene Arten von Lernverfahren. A D T verwendet ein Attribut-Werte-Lernverfahren. Durch die gew?hlte Attribut-Werte Repr?sentation der Daten ergibt es sich, dass grammatische Konzepte und Relationen nicht vorhanden sind. Da Relationen f?r die Erkennung von Absatzverschachtelungen wichtig sind, m?ssen die Relationen als Attribute dargestellt werden. Wie Kapitel 4 zeigt, k?nnen alle zweistelligen Relationen, bez?glich zweier aufeinanderfolgenden Paragraphen, durch vier Attribute approximiert werden. Inwieweit dieser Ansatz f?r geschachtelte Strukturen ausreichend ist und wo es Probleme geben kann, zeigen die sp?ter beschriebenen Versuche.

Ein zu nennender Vorteil, der sich durch die Verwendung der Attribut-Werte Repr?sentation ergibt, ist, dass geschachtelte Strukturen beliebig viele innere Strukturen aufweisen k?nnen. Kapitel 4 erl?utert wie der Beginn und das Ende der Strukturen erkannt wird. Ist dies geschehen, ist es irrelevant wie viele innere Elemente die Struktur aufweist. Genau hier liegt nun der Vorteil gegen?ber regelbasierten Lernverfahren. Mithilfe von Logikausdr?cken ist es sehr schwierig, beliebig viele innere Elemente zu beschreiben. Bei einer festen Anzahl der inneren Elemente w?re dies kein Problem. Da das System aber auf beliebige Dokumente angewendet werden soll, ist nicht bekannt, wie viele innere Elemente maximal vorkommen. Dieser Nachteil w?rde eine Einschr?nkung f?r den Anwender bedeuten.

Wortbezogene Annotationen bleiben in dieser Arbeit au?en vor, da sich hier einige Probleme ergeben:

Weisen die W?rter in einem Dokument keine spezielle Formatierung auf, so k?nnen sie mit regul?ren Ausdr?cken oder speziellen Grammatiken erkannt werden. Beispielsweise ist es m?glich Uhrzeiten oder Datumsangaben durch regul?re Ausdr?cke zu beschreiben. Da es jedoch sehr schwierig ist, Grammatiken und regul?re Ausdr?cke maschinell zu lernen, wird dieser Ansatz hier nicht weiter verfolgt.

Sind die auszuzeichnenden W?rter hingegen speziell formatiert, k?nnen diese W?rter gerade aufgrund ihrer Formatierung erkannt werden. Das einzelne Wort ist hier also unwichtig, von Interesse ist seine Formatierung.

Der letzte Punkt, das Annotieren von W?rtern aufgrund ihrer Formatierung, ist prinzipiell realisierbar. Die Umsetzung ist allerdings aus zeitlichen Gr?nden nicht Teil dieser Arbeit; siehe dazu auch Kapitel 9.

Lediglich das erste Wort eines Absatzes wird bei der Klassifikation ber?cksichtigt. Kapitel 6 beschreibt genauer die daraus resultierenden Vorteile.



Unterabschnitte
next up previous contents
Weiter: Anforderungen: Hoch: Einleitung Zurück: Einleitung
Christian H?ppe, christian.hueppe@web.de