Hauptnavigation

WISDOM++ next up previous contents
Weiter: Vergleich von WISDOM und Hoch: Abgrenzung zu bestehenden Systemen Zurück: Abgrenzung zu bestehenden Systemen


WISDOM++

An der Universit?t Bari wurde ein System entwickelt, mit dem es m?glich ist wissenschaftliche Arbeiten, die als Ausdruck auf Papier vorliegen, in ein f?r das Internet geeignetes Format, z.B. HTML/XML, zu transformieren [ALTAMURA . 2000]. Die Umwandlung in HTML/XML ist dabei aus mehreren Gr?nden sinnvoll:

  • schnelle Verf?gbarkeit im Netz gegen?ber einem gescannten Bild
  • Suche nach Begriffen und Verlinkung von zusammengeh?rigen Abschnitten ist m?glich
  • XML-Dokumente besitzen auf Grund ihrer DTD7 eine logische Struktur

Man k?nnte nun einw?nden, dass auch normale OCR-Systeme8 in der Lage sind HTML zu erstellen. Dabei tritt allerdings das Problem auf, dass das Aussehen der so entstehenden Dokumente meist nicht mehr dem Original ?hnelt. WISDOM++9 versucht hingegen ein m?glichst originalgetreues Dokument zu erstellen. Der Grund, warum normale OCR-Systeme dies nicht bieten k?nnen, ist nach [WANG . 1999], dass diese Systeme keine Analyse der Dokumente durchf?hren, in der die Funktion der einzelnen Textteile untersucht werden. Um Texte in XML zu transformieren ist es n?tig, Wissen ?ber das Layout und die Struktur von Texten zu erlangen.

Das WISDOM-System arbeitet in f?nf Schritten:

  1. Dokumenten-Analyse
    Analysiert die hierarchische Layout-Struktur.
  2. Dokument-Klassifizierung
    Erkennt die Dokumentenklasse, damit das richtige Stylesheet und die richtige DTD f?r das momentan bearbeitete Dokument verwendet wird.
  3. Dokument-Verst?ndnis
    Extrahiert den Text und definiert damit den eigentlichen Inhalt des XML-Files
  4. Text-Erkennung
    siehe Punkt 3.
  5. Transformation in XML-Format
    Das endg?ltige XML-Dokument wird hier aufgrund der vorherigen Analysen geschrieben.

Desweiteren wird nun die grobe Arbeitsweise des Systems vorgestellt:

Soll ein Paper, das nur als Ausdruck vorliegt, in ein f?r das Internet geeignetes Format gebracht werden, muss es zuerst einmal optisch gescannt werden. WISDOM ?bernimmt diesen Schritt, scannt also zuerst das zu bearbeitende Dokument mit 300 dpi ein, korrigiert eine eventuelle Verdrehung und speichert das Bild anschlie?end im Grafikformat TIFF10 ab.

Im folgenden Schritt wird das gescannte Dokument mit Hilfe einer Variante des Run Length Smoothing Algorithmuses (RLSA) [WONG . 1982] in rechteckige Bl?cke eingeteilt, welche entweder Text oder Grafik enthalten k?nnen. Mit Hilfe eines Entscheidungsbaumes werden die einzelnen Bl?cke automatisch klassifiziert. Die Klassen die hierbei von WISDOM benutzt werden sind beispielsweise Textblock, horizontale Linie, vertikale Linie, Bild und Grafiken. Pro Seite entstehen so normalerweise weniger als 100 dieser Bl?cke. Um den erw?hnten Entscheidungsbaum zu erhalten m?ssen zuerst vom Administrator f?r jede Klasse ein Menge von Trainingsbeispielen gelernt werden. WISDOM verwendet hierf?r eine verbesserte Variante des 1993 von Ross Quinlan [QUINLAN 1993] vorgestellten C4.5 Algorithmuses.

Die anschlie?end durchgef?hrte Layoutanalyse erlaubt es eine Struktur innerhalb des Dokumentenbildes zu erkennen. Sie gruppiert die Bl?cke zu einer Menge von so genannten Rahmen. Eine ideale Layoutanalyse erzeugt eine Menge von Rahmen. Jeder dieser Rahmen entspricht einer logischen Komponente wie zum Beispiel Titel oder Autor einer wissenschaftlichen Arbeit. In WISDOM wird eine neue in C++ geschriebene Version des Layoutanalyse-Systems LEX [ESPOSITO . 1995] verwendet. Dieses System fasst die einzelnen Rahmen zusammen, so dass zusammengeh?rige Einheiten, wie z. B. Paragraphen, Abschnitte oder Abbildungen, entstehen. Abbildung 3.1 zeigt die einzelnen Schritte die bei der Bearbeitung eines Dokumentes anfallen.

\begin{figure} % latex2html id marker 930 \centering\epsfig{file=bilder/WISDOM.... ...ng von einfachen Bl?cken, Zeilen und Rahmen \cite{transformi:2001}}\end{figure}

Die zuvor gefundene Layoutstruktur muss nun in eine logische Struktur abgebildet werden. Logische Struktur bedeutet hierbei, dass zum Beispiel der Absender bzw. Empf?nger eines Briefes oder der Autor einer wissenschaftlichen Arbeit auch als solcher erkannt wird. In WISDOM geschieht dies mit Hilfe von Algorithmen des maschinellen Lernens11.

Nachdem nun auch die logische Struktur des Dokuments bekannt ist, kann WISDOM eine HTML/XML Version des Dokumentes erstellen, welche im g?nstigsten Fall optisch identisch zum Originaldokument ist.



Unterabschnitte
next up previous contents
Weiter: Vergleich von WISDOM und Hoch: Abgrenzung zu bestehenden Systemen Zurück: Abgrenzung zu bestehenden Systemen
Christian H?ppe, christian.hueppe@web.de