Man k?nnte nun einw?nden, dass auch normale OCR-Systeme8 in der Lage sind HTML zu erstellen. Dabei tritt allerdings das Problem auf, dass das Aussehen der so entstehenden Dokumente meist nicht mehr dem Original ?hnelt. WISDOM++9 versucht hingegen ein m?glichst originalgetreues Dokument zu erstellen. Der Grund, warum normale OCR-Systeme dies nicht bieten k?nnen, ist nach [WANG . 1999], dass diese Systeme keine Analyse der Dokumente durchf?hren, in der die Funktion der einzelnen Textteile untersucht werden. Um Texte in XML zu transformieren ist es n?tig, Wissen ?ber das Layout und die Struktur von Texten zu erlangen.
Das WISDOM-System arbeitet in f?nf Schritten:
Desweiteren wird nun die grobe Arbeitsweise des Systems vorgestellt:
Soll ein Paper, das nur als Ausdruck vorliegt, in ein f?r das Internet geeignetes Format gebracht werden, muss es zuerst einmal optisch gescannt werden. WISDOM ?bernimmt diesen Schritt, scannt also zuerst das zu bearbeitende Dokument mit 300 dpi ein, korrigiert eine eventuelle Verdrehung und speichert das Bild anschlie?end im Grafikformat TIFF10 ab.
Im folgenden Schritt wird das gescannte Dokument mit Hilfe einer Variante des Run Length Smoothing Algorithmuses (RLSA) [WONG . 1982] in rechteckige Bl?cke eingeteilt, welche entweder Text oder Grafik enthalten k?nnen. Mit Hilfe eines Entscheidungsbaumes werden die einzelnen Bl?cke automatisch klassifiziert. Die Klassen die hierbei von WISDOM benutzt werden sind beispielsweise Textblock, horizontale Linie, vertikale Linie, Bild und Grafiken. Pro Seite entstehen so normalerweise weniger als 100 dieser Bl?cke. Um den erw?hnten Entscheidungsbaum zu erhalten m?ssen zuerst vom Administrator f?r jede Klasse ein Menge von Trainingsbeispielen gelernt werden. WISDOM verwendet hierf?r eine verbesserte Variante des 1993 von Ross Quinlan [QUINLAN 1993] vorgestellten C4.5 Algorithmuses.
Die anschlie?end durchgef?hrte Layoutanalyse erlaubt es eine Struktur innerhalb des Dokumentenbildes zu erkennen. Sie gruppiert die Bl?cke zu einer Menge von so genannten Rahmen. Eine ideale Layoutanalyse erzeugt eine Menge von Rahmen. Jeder dieser Rahmen entspricht einer logischen Komponente wie zum Beispiel Titel oder Autor einer wissenschaftlichen Arbeit. In WISDOM wird eine neue in C++ geschriebene Version des Layoutanalyse-Systems LEX [ESPOSITO . 1995] verwendet. Dieses System fasst die einzelnen Rahmen zusammen, so dass zusammengeh?rige Einheiten, wie z. B. Paragraphen, Abschnitte oder Abbildungen, entstehen. Abbildung 3.1 zeigt die einzelnen Schritte die bei der Bearbeitung eines Dokumentes anfallen.
Die zuvor gefundene Layoutstruktur muss nun in eine logische Struktur abgebildet werden. Logische Struktur bedeutet hierbei, dass zum Beispiel der Absender bzw. Empf?nger eines Briefes oder der Autor einer wissenschaftlichen Arbeit auch als solcher erkannt wird. In WISDOM geschieht dies mit Hilfe von Algorithmen des maschinellen Lernens11.
Nachdem nun auch die logische Struktur des Dokuments bekannt ist, kann WISDOM eine HTML/XML Version des Dokumentes erstellen, welche im g?nstigsten Fall optisch identisch zum Originaldokument ist.