- ... Dokumenttyp
- z. B. Diplomarbeiten,
Skripten o. ?.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Skript
- Der Inhalt
des Beispielskript ist aus [MORIK 1998] entnommen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... DSSSL2
- Document Style and Semantic Specification Language (ISO 10179:1996). Eine Sprache,
die sowohl Formatierungs- als auch Transformationsm?glichkeiten beinhaltet und
haupts?chlich f?r die Verarbeitung von SGML-Dokumenten eingesetzt wird
[MINTERT 2002].
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... XSL3
- XSL
steht f?r Extensible Styling Language und entstand 1997 aus
DSSSL.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
W3-Consortium4
- http://www.w3c.org
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
Metasprache5
- Mit einer Metasprache lassen sich nicht direkt Dokumente
erstellen, sondern verschiedene Sprachen (Auszeichnungssprachen) definieren,
mit denen dann Dokumente erstellt werden k?nnen. Als Beispiele f?r
Metasprachen sind XML und SGML zu nennen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... ausschlie?lich6
- genau genommen gibt es, wie schon
in Abschnitt 2.2 erw?hnt, kleine Ausnahmen. Au?erdem
werden die, erst in neueren Versionen verf?gbaren, Formatvorlagen
ausgeschlossen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... DTD7
- Festlegungen ?ber
Aufbau, Struktur und gegenseitige Beziehungen von Elementen, Attributen und
Entities von XML- oder SGML-Dokumenten
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... OCR-Systeme8
- Optical Character Recognition - Optische Schrifterkennung, der
Prozess der Analyse auf Papier gedruckter Zeichen, um ihre Form durch die
Erkennung von Mustern dunkler und heller Bereiche zu bestimmen
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... WISDOM++9
- Desweiteren als WISDOM bezeichnet.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... TIFF10
- Tag
Image File Format - Ein hersteller?bergreifendes Format,
das von Aldus, HP und Microsoft definiert wurde. Mittlerweile unterst?tzen
viele Hersteller, insbesondere im Scannerbreich, dieses Format. Es lassen sich
monochrome oder farbige Bilder als Bitmap-Grafik ablegen
[BORN 1995].
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... Lernens11
- Detaillierte Beschreibungen zum
induktiven Lernen von Dokumentklassifikationen finden sich in
[ESPOSITO . 2000]
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... Annahmen12
- Die
Annahmen basieren entweder auf der Selbsteinsch?tzung der Benutzer, werden
durch standardisierte Tests oder durch eine dritte Person erstellt.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...Slices13
- engl. Scheiben
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
GmbH14
- http://www.slicing-infotech.de
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
Intelligenz15
- http://www-ai.cs.uni-dortmund.de/DOKUMENTE/mintert_99a.pdf
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... Preprocessing16
- eng. Vorverarbeitung
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... Interface17
- engl. Benutzerschnittstelle
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... Instanzen18
- Eine Instanz ist
ein unabh?ngiges Beispiel f?r das zu erlernende Konzept. Jede Instanz wird
durch die Werte von Attributen charakterisiert, die unterschiedliche Aspekte
der Instanz beschreiben.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... Postprocessing19
- engl. Nachverarbeitung
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
allen20
- dem Autor ist keine Ausnahme bekannt.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... werden21
- meist
geschieht dies indem man das Dokument ?ffnet und unter einem anderen
Dateiformat (hier RTF) abspeichert.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
Liste22
- Die Bezeichnung ul stammt aus dem HTML-Bereich und steht
f?r unordered list. Die einzelnen Aufz?hlungen werden durch einen
schwarzen Punkt gekennzeichnet.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... MOBAL23
- Aufgabe des Systems ist, den manuellen
Prozess der Wissensakquisition durch Kontrolle der Wissensbasis auf
Inkonsistenz zu unterst?tzen und so dem Benutzer eine Pr?fung der
Wissensbasis zu erm?glichen. Weiterhin werden in MOBAL, durch die
verschiedenen eingebundenen Lernverfahren, dem Anwender nicht bekannte
Zusammenh?nge
aufgezeigt.
ftp://ftp.gmd.de/gmd/mlt/Mobal/Mobal4.2b09.tar.gz
ftp://ftp.gmd.de/gmd/mlt/Mobal/UserGuide41b9.ps.gz
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
Vergleich24
- d.h. man bildet die Differenz zwischen beiden
Entropien. Daher bedeutet ein niedriger Entropiewert einen hohen
Informationsgehalt.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...hich25
- F?r Zeichen
im high-ANSI (0x80 -0xFF) Bereich.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
?ffnet26
- Das ?ffnen mehrerer Ebenen an einer Stelle ist aus
struktureller Sicht sinnlos und kommt somit in der Praxis eigentlich nicht
vor. Daher wird dieser Fall hier auch nicht weiter betrachtet.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
1300WS27
- Kenngr??en: mobile AMD Athlon(tm) 4 Processor, CPU MHz:
1200, cache size: 256 kB, MemTotal: 482164 kB, Linux Version 2.4.19-4GB,
KDE 3.0.4, Java(TM) 2 Runtime Environment - Standard Edition (build
1.4.1_01-b01)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... gemessen28
- Die unterschiedlichen
Laufzeiten haben verschiedene Ursachen. Zum einen kompiliert der JIT-Compiler
bei der ersten Ausf?hrung den JAVA-Byte-Code in Maschinencode. Beim erneuten
Ausf?hren der Klassen f?llt dieser Schritt zwar weg, verschiedene
Hintergrundprozesse f?hren aber weiterhin zu unterschiedlichen Laufzeiten.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... lesen29
- Das ist keine
»Zauberei«, es sind lediglich zwei Zeichen gepuffert, so dass beim Nachsehen des
n?chsten Zeichens kein weiteres vom Datenstrom gelesen werden muss.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... Datenbereinigung30
- der Vektor entspricht der im Abschnitt
4.1.2 beschiebenen Menge B.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
ARFF-Datei31
- Das ARFF-Format (Attribute-Relation File
Format) ist ein ASCII-Format das eine Menge von Instanzen beschreibt und
innerhalb von WEKA eingesetzt wird.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ... Instances32
- weka.core.Instances
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
- ...
WEKA-Paketes33
-
http://www.cs.waikato.ac.nz/
ml/weka/doc_book/packages.html
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.