Die aus dem Bereich des visuellen Markup am h?ufigsten verwendete Sprache ist
das, Mitte der 80er Jahre, von Microsoft spezifizierte Rich Text Format
(RTF). Es enth?lt ausschlie?lich6 typographische und visuelle Auszeichnungen, jedoch keine
Metadaten, die Informationen ?ber einzelne Textausschnitte liefern. RTF
Dateien dienen der Kodierung von formatierten Texten und Graphiken, um einen
einfachen Austausch zwischen verschiedenen Programmen, Rechnerarchitekturen
und Ausgabeger?ten zu gew?hrleisten. Die meisten aktuellen
Textverarbeitungprogramme sind in der Lage RTF zu lesen und ebenso zu
generieren.
Die Formatierung des Textes wird mit Hilfe folgender Elemente ausgef?hrt:
control words: In der aktuellen RTF Spezifikation 1.7, vom August
2001, gibt es ca. 1375 control words, wobei die maximale L?nge eines
Kontrollwortes 32 Zeichen betr?gt. Kontrollw?rter werden zur
Textformatierung verwendet. Au?erdem k?nnen sie ebenfalls Informationen
f?r die Verarbeitung in Programmen enthalten. Ein Kontrollwort wird stets
durch einen Backslash (
\) eingeleitet. Das Ende eines
Kontrolwortes wird durch einen Delimiter (Begrenzer) definiert. Das
k?nnen Leerzeichen, Zahlen (positiv oder negativ) oder jedes andere
Zeichen, das kein Buchstabe ist, sein. Begrenzt eine Zahl ein Kontrollwort
so wird diese als sein Wert aufgefasst.
control symbols: Ein Steuersymbol beginnt mit einem Backslash
(
\) gefolgt von einem weiteren nicht-alphabetischen Zeichen. Es
sind nur wenige Steuerzeichen vereinbart, die jedoch durch einen RTF-Scanner
?bergangen werden k?nnen. Steuersymbole besitzen gegen?ber Kontrollw?rtern
keinen Delimiter [BORN 2001].
groups: Eine Gruppe schlie?t eine Menge von Kontrollw?rtern und
einen Teil des zu formatierenden Textes in Geschweifteklammern ({})
ein. Formatierungen die innerhalb einer Gruppe definiert werden, haben
au?erhalb der Gruppe keine G?ltigkeit. Auf der anderen Seite werden
hingegen Formatierungen an Subgruppen vererbt.
destination: Destinations definieren einen zusammenh?ngenden
Text der im formatierten Dokument an anderer Stelle
auftaucht. Beispielsweise werden Eintr?ge im Inhaltsverzeichnis eines
Dokumentes durch destinations festgelegt. Der entsprechende Text erscheint
dann nicht an der Stelle an der er im RTF-Dokument steht, meist am Beginn
von Kapitel oder Abschnitten, sondern im Inhaltsverzeichnis. Destinations
werden mit »
\*« eingeleitet und bilden stets eine Gruppe.
Microsoft f?hrte Destinations erst nach der Ver?ffentlichung der ersten
RTF Spezifikation im M?rz 1987 ein. Bis heute wurden st?ndig neue
destinations hinzugef?gt, was dazu f?hrte, dass einige RTF-Reader
unbekannte destinations ignorieren. Auch A D T verf?hrt auf diese Weise,
da durch sie keine n?tzlichen Informationen zur L?sung der Aufgabe
gewonnen werden k?nnen.
Abbildung 2.2 zeigt die Syntax einer RTF Datei. Es ist
zuerkennen, dass eine RTF Datei zuerst einmal aus vier Elementen besteht. Dies
sind zum einen die Literale »{« und »}« und zum anderen die Gruppen header und document. Die beiden letztgenannten k?nnen nun
weiterabgeleitet werden. Ein RTF Parser leitet die Knoten des Syntaxbaumes bis
zu seinen Bl?ttern, den terminalen Symbolen, ab. Aus Platzgr?nden konnte
hier nicht der komplette Syntaxbaum aufgezeichnet werden.