Einige Begriffe zu XML

Vor einem detailierten Einstieg ist es sinnvoll einige Begriffe zu kennen:

Markup 

Eine XML-Datei besteht aus Markup und den eigentlichen Daten. Alles was dem Aufbau der Struktur innerhalb der Datei dient, gehört zum Markup. Also z.B. Start-Tags, End-Tags und Entitäten, aber auch die DTD.

Element

Die Elemente strukturieren die Daten hierarchisch. Ein Element besteht aus einer öffnenden Klammer(Start-Tag) und einer schließenden Klammer(End-Tag). Das Start-Tag wird dargestellt als Kleiner-Zeichen, gefolgt von dem Namen des Elementes und einem Größer-Zeichen. Das End-Tag sieht analog aus, es folgt nachdem Kleiner-Zeichen jedoch noch ein Slash-Zeichen. Ein Beispiel:

<element>...Daten...</element>

Ausnahmen sind so genannte leere Elemente, die direkt wieder geschlossen werden. In dem Fall befindet sich ein Slash nach dem Elementnamen. Hier wird kein End-Tag benötigt:

<element/>

 Ein Element kann Attribute besitzen, die aus Namen und Werten bestehen. Diese befinden sich im Start-Tag und werden nach dem Namen des Elements integriert: 

<element attribut="wahr">...</element>

 

Struktur

Der Aufbau einer XML-Datei entspricht einer Baumstruktur. Es darf nur ein oberstes Element (root-Element) geben. Alle innerhalb eines Elementes geöffneten Elemente müssen innerhalb dieses Elements geschlossen werden.

 

Document Type Definition (DTD)

 

DTDs sind eine verbreitete Art eine Sprache oder ein Dokument zu beschreiben. Innerhalb der DTD sind die erlaubten Elemente und Attribute aufgeführt und, ob sie obligatorisch oder fakultativ sind. Es können auch Standardwerte für Attribute definiert werden.

 

XML Schema

 

Eine weitere Sprache in der XML-Dokumente beschrieben werden können, die aber im Gegensatz zu DTD ebenfalls XML-Form besitzt. Es gibt noch eine Reihe weiterer Sprachen zur Deklaration von XML-Dokumente, die aber hier nicht Thema sein sollen.

 

XSL-Stylesheet

 

Ein XSL-Stylesheet kann auf ein XML-Dokument angewendet werden und enthält Anweisungen wie die XML-Daten verarbeitet werden sollen.

 

Entitäten (Entities)

 

Bereits in HTML gibt es Entities zur Verwendung von Sonderzeichen wie z.B. &uuml; für ü. Innerhalb und außerhalb der DTD ist es bei XML möglich eigene Entities zu definieren. Dies ist sinnvoll bei häufig wiederkehrenden Textstellen, oder falls Textstellen oder Wörter schnell austauschbar sein sollen.

 

Wohlgeformtheit

 

Ein Dokument ist wohlgeformt, wenn es den Syntaxregeln von XML entspricht. XML ist strenger definiert als HTML. Die wichtigsten Regeln:

 

  •  

 

    • Jedes Element muss wieder geschlossen werden.
    • Elementattribute dürfen nur mit Anführungszeichen benutzt werden.
    • Die Elemente müssen richtig geschachtelt werden.

 

Gültigkeit

 

Ein Dokument ist gültig (vaild), wenn es der angegebenen DTD oder einer anderen Strukturvorschrift genügt.

 

White-Space

 

Unter diesen Begriff fallen alle Leerzeichen, Tabulatoren, Zeilenvorschüben und Zeilenende-Zeichen.

 

Processing Instruction (PI)

 

Mit den Processing Instructions können Anweisungen an Anwendungen übergeben werden, wie das XML-Dokument bspw. verarbeitet werden soll. Diese Anweisungen beginnen immer mit einer öffnenden spitzen Klammer und einem Fragezeichen <? und enden wieder mit einem Fragezeichen und einer schließenden spitzen Klammer ?>. Eine zu dem XML-Dokument gehörender XSL-Stylesheet wird zum Beispiel als PI angegeben:

 

<?xml-stylesheet href="/selfxml.xsl" type="text/xsl" ?>

 

Versionsdeklaration

 

Nicht zwingend vorgeschrieben, aber üblich ist die Deklaration, welche Version von XML dem Dokument zugrunde liegt. Momentan existiert ausschließlich Version 1.0. Zusätzlich kann in dieser Deklaration auch noch der verwendete Schriftsatz angegeben werden. Hier eine Beispieldeklaration:

 

<?xml version="1.0" encoding="ISO-8859-1"?>

 

Dokumenttyp-Deklaration

 

Damit ein Dokument gültig ist, muss eine Definition des Dokuments angegeben werden. Dies kann beispielsweise in einer DTD erfolgen. Dies würde dann so aussehen:

 

<!DOCTYPE rootnode SYSTEM "selfxml.dtd">