Diese Architektur-Spezifikation gibt Autoren von Spezifikationen, Software- und Inhalteentwicklern eine gemeinsame Referenz für interoperable Textmanipulation im World Wide Web bietet. Sie baut auf dem “Unversal Character Set” auf, der gemeinschaftlich vom Unicode Standard und dem ISO/IEC 10646-Standard definiert wird. Die behandelten Themen beinhalten den Gebrauch der Bezeichnungen “Zeichen”, “Zeichenkette” und “Encodierung”, ein Referenzmodell zur Verarbeitung, Auswahl und Erkennung von Zeichencodierungen, Escaping und Zeichenketten-Indexierung.
Ziel des Schriftzeichenmodells für das World Wide Web ist es, allen Menschen die Nutzung des Webs zu ermöglichen, unabhängig von ihrer Sprache, Schrift, Schreibsystem und kulturellen Konventionen; sie steht damit im Einklang mit dem W3C-Ziel des universellen Zugriffs.
Unicode bringt den universellen Zeichensatz ins Web
Im Kern des Modells steht der Universal Character Set (UCS), der gemeinschaftlich vom Unicode-Standard und vom ISO/IEC-Standard 10646 definiert wird. Das Modell erlaubt Web-Technologien, Text in allen Schriftsprachen (und auf unterschiedlichen Plattformen) zu unterstützen und von Nutzern auf der ganzen Welt gelesen, durchsucht und ausgetauscht zu werden.
Unicode wurde aus folgenden Gründen gewählt: Es bietet einen Weg zur Referenzierung von Zeichen unabhängig von der Kodierung des Textes; es wird sorgfältig gepflegt und auf dem neuesten Stand gehalten; und es ist in der Industrie weit verbreitet und akzeptiert.
W3C hat Unicode als Zeichensatz für HTML-Dokumente in HTML 4.0 ausgewählt. Der selbe Ansatz wurde später für Spezifikationen wie XML 1.0 und CSS2 gewählt. Die W3C-Standards und ihre Anwendungen benutzen jetzt Unicode als den gemeinsamen Referenz-Zeichensatz.
Die neue Spezifikation klärt die Verwendung von Schriftzeichen im Web
Das Web ist bis zu einem Punk gewachsen, an dem man es eher als einzige, sehr große Anwendung ansehen kann, denn als Ansammlung von kleinen, unabhängigen Applikationen.
Während diese Wntiwkclungen die Anforderung stärken, dass Unicode zur Basis eines Schriftzeichenmodells für das Web wird, schaffen sie auch den Bedarf für zusätzliche Spezifikationen zur Verwendung von Unicode im Web. Einige Aspekte, die namentlich das Web betreffen und nähere Erläuterung in der Schriftzeichenmodell-Serie erfahren, sind:
*Auswahl der Unicode-Encodierungsform (UTF-8, UTF-16, UTF-32)
*Zeichenzählung, Messung der Länge von Zeichenketten bei der Verwendung von Zeichencodierung mit variabler Länge und Kombination von Zeichen
*Mehrfachmöglichkeiten der Zeichenkodierung (z.B. 'precomposed' oder 'decomposed')
*Der Gebrauch von Escape-Mechanismen zur Kodierung von Zeichen
Die Dokumentenreihe wird im Laufe des Jahres 2005 fertiggestellt
Die heute veröffentlichte Recommendation ist das erste in einer Reihe von drei Dokumenten. Die anderen, noch in der Entwicklung befindlichen Dokumente enthalten das "Character Model for the World Wide Web 1.0: Normalization," das sich mit Normalisierung und Vergleich auf Identität von Zeichenketten beschäftigt, sowie das "Character Model for the World Wide Web 1.0: Resource Identifiers," das Internationalisierte Resource-Identifikatoren (IRIs) spezifiziert.
Führende Industrieunternehmen spielen eine Schlüsselrolle bei der Entwicklung der Character-Model-Serie
Das Schriftzeichenmodell ist von der W3C Internationalization Activity's Arbeitsgruppe (die jetzt zur "W3C Internationalization Core Working Group" wurde) mit Hilfe der "W3C Internationalization Interest Group" entwickelt.W3C Mitglieder dieser Arbeitsgruppe sind unter anderem die Firmen BBC, Boeing, Ecole Mohammadia d'Ingénieurs, IBM, Microsoft, Siemens, Sun Microsystems, und webMethods.