Zwei Bytes für die ganze Welt:
Unicode und Mac OS X

Wenn Sie bereits Mac OS X verwenden, dann hat sich auf Ihrem Macintosh eine kaum bekannte Revolution abgespielt. Nein, nicht Unix, präemptives Multitasking oder eines der sonst bekannten Schlagwörter. Wir sprechen von Text.
Wie kann Text denn revolutionär sein? Text ist nicht sexy. Wir nehmen Text als gegeben hin, tippen ihn ein, lesen, bearbeiten und speichern ihn. Text ist einer der Hauptgründe dafür, dass sich viele Leute überhaupt einen Computer anschaffen. Es ist ein Mittel, ein Medium; es ist aber kein Ziel, nichts Endgültiges. Die Tastatur liegt unter Ihren Händen: Sie drücken eine Taste und der entsprechende Buchstabe erscheint auf dem Bildschirm. Was könnte einfacher sein?
Aber je mehr man ü:ber Text und seine Funktionsweise auf einem Computer weiss, desto überraschender erscheint einem die Tatsache, dass es überhaupt funktioniert. Welche Tastatur wird verwendet, wie werden die Tasten einem Tastenschlüssel zugewiesen, wie werden diese durch Buchstaben repräsentiert, wie sollen die Buchstaben auf dem Bildschirm erscheinen und wie werden sie in Dateien gespeichert? Da stellen sich mannigfaltige Probleme bezüglich der Sprache, der Zeichensätze, der Groß- und Kleinbuchstaben, der Umlaute, der Sortierreihenfolge und vielem mehr.

In diesem Text werden wir uns auf einen einzigen Aspekt von Text beschränken: Unicode. Ob Sie nun bereits von Unicode gehört haben oder nicht, Sie sind gleichermaßen davon betroffen. Mac OS X ist ein Unicode-System. Seine Texte bestehen aus Unicode-Zeichen. Viele der mitgelieferten Zeichensätze sind Unicode-Zeichensätze.
Es gibt da aber einige Probleme. Der Umgang mit Unicode in Mac OS X ist nicht gerade perfekt. Es gibt Stellen, an denen Unicode gar nicht funktioniert oder nicht richtig implementiert worden ist und Ihnen in die Quere kommt. Vielleicht sind Ihnen einige dieser Probleme bereits begegnet und Sie haben nur verständnislos mit den Schultern gezuckt und die wahre Ursache gar nicht geahnt. Von jetzt an werden Sie solche Probleme aber vielleicht eher bemerken und ein bisschen weniger die Stirne runzeln. Und noch wichtiger, Sie sind besser für die Zukunft gerüstet, denn Unicode ist auf dem Vormarsch. Es ist in Mac OS X allgegenwärtig und wird sich immer mehr durchsetzen. Unicode ist die Zukunft - Ihre Zukunft. Und um es mit einem Zitat aus meinem Lieblingsfilm zu sagen: »Wir sind alle an der Zukunft interessiert, denn da werden wir den Rest unseres Lebens verbringen.«

ASCII, keine Frage
Um die Zukunft verstehen zu können, müssen wir aber in der Vergangenheit anfangen.
Am Anfang war die Schrift, die Druckerpresse, Bücher, die Schreibmaschine und ganz besonders eine spezielle Schreibmaschine zum Übermitteln von Informationen über elektrische Drähte - der Fernschreiber. Vielleicht haben Sie mal in einem alten Film einen Fernschreiber gesehen, wie er eine Agenturmeldung oder einen militärischen Befehl ausspuckte. Damit Fernschreiber funktionierten, mussten Sie die getippten Buchstaben beim Sender kodieren, als elektrische Impulse durch die Leitung übertragen und beim Empfänger wieder dekodieren.
Als Computer interaktiv wurden und auch über große Distanzen darauf zugegriffen werden konnte, waren Fernschreiber als Ein- und Ausgabegeräte die naheliegendste Lösung und daraus resultierte das erste universelle Standard-Alphabet für Computer. Auf Grund der Funktionsweise der Fernschreiber ging das aber nicht problemlos vonstatten. Es handelte sich nämlich um ASCII (die Abkürzung steht für American Standard Code for Information Interchange), und man kann dessen Herkunft vom Fernschreiber immer noch an den so genannten Kontrollcodes ablesen (so genannt, weil man damit das Gerät am anderen Ende kontrollieren konnte). Beispielsweise ließ die Tastenkombination Ctrl-G eine Glocke läuten, um den Bediener auf eine eingehende Meldung aufmerksam zu machen - der Vorläufer des heutigen Warntons.
Die USA waren schon damals die treibende wirtschaftliche und technische Macht im Computerbereich und so besteht das ASCII-Alphabet aus den römischen Groß- und Kleinbuchstaben sowie einigen Interpunktionszeichen und Kontrollcodes. Das Alphabet bestand ursprünglich aus 128 Zeichen. Diese Zahl entspricht 2 hoch 7, sicher kein Zufall da das binäre Zahlensystem schon damals die Grundlage eines jeden Computers war.
Beim Apple IIc stellte man erstaunt fest, dass das ASCII-Alphabet um eine weitere Zweierpotenz erhöht worden war und insgesamt 256 Buchstaben umfasste. Das macht natürlich Sinn, denn 256 Zeichen lassen sich gerade in 8 Bits oder einem Byte darstellen, der kleinsten Einheit einer Speicherzelle. Damit wurde zwar kein Speicherplatz verschwendet, aber es war völlig unklar, was man mit den zusätzlichen 128 Zeichen machen sollte, die als »high ASCII« bezeichnet wurden (das ursprüngliche Alphabet mit 128 Zeichen wurde zur Unterscheidung »low ASCII« genannt). Das Problem war der Bildschirm. Damals war die Darstellung von Buchstaben noch fest im Monitor verdrahtet und »low ASCII« war alles, was er darstellen konnte.

Von Zeichen und Schriften
Das änderte sich erst, als der Macintosh im Jahre 1984 das Licht der Welt erblickte. Der Bildschirm des Macintosh-Computers war graphikfähig und nicht der Monitor, sondern der Computer musste nun festlegen, wie ein Buchstabe auf dem Bildschirm dargestellt werden sollte. Zu dieser Zeit war das überraschend und absolut revolutionär. Ein Buchstabe konnte jetzt irgendetwas darstellen und zum ersten Mal konnte man alle 256 möglichen Zeichen auch tatsächlich auf dem Bildschirm sehen. Um »high ASCII« zu erzeugen, drückte man einfach die Optionstaste. Was man danach sah, war fantastisch: Ein Aufzählungszeichen! Ein Absatzsymbol! Ein u mit Umlaut! Damit war auch gleich der MacRoman-Zeichensatz geboren, an den wir uns mittlerweile so gewöhnt haben.
Da jetzt der Computer die Buchstaben auf den Bildschirm zeichnete, konnte man auch einen beliebigen anderen Zeichensatz auswählen - eine weitere Revolution. Wer genug mit den eingebauten Zeichensätzen Venice und San Francisco herumgespielt hatte, stellte fest, dass dies auch Auswirkungen auf die Darstellung von Schriften mit nicht-römischen Zeichen hatte. Schließlich erzwang kein Gesetz die Zuordnung der 256 möglichen Zeichen zum MacRoman-Zeichensatz. Ein anderer Zeichensatz konnte ganz andere 256 Buchstaben darstellen, wie der Symbol-Zeichensatz beweist. Das ist auch der Grund, weshalb viele auf den Macintosh umgestiegen bin. In kurzer Zeit konnte man Griechisch, Devanagari (das Alphabet von Sanskrit) und phonetische Zeichen schreiben. Nach langen Jahren des Kampfes mit internationalen Schreibmaschinen und dem manuellen Einfügen von Symbolen war man nun mein eigenen Setzer geworden und schwebte im siebten Himmel.

Ärger im Paradies
Dieser Himmel hatte allerdings auch seine Grenzen. Etwa wenn man ein Dokument drucken wollte. Laserdrucker waren teuer und so musste man seine Dokumente etwa an einem Arbeitsplatz ausdrucken, auf dessen Macintosh-Computer nicht unbedingt die gleichen Zeichensätze installiert waren wie die eigenen und demzufolge die Dokumente auch nicht korrekt ausgedruckt werden konnten. Das gleiche Problem trat bei der Weitergabe von Dokumenten an Kollegen oder Verleger auf. Der Kollege hatte nicht die gleichen Zeichensätze installiert wie man selbst und konnte sich das Dokument deshalb nicht korrekt anzeigen lassen.
Windows-Anwender stellten ein weiteres Problem dar. Der Windows-Zeichensatz wich perfiderweise von demjenigen des Macintosh ab. Beispielsweise hat WinLatin1 (häufig nicht ganz korrekt als ISO 8859-1 bezeichnet) das spanische umgekehrte Fragezeichen auf den Code 191 gelegt; auf dem Mac ist das gleiche Zeichen unter dem Code 192 zu finden (191 ist dafür das nordische o mit Schrägstrich).
Und selbst zwischen Macintosh-Anwender traten »normale« Zeichensätze in mehreren sprachlichen Varianten auf, da die 256 Zeichen von MacRoman bei weitem nicht dazu ausreichen, alle Buchstaben der Sprachen mit römischer Schrift abzubilden. Nehmen wir Türkisch als Beispiel. MacRoman hat zwar ein Zeichen für das türkische punktlose i, aber kein türkisches s-Cedille. Darum wird auf einem türkischen Macintosh die fl-Ligatur durch das s-Cedille ersetzt. Etwas Ähnliches passiert unter Windows, wo das türkische s-Cedille und das altenglische th in verschiedenen Sprachversionen den gleichen Code belegen.

Der Turm zu Babel
Nichts von alledem wäre wirklich problematisch, ginge es hier nicht um Kommunikation. Wenn sich Ihre Computer-Tätigkeit auf das Büro beschränkt und Sie einen eigenen Drucker und nur eigene Dokumente besitzen, können Sie ganz normal arbeiten. Wenn Sie Ihre Dokumente aber austauschen wollen, vergrößern sich Ihre Probleme und mit dem Aufkommen des Internets entstand ein regelrechtes Schlamassel. Personen mit verschiedenen Computern begannen plötzlich E-Mails zu schicken und Webseiten zu lesen. Es entstanden Standards zum Dokumentenaustauch, aber auch diese funktionierten nur so gut wie die Personen, die sie anwendeten. Wenn Sie jemals ein E-Mail mit dem mysteriösen Absender »=?iso-8859-1?Q?St=E9phane?=« erhalten und Webseiten mit komischen Buchstaben zu Gesicht bekommen haben, dann sind Sie diesem Problem auch schon begegnet.
Und da Zeichensätze nicht übers Internet übertragen werden, können Zeichen, die nur in einem bestimmten Zeichensatz existieren, überhaupt nicht dargestellt werden. HTML kann zwar festlegen, dass bestimmte Buchstaben in einem bestimmten Zeichensatz dargestellt werden sollen, aber was nützt Ihnen das, wenn Sie diesen Zeichensatz gar nicht haben?
Und schließlich sei noch einen anderen wichtigen Punkt erwähnt: Für einige Schriftsysteme sind 256 Zeichen nicht annähernd genug. Ein gutes Beispiel ist Chinesisch, das mehrere Tausend Zeichen umfasst.
Und hier kommt nun Unicode ins Spiel.

Zwischen Wunsch und Wirklichkeit
Der Ansatz von Unicode ist einfach genug: man erhöht die Anzahl Bytes zur Darstellung von Buchstaben. Mit zwei Bytes kann man bereits 65.536 Zeichen repräsentieren - genug für das römische Alphabet, eine Vielzahl von diakritischen Zeichen, Griechisch, Russisch, Hebräisch, Arabisch, Devanagari sowie die wichtigsten Zeichen von mehreren asiatischen Sprachen und noch einiges mehr.
Das Neue daran ist nicht die Kodierung der Zeichen zur Darstellung verschiedener Schriftsysteme; die existierenden Zeichensätze konnten das mit Einschränkungen ebenfalls. Es ist auch nicht die Verwendung eines Doppelbyte-Systems; solche Systeme waren für verschiedene asiatische Sprachen bereits in Gebrauch. Das wirklich Neue ist die Zusammenfassung all dieser Zeichen in einem universellen Zeichensatz. Oder anders gesagt, Unicode macht endlich Schluss mit den Abweichungen zwischen verschiedenen Systemen und Zeichensätzen. Theoretisch könnte ein einziger (riesiger) Zeichensatz alle benötigten Zeichen umfassen.
Es ist nun aber so, dass selbst 65.536 Zeichen nicht genügen, wenn man die Wünsche von Akademikern nach speziellen Zeichen und historischen Alphabeten berücksichtigen möchte (auf diesem Gebiet stellten sich die Begründer des Unicode-Systems leider als nicht ganz so kompetent heraus wie sie sich selbst gern gesehen hätten). Deshalb ist Unicode kürzlich um sechzehn weitere Sätze von je 65.536 Zeichen ergänzt worden (so genannte supplementary planes oder erweiterte Ebenen), womit der verfügbare Zeichenvorrat auf eine Million angestiegen ist und ein beliebiges Zeichen mit maximal 4 Bytes dargestellt werden kann. Die erste erweiterte Ebene ist bereits mit gotischen Buchstaben, musikalischen und mathematischen Symbolen sowie mykenischen (Linear B) und ägyptischen Hieroglyphen bevölkert worden. Die Weiterentwicklung des Standards ist damit nicht ganz überraschend zum Schauplatz von politischen, kulturellen, technischen und akademischen Grabenkämpfen geworden.
http://www.unicode.org/
http://www.unicode.org/unicode/standard/principles.html
Und was hat das alles mit mir zu tun, werden Sie sich jetzt sicher fragen? Wie schon zu Beginn gesagt, wenn Sie Mac OS X einsetzen, ist Unicode bereits auf Ihrem Computer installiert. Aber wo?

Ab hier nur Mac:

Erzwungener Eintritt
Um zu beweisen, dass Unicode auf Ihrem Computer präsent ist, können Sie versuchen, einige dieser Zeichen einzugeben. Ganz offensichtlich können Sie das nicht auf herkömmliche Weise tun, denn selbst mit den Options- und Umschalttasten kann eine normale Tastatur nicht einmal 256 Zeichen erzeugen. Deshalb muss so etwas wie eine Eingabemethode existieren. Hier ist eine einfache: Öffnen Sie das Kontrollfeld International in den Systemeinstellungen von Mac OS X, gehen Sie auf das Register Tastaturmenü und aktivieren Sie die Eingabemethode »Unicode Hex Input«. Anschliessend erscheint ein Tastaturmenü in ihrer Menüzeile (auf meinem Computer sieht das standardmässig wie eine deutsch Flagge aus).
Jetzt sind wir zur Texteingabe bereit. Starten Sie das Programm TextEdit im Ordner Applikationen. Wählen Sie aus dem Tastaturmenü den Eintrag »Unicode Hex Input« aus. Jetzt halten Sie die Optionstaste gedrückt und tippen folgende hexadezimalen Zahlen ein (ohne Anführungs- und Leerzeichen): » 042e 0440 0438 «. Sie sehen den russischen Namen Juri, bestehend aus kyrillischen Buchstaben. Die eingetippten Zahlen entsprechen den numerischen Unicode-Werten für diese drei Buchstaben.
http://www.unicode.org/charts/PDF/U0400.pdf
Beachten Sie, dass, wenn Sie Juri selektieren und den Zeichensatz ändern, der Text immer noch korrekt angezeigt wird. Enthält also jeder Zeichensatz in Mac OS X auch kyrillische Zeichen? Nein, es ist aber so, dass Mac OS X automatisch nach einem passenden anderen Zeichensatz sucht, sobald die gewünschten Buchstaben im gewählten Zeichensatz nicht vorhanden sind. Das ist wichtig, denn ein Zeichensatz, der alle Unicode-Zeichen enthalten würde, wäre nicht nur riesengross, sondern würde auch enorm viel Zeit bei der Erstellung benötigen. So aber können sich die Gestalter von Zeichensätzen auf ihre speziellen Fähigkeiten konzentrieren und jeder Zeichensatz steürt schliesslich nur einen Teil zum Gesamtumfang von Unicode bei.
Zugegeben, »Unicode Hex Input« kann zwar jedes beliebige Unicode-Zeichen erzeugen, sofern Sie dessen genauen Code kennen, aber es ist offensichtlich etwas unhandlich. In der Praxis muss eine bessere Methode zum Erzeugen von Unicode-Zeichen existieren. Eine davon sind Tastaturschemata. Ein Tastaturschema stellt eine Verbindung zwischen einer gedrückten Taste und dem entsprechenden Buchstabencode her. Normalerweise handelt es sich dabei immer um Buchstaben des ASCII-Zeichensatzes. Nehmen Sie aber zum Beispiel den Symbol-Zeichensatz. Unter Mac OS 9 war dieser Zeichensatz einfach ein alternativer Satz von Buchstaben der dem normalen ASCII-Zeichensatz überlagert wurde. In Mac OS X handelt es sich dabei aber um ganz normale Unicode-Zeichen, die nicht mehr im normalen ASCII-Schema Platz haben. Um deshalb Symbolzeichen einzugeben, müssen Sie ein anderes Tastaturschema wählen: Sie schreiben zwar wie bisher, aber Ihre Tastendrücke erzeugen ganz andere Zeichencodes und aktivieren so den Teil von Unicode, in dem die Symbolzeichen abgelegt sind.
Um das zu sehen, aktivieren Sie die Symbol-Tastatur im Kontrollfeld International. Als nächstes starten Sie das Programm Key Caps im Ordner Utilities des Applikationsordners und wählen im Zeichensatz-Menü den Eintrag Symbol aus. Jetzt können Sie mit dem Tastaturmenü herumspielen. Wenn Sie das amerikanische Tastaturschema auswählen, werden die meisten Tasten leer angezeigt; wenn Sie aber das Symbol-Tastaturschema wählen, werden die richtigen Zeichen angezeigt. Tatsächlich ist hier nur die Zuordnung wichtig (und nicht der Zeichensatz), da die Symbolzeichen auch in zahlreichen anderen Zeichensätzen vorhanden sind (und wie wir gesehen haben, sucht Mac OS X automatisch nach einem passenden Zeichensatz, wenn die Symbole im gewählten Zeichensatz fehlen).
Eine andere häufige Art der Zuordnung von Tasten zu Buchstaben ist die Verwendung von »toten« Tasten. Bereits im normalen Tastaturschema werden Sie damit vertraut sein, denn mit diesen Tasten können Sie bestimmte diakritische Zeichen wie Gravis, Akut, Zirkumflex und Umlaut eingeben. Beispielsweise erzeugt die Tastaturkombination Wahltaste-u gefolgt von u im amerikanischen Tastaturschema ein u mit einem Umlaut; die Kombination Wahltaste-u wartet also zürst ab, bis die nächste Taste gedrückt und damit festgelegt wird, welcher Buchstabe angezeigt werden soll. Das Tastaturschema »Extended Roman«, das ebenfalls im Kontrollfeld International zu finden ist, geht noch einen Schritt weiter und erlaubt den Zugriff auf noch mehr diakritische Zeichen; Wahltaste-a wird so ebenfalls zu einer toten Taste und fügt dem nächsten Vokal ein Makron hinzu.
http://homepage.mac.com/goldsmit/.Pictures/ExtendedRoman.jpg
Mehrere andere Eingabemethoden existieren für verschiedene weitere Sprachen, einige davon sind recht ausgetüftelt (etwa für Japanisch). Leider fällt die Auswahl an Eingabemethoden in Mac OS X gegenüber dem Angebot von Mac OS 9 etwas ab; es gibt in Mac OS X zum Beispiel keine Eingabemethode für Devanagari, Arabisch oder Hebräisch. In einigen Fällen erscheint die entsprechende Eingabemethode nur, wenn auch der dazugehörige Zeichensatz installiert ist; um an den Zeichensatz zu kommen, müssen Sie die entsprechende Sprache unter Classic von der Mac OS 9-CD installieren. In anderen Fällen wird das Material über Software Update zur Verfügung stehen. Wir wollen hier nicht näher auf die Details eingehen - wenn Sie eine spezifische Sprachen benötige, werden Sie diese Sprache sicher besser kennen und mehr über Unicode wissen als der der Autor.
http://docs.info.apple.com/article.html?artnum=106484
http://docs.info.apple.com/article.html?artnum=120065

Das Web entdecken
Ein offensichtlicher Vorteil des Unicode-Standards ist die Möglichkeit, verschiedene Sprachen und Schriften lesbar in einem Web-Browser anzeigen zu können. Für einen kleinen Vorgeschmack sei die UTF-8-Beispielseite des Kermit-Projekts der Columbia-Universität empfohlen, dessen Internet-Adresse unten angegeben ist. Sie benötigen dafür aber den OmniWeb-Browser von der OmniGroup; dies ist wohl der einzige Browser, der Unicode-Zeichen einigermassen akzeptabel darstellen kann. Um das beste Resultat zu erzielen, können Sie auch den Code2000-Zeichensatz von James Kass herunterladen und in einen der Zeichensatz-Ordner legen, bevor Sie OmniWeb starten. (Wenn Sie zu faul zum Herunterladen des Code2000-Zeichensatzes sind, sind die Ergebnisse dank der bereits in Mac OS X vorhandenen Zeichensätze immer noch recht gut, aber einige Zeichen werden möglicherweise durch so genannte Platzhalter ersetzt, um Sie darauf hinzuweisen, dass bestimmte Zeichen fehlen.)
http://www.omnigroup.com/applications/omniweb
http://home.att.net/~jameskass/CODE2000.ZIP
http://www.columbia.edu/kermit/utf8.html
Wenn Sie die Beispielseite betrachten, sollten Sie Runen, Mittelenglisch, Mittelhochdeutsch, modernes Griechisch, Russisch, Georgisch und viele weitere Sprachen und Schriften sehen. Einige Zeichen werden vielleicht fehlen, aber die Ergebnisse sehen immer noch erstaunlich gut aus. Das einzige grössere Problem ist die Tatsache, dass Schriften wie Arabisch und Hebräisch, die von rechts nach links geschrieben werden, in der falschen Richtung angezeigt werden. Beachten Sie, dass Sie keine Bilder sehen! Der gesamte Text besteht nur aus Buchstaben, die den installierten Schriften entnommen wurden, genau gleich wie in einer Textverarbeitung.
Sie werden sich jetzt sicher wundern, wie ein HTML-Dokument dem Browser mitteilen kann, welches Unicode-Zeichen er anzeigen soll. Schliesslich geben Sie für ein normales E ja auch nur den Buchstaben E im HTML-Dokument an. Wie aber spezifiziert man beispielsweise das russische ju? Mit Unicode gibt es dazu zwei Methoden. Die erste ist die numerische Methode; genau wie man unter HTML ein doppeltes Anführungszeichen mit dem Befehl »"« angeben kann, ist es auch möglich, mit der Angabe »&#1102« das russische ju auszuwählen (weil 1102 der Dezimalwert des entsprechenden Zeichencodes in Unicode ist). Wenn das Dokument nur wenige Unicode-Zeichen enthält, funktioniert das ganz gut; andernfalls wird es aber völlig unpraktisch, und der Aufwand zum Erstellen und Bearbeiten einer solchen Seite ist immens. Zudem werden dadurch die Dokumente auch grösser, da für jedes Unicode-Zeichen insgesamt sechs Bytes benötigt werden. Eine bessere Lösung ist UTF-8.
Um UTF-8 zu verstehen, sollten Sie sich überlegen, wie Sie Unicode als eine Folge von Bytes kodieren würden. Ein nahe liegender Weg ist die Darstellung des numerischen Werts jedes Zeichens durch Bytes. Das russische ju mit dem hexadezimalen Wert 044E könnte man also durch ein Byte mit dem Wert 04 und ein Byte mit dem Wert 4E darstellen. Das ist durchaus möglich, tatsächlich hat diese Methode sogar einen offiziellen Namen, UTF-16. Diese Methode ist aber zu heutigen Web-Browsern nicht kompatibel. Ein Web-Browser oder eine Textverarbeitung, die von Unicode keine Ahnung haben, können ein Dokument mit UTF-16 nicht lesen, selbst wenn es sich bei den Zeichen nur um solche aus dem ASCII-Bereich handeln sollte. Und ein solches Dokument könnte auch nicht über das Internet übertragen werden, da einige der Bytes (etwa 04 im obigen Beispiel) keine gültigen Zeichen darstellen. Deshalb ist eine Kodierung nötig, die sicherstellt, dass alle Bytes gleichzeitig auch gültige ASCII-Zeichen sind.
Das genau macht UTF-8. Es ist eine Methode, Unicode-Zeichen als eine Seqünz von gültigen ASCII-Zeichen zu übertragen, dessen Zeichen aus dem ASCII-Bereich auch einfach als ASCII-Zeichen übertragen werden. Mit dieser Kodierung kann eine Applikation (wie etwa einen Web-Browser oder eine Textverarbeitung) eine Seqünz von Unicode-Zeichen als ASCII-Zeichen darstellen, auch wenn sie selbst nichts über UTF-8 weiss. Dieser Text wird natürlich völlig unleserlich sein, aber zumindest werden normale ASCII-Zeichen auch als solche dargestellt. Um einem Browser mitzuteilen, dass das eben angezeigte Dokument aus UTF-8 besteht, muss der <META>-Befehl den »charset« als »utf-8« angeben. OmniWeb kann diese Einstellung lesen und das Dokument korrekt in Unicode darstellen. So ist beispielsweise die UTF-8-Kodierung des russischen ju die hexadezimale Zahl D18E. Sowohl D1 als auch 8E sind gültige ASCII-Zeichen: auf einem Macintosh sind es ein langer Gedankenstrich gefolgt von einem e mit einem Akut. Tatsächlich kann man diese beiden Zeichen in ein normales HTML-Dokument einfügen, es als UTF-8 deklarieren und OmniWeb wird sie als russisches ju darstellen.
Wenn Sie mehr über den Unicode-Zeichensatz wissen und Ihre Zeichensätze mit dem Standard vergleichen oder sich auf eine bestimmte Sprache konzentrieren wollen, sind die Webseiten von Alan Wood ein guter Ausgangspunkt. Und Tom Gewecke unterhält eine Webseite mit nützlichen Informationen über die Mehrsprachenfähigkeiten auf dem Macintosh, mit spezieller Berücksichtigung von Mac OS X und Unicode.
http://www.hclrss.demon.co.uk/unicode/index.html
http://hometown.aol.com/tg3907/mlingos9.html

Zeichensätze entdecken
Vielleicht möchten Sie jetzt wissen, welche Unicode-Zeichensätze auf Ihrem Computer eigentlich installiert sind und welche Buchstaben und Zeichen sie enthalten. Leider liefert Apple dazu keine Möglichkeit. Das Programm Key Caps kann Ihnen nicht weiterhelfen, weil damit nur ein Bruchteil aller möglichen Zeichen angezeigt werden kann. Die meisten Hilfsprogramme für Schriften sind blind gegenüber allem, was über ASCII herausgeht. Eine erfreuliche Ausnahme ist das Programm FontChecker von WunderMoosen für (15 US-Dollar). Dieses Programm lässt Sie die gesamte Palette der Unicode-Zeichen in jedem Zeichensatz entdecken und ist ein absolutes Muss, wenn Sie auf einem Macintosh mit Unicode etwas Sinnvolles anfangen wollen. Zeichen können auch selektiert und mit der Maus in andere Programm gezogen werden, was FontChecker zu einer hilfreichen Eingabemethode macht. Ohne FontChecker hätte man diesen Artikel nicht schreiben können.
http://www.wundermoosen.com/wmXFCHelp.html
Ebenfalls sehr wertvoll ist UnicodeChecker, ein Gratis-Programm von Earthlingsoft, das jedes Unicode-Zeichen darstellen kann. Anders als FontChecker ist es nicht nach Zeichensätzen geordnet, sondern zeigt einfach jedes Zeichen in numerischer Reihenfolge an und kann sogar die Zeichen der 16 zusätzlichen Ebenen darstellen. (Laden Sie den Code2000-Zeichensatz von James Kass herunter, wenn Sie einige davon sehen wollen).
http://homepage.mac.com/earthlingsoft/apps.html#unicodechecker
http://www.unicode.org/Public/UNIDATA/
http://home.att.net/~jameskass/CODE2001.ZIP

Es bleibt noch viel zu tun
Unicode steckt immer noch in den Anfängen; Mac OS X übrigens auch. Wenn Ihnen diese übersicht den Eindruck vermittelt hat, dass Unicode auf Mac OS X noch mehr Spielzeug denn Werkzeug sei, dann liegen Sie absolut richtig. Es braucht noch einen grossen Aufwand auf verschiedenen Ebenen, bevor Unicode auf Mac OS X wirklich sinnvoll eingesetzt werden kann.
Ein grosser Mangel ist zurzeit die fehlende Unterstützung von Unicode in Applikationen. Wir haben bereits gesehen, dass nicht alle Web-Browser gleich gut mit Unicode umgehen können; wir mussten OmniWeb verwenden, um die Unicode-Webseite korrekt darstellen zu können (probieren Sie einmal das Gleiche mit einem anderen Web-Browser aus und sehen Sie den Unterschied). Es gibt auch Gründe, weshalb wir unsere Beispiele anhand von TextEdit und nicht einer anderen Textverarbeitung gezeigt haben. Seien Sie sich auch bewusst, dass die Dokumentation einer Software deren Unicode-Fähigkeiten nicht unbedingt wahrheitsgetreu wiedergibt. Software-Firmen verwenden gerne das Schlagwort Unicode, aber zwischen der Werbung und der tatsächlichen Umsetzung klafft meistens eine grosse Lücke. Microsoft Word X prahlt damit, dass man Text in allen unterstützten Sprachen eingeben, bearbeiten und darstellen kann, akzeptiert aber die Eingabemethode »Unicode Hex Input« nicht und kann eingefügte Unicode-Zeichen nicht immer richtig anzeigen. BBEdit kann Unicode-Textdateien zwar öffnen und speichern, die Anzeige der Buchstaben ist aber mehr schlecht als recht und es kann zudem immer nur ein Zeichensatz gleichzeitig angezeigt werden (obwohl wir gesehen haben, dass Unicode-Zeichen meistens aus verschiedenen Zeichensätzen geholt werden). BBEdit akzeptiert die Eingabemethode »Unicode Hex Input« ebenfalls nicht und kann deshalb für die Arbeit mit Unicode nicht sinnvoll eingesetzt werden
. Das Betriebssystem muss ebenfalls weiterentwickelt werden. Der Unicode-Standard stellt gewisse Anforderungen bezüglich bidirektionaler Schriftsysteme und der überlagerung von mehreren Zeichen, die Mac OS X noch nicht fehlerfrei beherrscht. Die installierten Schriften decken auch nicht den gesamten Unicode-Zeichensatz ab. Es werden noch mehr Eingabemethoden benötigt und Apple muss Werkzeuge zur Herstellung von eigenen Tastaturschemas und einfache Eingabemethoden bereitstellen, damit die Anwender auf ihre bevorzugten Zeichen zugreifen können. Der Unicode-Standard selbst ist ebenfalls ständigen änderungen unterworfen und wird laufend weiterentwickelt. Gleichzeitig glänzt Windows mit der eingebauten Unterstützung von unterschiedlichsten Sprachen und von Unicode selber, die der Umsetzung in Mac OS X meilenweit voraus ist. Es ist unsere Hoffnung, dass Apple im Laufe der Zeit aufholen wird und das Versprechen von Unicode mit Mac OS X wird einlösen können. Dann wird der Macintosh nicht nur das Zentrum unserer digitalen Umwelt sein, sondern auch zur Drehscheibe unserer schriftlichen Welt werden.

(Mit Dank an Matt Neuburg)

Siehe auch: Typografie im WWW (II) - Text und Fonts

sowie:

Typografie im WWW(I)

Zurück