29.01.2010 13:00
Sprach- und schriftspezifische Kodierungen von Webseiten haben in den vergangenen zwei Jahren gegenüber dem universell verwendbaren Unicode-Format UTF-8 rapide abgenommen. So liegt der Anteil reiner ASCII- und Latin-1-Seiten inzwischen bei jeweils unter 20 Prozent. Diese Werte gelten zumindest für die von Google indizierten Web-Seiten.
Sprachspezifische Codierungen sind im Web auf dem Abschwung.
Bild: google.com
Unicode erlaubt die Verwendung mehrere Zeichensätze in einem Dokument, was mit den herkömmlichen ISO-Kodierungen ebenso wenig möglich ist wie mit denen für asiatische Sprachen. Der Standard enthält neben den üblichen Schriftzeichen auch Codes für Ligaturen, mathematische Sonderzeichen und nur noch akademisch interessante Symbole wie Hieroglyphen. Das im Web eingesetzte UTF-8-Format (RFC) verwendet zwischen 1 und 6 Bytes pro Zeichen; die 1-Byte-Zeichen entsprechen der ASCII-Kodierung.
(ck)
English version: Unicode dominates web
Version zum Drucken | Per E-Mail versenden | Newsletter abonnieren
Permalink: http://heise.de/-917580
Mehr zum Thema HTML