曝光臺 注意防騙
網曝天貓店富美金盛家居專營店坑蒙拐騙欺詐消費者
用的80,000 象形文字中的20,000 個左右。(現代越南語使用一種羅馬字母。)
UCS (Universal Character System)��通用字符系統,也稱作ISO 10646,使用四個字節(確切地說是31 位)表
示一個字符,以給20 多億不同的字符提供足夠的空間。這樣能容易地覆蓋地球上任何一種文字和語言使用的每個字符。而
且還可以給每一種語言指定一個完整的字符集,使法語中的“e”不同于英語和德語中的“e”等等。
與Unicode 一樣,UCS 定義了許多不同的變種和壓縮形式。純粹的Unicode 有時指USC-2,是雙字節的UCS。UTF-16 是一種
特別的編碼,它把一些UCS 字符安排在長度變化的字符串中,在這種方式下Unicode(UCS-2)數據不會改變。
UCS 超越Unicode 的優點主要是理論方面的。在UCS 中實際定義過的字符就是Unicode 中已有的字符。但是UCS 為以后的字
符擴充提供了更多的空間。
XML 實用大全
第 175 頁
7.5 如何使用Unicode 編寫XML
Unicode 是XML 自己的字符集,至少在能得到的字體范圍內,XML 瀏覽器會很好的顯示它。但是支持全部Unicode 的文本編
輯程序不是很多。因此,不得不使用下面兩種方法之一解決這個問題:
1. 使用本地字符集如Latin-3 編寫,然后把文件轉換成Unicode 文件。
2. 在文本中包含Unicode 字符引用,它們在數值上等同于特定的字符。
在主要使用一種文字或一種文字附加ASCII 碼輸入大量文本的情況下,第一種方法更可取。文檔需要摻少量的多種文字時,
可使用第二種方法。
7.5.1 利用字符引用在XML 文件中插入字符
一個Unicode 字符是介于0 和65,535 之間的一個數。如果沒有使用Unicode 書寫的文本編輯程序,通常可以使用字符引用
在XML 文件中插入字符。
Unicode 字符引用由兩個字符&#組成,后面跟有要插入字符的編碼和分號。例如,希臘字母π 的Unicode 字符值是960,因
此需要在XML 文件中插入π。古斯拉夫字母ч 的Unicode 值是1206,需要在XML 文件中插入Ҷ。
Unicode 字符引用也可以用十六進制數指定,盡管多數人習慣使用十進制數,Unicode 規范中給出的字符值是雙字節十六進
制數。直接使用十六進制數更簡單一些,不必把它們轉換成十進制數。
使用十六進制數需要在&#之后添加一個x 來指明。例如,π 的十六進制數是3C0,因此插入XML 文件中的是π;古斯
拉夫語字母ч 的十六進制數是4B6,因此在XML 文件中的應當是Ҷ。兩個字節表示4 個十六進制位,通常在十六進
制字符引用中包含一個起始的0 來構成4 位十六進制數。
十六進制和十進制Unicode 字符引用可用來嵌入那些會被解釋為置標的字符。例如,與字符(&)的編碼是&或&,
小于號(<)的編碼是<或<。
7.5.2 其他字符集與Unicode 字符集之間的轉換
輸出XML 文件的應用軟件如Adobe Framemaker,能夠自動轉換為Unicode 或UTF-8 文件。否則必須使用一種轉換工具。Sun
的免費工具包Java Development Kit (JDK)包含一個名為native2ascii 的簡單命令行實用工具,能夠完成多種常見和不常
見的本地字符集與Unicode 之間的轉換。
例如,下面的命令把文件名是myfile.txt 文本文件從操作平臺默認的編碼轉換為Unicode。
C:\>native2ascii myfile.txt myfile.uni
可使用-encoding 選項指定其他編碼。
C:>native2ascii -encoding Big5 chinese.txt chinese.uni
還可使用-reverse 選項,把Unicode 轉換為本地編碼。
C:>native2ascii -encoding Big5 -reverse chinese.uni chinese.txt
XML 實用大全
第 176 頁
如果沒有輸出文件名,轉換后的文件將打印輸出。
native2ascii 程序同樣能處理java 類型的Unicode 轉義符,它們是以\u09E3 的格式嵌入的。這與XML 中的數值字符引用不
同,盡管比較相似。使用native2ascii 把文件轉化為Unicode,仍然可以使用XML 字符引用��查看程序能夠識別它
們。
7.5.3 如何使用其他字符集編寫XML
在沒有被預先告知的情況下,XML 處理器默認文本實體字符使用UTF-8 編碼,因為ASCII 碼是包含在UTF-8 中的一個子集,
所以XML 處理器同樣可以分析ASCII 碼文本。
除了UTF-8,XML 處理器必須能讀懂的唯一字符集是原始Unicode。當不能把文本轉換成UTF-8 或原始Unicode 時,可以使
文本保持原樣并告訴XML 處理器文本所使用的字符集。這是最后一種手段,因為這樣做并不能保證一個尚未成熟的XML 處理
器能夠處理其他編碼。除此之外,Netscape Navigator 和Internet Explorer 都能很好地解釋常見的字符集。
在文件開始的XML 聲明中包含一個encoding 屬性,告訴XML 處理器正在使用的是非Unicode 編碼。例如,說明整個文檔使
用默認的Latin-1(除非在嵌套的實體中有別的處理指令),可使用下面的XML 聲明:
<?xml version="1.0" encoding="ISO-8859-1" ??>
也可以在XML 聲明之后包含一個編碼聲明作為一個單獨的處理指令,但是一定要在所有字符數據之前:
<?xml encoding="ISO-8859-1"?>
表7-7 列出了目前大部分常用的字符集的正式名稱,即出現在XML 編碼屬性中的名稱。清單中沒有的編碼請參考由Internet
Assigned Numbers Authority(IANA)提供的正式清單,網址是:http://www.isi.edu/in-notes/iana/assignments/
character-sets。
XML 實用大全
第 177 頁
表7-7 常用字符集名稱
字符集名稱 語言/國家
US-ASCII 英語
UTF-8 壓縮Unicode
UTF-16 壓縮UCS
ISO-10646-UCS-2 原始Unicode
ISO-10646-UCS-4 原始UCS
ISO-8859-1 Latin-1,西歐
ISO-8859-2 Latin-2,東歐
ISO-8859-3 Latin-3,南歐
ISO-8859-4 Latin-4,北歐
ISO-8859-5 ASCII 碼加古斯拉夫語
ISO-8859-6 ASCII 碼加阿拉伯語
中國航空網 www.k6050.com
航空翻譯 www.aviation.cn
本文鏈接地址:
XML實用大全(56)