曝光臺 注意防騙
網曝天貓店富美金盛家居專營店坑蒙拐騙欺詐消費者
語由本地化版本支持,它們使用不同于Unicode 的編碼。Linux 對Unicode 的支持尚在開始階段,這在不久的將來會很有用。
XML 實用大全
第 165 頁
7.3 傳統字符集
不同地區的不同計算機使用的默認字符集各不相同,大多數現代計算機使用ASCII 碼擴展字符集。ASCII 碼含有英語字母表
和大部分常見的標點符號以及空格符的編碼。
在美國,Mac 計算機使用MacRoman 字符集,Windows PC 機使用Windows ANSI 字符集,大部分Unix 工作站使用ISO Latin-1。
這些都是擴展的ASCII 碼,支持西方歐洲語言,如法語和西班牙語中的多出來的字符,如ç 和?。在其他地區,如日本、希
臘和以色列,計算機仍然使用令人困惑的混合字符集,這些字符集幾乎都支持ASCII 碼加本地語言。
上述方法在Internet 上無效。當你正在互聯網上閱讀San Jose Mercury News,翻頁時不會遇到幾個用德語或漢語寫的欄
目。但是在Web 頁面上,這完全可能。用戶將跟隨一個鏈接并停止在一個日文界面的開始。即使網上沖浪者不懂日語,他們
如果能看到一個好的日本版面也是不錯的。如圖7-5 所示,而不是圖7-2 顯示的那種隨意的字符組合。
XML 處理這個問題是通過把小的、局部的字符集以外的字符集合并到一個大的字符集中,并假定它包含了地球上現存語言(和
某些已消失的語言)使用的文字。這種字符集稱為Unicode。同前面提到的一樣,Unicode 是一個雙字節字符集,它能表示
多種文字和幾百種語言中的40,000 多個不同字符。即使不能全部顯示Unicode,所有的XML 處理器必須識別Unicode。
在第6 章中學過,一個XML 文檔分成文本和二進制實體兩部分,每個文本實體有一種編碼方法。如果編碼在實體定義中沒有
明確指定,就會默認為UTF-8��一種Unicode 的壓縮形式,將保持純ASCII 文本不變。因此,只包含普通ASCII 字符
的XML 文件,不會用處理Unicode 這種多字節字符集的復雜工具對它進行編輯。
7.3.1 ASCII 字符集
ASCII,即American Standard Code for Information Interchange(美國標準信息交換碼),是一個原始的字符集,而且
是到目前為止最通用的。它形成了所有字符集必須支持的最主要部分。它基本上只定義了書寫英語需要的全部字符,這些字
符的編碼是0~127。表7-1 顯示了ASCII 字符集。
表7-1 ASCII 字符集
編碼 字 符 編碼 字符 編碼 字符 編碼 字符
0 空字符(Control-@) 32 Space 64 @ 96 `
1 標題開始字符(Control-A) 33 ! 65 A 97 A
2 正文開始字符(Control-B) 34 “ 66 B 98 B
3 正文結束字符(Control-C) 35 # 67 C 99 C
4 傳輸結束字符(Control-D) 36 $ 68 D 100 d
5 詢問字符(Control-E) 37 % 69 E 101 e
6 應答字符(Control-F) 38 & 70 F 102 f
7 響鈴字符(Control-G) 39 ‘ 71 G 103 g
8 退回字符(Control-H) 40 ( 72 H 104 h
9 制表符(Control-I) 41 ) 73 I 105 i
10 回行字符(Control-J) 42 * 74 J 106 j
11 垂直制表符(Control-K) 43 + 75 K 107 k
12 進紙字符(Control-L) 44 , 76 L 108 l
XML 實用大全
第 166 頁
13 回車字符(Control-M) 45 - 77 M 109 m
14 移出字符(Control-N) 46 . 78 N 110 n
15 移入字符(Control-O) 47 / 79 O 111 o
16 數據連接轉義符(Control-P) 48 0 80 P 112 p
17 設備控制1(Control-Q) 49 1 81 Q 113 q
18 設備控制2(Control-R) 50 2 82 R 114 r
19 設備控制3(Control-S) 51 3 83 S 115 s
20 設備控制4(Control-T) 52 4 84 T 116 t
21 拒絕應答字符(Control-U) 53 5 85 U 117 u
22 同步等待字符(Control-V) 54 6 86 V 118 v
23 傳輸塊結束符(Control-W) 55 7 87 W 119 w
24 刪除字符(Control-X) 56 8 88 X 120 x
25 媒體結束符(Control-Y) 57 9 89 Y 121 y
26 替換字符(Control-Z) 58 : 90 Z 122 z
27 轉義字符(Control-[) 59 ; 91 [ 123 {
28 文件分隔符(Control-\) 60 < 92 \ 124 |
29 組群分隔符(Control-]) 61 = 93 ] 125 }
30 記錄分隔符(Control-^) 62 > 94 ^ 126 ~
31 單元分隔符(Control-_) 63 ? 95 _ 127 delete
在0~31 之間的字符是非打印控制字符,包括回車、送紙、制表、響鈴和其他類似的字符。其中有許多字符是以紙為基礎的
電傳打印機時代遺留下來的。例如,回車在字面上表示把支架移回到左邊空白處,就像在打字機上做一樣。送紙使打印機滾
筒向上移動一行。除了提及的幾個字符外,其他的這些字符使用率不高。
人們所碰到的大多數字符集可能是ASCII 的擴展字符集。換句話說,它們定義在0 到127 之間的字符同ASCII 一樣,只是增
加了127 以后的字符。
7.3.2 ISO 字符集
ASCII 中的“A”代表美國,因此ASCII 碼專門用于書寫英語,嚴格來說是美式英語也就不足為奇了。ASCII 碼中缺少£、ü、?
和許多書寫其他語言和地區所需的字符。
可通過指定128 以后的更多字符擴展ASCII 碼。國際標準組織(ISO)定義了幾個不同的字符集,它們是在ASCII 碼基礎上
增加了其他語言和地區需要的字符。其中最突出的是ISO8859-1,通常叫做Latin-1。Latin-1 包括了書寫所有西方歐洲語
言不可缺少的附加字符,其中0~127 的字符與ASCII 碼相同。表7-2 給出了128~255 之間的字符,同樣前32 個字符是極少
使用的非打印控制字符。
XML 實用大全
第 167 頁
表7-2 ISO 8859-1 Latin-1 字符集
編碼 字符 編碼 字符 編碼 字符 編碼 字符
128 未定義 160 不可分空格 192 À 224 À
129 未定義 161 ? 193 Á 225 Á
130 Bph 162 ¢ 194 Â 226 Â
131 Nbh 163 £ 195 Ã 227 Ã
132 未定義 164 ¤ 196 Ä 228 Ä
133 Nel 165 ¥ 197 Å 229 Å
134 Ssa 166 B 198 Æ 230 Æ
135 Esa 167 § 199 Ç 231 Ç
中國航空網 www.k6050.com
航空翻譯 www.aviation.cn
本文鏈接地址:
XML實用大全(52)