曝光臺 注意防騙
網曝天貓店富美金盛家居專營店坑蒙拐騙欺詐消費者
續表
文 字 范 圍 目 的
古斯拉夫 1024-1279
基于ISO 8859-5 上的語言,俄語和多數斯拉夫語(烏克蘭語、Byelorussian 等),
前蘇聯的許多非斯拉夫語言(Azerbaijani,Ossetian,卡巴爾德
語,Chechen,Tajik 等).幾種語言(庫爾德語,阿布哈西亞語)需要Latin 和古斯
拉夫字母
美國 1326-1423 美語
希伯來 1424-1535 希伯來語(古典和現代)、依地語、Judezmo、早期美語。
阿拉伯 1536-1791 阿拉伯語,波斯語、Pashto、Sindhi、庫爾德語和早期土耳其語
梵文字母 2304-2431
梵語,北印度語,尼泊爾語和印度次大陸語言,包括:
Awadhi,Bagheli,Bhatneri,Bhili,Bihari,BrajBhasha,
Chhattisgarhi,Garhwali,Gondi,Harauti,Ho,Jaipuri,
KachchhiKanauji,Konkani,Kului,Kumaoni,Kurku,Kurukh,
Marwari,Mundari,Newari,Palpa,and Santali
孟加拉語 2432-2559
一種北印度文字,使用于印度的西孟加拉州和孟加拉國的孟加拉語、阿薩姆語、
Daphla、Garo、Hallam、Khasi、Manipuri、
Mizo、Naga、Munda、Rian、Santali
Gurmukhi 2560-2687 Punjabi
Gujarati 2686-2815 Gujarati
Oriya 2816-2943 Oriya、Khondi、Santali
泰米爾語 2944-3071 泰米爾語和Badaga、使用于南印度、斯里蘭卡、新加坡和馬來西亞部分地區
Telugu 3072-3199 Telugu、Gondi、Lambadi
埃納德語 3200-3327 埃納德語、Tulu
Malalayam 3326-3455 Malalayam
泰國語 3584-3711 泰國語、Kuy、Lavna、巴利語
老撾語 3712-3839 老撾語
西藏語 3840-4031 喜瑪拉雅語包括西藏語、Ladakhi 和Lahuli
喬治亞語 4256-4351 喬治亞語,黑海邊喬治亞前蘇維埃共和國語
Hangul Jamo 4352-4607 朝鮮、韓國音節的字母組成部分
Latin 的附加擴展集 7680-7935
標準的Latin 字母如E 和Y 與可識別的記號組合在一起,除了用于越南語元音
中,很少使用
希臘語擴展集 7936-8191 希臘字母與可識別記號的組合,用于正統的希臘語中
通用的標點符號 8192-8303 各種標點符號
上標和下標 8304-8351 普通的上標和下標
貨幣符號 8352-8399 貨幣符號,一般在別的地方找不到
用于符號的組合記號 8400-8447 給多個字符做記號
像字母的符號 8446-8527 像字母的符號,如™
數表 8526-8591 分數和羅馬數字
箭頭符號 8592-8703 箭頭符號
數學符號 8704-8959 不常出現的數學運算符
XML 實用大全
第 173 頁
技術雜項 8960-9039 APL 編程語言需要的符號和其他各種技術符號
控制圖形 9216-9279 ASCII 控制字符圖形,常用于調試
光學字符識別 9280-9311 在打印支票上的OCR-A(光學字符識別)和MICR(磁性墨水字符識別)符號
續表
文 字 范 圍 目 的
附加字符 9312-9471 放在圓和括號中的字母和數字
畫方框字符 9472-9599 用于在等間距終端上畫方框的字符
塊元素 9600-9631 用于DOS 和其他用途的等間距終端圖形
幾何形狀 9632-9727 正方形、菱形、三角形等
雜項符號 9726-9983 紙牌、象棋、占卜等
Dingbats 9984-10175 Zapf Dingbat 字符
CJK 符號和標點 12286-12351 用于中國\日本和韓國的標點符號
平假名 12352-12447 日文字母的草體.
片假名 12446-12543 非草體的日文字母,通常用于西方的外來詞匯,像"keyboard"
漢語拼音字母 12544-12591 中國的發音字母表
Hangul Compatibility Jamo 12592-12687 與KSC 5601 代碼兼容的韓國字符
Kanbun 12686-12703 在日文中用于指示古典中文的閱讀順序的記號
括起來的CJK 字母和月份 12800-13055 用圓和括號括起來的Hangul 和片假名字符
CJK Compatibility 13056-13311 只用于編碼KSC 5601 和CNS 11643 的字符
統一的CJK 象形文字 19966-40959 用于中文、日文和韓文的Han 象形文字
Hangul 音節 44032-55203 一種韓國音節
Surrogates 55296-57343 目前還不能使用,將來可用于擴展Unicode,使它包括超過百萬的字符
個人使用 57344-63743 軟件開發者可以在此包含自己的術語,與正在執行的字符不同
CJK 兼容性象形文字 63744-64255 為了保持與現有的標準的一致性如KSC 5601,而使用的一些漢字象形文字
字母的表現方式 64256-64335 使用于Latin、美語和希伯來語中的連字和變種
阿拉伯表象形式 64336-65023 各種阿拉伯字符的變種
組合半記號 65056-65071 把跨越多個字符的多個可識別記號連成一個可識別的記號
CJK 兼容性形式 65072-65103 用于臺灣漢字象形文字
小型變種 65104-65135 用于臺灣的ASCII 標點符號的小的版本
附加的阿拉伯表象形式 65136-65279 各種阿拉伯字符變種
半寬和全寬形式 65280-65519 能夠在中文和日文的不同代碼間轉換的字符
特殊字符 65520-65535 字節順序記號和零寬度的非中斷性空格,常用于Unicode 文件的開始
7.4.1 UTF-8
Unicode 使用雙字節表示一個字符,因此使用Unicode 的英文文本文件大小是使用ASCII 碼或Latin-1 文件的兩倍。UTF-8
是一個壓縮的Unicode 版本,使用單個字節表示最常用的字符,即0 到127 的ASCII 字符,較少見的字符使用三個字節表示,
特制是韓國音節和漢字。如果主要使用英文,UTF-8 能夠將文件壓縮為原來的一半。如果主要使用漢語、朝語或者日語,UTF-8
會使文件的尺寸增加50%��因此應當謹慎使用UTF-8。UTF-8 幾乎不能處理非羅馬文字和非CJK 文字,如希臘語、阿
拉伯語、古斯拉夫語和希伯來語。
XML 實用大全
第 174 頁
XML 處理器在沒有被預先通知的情況下假定文本數據是UTF-8 格式。這意味著XML 處理器能夠閱讀ASCII 碼文件,但是使用
它處理其他格式的文件像MacRoman 或者 Latin-1 會有困難。我們很快就能學會如何在短時間內解決這個問題。
7.4.2 通用字符系統
Unicode 因為沒有包含足夠多的語言和文字而受到批評,特別是亞洲東部的語言。它只定義了中國、日本、朝鮮和古越南使
中國航空網 www.k6050.com
航空翻譯 www.aviation.cn
本文鏈接地址:
XML實用大全(55)