曝光臺 注意防騙
網曝天貓店富美金盛家居專營店坑蒙拐騙欺詐消費者
頁,而且所用的瀏覽器懂得Unicode,如XML 瀏覽器,那么就可以在同一頁面中包含不同語種的字符。
瀏覽器不需要區分不同的編碼,如Windows 1251、ISO 8859-5 或者KOI8-R。瀏覽器假定網頁都是用Unicode 編寫的。只要
雙字節字符集有容納不同字符的余地,就不需要使用多種字符集。因此,瀏覽器也不必檢測使用的是哪一種字符集。
XML 實用大全
第 163 頁
.2 文字、字符集、字體和字形
大部分現代人類語言都有各自的書寫形式。用于書寫一種語言的字符集稱為一種文字。文字可以是語音字母表,也可以不是。
例如,漢語、日語和韓語由能夠表示整個詞匯的表意文字字符組成。不同語言經常共用一些文字,或者有一些細小的改動。
例如,漢語、日語和韓語實質上共用相同的80,000 多個漢字,盡管大多數字符在不同的語言中表示的意義不同。
單詞Script 也經常用來指用非類型化和非解釋語言寫的程序,如JavaScript、Perl 和TCL。本章中的Script
指書寫一種語言使用的字符,不是指任何一種程序。
一些語言能用不同的文字表達。塞爾維亞語和克羅地亞語實際是相同的,通常被稱作Serbo-Croatian。但是,塞爾維亞語
使用經過修改的古斯拉夫文字,克羅地亞語則使用經過修改的羅馬文字。只要計算機不想得到所處理的文字的意義,處理一
種文字和處理用這種文字所編寫的任何一種語言都是相同的。
遺憾的是,單獨的XML 無法讀取一種文字,計算機要處理一種文字需要四個要素:
1. 與文字對應的一種字符集
2. 用于該字符集的一種字體
3. 該字符集的一種輸入方法
4. 理解該字符集的一個操作系統或應用程序
這四個要素只要缺少其中之一,就不能在這種文字環境下工作,盡管XML 能夠提供一個足可以應急的工作環境。如果在應用
過程中只丟失了輸入法,還能夠讀取用該文字寫的文本,只是不能用這種文字書寫文本。
7.2.1 文字的字符集
計算機只懂得數字。在它處理文本之前,必須用一種特定的字符集將文本編碼成數字。例如,在大家熟知的ASCII 字符集中,
‘A’的編碼是65,‘B’的編碼是66,‘C’的編碼是67,以此類推。
這些是語意學編碼,不提供樣式或者字體信息。C、C 或C 的編碼都是67。有關如何畫出字符的信息存儲在別處。
7.2.2 字符集的字體
字符集所采用的各種字形的總和形成一種字體,通常包括一定的尺寸、外觀和風格。例如C、C 或C 是同一字符,只是書寫
的形狀不一樣,但其意義是相同的。
不同的系統存儲字形的方式不一樣。它們可能是位圖或矢量圖,甚至是印刷廠中的鉛字。它們采用的形式與我們無關,關鍵
是字體可以告訴計算機如何從字符集中調出每一個字符。
7.2.3 字符集的輸入法
輸入文本需要一種輸入法,講英語的人不需要考慮它,只要敲擊鍵盤就可以輸入。在大部分歐洲國家也一樣,只需要在鍵盤
上附加幾個元音變音、變音符號。
基本上,古斯拉夫語、希伯來語、阿拉伯語和希臘語比較難輸入。鍵盤上的按鍵數目有限,一般不夠阿拉伯和羅馬字符,或
者是羅馬和希臘字符使用。假定需要兩種字符,鍵盤上有一個希臘字符鎖定鍵能使鍵盤在羅馬字符和希臘字符之間來回切換,
XML 實用大全
第 164 頁
那么希臘字符和羅馬字符就能以不同的顏色印在鍵盤上。這個方案同樣適用于希伯來語、阿拉伯語、古斯拉夫語和其他非羅
馬字符集。
當碰到表意文字如漢語和日語時,上述方法確實不管用。日語的鍵盤可容納大約5000 個不同的鍵,但還不到日語的10%!
音節、語音和部首表示法能夠減少按鍵的數目,但是鍵盤是否適合輸入這些語種的文本呢?同西方相比,正確的語音和手寫
體識別在亞洲有更大的潛力。
語音和手寫體識別還沒有達到足可以讓人信賴的程度,目前輸入單個字符的方法大部分是使用鍵盤上的多個鍵序列。例如,
輸入漢語的“羊”字,必須按下ALT 鍵并按帶有(~)的鍵,然后輸入yang,單擊回車鍵。這種輸入方法會顯示出一列發音
與yang 差不多的漢字。例如:
佯楊易暘楊洋瘍羊詳錫陽
接下來就可以選擇需要的那個字符“羊”。對于不同的程序、不同的操作系統和不同的語言如何把鍵入的鍵值轉換成文字字
符,如“羊”所使用的GUI(圖形用戶界面)和翻譯系統的細節是不同的。
7.2.4 操作系統和應用軟件
主要的Web 瀏覽器(Netscape Navigator 和Internet Explorer)能很好地顯示非羅馬文字。如果潛在的操作系統支持給定
的一種文字并存儲有相應的字體,Web 瀏覽器就能夠顯示這種文字。
MacOS 7.1 及其新版本能夠處理當今世界上常見的多數文字。但是基本操作系統僅支持西方歐洲語言。漢語、日語、韓語、
阿拉伯語、希伯來語和古斯拉夫語只能從語言工具中獲得,每一種100 美元。同時提供相應語言的字體和輸入法。也有印度
語工具包,用來處理印度次大陸上常見的梵文、吉吉拉特語和Gurmukhu 文字。MacOS 8.5 增加了對Unicode 可選而有限的
支持(多數應用軟件都不支持Unicode)。
Windows NT 4.0 把Unicode 當作本身的字符集使用。NT 4.0 能夠很好地處理羅馬語、古斯拉夫語、希臘語、希伯來語和其
他幾種語言。Lucida Sans Unicode 字體覆蓋了最常用的1300 種Unicode 中的大約40,000 多個字符。Microsoft Office 97
包括漢語、日語和韓語字體,可以安裝它來讀取這些語言的文本(在你的Office CD-ROM 上查詢Valupack 文件夾中的Fareast
文件夾)。
微軟宣稱Windows 2000(以前稱為NT 5.0)將包含能覆蓋大部分中-日-韓文字的字體和相應的輸入法。但是他們同樣許諾
過Windows 95 包含Unicode 支持軟件,盡管失敗了。因此不必焦慮等待。當然,如果所有的NT 版本能夠提供世界性的支持
軟件是非常好的,就不必再依賴于本地化了。
微軟的消費類操作系統,如Windows 3.1、95 和98 不完全支持Unicode。相反它們需要依靠能處理基本英文字符和本地化
文字的本地化系統。
主要的Unix 變體包含不同等級的Unicode 支持軟件。Solaris 2.6 支持歐洲語言、希臘語和古斯拉夫語。漢語、日語和韓
中國航空網 www.k6050.com
航空翻譯 www.aviation.cn
本文鏈接地址:
XML實用大全(51)