曝光臺 注意防騙
網曝天貓店富美金盛家居專營店坑蒙拐騙欺詐消費者
XML 實用大全
第 157 頁
Tidy 通過幾種不同的方式整理HTML 文件,它們并非都與XML 結構完整性有關。事實上在默認模式下,Tidy 傾向于刪除不必
要的結束標記(對HTML 而言,不是對XML),像</LI>。并且對破壞結構完整性的地方作一些修改。但是可以使用-asxml
開關指定需要結構完整的XML 輸出。例如,把index.html 文件轉換為結構完整的XML,需要從DOS 窗口或者外殼提示符下
輸入:
C:\>tidy -m -asxml index.html
-m 標志告訴Tidy 就地轉換文件。-asxml 標志告訴Tidy 把輸出的文檔格式轉化為XML 文檔。
XML 實用大全
第 158 頁
6.5 本章小結
在本章學習了如何編寫結構完整的XML。主要包括以下內容:
• XML 文檔是滿足一定結構完整性標準的一連串字符
• XML 文檔的文本分為字符數據和置標
• 注釋可為代碼加上說明文字,可能是為了自己看的注釋,也可能是通過注釋將還沒有寫好的部分注釋掉
• 使用實體引用可以在文檔中包含<、>、&、"和
• CDATA 段對于嵌有很多<、>和&字符的文檔是很有用的
• 在XML 文檔中的標記以<開始,并以>結束,而且不能出現在注釋或者CDATA 段中
• 起始標記和空標記可以包含描述元素的屬性
• HTML 文檔稍加處理會變得結構完整
在下一章將要討論如何使用非英語語言編寫XML,尤其是用與英語差別很大的語言。如阿拉伯語、漢語和希臘語。
XML 實用大全
第 159 頁
第7 章 外文和非羅馬文本
Web 是國際性的,然而在其中使用的大多數是英文,XML 正在開始改變這種狀況。XML 全面支持雙字節Unicode 字符集及其
更簡潔的描述形式。這對Web 作者來說是個好消息,因為Unicode 支持世界上每種現代文字通常使用的幾乎所有的字符。
本章將學習在計算機應用程序中如何描述國際性文本,XML 如何理解文本以及如何利用非英文軟件。
本章的主要內容包括:
• 了解非羅馬文字在網頁上的效果
• 使用文字、字符集、字體和字形
• 傳統的字符集
• 使用Unicode 字符集
• 使用Unicode 編寫XML 文件
7.1 Web 上的非羅馬文字
雖然Web 是國際化的,但它的大部分文本是英文。由于網絡的不斷擴展,還能領略到法語、西班牙語、漢語、阿拉伯語、希
伯來語、俄語、北印度語和其他語言的網頁。很多時候這些網頁沒有理想的那么多。圖7-1 是1998 年10 月一份美國信息部
宣傳雜志的封面頁面:Issues in Democracy(http//www.usia.gov/journals/itdhr/1098/ ijdr/ijdr1098.htm),是用英
文編碼顯示的俄文譯本。左上方紅色的古斯拉夫文本是一張位圖圖片文件,因此很清晰(如果懂俄語的話),還有幾個清晰
的英文單詞,如“Adobe Acrobat”。其余的大部分是加重音的羅馬元音,不是想象的古斯拉夫字母。
當使用復雜的非西方文字時,如中國或日本文字,網頁的質量會更差。圖7-2 是使用英文瀏覽器顯示JavaBeans(IDG Books,
1997,http://www.ohmsha.co.jp /data/books/contents/4-274-06271-6.htm)的日文版主頁。同樣的結果,位圖圖片顯示
了正確的日文(還有英文)文本,頁面上其余的文本除了幾個可辨認的英文單詞像JavaBeans 之外,就像是一個隨機的字符
組合。而希望看到的日文字符完全看不到。
如果使用正確的編碼和應用軟件,并安裝正確的字體,這些頁面就可以正確顯示。圖7-3 是使用古斯拉夫的Windows 1251
編碼顯示的Issues in Democracy。可以看到圖片下面的文本是可讀的(如果懂俄語的話)。
可以從Netscape Navigator 或Internet Explorer 的View/Encoding(視圖/編碼)菜單中為網頁選取編碼方式。在理想情
況下,網絡服務器會告訴網絡瀏覽器使用何種編碼,同時Web 瀏覽器會接受。如果網絡服務器能向網絡瀏覽器傳送顯示頁面
的字體就更好。事實上,經常需要人工選擇編碼方式。當原稿有幾種編碼時,不得不嘗試多個編碼直至找到特別合適的一個。
例如,一張古斯拉夫頁面能用Windows 1251、ISO 8859-5 或者KOI6-R 編碼。選擇錯誤的編碼可能會顯示古斯拉夫字母,但
單詞將是不知所云、毫無意義的。
XML 實用大全
第 160 頁
圖7-1 用一種羅馬文字觀看的1998 年10 月版關于探討民主政治的俄文譯本
圖7-2 用英文瀏覽器看到的JavaBeans 的日文翻譯頁面
XML 實用大全
第 161 頁
圖7-3 使用古斯拉夫文字看到的Issues of Democracy
即使能夠指定編碼,也不能確保有顯示它的字體。圖7-4 是使用日文編碼的JavaBeans 日文主頁,但是在計算機中卻沒有任
何一種日文字體。文本中的多數字符顯示成方框,表明這是一個得不到的字符輪廓。幸運的是,Netscape Navigator 能夠
辨認出頁面上的雙字節日文字符和兩個單字節的西文字符。
圖7-4 在沒有必需的日文字體的情況下所顯示的JavaBeans 日文譯本
如果有一種日本地方語言操作系統版本,它包含必要的字體或者別的軟件,如Apple 的Japanese Language Kit 或南極星
的 NJWin(http://www.njstar.com/),這樣就可以看到文本,大致如圖7-5 所示。
XML 實用大全
第 162 頁
圖7-5 在安裝有所要的日文字體的瀏覽器上顯示的JavaBeans 譯文
當然,所使用的字體質量越高,文本的效果看起來就越好。中文和日文的字體非常龐大(中文有大約80, 000 多個漢字),
而且單個文字間的差別很小。日文出版商比西方出版商對紙張和打印技術的要求更高,以保持必要的細節打印日文字符。遺
憾的是一個72-dpi 的計算機顯示器不能很好地顯示中文和日文字符,除非使用很大的字體。
由于每個頁面只能有一種編碼,因而要編寫集成了多種文字的網頁,如對中文的法文注釋,是非常困難的。由于這一原因,
網絡界需要一種單一的、通用的字符集,使所有計算機和網絡瀏覽器能顯示網頁中的所有字符。目前仍然沒有這樣的字符集,
XML 和Unicode 是最好的。
XML 文件是用Unicode 編寫的,這種雙字節字符能表示世界各國語言中大部分的字符。如果網頁是用Unicode 編寫的XML 網
中國航空網 www.k6050.com
航空翻譯 www.aviation.cn
本文鏈接地址:
XML實用大全(50)