曝光臺 注意防騙
網曝天貓店富美金盛家居專營店坑蒙拐騙欺詐消費者
(2) 應用程序檢測到的錯誤
當應用程序在D o c u m e n t H a n d l e r方法中檢測到一個錯誤(例如一個錯誤格式的日期),
D o c u m e n t H a n d l e r方法會產生一個S A X E x c e p t i o n,它包含對問題進行解釋的適當消息。此后,解
析器就像它自己檢測到錯誤一樣進行恰當地處理。一般來說,它不會去捕獲這個例外,而是相
同的例外立即從parse( )方法中退出,這樣高層應用程序就可以捕獲例外。
(3) 確定錯誤發生的位置
當解析器檢測到一個X M L語法錯誤,它將在S A XPa r s e E x c e p t i o n對象里提供錯誤的詳細信息。
這個對象包括錯誤所在的U R L、行、列(行號本身沒有多大用處,因為錯誤可能是在一些外部
實例而不是主文檔里)。當在應用程序里捕獲到S A XPa r s e E x c e p t i o n,你就可以抽取這些信息展
示給用戶以定位錯誤。
如果X M L文件相關的錯誤是在應用程序級被檢測到(例如一個無效的日期),那么告知用戶
錯誤發生的位置也同等重要,這時你就不能依賴S A XPa r s e E x c e p t i o n去定位錯誤,而是由S A X定
義一個L o c a t o r接口。S A X規范并不要求解析器提供一個L o c a t o r,但是大多數解析器提供。
在文檔處理器里必須實現的一個方法是setLocator( )方法。如果解析器持有定位信息,它將
調用setLocator( )方法告知文檔處理器L o c a t o r對象的位置。在文檔處理器處理時間后的任何時候
它都可以查詢L o c a t o r對象以得到源文檔中當前坐標的詳細信息。總共有三種坐標:
• 文檔或當前處理的外部實體的U R L。
• URL里的行號。
第6章SAX 1.0: XML簡易API使用157 下載
• 行里的列號。
所有相同的信息你當然也可以從S A X P a r s e E x c e p t i o n對象里獲取,實際上當應用程序檢測到
錯誤時可以很容易做到的一件事就是產生一個S A X P a r s e E x c e p t i o n,由S A X P a r s e E x c e p t i o n直接從
L o c a t o r對象里得到坐標信息—只要寫下列語句:
為什么不簡單地把定位信息包含于如s t a r t E l e m e n t ( )等要傳遞給文檔處理器的事件里呢?原因
是效率:大多數應用程序只想得到出錯時的定位信息,這樣當不需要有關信息時可以有最小的
開銷。從解析器到文檔處理器的每個調用都提供定位信息是不必要的過多開銷。
5. 另一個使用字符數據和屬性的例子
了解完錯誤處理過程后,讓我們開發一個稍微復雜一些的S A X應用程序實例。
現在應用程序的任務是輸出目錄中科幻書籍的平均價格。我們采用和前面實例相同的數據
文件(b o o k s . x m l)。
我們只關心那些含有c a t e g o r y = " f i c t i o n "屬性的< b o o k >元素,而且對這些元素只需要知道它
< p r i c e >子元素的內容。先累加價格,然后清點書的數量,最后用總價格除以書的總數。
下面是應用程序的最初版本:
程序清單6 - 1 0
158使用XML 高級編程
下載
在這段代碼中主要有三個要點:
• 應用程序需要保持一些上下文信息,即當前書目是否是科幻書籍。使用一個實體變量記錄
有關情況,當遇到科幻書目的開始標簽時就設置i s F i c t i o n為真,而遇到非科幻書目的開始
標簽時就設置i s F i c t i o n為假。
• 注意字符內容如何在Java StringBuff e r里累加,直到endElement( )事件通知時才被真正處理。
這可以一舉兩得:解決了單個元素內容可能會被分解而分別通知的問題;同時意味著當處
理數據時,我們可以知道正在處理哪個元素。任何讀到開始和結束標簽時S t r i n g B u ff e r置為
空,即當應用程序遇到P C D ATA元素(只包含字符數據的元素)的結束標簽時,緩沖區里
將包含該元素的字符數據。
• 當書目的價格不是一個有效數字時應用程序需要做一些智能判斷。(除非X M L綱要被標準
化,不能指望讓解析器做這些確認工作: D T D沒有提供在元素中限制字符數據的數據類型
第6章SAX 1.0: XML簡易API使用159 下載
的方法。)通過將字符串轉換為數值的J a v a構造器Double (String s)報告一個例外可以發現
這種情況。有關代碼捕獲這個例外,發布一個描述錯誤的S A X E x c e p t i o n。然后用適當的錯
誤消息終止解析過程。
• 對X M L實例文件運行代碼,產生下列輸出:
但是程序還不是完美無缺的。
首先,如果輸入文檔不是期望的結構,程序很容易運行失敗。例如如果< p r i c e >元素在
< b o o k >之外出現,或者< b o o k >中沒有< p r i c e >元素,或者< p r i c e >元素有自己的子元素,程序都會
給出錯誤的答案。這些情況都可能會出現,因為沒有D T D,或者是因為使用了不檢查D T D的非
確認解析器,或者是因為文檔被用非期望的其他D T D提交,或者是因為在程序寫完之后D T D已
經被增強了。
其次,檢測到錯誤時的診斷信息很不友好。用戶將被告知某個書目價格不是數值,但是在
列表中可能有成千上百的書目:明確是哪個書目會更好一些。在一次程序運行中報告所有的錯
誤甚至會更有幫助,這樣用戶就不需要為每發現和糾正一個錯誤去運行一次程序。(實際上大多
數X M L解析器在一次運行中只報告一個語法錯誤,這限制了我們目前只能如此)。
在下一節里會看到如何保持更多關于元素上下文的信息,如果要做更全面的有效性確認,
這些信息是必要的。在此之前,先改進一下錯誤處理過程。使用L o c a t o r對象確定在源文檔中錯
誤發生的位置并據此報告。為了清楚地說明處理過程,我們用IBM Alphaworks的x m l 4 j解析器代
替James Clark的x p解析器,它可以提供更清晰的信息。下面是修改過的程序:
程序清單6 - 11
160使用XML 高級編程
下載
第6章SAX 1.0: XML簡易API使用161 下載
這個版本通過一點額外操作改進了診斷信息。修改后的應用程序做了三件事情:
中國航空網 www.k6050.com
航空翻譯 www.aviation.cn
本文鏈接地址:
XML高級編程上(61)