曝光臺 注意防騙
網曝天貓店富美金盛家居專營店坑蒙拐騙欺詐消費者
(2) 差異表法[38]。該算法簡單、直觀,可以用關系數據庫實現。
(3) 逐列消除法[39]。該算法對一致的決策表系統非常有效,不依賴于系統的
分辨矩陣,效率高,也易于用在關系數據庫中實現。
一般來講,一個決策表的條件屬性對于決策屬性的相對約簡不是唯一的,
即對于同一個決策表可能存在多個相對約簡。目前屬性約簡算法主要有:一般
約簡算法,改進的基于分辨矩陣和邏輯運算的屬性約簡算法,歸納式屬性約簡
算法,基于互信息的屬性約簡算法[MIBARK 算法],基于特征選擇的屬性約簡算
法等。各種算法之間的聯系和區別參見文獻[36],[41]。這里重點介紹一下本文
使用的改進的基于分辨矩陣和邏輯運算的屬性約簡算法。
設Redu 是決策表T 屬性約簡后得到的屬性集合,該算法描述如下:
第1 步:將核屬性列入屬性約簡后得到的屬性集合,即Redu= 0 C ;
第2 步:在可變識矩陣中找出所有不包含核屬性的屬性組合S,即
Q= {Bi:Bi∩Redu ≠ ∅,i=1,2,…,s}, S=S-Q ;
第3 步:將屬性組合S 表示為合取范式的形式,即
P= , { : ( 1,2, , ; 1,2, , )} i k ∧ ∨b i= …sk= …m ;
第4 步:將P 轉化成析取范式形式;
第5 步:根據需要選擇滿意的屬性組合。例如,如果要求屬性數最少,可以
直接選擇合取式中屬性數最少的組合;如果要求規則最簡,則需要進一步進行
屬性值的約簡。
3.2.3 Rough 集理論的屬性值約簡
通過屬性約簡,可以將決策表中對決策分類不必要的屬性忽略,從而實現決
策表的簡化,但是,屬性約簡只是一定程度上去掉了決策表中的冗余屬性,我
24
們還需要進一步對決策表進行處理,得到更加簡化的決策表,這就是我們說的
屬性值約簡。Rough 集理論還具有從信息表中提取規則知識的能力,事實上,對
信息表就行屬性值約簡的過程正是利用Rough 集理論提取規則的過程。
分析屬性值約簡,我們可以從值核入手。所謂值核是指,在信息表中的每
條記錄中尋找對得出決策影響最大的屬性值。目前屬性值約簡算法主要有:一
般值約簡算法(數據分析法),歸納值算法,啟發式值約簡算法,基于決策矩陣
的值約簡算法等。各種算法的比較參見文獻[36],[42]。由于救援輔助決策系統
的數據大多存儲在關系數據庫中,本文著重介紹易于在關系數據庫中實現的啟
發式值約簡算法。假設約簡屬性后的決策表為T′ ,算法描述如下:
第1 步:對T′ 中的每條記錄進行逐列考察。若刪除該列后產生沖突記錄,則
保留沖突記錄的原該屬性值;否則,如果有重復記錄,則將重復記錄的該屬性
值標記為'*';對于其他記錄,將該屬性值標記為'?'。
第2 步:刪除可能產生的重復記錄,并考察每條含有標記'?'的記錄。若僅
由未被標記的屬性值即可判斷出決策,則將標記'?'改為'*';否則,將標記'?'
改為原屬性值;若某條記錄的所有條件屬性均被標記,則標記'?'改為原屬性值。
第3 步:刪除所有條件屬性均被標記為'*'的記錄及可能產生的重復記錄。
第4 步:如果兩條記錄僅有一個條件屬性值不同,且其中一條記錄該屬性被
標記為'*',那么,對該紀錄如果可由未被標記的屬性值判斷出決策,則刪除另
外一條記錄;否則,刪除本記錄。
3.2.4 Rough 集理論解決問題的一般過程
利用Rough 集理論進行知識約簡(屬性約簡和屬性值約簡)的一般步驟如下:
(1) 數據預處理(決策表補齊,決策表離散化)
對于不完備的信息表,需要將其補齊成完備的信息表。目前常用的決策表
補齊算法主要有Mean Completer 算法, Combinatorial Completer 算法,
ROUSDITA 算法等。如果某些條件屬性或決策屬性的值域為連續值(如浮點型數
據),則在處理前必須進行離散化處理,對于有些離散數據,有時也需要將離散
值進行更高層次的離散化。目前常用的離散化算法有等距離劃分法,等頻率劃
分法,Semi Naïve Scaler 算法,布爾邏輯和Rough 集理論相結合的離散化算
法,基于斷點重要性的離散化算法,基于屬性重要性的離散化算法等。各種算
法詳細介紹參見文獻[35],[36]。
(2) 決策表屬性約簡
首先檢查決策表的一致性,如果決策表不一致,則將其轉化成一致的決策
25
表。然后,根據不同的條件環境以及人們對屬性約簡的要求和期望的實際情況,
選擇不同的屬性約簡算法,使得到的約簡結果盡可能的少并且符合人們的期望。
(3) 決策表值約簡
在屬性約簡的基礎上,采用合適的值約簡算法進一步簡化決策表,從決策
表中提取出決策規則。
3.2.5 利用Rough 集理論時要注意的問題
利用Rough 集理論可以從歷史數據中提取出決策規則,可以用這些提取出來
的規則可以輔助決策者對未來事件做出決策。但是,在智能信息的實際處理過
程中,經常遇到對事物的描述(決策屬性)是定性的和定量的混合使用,表達可
能層次分明,也可能雜亂無序,定性的概念還可能是模糊的,定量的數據也可
能是不確定的等。具體說來主要有以下幾個方面的問題:
① 決策系統中的數據類型通常多種多樣。
② 決策系統中的數據有可能不完整(不完備)。
③ 決策系統中的數據有可能相矛盾(不相容)。
④ 決策系統的數據量往往是動態增加的。
對于前三個問題,我們需要在數據預處理階段予以解決。如果數據類型多種
多樣,那么就要進行離散歸一化處理;如果數據不完整,就要進行決策表補齊;
如果數據不相容,就要根據實際要求進行去噪聲處理。各種情況的具體討論和
研究請查閱相關文獻。
對于第四個問題,由于決策系統中的數據量動態增加,那么對應的決策規則
也應該隨之變化。但是,我們不可能在數據記錄每增加一條,就將整個知識約
簡過程再進行一次以提取新的決策規則,這樣做耗時耗力,效率低下。對于數
據量不斷增加的決策系統,比較合理的解決辦法是增量式知識獲取算法[43]。該
算法的主要思想(對于一條新加入的記錄)如下:
中國航空網 www.k6050.com
航空翻譯 www.aviation.cn
本文鏈接地址:
民用機場應急救援管理系統關鍵技術研究(8)