亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數據流中基于模式發(fā)現(xiàn)的貝葉斯分類器的制作方法

文檔序號:12748048閱讀:來源:國知局

技術特征:

1.數據流中基于模式發(fā)現(xiàn)的貝葉斯分類器,其特征在于:數據流中基于模式發(fā)現(xiàn)的貝葉斯分類器主要有兩個階段組成:模式發(fā)現(xiàn)階段和建立分類器階段,為建立數據流中基于模式的貝葉斯分類模型,本發(fā)明提出了一個單次掃描算法FFI使用滑動窗口模型用于在連續(xù)數據流上挖掘頻繁項集,其具體步驟包括如下:

(1)數據流上的模式發(fā)現(xiàn)

作為建立基于模式的貝葉斯分類模型,提出了基于DSM-FI使用滑動窗口模型的單次掃描算法FFI(Find frequent itemset from data stream)用于在連續(xù)數據流上挖掘頻繁項集,

FFI算法使用滑動窗口模型來獲取流數據,對于當前窗口SW=(T1,T2,...,Tw),其中w是滑動窗口的大小;FFI讀取事務Ti,并將其類標ci∈C進行劃分,對不同劃分的事務集分別建立混合樹結構對于項集的抽取也是按類標在不同的HTSi中分別進行抽取的;主要包括以下步驟:

1)FFI算法讀取當前窗口中的事務,并且按事務的類標值對事務進行劃分;

2)FFI算法建立混合樹結構HTS來存儲當前窗口中事務的所有項;根據事務的劃分結果將事務加入到不同的混合結構中;

3)當窗口中的事務發(fā)現(xiàn)變化時(新的事務到來舊的事務被丟棄),F(xiàn)FI算法需對混合樹結構HTS進行修剪,刪除不在當前窗口中事務的信息;

4)當有分類請求時,根據待分類實例T在混合樹結構HTS={HTSi}中分別選擇頻繁項集集合;

具體說來,給定的數據流DS包含屬性A1,A2,A3,A4,...,An和類屬性C;ci是任意的類屬性值,Ttest={x1,x2,...,xn}是待分類實例;當有分類請求時,根據待分類實例Ttest={x1,x2,...,xn}分別在混合結構HTS={HTSi}中抽取與待分類實例具有相同項的項集集合;

(2)建立分類器階段

該方法是半懶惰式的,只有當有待分類請求時才對待分類實例建立特定的分類模型;算法使用在數據流中抽取的頻繁模式來估計貝葉斯概率,在屬性獨立假設下依照條件獨立模型建立乘積近似值;用于建立乘積近似值的項集必須滿足下列要求:

1)抽取的項集之間不包含重復的項

兩個項集包含重復的項即這兩個項集的所有項的集合之間存在交集;如果選擇的項集之間存在重復的項則構建的乘積近似值將不滿足屬性獨立假設,因為乘積項所表示的屬性集合之間存在交集;

2)選擇盡可能長的項集

項集的長度是指項集中包含項的個數;在抽取不包含重復項的前提下抽取的項集越長則乘積近似值中包含的乘積項就越少;所以建立的乘積近似值就越加符合屬性獨立假設;同時,在估計聯(lián)合概率是也會將越多的屬性依賴關系考慮進去;

3)選擇盡可能覆蓋待分類實例的項集集合

由于數據流是無限的而算法只能使用有限的內存,當有待分類實例到來時,算法不能遍歷整個數據集來抽取項集;另外,由于數據流是動態(tài)的,數據的底層分布可能隨時變化即存在概率漂移的情況,若發(fā)生概念漂移歷史數據將不再適用于當前情況,所以近期的數據的重要性要大于歷史數據;使用最近的數據建立分類模型也保證了分類模型在一定程度上避免了概率漂移的發(fā)生,因為它受到歷史數據干擾較?。贿@些情況表明了在數據流上數據挖掘中可能存在抽取的項集集合不能夠完全覆蓋待分類實例的情況;

4)項集的最小集合

最小是指集合中包含的元素(即項集)個數最少;在盡可能抽取到足夠多的項的情況下希望抽取到的項集集合是最小集,即希望組成乘積近似值的乘積項盡可能的少;這樣可以最小化獨立假設的數量,從而使得乘積近似值更加符合條件獨立模型;

分類器的訓練階段的主要工作是處理數據,即抽取并維護事務中頻繁或非頻繁項以方便后續(xù)分類模型的建立;所以在這一階段的主要任務是建立混合樹結構,當有新的數據生成時更新滑動窗口和相應的混合樹結構;當有分類請求時,PDSB抽取盡可能包含待分類實例所有項的頻繁項集集合來估計貝葉斯理論中的概率。

當前第2頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1