本發(fā)明屬于醫(yī)療數(shù)據(jù)分析
技術(shù)領(lǐng)域:
:,尤其涉及一種基于動(dòng)態(tài)優(yōu)化模糊模式算法的醫(yī)療數(shù)據(jù)不確定性分析方法。
背景技術(shù):
::大規(guī)模數(shù)據(jù)集中挖掘潛在有用但隱藏的信息是模式挖掘的主要目標(biāo)。傳統(tǒng)的模式挖掘方法,主要包括Apriori(Agrawaletal.,1993)和FP-growth(Hanetal.,2004)算法。并且這兩種算法的特征和性質(zhì)已經(jīng)被廣泛的應(yīng)用到其他研究工作中(Tsengetal.,2013;Zhongetal.,2012;Linetal.,2011;Liu,2012;Tsaietal.,2011;GrahneandZhu,2005;Zengetal.,2009)。但是隨著數(shù)據(jù)集的大規(guī)模增長(zhǎng),具有更高性能和滿足多目標(biāo)需求的算法不斷被提出,其中包括連續(xù)頻繁模式(MuzammalandRaman,2015;Adamo,2012),Top-K頻繁模式(Wangetal.,2005),加權(quán)頻繁模式(Voetal.,2013;WangandZeng,2011),和高維模式(Alcala-Fdezetal.,2011;Fangetal.,2012)。其中,連續(xù)頻繁模式挖掘近期的研究考慮了事件與項(xiàng)目之間關(guān)聯(lián)的不確定性,采用概率數(shù)據(jù)庫(kù)對(duì)事物、事物之間的關(guān)聯(lián)性進(jìn)行建模并采用枚舉樹(shù)的方式對(duì)所有期望進(jìn)行序列有效性的考查。Top-K頻繁模式攜帶真實(shí)的支持度計(jì)數(shù),采用深度優(yōu)先、廣度優(yōu)先、格子粒度深度搜索等技術(shù)來(lái)提高模式挖掘的有效性。加權(quán)頻繁模式增加了事物與事物、項(xiàng)、項(xiàng)集之間的權(quán)重考量以提高模式挖掘的準(zhǔn)確性。高維模式則通過(guò)對(duì)事物的屬性、多樣性、多元性等分析,對(duì)事物特征所體現(xiàn)的高維度性進(jìn)行研究并提出剪枝算法來(lái)提高算法的有效性。上述頻繁模式挖掘方法均基于傳統(tǒng)的頻繁模式的先驗(yàn)性質(zhì):頻繁項(xiàng)集的所有非空子集也一定是頻繁的。并且要挖掘的模式均依據(jù)條件出現(xiàn)頻度需要大于指定閾值的頻繁項(xiàng)目集。然而,根據(jù)實(shí)踐經(jīng)驗(yàn),具有實(shí)踐意義的模式通常是相對(duì)頻繁的項(xiàng)目和出現(xiàn)頻率相對(duì)較低的項(xiàng)目的組合。例如,針對(duì)一個(gè)患病的病人的診斷項(xiàng)目,疾病項(xiàng)目通??缭蕉鄠€(gè)不同的科室,并且患病集合一般由常見(jiàn)病和該病人“個(gè)性化”的疾病組成。由于在醫(yī)療領(lǐng)域各個(gè)科室和專項(xiàng)之間的信息和知識(shí)是相對(duì)封閉的,通常本科室的專家只是對(duì)專業(yè)相關(guān)的疾病非常熟悉,但是病人的所得的疾病項(xiàng)目通??缭搅藥讉€(gè)科室,這就導(dǎo)致了病人需要在不同的科室之間進(jìn)行往返。因此,為了闡述大規(guī)模數(shù)據(jù)集所隱含的模式的復(fù)雜性,出現(xiàn)頻繁的項(xiàng)目和出現(xiàn)相對(duì)不頻繁的項(xiàng)目應(yīng)該綜合分析。綜上所述,在高級(jí)模式挖掘的理論和應(yīng)用中,隱藏于數(shù)據(jù)集中的有用信息的高效挖掘和使用適當(dāng)結(jié)構(gòu)進(jìn)行嵌入式信息表達(dá)都非常重要。最主要的挑戰(zhàn)是如何緩解挖掘組合爆炸問(wèn)題和確保挖掘模式結(jié)果的有效性。然而,由于存在大量的候選模式和只考慮確定值的項(xiàng)的權(quán)重限制,大多數(shù)現(xiàn)有的算法并不能完全解決這些問(wèn)題。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于提供一種基于動(dòng)態(tài)優(yōu)化模糊模式算法的醫(yī)療數(shù)據(jù)不確定性分析方法,旨在解決緩解挖掘組合爆炸問(wèn)題和確保挖掘模式結(jié)果有效的問(wèn)題。本發(fā)明是這樣實(shí)現(xiàn)的,一種基于動(dòng)態(tài)優(yōu)化模糊模式算法的醫(yī)療數(shù)據(jù)不確定性分析方法,所述基于動(dòng)態(tài)優(yōu)化模糊模式算法的醫(yī)療數(shù)據(jù)不確定性分析方法采用二階效應(yīng)的模式結(jié)構(gòu)和新的剪枝策略,包括模式感知的動(dòng)態(tài)基本模式搜索策略和FSFP-Tree陣列技術(shù);在一個(gè)完整的數(shù)據(jù)集和一個(gè)事務(wù)中,通過(guò)模糊權(quán)重的約束和屬性來(lái)反映其每個(gè)項(xiàng)的不確定性的重要性;提出的最大FSFPs挖掘算法掃描數(shù)據(jù)集一次;采用模糊模式結(jié)構(gòu):核心項(xiàng)和相應(yīng)的牽引項(xiàng)的組合,并且采用模糊支持度以及基于模糊支持度的剪枝策略來(lái)分析和挖掘隱藏在項(xiàng)目集當(dāng)中的有用信息。進(jìn)一步,所述基于動(dòng)態(tài)優(yōu)化模糊模式算法的參數(shù)有:核心項(xiàng)最小出現(xiàn)的頻度,牽引項(xiàng)最小出現(xiàn)的頻度,核心項(xiàng)最小的模糊支持度,牽引項(xiàng)出現(xiàn)的最小模糊度,全局權(quán)重,以及本地權(quán)重。進(jìn)一步,所述基于動(dòng)態(tài)優(yōu)化模糊模式算法具體包括以下步驟:刪除不能滿足最小支持度和最小權(quán)重的項(xiàng)目;每一條路徑的核心項(xiàng)集將會(huì)被確定;在當(dāng)前路徑當(dāng)中有唯一的核心項(xiàng),那么該核心項(xiàng)便是本條路徑的核心;如果部分核心項(xiàng)在路徑當(dāng)中出現(xiàn),那么則需要判斷核心當(dāng)中沒(méi)有出現(xiàn)的項(xiàng)目是否具備吸附能力;條件滿足,那么含有的核心項(xiàng)便是本條路徑的核心項(xiàng);否則,對(duì)于其他情況,選取該條路徑當(dāng)中權(quán)重最大的便是該條路徑的核心項(xiàng)集;核心項(xiàng)集選擇完之后,在FSFP-Tree插入算法中,如果剩余項(xiàng)目集當(dāng)中的某一項(xiàng)和其他分支有交集,那么在同一條路徑上的項(xiàng)目的支持度、模糊支持度需要重新計(jì)算;否則,生成一個(gè)節(jié)點(diǎn),并且設(shè)置相應(yīng)的出現(xiàn)頻度以及模糊度值,鏈接該節(jié)點(diǎn)的父節(jié)點(diǎn),并且通過(guò)節(jié)點(diǎn)鏈來(lái)鏈接該節(jié)點(diǎn);如果當(dāng)前節(jié)點(diǎn)屬于核心相集中的元素,那么在當(dāng)前路徑中包含該節(jié)點(diǎn)的核心模式應(yīng)當(dāng)被篩選出來(lái);同時(shí),如果目前所選擇的核心模式能夠同時(shí)作為其他分支的核心模式,那么則需要更新該核心模式的出現(xiàn)頻度以及相應(yīng)的模糊度值,設(shè)置當(dāng)前的核心模式為其他節(jié)點(diǎn)的父節(jié)點(diǎn),并且連接其他核心節(jié)點(diǎn)通過(guò)核心節(jié)點(diǎn)鏈;如果當(dāng)前核心模式和其他分支沒(méi)有連接,那么則設(shè)置改核心模式為當(dāng)前路徑上其他節(jié)點(diǎn)的父節(jié)點(diǎn);最終,反復(fù)遞歸調(diào)用FSFP-Tree算法直到完成建立事物數(shù)據(jù)集T中的所有事物項(xiàng)。進(jìn)一步,所述FSFP-Tree插入算法包括以下步驟:輸入:第一項(xiàng)p,coreItems,附加到coreItems的剩余項(xiàng)q,當(dāng)前事務(wù)T;輸出:更新后的FSFP樹(shù);BEGIN:T有子項(xiàng)n,并且n的項(xiàng)目名和p的項(xiàng)目名相同;那么countNumber(n)加1,計(jì)算SUP(n);否則,創(chuàng)建新的節(jié)點(diǎn)n,設(shè)置countNumber(n)的值為1,重新計(jì)算SUP(n),鏈接它的父節(jié)點(diǎn),并且通過(guò)節(jié)點(diǎn)鏈路的結(jié)構(gòu)將節(jié)點(diǎn)連接到同一個(gè)項(xiàng)目名稱;如果p∈coreItems;從當(dāng)前分支中選擇coreItems,并標(biāo)記為p’;如果T有子項(xiàng)n’,并且n’的項(xiàng)目名和p’的項(xiàng)目名相同;那么countNumber(n)加1,調(diào)整具有相coreItems的這些分支,并將這些分支指向這個(gè)共同的coreItems,且該[coreItems]為這些剩余節(jié)點(diǎn)的父節(jié)點(diǎn);否則,如果事務(wù)T有子項(xiàng)n”,并且n”∩p’≠Null;那么[coreItems]為該路徑中這些剩余節(jié)點(diǎn)的父節(jié)點(diǎn);如果q≠Null;那么遞歸地調(diào)用Insert_FSFP-Tree(q,T)函數(shù);END。進(jìn)一步,所述最大FSFP挖掘算法包括以下步驟:輸入:事務(wù)數(shù)據(jù)庫(kù)TDs;允許的項(xiàng)的最小頻率:minmum_count_number;項(xiàng)的最小支持度:λ;輸出:最大FSFPs:MFSFPs;BEGIN:計(jì)算SUP(i),之后對(duì)所有項(xiàng)按照降序方式重新排序;采用模式感知的動(dòng)態(tài)基本模式搜索策略確定基本模式集BP;基于基本模式集BP、算法1和算法2構(gòu)建TDs的FSFP樹(shù);基于新提出的陣列結(jié)構(gòu)和條件數(shù)據(jù)庫(kù)CDB構(gòu)建FSFP陣列;如果路徑pi是單一路徑,那么;通過(guò)在當(dāng)前路徑bpi和路徑pi的所有子項(xiàng)集{i}中檢查基本模式生成新的模式npi;如果SUP(npi)≧λ,并且superset_check(npi)返回值為false;那么MFSFP=MFSFP∪npi;否則:記錄MFSFP=MFSFP∪bpi;//對(duì)于多路徑;否則:對(duì)于TDs.header中的每一項(xiàng)ai;生成一個(gè)新的基于FSFP陣列結(jié)構(gòu)且在ai條件模式基頻繁項(xiàng)sfi的頻次數(shù)據(jù)集;基于相應(yīng)的支持度值按照降序方式對(duì)sfi進(jìn)行排序;調(diào)用MFSFPMining(sfi,minmum_count_number,λ)函數(shù);END。本發(fā)明提供的基于動(dòng)態(tài)優(yōu)化模糊模式算法的醫(yī)療數(shù)據(jù)不確定性分析方法,提出了基于二階效應(yīng)的模式結(jié)構(gòu)和新的剪枝策略,包括模式感知的動(dòng)態(tài)基本模式搜索策略和FSFP-Tree陣列技術(shù)。此外,在一個(gè)完整的數(shù)據(jù)集和一個(gè)事務(wù)中,通過(guò)模糊權(quán)重的約束和屬性來(lái)反映其每個(gè)項(xiàng)的不確定性的重要性;提出的最大FSFPs挖掘算法僅僅掃描數(shù)據(jù)集一次就能保證高效的挖掘性能,防止了基于剪枝策略模式抽取的開(kāi)銷,并采用模糊加權(quán)條件提高挖掘結(jié)果的可靠性;基于九個(gè)基準(zhǔn)數(shù)據(jù)集,與PADS和FPMax*算法比較,大量的實(shí)驗(yàn)結(jié)果表明,提出的新算法具有卓越的表現(xiàn)。本發(fā)明是為了發(fā)現(xiàn)與該疾病密切相關(guān)的其他疾病或者是該疾病最易誘發(fā)或者牽引出的其他疾病,而不僅僅是給出常見(jiàn)疾病之間的關(guān)聯(lián)性。本發(fā)明的高級(jí)模式挖掘?qū)撛诘碾[藏信息發(fā)現(xiàn)和有用信息的恰當(dāng)表達(dá)至關(guān)重要。本發(fā)明創(chuàng)新性的提出了模糊模式結(jié)構(gòu):核心項(xiàng)(corepattern)和相應(yīng)的牽引項(xiàng)(secondordereffectpattern)的組合,并且提出了模糊支持度以及基于模糊支持度的剪枝策略來(lái)分析和挖掘隱藏在項(xiàng)目集當(dāng)中的有用信息。本發(fā)明所提出的最大模糊模式挖掘算法能夠更加有效、更快的實(shí)現(xiàn)挖掘操作。高級(jí)模式挖掘?qū)撛诘碾[藏信息發(fā)現(xiàn)和有用信息的恰當(dāng)表達(dá)至關(guān)重要。本發(fā)明創(chuàng)新性的提出了模糊模式結(jié)構(gòu):核心項(xiàng)(corepattern)和相應(yīng)的牽引項(xiàng)(secondordereffectpattern)的組合,并且提出了模糊支持度以及基于模糊支持度的剪枝策略來(lái)分析和挖掘隱藏在項(xiàng)目集當(dāng)中的有用信息。本發(fā)明所提出的最大模糊模式挖掘算法能夠能夠更加有效、更快的實(shí)現(xiàn)挖掘操作。為了分析最大模糊模式挖掘算法的有效性,開(kāi)展了對(duì)挖掘結(jié)果、時(shí)間和空間復(fù)雜度的結(jié)果的分析,實(shí)驗(yàn)結(jié)果顯示該挖掘算法顯著的優(yōu)越于PADS和FPMax*算法。挖掘出的有效信息的數(shù)量和質(zhì)量表明,該算法更適合于處理頻繁項(xiàng)和相對(duì)出現(xiàn)次數(shù)較低的項(xiàng)目的組合。在今后的工作中,從醫(yī)學(xué)的角度,將會(huì)對(duì)比分析相對(duì)頻繁的疾病和相對(duì)較低的并發(fā)癥疾病的臨床資料,從而從醫(yī)學(xué)的角度驗(yàn)證新提出的最大模糊模式對(duì)醫(yī)療疾病發(fā)現(xiàn)的有效性;在知識(shí)發(fā)現(xiàn)的角度,將會(huì)探究核心-牽引項(xiàng)的模式結(jié)構(gòu)在高級(jí)知識(shí)挖掘中的作用以挖掘其他更有趣的新結(jié)構(gòu)和發(fā)現(xiàn)新特征。附圖說(shuō)明圖1是本發(fā)明實(shí)施例提供的基于動(dòng)態(tài)優(yōu)化模糊模式算法的醫(yī)療數(shù)據(jù)不確定性分析方法流程圖。圖2是本發(fā)明實(shí)施例提供的與已有算法的時(shí)間復(fù)雜度對(duì)比示意圖。圖3是本發(fā)明實(shí)施例提供的與已有算法的空間復(fù)雜度對(duì)比示意圖。具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。下面結(jié)合附圖對(duì)本發(fā)明的應(yīng)用原理作詳細(xì)描述。圖1的簡(jiǎn)要描述:首先該算法通過(guò)考察項(xiàng)目的模糊支持度和最小出現(xiàn)的頻度,來(lái)確立應(yīng)該出現(xiàn)在動(dòng)態(tài)模糊模式中的項(xiàng),對(duì)不滿足條件的項(xiàng)目予以刪除;對(duì)于滿足條件的項(xiàng)目,按照其模糊支持度進(jìn)行降序排列,并且采用動(dòng)態(tài)核心模式搜索策略來(lái)確立動(dòng)態(tài)模糊模式的核心項(xiàng)集。其次,創(chuàng)建FSFP樹(shù)的結(jié)構(gòu)和根節(jié)點(diǎn),并且插入FSFP樹(shù)的每一個(gè)分支來(lái)確立FSFP樹(shù)。FSFP樹(shù)的分支分為三種情況:當(dāng)前分支無(wú)核心項(xiàng);當(dāng)前分支只有一個(gè)核心項(xiàng);當(dāng)前分支存在多個(gè)核心項(xiàng);分別采用相應(yīng)的處理策略來(lái)這三種情況并且確立當(dāng)前分支中的核心項(xiàng)和所被核心項(xiàng)牽引的吸附項(xiàng)。再次,結(jié)合項(xiàng)目和事物的排序表以及項(xiàng)目的插入算法來(lái)確立最終的動(dòng)態(tài)優(yōu)化模糊模式。對(duì)于圖2和圖3的說(shuō)明如下:本發(fā)明所提出的算法對(duì)所有的數(shù)據(jù)集都具有最好的時(shí)間性能。算法的時(shí)間復(fù)雜度結(jié)果對(duì)比見(jiàn)圖2。根據(jù)對(duì)時(shí)間復(fù)雜度的整體分析,提出的動(dòng)態(tài)模糊優(yōu)化模式挖掘算法在任何參數(shù)設(shè)置下相比FPMax*(GrahneandZhu,2005)和PADS(Zengetal.,2009)算法都具有最好的時(shí)間性能。同時(shí),由于模糊修剪策略的提出,當(dāng)模糊權(quán)重和項(xiàng)目的出現(xiàn)頻度增加時(shí)使得提出的最大模糊模式挖掘算法具有最低的運(yùn)行時(shí)間增量。并且,當(dāng)事物數(shù)據(jù)集的規(guī)模增大和項(xiàng)目出現(xiàn)的頻度變小時(shí),本發(fā)明提出的算法和以往的算法的時(shí)間復(fù)雜度的差距將會(huì)更加顯著。對(duì)分析的所有的數(shù)據(jù)集,算法FPMax*具有最差的時(shí)間復(fù)雜度,并且當(dāng)項(xiàng)目的出現(xiàn)頻度下降時(shí),該算法的時(shí)間復(fù)雜度將會(huì)驟增。由于動(dòng)態(tài)優(yōu)化剪枝策略的提出,以及模糊支持度探測(cè)和無(wú)效模式的優(yōu)化刪除,使得本算法PADS比FPMax*更加優(yōu)越。算法的空間復(fù)雜度的實(shí)驗(yàn)結(jié)果見(jiàn)圖3。本發(fā)明所提出的模式搜索策略和陣列技術(shù)為減少內(nèi)存做了很大的貢獻(xiàn)。根據(jù)空間復(fù)雜度的結(jié)果分析,文章提出的算法具有顯著的性能。算法FPMax*和PADS的空間復(fù)雜度使用情況非常相似,因?yàn)檫@兩種算法均采用了類FP-tree結(jié)構(gòu)。但是,這兩種算法與本發(fā)明的提出的算法具有巨大的差距。因此,為了能夠良好的在圖中顯示3種算法的空間復(fù)雜度對(duì)比,按照不同比例縮小了FPMax*和PADS算法的空間復(fù)雜度結(jié)果。根據(jù)圖3所反應(yīng)的空間復(fù)雜度挖掘結(jié)果,相對(duì)稀疏型數(shù)據(jù)集,挖掘稠密型數(shù)據(jù)集,本發(fā)明提出的最大模糊模式挖掘與PADS,和FPMax*算法具有更大的差距。實(shí)驗(yàn)結(jié)果揭示了本發(fā)明所提出的算法對(duì)挖掘稠密型數(shù)據(jù)集更為顯著。最大模糊模式挖掘耗費(fèi)較少的空間復(fù)雜度是因?yàn)樵撍惴ㄍㄟ^(guò)提出修剪子樹(shù)剪枝策略以確保更好地調(diào)度候選模式進(jìn)行較少的子模式檢查,并且在提出相應(yīng)的剪枝策略和模糊約束的基礎(chǔ)上,一些在已有的算法下面需要檢測(cè)的子模式并不需要在本發(fā)明所提出的算法中檢測(cè)。本發(fā)明主要工作是針對(duì)基于醫(yī)學(xué)事物數(shù)據(jù)集的特征分析,挖掘適當(dāng)和有效的最大頻繁模式的問(wèn)題。1、(模糊模式的模糊權(quán)重(SLP))定義模式P={i1,i2,…,ii,…in},那么對(duì)于事務(wù)集Ti中每一個(gè)項(xiàng)目ii在模式P中的權(quán)重可以定義為:對(duì)于項(xiàng)目ii在總的項(xiàng)目集I中的權(quán)重記為:其中和的取值屬于模糊值。模糊模式的模糊權(quán)重計(jì)算(SLP)如公式模式P的模糊權(quán)重可以設(shè)置的取值范圍是[0,10]。項(xiàng)目的模糊權(quán)重(標(biāo)示為:)被劃分為5個(gè)重要等級(jí)。項(xiàng)目在事物中的對(duì)比權(quán)重(標(biāo)記為:)同樣被劃分為5個(gè)重要等級(jí)。該重要等級(jí)的取值范圍見(jiàn)表Table3。定義2.事物項(xiàng)的模糊等級(jí)(SL(Ti)).給出事物Ti={i1,i2,…,im},由于事物所攜帶的項(xiàng)目及其權(quán)重不相同,所以不同的事物在事物集中的權(quán)重均不相同。事物的模糊等級(jí)定義為:定義3.基于模糊權(quán)重的模式P的模糊支持度。模式P在事物Ti中的計(jì)算頻次見(jiàn)公式(3.4),其中,|Ti|表示事物Ti的長(zhǎng)度。SUP(SLP)是三角模糊函數(shù),等同于以下真實(shí)值(3.6):SUP(SLP)=(supL(SLP),supM(SLP),supU(SLP))(3.6)其中,SUPL(SLp)是低值,SUPM(SLp)是中值,SUPU(SLp)是上界值。他滿足以下條件:SUPL(SLp)≤SUPM(SLp)≤SUPU(SLp).如果存在條件SUPL(SLp)=SUPM(SLp)=SUPU(SLp),那么SUP(SLP)根據(jù)對(duì)醫(yī)療數(shù)據(jù)集的特征分析,患者往往在一段時(shí)間內(nèi)具有若干項(xiàng)主要的疾病(核心項(xiàng))和若干項(xiàng)由核心項(xiàng)所牽引的二階效應(yīng)的項(xiàng)目(牽引項(xiàng))所組成。例如,老年患者的疾病項(xiàng)目是:<慢性咽炎,淋巴細(xì)胞百分?jǐn)?shù)升高,消化不良,慢性支氣管炎>,根據(jù)治療數(shù)據(jù),該患者的慢性咽炎具有較高的危險(xiǎn)等級(jí),其他項(xiàng)目均為該項(xiàng)目的作用下所產(chǎn)成的二階效應(yīng)項(xiàng)目。因此,本發(fā)明挖掘的模糊模式定義為核心項(xiàng)(corepattern)和牽引項(xiàng)(secondordereffectpattern)的組合。定義4(模糊亞頻繁模式(FuzzySupplementFrequentPattern))。根據(jù)核心項(xiàng)和牽引項(xiàng)之間的關(guān)系,挖掘的模糊模式的結(jié)構(gòu)主要包含兩類:1)所有特定的核心項(xiàng)目和全部(或者部分)牽引項(xiàng)一起出現(xiàn)。核心項(xiàng)目具有很高的模糊權(quán)重,從而具備較強(qiáng)吸附能力來(lái)吸附具有較低模糊權(quán)重的牽引項(xiàng)。2)部分特定的核心項(xiàng)和全部(或者部分)牽引項(xiàng)一起出現(xiàn)。核心項(xiàng)中某些項(xiàng)不具有較高的模糊權(quán)重,只有部分的核心項(xiàng)具有吸附牽引項(xiàng)的能力。但是規(guī)則模式挖掘還是應(yīng)該考慮不發(fā)生的核心項(xiàng)對(duì)整個(gè)核心項(xiàng)和整個(gè)事務(wù)的影響,因?yàn)椴话l(fā)生的核心項(xiàng)可能會(huì)減少或者改變核心項(xiàng)目的吸附能力以及吸附其他項(xiàng)目的活躍性。例如,在診斷老年慢病患者出現(xiàn)嚴(yán)重流感現(xiàn)象時(shí),即使在一段時(shí)間內(nèi)病人并未出現(xiàn)發(fā)熱的情況,醫(yī)療記錄中還是要求必須標(biāo)記病人的體溫狀況,同時(shí)該體溫項(xiàng)目也對(duì)其他的核心項(xiàng)有重要的影響。綜上,本發(fā)明挖掘的模糊模式(FuzzyFrequentPattern)可以定義為公式(3.10):其中,模糊模式的模糊支持度SUP(FSFP)是一個(gè)三角隸屬度函數(shù),被描述為:SUP(FSFP)=(SUPL(FSFP),SUPM(FSFP),SUPU(FSFP))。標(biāo)示指的是該項(xiàng)目不與其他的項(xiàng)目同時(shí)出現(xiàn),例如表示所有的在集合中元素不和集合中的元素在同一個(gè)事物中同時(shí)發(fā)生。模式FFP的出現(xiàn)必須滿足以下約束條件:其中,核心項(xiàng)(corepattern)滿足的最小支持度閾值為:minsup,核心項(xiàng)需要滿足的最小模糊權(quán)重閾值為θ,參數(shù)min_connect_sup用來(lái)定義核心項(xiàng)和二階效應(yīng)項(xiàng)目之間的邊界,σ(σ≤θ)是定義的SOP項(xiàng)目集的最小模糊權(quán)重閾值,ε定義為調(diào)節(jié)參數(shù)以根據(jù)挖掘模式數(shù)量的需要來(lái)個(gè)性化的設(shè)置變量變化范圍。表1.具有相應(yīng)的局部和最終的權(quán)重以及頻次的樣本事務(wù)數(shù)據(jù)庫(kù)表2.表1中每個(gè)項(xiàng)的相應(yīng)含義和全局權(quán)重表3.項(xiàng)和事務(wù)的模糊級(jí)別定義5.(FuzzySupplementFrequentPatternTree(模糊模式挖掘樹(shù)))模糊模式挖掘樹(shù)的結(jié)構(gòu)包含以下四個(gè)部分:(1)頭節(jié)點(diǎn),標(biāo)記為“Root”;(2)每個(gè)節(jié)點(diǎn)包含7個(gè)字段:項(xiàng)目名(item-name),當(dāng)前分支(branch-level),父節(jié)點(diǎn)(parent),子節(jié)點(diǎn)(children),節(jié)點(diǎn)鏈(node-link),模糊支持度(fuzzysupport),出現(xiàn)頻度(countnumber),and核心節(jié)點(diǎn)鏈接(node-link-core).所有共享同一個(gè)節(jié)點(diǎn)名的節(jié)點(diǎn)用節(jié)點(diǎn)鏈(node-link)連接,所有包含相同核心項(xiàng)的分支采用自底向上的方式由核心節(jié)點(diǎn)鏈(node-link-core)連接。并且事務(wù)項(xiàng)的綜合模糊度來(lái)自于所有節(jié)點(diǎn)的綜合模糊度和出現(xiàn)頻度的組合計(jì)算。為了表示每個(gè)項(xiàng)目的出現(xiàn)頻度,頻度數(shù)(countnumber)也作為一個(gè)字段。特別的,頭表當(dāng)中的出現(xiàn)頻度表示了每一個(gè)項(xiàng)目在樹(shù)中出現(xiàn)的總頻數(shù),在FFP-Tree中節(jié)點(diǎn)出現(xiàn)的頻數(shù)是該節(jié)點(diǎn)在當(dāng)前路徑上的出現(xiàn)頻數(shù)。(3)核心節(jié)點(diǎn)項(xiàng)目集(coreItems)。該字段主要用來(lái)記錄當(dāng)前核心項(xiàng)目的信息,包含:當(dāng)前核心項(xiàng)目名、當(dāng)前未發(fā)生的核心項(xiàng)目、核心項(xiàng)目的頻數(shù)、模糊支持度以及核心節(jié)點(diǎn)鏈(node-link-core)的頭表。(4)項(xiàng)目的頭表(headertable)。頭表(headertable)主要放置項(xiàng)目集并且依據(jù)項(xiàng)目的模糊度值來(lái)降序排列。頭表主要包含兩個(gè)字段:頭表名(item-name)和節(jié)點(diǎn)鏈的頭節(jié)點(diǎn)(headofthenode-link)。并且該節(jié)點(diǎn)鏈由同一個(gè)節(jié)點(diǎn)名的鏈接來(lái)連接。2、算法構(gòu)建需要提供的參數(shù)有:核心項(xiàng)最小出現(xiàn)的頻度(core_count_number),牽引項(xiàng)最小出現(xiàn)的頻度(connect_count_number),核心項(xiàng)最小的模糊支持度(θ),牽引項(xiàng)出現(xiàn)的最小模糊度(σ),and全局權(quán)重and本地權(quán)重算法的第一步是刪除不能滿足最小支持度和最小權(quán)重的項(xiàng)目(line4-line7).核心模式的確定是基于模糊屬性約簡(jiǎn)和模糊動(dòng)態(tài)感知策略(line8-line12)。每一條路徑的核心項(xiàng)集將會(huì)被確定(line14-line25).如果在當(dāng)前路徑當(dāng)中有唯一的核心項(xiàng),那么該核心項(xiàng)便是本條路徑的核心(line16).如果部分核心項(xiàng)在路徑當(dāng)中出現(xiàn),那么則需要判斷核心當(dāng)中沒(méi)有出現(xiàn)的項(xiàng)目是否具備吸附能力。如果該條件滿足,那么含有的核心項(xiàng)便是本條路徑的核心項(xiàng)。(line17-line19).否則,對(duì)于其他情況,選取該條路徑當(dāng)中權(quán)重最大的便是該條路徑的核心項(xiàng)集(line22).當(dāng)核心項(xiàng)集選擇完之后,F(xiàn)SFP-Tree插入算法被提出(表5).在FSFP-Tree插入算法中,如果剩余項(xiàng)目集當(dāng)中的某一項(xiàng)和其他分支有交集(coreItems除外),那么在同一條路徑上的項(xiàng)目的支持度、模糊支持度需要重新計(jì)算。否則,需要新生成一個(gè)節(jié)點(diǎn),并且設(shè)置相應(yīng)的出現(xiàn)頻度以及模糊度值,鏈接該節(jié)點(diǎn)的父節(jié)點(diǎn),并且通過(guò)節(jié)點(diǎn)鏈(node-link)來(lái)鏈接該節(jié)點(diǎn)(line1-4).如果當(dāng)前節(jié)點(diǎn)屬于核心相集中的元素,那么在當(dāng)前路徑中包含該節(jié)點(diǎn)的核心模式應(yīng)當(dāng)被篩選出來(lái)。同時(shí),如果目前所選擇的核心模式能夠同時(shí)作為其他分支的核心模式,那么則需要更新該核心模式的出現(xiàn)頻度以及相應(yīng)的模糊度值,設(shè)置當(dāng)前的核心模式為其他節(jié)點(diǎn)的父節(jié)點(diǎn),并且連接其他核心節(jié)點(diǎn)通過(guò)核心節(jié)點(diǎn)鏈(node-linkcore)(line9-10)。如果當(dāng)前核心模式和其他分支沒(méi)有連接,那么則設(shè)置改核心模式為當(dāng)前路徑上其他節(jié)點(diǎn)的父節(jié)點(diǎn)(line12)。最終,反復(fù)遞歸調(diào)用Insert_FSFP-Tree算法直到完成建立事物數(shù)據(jù)集T中的所有事物項(xiàng)。表4算法1:FSFP樹(shù)構(gòu)建算法表5.算法2:插入FSFP樹(shù)算法表6.表1中的示例事務(wù)數(shù)據(jù)庫(kù)的基本模式最大模糊模式(MaximalFSFPs)挖掘算法以及相應(yīng)的優(yōu)化剪枝策略將會(huì)在本節(jié)給出。挖掘算法操作首先應(yīng)該提供的參數(shù)包含:模糊支持度值(fuzzysupportvalue),核心項(xiàng)(basepatterns),F(xiàn)SFP-Tree,和基于FSFP-Tree的陣列結(jié)構(gòu)(FSFP-array)。FSFP-Tree的結(jié)構(gòu)定義、核心項(xiàng)集的選擇、項(xiàng)目的模糊度值、以及項(xiàng)目的出現(xiàn)頻率均作為最大模糊模式挖掘樹(shù)的優(yōu)化剪枝策略。依據(jù)算法1(最大模糊模式挖掘算法),如果當(dāng)前路徑是單路徑(第5行),那么通過(guò)檢測(cè)當(dāng)前路徑上項(xiàng)目的超集和檢測(cè)當(dāng)前項(xiàng)目的模糊支持度是否滿足最小閾值以產(chǎn)生新的npi模式。如果通過(guò)再次計(jì)算的模糊支持度大于等于最小閾值并且當(dāng)前求取的模式并無(wú)超集,那么此時(shí)產(chǎn)生的MFSFP模式即為求取的最大模糊模式(第6-8行)。否則,當(dāng)前求取的MFFP模式并不能夠滿足最大模糊模式的求取條件,那么只選取具有強(qiáng)吸附能力的核心項(xiàng)集作為當(dāng)前路徑的最大頻繁模式FSFP(第10行)。對(duì)于多路徑,基于FSFP-array結(jié)構(gòu)來(lái)生成條件模式樹(shù)并且基于模糊度值來(lái)對(duì)項(xiàng)目進(jìn)行降序排列,然后依據(jù)項(xiàng)目的頭表對(duì)新產(chǎn)生的核心項(xiàng)設(shè)置其核心項(xiàng)模糊度值,并遞歸調(diào)用該函數(shù)直到產(chǎn)生單路徑(12-17行)。給出事物數(shù)據(jù)集表1?;谒惴?,該事物集得到的最大模糊模式為:<j,(h,b,o)>,<(m,b,o)>。其中,(h,b,o),(m,b,o)為分支的核,說(shuō)明在分支中(h,b,o),(m,b,o)具有較強(qiáng)的吸附力,并且對(duì)其他項(xiàng)目具有較強(qiáng)的影響力。而基于傳統(tǒng)的最大頻繁模式挖掘僅能夠得到:<j>,<m,b,o>。并且不能夠反應(yīng)項(xiàng)目之間的重要關(guān)系。表7.算法3:最大FSFP挖掘算法本發(fā)明的高級(jí)模式挖掘?qū)撛诘碾[藏信息發(fā)現(xiàn)和有用信息的恰當(dāng)表達(dá)至關(guān)重要。本發(fā)明創(chuàng)新性的提出了模糊模式結(jié)構(gòu):核心項(xiàng)(corepattern)和相應(yīng)的牽引項(xiàng)(secondordereffectpattern)的組合,并且提出了模糊支持度以及基于模糊支持度的剪枝策略來(lái)分析和挖掘隱藏在項(xiàng)目集當(dāng)中的有用信息。本發(fā)明所提出的最大模糊模式挖掘算法能夠更加有效、更快的實(shí)現(xiàn)挖掘操作。高級(jí)模式挖掘?qū)撛诘碾[藏信息發(fā)現(xiàn)和有用信息的恰當(dāng)表達(dá)至關(guān)重要。本發(fā)明創(chuàng)新性的提出了模糊模式結(jié)構(gòu):核心項(xiàng)(corepattern)和相應(yīng)的牽引項(xiàng)(secondordereffectpattern)的組合,并且提出了模糊支持度以及基于模糊支持度的剪枝策略來(lái)分析和挖掘隱藏在項(xiàng)目集當(dāng)中的有用信息。本發(fā)明所提出的最大模糊模式挖掘算法能夠更加有效、更快的實(shí)現(xiàn)挖掘操作。為了分析最大模糊模式挖掘算法的有效性,開(kāi)展了對(duì)挖掘結(jié)果、時(shí)間和空間復(fù)雜度的結(jié)果的分析,實(shí)驗(yàn)結(jié)果顯示該挖掘算法顯著的優(yōu)越于PADS和FPMax*算法。挖掘出的有效信息的數(shù)量和質(zhì)量表明,該算法更適合于處理頻繁項(xiàng)和相對(duì)出現(xiàn)次數(shù)較低的項(xiàng)目的組合。在今后的工作中,從醫(yī)學(xué)的角度,將會(huì)對(duì)比分析相對(duì)頻繁的疾病和相對(duì)較低的并發(fā)癥疾病的臨床資料,從而從醫(yī)學(xué)的角度驗(yàn)證新提出的最大模糊模式對(duì)醫(yī)療疾病發(fā)現(xiàn)的有效性;在知識(shí)發(fā)現(xiàn)的角度,將會(huì)探究核心-牽引項(xiàng)的模式結(jié)構(gòu)在高級(jí)知識(shí)挖掘中的作用以挖掘其他更有趣的新結(jié)構(gòu)和發(fā)現(xiàn)新特征。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁(yè)1 2 3 當(dāng)前第1頁(yè)1 2 3