用于發(fā)現(xiàn)文本詞間關(guān)聯(lián)規(guī)則的完全加權(quán)模式挖掘方法
【專(zhuān)利摘要】一種用于發(fā)現(xiàn)文本詞間關(guān)聯(lián)規(guī)則的完全加權(quán)正負(fù)模式挖掘方法,通過(guò)將待處理的完全加權(quán)數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建完全加權(quán)數(shù)據(jù)庫(kù)和項(xiàng)目庫(kù);挖掘完全加權(quán)頻繁項(xiàng)集和負(fù)項(xiàng)集,剪枝獲得有趣的完全加權(quán)頻繁項(xiàng)集和負(fù)項(xiàng)集;采用支持度-CPIR模型-相關(guān)性-興趣度評(píng)價(jià)框架,挖掘有效的完全加權(quán)正負(fù)關(guān)聯(lián)規(guī)則。本發(fā)明能夠克服現(xiàn)有加權(quán)挖掘技術(shù)的缺陷,將項(xiàng)目權(quán)值客觀分布于數(shù)據(jù)庫(kù)中并隨事務(wù)記錄變化的完全加權(quán)數(shù)據(jù)特點(diǎn)融入該發(fā)明技術(shù)中,獲得更加實(shí)際合理的完全加權(quán)正負(fù)關(guān)聯(lián)模式,避免無(wú)效的和無(wú)趣的關(guān)聯(lián)模式產(chǎn)生,所挖掘的候選項(xiàng)集、頻繁項(xiàng)集和負(fù)項(xiàng)集以及正負(fù)關(guān)聯(lián)規(guī)則模式數(shù)量均比現(xiàn)有技術(shù)挖掘的少,挖掘效率得到極大地提高,并且具有良好的可擴(kuò)展性。
【專(zhuān)利說(shuō)明】用于發(fā)現(xiàn)文本詞間關(guān)聯(lián)規(guī)則的完全加權(quán)模式挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,具體是一種用于發(fā)現(xiàn)文本詞間關(guān)聯(lián)規(guī)則的完全加權(quán)正負(fù)模式挖掘方法,適用于文本挖掘中特征詞關(guān)聯(lián)模式發(fā)現(xiàn)以及文本信息檢索查詢擴(kuò)展等領(lǐng)域。
【背景技術(shù)】
[0002]近20年來(lái),關(guān)聯(lián)規(guī)則挖掘得到眾多學(xué)者的極大興趣和研究,已經(jīng)成為數(shù)據(jù)挖掘研究的一個(gè)熱點(diǎn)之一,其研究主要集中在基于項(xiàng)目頻度挖掘和基于項(xiàng)目權(quán)值挖掘等兩個(gè)方面。
[0003]基于項(xiàng)目頻度的正負(fù)關(guān)聯(lián)模式挖掘的主要特點(diǎn)是平等一致地處理數(shù)據(jù)庫(kù)中的項(xiàng)目,以項(xiàng)集在數(shù)據(jù)庫(kù)中出現(xiàn)的概率作為支持度挖掘關(guān)聯(lián)模式?;陧?xiàng)目頻度的關(guān)聯(lián)規(guī)則挖掘存在的缺陷是:只重視項(xiàng)目頻度,忽略項(xiàng)目權(quán)值,常常導(dǎo)致冗余的、無(wú)趣的和無(wú)效的關(guān)聯(lián)規(guī)則增多。
[0004]為了克服上述關(guān)聯(lián)規(guī)則挖掘方法的缺陷,基于項(xiàng)目權(quán)值的正負(fù)關(guān)聯(lián)規(guī)則挖掘得到了重視和研究,其引入了項(xiàng)權(quán)重,以體現(xiàn)項(xiàng)目之間具有不同的重要性和項(xiàng)目在數(shù)據(jù)庫(kù)中具有不同的權(quán)值?;陧?xiàng)目權(quán)值的正負(fù)關(guān)聯(lián)規(guī)則挖掘分為加權(quán)正負(fù)關(guān)聯(lián)規(guī)則挖掘和完全加權(quán)正負(fù)關(guān)聯(lián)規(guī)則挖掘。加權(quán)正負(fù)關(guān)聯(lián)規(guī)則挖掘的主要特點(diǎn)是其項(xiàng)目權(quán)值體現(xiàn)了項(xiàng)集之間具有不同的重要性,隨著研究的深入,加權(quán)負(fù)關(guān)聯(lián)規(guī)則的作用日顯突出,在挖掘有利因素的同時(shí)也期望發(fā)現(xiàn)一些不利因素,通過(guò)負(fù)關(guān)聯(lián)規(guī)則的分析可以達(dá)到此目的。加權(quán)關(guān)聯(lián)規(guī)則挖掘的缺陷是忽略了項(xiàng)目權(quán)值在數(shù)據(jù)庫(kù)各個(gè)事務(wù)記錄中具有不同權(quán)值的情況。將項(xiàng)目權(quán)值客觀分布于事務(wù)記錄并隨記錄變化而變化的數(shù)據(jù)稱(chēng)為完全加權(quán)數(shù)據(jù)。現(xiàn)有加權(quán)關(guān)聯(lián)規(guī)則挖掘方法不能適用完全加權(quán)數(shù)據(jù)挖掘,為此,2003年以來(lái),完全加權(quán)關(guān)聯(lián)規(guī)則挖掘研究得到了關(guān)注和研究,當(dāng)前,完全加權(quán)正負(fù)關(guān)聯(lián)規(guī)則挖掘技術(shù)在文本挖掘、信息檢索等領(lǐng)域有重要的理論和應(yīng)用價(jià)值。完全加權(quán)關(guān)聯(lián)規(guī)則挖掘方法能夠有效地克服加權(quán)關(guān)聯(lián)規(guī)則挖掘的缺陷,但還不能解決完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則挖掘技術(shù)問(wèn)題。針對(duì)這些問(wèn)題,本發(fā)明對(duì)完全加權(quán)正負(fù)關(guān)聯(lián)規(guī)則挖掘進(jìn)行深入研究,提出一種新的基于項(xiàng)內(nèi)權(quán)值比和維數(shù)比的完全加權(quán)正負(fù)關(guān)聯(lián)規(guī)則挖掘方法,應(yīng)用于文本信息檢索查詢擴(kuò)展,可以提高檢索性能,應(yīng)用于文本挖掘,可以發(fā)現(xiàn)更加實(shí)際合理的正負(fù)特征詞關(guān)聯(lián)模式。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)存在的不足,提供一種用于發(fā)現(xiàn)文本詞間關(guān)聯(lián)規(guī)則的完全加權(quán)模式挖掘方法,豐富基于項(xiàng)目權(quán)值挖掘的關(guān)聯(lián)規(guī)則挖掘技術(shù)成果,解決項(xiàng)完全加權(quán)正負(fù)關(guān)聯(lián)規(guī)則挖掘中的技術(shù)難題。該方法在文本挖掘、文本信息檢索等領(lǐng)域有重要的理論價(jià)值和廣闊的應(yīng)用前景。
[0006]本發(fā)明實(shí)現(xiàn)上述目的所采取的技術(shù)方案是:一種用于發(fā)現(xiàn)文本詞間關(guān)聯(lián)規(guī)則的完全加權(quán)模式挖掘方法,包括如下步驟:[0007]( I)完全加權(quán)數(shù)據(jù)預(yù)處理階段:
[0008]現(xiàn)實(shí)世界中,存在海量的完全加權(quán)數(shù)據(jù),如文本信息數(shù)據(jù)等。完全加權(quán)數(shù)據(jù)預(yù)處理方法要視具體的數(shù)據(jù)對(duì)象而定,例如,對(duì)于中文文本數(shù)據(jù)信息,則要進(jìn)行分詞、去除停用詞、提取特征詞及其權(quán)值計(jì)算等預(yù)處理方法;對(duì)于英文文本數(shù)據(jù)信息,預(yù)處理方法是詞干提取、排除停用詞、詞匯分析、提取特征詞及其權(quán)值計(jì)算等。完全加權(quán)數(shù)據(jù)預(yù)處理的結(jié)果是構(gòu)建基于完全加權(quán)數(shù)據(jù)庫(kù)和項(xiàng)目庫(kù);
[0009]對(duì)于文本數(shù)據(jù)的特征詞權(quán)值計(jì)算公式是=Wij=(C).5+0.SXtfij/maXj^tfij)) X idfi;
[0010]其中,Wij為第i個(gè)特征詞在第j篇文檔的權(quán)值,tfu為第i個(gè)特征詞在第j篇文檔的詞頻,Idfi為第i個(gè)特征詞的逆向文檔頻度,其值idfelogW/dfi), N為文檔集中文檔總數(shù),df,為含有第i個(gè)特征詞的文檔數(shù)量。
[0011](2)完全加權(quán)頻繁項(xiàng)集和負(fù)項(xiàng)集挖掘階段,包括以下步驟2.1和步驟2.2:
[0012]2.1、從項(xiàng)目庫(kù)中提取完全加權(quán)候選1_項(xiàng)集BwC1,并挖掘完全加權(quán)頻繁1_項(xiàng)集BwL1 ;具體步驟按照2.1.1~2.1.3進(jìn)行:
[0013]2.1.1、從項(xiàng)目庫(kù)中提取完全加權(quán)候選1_項(xiàng)集BwC1 ;
[0014]2.1.2、累加完全加權(quán)候選1_項(xiàng)集awC1在完全加權(quán)數(shù)據(jù)庫(kù)(All-WeightedDatabase,簡(jiǎn)稱(chēng)AWD)中的權(quán)值總和,計(jì)算其支持度;
[0015]awQ支持度計(jì)算公式如下:
【權(quán)利要求】
1.一種用于發(fā)現(xiàn)文本詞間關(guān)聯(lián)規(guī)則的完全加權(quán)模式挖掘方法,其特征在于,包括如下步驟: (1)完全加權(quán)數(shù)據(jù)預(yù)處理階段:將待處理的完全加權(quán)數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建完全加權(quán)數(shù)據(jù)庫(kù)和項(xiàng)目庫(kù); (2)完全加權(quán)頻繁項(xiàng)集和負(fù)項(xiàng)集挖掘階段,包括以下步驟2.1和步驟2.2: ` 2.1、從項(xiàng)目庫(kù)中提取完全加權(quán)候選1_項(xiàng)集,并挖掘完全加權(quán)頻繁1_項(xiàng)集;具體步驟按照2.1.1~2.1.3進(jìn)行: ` 2.1.1、從項(xiàng)目庫(kù)中提取完全加權(quán)候選1_項(xiàng)集; ` 2.1.2、累加完全加權(quán)候選1_項(xiàng)集在完全加權(quán)數(shù)據(jù)庫(kù)中的權(quán)值總和,計(jì)算其支持度;` 2.1.3、將完全加權(quán)候選1_項(xiàng)集中支持度大于或等于最小支持度閾值的完全加權(quán)頻繁1_項(xiàng)集加入到完全加權(quán)頻繁項(xiàng)集集合; ` 2.2、從完全加權(quán)候選2_項(xiàng)集開(kāi)始,按照步驟2.2.1~2.2.4進(jìn)行操作: `2.2.1、將完全加權(quán)頻繁(1_1)_項(xiàng)集進(jìn)行Apriori連接,生成完全加權(quán)候選i_項(xiàng)集;所述的i 2 ; `2.2.2、累加完全加權(quán)候選〔項(xiàng)集在完全加權(quán)數(shù)據(jù)庫(kù)中的權(quán)值總和,計(jì)算其支持度; ` 2.2.3、從完全加權(quán)候選〔項(xiàng)集中將其支持度不小于支持度閾值的頻繁i_項(xiàng)集取出,存入完全加權(quán)頻繁項(xiàng)集集合,同時(shí),將其支持度小于支持度閾值的完全加權(quán)負(fù)〔項(xiàng)集存入完全加權(quán)負(fù)項(xiàng)集集合; `2.2.4、將i的值加1,如果頻繁(1_1)_項(xiàng)集為空就轉(zhuǎn)入(3)步,否則,繼續(xù)2.2.1~``2.2.3步驟; (3)剪枝階段:通過(guò)剪枝階段獲得有趣的完全加權(quán)頻繁項(xiàng)集和負(fù)項(xiàng)集: ` 3.1、對(duì)于頻繁項(xiàng)集集合中的每一個(gè)頻繁i_項(xiàng)集awLi,計(jì)算IAWFKawLi)值,剪除其IAffFI (BwLi)值為假的頻繁項(xiàng)集,剪枝后得到有趣的完全加權(quán)頻繁項(xiàng)集集合; ` 3.2、對(duì)于完全加權(quán)負(fù)項(xiàng)集集合中的每一個(gè)負(fù)i_項(xiàng)集awNi,計(jì)算IAWNKawNi)值,剪除其IAWNKawNi)值為假的負(fù)項(xiàng)集,剪枝后得到有趣的完全加權(quán)負(fù)項(xiàng)集集合; (4)從有趣的完全加權(quán)頻繁項(xiàng)集集合中挖掘有效的完全加權(quán)正負(fù)關(guān)聯(lián)規(guī)則,包括以下步驟: ` 4.1、從有趣的完全加權(quán)頻繁項(xiàng)集集合取出頻繁項(xiàng)集awLi,求出aw、的所有真子集,構(gòu)建awQ的真子集集合,然后進(jìn)行下列操作:` ` 4.2.1、從aw、的真子集集合中任意取出兩個(gè)真子集I1和12,當(dāng)I1和I2的交集為空集,I1和I2的項(xiàng)目個(gè)數(shù)之和等于其原頻繁項(xiàng)集的項(xiàng)目個(gè)數(shù),以及IJP I2的支持度都不小于支持度閾值,則計(jì)算頻繁項(xiàng)集(I1 U I2)的項(xiàng)內(nèi)權(quán)值比EwIWR(I11I2)及其維數(shù)比EwIDR(I11I2);` 4.2.2、當(dāng)數(shù)據(jù)庫(kù)中事務(wù)記錄總數(shù)(η)和上述4.2.1步的項(xiàng)內(nèi)權(quán)值比(awIWRd I2))的乘積大于其維數(shù)比(BwIDRd1, I2))時(shí)(即ηX BwIffRd1, I2) >awIDR(I1, I2)),進(jìn)行如下操作: ` 4.2.2.1 若 I1 — I2 的 awCPIR 值(BwCPIRd1 — I2))不小于置信度閾值 minconf,則挖掘出完全加權(quán)關(guān)聯(lián)規(guī)則I1 — I2 ;若I2 — I1的awCPIR值(awCPIR (I2 — I1))不小于置信度閾值minconf,則挖掘出完全加權(quán)關(guān)聯(lián)規(guī)則I2 — I1 ; ` 4.2.2.2若(^I1 U ^ I2)的支持度不小于支持度閾值minsup,那么,①如果^ I1 —-12的awCPIR值(awCPIR( ^ I1I2))不小于置信度閾值minconf,則挖掘出完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則一1 Ii — ―1〗2 ;②如果一1〗2 — ―1 Ii的awCPIR值(awCPIR(,I2 —,I1))不小于置信度閾值minconf,則挖掘出完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則一.12 I1 ; .4.2.3、當(dāng)數(shù)據(jù)庫(kù)中事務(wù)記錄總數(shù)(η)和上述4.2.1步的項(xiàng)內(nèi)權(quán)值比(awIWRd I2))的乘積小于其維數(shù)比(BwIDRd1, I2))時(shí)(即ηXBwIffRd1, I2XawIDRd1, I2)),進(jìn)行如下操作:.4.2.3.1若(I1 U ^ I2)的支持度不小于支持度閾值minsup,那么,①如果I1 I2的awCPIR值(awCPIRdi — ^ I2))不小于置信度閾值minconf,則挖掘出完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則I1 —,I2 如果,I2 — I1的awCPIR值(awCPIR(,I2 — I1))不小于置信度閾值minconf,則挖掘出完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則一.12 ^ I1 ; .4.2.3.2若(^I1 U I2)的支持度不小于支持度閾值minsup,那么,①如果^ I1 — I2的awCPIR值(awCPIR(,I1 — I2))不小于置信度閾值minconf,則挖掘出完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則一I1 — I2 ;②如果I2 — I I1的awCPIR值(awCPIR(I2 — ^ I1))不小于置信度閾值minconf,則挖掘出完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則I2 —,I1 ; .4.2.4、繼續(xù)4.2.1~4.2.3步驟,如果awL,的真子集集合中每個(gè)真子集都當(dāng)且僅當(dāng)被取出一次,則轉(zhuǎn)入4.2.5步; . 4.2.5,繼續(xù)4.1步驟,如果有趣的完全加權(quán)頻繁項(xiàng)集集合中每個(gè)頻繁項(xiàng)集aw、都當(dāng)且僅當(dāng)被取出一次,則轉(zhuǎn)入第(5)步; (5 )從有趣的完全加權(quán)負(fù)項(xiàng)集集合中挖掘有效的完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則,包括以下步驟: .5.1、從有趣的完全加權(quán)負(fù)項(xiàng)集集合取出負(fù)項(xiàng)集awNi,求出awNi的所有真子集,構(gòu)建awNj的真子集集合,然后進(jìn)行下列操作: . 5.2.1、從awNi的真子集集合中任意取出兩個(gè)真子集I1和12,當(dāng)I1和I2的交集為空集,I1和I2的項(xiàng)目個(gè)數(shù)之和等于其原頻繁項(xiàng)集的項(xiàng)目個(gè)數(shù),以及I1和I2的支持度都大于或者等于支持度閾值,則計(jì)算負(fù)項(xiàng)集(I1 U I2)的項(xiàng)內(nèi)權(quán)值比(awIWRdpg)及其維數(shù)比(BwIDRd1, I2));.5.2.2、當(dāng)數(shù)據(jù)庫(kù)中事務(wù)記錄總數(shù)(η)和上述5.2.1步的項(xiàng)內(nèi)權(quán)值比(awIWRd I2))的乘積大于其維數(shù)比(BwIDRd1, I2))時(shí)(即ηX BwIffRd1, I2) >awIDR(I1, I2)),進(jìn)行如下操作:.5.2.2.1若(^I1 U —I I2)的支持度大于或者等于支持度閾值minsup,那么,①如果的awCPIR值(awCPIR(,I1 —,I2))大于或者等于置信度閾值minconf,則挖掘出完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則一1 Ii — ―1;②如果一1— ―1 Ii的awCPIR值(awCPIR( I2 —一1 Ii))大于或者等于置彳目度閾值minconf,則挖掘出完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則一I I2 ^ —1 Ii ; . 5.2.3、當(dāng)數(shù)據(jù)庫(kù)中事務(wù)記錄總數(shù)(η)和上述5.2.1步的項(xiàng)內(nèi)權(quán)值比(awIWRd I2))的乘積小于其維數(shù)比(BwIDRd1, I2))時(shí)(即ηXBwIffRd1, I2XawIDRd1, I2)),進(jìn)行如下操作:.5.2.3.1若(I1 U I2)的支持度大于或者等于支持度閾值minsup,那么,①如果I1 —-12的awCPIR值(awCPIRdi — ^ I2))大于或者等于置信度閾值minconf,則挖掘出完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則I1 —,I2 如果,I2 — I1的awCPIR值(awCPIR (,I2 — I1))大于或者等于置信度閾值minconf,則挖掘出完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則,I2 — I1 ; .5.2.3.2若(^I1 U I2)的支持度大于或者等于支持度閾值minsup,那么,①如果,I1 — I2的awCPIR值(awCPIR (,I1 — I2))大于或者等于置信度閾值minconf,則挖掘出完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則一I1 — I2 ;②如果I2 — I I1的awCPIR值(awCPIR(I2 — ^ I1))大于或者等于置信度閾值minconf,則挖掘出完全加權(quán)負(fù)關(guān)聯(lián)規(guī)則I2 —,I1 ; .5.2.4、繼續(xù)5.2.1~5.2.3步驟,如果awR的真子集集合中每個(gè)真子集都當(dāng)且僅當(dāng)被取出一次,則轉(zhuǎn)入5.2.5步; .5.2.5,繼續(xù)5.1步驟,如果有趣的完全加權(quán)負(fù)項(xiàng)集集合中每個(gè)負(fù)項(xiàng)集awNi都當(dāng)且僅當(dāng)被取出一次,則完全加權(quán)正負(fù)關(guān)聯(lián)規(guī)則挖掘結(jié)束; 所述的“ I1, 12,I1 U —I I2, I1 — ―1 I/’等符號(hào)中的“ 一1”為負(fù)相關(guān)符號(hào),一1 Ii表不在事務(wù)處理中不出現(xiàn)I1的事件,稱(chēng)為負(fù)項(xiàng)集I1 JI1 U-12)表示一個(gè)項(xiàng)集,該項(xiàng)集有子項(xiàng)集I1和負(fù)子項(xiàng)集I2 ;關(guān)聯(lián)規(guī)則I1 —,I2其含義是:如果子集I1的事件出現(xiàn)或者發(fā)生,那么子集I2的事件不會(huì)出現(xiàn)或者不發(fā)生。
2.根據(jù)權(quán)利要求1所述的用于發(fā)現(xiàn)文本詞間關(guān)聯(lián)規(guī)則的完全加權(quán)模式挖掘方法,其特征在于,所述的待處理的完全加權(quán)數(shù)據(jù)預(yù)處理的具體步驟為,當(dāng)待處理的完全加權(quán)數(shù)據(jù)為中文文本數(shù)據(jù)時(shí),進(jìn)行分詞、去除停用詞、提取特征詞并計(jì)算其權(quán)值;當(dāng)待處理的完全加權(quán)數(shù)據(jù)為英文文本數(shù)據(jù)時(shí),進(jìn)行詞干提取、排除停用詞、詞匯分析、提取特征詞并計(jì)算其權(quán)值。
【文檔編號(hào)】G06F17/27GK103838854SQ201410096985
【公開(kāi)日】2014年6月4日 申請(qǐng)日期:2014年3月14日 優(yōu)先權(quán)日:2014年3月14日
【發(fā)明者】黃名選, 元昌安 申請(qǐng)人:廣西教育學(xué)院