本發(fā)明涉及一種話題關(guān)系發(fā)現(xiàn)方法,特別涉及一種基于并行關(guān)聯(lián)規(guī)則的話題關(guān)系發(fā)現(xiàn)方法和發(fā)現(xiàn)裝置。
背景技術(shù):
針對龐大且雜亂無序的數(shù)據(jù)信息,運用各種信息分析技術(shù)對處于“未知態(tài)”的數(shù)據(jù)信息進(jìn)行快速挖掘,從中發(fā)現(xiàn)多個話題之間的關(guān)聯(lián)關(guān)系,能夠為話題分析和關(guān)系挖掘提供支持。因此,如何從大量低價值密度的網(wǎng)絡(luò)數(shù)據(jù)信息中更準(zhǔn)確、更快速地發(fā)現(xiàn)相關(guān)話題之間潛在的關(guān)聯(lián)關(guān)系是值得研究的熱點問題。
傳統(tǒng)的研究主要將報道用向量空間模型(vectorspacemodel,vsm)表示,然后利用余弦相似度計算話題與報道的相似性并結(jié)合聚類算法,將相關(guān)話題信息匯總后反饋給用戶。然而,傳統(tǒng)文本表示模型vsm是在假定報道的關(guān)鍵詞之間相互獨立的前提下,它完全忽略了關(guān)鍵詞之間的隱含交互關(guān)系,這就使得關(guān)鍵詞的順序信息缺失,導(dǎo)致話題與話題之間的相互關(guān)系難以被識別和理清。
因此,為了發(fā)現(xiàn)話題之間的潛在關(guān)聯(lián)關(guān)系,研究者們針對vsm模型的弊端,提出了各種改進(jìn)的文本表示模型。一些學(xué)者基于統(tǒng)計分析,利用關(guān)鍵詞之間的共現(xiàn)信息來同時捕捉關(guān)鍵詞之間的內(nèi)部關(guān)系和相互關(guān)系,從而合并形成耦合關(guān)系,完善向量空間模型所表示的文本信息,從而發(fā)現(xiàn)話題之間的潛在關(guān)系。還有一些學(xué)者根據(jù)詞與詞之間的關(guān)系具有很強(qiáng)規(guī)則性的特點,通過構(gòu)建詞共現(xiàn)網(wǎng)絡(luò)來表示文本之間的關(guān)聯(lián)信息,并結(jié)合社區(qū)檢測方法實現(xiàn)話題關(guān)系發(fā)現(xiàn)。此外,還有一些學(xué)者將時間參數(shù)、位序信息等加入到上述共現(xiàn)分析方法中進(jìn)行改進(jìn),實現(xiàn)對共現(xiàn)關(guān)鍵詞的頻數(shù)或者關(guān)系系數(shù)的加權(quán),從而更準(zhǔn)確地度量話題之間關(guān)鍵詞的相似性。
雖然利用關(guān)鍵詞共現(xiàn)信息已經(jīng)改進(jìn)了向量空間模型無法識別關(guān)鍵詞之間關(guān)聯(lián)關(guān)系的缺陷,但是僅僅依靠關(guān)鍵詞間的共現(xiàn)關(guān)系往往不能很好地表示報道中所蘊含的語義信息。因此,一些學(xué)者將主題的概念應(yīng)用到文本分類模型中,通過將文檔主題生成模型lda(latentdirichletallocation)與vsm模型以及其他聚類模型結(jié)合實現(xiàn)新的聚類和分類算法實現(xiàn)話題關(guān)系發(fā)現(xiàn)。還有一些學(xué)者將時間信息引入到lda中,分析出每個時間段內(nèi)的隱主題信息并利用層次聚類的方法實現(xiàn)話題的關(guān)系發(fā)現(xiàn)。
總而言之,當(dāng)前大部分研究工作都集中于文本表示模型的改進(jìn)或者聚類算法的改進(jìn),雖然這些算法在多個話題的關(guān)系發(fā)現(xiàn)中取得了一定的效果,但是現(xiàn)有的大部分方法仍然利用相似度計算話題之間的關(guān)系,并且大部分工作仍然停留在相關(guān)數(shù)據(jù)的統(tǒng)計層面,缺少對具體事件發(fā)生的深層次或根本原因的分析。
所以,考慮到多個話題之間一定存在某種關(guān)聯(lián)關(guān)系,但并非直觀可見,而關(guān)聯(lián)規(guī)則能夠發(fā)現(xiàn)數(shù)據(jù)間隱藏的規(guī)律。本發(fā)明基于支持度-置信度模型,直接利用關(guān)鍵詞信息挖掘話題之間的關(guān)聯(lián)關(guān)系。其中,支持度反映了關(guān)鍵詞集在所有數(shù)據(jù)文本中的出現(xiàn)熱度,置信度反映了關(guān)鍵詞集內(nèi)各關(guān)鍵詞的關(guān)系相關(guān)程度。因此,關(guān)鍵詞集支持度和置信度值的大小可以直接表明該關(guān)鍵詞集與話題的相關(guān)關(guān)系。所以,將所有話題相關(guān)的關(guān)鍵詞集計算支持度和置信度,可以篩選出同時滿足支持度閾值和置信度閾值的關(guān)聯(lián)關(guān)鍵詞集,將得到的關(guān)聯(lián)關(guān)鍵詞集篩選和組合形成話題相關(guān)信息,能夠直接發(fā)現(xiàn)多個相關(guān)話題之間的關(guān)聯(lián)關(guān)系。
技術(shù)實現(xiàn)要素:
為了解決現(xiàn)有技術(shù)問題,本發(fā)明提供了一種基于并行關(guān)聯(lián)規(guī)則的話題關(guān)系發(fā)現(xiàn)方法,本發(fā)明的基于并行關(guān)聯(lián)規(guī)則的話題關(guān)系發(fā)現(xiàn)方法,在獲取大規(guī)模頻繁關(guān)鍵詞集的基礎(chǔ)上,采用并行關(guān)聯(lián)規(guī)則算法獲取關(guān)聯(lián)關(guān)鍵詞集,進(jìn)而進(jìn)行篩選和組合形成話題相關(guān)信息,從而準(zhǔn)確有效地發(fā)現(xiàn)相關(guān)話題之間潛在的關(guān)聯(lián)關(guān)系,尋找具體事件發(fā)生的深層次或根本原因。
本發(fā)明所采用的技術(shù)方案如下:
一種并行關(guān)聯(lián)規(guī)則的話題關(guān)系發(fā)現(xiàn)方法,包括以下步驟:
a、根據(jù)多個話題的相關(guān)關(guān)鍵詞信息分別篩選出對應(yīng)話題的相關(guān)數(shù)據(jù)信息,通過統(tǒng)計數(shù)據(jù)中所有關(guān)鍵詞的出現(xiàn)次數(shù),獲取1_項頻繁關(guān)鍵詞集;
b、在已經(jīng)獲得的k-1_項關(guān)聯(lián)關(guān)鍵詞集(1_項關(guān)聯(lián)關(guān)鍵詞集即1_項頻繁關(guān)鍵詞集)基礎(chǔ)上獲取k_項候選關(guān)鍵詞集的過程如下:
k_項候選關(guān)鍵詞集的獲取包括連接步和剪枝步。連接步分為兩個步驟:首先根據(jù)k-1_項關(guān)聯(lián)關(guān)鍵詞集的數(shù)量進(jìn)行數(shù)據(jù)分割和任務(wù)分配;然后,每個子任務(wù)將得到的所有1_項頻繁關(guān)鍵詞集和分配得到的k-1_項關(guān)聯(lián)關(guān)鍵詞集隨機(jī)組合,獨立生成k_項候選關(guān)鍵詞集。剪枝步是根據(jù)關(guān)聯(lián)規(guī)則的先驗知識,即頻繁關(guān)鍵詞集的所有非空子集也一定是頻繁的,將連接步得到的不滿足先驗知識的k_項候選關(guān)鍵詞集剪枝,進(jìn)一步壓縮得到用于產(chǎn)生頻繁關(guān)鍵詞集的k_項候選關(guān)鍵詞集;
c、設(shè)置支持度閾值,根據(jù)剪枝后的k_項候選關(guān)鍵詞集獲取k_項頻繁關(guān)鍵詞集包括以下兩個步驟:首先統(tǒng)計數(shù)據(jù)中所有k_項候選關(guān)鍵詞集的出現(xiàn)次數(shù),獲取k_項頻繁關(guān)鍵詞集;然后將每個子任務(wù)的結(jié)果合并形成一個集合,將集合中的重復(fù)項刪除,得到全局的k_項頻繁關(guān)鍵詞集;
d、設(shè)置置信度閾值,根據(jù)已經(jīng)得到的全局k_項頻繁關(guān)鍵詞集產(chǎn)生所有關(guān)聯(lián)規(guī)則,從而篩選出所有關(guān)聯(lián)規(guī)則都大于置信度閾值的k_項關(guān)聯(lián)關(guān)鍵詞集;
e、迭代進(jìn)行b至d步驟直到所有k_項關(guān)聯(lián)關(guān)鍵詞集為空,將存在關(guān)聯(lián)關(guān)鍵詞集的最大項記為n。然后將所有k_項關(guān)聯(lián)關(guān)鍵詞集(2≤k≤n)合并后約簡,獲得一個話題的所有關(guān)聯(lián)關(guān)鍵詞集。最后篩選和匹配多個話題的關(guān)聯(lián)關(guān)鍵詞集,發(fā)現(xiàn)多個相關(guān)話題之間的關(guān)聯(lián)關(guān)系。
步驟a中,所述的1_項頻繁關(guān)鍵詞集是指:一個話題相關(guān)的數(shù)據(jù)信息中所有達(dá)到支持度閾值的關(guān)鍵詞所組成的關(guān)鍵詞集。
步驟b中,所述的k_項候選關(guān)鍵詞集是指:k-1_項關(guān)聯(lián)關(guān)鍵詞集與每個1_項頻繁關(guān)鍵詞集合并后滿足先驗知識的關(guān)鍵詞集。
步驟c中,所述的k_項頻繁關(guān)鍵詞集是指:一個話題相關(guān)的數(shù)據(jù)信息中所有達(dá)到支持度閾值的k_項候選關(guān)鍵詞集。
步驟d中,所述的k_項關(guān)聯(lián)關(guān)鍵詞集是指:所有關(guān)聯(lián)規(guī)則都達(dá)到置信度閾值的k_項頻繁關(guān)鍵詞集。
另一方面,本發(fā)明提供了一種基于并行關(guān)聯(lián)規(guī)則的話題關(guān)系發(fā)現(xiàn)裝置,包括以下模塊:
1_項頻繁關(guān)鍵詞獲取模塊:根據(jù)多個話題的相關(guān)關(guān)鍵詞信息分別篩選出對應(yīng)話題的相關(guān)數(shù)據(jù)信息,通過統(tǒng)計數(shù)據(jù)中所有關(guān)鍵詞的出現(xiàn)次數(shù),獲取1_項頻繁關(guān)鍵詞集;
k_項候選關(guān)鍵詞獲取模塊:在已經(jīng)獲得的k-1_項關(guān)聯(lián)關(guān)鍵詞集(1_項關(guān)聯(lián)關(guān)鍵詞集即1_項頻繁關(guān)鍵詞集)基礎(chǔ)上獲取k_項候選關(guān)鍵詞集的過程如下:
k_項候選關(guān)鍵詞集的獲取包括連接步和剪枝步。連接步分為兩個步驟:首先根據(jù)k-1_項關(guān)聯(lián)關(guān)鍵詞集的數(shù)量進(jìn)行數(shù)據(jù)分割和任務(wù)分配;然后,每個子任務(wù)將得到的所有1_項頻繁關(guān)鍵詞集和分配得到的k-1_項關(guān)聯(lián)關(guān)鍵詞集隨機(jī)組合,獨立生成k_項候選關(guān)鍵詞集。剪枝步是根據(jù)關(guān)聯(lián)規(guī)則的先驗知識,即頻繁關(guān)鍵詞集的所有非空子集也一定是頻繁的,將連接步得到的不滿足先驗知識的k_項候選關(guān)鍵詞集剪枝,進(jìn)一步壓縮得到用于產(chǎn)生頻繁關(guān)鍵詞集的k_項候選關(guān)鍵詞集;
k_項頻繁關(guān)鍵詞獲取模塊:設(shè)置支持度閾值,根據(jù)剪枝后的k_項候選關(guān)鍵詞集獲取k_項頻繁關(guān)鍵詞集包括以下兩個步驟:首先統(tǒng)計數(shù)據(jù)中所有k_項候選關(guān)鍵詞集的出現(xiàn)次數(shù),獲取k_項頻繁關(guān)鍵詞集;然后將每個子任務(wù)的結(jié)果合并形成一個集合,將集合中的重復(fù)項刪除,得到全局的k_項頻繁關(guān)鍵詞集;
k_項關(guān)聯(lián)關(guān)鍵詞獲取模塊:設(shè)置置信度閾值,根據(jù)已經(jīng)得到的全局k_項頻繁關(guān)鍵詞集產(chǎn)生所有關(guān)聯(lián)規(guī)則,從而篩選出所有關(guān)聯(lián)規(guī)則都大于置信度閾值的k_項關(guān)聯(lián)關(guān)鍵詞集;
話題關(guān)系發(fā)現(xiàn)模塊:迭代執(zhí)行k_項候選關(guān)鍵詞至k_項關(guān)聯(lián)關(guān)鍵詞獲取模塊,直到所有k_項關(guān)聯(lián)關(guān)鍵詞集為空,將存在關(guān)聯(lián)關(guān)鍵詞集的最大項記為n。然后將所有k_項關(guān)聯(lián)關(guān)鍵詞集(2≤k≤n)合并后約簡,獲得一個話題的所有關(guān)聯(lián)關(guān)鍵詞集。最后篩選和匹配多個話題的關(guān)聯(lián)關(guān)鍵詞集,發(fā)現(xiàn)多個相關(guān)話題之間的關(guān)聯(lián)關(guān)系。
本發(fā)明提供的技術(shù)方案以及話題關(guān)系發(fā)現(xiàn)裝置帶來的有益效果是:
本發(fā)明在獲取大規(guī)模頻繁關(guān)鍵詞集的基礎(chǔ)上,采用并行關(guān)聯(lián)規(guī)則算法獲取關(guān)聯(lián)關(guān)鍵詞集,進(jìn)而進(jìn)行篩選和組合形成話題相關(guān)信息,從而發(fā)現(xiàn)多個話題之間的關(guān)聯(lián)關(guān)系。能夠準(zhǔn)確有效地發(fā)現(xiàn)相關(guān)話題之間潛在的關(guān)聯(lián)關(guān)系,尋找具體事件發(fā)生的深層次或根本原因。
附圖說明
為了更清楚的說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明的一種基于并行關(guān)聯(lián)規(guī)則的話題關(guān)系發(fā)現(xiàn)方法中并行關(guān)聯(lián)規(guī)則算法執(zhí)行流程圖。
圖2為本發(fā)明一實施例提供的基于并行關(guān)聯(lián)規(guī)則的話題關(guān)系發(fā)現(xiàn)裝置的結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進(jìn)一步地詳細(xì)描述。
實施例一
本實施例的基礎(chǔ)在于,由于一段時間內(nèi)產(chǎn)生的話題種類繁多、內(nèi)容復(fù)雜,而多個話題之間可能存在某些潛在聯(lián)系。因此,根據(jù)多個話題的相關(guān)關(guān)鍵詞信息篩選出的對應(yīng)話題的相關(guān)數(shù)據(jù)信息能夠滿足當(dāng)前話題的所有詳細(xì)信息的獲取,通過匹配和篩選獲取每個子任務(wù)的初始關(guān)鍵詞,1_項頻繁關(guān)鍵詞集是指:一個話題相關(guān)的數(shù)據(jù)中所有達(dá)到支持度閾值的關(guān)鍵詞所組成的關(guān)鍵詞集。在此基礎(chǔ)上形成1_項頻繁關(guān)鍵詞集。
在已經(jīng)獲得的1_項頻繁關(guān)鍵詞集的基礎(chǔ)上,設(shè)置支持度閾值和置信度閾值,然后依次獲得2_項候選關(guān)鍵詞集、2_項頻繁關(guān)鍵詞集、2_項關(guān)聯(lián)關(guān)鍵詞集,…,n_項候選關(guān)鍵詞集、n_項頻繁關(guān)鍵詞集、n_項關(guān)聯(lián)關(guān)鍵詞集。
k_項候選關(guān)鍵詞集的獲取包括連接步和剪枝步。連接步分為兩個步驟:首先對k-1_項關(guān)聯(lián)關(guān)鍵詞集進(jìn)行數(shù)據(jù)分割和任務(wù)分配,將一個或者m個k-1_項關(guān)聯(lián)關(guān)鍵詞集分配給一個子任務(wù),m的值由k-1_項關(guān)聯(lián)關(guān)鍵詞集的數(shù)量確定;然后每個子任務(wù)將分配得到的k-1_項關(guān)聯(lián)關(guān)鍵詞集分別和所有1_項頻繁關(guān)鍵詞集逐一合并,獨立生成所有k_項候選關(guān)鍵詞集。剪枝步是根據(jù)關(guān)聯(lián)規(guī)則的先驗知識,即頻繁關(guān)鍵詞集的所有非空子集也一定是頻繁的,將連接步得到的k_項候選關(guān)鍵詞集的所有子集與x_項關(guān)聯(lián)關(guān)鍵詞集(2≤x≤k)和1_項頻繁關(guān)鍵詞集匹配,將不滿足先驗知識的k_項候選關(guān)鍵詞集剪枝,進(jìn)一步壓縮得到用于產(chǎn)生頻繁關(guān)鍵詞集的k_項候選關(guān)鍵詞集。
設(shè)置支持度閾值,根據(jù)剪枝后的k_項候選關(guān)鍵詞集獲取k_項頻繁關(guān)鍵詞集包括以下兩個步驟:首先統(tǒng)計數(shù)據(jù)中所有k_項候選關(guān)鍵詞集的出現(xiàn)次數(shù)并計算相應(yīng)的支持度,篩選出所有達(dá)到最小支持度的k_項候選關(guān)鍵詞集,記為k_項頻繁關(guān)鍵詞集;然后將每個子任務(wù)的結(jié)果合并成一個集合并刪除集合中重復(fù)的k_項頻繁關(guān)鍵詞集,得到全局k_項頻繁關(guān)鍵詞集。
設(shè)置置信度閾值,根據(jù)已經(jīng)得到的全局k_項頻繁關(guān)鍵詞集產(chǎn)生所有關(guān)聯(lián)規(guī)則并計算相應(yīng)的置信度,篩選出所有關(guān)聯(lián)規(guī)則都達(dá)到置信度閾值的k_項頻繁關(guān)鍵詞集,記為k_項關(guān)聯(lián)關(guān)鍵詞集。
繼續(xù)迭代進(jìn)行上面的步驟直到所有k_項關(guān)聯(lián)關(guān)鍵詞集為空,將存在關(guān)聯(lián)關(guān)鍵詞集的最大項記為n。將得到的所有k_項關(guān)聯(lián)關(guān)鍵詞集(2≤k≤n)合并后約簡,獲得一個話題的所有關(guān)聯(lián)關(guān)鍵詞集。
最后篩選和匹配多個話題的關(guān)聯(lián)關(guān)鍵詞集,從而形成話題的相關(guān)信息,發(fā)現(xiàn)多個相關(guān)話題之間的關(guān)聯(lián)關(guān)系。