本發(fā)明屬于文獻(xiàn)信息處理方法技術(shù)領(lǐng)域,具體涉及一種基于二元和三元共詞潛在語(yǔ)義信息的文獻(xiàn)表示方法。
背景技術(shù):
文本數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個(gè)主要方向,通過(guò)對(duì)出現(xiàn)在文本數(shù)據(jù)中的高頻關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì)分析,我們可以了解到目前某一專題領(lǐng)域里研究的熱點(diǎn)。但是,僅僅對(duì)這些關(guān)鍵詞按照出現(xiàn)頻次由高到低的排列還不能表現(xiàn)出這些高頻關(guān)鍵詞之間的聯(lián)系,因此可以采用共現(xiàn)分析的技術(shù)來(lái)進(jìn)一步挖掘這些關(guān)鍵詞之間的聯(lián)系。關(guān)鍵詞的共現(xiàn)分析是根據(jù)關(guān)鍵詞在同一篇論文中共同出現(xiàn)的次數(shù)來(lái)表示關(guān)鍵詞之間的聯(lián)系。一般認(rèn)為,如果兩個(gè)關(guān)鍵詞頻繁在同一篇論文中同時(shí)出現(xiàn),往往表明這兩個(gè)關(guān)鍵詞之間具有比較密切的聯(lián)系,這就是共現(xiàn)分析的理論基礎(chǔ)。
目前,對(duì)共現(xiàn)分析的研究大都考慮的兩兩詞之間的共現(xiàn)關(guān)系,三詞共現(xiàn)或者更多詞的共現(xiàn)已可以進(jìn)一步挖掘和利用。根據(jù)共現(xiàn)理論,多詞共現(xiàn)更能凸現(xiàn)主題相似性,因此理論上講,利用多詞共現(xiàn)的信息能提高文本語(yǔ)義信息的挖掘。在國(guó)內(nèi)冷伏海老師首次研究了三元共詞,并定義了穩(wěn)定度和影響力兩個(gè)指標(biāo)對(duì)三元共詞進(jìn)行量化。與之相近的概念是三重共現(xiàn),首次由龐弘燊和方曙提出,指三個(gè)以上(含三個(gè))相同類型或不同類型特征項(xiàng)共同出現(xiàn)的現(xiàn)象。本研究沿用“元”的概念,將兩詞、三詞共現(xiàn)稱為二元、三元共詞或二元、三元共現(xiàn),通過(guò)對(duì)關(guān)鍵詞二元和三元共詞信息的提取進(jìn)而實(shí)現(xiàn)文獻(xiàn)向量的表示。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于二元和三元共詞潛在語(yǔ)義信息的文獻(xiàn)表示方法。
本發(fā)明為實(shí)現(xiàn)上述目的而采取的技術(shù)方案為:
一種基于二元和三元共詞潛在語(yǔ)義信息的文獻(xiàn)表示方法,包括以下步驟:
第一步:對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)清洗,標(biāo)記文獻(xiàn),提取每篇文獻(xiàn)的關(guān)鍵詞,并保留關(guān)鍵詞與相應(yīng)文獻(xiàn)的對(duì)應(yīng)關(guān)系;
第二步:構(gòu)建關(guān)鍵詞空間并對(duì)所提取的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),關(guān)鍵詞按詞頻降序排列,以備后續(xù)建立共現(xiàn)矩陣使用;
第三步:以關(guān)鍵詞在文獻(xiàn)中是否出現(xiàn)為權(quán)重,構(gòu)建文獻(xiàn)表示的向量空間模型如下:
dl=(al1 al2 al3 … alm)T∈Rm,l=1,2,…,n
其中:dl是n篇文獻(xiàn)中第l篇文獻(xiàn)在歐式空間Rm中的表示向量,alj為第j個(gè)關(guān)鍵詞在第l篇文獻(xiàn)中的權(quán)重,當(dāng)?shù)趈個(gè)關(guān)鍵詞是文獻(xiàn)dl的關(guān)鍵詞時(shí)alj等于1,否則為0;l為文獻(xiàn)序號(hào),n為文獻(xiàn)總篇數(shù),m為關(guān)鍵詞集中總關(guān)鍵詞的個(gè)數(shù),Rm為歐式空間,T表示轉(zhuǎn)置運(yùn)算,文獻(xiàn)集的“篇-詞”矩陣A=(alj)n×m;
第四步:三元共現(xiàn)層矩陣表示
其中:表示第j個(gè)關(guān)鍵詞與所有關(guān)鍵詞對(duì)(ti,tk)(i,k=1,2,…,m)的三元共現(xiàn)矩陣,稱為三元共現(xiàn)的第j層,為“篇-詞”矩陣A的第j列,為對(duì)角矩陣,其對(duì)角元依次為的分量;
第五步:計(jì)算關(guān)鍵詞之間的共詞矩陣C=ATA,其中,當(dāng)i≠j時(shí),cij為第i個(gè)關(guān)鍵詞與第j個(gè)關(guān)鍵詞的共現(xiàn)頻次,當(dāng)i=j(luò)時(shí),cii為第i個(gè)關(guān)鍵詞的總頻次;
第六步:三元共現(xiàn)頻次的計(jì)算:
由于ci∪j∪k=ci+cj+ck-cij-cjk-cik+cijk所以三元共現(xiàn)頻次為
cijk=ci∪j∪k-(ci+cj+ck)+(cij+cjk+cik)
其中ci∪jk為至少包含(ti,tj,tk)三詞之一的文獻(xiàn)篇數(shù),可由“篇-詞”矩陣A=(alj)n×m得到;cij、cjk和cik為關(guān)鍵詞兩兩共現(xiàn)的頻次,ci,cj和ck分別為第i,j,k個(gè)關(guān)鍵詞各自的頻次,可由關(guān)鍵詞之間的共詞矩陣C=ATA得到;
第七步:共現(xiàn)強(qiáng)度計(jì)算:
(1)二元共現(xiàn)強(qiáng)度計(jì)算:
其中,c11,c22,…,cmm分別為第1個(gè),第2個(gè),……,第m個(gè)關(guān)鍵詞的頻數(shù);當(dāng)i≠j時(shí),bij為第i個(gè)關(guān)鍵詞與第j個(gè)關(guān)鍵詞的共現(xiàn)強(qiáng)度,當(dāng)i=j(luò)時(shí),bii=1,即矩陣B的對(duì)角線元素全為1;
(2)三元共現(xiàn)強(qiáng)度計(jì)算:
bijk為第i,j,k個(gè)關(guān)鍵詞的三元共現(xiàn)強(qiáng)度;
第八步:二元、三元加權(quán)CLSVSM的構(gòu)建
其中,
Il1={j|alj=1}為所有alj=1的j的指標(biāo)集。
本發(fā)明采用上述技術(shù)方案,通過(guò)對(duì)二元、三元共現(xiàn)信息的加權(quán)實(shí)現(xiàn)文獻(xiàn)向量的表示,通過(guò)二元、三元共現(xiàn)信息的提取深度挖掘文獻(xiàn)間的語(yǔ)義信息,提高文獻(xiàn)聚類的精度。
本發(fā)明的主要優(yōu)點(diǎn)如下:
1.該發(fā)明研究了一種三元共現(xiàn)信息的矩陣表示方法——三元共現(xiàn)層矩陣。研究三元共現(xiàn),首要解決的是三元共現(xiàn)信息的表示問(wèn)題,然而表示二維關(guān)系的矩陣不利于表示所有的三元共現(xiàn)關(guān)系。因此我們的研究給出了三元共現(xiàn)的層矩陣表示,即其中任何一詞與任意兩詞的三元共現(xiàn)矩陣表示,具體表示方式見(jiàn)發(fā)明內(nèi)容的第四步。
2.該發(fā)明引入了一種三元共現(xiàn)頻次的計(jì)算方法。該計(jì)算方法從概率論中得到啟發(fā),根據(jù)二元共現(xiàn)頻次和關(guān)鍵詞各自的頻次求得三元共現(xiàn)頻次。該計(jì)算方法將有效提高算法的運(yùn)算速度,降低計(jì)算的復(fù)雜度。三元共現(xiàn)頻次的計(jì)算方法詳見(jiàn)研究?jī)?nèi)容的第六步。
3.該發(fā)明基于二元和三元共現(xiàn)強(qiáng)度構(gòu)成了二元和三元加權(quán)共現(xiàn)潛在語(yǔ)義信息的文獻(xiàn)表示方法。在文獻(xiàn)表示模型中,三元共現(xiàn)信息相比二元共現(xiàn)信息有更重要的潛在語(yǔ)義信息,也對(duì)文獻(xiàn)主題聚類有更好的作用。因此,將兩兩共現(xiàn)信息和三元共現(xiàn)信息加權(quán)利用,且給三元共現(xiàn)信息更大的權(quán)重,提高了文獻(xiàn)主題聚類的精度,具體表示方式見(jiàn)研究?jī)?nèi)容的第八步。
具體實(shí)施方式
實(shí)施例1
一種基于二元和三元共詞潛在語(yǔ)義信息的文獻(xiàn)表示方法,包括以下步驟:
第一步:對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)清洗,標(biāo)記文獻(xiàn),提取每篇文獻(xiàn)的關(guān)鍵詞,并保留關(guān)鍵詞與相應(yīng)文獻(xiàn)的對(duì)應(yīng)關(guān)系:
數(shù)據(jù)來(lái)源于CNKI,根據(jù)其分類,分別從信息科學(xué)下的“出版”、“圖書情報(bào)與數(shù)字圖書館”和“檔案及博物館”三個(gè)學(xué)科各選300篇文獻(xiàn)作為分析的文獻(xiàn),除去沒(méi)有關(guān)鍵詞的文獻(xiàn)4篇,最終獲得的文獻(xiàn)總數(shù)為896篇,其中“出版”299篇、“圖書情報(bào)與數(shù)字圖書館”298篇、“檔案及博物館”299篇,并獲取不同的關(guān)鍵詞2509個(gè),即:文獻(xiàn)數(shù)n=896,關(guān)鍵詞數(shù)m=2509,表1為截取的前20篇文獻(xiàn)及其對(duì)應(yīng)的全部關(guān)鍵詞,表1中LM為文獻(xiàn)類別,ID為文獻(xiàn)編號(hào),k1-k10為文獻(xiàn)相應(yīng)關(guān)鍵詞。
表1:文獻(xiàn)與相應(yīng)關(guān)鍵詞列表(部分)
第二步:構(gòu)建關(guān)鍵詞空間并對(duì)所提取的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),關(guān)鍵詞按詞頻降序排列,表2為我們實(shí)驗(yàn)結(jié)果中的前20個(gè)關(guān)鍵詞及相應(yīng)的詞頻:
表2:關(guān)鍵詞頻次統(tǒng)計(jì)(部分)
第三步:以關(guān)鍵詞在文獻(xiàn)中是否出現(xiàn)為權(quán)重,構(gòu)建文獻(xiàn)表示的向量空間模型如下:
dl=(al1,al2,...,al,2509)T∈R2509,l=1,2,…,896
其中:dl是896篇文獻(xiàn)中第l篇文獻(xiàn)在歐式空間R2509中的表示向量,因?yàn)橛?509個(gè)關(guān)鍵詞,所以歐式空間為R2509,alj(j=1,2,…,2509)為第j個(gè)關(guān)鍵詞在第l篇文獻(xiàn)中的權(quán)重,l為文獻(xiàn)序號(hào),T表示轉(zhuǎn)置運(yùn)算,當(dāng)?shù)趈個(gè)關(guān)鍵詞是文獻(xiàn)dl的關(guān)鍵詞時(shí)a lj等于1,否則為0,文獻(xiàn)集的“篇-詞”矩陣為A=(alj)896×2509,表3為矩陣A在實(shí)驗(yàn)中的前20行和前15列在Excel中的數(shù)據(jù)呈現(xiàn),該實(shí)驗(yàn)中矩陣A的維數(shù)為896×2509,表3中第1行記錄了2509個(gè)關(guān)鍵詞;第1列記錄了類別信息;第2列記錄了文獻(xiàn)的ID;第1行第1列位置的897指使用該Excel表格897行,
表3:基于VSM的“篇-詞”矩陣A(部分)
第四步:三元共現(xiàn)層矩陣表示:
三元共現(xiàn)層矩陣的表示形式為其中:表示第j個(gè)關(guān)鍵詞與所有關(guān)鍵詞對(duì)(ti,tk)(i,k=1,2,…,2509)的三元共現(xiàn)矩陣,稱為三元共現(xiàn)的第j層,為“篇-詞”矩陣A的第j列,為對(duì)角矩陣,其對(duì)角元依次為的分量;
第五步:關(guān)鍵詞之間的共現(xiàn)矩陣計(jì)算:
關(guān)鍵詞之間的共現(xiàn)矩陣C=ATA=(cij)2509×2509,表4為矩陣C在實(shí)驗(yàn)中的部分結(jié)果呈現(xiàn),其中,當(dāng)i≠j時(shí),cij為第i個(gè)關(guān)鍵詞與第j個(gè)關(guān)鍵詞的共現(xiàn)頻次,當(dāng)i=j(luò)時(shí),cii為第i個(gè)關(guān)鍵詞的總頻次,即對(duì)角線上的值。部分實(shí)驗(yàn)結(jié)果見(jiàn)表4,表中第1行和第1列為關(guān)鍵詞。
表4:關(guān)鍵詞共現(xiàn)矩陣C(部分)
第六步:三元共現(xiàn)頻次計(jì)算:
根據(jù)公式cijk=ci∪j∪k-(ci+cj+ck)+(cij+cjk+cik),i,j,k=1,2,……,2509,通過(guò)“篇-詞”矩陣A和關(guān)鍵詞之間的共現(xiàn)矩陣C來(lái)獲得關(guān)鍵詞各自頻次、二元共現(xiàn)頻次,從而來(lái)計(jì)算三元共現(xiàn)頻次,表5為部分關(guān)鍵詞的共現(xiàn)頻次表,表中前三列為關(guān)鍵詞,第四列為三元共現(xiàn)頻次,五至七列為關(guān)鍵詞兩兩共現(xiàn)頻次,八至十列為關(guān)鍵詞各自頻次,第十一列為至少包含其中一個(gè)關(guān)鍵詞的文獻(xiàn)篇數(shù),
表5:共現(xiàn)頻次表(部分)
第七步:共現(xiàn)強(qiáng)度計(jì)算:
(1)二元共現(xiàn)強(qiáng)度計(jì)算
其中,c11,c22,…,c2509×2509分別為第1個(gè),第2個(gè),……,第2509個(gè)關(guān)鍵詞的頻數(shù);當(dāng)i≠j時(shí),bij為第i個(gè)關(guān)鍵詞與第j個(gè)關(guān)鍵詞的共現(xiàn)強(qiáng)度,當(dāng)i=j(luò)時(shí),bii=1,即矩陣B的對(duì)角線元素全為1,下表為截取的實(shí)驗(yàn)中二元共現(xiàn)強(qiáng)度矩陣B的部分實(shí)驗(yàn)結(jié)果,表中第1行和第1列為關(guān)鍵詞,
表6:共現(xiàn)強(qiáng)度矩陣B(部分)
根據(jù)三元共現(xiàn)頻次計(jì)算三元共現(xiàn)強(qiáng)度,
bijk為i,j,k三個(gè)關(guān)鍵詞之間的共現(xiàn)強(qiáng)度,cijk為i,j,k三個(gè)關(guān)鍵詞的三元共現(xiàn)頻次,cij、cjk和cik為關(guān)鍵詞兩兩共現(xiàn)的頻次,表7為截取的實(shí)驗(yàn)中三元共現(xiàn)強(qiáng)度的部分實(shí)驗(yàn)結(jié)果,表中前三列為關(guān)鍵詞,第四列為3個(gè)關(guān)鍵詞的共現(xiàn)次數(shù),第五列為對(duì)應(yīng)關(guān)鍵詞的三元共現(xiàn)強(qiáng)度,
表7:三元共現(xiàn)強(qiáng)度(部分)
第八步:構(gòu)建二元和三元加權(quán)共現(xiàn)潛在語(yǔ)義向量空間模型(CLSVSM)二元和三元加權(quán)CLSVSM模型為:
其中:
表8給出了二元和三元加權(quán)CLSVSM模型得到的新的“篇-詞”矩陣在實(shí)驗(yàn)中的結(jié)果,這里我們只截取了前20行和前15列,表中第1列記錄了文獻(xiàn)類別信息,第2列記錄了文獻(xiàn)的ID,第1行記錄了2509個(gè)關(guān)鍵詞:
表8:二元和三元加權(quán)CLSVSM得到新的“篇-詞”矩陣(部分)
第九步:文獻(xiàn)聚類
實(shí)驗(yàn)中將二元和三元加權(quán)共現(xiàn)潛在語(yǔ)義向量空間模型與二元CLSVSM進(jìn)行比較。實(shí)驗(yàn)采用D-I2方案進(jìn)行K-means聚類,每一種模型都進(jìn)行了50次實(shí)驗(yàn)。表9給出了兩種實(shí)驗(yàn)結(jié)果的比較。
表9:二元和三元加權(quán)CLSVSM與CLSVSM的實(shí)驗(yàn)比較
上表中的↓表示實(shí)驗(yàn)結(jié)果越小越好;相反,↑則表示實(shí)驗(yàn)結(jié)果越大越好。實(shí)驗(yàn)結(jié)果顯示,二元和三元加權(quán)CLSVSM結(jié)果優(yōu)于二元CLSVSM模型。