一種基于二元和三元共詞潛在語(yǔ)義信息的文獻(xiàn)表示方法與流程

文檔序號(hào)：12665895閱讀：953來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于文獻(xiàn)信息處理方法技術(shù)領(lǐng)域，具體涉及一種基于二元和三元共詞潛在語(yǔ)義信息的文獻(xiàn)表示方法。

背景技術(shù)：

文本數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的一個(gè)主要方向，通過(guò)對(duì)出現(xiàn)在文本數(shù)據(jù)中的高頻關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì)分析，我們可以了解到目前某一專題領(lǐng)域里研究的熱點(diǎn)。但是，僅僅對(duì)這些關(guān)鍵詞按照出現(xiàn)頻次由高到低的排列還不能表現(xiàn)出這些高頻關(guān)鍵詞之間的聯(lián)系，因此可以采用共現(xiàn)分析的技術(shù)來(lái)進(jìn)一步挖掘這些關(guān)鍵詞之間的聯(lián)系。關(guān)鍵詞的共現(xiàn)分析是根據(jù)關(guān)鍵詞在同一篇論文中共同出現(xiàn)的次數(shù)來(lái)表示關(guān)鍵詞之間的聯(lián)系。一般認(rèn)為，如果兩個(gè)關(guān)鍵詞頻繁在同一篇論文中同時(shí)出現(xiàn)，往往表明這兩個(gè)關(guān)鍵詞之間具有比較密切的聯(lián)系，這就是共現(xiàn)分析的理論基礎(chǔ)。

目前，對(duì)共現(xiàn)分析的研究大都考慮的兩兩詞之間的共現(xiàn)關(guān)系，三詞共現(xiàn)或者更多詞的共現(xiàn)已可以進(jìn)一步挖掘和利用。根據(jù)共現(xiàn)理論，多詞共現(xiàn)更能凸現(xiàn)主題相似性，因此理論上講，利用多詞共現(xiàn)的信息能提高文本語(yǔ)義信息的挖掘。在國(guó)內(nèi)冷伏海老師首次研究了三元共詞，并定義了穩(wěn)定度和影響力兩個(gè)指標(biāo)對(duì)三元共詞進(jìn)行量化。與之相近的概念是三重共現(xiàn)，首次由龐弘燊和方曙提出，指三個(gè)以上(含三個(gè))相同類型或不同類型特征項(xiàng)共同出現(xiàn)的現(xiàn)象。本研究沿用“元”的概念，將兩詞、三詞共現(xiàn)稱為二元、三元共詞或二元、三元共現(xiàn)，通過(guò)對(duì)關(guān)鍵詞二元和三元共詞信息的提取進(jìn)而實(shí)現(xiàn)文獻(xiàn)向量的表示。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的是提供一種基于二元和三元共詞潛在語(yǔ)義信息的文獻(xiàn)表示方法。

本發(fā)明為實(shí)現(xiàn)上述目的而采取的技術(shù)方案為：

一種基于二元和三元共詞潛在語(yǔ)義信息的文獻(xiàn)表示方法，包括以下步驟：

第一步：對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理，數(shù)據(jù)清洗，標(biāo)記文獻(xiàn)，提取每篇文獻(xiàn)的關(guān)鍵詞，并保留關(guān)鍵詞與相應(yīng)文獻(xiàn)的對(duì)應(yīng)關(guān)系；

第二步：構(gòu)建關(guān)鍵詞空間并對(duì)所提取的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì)，關(guān)鍵詞按詞頻降序排列，以備后續(xù)建立共現(xiàn)矩陣使用；

第三步：以關(guān)鍵詞在文獻(xiàn)中是否出現(xiàn)為權(quán)重，構(gòu)建文獻(xiàn)表示的向量空間模型如下：

d_l＝(a_l1 a_l2 a_l3 … a_lm)^T∈R^m，l＝1,2,…,n

其中：d_l是n篇文獻(xiàn)中第l篇文獻(xiàn)在歐式空間R^m中的表示向量，a_lj為第j個(gè)關(guān)鍵詞在第l篇文獻(xiàn)中的權(quán)重，當(dāng)?shù)趈個(gè)關(guān)鍵詞是文獻(xiàn)d_l的關(guān)鍵詞時(shí)a_lj等于1，否則為0；l為文獻(xiàn)序號(hào)，n為文獻(xiàn)總篇數(shù)，m為關(guān)鍵詞集中總關(guān)鍵詞的個(gè)數(shù)，R^m為歐式空間，T表示轉(zhuǎn)置運(yùn)算，文獻(xiàn)集的“篇-詞”矩陣A＝(a_lj)_n×m；

第四步：三元共現(xiàn)層矩陣表示

其中：表示第j個(gè)關(guān)鍵詞與所有關(guān)鍵詞對(duì)(t_i,t_k)(i,k＝1,2,…,m)的三元共現(xiàn)矩陣，稱為三元共現(xiàn)的第j層，為“篇-詞”矩陣A的第j列，為對(duì)角矩陣，其對(duì)角元依次為的分量；

第五步：計(jì)算關(guān)鍵詞之間的共詞矩陣C＝A^TA，其中，當(dāng)i≠j時(shí)，c_ij為第i個(gè)關(guān)鍵詞與第j個(gè)關(guān)鍵詞的共現(xiàn)頻次，當(dāng)i＝j(luò)時(shí)，c_ii為第i個(gè)關(guān)鍵詞的總頻次；

第六步：三元共現(xiàn)頻次的計(jì)算：

由于c_i∪j∪k＝c_i+c_j+c_k-c_ij-c_jk-c_ik+c_ijk所以三元共現(xiàn)頻次為

c_ijk＝c_i∪j∪k-(c_i+c_j+c_k)+(c_ij+c_jk+c_ik)

其中c_i∪jk為至少包含(t_i,t_j,t_k)三詞之一的文獻(xiàn)篇數(shù)，可由“篇-詞”矩陣A＝(a_lj)_n×m得到；c_ij、c_jk和c_ik為關(guān)鍵詞兩兩共現(xiàn)的頻次，c_i，c_j和c_k分別為第i,j,k個(gè)關(guān)鍵詞各自的頻次，可由關(guān)鍵詞之間的共詞矩陣C＝A^TA得到；

第七步：共現(xiàn)強(qiáng)度計(jì)算：

(1)二元共現(xiàn)強(qiáng)度計(jì)算：

其中，c₁₁,c₂₂,…,c_mm分別為第1個(gè)，第2個(gè)，……,第m個(gè)關(guān)鍵詞的頻數(shù)；當(dāng)i≠j時(shí)，b_ij為第i個(gè)關(guān)鍵詞與第j個(gè)關(guān)鍵詞的共現(xiàn)強(qiáng)度，當(dāng)i＝j(luò)時(shí)，b_ii＝1,即矩陣B的對(duì)角線元素全為1；

(2)三元共現(xiàn)強(qiáng)度計(jì)算：

b_ijk為第i,j,k個(gè)關(guān)鍵詞的三元共現(xiàn)強(qiáng)度；

第八步：二元、三元加權(quán)CLSVSM的構(gòu)建

其中，

I_l1＝{j|a_lj＝1}為所有a_lj＝1的j的指標(biāo)集。

本發(fā)明采用上述技術(shù)方案，通過(guò)對(duì)二元、三元共現(xiàn)信息的加權(quán)實(shí)現(xiàn)文獻(xiàn)向量的表示，通過(guò)二元、三元共現(xiàn)信息的提取深度挖掘文獻(xiàn)間的語(yǔ)義信息，提高文獻(xiàn)聚類的精度。

本發(fā)明的主要優(yōu)點(diǎn)如下：

1.該發(fā)明研究了一種三元共現(xiàn)信息的矩陣表示方法——三元共現(xiàn)層矩陣。研究三元共現(xiàn)，首要解決的是三元共現(xiàn)信息的表示問(wèn)題，然而表示二維關(guān)系的矩陣不利于表示所有的三元共現(xiàn)關(guān)系。因此我們的研究給出了三元共現(xiàn)的層矩陣表示，即其中任何一詞與任意兩詞的三元共現(xiàn)矩陣表示，具體表示方式見(jiàn)發(fā)明內(nèi)容的第四步。

2.該發(fā)明引入了一種三元共現(xiàn)頻次的計(jì)算方法。該計(jì)算方法從概率論中得到啟發(fā)，根據(jù)二元共現(xiàn)頻次和關(guān)鍵詞各自的頻次求得三元共現(xiàn)頻次。該計(jì)算方法將有效提高算法的運(yùn)算速度，降低計(jì)算的復(fù)雜度。三元共現(xiàn)頻次的計(jì)算方法詳見(jiàn)研究?jī)?nèi)容的第六步。

3.該發(fā)明基于二元和三元共現(xiàn)強(qiáng)度構(gòu)成了二元和三元加權(quán)共現(xiàn)潛在語(yǔ)義信息的文獻(xiàn)表示方法。在文獻(xiàn)表示模型中，三元共現(xiàn)信息相比二元共現(xiàn)信息有更重要的潛在語(yǔ)義信息，也對(duì)文獻(xiàn)主題聚類有更好的作用。因此，將兩兩共現(xiàn)信息和三元共現(xiàn)信息加權(quán)利用，且給三元共現(xiàn)信息更大的權(quán)重，提高了文獻(xiàn)主題聚類的精度，具體表示方式見(jiàn)研究?jī)?nèi)容的第八步。

具體實(shí)施方式

實(shí)施例1

一種基于二元和三元共詞潛在語(yǔ)義信息的文獻(xiàn)表示方法，包括以下步驟：

第一步：對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理，數(shù)據(jù)清洗，標(biāo)記文獻(xiàn)，提取每篇文獻(xiàn)的關(guān)鍵詞，并保留關(guān)鍵詞與相應(yīng)文獻(xiàn)的對(duì)應(yīng)關(guān)系：

數(shù)據(jù)來(lái)源于CNKI，根據(jù)其分類，分別從信息科學(xué)下的“出版”、“圖書情報(bào)與數(shù)字圖書館”和“檔案及博物館”三個(gè)學(xué)科各選300篇文獻(xiàn)作為分析的文獻(xiàn)，除去沒(méi)有關(guān)鍵詞的文獻(xiàn)4篇，最終獲得的文獻(xiàn)總數(shù)為896篇，其中“出版”299篇、“圖書情報(bào)與數(shù)字圖書館”298篇、“檔案及博物館”299篇，并獲取不同的關(guān)鍵詞2509個(gè)，即：文獻(xiàn)數(shù)n＝896，關(guān)鍵詞數(shù)m＝2509，表1為截取的前20篇文獻(xiàn)及其對(duì)應(yīng)的全部關(guān)鍵詞，表1中LM為文獻(xiàn)類別，ID為文獻(xiàn)編號(hào)，k1-k10為文獻(xiàn)相應(yīng)關(guān)鍵詞。

表1：文獻(xiàn)與相應(yīng)關(guān)鍵詞列表(部分)

第二步：構(gòu)建關(guān)鍵詞空間并對(duì)所提取的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì)，關(guān)鍵詞按詞頻降序排列，表2為我們實(shí)驗(yàn)結(jié)果中的前20個(gè)關(guān)鍵詞及相應(yīng)的詞頻：

表2：關(guān)鍵詞頻次統(tǒng)計(jì)(部分)

第三步：以關(guān)鍵詞在文獻(xiàn)中是否出現(xiàn)為權(quán)重，構(gòu)建文獻(xiàn)表示的向量空間模型如下：

d_l＝(a_l1,a_l2,...,a_l,2509)^T∈R²⁵⁰⁹，l＝1,2,…,896

其中：d_l是896篇文獻(xiàn)中第l篇文獻(xiàn)在歐式空間R²⁵⁰⁹中的表示向量，因?yàn)橛?509個(gè)關(guān)鍵詞,所以歐式空間為R²⁵⁰⁹，a_lj(j＝1,2,…,2509)為第j個(gè)關(guān)鍵詞在第l篇文獻(xiàn)中的權(quán)重，l為文獻(xiàn)序號(hào)，T表示轉(zhuǎn)置運(yùn)算，當(dāng)?shù)趈個(gè)關(guān)鍵詞是文獻(xiàn)d_l的關(guān)鍵詞時(shí)a _lj等于1，否則為0，文獻(xiàn)集的“篇-詞”矩陣為A＝(a_lj)_896×2509，表3為矩陣A在實(shí)驗(yàn)中的前20行和前15列在Excel中的數(shù)據(jù)呈現(xiàn)，該實(shí)驗(yàn)中矩陣A的維數(shù)為896×2509，表3中第1行記錄了2509個(gè)關(guān)鍵詞；第1列記錄了類別信息；第2列記錄了文獻(xiàn)的ID；第1行第1列位置的897指使用該Excel表格897行，

表3：基于VSM的“篇-詞”矩陣A(部分)

第四步：三元共現(xiàn)層矩陣表示：

三元共現(xiàn)層矩陣的表示形式為其中：表示第j個(gè)關(guān)鍵詞與所有關(guān)鍵詞對(duì)(t_i,t_k)(i,k＝1,2,…,2509)的三元共現(xiàn)矩陣，稱為三元共現(xiàn)的第j層，為“篇-詞”矩陣A的第j列，為對(duì)角矩陣，其對(duì)角元依次為的分量；

第五步：關(guān)鍵詞之間的共現(xiàn)矩陣計(jì)算：

關(guān)鍵詞之間的共現(xiàn)矩陣C＝A^TA＝(c_ij)_2509×2509，表4為矩陣C在實(shí)驗(yàn)中的部分結(jié)果呈現(xiàn)，其中，當(dāng)i≠j時(shí)，c_ij為第i個(gè)關(guān)鍵詞與第j個(gè)關(guān)鍵詞的共現(xiàn)頻次，當(dāng)i＝j(luò)時(shí)，c_ii為第i個(gè)關(guān)鍵詞的總頻次，即對(duì)角線上的值。部分實(shí)驗(yàn)結(jié)果見(jiàn)表4，表中第1行和第1列為關(guān)鍵詞。

表4：關(guān)鍵詞共現(xiàn)矩陣C(部分)

第六步：三元共現(xiàn)頻次計(jì)算：

根據(jù)公式c_ijk＝c_i∪j∪k-(c_i+c_j+c_k)+(c_ij+c_jk+c_ik)，i,j,k＝1,2,……,2509，通過(guò)“篇-詞”矩陣A和關(guān)鍵詞之間的共現(xiàn)矩陣C來(lái)獲得關(guān)鍵詞各自頻次、二元共現(xiàn)頻次，從而來(lái)計(jì)算三元共現(xiàn)頻次，表5為部分關(guān)鍵詞的共現(xiàn)頻次表，表中前三列為關(guān)鍵詞，第四列為三元共現(xiàn)頻次，五至七列為關(guān)鍵詞兩兩共現(xiàn)頻次，八至十列為關(guān)鍵詞各自頻次，第十一列為至少包含其中一個(gè)關(guān)鍵詞的文獻(xiàn)篇數(shù)，

表5：共現(xiàn)頻次表(部分)

第七步：共現(xiàn)強(qiáng)度計(jì)算：

(1)二元共現(xiàn)強(qiáng)度計(jì)算

其中，c₁₁，c₂₂，…，c_2509×2509分別為第1個(gè)，第2個(gè)，……，第2509個(gè)關(guān)鍵詞的頻數(shù)；當(dāng)i≠j時(shí)，b_ij為第i個(gè)關(guān)鍵詞與第j個(gè)關(guān)鍵詞的共現(xiàn)強(qiáng)度，當(dāng)i＝j(luò)時(shí)，b_ii＝1，即矩陣B的對(duì)角線元素全為1，下表為截取的實(shí)驗(yàn)中二元共現(xiàn)強(qiáng)度矩陣B的部分實(shí)驗(yàn)結(jié)果，表中第1行和第1列為關(guān)鍵詞，

表6：共現(xiàn)強(qiáng)度矩陣B(部分)

根據(jù)三元共現(xiàn)頻次計(jì)算三元共現(xiàn)強(qiáng)度，

b_ijk為i，j，k三個(gè)關(guān)鍵詞之間的共現(xiàn)強(qiáng)度，c_ijk為i，j，k三個(gè)關(guān)鍵詞的三元共現(xiàn)頻次，c_ij、c_jk和c_ik為關(guān)鍵詞兩兩共現(xiàn)的頻次，表7為截取的實(shí)驗(yàn)中三元共現(xiàn)強(qiáng)度的部分實(shí)驗(yàn)結(jié)果，表中前三列為關(guān)鍵詞，第四列為3個(gè)關(guān)鍵詞的共現(xiàn)次數(shù)，第五列為對(duì)應(yīng)關(guān)鍵詞的三元共現(xiàn)強(qiáng)度，

表7：三元共現(xiàn)強(qiáng)度(部分)

第八步：構(gòu)建二元和三元加權(quán)共現(xiàn)潛在語(yǔ)義向量空間模型(CLSVSM)二元和三元加權(quán)CLSVSM模型為：

其中：

表8給出了二元和三元加權(quán)CLSVSM模型得到的新的“篇-詞”矩陣在實(shí)驗(yàn)中的結(jié)果，這里我們只截取了前20行和前15列，表中第1列記錄了文獻(xiàn)類別信息，第2列記錄了文獻(xiàn)的ID，第1行記錄了2509個(gè)關(guān)鍵詞：

表8：二元和三元加權(quán)CLSVSM得到新的“篇-詞”矩陣(部分)

第九步：文獻(xiàn)聚類

實(shí)驗(yàn)中將二元和三元加權(quán)共現(xiàn)潛在語(yǔ)義向量空間模型與二元CLSVSM進(jìn)行比較。實(shí)驗(yàn)采用D-I2方案進(jìn)行K-means聚類，每一種模型都進(jìn)行了50次實(shí)驗(yàn)。表9給出了兩種實(shí)驗(yàn)結(jié)果的比較。

表9：二元和三元加權(quán)CLSVSM與CLSVSM的實(shí)驗(yàn)比較

上表中的↓表示實(shí)驗(yàn)結(jié)果越小越好；相反，↑則表示實(shí)驗(yàn)結(jié)果越大越好。實(shí)驗(yàn)結(jié)果顯示，二元和三元加權(quán)CLSVSM結(jié)果優(yōu)于二元CLSVSM模型。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：牛奉高
技術(shù)所有人：山西大學(xué)
我是此專利的發(fā)明人

上一篇：一種治療濕疹的藥酒的制作方法與工藝
上一篇：一種360度平衡康復(fù)訓(xùn)練器的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

二元語(yǔ)義相關(guān)技術(shù)

潛在語(yǔ)義分析相關(guān)技術(shù)

潛在語(yǔ)義索引相關(guān)技術(shù)

lsa潛在語(yǔ)義分析相關(guān)技術(shù)

概率潛在語(yǔ)義分析相關(guān)技術(shù)

lsi潛在語(yǔ)義索引相關(guān)技術(shù)

概率潛在語(yǔ)義索引相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于二元和三元共詞潛在語(yǔ)義信息的文獻(xiàn)表示方法與流程