[0041] 根據所述文檔的每個主題的主題分布概率對所述詞向量和每個主題向量之間的 距離進行加權求和;
[0042] 將加權和作為所述詞向量和主題向量之間的距離。
[0043] 具體的,考慮到在某個文檔中,起到重要作用的主題可能會不止一個,而上述基于 最優(yōu)主題的方法可能會丟失部分信息,因此考慮對不同主題之間的距離根據P(z I d)進行 加權,可以得到一種新的度量方式即如下述公式所示
[0045] 其中,Score_Distr (w)為加權和,L為所述詞向量和主題向量之間的距離。
[0046] 上述度量方式即按文檔的主題分布加權后得到的詞語重要性得分。根據上述方法 得到的Score_Di str (w)對詞語進行排序,并選出選取預設個數(shù)詞向量對應的詞作為所述 文檔的關鍵詞。
[0047] 示例性的,本發(fā)明實施例還提供了根據隱含主題向量模型訓練得到與文檔信息相 關的至少一個主題向量和至少一個詞向量的具體實現(xiàn)方法,主要包括以下步驟:
[0048] 將所述文檔加入訓練資料庫中,為所述訓練資料庫中的每個文檔的每個主題和每 個詞分別構建初始主題向量和初始詞向量;
[0049] 根據所述初始主題向量和初始詞向量建立所述訓練資料庫中所有文檔的聯(lián)合似 然函數(shù);
[0050] 對所述聯(lián)合似然函數(shù)進行參數(shù)估計得到所述主題向量和詞向量。
[0051] 其中,所述訓練資料庫可從互聯(lián)網(例如,新浪語料數(shù)據庫)上進行獲取,訓練資 料庫中包含了各種類型的文檔。其中,初始主題向量和初始詞向量可自定義設置。
[0052] 示例性的,根據所述初始主題向量和初始詞向量建立聯(lián)合似然函數(shù),包括:
[0053] 根據公式一得到所述初始詞向量的生成概率:
[0055] 其中,奪w是當前詞w的詞向量V的輔助向量,Xw表示當前詞w的上下文向量,其 中,X v = VCw ? Fz,夂^是當前詞w的周圍詞的詞向量,vj前主題z的主題向量,毋 表示加和操作,W'為詞W';
[0056] 根據所述公式一得到所述訓練資料庫中所有文檔的聯(lián)合似然函數(shù)如公式二:
[0057] 公式二:
[0058]
[0059] 其中,a z為主題z對應的狄利克雷先驗參數(shù),f3 v為詞v對應的狄利克雷先驗參 數(shù),mdz為文檔d中被采樣成為主題z的句子的個數(shù),n zv表示所述訓練資料庫中詞V和主題 z -起出現(xiàn)的次數(shù)總和,M表示所有詞向量和主題向量的集合,D表示文檔d的總數(shù),T表示 文檔d中主題的總數(shù),W表示詞V的附屬詞。
[0060] 示例性的,為進一步優(yōu)化上述聯(lián)合似然函數(shù),在根據所述公式一得到聯(lián)合似然函 數(shù)如公式二之后,進一步包括如下步驟:
[0061] 采用吉布斯算法對所述公式二進行處理,可得文檔d中每個句子s對應的主題的 條件分布如公式三:
[0062] 公式三:
[0064] 其中,k為待定主題,W為所述訓練資料庫中詞的總數(shù),Nlw為詞w在文檔d中第i 個句子中出現(xiàn)的次數(shù);
[0065] 根據所述條件分布中每個主題的條件分布概率為文檔d的每個句子s確定特定主 題;
[0066] 根據所述特定主題的條件分布概率對所述公式一進行處理,得到如公式四所述的 對數(shù)似然函數(shù):
[0067] 公式四:
[0070] 對所述聯(lián)合似然函數(shù)進行參數(shù)估計得到所述主題向量和詞向量,包括:
[0071] 對所述對數(shù)似然函數(shù)進行參數(shù)估計得到所述主題向量和詞向量。
[0072] 示例性的,可進一步對上述得到的對數(shù)似然函數(shù)進行優(yōu)化,具體包括如下步驟:
[0073] 采用牛頓迭代法對所述對數(shù)似然函數(shù)中的參數(shù)a和參數(shù)P進行優(yōu)化處理;
[0074] 和 / 或,
[0075] 采用負采樣算法對所述對數(shù)似然函數(shù)中的詞向量、主題向量和輔助向量進行優(yōu) 化;
[0076] 相應的,對所述對數(shù)似然函數(shù)進行參數(shù)估計得到所述主題向量和詞向量,包括:
[0077] 對優(yōu)化后的對數(shù)似然函數(shù)進行參數(shù)估計得到所述主題向量和詞向量。
[0078] 示例性的,采用負采樣算法對詞向量、主題向量和輔助向量進行優(yōu)化,包括:
[0079] 采用負采樣算法對所述訓練資料庫中所有文檔中的詞和主題進行處理,得到如公 式五所述的似然函數(shù):
[0080] 公式五:
[0081]
[0082] 其中,1為當前詞對應的取值,如果當前詞是正常詞,則1 = 1,如果當前詞是負采 樣詞,則1= 〇,InegI為詞對應的負采樣詞的個數(shù),|v|為所述訓練資料庫中詞的總數(shù);
[0083] 采用隨機梯度下降法對所述公式五進行處理,可得如下詞向量的優(yōu)化公式如公式 六、主題向量的優(yōu)化公式如公式七和輔助向量的優(yōu)化公式如公式八:
[0090] 針對所述訓練數(shù)據庫中的訓練語料,使用本發(fā)明實施例提供的隱含主題向量模型 可以得到每個主題的向量化表示,采用現(xiàn)有技術中提供的基于主題模型可以學習得到每個 主題下詞的多項分布,本發(fā)明實施例對比了每個主題下詞的多項分布中概率最大的10個 詞以及離每個主題的向量最接近的10個詞向量,結果如下表一所示:
[0091] 表一
[0092]
[0093] 從表一可以看出,基于主題模型的多項分布對于高頻詞有著很明顯的傾斜,但中 低頻詞通過傳統(tǒng)的主題分布與主題建立起來的聯(lián)系較弱,這就使得在使用多項分布進行關 鍵詞抽取的時候,主題模型會很自然地偏向于高頻詞,從而導致較差的關鍵詞抽取結果。而 隱含主題模型的向量化表示則消除了這個問題,從上表可以看到,離主題向量最近的詞往 往都是該主題下表示實際含義的詞,這就使得利用主題向量的模型在關鍵詞抽取的任務當 中能夠獲得更好的結果。
[0094] 因此,上述各實施例同樣通過根據主題模型和詞向量融合后的隱含主題向量模型 對文檔進行訓練,得到與文檔信息相關的至少一個主題向量和至少一個詞向量,進一步根 據詞向量與所述主題向量之間的距離,選取預設個數(shù)詞向量對應的詞作為所述文檔的關鍵 詞。本實施例根據隱含主題向量模型對文檔進行訓練,在訓練過程中能夠捕捉更多的文檔 信息,從而提取出的精確表達文檔信息的關鍵詞信息。
[0095] 實施例二
[0096] 圖2為本發(fā)明實施例二提供的提取文檔中關鍵詞的方法的流程示意圖,如圖2所 示,具體包括:
[0097] S21、將待處理文檔加入訓練資料庫中,為所述訓練資料庫中的每個文檔的每個主 題和每個詞分別構建初始主題向量和初始詞向量;
[0098] S22、根據公式一得到所述初始詞向量的生成概率:
[0100] 其中,I是當前詞w的詞向量V的輔助向量,Xw表示當前詞w的上下文向量,其 中,3? = 十Vz,當前詞w的周圍詞的詞向量,'當前主題z的主題向量,0 表示加和操作,w'為詞w';
[0101] S23、根據所述公式一得到所述訓練資料庫中所有文檔的聯(lián)合似然函數(shù)如公式
[0102] 公式二:
[0103]
[0104] 其中,a z為主題z對應的狄利克雷先驗參數(shù),f3 v為詞v對應的狄利克雷先驗參 數(shù),mdz為文檔d中被采樣成為主題z的句子的個數(shù),n zv表示所述訓練資料庫中詞V和主題 z -起出現(xiàn)的次數(shù)總和,M表示所有詞向量和主題向量的集合,D表示文檔d的總數(shù),T表示 文檔d中主題的總數(shù),W表示詞V的附屬詞。
[0105] S24、采用吉布斯算法對所述公式二進行處理,可得文檔d中每個句子s對應的主 題的條件分布如公式三:
[0106] 公式三:
[0108] 其中,k為待定主題,W為所述訓練資料庫中詞的總數(shù),Nlw為詞w在文檔d中第i 個句子中出現(xiàn)的次數(shù);
[0109] S25、根據所述條件分布中每個主題的條件分布概率為文檔d的每個句子s確定特 定主題;
[0110] S26、根據所述特定主題的條件分布概率對所述公式一進行處理,得到如公式四所 述的對數(shù)似然函數(shù):
[0111] 公式四:
[0112]
[0114] S27、采用牛頓迭代法對所述對數(shù)似然函數(shù)中的參數(shù)a和參數(shù)0進行優(yōu)化處理, 并采用負采樣算法對所述對數(shù)似然函數(shù)中的詞向量、主題向量和輔助向量進行優(yōu)化;
[0115] S28、對優(yōu)化后的對數(shù)似然函數(shù)進行參數(shù)估計得到所述待處理文檔的主題向量和 詞向量。
[0116] S29、計算所述詞向量和主題向量之間的余弦距離;
[0117] S210、根據詞向量與所述主題向量之間的余弦距離,選取預設個數(shù)詞向量對應的 詞作為所述待處理文檔的關鍵詞。
[0118] 為了驗證本發(fā)明實施例的有效性,發(fā)明人分別在不同規(guī)模的實驗數(shù)據集上進行了 多組對比實驗,實驗效果均超過了傳統(tǒng)基于主題模型的方法的最佳結果。
[0119] 第一組實驗,小規(guī)模數(shù)據實驗
[0120] 實驗目的:從一個文檔中的所有詞當中挑選出最能體現(xiàn)文檔含義的