估計(jì)單元313具體用于:
[0177] 對(duì)優(yōu)化后的對(duì)數(shù)似然函數(shù)進(jìn)行參數(shù)估計(jì)得到所述主題向量和詞向量。
[0178] 示例的,所述對(duì)數(shù)似然函數(shù)優(yōu)化處理單元315具體用于:
[0179] 采用負(fù)采樣算法對(duì)所述訓(xùn)練資料庫(kù)中所有文檔中的詞和主題進(jìn)行處理,得到如公 式五所述的似然函數(shù):
[0180] 公式五:
[0181]
[0182] 其中,1為當(dāng)前詞對(duì)應(yīng)的取值,InegI為詞對(duì)應(yīng)的負(fù)采樣詞的個(gè)數(shù),Iv|為所述訓(xùn)練 資料庫(kù)中詞的總數(shù);
[0183] 采用隨機(jī)梯度下降法對(duì)所述公式五進(jìn)行處理,可得如下詞向量的優(yōu)化公式如公式 六、主題向量的優(yōu)化公式如公式七和輔助向量的優(yōu)化公式如公式八:
[0184] 公式六:
[0190] 示例性的,所述參數(shù)估計(jì)單元313還用于:
[0191] 對(duì)所述聯(lián)合似然函數(shù)進(jìn)行參數(shù)估計(jì)的過(guò)程中采用公式九得到每個(gè)文檔的主題分 布:
[0192] 公式九:
[0194] 其中,K為主題z在文檔d的總數(shù)。
[0195] 上述各實(shí)施例所述的提取文檔中關(guān)鍵詞的裝置同樣用于執(zhí)行上述各實(shí)施例所述 的提取文檔中關(guān)鍵詞的方法,其技術(shù)原理和產(chǎn)生的技術(shù)效果類(lèi)似,這里不再累述。
[0196] 注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解, 本發(fā)明不限于這里所述的特定實(shí)施例,對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)能夠進(jìn)行各種明顯的變化、 重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此,雖然通過(guò)以上實(shí)施例對(duì)本發(fā)明進(jìn)行 了較為詳細(xì)的說(shuō)明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還 可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。
【主權(quán)項(xiàng)】
1. 一種提取文檔中關(guān)鍵詞的方法,其特征在于,包括: 根據(jù)隱含主題向量模型訓(xùn)練得到與文檔信息相關(guān)的至少一個(gè)主題向量和至少一個(gè)詞 向量,所述隱含主題向量模型為主題模型和詞向量的融合模型; 計(jì)算所述詞向量和主題向量之間的距離; 根據(jù)詞向量與所述主題向量之間的距離,選取預(yù)設(shè)個(gè)數(shù)詞向量對(duì)應(yīng)的詞作為所述文檔 的關(guān)鍵詞。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,計(jì)算所述詞向量和主題向量之間的距離, 包括: 根據(jù)所述文檔的主題分布從至少一個(gè)主題中選取主題分布概率最大的主題作為最優(yōu) 主題; 計(jì)算所述詞向量和所述最優(yōu)主題對(duì)應(yīng)的主題向量之間的距離。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,計(jì)算所述詞向量和主題向量之間的距離, 包括: 根據(jù)所述文檔的每個(gè)主題的主題分布概率對(duì)所述詞向量和每個(gè)主題向量之間的距離 進(jìn)行加權(quán)求和; 將加權(quán)和作為所述詞向量和主題向量之間的距離。4. 根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,所述距離為余弦距離。5. 根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,根據(jù)隱含主題向量模型訓(xùn)練得 到與文檔信息相關(guān)的至少一個(gè)主題向量和至少一個(gè)詞向量,包括: 將所述文檔加入訓(xùn)練資料庫(kù)中,為所述訓(xùn)練資料庫(kù)中的每個(gè)文檔的每個(gè)主題和每個(gè)詞 分別構(gòu)建初始主題向量和初始詞向量; 根據(jù)所述初始主題向量和初始詞向量建立所述訓(xùn)練資料庫(kù)中所有文檔的聯(lián)合似然函 數(shù); 對(duì)所述聯(lián)合似然函數(shù)進(jìn)行參數(shù)估計(jì)得到所述主題向量和詞向量。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)所述初始主題向量和初始詞向量建 立所述訓(xùn)練資料庫(kù)中所有文檔的聯(lián)合似然函數(shù),包括: 通過(guò)計(jì)算公式得到所述初始詞向量的生成概率; 根據(jù)所述計(jì)算公式得到所述訓(xùn)練資料庫(kù)中所有文檔的聯(lián)合似然函數(shù)。7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,根據(jù)所述計(jì)算公式得到聯(lián)合似然函數(shù)之 后,還包括: 采用吉布斯算法對(duì)所述聯(lián)合似然函數(shù)進(jìn)行處理,可得每個(gè)文檔中每個(gè)句子對(duì)應(yīng)的主題 的條件分布; 根據(jù)所述條件分布中每個(gè)主題的條件分布概率為每個(gè)文檔的每個(gè)句子確定特定主 題; 根據(jù)所述特定主題的條件分布概率對(duì)所述聯(lián)合似然函數(shù)進(jìn)行處理,得到對(duì)數(shù)似然函 數(shù); 對(duì)所述聯(lián)合似然函數(shù)進(jìn)行參數(shù)估計(jì)得到所述主題向量和詞向量,包括: 對(duì)所述對(duì)數(shù)似然函數(shù)進(jìn)行參數(shù)估計(jì)得到所述主題向量和詞向量。8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,得到如公式四所述的對(duì)數(shù)似然函數(shù)之后, 還包括: 采用牛頓迭代法對(duì)所述對(duì)數(shù)似然函數(shù)中的參數(shù)進(jìn)行優(yōu)化處理; 和/或, 采用負(fù)采樣算法對(duì)所述對(duì)數(shù)似然函數(shù)中的詞向量、主題向量和輔助向量進(jìn)行優(yōu)化; 對(duì)所述對(duì)數(shù)似然函數(shù)進(jìn)行參數(shù)估計(jì)得到所述主題向量和詞向量,包括: 對(duì)優(yōu)化后的對(duì)數(shù)似然函數(shù)進(jìn)行參數(shù)估計(jì)得到所述主題向量和詞向量。9.根據(jù)權(quán)利要求8所述的方法,其特征在于,采用負(fù)采樣算法對(duì)詞向量、主題向量和輔 助向量進(jìn)行優(yōu)化,包括: 采用負(fù)采樣算法對(duì)所述訓(xùn)練資料庫(kù)中所有文檔中的詞和主題進(jìn)行處理,得到負(fù)采樣似 然函數(shù); 采用隨機(jī)梯度下降法對(duì)所述負(fù)采樣似然函數(shù)進(jìn)行處理,得到所述詞向量的優(yōu)化公式、 主題向量的優(yōu)化公式和輔助向量的優(yōu)化公式。10. 根據(jù)權(quán)利要求6~9任一項(xiàng)所述的方法,其特征在于,還包括: 對(duì)所述聯(lián)合似然函數(shù)進(jìn)行參數(shù)估計(jì)的過(guò)程中得到每個(gè)文檔的主題分布。11. 一種提取文檔中關(guān)鍵詞的裝置,其特征在于,包括: 向量訓(xùn)練模塊,用于根據(jù)隱含主題向量模型訓(xùn)練得到與文檔信息相關(guān)的至少一個(gè)主題 向量和至少一個(gè)詞向量,所述隱含主題向量模型為主題模型和詞向量的融合模型; 距離計(jì)算模塊,用于計(jì)算所述詞向量和主題向量之間的距離; 關(guān)鍵詞提取模塊,用于根據(jù)詞向量與所述主題向量之間的距離,選取預(yù)設(shè)個(gè)數(shù)詞向量 對(duì)應(yīng)的詞作為所述文檔的關(guān)鍵詞。12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述距離計(jì)算模塊具體用于: 根據(jù)所述文檔的主題分布從至少一個(gè)主題中選取主題分布概率最大的主題作為最優(yōu) 主題;計(jì)算所述詞向量和所述最優(yōu)主題對(duì)應(yīng)的主題向量之間的距離。13.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述距離計(jì)算模塊具體用于: 根據(jù)所述文檔的每個(gè)主題的主題分布概率對(duì)所述詞向量和每個(gè)主題向量之間的距離 進(jìn)行加權(quán)求和;將加權(quán)和作為所述詞向量和主題向量之間的距離。14.根據(jù)權(quán)利要求11-13任一項(xiàng)所述的裝置,其特征在于,所述距離為余弦距離。15.根據(jù)權(quán)利要求11-13任一項(xiàng)所述的裝置,其特征在于,所述向量訓(xùn)練模塊包括: 向量構(gòu)建單元,用于將所述文檔加入訓(xùn)練資料庫(kù)中,為所述訓(xùn)練資料庫(kù)中的每個(gè)文檔 的每個(gè)主題和每個(gè)詞分別構(gòu)建初始主題向量和初始詞向量; 聯(lián)合似然函數(shù)建立單元,用于根據(jù)所述初始主題向量和初始詞向量建立所述訓(xùn)練資料 庫(kù)中所有文檔的聯(lián)合似然函數(shù); 參數(shù)估計(jì)單元,用于對(duì)所述聯(lián)合似然函數(shù)進(jìn)行參數(shù)估計(jì)得到所述主題向量和詞向量。16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述聯(lián)合似然函數(shù)建立單元具體用于: 通過(guò)計(jì)算公式得到所述初始詞向量的生成概率; 根據(jù)所述計(jì)算公式得到所述訓(xùn)練資料庫(kù)中所有文檔的聯(lián)合似然函數(shù)。17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述向量訓(xùn)練模塊還包括: 聯(lián)合似然函數(shù)處理單元,用于在所述聯(lián)合似然函數(shù)建立單元根據(jù)所述計(jì)算公式一得到 聯(lián)合似然函數(shù)之后,采用吉布斯算法對(duì)所述聯(lián)合似然函數(shù)進(jìn)行處理,可得每個(gè)文檔中每個(gè) 句子對(duì)應(yīng)的主題的條件分布; 根據(jù)所述條件分布中每個(gè)主題的條件分布概率為每個(gè)文檔的每個(gè)句子確定特定主 題; 根據(jù)所述特定主題的條件分布概率對(duì)所述聯(lián)合似然函數(shù)進(jìn)行處理,得到對(duì)數(shù)似然函 數(shù); 所述參數(shù)估計(jì)單元具體用于: 對(duì)所述對(duì)數(shù)似然函數(shù)進(jìn)行參數(shù)估計(jì)得到所述主題向量和詞向量。18. 根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述向量訓(xùn)練模塊還包括: 對(duì)數(shù)似然函數(shù)優(yōu)化處理單元,用于在所述聯(lián)合似然函數(shù)處理單元得到對(duì)數(shù)似然函數(shù)之 后,采用牛頓迭代法對(duì)所述對(duì)數(shù)似然函數(shù)中的參數(shù)進(jìn)行優(yōu)化處理; 和/或, 采用負(fù)采樣算法對(duì)所述對(duì)數(shù)似然函數(shù)中的詞向量、主題向量和輔助向量進(jìn)行優(yōu)化; 所述參數(shù)估計(jì)單元具體用于: 對(duì)優(yōu)化后的對(duì)數(shù)似然函數(shù)進(jìn)行參數(shù)估計(jì)得到所述主題向量和詞向量。19. 根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述對(duì)數(shù)似然函數(shù)優(yōu)化處理單元具體 用于: 采用負(fù)采樣算法對(duì)所述訓(xùn)練資料庫(kù)中所有文檔中的詞和主題進(jìn)行處理,得到負(fù)采樣似 然函數(shù); 采用隨機(jī)梯度下降法對(duì)所述負(fù)采樣似然函數(shù)進(jìn)行處理,得到所述詞向量的優(yōu)化公式、 主題向量的優(yōu)化公式和輔助向量的優(yōu)化公式。20. 根據(jù)權(quán)利要求16~19任一項(xiàng)所述的裝置,其特征在于,所述參數(shù)估計(jì)單元還用 于: 對(duì)所述聯(lián)合似然函數(shù)進(jìn)行參數(shù)估計(jì)的過(guò)程中得到每個(gè)文檔的主題分布。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種提取文檔中關(guān)鍵詞的方法及裝置,其中所述方法包括:根據(jù)隱含主題向量模型訓(xùn)練得到與文檔信息相關(guān)的至少一個(gè)主題向量和至少一個(gè)詞向量,所述隱含主題向量模型為主題模型和詞向量的融合模型;計(jì)算所述詞向量和主題向量之間的距離;根據(jù)詞向量與所述主題向量之間的距離,選取預(yù)設(shè)個(gè)數(shù)詞向量對(duì)應(yīng)的詞作為所述文檔的關(guān)鍵詞。本發(fā)明實(shí)施例能夠提取出的精確表達(dá)文檔信息的關(guān)鍵詞信息。
【IPC分類(lèi)】G06F17/30
【公開(kāi)號(hào)】CN105069143
【申請(qǐng)?zhí)枴緾N201510512363
【發(fā)明人】姜迪, 石磊, 林鴻宇
【申請(qǐng)人】百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
【公開(kāi)日】2015年11月18日
【申請(qǐng)日】2015年8月19日