機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計 算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟W產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或 其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖 一個方框或多個方框中指定的功能的步驟。
[0106] 盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造 性概念,則可對送些實施例作出另外的變更和修改。所W,所附權(quán)利要求意欲解釋為包括優(yōu) 選實施例W及落入本發(fā)明范圍的所有變更和修改。顯然,上述實施例僅僅是為清楚地說明 所作的舉例,而并非對實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的 基礎(chǔ)上還可W做出其它不同形式的變化或變動。送里無需也無法對所有的實施方式予W窮 舉。而由此所引伸出的顯而易見的變化或變動仍處于本發(fā)明創(chuàng)造的保護范圍之中。
【主權(quán)項】
1. 一種計算領(lǐng)域知識點的相關(guān)知識點的方法,其特征在于,包括 獲取領(lǐng)域知識點; 確定參考文本,根據(jù)所述領(lǐng)域知識點對所述參考文本進行分詞,得到分詞結(jié)果,將所述 分詞結(jié)果中的詞作為知識點,所述知識點包括所述領(lǐng)域知識點和其他知識點; 依次為分詞結(jié)果中的每個知識點建立索引; 根據(jù)所述知識點的索引和所述知識點在參考文本中出現(xiàn)的順序確定每個領(lǐng)域知識點 的語義向量; 對于每個領(lǐng)域知識點,根據(jù)其語義向量確定該領(lǐng)域知識點與其他領(lǐng)域知識點的相似 度; 根據(jù)所述相似度確定每個領(lǐng)域知識點的相關(guān)知識點。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,確定參考文本,根據(jù)所述領(lǐng)域知識點對所 述參考文本進行分詞,得到分詞結(jié)果的處理,包括: 將領(lǐng)域知識點名稱加入分詞器詞典; 選擇領(lǐng)域數(shù)字資源抽取文本作為參考文本; 使用分詞器對參考文本進行分詞得到分詞結(jié)果。3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,依次為分詞結(jié)果中的每個知識點建立 索引的處理包括: 建立每個知識點對應(yīng)的唯一向量,作為索引,所述向量均為η列向量,η為所有知識點 的個數(shù),在該向量中,除該知識點對應(yīng)的位置為1,其余位置為0。4. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,依次為分詞結(jié)果中的每個知識點建立 索引的處理包括: 為每個知識點建立唯一的一個數(shù)字編號,作為索引。5. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,根據(jù)所述知識點的索引和所述知識點 在參考文本中出現(xiàn)的順序確定每個領(lǐng)域知識點的語義向量的過程,包括 創(chuàng)建一個三層神經(jīng)網(wǎng)絡(luò)模型; 將所有知識點的索引按照在參考文本中出現(xiàn)的先后順序依次輸入所述神經(jīng)網(wǎng)絡(luò)模型, 通過隨機梯度下降法訓(xùn)練模型; 訓(xùn)練完成后,根據(jù)領(lǐng)域知識點的索引從訓(xùn)練得到的語義向量矩陣中得到該領(lǐng)域知識點 的詞向量,以該詞向量作為該領(lǐng)域知識點的語義向量。6. 根據(jù)權(quán)利要求6所述的方法,其特征在于,包括 對于每個知識點,根據(jù)其語義向量確定該領(lǐng)域知識點與其他領(lǐng)域知識點的相似度的過 程,包括: 所述相似度的計算方法為:其中,X、Υ為需要比較相似度的兩個m列的向量。7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,對于每個領(lǐng)域知識點,根據(jù)其語義向量確 定該領(lǐng)域知識點與其他領(lǐng)域知識點的相似度的過程,包括: 所述相似度的計算方法為:其中,X、Y為需要比較相似度的兩個m列的向量。8. 根據(jù)權(quán)利要求6或7或8所述的方法,其特征在于,根據(jù)所述相似度確定每個領(lǐng)域知 識點的相關(guān)知識點的處理,包括: 將該領(lǐng)域知識點與其他領(lǐng)域知識點的相似度降序排列,選擇排序在前的預(yù)設(shè)數(shù)量的其 他領(lǐng)域知識點作為該領(lǐng)域知識點的相關(guān)知識點。9. 根據(jù)權(quán)利要求6或7或8所述的方法,其特征在于,根據(jù)所述相似度確定每個領(lǐng)域知 識點的相關(guān)知識點的處理,包括: 預(yù)先設(shè)置一個相似度閾值,選取與該領(lǐng)域知識點的相似度大于該閾值的其他領(lǐng)域知識 點作為該知識點的相關(guān)知識點。10. -種計算領(lǐng)域知識點的相關(guān)知識點的系統(tǒng),其特征在于,包括 提取單元:獲取領(lǐng)域知識點; 分詞單元:確定參考文本,根據(jù)所述領(lǐng)域知識點對所述參考文本進行分詞,得到分詞結(jié) 果,將所述分詞結(jié)果中的詞作為知識點,所述知識點包括所述領(lǐng)域知識點和其他知識點; 索引單元:依次為分詞結(jié)果中的每個知識點建立索引; 訓(xùn)練單元:根據(jù)所述知識點的索引和所述知識點的順序確定每個領(lǐng)域知識點的語義向 量; 相似度計算單元:對于每個領(lǐng)域知識點,根據(jù)其語義向量確定該領(lǐng)域知識點與其他領(lǐng) 域知識點的相似度; 相關(guān)知識點計算單元:根據(jù)所述相似度確定每個領(lǐng)域知識點的相關(guān)知識點。11. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述分詞單元包括: 詞典子單元:將領(lǐng)域知識點名稱加入分詞器詞典; 選擇子單元:選擇領(lǐng)域數(shù)字資源抽取文本作為參考文本; 分詞子單元:使用分詞器對參考文本進行分詞得到分詞結(jié)果。12. 根據(jù)權(quán)利要求10或11所述的系統(tǒng),其特征在于,所述索引單元包括第一索引子單 元: 建立每個知識點對應(yīng)的唯一向量,作為索引,所述向量均為η列向量,η為所有知識點 的個數(shù),在該向量中,除該知識點對應(yīng)的位置為1,其余位置為0。13. 根據(jù)權(quán)利要求10或11所述的系統(tǒng),其特征在于,所述索引單元包括第二索引子單 元: 為每個知識點建立唯一的一個數(shù)字編號,作為索引。14. 根據(jù)權(quán)利要求10或11所述的系統(tǒng),其特征在于,所述訓(xùn)練單元包括 模型子單元:創(chuàng)建一個三層神經(jīng)網(wǎng)絡(luò)模型; 輸入子單元:將所有知識點的索引按照在參考文本中出現(xiàn)的先后順序依次輸入所述神 經(jīng)網(wǎng)絡(luò)模型,通過隨機梯度下降法訓(xùn)練模型; 計算子單元:訓(xùn)練完成后,根據(jù)領(lǐng)域知識點的索引從訓(xùn)練得到的語義向量矩陣中得到 該領(lǐng)域知識點的詞向量,以該詞向量作為該領(lǐng)域知識點的語義向量。15. 根據(jù)權(quán)利要求10-14任一所述的系統(tǒng),其特征在于,所述相似度計算單元包括相似 度第一計算公式為:其中,X、Y為需要比較相似度的兩個m列的向量。16. 根據(jù)權(quán)利要求10-14任一所述的系統(tǒng),其特征在于所述相似度計算單元包括相似 度第二計算公式為:其中,X、Y為需要比較相似度的兩個m列的向量。17. 根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述相關(guān)知識點計算單元包括第一計 算子單元: 將該領(lǐng)域知識點與其他領(lǐng)域知識點的相似度降序排列,選擇排序在前的預(yù)設(shè)數(shù)量的其 他領(lǐng)域知識點作為該領(lǐng)域知識點的相關(guān)知識點。18. 根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于所述相關(guān)知識點計算單元包括第二計算 子單元: 預(yù)先設(shè)置一個相似度閾值,選取與該領(lǐng)域知識點的相似度大于該閾值的其他領(lǐng)域知識 點作為該知識點的相關(guān)知識點。
【專利摘要】本發(fā)明提供一種計算領(lǐng)域知識點的相關(guān)知識點的方法,首先獲取領(lǐng)域知識點,再從參考文本中分詞得到所有知識點,這些知識點中包含了領(lǐng)域知識點和其他知識點,然后依次為分詞結(jié)果中的每個知識點建立索引,再根據(jù)所述每個知識點的索引和順序,通過神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的方式,得到領(lǐng)域知識點的語義向量,從而將知識點的語義信息進行量化,通過數(shù)字化的方式來體現(xiàn)其語義特征,這樣,在后續(xù)對知識點進行分析時,可以更加方便。然后,根據(jù)各個領(lǐng)域知識點的語義向量,確定領(lǐng)域知識點之間的相似度,然后根據(jù)該相似度的大小便能輕易的區(qū)分哪些是相關(guān)的知識點,根據(jù)需要選擇相關(guān)知識點的個數(shù)。該方式計算簡單方便,準確性高,適用于推薦、檢索等方面。
【IPC分類】G06F17/27, G06F17/30
【公開號】CN105447053
【申請?zhí)枴緾N201410497612
【發(fā)明人】葉茂, 湯幟, 徐劍波, 馬佳樂, 楊亮
【申請人】北大方正集團有限公司, 北京方正阿帕比技術(shù)有限公司, 北京大學(xué)
【公開日】2016年3月30日
【申請日】2014年9月26日