計算領(lǐng)域知識點的相關(guān)知識點的方法及系統(tǒng)的制作方法_4

文檔序號：9687514閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>計算領(lǐng)域知識點的相關(guān)知識點的方法及系統(tǒng)的制作方法

機或其他可編程數(shù)據(jù)處理設(shè)備上，使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟W產(chǎn)生計算機實現(xiàn)的處理，從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0106] 盡管已描述了本發(fā)明的優(yōu)選實施例，但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念，則可對送些實施例作出另外的變更和修改。所W，所附權(quán)利要求意欲解釋為包括優(yōu) 選實施例W及落入本發(fā)明范圍的所有變更和修改。顯然，上述實施例僅僅是為清楚地說明所作的舉例，而并非對實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說，在上述說明的基礎(chǔ)上還可W做出其它不同形式的變化或變動。送里無需也無法對所有的實施方式予W窮舉。而由此所引伸出的顯而易見的變化或變動仍處于本發(fā)明創(chuàng)造的保護范圍之中。
【主權(quán)項】
1. 一種計算領(lǐng)域知識點的相關(guān)知識點的方法，其特征在于，包括獲取領(lǐng)域知識點；確定參考文本，根據(jù)所述領(lǐng)域知識點對所述參考文本進行分詞，得到分詞結(jié)果，將所述分詞結(jié)果中的詞作為知識點，所述知識點包括所述領(lǐng)域知識點和其他知識點；依次為分詞結(jié)果中的每個知識點建立索引；根據(jù)所述知識點的索引和所述知識點在參考文本中出現(xiàn)的順序確定每個領(lǐng)域知識點的語義向量；對于每個領(lǐng)域知識點，根據(jù)其語義向量確定該領(lǐng)域知識點與其他領(lǐng)域知識點的相似度；根據(jù)所述相似度確定每個領(lǐng)域知識點的相關(guān)知識點。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，確定參考文本，根據(jù)所述領(lǐng)域知識點對所述參考文本進行分詞，得到分詞結(jié)果的處理，包括：將領(lǐng)域知識點名稱加入分詞器詞典；選擇領(lǐng)域數(shù)字資源抽取文本作為參考文本；使用分詞器對參考文本進行分詞得到分詞結(jié)果。3. 根據(jù)權(quán)利要求1或2所述的方法，其特征在于，依次為分詞結(jié)果中的每個知識點建立索引的處理包括：建立每個知識點對應(yīng)的唯一向量，作為索引，所述向量均為η列向量，η為所有知識點的個數(shù)，在該向量中，除該知識點對應(yīng)的位置為1，其余位置為0。4. 根據(jù)權(quán)利要求1或2所述的方法，其特征在于，依次為分詞結(jié)果中的每個知識點建立索引的處理包括：為每個知識點建立唯一的一個數(shù)字編號，作為索引。5. 根據(jù)權(quán)利要求1或2所述的方法，其特征在于，根據(jù)所述知識點的索引和所述知識點在參考文本中出現(xiàn)的順序確定每個領(lǐng)域知識點的語義向量的過程，包括創(chuàng)建一個三層神經(jīng)網(wǎng)絡(luò)模型；將所有知識點的索引按照在參考文本中出現(xiàn)的先后順序依次輸入所述神經(jīng)網(wǎng)絡(luò)模型，通過隨機梯度下降法訓(xùn)練模型；訓(xùn)練完成后，根據(jù)領(lǐng)域知識點的索引從訓(xùn)練得到的語義向量矩陣中得到該領(lǐng)域知識點的詞向量，以該詞向量作為該領(lǐng)域知識點的語義向量。6. 根據(jù)權(quán)利要求6所述的方法，其特征在于，包括對于每個知識點，根據(jù)其語義向量確定該領(lǐng)域知識點與其他領(lǐng)域知識點的相似度的過程，包括：所述相似度的計算方法為：其中，X、Υ為需要比較相似度的兩個m列的向量。7. 根據(jù)權(quán)利要求6所述的方法，其特征在于，對于每個領(lǐng)域知識點，根據(jù)其語義向量確定該領(lǐng)域知識點與其他領(lǐng)域知識點的相似度的過程，包括：所述相似度的計算方法為：其中，X、Y為需要比較相似度的兩個m列的向量。8. 根據(jù)權(quán)利要求6或7或8所述的方法，其特征在于，根據(jù)所述相似度確定每個領(lǐng)域知識點的相關(guān)知識點的處理，包括：將該領(lǐng)域知識點與其他領(lǐng)域知識點的相似度降序排列，選擇排序在前的預(yù)設(shè)數(shù)量的其他領(lǐng)域知識點作為該領(lǐng)域知識點的相關(guān)知識點。9. 根據(jù)權(quán)利要求6或7或8所述的方法，其特征在于，根據(jù)所述相似度確定每個領(lǐng)域知識點的相關(guān)知識點的處理，包括：預(yù)先設(shè)置一個相似度閾值，選取與該領(lǐng)域知識點的相似度大于該閾值的其他領(lǐng)域知識點作為該知識點的相關(guān)知識點。10. -種計算領(lǐng)域知識點的相關(guān)知識點的系統(tǒng)，其特征在于，包括提取單元：獲取領(lǐng)域知識點；分詞單元：確定參考文本，根據(jù)所述領(lǐng)域知識點對所述參考文本進行分詞，得到分詞結(jié) 果，將所述分詞結(jié)果中的詞作為知識點，所述知識點包括所述領(lǐng)域知識點和其他知識點；索引單元：依次為分詞結(jié)果中的每個知識點建立索引；訓(xùn)練單元：根據(jù)所述知識點的索引和所述知識點的順序確定每個領(lǐng)域知識點的語義向量；相似度計算單元：對于每個領(lǐng)域知識點，根據(jù)其語義向量確定該領(lǐng)域知識點與其他領(lǐng) 域知識點的相似度；相關(guān)知識點計算單元：根據(jù)所述相似度確定每個領(lǐng)域知識點的相關(guān)知識點。11. 根據(jù)權(quán)利要求10所述的系統(tǒng)，其特征在于，所述分詞單元包括：詞典子單元：將領(lǐng)域知識點名稱加入分詞器詞典；選擇子單元：選擇領(lǐng)域數(shù)字資源抽取文本作為參考文本；分詞子單元：使用分詞器對參考文本進行分詞得到分詞結(jié)果。12. 根據(jù)權(quán)利要求10或11所述的系統(tǒng)，其特征在于，所述索引單元包括第一索引子單元：建立每個知識點對應(yīng)的唯一向量，作為索引，所述向量均為η列向量，η為所有知識點的個數(shù)，在該向量中，除該知識點對應(yīng)的位置為1，其余位置為0。13. 根據(jù)權(quán)利要求10或11所述的系統(tǒng)，其特征在于，所述索引單元包括第二索引子單元：為每個知識點建立唯一的一個數(shù)字編號，作為索引。14. 根據(jù)權(quán)利要求10或11所述的系統(tǒng)，其特征在于，所述訓(xùn)練單元包括模型子單元：創(chuàng)建一個三層神經(jīng)網(wǎng)絡(luò)模型；輸入子單元：將所有知識點的索引按照在參考文本中出現(xiàn)的先后順序依次輸入所述神經(jīng)網(wǎng)絡(luò)模型，通過隨機梯度下降法訓(xùn)練模型；計算子單元：訓(xùn)練完成后，根據(jù)領(lǐng)域知識點的索引從訓(xùn)練得到的語義向量矩陣中得到該領(lǐng)域知識點的詞向量，以該詞向量作為該領(lǐng)域知識點的語義向量。15. 根據(jù)權(quán)利要求10-14任一所述的系統(tǒng)，其特征在于，所述相似度計算單元包括相似度第一計算公式為：其中，X、Y為需要比較相似度的兩個m列的向量。16. 根據(jù)權(quán)利要求10-14任一所述的系統(tǒng)，其特征在于所述相似度計算單元包括相似度第二計算公式為：其中，X、Y為需要比較相似度的兩個m列的向量。17. 根據(jù)權(quán)利要求16所述的系統(tǒng)，其特征在于，所述相關(guān)知識點計算單元包括第一計算子單元：將該領(lǐng)域知識點與其他領(lǐng)域知識點的相似度降序排列，選擇排序在前的預(yù)設(shè)數(shù)量的其他領(lǐng)域知識點作為該領(lǐng)域知識點的相關(guān)知識點。18. 根據(jù)權(quán)利要求16所述的系統(tǒng)，其特征在于所述相關(guān)知識點計算單元包括第二計算子單元：預(yù)先設(shè)置一個相似度閾值，選取與該領(lǐng)域知識點的相似度大于該閾值的其他領(lǐng)域知識點作為該知識點的相關(guān)知識點。
【專利摘要】本發(fā)明提供一種計算領(lǐng)域知識點的相關(guān)知識點的方法，首先獲取領(lǐng)域知識點，再從參考文本中分詞得到所有知識點，這些知識點中包含了領(lǐng)域知識點和其他知識點，然后依次為分詞結(jié)果中的每個知識點建立索引，再根據(jù)所述每個知識點的索引和順序，通過神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的方式，得到領(lǐng)域知識點的語義向量，從而將知識點的語義信息進行量化，通過數(shù)字化的方式來體現(xiàn)其語義特征，這樣，在后續(xù)對知識點進行分析時，可以更加方便。然后，根據(jù)各個領(lǐng)域知識點的語義向量，確定領(lǐng)域知識點之間的相似度，然后根據(jù)該相似度的大小便能輕易的區(qū)分哪些是相關(guān)的知識點，根據(jù)需要選擇相關(guān)知識點的個數(shù)。該方式計算簡單方便，準確性高，適用于推薦、檢索等方面。
【IPC分類】G06F17/27, G06F17/30
【公開號】CN105447053
【申請?zhí)枴緾N201410497612
【發(fā)明人】葉茂, 湯幟, 徐劍波, 馬佳樂, 楊亮
【申請人】北大方正集團有限公司, 北京方正阿帕比技術(shù)有限公司, 北京大學(xué)
【公開日】2016年3月30日
【申請日】2014年9月26日

完整全部詳細技術(shù)資料下載

當前第4頁1 2 3 4

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

計算領(lǐng)域知識點的相關(guān)知識點的方法及系統(tǒng)的制作方法_4