一種獲取領(lǐng)域重要知識點的方法和系統(tǒng)的制作方法

文檔序號：9708356閱讀：354來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種獲取領(lǐng)域重要知識點的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種數(shù)字資源處理領(lǐng)域，具體地說是一種獲取領(lǐng)域重要知識點的方法和系統(tǒng)。
【背景技術(shù)】
[0002] 數(shù)字出版資源已成為信息提供的主要方式之一。人們已從紙質(zhì)閱讀大量地轉(zhuǎn)向電子閱讀。數(shù)字出版資源包含電子圖書、數(shù)字百科全書、數(shù)字期刊、數(shù)字報刊等。數(shù)字出版資源提供的信息通常比互聯(lián)網(wǎng)更加權(quán)威和正確。因此，如何根據(jù)數(shù)字出版資源的特點提高人們學(xué)習(xí)或閱讀體驗變得尤為重要。
[0003] 百科全書（Encyclopedia)是介紹人類的全部知識或某一類知識的工具書。往往按照辭典形式編排（以條目為基本單元），收集各知識領(lǐng)域的名詞、熟語、地名、事件、人物、著作等。百科全書可以是綜合性的，包含所有領(lǐng)域的相關(guān)內(nèi)容（例如，《大不列顛百科全書》就是一部著名的綜合性百科全書）。也可以是專業(yè)性的百科全書，如某一個領(lǐng)域的百科全書，像歷史百科全書、軍事百科全書等，這種某一個領(lǐng)域的百科全書稱為領(lǐng)域百科全書。百科全書被視為是一個國家和一個時代科學(xué)文化發(fā)展的標(biāo)志。
[0004] 領(lǐng)域百科全書將海量的信息分類，為用戶提供更有針對性的資源。領(lǐng)域百科全書也是一種重要的數(shù)字出版資源。領(lǐng)域百科全書通常以詞條的方式組織領(lǐng)域信息。領(lǐng)域百科全書需要包含領(lǐng)域內(nèi)的重要詞條。然而，建設(shè)領(lǐng)域百科全書需要大量人力投入。由于領(lǐng)域詞條數(shù)目較多，因此通過人工的方式尋找重要的領(lǐng)域詞條不僅耗時，而且容易遺漏一些很相關(guān)的領(lǐng)域詞條。獲取領(lǐng)域內(nèi)重要的詞條是很重要的工作，但是實現(xiàn)起來需要花費大量的人力和時間。
[0005] Distributed words representations (分布式詞語表不）在 Rumelhar，D. E., Hinton, G. E. , Williams, R. J. ：Learning Represenations by Back-propagating Errors. Nature 323(6088) :pp533-536(1986)中首次提出，該思想將詞語表示成連續(xù)向量（continuous vectors)，且在向量空間中，相似詞語的距離更近。Feedforward neural network(前饋神經(jīng)網(wǎng)絡(luò)）是用于學(xué)習(xí)詞向量和語言模型的方法（見Bengio，Y.，Ducharme， R. , Vincent, P. ：A Neural Probabilistic Language Model. Journal of Machine Learning Research 3, ppl 137-1155 (2003))。近來，Mikolov提出了使用 skip-gram或 CB0W 模型，通過在大量文本上訓(xùn)練簡單的神經(jīng)網(wǎng)絡(luò)在短時間內(nèi)得到詞語向量。雖然關(guān)于語義向量在理論上已經(jīng)有一些研究，但是仍然缺少該技術(shù)的應(yīng)用推廣。

【發(fā)明內(nèi)容】

[0006] 為此，本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)中需要人工確定領(lǐng)域內(nèi)的重要詞條、花費較多的人力物力、標(biāo)準(zhǔn)不容易、客觀性差的問題，從而提出一種標(biāo)準(zhǔn)統(tǒng)一、無需人工處理的自動的獲取領(lǐng)域重要知識點的方法。
[0007] 為解決上述技術(shù)問題，本發(fā)明的提供一種獲取領(lǐng)域重要知識點的方法。
[0008] -種獲取領(lǐng)域重要知識點的方法，包括：
[0009] 對領(lǐng)域文本進行分詞，得到分詞結(jié)果；
[0010] 根據(jù)分詞結(jié)果和常用詞，確定候選知識點；
[0011] 確定每個候選知識點的語義向量；
[0012] 計算候選知識點之間的語義相似度，得到相似度矩陣；
[0013] 利用所述相似度矩陣進行迭代，確定每個候選知識點的重要度信息；
[0014] 根據(jù)所述重要度信息確定重要知識點。
[0015] -種獲取領(lǐng)域重要知識點的系統(tǒng)，包括：
[0016] 分詞單元：對領(lǐng)域文本進行分詞，得到分詞結(jié)果；
[0017] 候選知識點確定單元：根據(jù)分詞結(jié)果和常用詞，確定候選知識點；
[0018] 語義向量確定單元：確定每個候選知識點的語義向量；
[0019] 相似度矩陣建立單元：計算候選知識點之間的語義相似度，得到相似度矩陣；
[0020] 重要度確定單元：利用所述相似度矩陣進行迭代，確定每個候選知識點的重要度信息；
[0021] 重要知識點確定單元：根據(jù)所述重要度信息確定重要知識點。
[0022] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點，
[0023] (1)本發(fā)明提供一種獲取領(lǐng)域重要知識點的方法，首先確定領(lǐng)域內(nèi)的候選知識點，然后計算這些候選知識點的語義向量，根據(jù)每個知識點的語義向量計算得到語義相似度矩陣，根據(jù)該語義相似度矩陣來計算候選知識點中的重要知識點，這些知識點便是該領(lǐng)域內(nèi) 的重要知識點。當(dāng)建設(shè)或檢查領(lǐng)域百科全書時，可以根據(jù)這些重要知識點來建立詞條，或者檢查詞條是否完善，將還沒有收錄的重要知識點增加在需要建設(shè)的詞條中，通過這種方式來完成領(lǐng)域百科全書的詞條的檢查和建設(shè)。大大降低了人工的工作量，節(jié)約了時間成本和人工成本，且避免了人工檢查的主觀性和標(biāo)準(zhǔn)不統(tǒng)一帶來的不準(zhǔn)確性，大大提高了效率和準(zhǔn)確度。
[0024] (2)本發(fā)明所述的獲取領(lǐng)域重要知識點的方法，獲取相似度矩陣時，采用計算候選知識點語義向量的方法，將知識點的語義信息進行量化，通過數(shù)字化的方式來體現(xiàn)其語義特征，這樣，在后續(xù)對知識點進行分析時，可以更加方便，為知識點搜索、推薦、信息過濾等應(yīng)用提供基礎(chǔ)。
[0025] (3)本發(fā)明所述的獲取領(lǐng)域重要知識點的方法，確定每個候選知識點的重要度信息時，設(shè)置導(dǎo)航度的初始值；將所述關(guān)聯(lián)度信息與所述導(dǎo)航度的值進行迭代，確定權(quán)威度信息和所述導(dǎo)航度的最終值；根據(jù)所述權(quán)威度信息和所述導(dǎo)航度的最終值，確定所述候選中每個知識點的重要度信息。該方案中，通過權(quán)威度信息和導(dǎo)航度值進行迭代，來逐次逼近，不僅計算簡單方便，而且充分考慮了該候選知識點與其他候選知識點的關(guān)系，客觀的表征了該知識點在該領(lǐng)域內(nèi)的重要程度。
[0026] (4)本發(fā)明還提供一種獲取領(lǐng)域重要知識點的系統(tǒng)，包括分詞單元、候選知識點確定單元、語義向量確定單元、相似度矩陣建立單元、重要度確定單元以及重要知識點確定單元，根據(jù)該語義相似度矩陣來計算候選知識點中的重要知識點，這些知識點便是該領(lǐng)域內(nèi) 的重要知識點。當(dāng)建設(shè)或檢查領(lǐng)域百科全書時，可以根據(jù)這些重要知識點來建立詞條，或者檢查詞條是否完善，將還沒有收錄的重要知識點增加在需要建設(shè)的詞條中，通過這種方式來完成領(lǐng)域百科全書的詞條的檢查和建設(shè)，大大降低了人工的工作量。
【附圖說明】
[0027] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解，下面根據(jù)本發(fā)明的具體實施例并結(jié)合附圖，對本發(fā)明作進一步詳細(xì)的說明，其中
[0028] 圖1是本發(fā)明的實施例中獲取領(lǐng)域重要知識點的方法的流程圖；
[0029] 圖2是本發(fā)明實施例中skip-gram模型的示意圖；
[0030] 圖3是本發(fā)明的實施例中CB0W模型的示意圖；
[0031] 圖4是本發(fā)明的實施例中獲取領(lǐng)域重要知識點的系統(tǒng)的流程圖。
【具體實施方式】
[0032] 實施例1:
[0033] 本實施例中提供一種獲取領(lǐng)域重要知識點的方法，流程圖如圖1所示。領(lǐng)域內(nèi)的知識點是指領(lǐng)域內(nèi)的詞語或者詞條，反應(yīng)該領(lǐng)域內(nèi)的知識。獲取領(lǐng)域重要知識點的方法包括如下過程：
[0034] S1 :對文本進行分詞，得到分詞結(jié)果。
[0035] 此處的文本選擇領(lǐng)域內(nèi)的一些數(shù)字資源，為了使得其涵蓋的知識點足夠廣泛，一般會多選擇一些本領(lǐng)域內(nèi)的電子數(shù)字資源。如對于歷史領(lǐng)域，可以選擇上下五千年、歷代朝代史等相關(guān)的本領(lǐng)域內(nèi)的電子書。選定領(lǐng)域數(shù)字資源后，從中抽取文本，然后分詞，通過分詞后，得到大量的詞語，這些詞語既包括本領(lǐng)域中的一些知識點，也包括一些常用的詞語，如你們、他們、吃飯等等。將分詞后的文件，作為候選文件。
[0036] S2 :根據(jù)分詞結(jié)果和常用詞，確定候選知識點。
[0037] 由于常用詞是經(jīng)常使用的一系列的詞語，通過在上述分詞結(jié)果中，把這部分詞語去除，就獲得了和領(lǐng)域相關(guān)的詞語，將這些詞語作為候選知識點。此處的常用詞是現(xiàn)有技術(shù) 中已經(jīng)確定好的常用詞。在其他的實施方式中，還可以通過如下方法來確定常用詞：選擇常用文本的數(shù)字資源，如生活報紙、生活雜志等數(shù)字資源，對其進行分詞（采用停用詞表去除停用詞，例如采用哈工大停用詞表），將在較多文本中出現(xiàn)的詞語確定為常用詞。在候選文件中去

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：葉茂;徐劍波;湯幟;張杰;成洪甲;
技術(shù)所有人：北大方正集團有限公司;北京方正阿帕比技術(shù)有限公司;北京大學(xué);
我是此專利的發(fā)明人

上一篇：一種數(shù)據(jù)清洗方法及裝置的制造方法
上一篇：網(wǎng)頁背景圖像生成方法和系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種獲取領(lǐng)域重要知識點的方法和系統(tǒng)的制作方法