亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種獲取領(lǐng)域重要知識點的方法和系統(tǒng)的制作方法

文檔序號:9708356閱讀:354來源:國知局
一種獲取領(lǐng)域重要知識點的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種數(shù)字資源處理領(lǐng)域,具體地說是一種獲取領(lǐng)域重要知識點的方法 和系統(tǒng)。
【背景技術(shù)】
[0002] 數(shù)字出版資源已成為信息提供的主要方式之一。人們已從紙質(zhì)閱讀大量地轉(zhuǎn)向電 子閱讀。數(shù)字出版資源包含電子圖書、數(shù)字百科全書、數(shù)字期刊、數(shù)字報刊等。數(shù)字出版資 源提供的信息通常比互聯(lián)網(wǎng)更加權(quán)威和正確。因此,如何根據(jù)數(shù)字出版資源的特點提高人 們學(xué)習(xí)或閱讀體驗變得尤為重要。
[0003] 百科全書(Encyclopedia)是介紹人類的全部知識或某一類知識的工具書。往往 按照辭典形式編排(以條目為基本單元),收集各知識領(lǐng)域的名詞、熟語、地名、事件、人物、 著作等。百科全書可以是綜合性的,包含所有領(lǐng)域的相關(guān)內(nèi)容(例如,《大不列顛百科全書》 就是一部著名的綜合性百科全書)。也可以是專業(yè)性的百科全書,如某一個領(lǐng)域的百科全 書,像歷史百科全書、軍事百科全書等,這種某一個領(lǐng)域的百科全書稱為領(lǐng)域百科全書。百 科全書被視為是一個國家和一個時代科學(xué)文化發(fā)展的標(biāo)志。
[0004] 領(lǐng)域百科全書將海量的信息分類,為用戶提供更有針對性的資源。領(lǐng)域百科全書 也是一種重要的數(shù)字出版資源。領(lǐng)域百科全書通常以詞條的方式組織領(lǐng)域信息。領(lǐng)域百科 全書需要包含領(lǐng)域內(nèi)的重要詞條。然而,建設(shè)領(lǐng)域百科全書需要大量人力投入。由于領(lǐng)域 詞條數(shù)目較多,因此通過人工的方式尋找重要的領(lǐng)域詞條不僅耗時,而且容易遺漏一些很 相關(guān)的領(lǐng)域詞條。獲取領(lǐng)域內(nèi)重要的詞條是很重要的工作,但是實現(xiàn)起來需要花費大量的 人力和時間。
[0005] Distributed words representations (分布式詞語表不)在 Rumelhar,D. E., Hinton, G. E. , Williams, R. J. :Learning Represenations by Back-propagating Errors. Nature 323(6088) :pp533-536(1986)中首次提出,該思想將詞語表示成連續(xù)向 量(continuous vectors),且在向量空間中,相似詞語的距離更近。Feedforward neural network(前饋神經(jīng)網(wǎng)絡(luò))是用于學(xué)習(xí)詞向量和語言模型的方法(見Bengio,Y.,Ducharme, R. , Vincent, P. :A Neural Probabilistic Language Model. Journal of Machine Learning Research 3, ppl 137-1155 (2003))。近來,Mikolov提出 了使用 skip-gram或 CB0W 模型,通過在大量文本上訓(xùn)練簡單的神經(jīng)網(wǎng)絡(luò)在短時間內(nèi)得到詞語向量。雖然關(guān)于語義向 量在理論上已經(jīng)有一些研究,但是仍然缺少該技術(shù)的應(yīng)用推廣。

【發(fā)明內(nèi)容】

[0006] 為此,本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)中需要人工確定領(lǐng)域內(nèi)的重要詞 條、花費較多的人力物力、標(biāo)準(zhǔn)不容易、客觀性差的問題,從而提出一種標(biāo)準(zhǔn)統(tǒng)一、無需人工 處理的自動的獲取領(lǐng)域重要知識點的方法。
[0007] 為解決上述技術(shù)問題,本發(fā)明的提供一種獲取領(lǐng)域重要知識點的方法。
[0008] -種獲取領(lǐng)域重要知識點的方法,包括:
[0009] 對領(lǐng)域文本進行分詞,得到分詞結(jié)果;
[0010] 根據(jù)分詞結(jié)果和常用詞,確定候選知識點;
[0011] 確定每個候選知識點的語義向量;
[0012] 計算候選知識點之間的語義相似度,得到相似度矩陣;
[0013] 利用所述相似度矩陣進行迭代,確定每個候選知識點的重要度信息;
[0014] 根據(jù)所述重要度信息確定重要知識點。
[0015] -種獲取領(lǐng)域重要知識點的系統(tǒng),包括:
[0016] 分詞單元:對領(lǐng)域文本進行分詞,得到分詞結(jié)果;
[0017] 候選知識點確定單元:根據(jù)分詞結(jié)果和常用詞,確定候選知識點;
[0018] 語義向量確定單元:確定每個候選知識點的語義向量;
[0019] 相似度矩陣建立單元:計算候選知識點之間的語義相似度,得到相似度矩陣;
[0020] 重要度確定單元:利用所述相似度矩陣進行迭代,確定每個候選知識點的重要度 信息;
[0021] 重要知識點確定單元:根據(jù)所述重要度信息確定重要知識點。
[0022] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點,
[0023] (1)本發(fā)明提供一種獲取領(lǐng)域重要知識點的方法,首先確定領(lǐng)域內(nèi)的候選知識點, 然后計算這些候選知識點的語義向量,根據(jù)每個知識點的語義向量計算得到語義相似度矩 陣,根據(jù)該語義相似度矩陣來計算候選知識點中的重要知識點,這些知識點便是該領(lǐng)域內(nèi) 的重要知識點。當(dāng)建設(shè)或檢查領(lǐng)域百科全書時,可以根據(jù)這些重要知識點來建立詞條,或者 檢查詞條是否完善,將還沒有收錄的重要知識點增加在需要建設(shè)的詞條中,通過這種方式 來完成領(lǐng)域百科全書的詞條的檢查和建設(shè)。大大降低了人工的工作量,節(jié)約了時間成本和 人工成本,且避免了人工檢查的主觀性和標(biāo)準(zhǔn)不統(tǒng)一帶來的不準(zhǔn)確性,大大提高了效率和 準(zhǔn)確度。
[0024] (2)本發(fā)明所述的獲取領(lǐng)域重要知識點的方法,獲取相似度矩陣時,采用計算候選 知識點語義向量的方法,將知識點的語義信息進行量化,通過數(shù)字化的方式來體現(xiàn)其語義 特征,這樣,在后續(xù)對知識點進行分析時,可以更加方便,為知識點搜索、推薦、信息過濾等 應(yīng)用提供基礎(chǔ)。
[0025] (3)本發(fā)明所述的獲取領(lǐng)域重要知識點的方法,確定每個候選知識點的重要度信 息時,設(shè)置導(dǎo)航度的初始值;將所述關(guān)聯(lián)度信息與所述導(dǎo)航度的值進行迭代,確定權(quán)威度信 息和所述導(dǎo)航度的最終值;根據(jù)所述權(quán)威度信息和所述導(dǎo)航度的最終值,確定所述候選中 每個知識點的重要度信息。該方案中,通過權(quán)威度信息和導(dǎo)航度值進行迭代,來逐次逼近, 不僅計算簡單方便,而且充分考慮了該候選知識點與其他候選知識點的關(guān)系,客觀的表征 了該知識點在該領(lǐng)域內(nèi)的重要程度。
[0026] (4)本發(fā)明還提供一種獲取領(lǐng)域重要知識點的系統(tǒng),包括分詞單元、候選知識點確 定單元、語義向量確定單元、相似度矩陣建立單元、重要度確定單元以及重要知識點確定單 元,根據(jù)該語義相似度矩陣來計算候選知識點中的重要知識點,這些知識點便是該領(lǐng)域內(nèi) 的重要知識點。當(dāng)建設(shè)或檢查領(lǐng)域百科全書時,可以根據(jù)這些重要知識點來建立詞條,或者 檢查詞條是否完善,將還沒有收錄的重要知識點增加在需要建設(shè)的詞條中,通過這種方式 來完成領(lǐng)域百科全書的詞條的檢查和建設(shè),大大降低了人工的工作量。
【附圖說明】
[0027] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實施例并結(jié)合 附圖,對本發(fā)明作進一步詳細(xì)的說明,其中
[0028] 圖1是本發(fā)明的實施例中獲取領(lǐng)域重要知識點的方法的流程圖;
[0029] 圖2是本發(fā)明實施例中skip-gram模型的示意圖;
[0030] 圖3是本發(fā)明的實施例中CB0W模型的示意圖;
[0031] 圖4是本發(fā)明的實施例中獲取領(lǐng)域重要知識點的系統(tǒng)的流程圖。
【具體實施方式】
[0032] 實施例1:
[0033] 本實施例中提供一種獲取領(lǐng)域重要知識點的方法,流程圖如圖1所示。領(lǐng)域內(nèi)的 知識點是指領(lǐng)域內(nèi)的詞語或者詞條,反應(yīng)該領(lǐng)域內(nèi)的知識。獲取領(lǐng)域重要知識點的方法包 括如下過程:
[0034] S1 :對文本進行分詞,得到分詞結(jié)果。
[0035] 此處的文本選擇領(lǐng)域內(nèi)的一些數(shù)字資源,為了使得其涵蓋的知識點足夠廣泛,一 般會多選擇一些本領(lǐng)域內(nèi)的電子數(shù)字資源。如對于歷史領(lǐng)域,可以選擇上下五千年、歷代朝 代史等相關(guān)的本領(lǐng)域內(nèi)的電子書。選定領(lǐng)域數(shù)字資源后,從中抽取文本,然后分詞,通過分 詞后,得到大量的詞語,這些詞語既包括本領(lǐng)域中的一些知識點,也包括一些常用的詞語, 如你們、他們、吃飯等等。將分詞后的文件,作為候選文件。
[0036] S2 :根據(jù)分詞結(jié)果和常用詞,確定候選知識點。
[0037] 由于常用詞是經(jīng)常使用的一系列的詞語,通過在上述分詞結(jié)果中,把這部分詞語 去除,就獲得了和領(lǐng)域相關(guān)的詞語,將這些詞語作為候選知識點。此處的常用詞是現(xiàn)有技術(shù) 中已經(jīng)確定好的常用詞。在其他的實施方式中,還可以通過如下方法來確定常用詞:選擇常 用文本的數(shù)字資源,如生活報紙、生活雜志等數(shù)字資源,對其進行分詞(采用停用詞表去除 停用詞,例如采用哈工大停用詞表),將在較多文本中出現(xiàn)的詞語確定為常用詞。在候選文 件中去
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1