亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種實體鏈接方法及裝置與流程

文檔序號:11458600閱讀:288來源:國知局
一種實體鏈接方法及裝置與流程

本發(fā)明涉及知識管理和數(shù)字出版領域,具體涉及一種實體鏈接方法及裝置。



背景技術:

互聯(lián)網的迅猛發(fā)展使得數(shù)字資源隨處可見,接觸頻率最高的信息載體就是文字信息,如新聞、博客、評論等。同時,隨著生活節(jié)奏的加快,用戶對高效閱讀的需求更加強烈,數(shù)字資源內包含有大量具有明確語義信息的文本實體,如何在文本中高效地獲取出實體并加以利用是具有現(xiàn)實意義的事情。特別地,實體鏈接正是利用實體的流程中最為關鍵的步驟之一。例如,通過分析用戶瀏覽或者分享的數(shù)字資源來提取實體并進行知識庫鏈接,將鏈接過的實體作為關鍵字或者標簽,為用戶進行更精準的興趣建模;再如,在數(shù)字資源中增加針對實體的、用戶可能感興趣的內容鏈接,這些鏈接可能指向實體相關概念解釋或者指向另一篇以此實體為主題的新聞,從而提升用戶閱讀體驗。

現(xiàn)有的實體鏈接方法主要包括以下幾類:一類是根據(jù)具體應用制定一些特殊的規(guī)則進行語義消歧,該類方法在變換場景時很難取得較好的效果。第二類是基于文本中實體和鏈接的特點構造語義網絡,通過網絡節(jié)點的距離、出度、入度等作為特征進一步設計相似度衡量指標,從而實現(xiàn)語義消歧,該類方法在數(shù)據(jù)規(guī)模較大的時候,網絡的存儲開銷、訓練開銷都受到很大的限制。第三類方法考慮了實體的上下文情境,通過計算實體與周圍文本之間的語義相似度把實體描述鏈接到知識庫中的某個實體,該類方忽略了同一文本內的實體之間的語義關系。第四類是基于主題模型的實體鏈接方法,這種方法需要對數(shù)字資源進行主題建模,較為復雜。

然而目前隨著實體數(shù)量的激增,使得當前的實體鏈接技術越來越難以滿足人們對鏈接準確率的要求。如何高效地從數(shù)字資源中獲取待鏈接實體并將其與給定知識庫中的實體進行鏈接是當前需要解決的問題。



技術實現(xiàn)要素:

鑒于當前的實體鏈接方法無法高效地從數(shù)字資源中獲取待鏈接實體并將其與給定知識庫中的實體進行鏈接的問題,本發(fā)明提出一種實體鏈接方法及裝置。

第一方面,本發(fā)明提出一種實體鏈接方法,包括:

獲取待鏈接的實體集合,對所述實體集合中的每個實體在給定知識庫中生成所述每個實體對應的候選實體集合;

根據(jù)候選實體集合中每個候選實體的精確屬性、模糊屬性和相關實體,計算每個實體與該實體對應的候選實體集合中的每個候選實體的相關度;

根據(jù)當前實體與其各候選實體的相關度大小和該實體對應的候選實體的數(shù)量,得到當前實體的鏈接實體。

優(yōu)選地,所述根據(jù)當前實體與其各候選實體的相關度大小和該實體對應的候選實體的數(shù)量,得到當前實體的鏈接實體之后,還包括:

根據(jù)每個鏈接實體的相關實體集合,對數(shù)字資源進行補充實體鏈接。

優(yōu)選地,所述根據(jù)候選實體集合中每個候選實體的精確屬性、模糊屬性和相關實體,計算每個實體與該實體對應的候選實體集合中的每個候選實體的相關度,包括:

根據(jù)每個候選實體的每個精確屬性,若當前精確屬性在數(shù)字資源中存在相似或相同的詞語,則當前實體與當前候選實體的相關度增加 第一預設值;其中,當前實體與當前候選實體的相關度的初始值為0,當前候選實體的所有精確屬性計算結束后的相關度為第一相關度;

根據(jù)每個候選實體的每個模糊屬性,若當前模糊屬性在數(shù)字資源中存在相同的詞語,或存在相似的詞語且精確屬性的數(shù)量大于第二預設值,則當前實體與當前候選實體的相關度增加0.5倍的第一預設值;若當前模糊屬性在數(shù)字資源中存在相似的詞語且精確屬性的數(shù)量小于等于第二預設值,則當前實體與當前候選實體的相關度根據(jù)以下公式一計算得到:

公式一

其中,si,j表示當前實體與當前候選實體的相關度,o表示當前候選實體的精確屬性的數(shù)量,score表示第一預設值,σ表示第二預設值;

根據(jù)每個候選實體的每個相關實體,若當前相關實體在數(shù)字資源中存在相同的詞語且所述第一相關度大于等于所述第一預設值,則當前實體與當前候選實體的相關度增加0.5倍的第一預設值;若當前相關實體在數(shù)字資源中存在相同的詞語且所述第一相關度小于所述第一預設值,則當前實體與當前候選實體的相關度增加0.25倍的第一預設值。

優(yōu)選地,所述根據(jù)當前實體與其各候選實體的相關度大小和該實體對應的候選實體的數(shù)量,得到當前實體的鏈接實體,包括:

若當前實體對應的候選實體集合中的候選實體數(shù)量為0,則當前實體的鏈接實體為空;

若當前實體對應的候選實體集合中的候選實體數(shù)量為1且當前實體與當前候選實體的相關度大于等于3倍的第一預設值,則當前實體的鏈接實體為當前候選實體;

若當前實體對應的候選實體集合中的候選實體數(shù)量大于1且當前實體包含相關度大于等于3倍的第一預設值的候選實體,則當前實體的鏈接實體為相關度最大的候選實體。

優(yōu)選地,所述根據(jù)每個鏈接實體的相關實體集合,對數(shù)字資源進行補充實體鏈接,包括:

獲取所有鏈接實體的相關實體,若數(shù)字資源中存在與當前相關實體相同的字符串且該字符串長度大于2,或該字符串長度小于等于2且當前相關實體與該字符串的相關度大于等于3倍的第一預設值,則將該字符串與當前相關實體進行鏈接。

第二方面,本發(fā)明還提出一種實體鏈接裝置,包括:

候選實體生成模塊,用于獲取待鏈接的實體集合,對所述實體集合中的每個實體在給定知識庫中生成所述每個實體對應的候選實體集合;

相關度計算模塊,用于根據(jù)候選實體集合中每個候選實體的精確屬性、模糊屬性和相關實體,計算每個實體與該實體對應的候選實體集合中的每個候選實體的相關度;

鏈接實體獲取模塊,用于根據(jù)當前實體與其各候選實體的相關度大小和該實體對應的候選實體的數(shù)量,得到當前實體的鏈接實體。

優(yōu)選地,還包括:

補充鏈接實體獲取模塊,用于根據(jù)每個鏈接實體的相關實體集合,對數(shù)字資源進行補充實體鏈接。

優(yōu)選地,所述相關度計算模塊包括:

精確屬性計算單元,用于根據(jù)每個候選實體的每個精確屬性,若當前精確屬性在數(shù)字資源中存在相似或相同的詞語,則當前實體與當前候選實體的相關度增加第一預設值;其中,當前實體與當前候選實體的相關度的初始值為0,當前候選實體的所有精確屬性計算結束后的相關度為第一相關度;

模糊屬性計算單元,用于根據(jù)每個候選實體的每個模糊屬性,若當前模糊屬性在數(shù)字資源中存在相同的詞語,或存在相似的詞語且精確屬性的數(shù)量大于第二預設值,則當前實體與當前候選實體的相關度增加0.5倍的第一預設值;若當前模糊屬性在數(shù)字資源中存在相似的詞語且精確屬性的數(shù)量小于等于第二預設值,則當前實體與當前候選實體的相關度根據(jù)以下公式一計算得到:

公式一

其中,si,j表示當前實體與當前候選實體的相關度,o表示當前候選實體的精確屬性的數(shù)量,score表示第一預設值,σ表示第二預設值;

相關實體計算單元,用于根據(jù)每個候選實體的每個相關實體,若當前相關實體在數(shù)字資源中存在相同的詞語且所述第一相關度大于等于所述第一預設值,則當前實體與當前候選實體的相關度增加0.5倍的第一預設值;若當前相關實體在數(shù)字資源中存在相同的詞語且所述第一相關度小于所述第一預設值,則當前實體與當前候選實體的相關度增加0.25倍的第一預設值。

優(yōu)選地,所述鏈接實體獲取模塊包括:

第一鏈接實體獲取單元,用于判斷若當前實體對應的候選實體集合中的候選實體數(shù)量為0,則當前實體的鏈接實體為空;

第二鏈接實體獲取單元,用于判斷若當前實體對應的候選實體集合中的候選實體數(shù)量為1且當前實體與當前候選實體的相關度大于等于3倍的第一預設值,則當前實體的鏈接實體為當前候選實體;

第三鏈接實體獲取單元,用于判斷若當前實體對應的候選實體集合中的候選實體數(shù)量大于1且當前實體包含相關度大于等于3倍的第一預設值的候選實體,則當前實體的鏈接實體為相關度最大的候選實體。

優(yōu)選地,所述補充鏈接實體獲取模塊用于獲取所有鏈接實體的相關實體,若數(shù)字資源中存在與當前相關實體相同的字符串且該字符串長度大于2,或該字符串長度小于等于2且當前相關實體與該字符串的相關度大于等于3倍的第一預設值,則將該字符串與當前相關實體進行鏈接。

由上述技術方案可知,本發(fā)明根據(jù)實體的知識進行實體鏈接,提高了實體消歧的語義精確度,通過相關度進行量化處理,挖掘了同一文本內的實體之間的語義關系,能夠高效地從數(shù)字資源中獲取待鏈接實體并將其與給定知識庫中的實體進行鏈接。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些圖獲得其他的附圖。

圖1為本發(fā)明一實施例提供的一種實體鏈接方法的流程示意圖;

圖2為本發(fā)明一實施例提供的一種實體鏈接方法的流程示意圖;

圖3為本發(fā)明一實施例提供的一種計算相關度的流程示意圖;

圖4為本發(fā)明一實施例提供的一種補充鏈接的流程示意圖;

圖5為本發(fā)明一實施例提供的一種實體鏈接裝置的結構示意圖。

具體實施方式

下面結合附圖,對發(fā)明的具體實施方式作進一步描述。以下實施例僅用于更加清楚地說明本發(fā)明的技術方案,而不能以此來限制本發(fā)明的保護范圍。

本發(fā)明涉及的基本定義和概念如下:

(1)用戶字典是由習慣用語、縮略語和新詞組成的詞語集合,定義為userlib={e1,e2,…,er},其中ei,i=1,…,r表示一個詞或短語。

(2)停用詞表是由標點符號及數(shù)字資源中的無意義詞等組成的詞語集合,定義為stopwords={w1,w2,…,ws},其中wi,i=1,…,s表示一個詞、標點符號或短語。

(3)停用詞性是由功能詞性構成的集合,定義為stopspeeches={s1,s2,…,st},其中si,i=1,…,t表示一種功能詞性,如語氣詞、助詞等。

(4)加載用戶詞典對數(shù)字資源進行分詞,并利用停用詞表及詞性對分詞結果進行去噪后,所得到的詞語集合定義為t={term1,term2,…,termn},其中termi,i=1,…,n表示第i個意義詞。

(5)給定知識庫中的實體包含精確屬性、模糊屬性和相關實體等知識。精確屬性集a={a1,a2,…,ao},精確屬性個數(shù)為o;模糊屬性集b={b1,b2,…,bp},模糊屬性個數(shù)為p;相關實體集r={r1,r2,…,rq},相關實體個數(shù)為q。其中,模糊屬性由精確屬性利用相關技術獲取得到。

(6)待鏈接實體指稱的上下文與實體知識越匹配,則越可能鏈接到對應實體。

(7)詞語terma與termb的相似度s定義為terma的詞向量va與termb的詞向量vb的內積。若s=1,則terma與termb相同;若θ<s<1(θ為閾值,θ=0.85),則terma與termb相似。

圖1示出了本發(fā)明一實施例提供的一種實體鏈接方法,包括:

s1、獲取數(shù)字資源的待鏈接實體集合,對所述實體集合中的每個實體在給定知識庫中生成所述每個實體對應的候選實體集合;

s2、根據(jù)候選實體集合中每個候選實體的精確屬性、模糊屬性和相關實體,計算每個實體與該實體對應的候選實體集合中的每個候選實體的相關度;

s3、根據(jù)當前實體與其各候選實體的相關度大小和該實體對應的候選實體的數(shù)量,得到當前實體的鏈接實體。

本實施例根據(jù)實體的知識進行實體鏈接,提高了實體消歧的語義精確度,通過相關度進行量化處理,挖掘了同一文本內的實體之間的語義關系,能夠高效地從數(shù)字資源中獲取待鏈接實體并將其與給定知識庫中的實體進行鏈接。

作為本實施例的優(yōu)選方案,還包括:

s4、根據(jù)每個鏈接實體的相關實體集合,對數(shù)字資源進行補充實體鏈接。

通過對數(shù)字資源進行補充鏈接,能夠挖掘同一文本內的實體之間的語義關系。

具體地,s2包括:

根據(jù)每個候選實體的每個精確屬性,若當前精確屬性在數(shù)字資源中存在相似或相同的詞語,則當前實體與當前候選實體的相關度增加第一預設值;其中,當前實體與當前候選實體的相關度的初始值為0,當前候選實體的所有精確屬性計算結束后的相關度為第一相關度;

根據(jù)每個候選實體的每個模糊屬性,若當前模糊屬性在數(shù)字資源中存在相同的詞語,或存在相似的詞語且精確屬性的數(shù)量大于第二預設值,則當前實體與當前候選實體的相關度增加0.5倍的第一預設值;若當前模糊屬性在數(shù)字資源中存在相似的詞語且精確屬性的數(shù)量小于等于第二預設值,則當前實體與當前候選實體的相關度根據(jù)以下公式一計算得到:

公式一

其中,si,j表示當前實體與當前候選實體的相關度,o表示當前候選實體的精確屬性的數(shù)量,score表示第一預設值,σ表示第二預設值;

根據(jù)每個候選實體的每個相關實體,若當前相關實體在數(shù)字資源中存在相同的詞語且所述第一相關度大于等于所述第一預設值,則當前實體與當前候選實體的相關度增加0.5倍的第一預設值;若當前相關實體在數(shù)字資源中存在相同的詞語且所述第一相關度小于所述第一預設值,則當前實體與當前候選實體的相關度增加0.25倍的第一預設值。

通過將相似和相同詞語進行區(qū)別對待,增強實體相關度計算的語義信息。

進一步地,s3包括:

若當前實體對應的候選實體集合中的候選實體數(shù)量為0,則當前實體的鏈接實體為空;

若當前實體對應的候選實體集合中的候選實體數(shù)量為1且當前實體與當前候選實體的相關度大于等于3倍的第一預設值,則當前實體的鏈接實體為當前候選實體;

若當前實體對應的候選實體集合中的候選實體數(shù)量大于1且當前實體包含相關度大于等于3倍的第一預設值的候選實體,則當前實體的鏈接實體為相關度最大的候選實體。

更進一步地,s4包括:

獲取所有鏈接實體的相關實體,若知識庫中存在與當前相關實體相同的字符串且該字符串長度大于2,或該字符串長度小于等于2且當前相關實體與該字符串的相關度大于等于3倍的第一預設值,則將該字符串與當前相關實體進行鏈接。

本實施例提供的實體鏈接方法主要包括以下步驟,如圖2所示:

a1、將數(shù)字資源,一篇有格式或無格式的文本文檔,利用分詞、 詞性標注等技術抽取出其所包含的待鏈接實體指稱集合e。對e中的每個實體ei∈e在給定知識庫中生成其候選實體集合

將給定知識庫中所有實體的名稱加入用戶字典userlib。取t中的名詞構成待鏈接實體指稱集合e。對知識庫中擁有多個名稱的實體,通過同義詞表建立待鏈接實體指稱與候選實體的映射。

a2、對ei的每個候選實體ei,j利用詞向量結合ei,j的精確屬性、模糊屬性以及相關實體來計算ei與ei,j的相關度。

詞向量由給定知識庫的相關語料訓練得到并進行歸一化處理。

對給定知識庫中實體的精確屬性、模糊屬性、相關實體根據(jù)各自不同的生成方式設置不同的分數(shù)。每個精確屬性的分數(shù)設置為score(score=2)。

設ei與ei,j的相關度為si,j,初始值為0。如圖3所示,其計算方法為步驟如下:

(1)對ei,j的每個精確屬性a,遍歷數(shù)字資源詞語集合t中的每個termi,若termi與a相似或相同,令si,j=si,j+score;

(2)對ei,j的每個模糊屬性b,遍歷數(shù)字資源詞語集合t中的每個termi,若termi與b相同,令si,j=si,j+score/2;若termi與b相似,精確屬性個數(shù)o>σ(σ為閾值,模糊屬性基于精確屬性生成,σ反映模糊屬性的可信度,σ=20),令si,j=si,j+score/2;若termi與b相似,精確屬性個數(shù)o≤σ,根據(jù)公式一計算si,j;

(3)對ei,j的每個相關實體r,遍歷數(shù)字資源詞語集合t中的每個termi,若termi與r相同,且通過步驟(1)遍歷精確屬性后得到的si,j不小于score,令si,j=si,j+score/2;若termi與r相同,但通過遍歷精確屬性后得到的si,j小于score,令si,j=si,j+score/4。

a3、根據(jù)ei與候選實體集合中各候選實體ei,j的相關度si,j進 行實體鏈接。

時,表明在知識庫中沒有與ei對應的實體,實體ei是不可鏈接的,返回empty。

時,候選實體集合只包含一個候選實體ei,1,若si,1≥3score,將ei與ei,1進行鏈接。

時,將a2中計算si,j≥3score的所有候選實體按相關度由大到小進行排序,排序第一的候選實體確定為ei在知識庫中的鏈接實體,記做ki。

e中所有ei鏈接得到的實體ki構成e在給定知識庫的鏈接實體集合k={k1,k2,…,ki,…}。

a4、利用k的相關實體集合對數(shù)字資源進行補充鏈接,如圖4所示。

(1)抽取k中所有實體的相關實體構成集合rk。

(2)對rk中的每個相關實體rk,利用字符匹配在數(shù)字資源中進行查找,若存在字符串str與rk名稱完全匹配,且名稱長度大于2,將str與rk進行鏈接;否則,若存在完全匹配字符串,但名稱長度不大于2,按第二步計算str與rk的相關度鏈接str與rk。

本實施例獲取待鏈接實體指稱集合時不采用命名實體技術,操作簡單高效;引入詞向量,將相似和相同詞語進行區(qū)別對待,增強實體相關度計算的語義信息;根據(jù)實體的知識進行實體鏈接,提高實體消歧的語義精確度;根據(jù)知識間的相互生成關系及知識的重要度設置閾值及評分策略,充分利用實體知識;利用實體的相關實體進行補充鏈接,挖掘同一文本內的實體之間的語義關系。

舉例來說,當θ=0.85,score=2,結果如下:

描寫南宋{ynnnznnr}愛國詩人陸游{ynnnzn2z}生平的影片《風流千古》,由峨眉電影制片廠攝制組來陸游{ynnnzn2z}的家鄉(xiāng) 紹興以及杭州{ynnrz3yq}西子湖畔拍攝外景。《風流千古》描寫的是陸游{ynnnzn2z}堅持御外抗金的主張,屢遭當權奸臣秦檜{ynnnznp6}等人排斥打擊的坎坷仕途,以及他與表妹唐琬{ynnrzvnx}建立在愛國思想基礎上的堅貞愛情的故事。影片由寇嘉弼、江沛編劇,寇嘉弼、李杰鋒導演,顧溫厚攝影。陸游{ynnnzn2z}的扮演者計鎮(zhèn)華同志,是上海一位三十多歲的昆劇演員。唐琬{ynnrzvnx}由著名演員王馥荔扮演。

大括號內的字符串代表文本中的待鏈接實體指稱鏈接到的歷史知識庫中的實體的id。將所有歷史知識庫中實體名稱加入用戶字典中,對文本進行分詞、詞性標注等處理后得到待鏈接實體指稱集合為:{南宋,詩人,陸游,生平,影片,千古,峨眉電影制片廠,攝制組,陸游,家鄉(xiāng),紹興,杭州,西子湖畔,外景,千古,陸游,御外,奸臣,秦檜,仕途,表妹,唐琬,思想,基礎,愛情,故事,影片,寇嘉弼,江沛,編劇,寇嘉弼,李杰鋒,導演,顧溫厚,陸游,扮演者,計鎮(zhèn)華,同志,上海,昆劇,演員,唐琬,演員,王馥荔}。從歷史知識庫中可獲取的相關候選實體集合id分別為:南宋{ynnnznnr};陸游{ynnnzn2z};杭州{ynnnzfsv,ynnrz3yq};秦檜{ynnnznp6};唐琬{ynnrzvnx};紹興{ynnrzbve,ynnrzwoe};上海{ynnnzazv,ynnnzggg,ynnnrzbrd,ynnnzrfb}。歷史知識庫中地名多因朝代差異而存在多個同名實體。實體ynnrz3yq為宋朝杭州,ynnnzfsv為唐朝杭州;ynnrzbve為中華人民共和國紹興;ynnrzwoe為中華民國紹興;ynnnzazv為元朝上海;ynnnzggg為清朝上海;ynnnrzbrd為中華人民共和國上海;ynnnzrfb為明朝上海。實體陸游的鏈接過程中,文本中與其精確屬性相同的詞語有:詩人、南宋;與其精確屬性相似的詞語有:紹興(對應山陰);相關實體有:秦檜。

圖5示出了本發(fā)明一實施例提供的一種實體鏈接裝置,包括:

候選實體生成模塊11,用于獲取數(shù)字資源的待鏈接實體集合,對所述實體集合中的每個實體在給定知識庫中生成所述每個實體對應的候選實體集合;

相關度計算模塊12,用于根據(jù)候選實體集合中每個候選實體的精確屬性、模糊屬性和相關實體,計算每個實體與該實體對應的候選實體集合中的每個候選實體的相關度;

鏈接實體獲取模塊13,用于根據(jù)當前實體與其各候選實體的相關度大小和該實體對應的候選實體的數(shù)量,得到當前實體的鏈接實體。

本實施例根據(jù)實體的知識進行實體鏈接,提高了實體消歧的語義精確度,通過相關度進行量化處理,挖掘了同一文本內的實體之間的語義關系,能夠高效地從數(shù)字資源中獲取待鏈接實體并將其與給定知識庫中的實體進行鏈接。

作為本實施例的優(yōu)選方案,還包括:

補充鏈接實體獲取模塊,用于根據(jù)每個鏈接實體的相關實體集合,對數(shù)字資源進行補充實體鏈接。

通過對數(shù)字資源進行補充鏈接,能夠挖掘同一文本內的實體之間的語義關系。

具體地,所述相關度計算模塊12包括:

精確屬性計算單元,用于根據(jù)每個候選實體的每個精確屬性,若當前精確屬性在數(shù)字資源中存在相似或相同的詞語,則當前實體與當前候選實體的相關度增加第一預設值;其中,當前實體與當前候選實體的相關度的初始值為0,當前候選實體的所有精確屬性計算結束后的相關度為第一相關度;

模糊屬性計算單元,用于根據(jù)每個候選實體的每個模糊屬性,若當前模糊屬性在數(shù)字資源中存在相同的詞語,或存在相似的詞語且精確屬性的數(shù)量大于第二預設值,則當前實體與當前候選實體的相關度 增加0.5倍的第一預設值;若當前模糊屬性在數(shù)字資源中存在相似的詞語且精確屬性的數(shù)量小于等于第二預設值,則當前實體與當前候選實體的相關度根據(jù)以下公式一計算得到:

公式一

其中,si,j表示當前實體與當前候選實體的相關度,o表示當前候選實體的精確屬性的數(shù)量,score表示第一預設值,σ表示第二預設值;

相關實體計算單元,用于根據(jù)每個候選實體的每個相關實體,若當前相關實體在數(shù)字資源中存在相同的詞語且所述第一相關度大于等于所述第一預設值,則當前實體與當前候選實體的相關度增加0.5倍的第一預設值;若當前相關實體在數(shù)字資源中存在相同的詞語且所述第一相關度小于所述第一預設值,則當前實體與當前候選實體的相關度增加0.25倍的第一預設值。

進一步地,所述鏈接實體獲取模塊13包括:

第一鏈接實體獲取單元,用于判斷若當前實體對應的候選實體集合中的候選實體數(shù)量為0,則當前實體的鏈接實體為空;

第二鏈接實體獲取單元,用于判斷若當前實體對應的候選實體集合中的候選實體數(shù)量為1且當前實體與當前候選實體的相關度大于等于3倍的第一預設值,則當前實體的鏈接實體為當前候選實體;

第三鏈接實體獲取單元,用于判斷若當前實體對應的候選實體集合中的候選實體數(shù)量大于1且當前實體包含相關度大于等于3倍的第一預設值的候選實體,則當前實體的鏈接實體為相關度最大的候選實體。

更進一步地,所述補充鏈接實體獲取模塊用于獲取所有鏈接實體的相關實體,若知識庫中存在與當前相關實體相同的字符串且該字符串長度大于2,或該字符串長度小于等于2且當前相關實體與該字符 串的相關度大于等于3倍的第一預設值,則將該字符串與當前相關實體進行鏈接。

本發(fā)明的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1