亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

鏈接實體方法和系統(tǒng)與流程

文檔序號:11950653閱讀:546來源:國知局
鏈接實體方法和系統(tǒng)與流程

本發(fā)明涉及非結(jié)構(gòu)化文本處理領(lǐng)域,尤其涉及一種鏈接實體方法和系統(tǒng)。



背景技術(shù):

隨著計算機的廣泛使用和互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息非常重要的渠道。維基百科、互動百科和百度百科是互聯(lián)網(wǎng)不斷發(fā)展并由無數(shù)網(wǎng)民協(xié)同編輯構(gòu)建的知識庫,它們包含了大量的結(jié)構(gòu)化知識并且百科中網(wǎng)頁之間通過特殊的結(jié)構(gòu)聯(lián)系起來以表示網(wǎng)頁之間的相互關(guān)系。這類由網(wǎng)民共同維護(hù)的知識庫,無論在數(shù)量、質(zhì)量還是更新頻率上都超越了傳統(tǒng)的由部分專家編輯的百科全書,已經(jīng)成為人們獲取知識的主要來源之一。

在互聯(lián)網(wǎng)急劇增加的數(shù)據(jù)信息中,有超過80%的數(shù)據(jù)都是非結(jié)構(gòu)化的形式,如新聞、微博和微信等數(shù)據(jù)。通過實體鏈接,將這些自然語言文本中的實體鏈接到知識庫中的相關(guān)實體,使閱讀者更加快捷方便地了解領(lǐng)域術(shù)語的釋義,改進(jìn)閱讀體驗,并且實現(xiàn)了對知識的抽取。

然而,在鏈接實體的過程中,文本中同一個實體可能會有多個別名,以及一個實體名稱在不同的上下文中會有不同的含義,這種情況增加了實體鏈接的難度,并降低了準(zhǔn)確率。



技術(shù)實現(xiàn)要素:

本發(fā)明實施例提出了一種鏈接實體方法,包括:從給定文本中獲取待鏈接實體;從預(yù)設(shè)知識庫中獲取至少包含待鏈接實體的實體名稱,并獲得實體名稱的簡稱詞庫;基于預(yù)設(shè)知識庫建立實體名稱的同義詞庫,所述同義詞庫包含從預(yù)設(shè)知識庫中獲取的實體名稱以及與實體名稱相關(guān)的信息數(shù)據(jù);利用分詞詞典,對給定文本進(jìn)行分詞處理得到給定文本中的實體關(guān)鍵詞,其中,分詞詞典至少包括如下詞條:同義詞庫以及實體名稱的簡稱詞庫,所述實體關(guān)鍵詞包括待鏈接實體、與所述待鏈接實體名稱相關(guān)的信息數(shù)據(jù)、及所述待鏈接實體名稱的簡稱中的至少一種;將分詞得到的每一實體關(guān)鍵詞作為搜索詞在同義詞庫中進(jìn)行搜索;如果搜索匹配到同義詞庫中的某一詞條,將進(jìn)行搜索的實體關(guān)鍵詞與該詞條對應(yīng)的預(yù)設(shè)知識庫中的所述實體名稱進(jìn)行鏈接;如果搜索未匹配到同義詞庫中的詞條,則進(jìn)行生成候選實體,并通過上下文相似度評價的方式進(jìn)行消歧鏈接。

另一方面,本發(fā)明實施例還提供了一種鏈接實體方法,包括:從給定文本中獲取待鏈接實體;從預(yù)設(shè)知識庫中獲取至少包含待鏈接實體的實體名稱,并獲得實體名稱的簡稱詞庫;基于預(yù)設(shè)知識庫建立實體名稱的同義詞庫,所述同義詞庫包含從預(yù)設(shè)知識庫中獲取的所述實體名稱以及與所述實體名稱相關(guān)的信息數(shù)據(jù);對給定文本進(jìn)行分詞處理得到給定文本中的實體關(guān)鍵詞,其中,所述實體關(guān)鍵詞包括待鏈接實體、與所述待鏈接實體名稱相關(guān)的信息數(shù)據(jù)、及所述待鏈接實體名稱的簡稱中的至少一種;將分詞得到的每一實體關(guān)鍵詞作為搜索詞在同義詞庫中進(jìn)行搜索;將能夠與同義詞庫中某一詞條匹配的實體關(guān)鍵詞與該詞條對應(yīng)的預(yù)設(shè)知識庫中的實體名稱進(jìn)行鏈接。

再一方面,本發(fā)明實施例還提供一種鏈接實體的系統(tǒng),包括:待鏈接實體獲取模塊,用于從給定文本中獲取待鏈接實體;實體名稱和簡稱詞庫獲取模塊,用于從預(yù)設(shè)知識庫中獲取至少包含待鏈接實體的實體名稱,并獲得實體名稱的簡稱詞庫;同義詞庫構(gòu)建模塊,用于基于預(yù)設(shè)知識庫建立所述實體名稱的同義詞庫,所述同義詞庫包含從預(yù)設(shè)知識庫中獲取的實體名稱以及與實體名稱相關(guān)的信息數(shù)據(jù);實體關(guān)鍵詞獲取模塊,用于利用分詞詞典,對給定文本進(jìn)行分詞處理得到給定文本中的實體關(guān)鍵詞,其中,分詞詞典至少包括如下詞條:同義詞庫以及實體名稱的簡稱詞庫,實體關(guān)鍵詞包括待鏈接實體、與所述待鏈接實體相關(guān)的信息數(shù)據(jù)、所述待鏈接實體的簡稱中的至少一種;檢索模塊,用于將分詞得到的每一實體關(guān)鍵詞作為搜索詞在同義詞庫中進(jìn)行搜索;同義詞庫匹配判斷模塊,判斷所述搜索是否能夠匹配到同義詞庫中的某一詞條;同義詞庫匹配鏈接模塊,用于當(dāng)搜索匹配能夠匹配同義詞庫中的某一詞條時,將進(jìn)行搜索的實體關(guān)鍵詞與該詞條對應(yīng)的預(yù)設(shè)知識庫中的實體名稱進(jìn)行鏈接;上下文相似度比較鏈接模塊,用于當(dāng)所述搜索匹配不能夠匹配同義詞庫中的某一詞條時,進(jìn)行生成候選實體,并通過上下文相似度評價的方式進(jìn)行消歧鏈接。

根據(jù)本發(fā)明實施例提供的鏈接實體方法和系統(tǒng),進(jìn)行實體鏈接時,首先查找給定文本中是否存在某一同義詞,將能夠與同義詞庫中某一詞條匹配的實體關(guān)鍵詞與該詞條對應(yīng)的預(yù)設(shè)知識庫中的實體名稱進(jìn)行鏈接。這種方法能夠更加快速和準(zhǔn)確地將待鏈接實體與知識庫中實體進(jìn)行鏈接。

附圖說明

通過參考附圖會更加清楚地理解本公開實施例的特征和優(yōu)點,并且附圖僅是示意性的,不應(yīng)理解為對本公開進(jìn)行任何限制,在附圖中:

圖1示出了本發(fā)明一實施例提供的鏈接實體方法的流程圖。

圖2是圖1中對給定文本進(jìn)行分詞以得到給定文本中的實體關(guān)鍵詞的詳細(xì)的流程圖。

圖3示出了本發(fā)明另一實施例提供的鏈接實體方法的流程圖。

圖4是圖3中獲取待鏈接實體的各候選實體的詳細(xì)的流程圖。

圖5是圖3中通過相似度進(jìn)行評價為待鏈接實體篩選目標(biāo)實體進(jìn)行鏈接的詳細(xì)的流程圖。

圖6示出了圖5所述第一階段的實體鏈接步驟之后詳細(xì)的流程圖。

圖7示出了圖5和圖6中描述的第二階段的實體鏈接的詳細(xì)的流程圖。

圖8示出了圖5和圖6中描述的第二階段的實體鏈接之后詳細(xì)的流程圖。

圖9示出了本發(fā)明又一實施例提供的鏈接實體方法的流程圖。

圖10示出了本發(fā)明再一實施例提供的鏈接實體系統(tǒng)的結(jié)構(gòu)示意圖。

具體實施方式

下面將詳細(xì)描述本發(fā)明的各個方面的特征和示例性實施例,在下面的詳細(xì)描述中,提出了許多具體細(xì)節(jié),以便提供對本發(fā)明的全面理解。但是,對于本領(lǐng)域技術(shù)人員來說很明顯的是,本發(fā)明可以在不需要這些具體細(xì)節(jié)中的一些細(xì)節(jié)的情況下實施。下面對實施例的描述僅僅是為了通過示出本發(fā)明的示例來提供對本發(fā)明的更好的理解。

下面結(jié)合附圖,詳細(xì)描述根據(jù)本發(fā)明實施例的鏈接實體方法。

圖1是示出了本發(fā)明一實施例的鏈接實體方法的流程圖。如圖1所示,本實施例鏈接實體方法100包括以下步驟:步驟S110,從給定文本中獲取待鏈接實體;步驟S120,獲從預(yù)設(shè)知識庫中獲取至少包含所述待鏈接實體的實體名稱,并獲得所述實體名稱的簡稱;步驟S130,基于預(yù)設(shè)知識庫建立所述實體名稱的同義詞庫,所述同義詞庫包含從預(yù)設(shè)知識庫中獲取所述實體名稱以及與所述實體名稱相關(guān)的信息數(shù)據(jù);步驟S140,利用分詞詞典,對所述給定文本進(jìn)行分詞處理得到所述給定文本中實體關(guān)鍵詞,其中,所述分詞詞典至少包括如下詞條:所述同義詞庫以及所述實體名稱的簡稱詞庫,所述實體關(guān)鍵詞包括待鏈接實體、與所述待鏈接實體名稱相關(guān)的信息數(shù)據(jù)、及所述待鏈接實體名稱的簡稱中的至少一種;步驟S150,將分詞得到的每一實體關(guān)鍵詞作為搜索詞在所述同義詞庫中進(jìn)行搜索;如果搜索匹配到同義詞庫中的某一詞條,則執(zhí)行步驟S160,將進(jìn)行所述搜索的實體關(guān)鍵詞與該詞條對應(yīng)的所述預(yù)設(shè)知識庫中的所述實體名稱進(jìn)行鏈接;如果所述搜索未匹配到所述同義詞庫中的詞條,則執(zhí)行步驟S170,進(jìn)行生成候選實體,并通過上下文相似度評價的方式進(jìn)行消歧鏈接。

在所述步驟S110中,所述給定文本可為新聞文本,雜志文本等。所述待鏈接實體可為讀者感興趣的想了解的目標(biāo)對象等。

在所述步驟S120中,將待鏈接實體輸入至預(yù)設(shè)知識庫中獲取至少包含所述待鏈接實體的實體名稱,并通過簡稱生成算法獲得該實體名稱的簡稱詞庫。

具體地,對于簡稱詞庫中實體的每一個簡稱可以看做為一個字符串,該字符串包含該實體中的核心詞,進(jìn)一步地,實體的簡稱還可以包括修飾詞和/或后綴。

下面以機構(gòu)名稱為例,詳細(xì)介紹如何通過簡稱生成算法獲取實體的簡稱。

人們通常以一定的習(xí)慣用簡稱來稱呼機構(gòu)名稱,機構(gòu)名稱的簡稱通常都包含機構(gòu)名稱中的核心詞,而地名,修飾詞和后綴都是可選的部分,可以有,也可以沒有。例如,對于含有多個修飾詞的機構(gòu)名稱,簡稱中可以包含任意一個修飾詞,也可以含有多個修飾詞。這樣就得到了機構(gòu)名稱的構(gòu)成規(guī)則,即:

中文機構(gòu)名稱=地名1+……+地名m+核心詞+修飾詞1+…+修飾詞p+后綴1+…+后綴q

而要得到一個機構(gòu)名稱簡稱,該簡稱生成算法就是上述機構(gòu)名稱構(gòu)成規(guī)則的一個逆過程,即,除了“核心詞”,其他類別的詞條是可選的,這樣就得到了中文機構(gòu)名稱的簡稱詞庫Abbr,具體表示為下面的形式:

其中,Option(地名i)表示地名是可選的,Option(修飾詞j)表示修飾詞是可選的,Option(后綴k)表示后綴是可選的。

作為具體例子,如作為實體名稱的“甘肅皇臺酒業(yè)股份有限公司”,通過簡稱生成算法生成簡稱集A=﹛皇臺、皇臺酒業(yè)、皇臺股份、皇臺酒業(yè)股份、皇臺有限公司、皇臺公司、皇臺酒業(yè)有限公司﹜等,該簡稱集A即可作為本實施例的簡稱詞庫。

可以理解的是,本實施例中實體的類型并不局限于中文機構(gòu)名稱,對于可以表示為上式的實體名稱,都可以通過相同或等同的方法獲得該實體名稱對應(yīng)的各種簡稱。

在所述步驟S130中,從所述的預(yù)設(shè)知識庫中查找搜索出與所述實體名稱相關(guān)的所有信息數(shù)據(jù),這里所描述的與實體名稱相關(guān)的所有信息數(shù)據(jù),對應(yīng)于該實體名稱的所有同義詞,例如所述實體名稱的別名,二維碼,身份信息,曾用名,代碼等等,所述實體名稱的每一個同義詞都能夠唯一標(biāo)識該實體名稱,是該實體名稱區(qū)別于其他實體名稱的標(biāo)識信息。

下面以所述實體名稱為機構(gòu)名稱為例,該機構(gòu)名稱全稱、英文名稱、公司代碼、曾用名、A股代碼、A股簡稱、B股代碼和B股簡稱都可以作為該機構(gòu)名稱的標(biāo)識,即只要能夠使機構(gòu)名稱具有唯一性并區(qū)別于其他機構(gòu)名稱的詞條,都可以作為該機構(gòu)名稱的同義詞加入到同義詞庫,該機構(gòu)名稱同義詞庫可以表示為:

SynonymSet={機構(gòu)名稱全稱,機構(gòu)名稱英文名稱,公司代碼,曾用名,A股代碼,A股簡稱,B股代碼,B股簡稱}

本實施例中同義詞庫中的詞條并不局限于上式SynonymSet中包含的詞條,在一些實施例中,預(yù)設(shè)知識庫中某一實體的同義詞可以只包含其中部分詞條,在另一些實施例中,預(yù)設(shè)知識庫中某一實體的同義詞還可以包含其它該實體能夠區(qū)別于其他實體的詞條等等。

為了更容易了解本實施例的思想,下面舉一個具體的例子來進(jìn)一步說明如何構(gòu)建與一個實體名稱對應(yīng)的同義詞庫,所述預(yù)設(shè)知識庫中搜索到的實體名稱為“甘肅皇臺酒業(yè)股份有限公司”,與該“甘肅皇臺酒業(yè)股份有限公司”對應(yīng)的同義詞庫如下:

SynonymSet={*ST皇臺,G皇臺,皇臺酒業(yè),ST皇臺,000995,甘肅皇臺酒業(yè)股份有限公司}。

作為另一種例子,所述實體名稱為人名時,與其對應(yīng)的信息數(shù)據(jù)可為身份證號,戶籍地址等使其區(qū)別于其他人名而具有唯一性的信息都可以作為該人名的同義詞加入到同義詞庫。

在所述步驟S140中,所述分詞詞典至少包括在所述步驟S120中生成的簡稱詞庫及在所述步驟S130中生成的同義詞庫。再將所述分詞詞典輸入至選定的分詞工具的自定義詞典中進(jìn)行分詞,對分詞工具可以按照需求選定沒有特意的限定。

請參閱圖2,作為一個可選實施例,所述步驟S140包括:步驟S141,對給定文本進(jìn)行分詞,得到詞條序列;步驟S142,對所述詞條序列進(jìn)行過濾,得到所述實體關(guān)鍵詞,所述過濾至少包括使用預(yù)先構(gòu)建的修飾詞詞典和預(yù)先構(gòu)建的后綴詞典,過濾掉所述分詞序列中的修飾詞和后綴。

所述步驟S141中,使用Ansj分詞工具進(jìn)行分詞,在分詞前,Ansj分詞工具的自定義詞庫中添加了分詞詞典中包含的詞庫。使用Ansj分詞工具對給定文本進(jìn)行分詞,從而得到給定文本的詞條序列M={m1,m2,…,mi,…,mj,…,mn},其中,1≤i,j≤n,對于任意i、j,i≠j。

在所述步驟S142中,對得到的詞條序列進(jìn)行過濾,得到所述實體關(guān)鍵詞。上述過濾至少包括使用預(yù)先構(gòu)建的修飾詞詞典和預(yù)先構(gòu)建的后綴詞典,過濾掉所述分詞序列中的修飾詞和后綴。

在上述示例中,對于給定的文本S經(jīng)過分詞步驟得到了詞條序列M??梢允褂妙A(yù)先構(gòu)建的修飾詞詞典和預(yù)先構(gòu)建的后綴詞典過濾掉M中例如“股份有限公司”或“有限公司”這樣的常用詞語。

進(jìn)一步地,步驟S142中,對得到的詞條序列進(jìn)行過濾還可以包括:對詞條序列中的每一個詞條,如果該詞條作為一個字符串被包含在另一個詞條中,則從詞條序列中過濾掉該詞條。用公式表示則詞條序列M中,如果,mi∈mj,即mi包含于mj,則從M中過濾掉mi。

下面通過一具體例子作進(jìn)一步的解釋,假設(shè)所述預(yù)設(shè)知識庫中存在“甘肅皇臺酒業(yè)股份有限公司”,將該實體名稱的簡稱詞庫和該實體名稱的同義詞庫作為分詞詞典的內(nèi)容添加進(jìn)Ansj分詞工具的自定義詞庫中。對于給定文本S={一季度虧損的皇臺酒業(yè)(000995.SZ),于前夜收到了資產(chǎn)被查封的通知。},使用Ansj分詞工具進(jìn)行分詞,得到詞條序列M={皇臺,皇臺酒業(yè),000995},因為“皇臺”∈“皇臺酒業(yè)”,則從M中過濾掉“皇臺”,經(jīng)上述過濾后得到給定文本S中的待鏈接實體為“皇臺酒業(yè)”和“000995”。

在步驟S150中,通過步驟S140得到的每一個實體關(guān)鍵詞作為搜索詞在所述同義詞庫中進(jìn)行搜索。

在上面描述的示例中,預(yù)設(shè)知識庫中的實體“甘肅皇臺酒業(yè)股份有限公司”,其同義詞庫SynonymSet={GANSU HUANGTAI WINE,01000995,皇臺實業(yè),皇臺酒業(yè),*ST皇臺,G皇臺,*STHT,皇臺,ST皇臺,000995,甘肅皇臺酒業(yè)股份有限公司}。對于給定文本S中的待鏈接實體:“皇臺酒業(yè)”和“000995”,將“皇臺酒業(yè)”作為搜索詞在同義詞庫中進(jìn)行搜索,判斷得出“皇臺酒業(yè)”∈SynonymSet中的“甘肅皇臺酒業(yè)股份有限公司”,且唯一對應(yīng),因此,進(jìn)行所述步驟S160,將待鏈接實體“皇臺酒業(yè)”與“甘肅皇臺酒業(yè)股份有限公司”進(jìn)行鏈接,否則進(jìn)行所述步驟S170。同樣的方法,“000995”∈SynonymSet中并且完全匹配,因此,進(jìn)行所述步驟S160,將待鏈接實體“000995”與“甘肅皇臺酒業(yè)股份有限公司”進(jìn)行鏈接,否則進(jìn)行所述步驟S170。

作為另一示例,給定文本為“據(jù)中國證券網(wǎng)7日消息,萬達(dá)集團(tuán)的文化產(chǎn)業(yè)版圖將再添世界級新軍-傳奇影業(yè),具體收購情況或于周二正式發(fā)布”;選定的待鏈接實體為“萬達(dá)集團(tuán)”;從預(yù)設(shè)知識庫中獲取至少包含所述待鏈接實體的實體名稱為“大連萬達(dá)集團(tuán)股份有限公司”和“中國萬達(dá)集團(tuán)”,簡稱集A=﹛萬達(dá)、萬達(dá)集團(tuán)、大連萬達(dá)、中國萬達(dá)、萬達(dá)集團(tuán)股份有限公司﹜,SynonymSet={大連萬達(dá)集團(tuán)股份有限公司,中國萬達(dá)集團(tuán),…};對給定文本分詞得到詞條序列,再進(jìn)行過濾得到的待鏈接實體僅為“萬達(dá)集團(tuán)”,將“萬達(dá)集團(tuán)”作為搜索詞在同義詞庫中進(jìn)行搜索,判斷得出“萬達(dá)集團(tuán)”∈SynonymSet中的“大連萬達(dá)集團(tuán)股份有限公司”和“中國萬達(dá)集團(tuán)”,不唯一對應(yīng),因此認(rèn)定未匹配到所述同義詞庫中的詞條,進(jìn)而進(jìn)行所述步驟S170。

本發(fā)明實施例的鏈接實體方法100,通過建立知識庫中實體的同義詞庫,進(jìn)行實體鏈接時,首先查找給定文本中是否存在某一同義詞,因為同義詞的唯一標(biāo)識性,能夠快速和準(zhǔn)確的將給定文本中的該同義詞鏈接到知識庫中對應(yīng)的實體名稱。這種方法也可以作為處理上下文缺失和上下文中存在同義詞這種特征屬性時的簡化鏈接。

通過上面描述的示例,利用待鏈接實體與預(yù)先構(gòu)建的同義詞庫的匹配,可以解決一個實體有多個別名的鏈接問題,通過對同義詞庫的建立和維護(hù),能夠使給定文本中的實體關(guān)鍵詞被盡可能多和準(zhǔn)確的識別出來,提高了實體鏈接的召回率。

在上面描述的示例中,預(yù)設(shè)知識庫可以基于在線百科,從在線百科中提取實體,和/或利用網(wǎng)頁爬取技術(shù)爬取網(wǎng)頁而獲得。作為一個示例,在線百科可以是維基百科,互動百科,百度百科等。

在一些示例中,預(yù)設(shè)知識庫、基于預(yù)設(shè)知識庫中的實體建立同義詞庫和基于預(yù)設(shè)知識庫中的實體獲取簡稱詞庫的步驟并不局限于上面描述的順序。作為日常對知識庫的構(gòu)建和維護(hù),知識庫的使用者可以在空閑時就對已有知識庫中的實體名稱、實體名稱的同義詞庫,實體名稱的簡稱詞庫進(jìn)行擴充。作為一個示例,通過瀏覽新聞、微博、網(wǎng)頁等方式發(fā)現(xiàn)了一個新的實體名稱,可以在知識庫中添加該實體名稱,并利用上面描述的示例中簡稱詞庫和同義詞庫的構(gòu)建方法,構(gòu)建該實體名稱的簡稱詞庫和同義詞庫;作為另一個示例,通過瀏覽新聞、微博、網(wǎng)頁等方式發(fā)現(xiàn)了知識庫中一個已存在的實體名稱的新的同義詞,可以在同義詞庫中添加該實體的新的簡稱。這樣在進(jìn)行實體鏈接時,可以直接在知識庫中查找和獲取與待鏈接實體相關(guān)的信息數(shù)據(jù),節(jié)省了建立簡稱詞庫和同義詞庫的時間,提高了效率。

在另一些示例中,給定文本可以是中文新聞文本,待鏈接實體可以是中文機構(gòu)名稱。

請參閱圖3,示出了本發(fā)明又一實施例提供的鏈接實體方法的流程圖。本實施例鏈接實體方法200包括以下步驟:步驟S210,從給定文本中獲取待鏈接實體;步驟S220,獲從預(yù)設(shè)知識庫中獲取至少包含所述待鏈接實體的實體名稱,并獲得所述實體名稱的簡稱;步驟S230,基于預(yù)設(shè)知識庫建立所述實體名稱的同義詞庫,所述同義詞庫包含從預(yù)設(shè)知識庫中獲取所述實體名稱以及與所述實體名稱相關(guān)的信息數(shù)據(jù);步驟S240,利用分詞詞典,對所述給定文本進(jìn)行分詞處理得到所述給定文本中的實體關(guān)鍵詞,其中,所述分詞詞典至少包括如下詞條:所述同義詞庫以及所述實體名稱的簡稱詞庫,所述實體關(guān)鍵詞包括待鏈接實體、與所述待鏈接實體名稱相關(guān)的信息數(shù)據(jù)、及所述待鏈接實體名稱的簡稱中的至少一種;步驟S250,將分詞得到的每一實體關(guān)鍵詞作為搜索詞在所述同義詞庫中進(jìn)行搜索;如果搜索匹配到同義詞庫中的某一詞條,則執(zhí)行步驟S260,將進(jìn)行所述搜索的實體關(guān)鍵詞與該詞條對應(yīng)的所述預(yù)設(shè)知識庫中的所述實體名稱進(jìn)行鏈接;如果所述搜索未匹配到所述同義詞庫中的詞條,則執(zhí)行步驟S270,進(jìn)行生成候選實體,并通過上下文相似度評價的方式進(jìn)行消歧鏈接。本實施例的鏈接實體方法200基本相同于所述鏈接實體方法100,不同之處在于:所述步驟S270進(jìn)一步包括:步驟S271,至少從所述預(yù)設(shè)知識庫中獲取該待鏈接實體的各候選實體;以及步驟S272,通過對該待鏈接實體分別與各所述候選實體的相似度進(jìn)行評價,并根據(jù)相似度評價結(jié)果為所述待鏈接實體篩選出對應(yīng)的目標(biāo)實體進(jìn)行鏈接。

如圖4所示,作為可選實施例,所述步驟S271包括:

步驟S2711,將所述待鏈接實體作為搜索詞,通過全文檢索引擎工具至少在所述預(yù)設(shè)知識庫中進(jìn)行查詢,獲得各種候選實體詞;

在一些實施例中,可以通過普通的搜索對預(yù)設(shè)知識庫中進(jìn)行查詢來查找候選實體,也可以通過全文檢索引擎工具例如Apache lucene,將每一個待鏈接實體作為檢索詞,在預(yù)設(shè)知識庫中進(jìn)行查找。Apache lucene能夠加快在知識庫中查找候選實體的速度。另外為了盡可能多的獲取候選實體,可以使用每個待鏈接實體,通過搜索引擎在互聯(lián)網(wǎng)中進(jìn)行檢索,以獲得和待鏈接實體相關(guān)的候選實體,作為補充。

步驟S2712,所述全文檢索引擎工具進(jìn)一步對所述各種候選實體詞打分;

步驟S2713,將分?jǐn)?shù)大于預(yù)設(shè)閾值的候選實體詞作為所述各候選實體。

作為一個示例,全文檢索引擎工具對各候選實體詞進(jìn)行打分,分?jǐn)?shù)越高,表示匹配程度越高,并且,全文檢索引擎工具可以將匹配程度比較高的結(jié)果排在前面,當(dāng)檢索結(jié)果非常多的時候,可以只對排在前面的N條檢索結(jié)果進(jìn)行篩選,選擇其中分?jǐn)?shù)大于預(yù)設(shè)閾值的檢索結(jié)果做為各候選實體。其中,N可以是1到100之間的正整數(shù),分?jǐn)?shù)的預(yù)設(shè)閾值可以在0-2之間。

作為更具體的一個示例,Apache lucene查找前10條的結(jié)果中得分大于1.5搜索結(jié)果的作為當(dāng)前待鏈接實體的候選實體。

如圖5所示,作為可選實施例,所述步驟S272包括:步驟S2721,使用基于語義的相似度評價方法,對所述待鏈接實體的上下文文本分別與每個候選實體的上下文文本的文本相似程度進(jìn)行評價,以獲得待鏈接實體與每個候選實體的相似度;步驟S2722,獲取與所述待鏈接實體相似程度最高的所述候選實體,將該待鏈接實體和所述候選實體分別作為字符串,判斷所述候選實體字符串中是否包含該待鏈接實體字符串;

如果判斷結(jié)果為包含,則進(jìn)行步驟S2723,對所述待鏈接實體進(jìn)行第一階段的實體鏈接:將該候選實體作為該待鏈接實體的目標(biāo)實體進(jìn)行鏈接;

如果判斷結(jié)果為不包含,則進(jìn)行步驟S2724,使用綜合相似度評價的方法,對所述待鏈接實體進(jìn)行第二階段的實體鏈接。

在步驟S2721~S2723中,通過分詞工具提取實體在所屬文本中所處句子或段落中的詞條作為該實體的上下文文本。因為實體在所屬文本中所處句子或段落中的詞條更能代表該實體的語義,并且能夠降低算法計算的復(fù)雜度。

作為一個示例,獲取待鏈接實體的上下文文本和每個候選實體的上下文文本的步驟包括:通過開源分詞工具例如Ansj分別對給定文本中待鏈接實體所處的段落和知識庫中每個候選實體的所處簡介文本中的段落進(jìn)行分詞,并去除停用詞。

作為更具體的舉例,對于給定文本“據(jù)中國證券網(wǎng)7日消息,萬達(dá)集團(tuán)的文化產(chǎn)業(yè)版圖將再添世界級新軍-傳奇影業(yè),具體收購情況或于周二正式發(fā)布?!敝械拇溄訉嶓w“萬達(dá)集團(tuán)”,可以通過Ansj提取“萬達(dá)集團(tuán)”所在語句中的“文化產(chǎn)業(yè)”、“新軍”、“世界”、“收購”、“發(fā)布”作為待鏈接實體“萬達(dá)集團(tuán)”的上下文文本。

為了后續(xù)進(jìn)行上下文文本相似度的計算,進(jìn)一步地,對去除停用詞后得到的詞條,通過word2vec進(jìn)行文檔的向量化表示,即計算所有詞的詞向量。

在一些可選實施例中,使用基于語義的相似度評價方法對文本相似程度進(jìn)行評價,以獲得待鏈接實體與每個候選實體的相似度;

作為一個示例,采用語義杰卡德Semantic jaccard相似系數(shù)來評價文本相似度,因為語義杰卡德Semantic jaccard相似系數(shù)考慮文本的語義空間的匹配而不是單獨的只做字面匹配,能夠體現(xiàn)出文本深層次的語義相似度。具體地,語義杰卡德Semantic jaccard相似系數(shù)計算公式如下:

<mrow> <mi>S</mi> <mi>e</mi> <mi>m</mi> <mi>J</mi> <mi>a</mi> <mi>c</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mi>C</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <mi>C</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>m</mi> <mo>*</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>C</mi> <mi>o</mi> <mi>s</mi> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mrow> <mi>d</mi> <mi>i</mi> <mi>f</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>y</mi> <mrow> <mi>d</mi> <mi>i</mi> <mi>f</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>,</mo> </mrow>

其中,X,Y分別表示給定文本和一個候選實體的上下文文本。

公式中的分子為其中,表示X中的第i個詞,yi表示Y中的第i個詞。表示語義相似性部分,由公式可以看出,分子計算的結(jié)果越大,SemJac(X,Y)值越大,X和Y越相似。

公式中的分母代表X和Y的語義并集。分母分為兩部分,第一部分和分子相同,即語義相似性部分;第二部分m*(1-Cosine(xdif,ydif))中,xdif表示X中沒有參與分子計算的所有語言片段,ydif表示Y中沒有參與分子計算的所有語言片段,m表示X,Y中沒有參與分子計算的片段個數(shù)。通常,將X和Y沒有參與分子計算的總片段個數(shù)或兩者中取最大值作為m的取值。Cosine(xdif,ydif)代表X和Y中沒有參與分子計算的語言片段的語義相似性,1-Cosine(xdif,ydif)代表沒有參與分子計算的語言片段的語義差異大小。所以,分母的第二部分m*(1-Cosine(xdif,ydif))從含義上代表X和Y語義差異的部分,兩者的語義差異越小,SemJac(X,Y)值越大,X和Y越相似。

分別計算待鏈接實體與每一個候選實體的語義杰卡德相似系數(shù),獲取與待鏈接實體相似程度最高的候選實體,并且將待鏈接實體和候選實體分別作為字符串,判斷候選實體字符串中是否包含該待鏈接實體字符串,如果判斷結(jié)果為包含,將該候選實體作為該待鏈接實體的目標(biāo)實體進(jìn)行鏈接。

如圖6所示,作為一種例子,進(jìn)行步驟S2723之后,還需要進(jìn)行:

判斷所述第一階段的鏈接篩選出的目標(biāo)實體是否為預(yù)期的所述目標(biāo)實體;

如果判斷結(jié)果為是,確定第一階段的鏈接為正確的鏈接;

如果判斷結(jié)果為否,確定第一階段的鏈接為錯誤的鏈接,取消該鏈接,并對該待鏈接實體進(jìn)行第二階段的實體鏈接。

如圖7所示,作為一種例子,所述步驟S2724包括:

使用余弦相似度評價方法、字符串相似度評價方法和語義杰卡德相似度評價方法,及所述每種評價方法的權(quán)重,綜合評價待鏈接實體與每個候選實體的相似度;

選擇綜合評價結(jié)果中得分最高的所述候選實體作為該待鏈接實體的目標(biāo)實體進(jìn)行鏈接;

所述每種評價方法的權(quán)重是在進(jìn)行所述評價之前,通過機器學(xué)習(xí)而獲得。

作為一個示例,通過懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis,簡稱Weka)在第一階段的鏈接中,如果存在鏈接不正確的待鏈接實體,對這些待鏈接實體對應(yīng)的文本訓(xùn)練并使用線性回歸模型,通過這種機器學(xué)習(xí)的方法不斷的調(diào)整以獲得參與相似度評價的每種評價方法對應(yīng)的權(quán)重。

如圖8所示,作為一種例子,進(jìn)行步驟S2724之后,還需要進(jìn)行:

判斷第二階段的鏈接篩選出的目標(biāo)實體是否為所述預(yù)期的目標(biāo)實體;

如果判斷為是,確定第二階段的鏈接為正確的鏈接;

如果判斷為否,確定第二階段的鏈接為錯誤的鏈接,取消該鏈接,并對該待鏈接實體進(jìn)行信息標(biāo)注。

作為一個示例,可以對該待鏈接的實體做一個“該實體無法鏈接”的標(biāo)簽,后期再進(jìn)行處理。并用相同或相應(yīng)的步驟完成給定文本中其他待鏈接實體與知識庫中的實體的鏈接。

本發(fā)明實施例的鏈接實體方法200中,當(dāng)進(jìn)行搜索的實體關(guān)鍵詞不能與同義詞庫進(jìn)行匹配時,通過對該待鏈接實體分別與各所述候選實體的相似度進(jìn)行評價,并根據(jù)相似度評價結(jié)果為所述待鏈接實體篩選出對應(yīng)的目標(biāo)實體進(jìn)行鏈接。

通過上面描述的示例,當(dāng)給定文本中不存在能夠匹配的同義詞庫這一特征屬性時,本方法提供了分層次的上下文相似度比較進(jìn)行實體的鏈接,即:如果僅僅基于語義杰卡德相似度評價的方法,還是不能為待鏈接實體及其相關(guān)信息鏈接到預(yù)期的目標(biāo)實體,則引入了機器學(xué)習(xí)來不斷的調(diào)整相似度評價方法的權(quán)重,以使以后的實體鏈接能夠越來越準(zhǔn)確。

通過本發(fā)明中上下文相似度比較的方法進(jìn)行實體的鏈接,可以解決一個實體名稱在不同的上下文中有不同的含義的問題,提高實體鏈接的準(zhǔn)確率。

本發(fā)明提供的鏈接實體的方法并不限于上面實施例中的描述,在一些實施例中,同義詞庫中與待鏈接實體相關(guān)的信息數(shù)據(jù)比較多樣和完整,在這種情況下,用戶希望通過待鏈接實體關(guān)鍵詞與同義詞庫的匹配,對待鏈接實體進(jìn)行更快速的鏈接?;谏鲜銮闆r,如圖9所示,本發(fā)明還提供了另外一種鏈接實體的方法300,包括以下步驟:步驟S310,從給定文本中獲取待鏈接實體;步驟S320,從預(yù)設(shè)知識庫中獲取至少包含待鏈接實體的實體名稱,并獲得實體名稱的簡稱詞庫;步驟S330,基于預(yù)設(shè)知識庫建立實體名稱的同義詞庫,所述同義詞庫包含從預(yù)設(shè)知識庫中獲取的所述實體名稱以及與所述實體名稱相關(guān)的信息數(shù)據(jù);步驟S340,對給定文本進(jìn)行分詞處理得到給定文本中的實體關(guān)鍵詞,其中,所述實體關(guān)鍵詞包括待鏈接實體、與所述待鏈接實體名稱相關(guān)的信息數(shù)據(jù)、及所述待鏈接實體名稱的簡稱中的至少一種;步驟S350,將分詞得到的每一實體關(guān)鍵詞作為搜索詞在同義詞庫中進(jìn)行搜索;步驟S360,將能夠與同義詞庫中某一詞條匹配的實體關(guān)鍵詞與該詞條對應(yīng)的預(yù)設(shè)知識庫中的實體名稱進(jìn)行鏈接。

通過本實施例提供的鏈接實體方法,使識別出的實體與知識庫中對應(yīng)的實體所建立的鏈接更加快速。

本發(fā)明還提供了一種鏈接實體的系統(tǒng),如圖10所示,描述了根據(jù)本發(fā)明又一實施例提供的鏈接實體系統(tǒng)的結(jié)構(gòu)示意圖400,包括:待鏈接實體獲取模塊410,用于從給定文本中獲取待鏈接實體;實體名稱和簡稱詞庫獲取模塊420,用于從預(yù)設(shè)知識庫中獲取至少包含待鏈接實體的實體名稱,并獲得實體名稱的簡稱詞庫;同義詞庫構(gòu)建模塊430,用于基于預(yù)設(shè)知識庫建立所述實體名稱的同義詞庫,所述同義詞庫包含從預(yù)設(shè)知識庫中獲取的實體名稱以及與實體名稱相關(guān)的信息數(shù)據(jù);實體關(guān)鍵詞獲取模塊440,用于利用分詞詞典,對給定文本進(jìn)行分詞處理得到給定文本中的實體關(guān)鍵詞,其中,分詞詞典至少包括如下詞條:同義詞庫以及實體名稱的簡稱詞庫,實體關(guān)鍵詞包括待鏈接實體、與所述待鏈接實體相關(guān)的信息數(shù)據(jù)、所述待鏈接實體的簡稱中的至少一種;檢索模塊450,用于將分詞得到的每一實體關(guān)鍵詞作為搜索詞在同義詞庫中進(jìn)行搜索;同義詞庫匹配判斷模塊460,判斷所述搜索是否能夠匹配到同義詞庫中的某一詞條;同義詞庫匹配鏈接模塊470,用于當(dāng)搜索匹配能夠匹配同義詞庫中的某一詞條時,將進(jìn)行搜索的實體關(guān)鍵詞與該詞條對應(yīng)的預(yù)設(shè)知識庫中的實體名稱進(jìn)行鏈接;上下文相似度比較鏈接模塊480,用于當(dāng)所述搜索匹配不能夠匹配同義詞庫中的某一詞條時,進(jìn)行生成候選實體,并通過上下文相似度評價的方式進(jìn)行消歧鏈接。

根據(jù)上述實施例中本發(fā)明提供的鏈接實體的方法和系統(tǒng),能夠識別文本中的實體并使識別出的實體與知識庫中對應(yīng)的實體所建立的鏈接更便捷和準(zhǔn)確。

本發(fā)明提供的鏈接實體的系統(tǒng)并不局限于以上描述的,以及在圖10中示出的特定的模塊,在一些實施例中,鏈接實體的系統(tǒng)可以只包含其中的部分模塊,即鏈接實體的系統(tǒng)可以有更靈活的模塊配置,下面結(jié)合具體的實施例進(jìn)行說明。

在本發(fā)明的又一個實施例中,用戶希望只通過待鏈接實體關(guān)鍵詞與同義詞庫的匹配,對待鏈接實體進(jìn)行更快速的鏈接?;谏鲜銮闆r,鏈接實體的系統(tǒng),包括以下模塊:待鏈接實體獲取模塊,用于從給定文本中獲取待鏈接實體;實體名稱和簡稱詞庫獲取模塊,用于從預(yù)設(shè)知識庫中獲取至少包含待鏈接實體的實體名稱,并獲得實體名稱的簡稱詞庫;同義詞庫構(gòu)建模塊,用于基于預(yù)設(shè)知識庫建立所述實體名稱的同義詞庫,所述同義詞庫包含從預(yù)設(shè)知識庫中獲取的實體名稱以及與實體名稱相關(guān)的信息數(shù)據(jù);實體關(guān)鍵詞獲取模塊,用于對給定文本進(jìn)行分詞處理得到給定文本中的實體關(guān)鍵詞,其中,實體關(guān)鍵詞包括待鏈接實體、與所述待鏈接實體相關(guān)的信息數(shù)據(jù)、所述待鏈接實體的簡稱中的至少一種;檢索模塊,用于將分詞得到的每一實體關(guān)鍵詞作為搜索詞在同義詞庫中進(jìn)行搜索;同義詞庫匹配判斷模塊,判斷所述搜索是否能夠匹配到同義詞庫中的某一詞條;同義詞庫匹配鏈接模塊,將能夠與同義詞庫中某一詞條匹配的實體關(guān)鍵詞與該詞條對應(yīng)的預(yù)設(shè)知識庫中的實體名稱進(jìn)行鏈接。

根據(jù)本實施例中提供的鏈接實體的系統(tǒng),能夠使識別出的實體與知識庫中對應(yīng)的實體所建立的鏈接更加快速。

需要說明的是,本說明書中的一些實施例采用遞進(jìn)的方式進(jìn)行描述,這些實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于系統(tǒng)類實施例而言,由于與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參加方法實施例的部分說明即可。

還需要說明的是,本發(fā)明中提及的示例性實施例,基于一系列的步驟或者裝置描述一些方法或系統(tǒng)。但是,本發(fā)明不局限于上述步驟的順序,也就是說,可以按照實施例中提及的順序執(zhí)行步驟,也可以不同于實施例中的順序,或者若干步驟同時執(zhí)行。

以上所述,僅為本發(fā)明的具體實施方式,所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為了描述的方便和簡潔,上述描述的系統(tǒng)、模塊和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。應(yīng)理解,本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到各種等效的修改或替換,這些修改或替換都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1