一種相關(guān)實體推薦方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明實施例公開了一種相關(guān)實體推薦方法和系統(tǒng),所述方法包括:接收用戶輸入的查詢語句,提取出所述查詢語句中包含的實體名稱;根據(jù)預(yù)先利用語料庫中的語句挖掘出的相關(guān)實體對,查詢所述實體名稱所對應(yīng)實體的相關(guān)實體;將查詢到的相關(guān)實體進(jìn)行排序;按照排序結(jié)果將查詢到的相關(guān)實體進(jìn)行展現(xiàn)。該方法解決了現(xiàn)有技術(shù)中為用戶展現(xiàn)的推薦實體與用戶輸入的搜索查詢語句包含的實體的相關(guān)性較弱,用戶不感興趣的問題,提高了推薦實體與用戶輸入的搜索查詢語句包含的實體的相關(guān)性,實現(xiàn)了引導(dǎo)用戶進(jìn)行再次搜索的目的。
【專利說明】一種相關(guān)實體推薦方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實施例涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種相關(guān)實體推薦方法和系統(tǒng)。
【背景技術(shù)】
[0002] 目前為了引導(dǎo)用戶進(jìn)行再次搜索,在用戶輸入搜索查詢語句后,搜索引擎除了將 搜索到的與該搜索查詢語句相關(guān)的網(wǎng)頁鏈接展現(xiàn)給用戶外,還會將一些其他實體作為推薦 實體也展現(xiàn)給用戶,比如將推薦實體顯示在網(wǎng)頁鏈接的右側(cè),使用戶針對該相關(guān)實體進(jìn)行 搜索。
[0003] 現(xiàn)有技術(shù)中存在以下問題:
[0004] 展現(xiàn)的一些推薦實體與搜索查詢語句包含的實體完全無關(guān)聯(lián),該類推薦實體對用 戶完全無意義甚至引起用戶的反感,如圖1所示,用戶輸入搜索查詢語句"吃什么蔬菜補(bǔ) 鈣",搜索結(jié)果右側(cè)給出推薦的相關(guān)實體,這些實體中部分對補(bǔ)鈣有幫助,可以引導(dǎo)用戶確 認(rèn)自己的需求,但部分實體例如"腐乳"和"動物性食品",與搜索查詢語句包含的實體完全 無關(guān)聯(lián)。圖2中,推薦實體"毛新宇"與用戶輸入的搜索查詢語句包含的實體"楊虎城"完 全無關(guān)聯(lián)。
[0005] 展現(xiàn)的一部分推薦實體是另一部分推薦實體的相關(guān)實體,其與搜索查詢語句包含 的實體的相關(guān)性較弱,用戶很可能不會對其有興趣。如圖3所示,右側(cè)給出的推薦實體"陳 道明",跟推薦實體"左小青"有關(guān)聯(lián),二者共同出演了另一部電視劇,但是跟用戶輸入搜索 查詢語句直觀的實體"爺們兒"關(guān)聯(lián)程度非常小,還不如給出左小青的其他相關(guān)電視劇作 品。
[0006] 綜上,現(xiàn)有技術(shù)中為用戶展現(xiàn)的推薦實體與用戶輸入的搜索查詢語句包含的實體 的相關(guān)性較弱,用戶很可能不會對其有興趣,不能達(dá)到引導(dǎo)用戶進(jìn)行再次搜索的目的,還有 可能引起用戶反感從而導(dǎo)致用戶體驗下降。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明實施例提供一種相關(guān)實體推薦方法和系統(tǒng),以提升推薦實體與用戶輸入的 查詢語句包含實體的相關(guān)性,為用戶推薦感興趣的實體,達(dá)到引導(dǎo)用戶進(jìn)行再次搜索的目 的。
[0008] 第一方面,本發(fā)明實施例提供了一種相關(guān)實體推薦方法,包括:
[0009] 接收用戶輸入的查詢語句,提取出所述查詢語句中包含的實體名稱;
[0010] 根據(jù)預(yù)先利用語料庫中的語句挖掘出的相關(guān)實體對,查詢所述實體名稱所對應(yīng)實 體的相關(guān)實體;
[0011] 將查詢到的相關(guān)實體進(jìn)行排序;
[0012] 按照排序結(jié)果將查詢到的相關(guān)實體進(jìn)行展現(xiàn)。
[0013] 第二方面,本發(fā)明實施例還提供了一種相關(guān)實體推薦系統(tǒng),該系統(tǒng)包括:
[0014] 實體名稱提取模塊,用于接收用戶輸入的查詢語句,提取出所述查詢語句中包含 的實體名稱;
[0015] 相關(guān)實體查詢模塊,用于根據(jù)預(yù)先利用語料庫中的語句挖掘出的相關(guān)實體對,查 詢所述實體名稱所對應(yīng)實體的相關(guān)實體;
[0016] 相關(guān)實體排序模塊,用于將查詢到的相關(guān)實體進(jìn)行相關(guān)實體;
[0017] 相關(guān)實體展現(xiàn)模塊,用于按照排序結(jié)果將查詢到的相關(guān)實體進(jìn)行展現(xiàn)。
[0018] 本發(fā)明實施例通過預(yù)先利用語料庫中的語句挖掘相關(guān)實體對,根據(jù)挖掘出的相關(guān) 實體對確定查詢語句中的實體所對應(yīng)的相關(guān)實體,并對所述查詢語句中的實體所對應(yīng)的相 關(guān)實體進(jìn)行排序后推薦展現(xiàn),解決了現(xiàn)有技術(shù)中為用戶展現(xiàn)的推薦實體與用戶輸入的搜索 查詢語句包含的實體的相關(guān)性較弱,用戶不感興趣的問題,提高了推薦實體與用戶輸入的 搜索查詢語句包含的實體的相關(guān)性,實現(xiàn)了引導(dǎo)用戶進(jìn)行再次搜索的目的。
【專利附圖】
【附圖說明】
[0019] 圖1為現(xiàn)有技術(shù)中一種相關(guān)實體推薦結(jié)果展現(xiàn)示意圖;
[0020] 圖2為現(xiàn)有技術(shù)中另一種相關(guān)實體推薦結(jié)果展現(xiàn)示意圖;
[0021] 圖3為現(xiàn)有技術(shù)中另一種相關(guān)實體推薦結(jié)果展現(xiàn)示意圖;
[0022] 圖4為本發(fā)明實施例一提供的一種相關(guān)實體推薦方法的流程圖;
[0023] 圖5為本發(fā)明實施例二提供的一種相關(guān)實體推薦方法的流程圖;
[0024] 圖6為本發(fā)明實施例二提供的與楊虎城直接相關(guān)的實體及對應(yīng)的關(guān)系和頻次的 統(tǒng)計圖;
[0025]圖7為本發(fā)明實施例二提供的通過實體間關(guān)系關(guān)聯(lián)度計算與楊虎城直接相關(guān)的 實體推薦排序列表;
[0026] 圖8為本發(fā)明實施例二提供的與用戶查詢語句"楊虎城"所對應(yīng)的直接相關(guān)實體 排序展現(xiàn)不意圖;
[0027] 圖9為本發(fā)明實施例三提供的一種相關(guān)實體推薦方法中利用語料庫中的語句挖 掘相關(guān)實體對的流程圖;
[0028]圖10為本發(fā)明實施例三提供的語料庫中的語句="在大坯山下顏良被關(guān)公突然 襲擊快馬奔到面前一刀殺死的",經(jīng)過語法語義分析后,得到的句法結(jié)構(gòu)示意圖;
[0029]圖11為本發(fā)明實施例三提供的對語句="在大坯山下顏良被關(guān)公突然襲擊快馬 奔到面前一刀殺死的"句法結(jié)構(gòu)進(jìn)行相關(guān)實體對挖掘示意圖;
[0030] 圖12為本發(fā)明實施例三提供的語料庫中的語句="心雨是劉德華演唱的歌曲", 經(jīng)過語法語義分析后,得到的句法結(jié)構(gòu)示意圖;
[0031] 圖13為本發(fā)明實施例三提供的語料庫中的語句="心雨是劉德華演唱的歌曲"句 法結(jié)構(gòu)進(jìn)行相關(guān)實體對挖掘示意圖;
[0032] 圖14為本發(fā)明實施例四提供的一種相關(guān)實體推薦方法的流程圖;
[0033]圖15為本發(fā)明實施例四提供的一種間接相關(guān)實體推導(dǎo)示意圖;
[0034] 圖16為本發(fā)明實施例四提供的一種相關(guān)實體推薦結(jié)果展現(xiàn)示意圖;
[0035]圖17為本發(fā)明實施例五提供的一種相關(guān)實體推薦系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0036] 下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖牵颂幩?述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便 于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0037] 實施例一
[0038] 圖4為本發(fā)明實施例一提供的一種相關(guān)實體推薦方法的流程圖,本實施例可適用 于各種搜索引擎,用于引導(dǎo)用戶搜索,引導(dǎo)用戶發(fā)現(xiàn)真正意圖或引起用戶的相關(guān)興趣進(jìn)行 再次搜索。本實施例的方法可以由相關(guān)實體推薦裝置來執(zhí)行,該裝置可通過軟件的方式實 現(xiàn),并一般可集成于搜索引擎客戶端(例如,百度搜索、360搜索等)所在的終端設(shè)備(例 如,臺式機(jī)或者筆記本等)中,或作為搜索引擎客戶端的子程序。本實施例的方法具體包括 如下操作:
[0039] 110、接收用戶輸入的查詢語句,提取出所述查詢語句中包含的實體名稱;
[0040]用戶向搜索引擎提交查詢語句,搜索引擎一般在接受到用戶查詢語句后,要做一 些處理。所述處理就是提取出所述查詢語句中包含的實體名稱。其中用戶輸入的查詢語句 可以是一個詞語也可以是一個句子,該操作能夠識別并提取出用戶輸入查詢語句中所包含 的實體名稱,例如采用分詞技術(shù)獲得所述查詢語句中包含的各實體名稱,需要注意的是本 發(fā)明對獲得所述查詢語句中包含的實體名稱的方式不作限制。
[0041] 操作120、根據(jù)預(yù)先利用語料庫中的語句挖掘出的相關(guān)實體對,查詢所述實體名稱 所對應(yīng)實體的相關(guān)實體;
[0042] 預(yù)先利用語料庫中的語句挖掘出的相關(guān)實體對,其中所述語料庫可以是索引數(shù)據(jù) 庫,還可以是用戶行為數(shù)據(jù)庫。通過對語料庫中的語句進(jìn)行基本的詞法、句法分析,給出句 子的句法結(jié)構(gòu),然后基于此結(jié)構(gòu)進(jìn)行實體關(guān)系挖掘,確定相關(guān)實體對,所述相關(guān)實體對包括 相關(guān)實體和關(guān)聯(lián)關(guān)系。根據(jù)上述操作獲取的查詢語句中的實體名稱,從預(yù)先利用語料庫中 的語句挖掘出的相關(guān)實體對中查找所對應(yīng)實體的相關(guān)實體。
[0043] 130、將查詢到的相關(guān)實體進(jìn)行排序;
[0044] 根據(jù)查詢到的相關(guān)實體與所述實體名稱所對應(yīng)實體的關(guān)聯(lián)度值進(jìn)行排序,生成推 薦實體列表,等待輸出。
[0045] 140、按照排序結(jié)果將查詢到的相關(guān)實體進(jìn)行展現(xiàn)。
[0046] 按照排序結(jié)果將查詢到的相關(guān)實體作為用戶輸入查詢語句的推薦實體,進(jìn)行輸出 展現(xiàn),例如在搜索結(jié)果的右側(cè)給出與所述用戶查詢語句中實體名稱所對應(yīng)實體的相關(guān)實體 排序展現(xiàn)。本實施例中,也可以在搜索結(jié)果的左側(cè)或者下方展示推薦的相關(guān)實體排序結(jié)果, 本實施例對展現(xiàn)形式并不做限制。
[0047] 本實施例的技術(shù)方案,通過提取出所述查詢語句中包含的實體名稱并在根據(jù)預(yù)先 利用語料庫中的語句挖掘出的相關(guān)實體對中,查詢所述實體名稱所對應(yīng)實體的相關(guān)實體, 將查詢到的相關(guān)實體進(jìn)行排序并將排序結(jié)果進(jìn)行輸出展現(xiàn),解決了現(xiàn)有技術(shù)中為用戶展現(xiàn) 的推薦實體與用戶輸入的搜索查詢語句包含的實體的相關(guān)性較弱,用戶不感興趣的問題, 提高了推薦實體與用戶輸入的搜索查詢語句包含的實體的相關(guān)性,達(dá)到了引導(dǎo)用戶進(jìn)行再 次搜索的效果。
[0048] 實施例二
[0049] 圖5為本發(fā)明實施例二提供的一種相關(guān)實體推薦方法的流程圖,本實施例以上述 實施例為基礎(chǔ)進(jìn)行優(yōu)化。如圖5所示,該方法具體包括如下操作:
[0050] 210、對語料庫中的語句進(jìn)行語法語義分析,得到所述語句的句法結(jié)構(gòu);
[0051] 該操作主要是對語料庫中的語句進(jìn)行基本的詞法、句法分析,給出語句的句法結(jié) 構(gòu),然后基于此結(jié)構(gòu)進(jìn)行關(guān)系挖掘。這部分工作涉及:分詞模塊、實體識別模塊、詞性標(biāo)注模 塊和依存分析模塊。其中,分詞模塊是其他模塊對語句作進(jìn)一步分析的基礎(chǔ),將一個語句切 分成一個一個單獨(dú)的詞,利用各種匹配方法將語句重新組合成詞序列,例如可以是基于字 符串匹配的分詞,或者基于統(tǒng)計模型的分詞等;實體識別模塊用于識別出待處理語句中描 述確切對象的詞語;詞性標(biāo)注模塊,用于將詞語進(jìn)行詞性分類,可以將句子中具體詞的組合 關(guān)系抽象成詞類之間的組合關(guān)系,進(jìn)而更容易得到句法結(jié)構(gòu)的規(guī)律;依存分析模塊用于將 語句分析成一顆依存句法樹,描述出各個詞語之間的依存關(guān)系,也即指出了詞語之間在句 法上的搭配關(guān)系。
[0052] 同時為了提升基礎(chǔ)模塊的準(zhǔn)確率,在調(diào)用詞法和句法前,先進(jìn)行語料預(yù)處理。語料 預(yù)處理的作用,一是去除雜亂無章的語句,二是進(jìn)行指代消解。
[0053] 220、根據(jù)所述語句的句法結(jié)構(gòu),獲得所述語句中具有直接關(guān)聯(lián)關(guān)系的實體,將該 具有直接關(guān)聯(lián)關(guān)系的實體以及所述直接關(guān)聯(lián)關(guān)系作為相關(guān)實體對進(jìn)行保存;
[0054] 在上述得到的句法結(jié)構(gòu)基礎(chǔ)上,確認(rèn)語句所含有的實體,進(jìn)行實體間關(guān)系挖掘,同 時補(bǔ)充構(gòu)成關(guān)系的各個要素。其中,所述相關(guān)實體包括具有直接關(guān)聯(lián)關(guān)系的實體以及所述 直接關(guān)聯(lián)關(guān)系。
[0055] 230、接收用戶輸入的查詢語句,提取出所述查詢語句中包含的實體名稱;
[0056] 240、將根據(jù)所述相關(guān)實體對查詢到的所述實體名稱所對應(yīng)實體的相關(guān)實體作為 直接相關(guān)實體;
[0057] 所述直接相關(guān)實體,是與用戶搜索查詢語句中的實體具有直接關(guān)聯(lián)關(guān)系的相關(guān)實 體。
[0058] 250、分別獲得查詢到的各直接相關(guān)實體與所述實體名稱所對應(yīng)實體的關(guān)聯(lián)度值; 其中每兩個實體的關(guān)聯(lián)度值是根據(jù)包含該兩個實體的相關(guān)實體對的關(guān)系強(qiáng)度值和出現(xiàn)頻 次確定的;
[0059] 根據(jù)上述相關(guān)實體對挖掘結(jié)果,統(tǒng)計出兩個實體之間關(guān)系種類數(shù)、每一個關(guān)系及 其對應(yīng)的頻次等信息,例如統(tǒng)計了與"楊虎城"直接相關(guān)的實體及對應(yīng)的關(guān)系和頻次等,結(jié) 果如圖6所示。同時還可以計算關(guān)系強(qiáng)度(如"主演"強(qiáng)度大于"請")。針對每一對實體, 按照如下公式一獲得兩個實體的關(guān)聯(lián)度值entity_relscore:
[0060]公式一:entity_relscore=ΣreRfreqqel,e2,r) r-welght;
[0061] 其中,(el,e2,r)表不包含兩個實體的一個相關(guān)實體對,el、e2分別表不該兩個實 體,r表示當(dāng)前相關(guān)實體對中el與e2的關(guān)聯(lián)關(guān)系;R表示el與e2的關(guān)系的集合;;r_weight 表示r的強(qiáng)度值;freq函數(shù)表示相關(guān)實體對(el,e2,r)的出現(xiàn)頻次。
[0062] 按照如下公式二計算所述r_weight:
[0063]公式二:r_weight=ΣΓ=ιP(enti1;y_pair) *logp(entity_pair);
[0064]其中,entity_pair表示當(dāng)前相關(guān)實體對(el,e2,r),p(entity_pair)表示當(dāng)前 相關(guān)實體對(el,e2,r)在關(guān)系r所關(guān)聯(lián)的全部相關(guān)實體對中的比例,η表示相關(guān)實體對 (el,e2,r)的總數(shù)量。
[0065] 260、根據(jù)獲得的關(guān)聯(lián)度值對查詢到的直接相關(guān)實體進(jìn)行排序。
[0066] 通過上述公式的計算,可以得出直接相關(guān)實體推薦排序列表,如圖7所示。
[0067] 270、按照排序結(jié)果將查詢到的直接相關(guān)實體進(jìn)行展現(xiàn)。
[0068] 將操作260直接相關(guān)實體推薦排序列表在用戶搜索結(jié)果中展現(xiàn),如圖8所示,本實 施例中示例性的在搜索結(jié)果的右側(cè)給出與用戶查詢語句"楊虎城"所對應(yīng)的直接相關(guān)實體 排序展現(xiàn)。與現(xiàn)有技術(shù)相關(guān)實體推薦結(jié)果(參見圖2)相比,蔣介石、孫蔚如、謝葆真、宋綺 云、井岳秀等比毛新宇、毛澤民、津淵美智子等跟楊虎城的相關(guān)性更強(qiáng)。
[0069] 本實施例的技術(shù)方案,通過預(yù)先對語料庫語句進(jìn)行語法語義分析,相關(guān)實體對挖 掘,獲取與用戶查詢語句中實體名稱對應(yīng)的實體具有直接關(guān)聯(lián)關(guān)系的直接相關(guān)實體,并通 過計算實體間關(guān)聯(lián)度值,對推薦的直接相關(guān)實體進(jìn)行排序輸出展示,解決了現(xiàn)有技術(shù)中為 用戶展現(xiàn)的推薦實體與用戶輸入的搜索查詢語句包含的實體的相關(guān)性較弱,用戶不感興趣 的問題,提高了推薦實體與用戶輸入的搜索查詢語句包含的實體的相關(guān)性,提升了用戶體 驗,達(dá)到了引導(dǎo)用戶進(jìn)行再次搜索的效果。
[0070] 實施例三
[0071] 圖9為本發(fā)明實施例三提供的一種相關(guān)實體推薦方法中利用語料庫中的語句挖 掘相關(guān)實體對的流程圖,如圖9所示,利用語料庫中的語句挖掘相關(guān)實體對具體包括:
[0072] 310、對語料庫中的語句進(jìn)行語法語義分析,得到所述語句的句法結(jié)構(gòu);
[0073] 320、提取所述語句的句法結(jié)構(gòu)中的子結(jié)構(gòu);
[0074] 挖掘過程是一個自上而下的處理過程,首先根據(jù)句法結(jié)構(gòu),將句法結(jié)構(gòu)中的所有 子結(jié)構(gòu)進(jìn)行提取。
[0075] 330、對提取到的子結(jié)構(gòu)進(jìn)行語句類型識別;
[0076] 例如識別所述子結(jié)構(gòu)是正常語句還是被字句或逆序結(jié)構(gòu)等,當(dāng)所述子結(jié)構(gòu)為正常 語句結(jié)構(gòu)時,不做處理,直接保存;當(dāng)所述子結(jié)構(gòu)是被字句或逆序結(jié)構(gòu)等時,調(diào)整所述子結(jié) 構(gòu)為正常語句結(jié)構(gòu)后保存。
[0077] 340、根據(jù)語句類型識別結(jié)果,對提取到的子結(jié)構(gòu)進(jìn)行合并后對合并得到的子結(jié)構(gòu) 進(jìn)行合理性驗證,或者對提取到的子結(jié)構(gòu)進(jìn)行合理性驗證;
[0078] 如果得到的子結(jié)構(gòu)中含有無意義的連接節(jié)點(diǎn)(由于句子語法需求,一些虛詞用來 協(xié)助構(gòu)建整個句子),那么需要先對得到的子結(jié)構(gòu)進(jìn)行合并。然后對合并后得到的子結(jié)構(gòu) 或者不需要進(jìn)行合并的子結(jié)構(gòu)再進(jìn)行最后的合理性驗證,將高質(zhì)量結(jié)果作為最終的挖掘結(jié) 果。例如通過語料來源網(wǎng)站的質(zhì)量(新聞網(wǎng)站質(zhì)量高于貼吧等論壇網(wǎng)站)、網(wǎng)站數(shù)量等確定 語料語句的可靠性,將可靠性低的來源語料語句舍棄。
[0079] 350、將驗證通過的子結(jié)構(gòu)作為相關(guān)實體對進(jìn)行保存。
[0080] 所述相關(guān)實體包括具有直接關(guān)聯(lián)關(guān)系的實體(也即子結(jié)構(gòu)中的子節(jié)點(diǎn))以及所述 直接關(guān)聯(lián)關(guān)系。
[0081] 下面通過兩個具體的例子來說明本實施例的具體實現(xiàn)過程。
[0082]例如,語料庫中的語句="在大坯山下顏良被關(guān)公突然襲擊快馬奔到面前一刀殺 死的",經(jīng)過語法語義分析后,得到的句法結(jié)構(gòu)如圖10所示。
[0083] 根據(jù)得到的句法結(jié)構(gòu),進(jìn)行相關(guān)實體對挖掘的過程如下:
[0084] 提取語句句法結(jié)構(gòu)中的子結(jié)構(gòu),如圖11所示,子結(jié)構(gòu)1的根節(jié)點(diǎn)為"殺死",對應(yīng)的 子節(jié)點(diǎn)為"大坯山"、"顏良"、"關(guān)公"、"一刀"、等;子結(jié)構(gòu)2的根節(jié)點(diǎn)為"奔到",對應(yīng)的子節(jié) 點(diǎn)為"快馬"、"面前"等;對提取到的子結(jié)構(gòu)進(jìn)行語句類型識別,發(fā)現(xiàn)子結(jié)構(gòu)1為被字句,子 結(jié)構(gòu)2為正常語句。由于子結(jié)構(gòu)是一個被字句,則真正主語是"被"字后面的實體(即依存 關(guān)系上為依存于"被"的子節(jié)點(diǎn))"關(guān)公","顏良"為"殺死"的賓語,調(diào)整句子結(jié)構(gòu)保存;子 結(jié)構(gòu)2為正常語句則直接保存結(jié)果;由于兩個子結(jié)構(gòu)表示動作前后關(guān)系,不進(jìn)行合并;例如 從其他語句中還挖掘到"劉備殺死顏良",通過挖掘到語料的網(wǎng)站質(zhì)量(新聞網(wǎng)站質(zhì)量高于 貼吧等論壇網(wǎng)站)、網(wǎng)站數(shù)目(如挖掘到"關(guān)公殺死顏良"的數(shù)量遠(yuǎn)大于"劉備殺死顏良"的 數(shù)量)等確定語句的可信性;最后,將驗證通過的子結(jié)構(gòu)作為相關(guān)實體對進(jìn)行保存。
[0085] 又例如,語料庫中的語句="心雨是劉德華演唱的歌曲",分析后得到的句法結(jié)構(gòu) 如圖12所示。
[0086] 根據(jù)得到的句法結(jié)構(gòu),進(jìn)行相關(guān)實體對挖掘的過程如下:
[0087] 提取語句句法結(jié)構(gòu)中的子結(jié)構(gòu),子結(jié)構(gòu)1的根節(jié)點(diǎn)為"是",對應(yīng)的子節(jié)點(diǎn)為"心 雨"、"歌曲";子結(jié)構(gòu)2的根節(jié)點(diǎn)為"歌曲",對應(yīng)的子節(jié)點(diǎn)為"演唱";識別子結(jié)構(gòu)1為正常語 句,子結(jié)構(gòu)2為動詞修飾名詞的逆序結(jié)構(gòu);直接提取子結(jié)構(gòu)1的子節(jié)點(diǎn)信息;子結(jié)構(gòu)2則需 轉(zhuǎn)成正常結(jié)構(gòu),即將根節(jié)點(diǎn)改為"演唱","歌曲"作為其子節(jié)點(diǎn),如圖13所示。通過子結(jié)構(gòu)1 得知"心雨"等價于歌曲(關(guān)系詞為"是",表示等價),則將子結(jié)構(gòu)2中的"歌曲"替換成"心 雨",進(jìn)行兩個子結(jié)構(gòu)的合并,得到"劉德華演唱心雨";對最終結(jié)果進(jìn)行驗證,通過語料語句 來源網(wǎng)站的質(zhì)量(新聞網(wǎng)站質(zhì)量高于貼吧等論壇網(wǎng)站)、網(wǎng)站數(shù)量等確定語句的可信性。最 后,將驗證通過的子結(jié)構(gòu)作為相關(guān)實體對進(jìn)行保存。
[0088] 本發(fā)明實施例通過對語料庫中的語句進(jìn)行語法語義分析獲取句法結(jié)構(gòu),并根據(jù)獲 取的句法結(jié)構(gòu)挖掘相關(guān)實體對,得到所述用戶查詢語句中的實體名稱所對應(yīng)實體的直接相 關(guān)實體,以實現(xiàn)為用戶查詢結(jié)果推薦相關(guān)性高的相關(guān)實體。
[0089] 實施例四
[0090]本發(fā)明實施例提供的相關(guān)實體推薦方法為上述各實施例的進(jìn)一步優(yōu)化,優(yōu)選地, 在根據(jù)預(yù)先利用語料庫中的語句挖掘出的相關(guān)實體對查詢所述實體名稱所對應(yīng)實體的相 關(guān)實體之后、將查詢到的相關(guān)實體進(jìn)行排序之前,還包括:
[0091] 查詢與所述實體名稱所對應(yīng)實體的屬性相匹配的、所述實體名稱所對應(yīng)實體的間 接相關(guān)實體;所述間接相關(guān)實體是根據(jù)挖掘出的相關(guān)實體對進(jìn)行關(guān)系推導(dǎo)得到的、與實體 名稱所對應(yīng)實體具有間接關(guān)聯(lián)關(guān)系的實體。
[0092] 在上述各實施例的基礎(chǔ)上,本實施例對預(yù)先挖掘出的相關(guān)實體對進(jìn)行關(guān)系推導(dǎo)及 部分屬性值匹配,可以給出與實體名稱所對應(yīng)實體具有間接關(guān)聯(lián)關(guān)系的間接相關(guān)實體。如 圖14所示,該方法包括如下操作:
[0093] 410、接收用戶輸入的查詢語句,提取出所述查詢語句中包含的實體名稱;
[0094] 420、根據(jù)預(yù)先利用語料庫中的語句挖掘出的相關(guān)實體對,查詢所述實體名稱所對 應(yīng)實體的相關(guān)實體;
[0095] 430、查詢與所述實體名稱所對應(yīng)實體的屬性相匹配的、所述實體名稱所對應(yīng)實體 的間接相關(guān)實體;這里的屬性可以包括實體的類別、功效等。
[0096] 所述間接相關(guān)實體是根據(jù)挖掘出的相關(guān)實體對進(jìn)行關(guān)系推導(dǎo)得到的、與實體名稱 所對應(yīng)實體具有間接關(guān)聯(lián)關(guān)系的實體。
[0097] 440、分別獲得查詢到的各直接相關(guān)實體與所述實體名稱所對應(yīng)實體的關(guān)聯(lián)度值; 其中每兩個實體的關(guān)聯(lián)度值是根據(jù)包含該兩個實體的相關(guān)實體對的關(guān)系強(qiáng)度值和出現(xiàn)頻 次確定的;
[0098] 450、分別獲得查詢到的各間接相關(guān)實體與所述實體名稱所對應(yīng)實體的關(guān)聯(lián)度 值;
[0099] 任一間接相關(guān)實體與所述實體名稱所對應(yīng)實體的關(guān)聯(lián)度值,是根據(jù)該任一間接相 關(guān)實體與中間關(guān)聯(lián)實體的關(guān)聯(lián)度值確定的,具體的,該任一間接相關(guān)實體與所述實體名稱 所對應(yīng)實體的關(guān)聯(lián)度值,可以等于該任一間接相關(guān)實體與各中間關(guān)聯(lián)實體的關(guān)聯(lián)度值的平 均值,所述中間關(guān)聯(lián)實體是與該任一間接相關(guān)實體有直接關(guān)聯(lián)關(guān)系的實體;其中每兩個實 體的關(guān)聯(lián)度值是根據(jù)包含該兩個實體的相關(guān)實體對的關(guān)系強(qiáng)度值和出現(xiàn)頻次確定的;
[0100] 對于操作440和操作450,每一對實體,按照如下公式一獲得兩個實體的關(guān)聯(lián)度值 entity-relscore:
[0101] 公式一 :entity-relscore=ΣreRfreqqel,e2,r)r-welght;
[0102] 其中,(el,e2,r)表示包含兩個實體的一個相關(guān)實體對,el、e2分別表示該兩個實 體,r表示當(dāng)前相關(guān)實體對中el與e2的關(guān)聯(lián)關(guān)系;R表示el與e2的關(guān)系的集合;;r_weight 表示r的強(qiáng)度值;freq函數(shù)表示相關(guān)實體對(el,e2,r)的出現(xiàn)頻次。
[0103] 按照如下公式二計算所述r_weight:
[0104] 公式二:r-.weight=SILiP(entit:y_pair)*logp(entity-pair);
[0105]其中,entity_pair表示當(dāng)前相關(guān)實體對(el,e2,r),p(entity_pair)表示當(dāng)前 相關(guān)實體對(el,e2,r)在關(guān)系r所關(guān)聯(lián)的全部相關(guān)實體對中的比例,n表示相關(guān)實體對 (el,e2,r)的總數(shù)量。
[0106] 460、根據(jù)獲得的關(guān)聯(lián)度值對查詢到的直接相關(guān)實體和間接相關(guān)實體進(jìn)行排序;
[0107] 470、按照排序結(jié)果將查詢到的相關(guān)實體進(jìn)行展現(xiàn)。
[0108] 本實施例提供的方法主要利用實體屬性匹配(如類型相同)以及根據(jù)挖掘出的相 關(guān)實體對進(jìn)行關(guān)系推導(dǎo)得到與查詢語句中實體名稱對應(yīng)的實體具有間接關(guān)聯(lián)關(guān)系的間接 相關(guān)實體。例如根據(jù)圖15中語料庫中數(shù)據(jù),可以得出"懸崖"跟用戶輸入的搜索查詢中"爺 們兒"屬于同一類別(均為電視劇),且根據(jù)挖掘出的相關(guān)實體對(爺們兒的主演為宋佳和 張嘉譯)進(jìn)行關(guān)系推導(dǎo)得到宋佳和張嘉譯也為"懸崖"的主演,故將"懸崖"作為搜索查詢 "爺兒"的間接相關(guān)實體,"懸崖"與"爺兒"的關(guān)聯(lián)度值可以取"懸崖"與"張嘉譯"的關(guān) 聯(lián)度值和"懸崖"與"宋佳"的關(guān)聯(lián)度值的平均值。為用戶搜索查詢推薦"懸崖"作為候選推 薦實體,可以更好的引起用戶興趣。如圖16所示,其中圖中前兩排表示跟用戶搜索查詢中 實體直接關(guān)聯(lián),第三排結(jié)果是通過挖掘出的相關(guān)實體對進(jìn)行關(guān)系推導(dǎo)及屬性匹配得到的具 有間接關(guān)聯(lián)關(guān)系的推薦實體。
[0109] 本發(fā)明實施例通過根據(jù)挖掘出的相關(guān)實體對進(jìn)行關(guān)系推導(dǎo)得到與查詢語句中實 體名稱對應(yīng)的實體具有間接關(guān)聯(lián)關(guān)系的間接相關(guān)實體,作為用戶搜索結(jié)果的候選相關(guān)實 體,并根據(jù)各直接相關(guān)實體與所述實體名稱所對應(yīng)實體的關(guān)聯(lián)度值以及各間接相關(guān)實體與 所述實體名稱所對應(yīng)實體的關(guān)聯(lián)度值,對查詢到的直接相關(guān)實體和間接相關(guān)實體進(jìn)行排序 輸出展示,由于推薦相關(guān)實體中增加了間接相關(guān)實體,能夠更好的引起用戶興趣,吸引用戶 好奇心,提升用戶搜索量。
[0110] 實施例五
[0111] 圖17所示為本發(fā)明實施例五提供的相關(guān)實體推薦系統(tǒng)的結(jié)構(gòu)示意圖,該系統(tǒng)的 具體結(jié)構(gòu)如下:
[0112] 實體名稱提取模塊510,用于接收用戶輸入的查詢語句,提取出所述查詢語句中包 含的實體名稱;
[0113] 相關(guān)實體查詢模塊520,用于根據(jù)預(yù)先利用語料庫中的語句挖掘出的相關(guān)實體對, 查詢所述實體名稱所對應(yīng)實體的相關(guān)實體;
[0114] 相關(guān)實體排序模塊530,用于將查詢到的相關(guān)實體進(jìn)行排序;
[0115] 相關(guān)實體展現(xiàn)模塊540,用于按照排序結(jié)果將查詢到的相關(guān)實體進(jìn)行展現(xiàn)。
[0116] 本實施例的技術(shù)方案,通過提取出所述查詢語句中包含的實體名稱并在根據(jù)預(yù)先 利用語料庫中的語句挖掘出的相關(guān)實體對中,查詢所述實體名稱所對應(yīng)實體的相關(guān)實體, 將查詢到的相關(guān)實體進(jìn)行排序并將排序結(jié)果進(jìn)行輸出展現(xiàn),解決了現(xiàn)有技術(shù)中為用戶展現(xiàn) 的推薦實體與用戶輸入的搜索查詢語句包含的實體的相關(guān)性較弱,用戶不感興趣的問題, 提高了推薦實體與用戶輸入的搜索查詢語句包含的實體的相關(guān)性,達(dá)到了引導(dǎo)用戶進(jìn)行再 次搜索的效果。
[0117] 在上述各實施例基礎(chǔ)上,所述相關(guān)實體推薦系統(tǒng),還包括:
[0118] 語法語義分析分析模塊,用于對語料庫中的語句進(jìn)行語法語義分析,得到所述語 句的句法結(jié)構(gòu);
[0119] 相關(guān)實體對保存模塊,用于根據(jù)所述語句的句法結(jié)構(gòu),獲得所述語句中具有直接 關(guān)聯(lián)關(guān)系的實體,將該具有直接關(guān)聯(lián)關(guān)系的實體以及所述直接關(guān)聯(lián)關(guān)系作為相關(guān)實體對進(jìn) 行保存。將根據(jù)所述相關(guān)實體對查詢到的所述實體名稱所對應(yīng)實體的相關(guān)實體作為直接相 關(guān)實體。
[0120] 進(jìn)一步地,所述相關(guān)實體對保存模塊,具體包括:
[0121] 子結(jié)構(gòu)提取子單元,用于提取所述語句的句法結(jié)構(gòu)中的子結(jié)構(gòu);
[0122] 語句類型識別子單元,用于對提取到的子結(jié)構(gòu)進(jìn)行語句類型識別;
[0123] 合理性驗證子單元,用于根據(jù)語句類型識別結(jié)果,對提取到的子結(jié)構(gòu)進(jìn)行合并后 對合并得到的子結(jié)構(gòu)進(jìn)行合理性驗證,或者對提取到的子結(jié)構(gòu)進(jìn)行合理性驗證;
[0124] 相關(guān)實體對保存子單元,將驗證通過的子結(jié)構(gòu)作為相關(guān)實體對進(jìn)行保存。
[0125] 在上述各實施例基礎(chǔ)上,所述相關(guān)實體推薦系統(tǒng)還包括:間接相關(guān)實體查詢模塊, 用于查詢與所述實體名稱所對應(yīng)實體的屬性相匹配的、所述實體名稱所對應(yīng)實體的間接相 關(guān)實體;所述間接相關(guān)實體是根據(jù)挖掘出的相關(guān)實體對進(jìn)行關(guān)系推導(dǎo)得到的、與實體名稱 所對應(yīng)實體具有間接關(guān)聯(lián)關(guān)系的實體。
[0126] 進(jìn)一步地,所述相關(guān)實體排序模塊,具體包括:
[0127] 直接相關(guān)實體關(guān)聯(lián)度值獲取單元,用于分別獲得查詢到的各直接相關(guān)實體與所述 實體名稱所對應(yīng)實體的關(guān)聯(lián)度值;其中每兩個實體的關(guān)聯(lián)度值是根據(jù)包含該兩個實體的相 關(guān)實體對的關(guān)系強(qiáng)度值和出現(xiàn)頻次確定的;
[0128] 直接相關(guān)實體排序單元,用于根據(jù)獲得的關(guān)聯(lián)度值對查詢到的直接相關(guān)實體進(jìn)行 排序。
[0129] 優(yōu)選地,所述相關(guān)實體排序模塊,具體還包括:
[0130] 直接相關(guān)實體關(guān)聯(lián)度值獲取單元,分別獲得查詢到的各直接相關(guān)實體與所述實體 名稱所對應(yīng)實體的關(guān)聯(lián)度值;
[0131] 間接相關(guān)實體關(guān)聯(lián)度值獲取單元,分別獲得查詢到的各間接相關(guān)實體與所述實體 名稱所對應(yīng)實體的關(guān)聯(lián)度值;任一間接相關(guān)實體與所述實體名稱所對應(yīng)實體的關(guān)聯(lián)度值, 是根據(jù)該任一間接相關(guān)實體與中間關(guān)聯(lián)實體的關(guān)聯(lián)度值確定的,所述中間關(guān)聯(lián)實體是與該 任一間接相關(guān)實體有直接關(guān)聯(lián)關(guān)系的實體;其中每兩個實體的關(guān)聯(lián)度值是根據(jù)包含該兩個 實體的相關(guān)實體對的關(guān)系強(qiáng)度值和出現(xiàn)頻次確定的;
[0132] 相關(guān)實體排序單元,根據(jù)獲得的關(guān)聯(lián)度值對查詢到的直接相關(guān)實體和間接相關(guān)實 體進(jìn)行排序。
[0133] 其中,按照如下公式一獲得兩個實體的關(guān)聯(lián)度值entity_relscore:
[0134]公式一:entity_relscore=ΣreRfreqqel,e2,r) r-welght;
[0135] 其中,(el,e2,r)表不包含兩個實體的一個相關(guān)實體對,el、e2分別表不該兩個實 體,r表示當(dāng)前相關(guān)實體對中el與e2的關(guān)聯(lián)關(guān)系;R表示el與e2的關(guān)系的集合;;r_weight 表示r的強(qiáng)度值;freq函數(shù)表示相關(guān)實體對(el,e2,r)的出現(xiàn)頻次。
[0136] 按照如下公式二計算所述:r_weight:
[0137]公式二
【權(quán)利要求】
1. 一種相關(guān)實體推薦方法,其特征在于,包括: 接收用戶輸入的查詢語句,提取出所述查詢語句中包含的實體名稱; 根據(jù)預(yù)先利用語料庫中的語句挖掘出的相關(guān)實體對,查詢所述實體名稱所對應(yīng)實體的 相關(guān)實體; 將查詢到的相關(guān)實體進(jìn)行排序; 按照排序結(jié)果將查詢到的相關(guān)實體進(jìn)行展現(xiàn)。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,利用語料庫中的語句挖掘相關(guān)實體對,具 體包括: 對語料庫中的語句進(jìn)行語法語義分析,得到所述語句的句法結(jié)構(gòu);根據(jù)所述語句的句 法結(jié)構(gòu),獲得所述語句中具有直接關(guān)聯(lián)關(guān)系的實體,將該具有直接關(guān)聯(lián)關(guān)系的實體以及所 述直接關(guān)聯(lián)關(guān)系作為相關(guān)實體對進(jìn)行保存; 將根據(jù)所述相關(guān)實體對查詢到的所述實體名稱所對應(yīng)實體的相關(guān)實體作為直接相關(guān) 實體。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述語句的句法結(jié)構(gòu),獲得所述 語句中具有直接關(guān)聯(lián)關(guān)系的實體,將該具有直接關(guān)聯(lián)關(guān)系的實體以及所述直接關(guān)聯(lián)關(guān)系作 為相關(guān)實體對進(jìn)行保存,具體包括: 提取所述語句的句法結(jié)構(gòu)中的子結(jié)構(gòu); 對提取到的子結(jié)構(gòu)進(jìn)行語句類型識別; 根據(jù)語句類型識別結(jié)果,對提取到的子結(jié)構(gòu)進(jìn)行合并后對合并得到的子結(jié)構(gòu)進(jìn)行合理 性驗證,或者對提取到的子結(jié)構(gòu)進(jìn)行合理性驗證; 將驗證通過的子結(jié)構(gòu)作為相關(guān)實體對進(jìn)行保存。
4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,在根據(jù)預(yù)先利用語料庫中的語句挖掘出 的相關(guān)實體對查詢所述實體名稱所對應(yīng)實體的相關(guān)實體之后、將查詢到的相關(guān)實體進(jìn)行排 序之前,還包括: 查詢與所述實體名稱所對應(yīng)實體的屬性相匹配的、所述實體名稱所對應(yīng)實體的間接相 關(guān)實體;所述間接相關(guān)實體是根據(jù)挖掘出的相關(guān)實體對進(jìn)行關(guān)系推導(dǎo)得到的、與實體名稱 所對應(yīng)實體具有間接關(guān)聯(lián)關(guān)系的實體。
5. 根據(jù)權(quán)利要求2所述的方法,其特征在于,將查詢到的相關(guān)實體進(jìn)行排序,具體包 括: 分別獲得查詢到的各直接相關(guān)實體與所述實體名稱所對應(yīng)實體的關(guān)聯(lián)度值;其中每 兩個實體的關(guān)聯(lián)度值是根據(jù)包含該兩個實體的相關(guān)實體對的關(guān)系強(qiáng)度值和出現(xiàn)頻次確定 的; 根據(jù)獲得的關(guān)聯(lián)度值對查詢到的直接相關(guān)實體進(jìn)行排序。
6. 根據(jù)權(quán)利要求4所述的方法,其特征在于,將查詢到的相關(guān)實體進(jìn)行排序,具體包 括: 分別獲得查詢到的各直接相關(guān)實體與所述實體名稱所對應(yīng)實體的關(guān)聯(lián)度值; 分別獲得查詢到的各間接相關(guān)實體與所述實體名稱所對應(yīng)實體的關(guān)聯(lián)度值;任一間接 相關(guān)實體與所述實體名稱所對應(yīng)實體的關(guān)聯(lián)度值,是根據(jù)該任一間接相關(guān)實體與中間關(guān)聯(lián) 實體的關(guān)聯(lián)度值確定的,所述中間關(guān)聯(lián)實體是與該任一間接相關(guān)實體有直接關(guān)聯(lián)關(guān)系的實 體;其中每兩個實體的關(guān)聯(lián)度值是根據(jù)包含該兩個實體的相關(guān)實體對的關(guān)系強(qiáng)度值和出現(xiàn) 頻次確定的; 根據(jù)獲得的關(guān)聯(lián)度值對查詢到的直接相關(guān)實體和間接相關(guān)實體進(jìn)行排序。
7. 根據(jù)權(quán)利要求5或6所述的方法,其特征在于,按照如下公式一獲得兩個實體的關(guān)聯(lián) 度值entity_relscore:
其中,(el,e2,r)表示包含兩個實體的一個相關(guān)實體對,el、e2分別表示該兩個實體,r表示當(dāng)前相關(guān)實體對中el與e2的關(guān)聯(lián)關(guān)系;R表示el與e2的關(guān)系的集合;;r_weight表 示r的強(qiáng)度值;freq函數(shù)表示相關(guān)實體對(el,e2,r)的出現(xiàn)頻次。
8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,按照如下公式二計算所述r_weight:
其中,entity_pair表示當(dāng)前相關(guān)實體對(el,e2,r),p(entity_pair)表示當(dāng)前相關(guān)實 體對(el,e2,r)在關(guān)系r所關(guān)聯(lián)的全部相關(guān)實體對中的比例,n表示相關(guān)實體對(el,e2,r) 的總數(shù)量。
9. 一種相關(guān)實體推薦系統(tǒng),其特征在于,包括: 實體名稱提取模塊,用于接收用戶輸入的查詢語句,提取出所述查詢語句中包含的實 體名稱; 相關(guān)實體查詢模塊,用于根據(jù)預(yù)先利用語料庫中的語句挖掘出的相關(guān)實體對,查詢所 述實體名稱所對應(yīng)實體的相關(guān)實體; 相關(guān)實體排序模塊,用于將查詢到的相關(guān)實體進(jìn)行排序; 相關(guān)實體展現(xiàn)模塊,用于按照排序結(jié)果將查詢到的相關(guān)實體進(jìn)行展現(xiàn)。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,還包括: 語法語義分析分析模塊,用于對語料庫中的語句進(jìn)行語法語義分析,得到所述語句的 句法結(jié)構(gòu); 相關(guān)實體對保存模塊,用于根據(jù)所述語句的句法結(jié)構(gòu),獲得所述語句中具有直接關(guān)聯(lián) 關(guān)系的實體,將該具有直接關(guān)聯(lián)關(guān)系的實體以及所述直接關(guān)聯(lián)關(guān)系作為相關(guān)實體對進(jìn)行保 存; 將根據(jù)所述相關(guān)實體對查詢到的所述實體名稱所對應(yīng)實體的相關(guān)實體作為直接相關(guān) 實體。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述相關(guān)實體對保存單元,具體包括: 子結(jié)構(gòu)提取子單元,用于提取所述語句的句法結(jié)構(gòu)中的子結(jié)構(gòu); 語句類型識別子單元,用于對提取到的子結(jié)構(gòu)進(jìn)行語句類型識別; 合理性驗證子單元,用于根據(jù)語句類型識別結(jié)果,對提取到的子結(jié)構(gòu)進(jìn)行合并后對合 并得到的子結(jié)構(gòu)進(jìn)行合理性驗證,或者對提取到的子結(jié)構(gòu)進(jìn)行合理性驗證; 相關(guān)實體對保存子單元,將驗證通過的子結(jié)構(gòu)作為相關(guān)實體對進(jìn)行保存。
12. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,還包括: 間接相關(guān)實體查詢模塊,用于查詢與所述實體名稱所對應(yīng)實體的屬性相匹配的、所述 實體名稱所對應(yīng)實體的間接相關(guān)實體;所述間接相關(guān)實體是根據(jù)挖掘出的相關(guān)實體對進(jìn)行 關(guān)系推導(dǎo)得到的、與實體名稱所對應(yīng)實體具有間接關(guān)聯(lián)關(guān)系的實體。
13. 根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,所述相關(guān)實體排序模塊,具體包括: 直接相關(guān)實體關(guān)聯(lián)度值獲取單元,用于分別獲得查詢到的各直接相關(guān)實體與所述實體 名稱所對應(yīng)實體的關(guān)聯(lián)度值;其中每兩個實體的關(guān)聯(lián)度值是根據(jù)包含該兩個實體的相關(guān)實 體對的關(guān)系強(qiáng)度值和出現(xiàn)頻次確定的; 直接相關(guān)實體排序單元,用于根據(jù)獲得的關(guān)聯(lián)度值對查詢到的直接相關(guān)實體進(jìn)行排 序。
14. 根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述相關(guān)實體排序模塊,具體包括: 直接相關(guān)實體關(guān)聯(lián)度值獲取單元,分別獲得查詢到的各直接相關(guān)實體與所述實體名稱 所對應(yīng)實體的關(guān)聯(lián)度值; 間接相關(guān)實體關(guān)聯(lián)度值獲取單元,分別獲得查詢到的各間接相關(guān)實體與所述實體名稱 所對應(yīng)實體的關(guān)聯(lián)度值;任一間接相關(guān)實體與所述實體名稱所對應(yīng)實體的關(guān)聯(lián)度值,是根 據(jù)該任一間接相關(guān)實體與中間關(guān)聯(lián)實體的關(guān)聯(lián)度值確定的,所述中間關(guān)聯(lián)實體是與該任一 間接相關(guān)實體有直接關(guān)聯(lián)關(guān)系的實體; 其中每兩個實體的關(guān)聯(lián)度值是根據(jù)包含該兩個實體的相關(guān)實體對的關(guān)系強(qiáng)度值和出 現(xiàn)頻次確定的; 相關(guān)實體排序單元,根據(jù)獲得的關(guān)聯(lián)度值對查詢到的直接相關(guān)實體和間接相關(guān)實體進(jìn) 行排序。
15. 根據(jù)權(quán)利要求13或14所述的系統(tǒng),其特征在于,按照如下公式一獲得兩個實體的 關(guān)聯(lián)度值entity_relscore:
其中,(el,e2,r)表示包含兩個實體的一個相關(guān)實體對,el、e2分別表示該兩個實體,r表示當(dāng)前相關(guān)實體對中el與e2的關(guān)聯(lián)關(guān)系;R表示el與e2的關(guān)系的集合;;r_weight表 示r的強(qiáng)度值;freq函數(shù)表示相關(guān)實體對(el,e2,r)的出現(xiàn)頻次。
16. 根據(jù)權(quán)利要求15所述的系統(tǒng),其特征在于,按照如下公式二計算所述r_weight:
其中,entity_pair表示當(dāng)前相關(guān)實體對(el,e2,r),p(entity_pair)表示當(dāng)前相關(guān)實 體對(el,e2,r)在關(guān)系r所關(guān)聯(lián)的全部相關(guān)實體對中的比例,n表示相關(guān)實體對(el,e2,r) 的總數(shù)量。
【文檔編號】G06F17/30GK104484339SQ201410677385
【公開日】2015年4月1日 申請日期:2014年11月21日 優(yōu)先權(quán)日:2014年11月21日
【發(fā)明者】王麗杰, 劉占一, 于佃海 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司