專利名稱:一種基于維基百科度量概念之間語義相關(guān)度的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)的技術(shù)領(lǐng)域,具體地涉及ー種基于維基百科度量概念之間語義相關(guān)度的方法。
背景技術(shù):
現(xiàn)有的基于維基百科度量概念之間語義相關(guān)度的方法從方法上來講,都沒有利用維基百科結(jié)構(gòu)上的特點(diǎn)。維基百科中,鏈接兩個(gè)概念之間的錨文本鏈接與鏈接概念和分類之間的分類鏈接是不一樣的,但兩者所攜帯的結(jié)構(gòu)信息是有冗余的,兩者可以相互補(bǔ)充,使得相關(guān)度從相互鏈接的節(jié)點(diǎn)上擴(kuò)散到本來并不相互鏈接的節(jié)點(diǎn)上。從實(shí)現(xiàn)的功能來講,這些方法僅僅能度量兩個(gè)概念的相關(guān)度,并不能解釋兩者的 關(guān)系。
發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)的缺陷,本發(fā)明要解決的技術(shù)問題是提供了ー種能推薦與給定概念語義上最相關(guān)的概念,能用維基百科中的類別來表示概念之間的語義關(guān)系的基于維基百科度量概念之間語義相關(guān)度的方法。本發(fā)明的技術(shù)方案是這種基于維基百科度量概念之間語義相關(guān)度的方法,包括離線步驟和在線步驟在離線步驟中,從維基百科的原始數(shù)據(jù)中生成概念之間的初始關(guān)系和概念與類別之間的初始關(guān)系;用ー個(gè)迭代算法來將兩種關(guān)系相互平滑,最后存儲(chǔ)到索引中;在在線步驟中,給定ー個(gè)概念,推薦和這個(gè)概念語義上最相關(guān)的概念,并用維基分類來表示每個(gè)推薦出來的概念和原概念之間的關(guān)系。采用這種方法能推薦與給定概念語義上最相關(guān)的概念,能用維基百科中的類別來表示概念之間的語義關(guān)系的基于維基百科度量概念之間語義相關(guān)度的方法。
圖I是根據(jù)本發(fā)明的離線步驟的流程圖;圖2是根據(jù)本發(fā)明的在線步驟的流程圖;圖3示出了本發(fā)明推薦相關(guān)概念以及概念之間的關(guān)系。
具體實(shí)施例方式下面對本發(fā)明的技術(shù)方案做進(jìn)ー步的詳細(xì)描述。這種基于維基百科度量概念之間語義相關(guān)度的方法,包括離線步驟和在線步驟在離線步驟中,從維基百科的原始數(shù)據(jù)中生成概念之間的初始關(guān)系和概念與類別之間的初始關(guān)系;用ー個(gè)迭代算法來將兩種關(guān)系相互平滑,最后存儲(chǔ)到索引中;在在線步驟中,給定ー個(gè)概念,推薦和這個(gè)概念語義上最相關(guān)的概念,并用維基分類來表示每個(gè)推薦出來的概念和原概念之間的關(guān)系。采用這種方法能推薦與給定概念語義上最相關(guān)的概念,能用維基百科中的類別來表示概念之間的語義關(guān)系的基于維基百科度量概念之間語義相關(guān)度的方法。優(yōu)選地,如圖I所示,離線步驟包括以下分步驟(I. I)從維基百科數(shù)據(jù)中提取概念和概念之間通過錨文本鏈接得到的鏈接關(guān)系,并初始化得到概念-概念關(guān)系矩陣R,其中Ru為概念i和概念j之間的語義關(guān)連強(qiáng)度,初始化如下
權(quán)利要求
1.ー種基于維基百科度量概念之間語義相關(guān)度的方法,其特征在于包括離線步驟和在線步驟 在離線步驟中,從維基百科的原始數(shù)據(jù)中生成概念之間的初始關(guān)系和概念與類別之間的初始關(guān)系;用ー個(gè)迭代算法來將兩種關(guān)系相互平滑,最后存儲(chǔ)到索引中; 在在線步驟中,給定ー個(gè)概念,推薦和這個(gè)概念語義上最相關(guān)的概念,并用維基分類來表不姆個(gè)推薦出來的概念和原概念之間的關(guān)系。
2.根據(jù)權(quán)利要求I所述的基于維基百科度量概念之間語義相關(guān)度的方法,其特征在于離線步驟包括以下分步驟 (I. D從維基百科數(shù)據(jù)中提取概念和概念之間通過錨文本鏈接得到的鏈接關(guān)系,并初始化得到概念-概念關(guān)系矩陣R,其中Ru為概念i和概念j之間的語義關(guān)連強(qiáng)度,初始化如下
3.根據(jù)權(quán)利要求2所述的基于維基百科度量概念之間語義相關(guān)度的方法,其特征在于在線步驟包括以下分步驟 (2. I)給定ー個(gè)概念P,把其放到概念-概念索引中得到返回的最相似的ー個(gè)概念P’,如果P’和P的編輯距離小于指定閾值,則認(rèn)為檢索成功,否則檢索失?。蝗绻麢z索成功,把P’的相關(guān)概念P’ P P’ 2?!?,P’ k作為P的相關(guān)概念,其中k是檢索來的P’的相關(guān)概念個(gè)數(shù),為正整數(shù); (2. 2)把p’以及p’ 1;p’ 2...,p’ k放到概念-分類索引中得到和每個(gè)概念相關(guān)連的分類以及其關(guān)聯(lián)強(qiáng)度,這樣把每個(gè)概念都映射到了分類空間; (2. 3)對于p’和每個(gè)相關(guān)概念P’ i,l < i < k,i是正整數(shù),對其映射到分類空間的向量計(jì)算余弦距離,并將對余弦距離貢獻(xiàn)最大的那ー維所對應(yīng)的分類當(dāng)做P和P’之間的關(guān)系O
全文摘要
公開了一種能推薦與給定概念語義上最相關(guān)的概念,能用維基百科中的類別來表示概念之間的語義關(guān)系的基于維基百科度量概念之間語義相關(guān)度的方法,包括離線步驟和在線步驟在離線步驟中,從維基百科的原始數(shù)據(jù)中生成概念之間的初始關(guān)系和概念與類別之間的初始關(guān)系;用一個(gè)迭代算法來將兩種關(guān)系相互平滑,最后存儲(chǔ)到索引中;在在線步驟中,給定一個(gè)概念,推薦和這個(gè)概念語義上最相關(guān)的概念,并用維基分類來表示每個(gè)推薦出來的概念和原概念之間的關(guān)系。
文檔編號G06F17/30GK102646113SQ201210037968
公開日2012年8月22日 申請日期2012年2月17日 優(yōu)先權(quán)日2012年2月17日
發(fā)明者朱小燕, 郝宇, 黃民烈 申請人:清華大學(xué)