本發(fā)明涉及語義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種改進(jìn)的基于語義距離求解本體概念語義相似度的計算方法。
背景技術(shù):
隨著本體在信息檢索、人工智能等領(lǐng)域的廣泛應(yīng)用,面向本體的概念相似度計算成為本體研究的一大熱點。目前領(lǐng)域本體中概念相似度的研究主要是利用概念上下位關(guān)系進(jìn)行計算,但這并沒有完整反映出概念的語義信息。傳統(tǒng)的基于本體的概念語義相似度計算方法主要分為兩種:一種是基于信息論的方法,該方法利用信息論來計算兩個概念共享信息的程度,具有較高的理論嚴(yán)謹(jǐn)性,但是只能粗略地量化概念之間的語義相似度,不能實現(xiàn)概念語義相似度的細(xì)致區(qū)分;另一種方法是基于語義距離的方法,該方法以概念之間路徑的長短作為衡量語義距離的長短,通過計算兩概念之間的語義距離來實現(xiàn)概念語義相似度的計算,該方法簡單、直觀,但忽略了影響語義距離的其他很多因素。針對信息論方法的缺陷,引入了語義距離來克服了信息論方法語義區(qū)分不細(xì)致問題,在基于語義距離方法中,概念語義相似度不僅與語義距離有關(guān),而且還受概念在本體樹中的層次深度、密度影響,為了提高求解語義相似度的準(zhǔn)確度同時解決各類多繼承問題,本發(fā)明提供了改進(jìn)的基于語義距離求解本體概念語義相似度的計算方法。
技術(shù)實現(xiàn)要素:
針對信息論方法的缺陷,引入了語義距離來克服了信息論方法語義區(qū)分不細(xì)致問題,在基于語義距離方法中,概念語義相似度不僅與語義距離有關(guān),而且還受概念在本體樹中的層次深度、密度影響,為了提高求解語義相似度的準(zhǔn)確度同時解決各類多繼承問題,本發(fā)明提供了一種改進(jìn)的基于語義距離求解本體概念語義相似度的計算方法。
為了解決上述問題,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
步驟1:初始化本體概念領(lǐng)域模塊。
步驟2:計算基于改進(jìn)的信息論方法得到兩本體概念(g1,g2)間的語義距離d1。
步驟3:計算基于語義距離得到兩本體概念(g1,g2)間的距離因子d2。
步驟4:綜合步驟2、步驟3,構(gòu)造兩本體概念(g1,g2)語義相似度sim1(g1,g2)。
步驟5:根據(jù)兩本體概念節(jié)點(g1,g2)對應(yīng)深度D(g1)、D(g2)與密度,構(gòu)造兩本體概念語義相似度sim2(g1,g2)。
步驟6:綜合上述步驟,得到最終兩本體概念間的語義相似度sim(g1,g2)。
本發(fā)明的有益效果是:
1、相比較傳統(tǒng)的基于信息論方法、基于語義距離方法求解語義相似度,此方法準(zhǔn)確度更高。
2、該方法即克服了信息論方法語義區(qū)分不細(xì)致問題,又使得語義距離計算具有一定的理論嚴(yán)謹(jǐn)性。
3、綜合了基于信息論以及語義距離方法,得到的結(jié)果更加準(zhǔn)確。
4、解決了本體樹中節(jié)點的多繼承問題。
5、此計算語義相似度的方法在量化概念上更接近專家的經(jīng)驗值。
6、更好的提高了本體推理的效果。
7、具有更廣泛的應(yīng)用研究價值。
附圖說明
圖1為改進(jìn)的基于語義距離求解本體概念語義相似度的計算方法結(jié)構(gòu)流程圖。
圖2為本體概念領(lǐng)域模塊語義樹形圖。
具體實施方式
針對上述問題本發(fā)明提出了一種改進(jìn)的基于語義距離求解本體概念語義相似度的計算方法。
為了解決信息論方法的缺陷,引入了語義距離來克服了信息論方法語義區(qū)分不細(xì)致問題,在基于語義距離方法中,概念語義相似度不僅與語義距離有關(guān),而且還受概念在本體樹中的層次深度、密度影響,為了提高求解語義相似度的準(zhǔn)確度同時解決各類多繼承問題,結(jié)合圖1對本發(fā)明進(jìn)行了詳細(xì)說明,其具體實施步驟如下:
步驟1:初始化本體概念領(lǐng)域模塊。
步驟2:計算基于改進(jìn)的信息論方法得到兩本體概念(g1,g2)間的語義距離d1,其具體求解過程如下:
步驟2.1)分別求解其共同父節(jié)點在在樹狀層次結(jié)構(gòu)中的信息量值I(pr)
基于信息內(nèi)容的計算相似度方法主要是通過衡量概念所包含的信息量來計算相似度。概念是對其祖先節(jié)點的繼承,是祖先節(jié)點的又一次細(xì)化,所以可通過祖先節(jié)點包含的信息量來衡量兩個概念的共享信息。
根據(jù)圖2,得出兩本體概念(g1,g2)共同父節(jié)點在樹狀層次結(jié)構(gòu)中出現(xiàn)的概率值p(pr)
上式n(pr)為(g1,g2)共同父節(jié)點在本體樹中出現(xiàn)的次數(shù),為父節(jié)點的直接子節(jié)點(g1,g2,…,gk)在本體樹中出現(xiàn)的總次數(shù),n(o)為本體樹的總節(jié)點數(shù)。上式k為共同父節(jié)點直接子節(jié)點的個數(shù)。
即I(pr)=-p(pr)lnp(pr)
步驟2.2)分別求解兩本體概念(g1,g2)在樹狀層次結(jié)構(gòu)中的信息量值I1(g1)、I2(g2),其具體求解過程如下:
求解兩本體概念的在樹狀層次結(jié)構(gòu)中的信息量值I1(g1)、I2(g2),同理,根據(jù)圖2,得出兩本體概念(g1,g2)在樹狀層次結(jié)構(gòu)中出現(xiàn)的概率值p(g1)、p(g2)
上式n(g1)、n(g2)分別為g1、g2在本體樹中出現(xiàn)的次數(shù),分別為g1、g2的直接子節(jié)點(g11,g12,…,g1x)、(g21,g22,…,g2y)在本體樹中出現(xiàn)的總次數(shù),n(o)為本體樹的總節(jié)點數(shù)。上式x、y分別為g1、g2直接子節(jié)點的個數(shù)。
所以I1(g1)=-p(g1)lnp(g1)
I2(g2)=-P(g2)lnp(g2)
步驟2.3)求解兩本體概念(g1,g2)間的語義距離d1
I1(g1)、I2(g2)中分別包含了I1′((g1/pr))、I2′((g2/pr))
兩本體概念(g1,g2)總共信息量,如下:
Z(g1,g2)=I1(g1)+I2(g2)
則兩本體概念(g1,g2)間相異的部分,即為距離d1:
d1=Z(g1,g2)-2I(pr)
步驟3:計算基于語義距離得到兩本體概念(g1,g2)間的距離因子d2。
在一個本體樹中,可以根據(jù)概念節(jié)點間的路徑距離長短判斷其語義相似程度。如果兩個節(jié)點之間的距離越近,這2個節(jié)點所代表的概念間的相似度越大;反之,2個概念節(jié)點的距離越遠(yuǎn),相似度越小。
2個概念節(jié)點間的邊數(shù)往往不是唯一的,節(jié)點之間存在多個路徑連通。
把概念(g1,g2)與共同父節(jié)點作為樹的子集,假設(shè)存在n個這樣的子集,即L1,L2,…,Ln。
從n個子集中找出概念經(jīng)共同父節(jié)點的的最長路徑L1。
d2=L1
步驟4:綜合步驟2、步驟3,構(gòu)造兩本體概念(g1,g2)語義相似度sim1(g1,g2)
當(dāng)兩個概念共同直接子節(jié)點個數(shù)越多,則概念(g1,g2)相似度越大,反之,越小。
從概念(g1,g2)的直接子節(jié)點中找出共有的子節(jié)點個數(shù)N。
為了解決子節(jié)點多繼承問題,有下式:
α為最長路徑L1的權(quán)重系數(shù),β為(g1,g2)共有的子節(jié)點個數(shù)N的權(quán)重系數(shù),α+β=1。權(quán)重系數(shù)可以根據(jù)實驗結(jié)果迭代得到。
步驟5:根據(jù)兩本體概念節(jié)點(g1,g2)對應(yīng)深度D(g1)、D(g2)與密度,構(gòu)造兩本體概念語義相似度sim2(g1,g2),需先構(gòu)造深度對兩本體概念語義相似度的影響函數(shù)sim深度(g1,g2)以及密度對兩本體概念語義相似度的影響函數(shù)sim密度(g1,g2),其具體求解過程如下:
步驟5.1)先構(gòu)造深度對兩本體概念語義相似度的影響函數(shù)sim深度(g1,g2)
概念節(jié)點的深度是指概念在所處的本體樹中的層次深度。在本體樹中,每個概念節(jié)點都是對上一層節(jié)點的一次細(xì)化。因此概念節(jié)點處于本體樹中層次越深,則表示的內(nèi)容越具體,概念間的相似度越大。反之概念間的相似度越小。
這里深度值從根節(jié)點開始,根節(jié)點的深度值為1,從概念(g1,g2)與共同父節(jié)點構(gòu)成的樹子集中分別找到兩最短路徑的共同父節(jié)點,即fdg1、fdg2。
則D(g1,g2)=|fdg1-fdg2|
fdg1、fdg2分別為概念(g1,g2)的共同父節(jié)點在本體樹中的最短深度。
從而構(gòu)造下列影響因子:
兩本體概念(g1,g2)在本體樹中的深度為:
D(g1)=fdg1+1
D(g2)=fdg2+1
即兩本體概念(g1,g2)在本體樹中得平均深度為:
從而構(gòu)造下列影響因子:
上式dep(tree)為本體樹的深度。
綜上,有下式:
步驟5.2)構(gòu)造密度對兩本體概念語義相似度的影響函數(shù)sim密度(g1,g2)
概率節(jié)點密度越大,則其直接子節(jié)點數(shù)目越多,節(jié)點細(xì)化的越具體,各直接子節(jié)點之間的相似度越大。
從概念(g1,g2)的直接子節(jié)點中找到共同直接子節(jié)點個數(shù),如上為N。
從概念(g1,g2)中找到直接子節(jié)點數(shù)最多的,記為
上式i、j分別為以概念g1、g2為父節(jié)點所對應(yīng)得子分枝個數(shù)。分別為概念g1,g2對應(yīng)的第i、j個子分枝中直接子節(jié)點的個數(shù)。
則
步驟5.3)由上述步驟sim深度(g1,g2)、sim密度(g1,g2)可得:
步驟6:綜合上述步驟,得到最終兩本體概念(g1,g2)間的語義相似度sim(g1,g2)。
上式x、y分別為距離(d1,d2)以及深度與密度對本體概念語義相似度的影響權(quán)重因子,且x+y=1,如果x>y,則距離(d1,d2)對對本體概念語義相似度的影響更大,若x<y,則深度與密度對對本體概念語義相似度的影響更大,x、y可以根據(jù)實驗測試出來。
改進(jìn)的基于語義距離求解本體概念語義相似度的計算方法,其偽代碼計算過程:
輸入:兩本體概念(g1,g2)
輸出:兩本體概念間的語義相似度sim(g1,g2)。