本發(fā)明涉及語義網(wǎng)絡技術領域,具體涉及一種改進的本體概念語義相似度計算方法。
背景技術:
現(xiàn)如今,語義相似度計算被廣泛應用于信息檢索、語義web、自然語言處理等領域。由于本體能夠將領域中的各種概念和關系進行顯示地、形式化地表達,因此本體在概念語義相似度計算中發(fā)揮重要的作用。傳統(tǒng)的基于本體的概念語義相似度計算方法主要分為兩種:一種是基于信息論的方法,該方法利用信息論來計算兩個概念共享信息的程度,具有較高的理論嚴謹性,但是只能粗略地量化概念之間的語義相似度,不能實現(xiàn)概念語義相似度的細致區(qū)分;另一種方法是基于語義距離的方法,該方法以概念之間路徑的長短作為衡量語義距離的長短,通過計算兩概念之間的語義距離來實現(xiàn)概念語義相似度的計算,該方法簡單、直觀,但忽略了影響語義距離的其他很多因素。針對信息論方法的缺陷,引入了語義距離來克服了信息論方法語義區(qū)分不細致問題,在基于語義距離方法中,概念語義相似度不僅與語義距離有關,而且還受概念在本體樹中的層次深度、密度影響,為了提高求解語義相似度的準確度,滿足上述需求,本發(fā)明提出了一種改進的本體概念語義相似度計算方法。
技術實現(xiàn)要素:
針對信息論方法的缺陷,引入了語義距離來克服了信息論方法語義區(qū)分不細致的問題,在基于語義距離方法中,概念語義相似度不僅與語義距離有關,而且還受概念在本體樹中的層次深度、密度影響,為了提高求解語義相似度的準確度,本發(fā)明提供了一種改進的本體概念語義相似度計算方法。
為了解決上述問題,本發(fā)明是通過以下技術方案實現(xiàn)的:
步驟1:初始化本體概念領域模塊。
步驟2:根據(jù)改進的基于信息論方法求解兩本體概念(g1,g2)間的語義相似度sim1(g1,g2)。
步驟3:根據(jù)改進的基于語義距離方法求解兩本體概念(g1,g2)間的語義相似度sim2(g1,g2)。
步驟4:根據(jù)兩本體概念節(jié)點(g1,g2)對應深度D(g1)、D(g2)與密度,構造兩本體概念語義相似度sim3(g1,g2)。
步驟5:綜合上述步驟,得到最終兩本體概念間的語義相似度sim(g1,g2)。
本發(fā)明的有益效果是:
1、相比較傳統(tǒng)的基于信息論方法、基于語義距離方法求解語義相似度,此方法準確度更高。
2、該方法既克服了信息論方法語義區(qū)分不細致問題,又使得語義距離計算具有一定的理論嚴謹性。
3、此計算語義相似度的方法在量化概念上更接近專家的經驗值。
4、更好的提高了本體推理的效果。
5、具有更廣泛的應用研究價值。
附圖說明
圖1為一種改進的本體概念語義相似度計算方法結構流程圖。
圖2為本體概念領域模塊語義樹形圖。
具體實施方式
為了解決信息論方法的缺陷,引入了語義距離來克服了信息論方法語義區(qū)分不細致問題,在基于語義距離方法中,概念語義相似度不僅與語義距離有關,而且還受概念在本體樹中的層次深度、密度影響,為了提高求解語義相似度的準確度,結合圖1對本發(fā)明進行了詳細說明,其具體實施步驟如下:
步驟1:初始化本體概念領域模塊。
步驟2:根據(jù)改進的基于信息論方法求解兩本體概念(g1,g2)的語義相似度sim1(g1,g2),其具體求解過程如下:
步驟2.1)分別求解其共同父節(jié)點在在樹狀層次結構中的信息量值I(pr)
基于信息內容的計算相似度方法主要是通過衡量概念所包含的信息量來計算相似度。概念是對其祖先節(jié)點的繼承,是祖先節(jié)點的又一次細化,所以可通過祖先節(jié)點包含的信息量來衡量兩個概念的共享信息。
根據(jù)圖2,得出兩本體概念(g1,g2)共同父節(jié)點在樹狀層次結構中每層出現(xiàn)的概率值p(pr)
p(pr)=(p1(pr),p2(pr),…,pk(pr))
上式k為兩本體概念(g1,g2)共同父節(jié)點在樹狀層次結構中的層數(shù)。
E[p(pr)]為兩本體概念(g1,g2)共同父節(jié)點在樹狀層次結構中的概率均值。
步驟2.2)分別求解兩本體概念(g1,g2)在樹狀層次結構中的信息量值I(g1)、I(g2)
同理,根據(jù)圖2,得出兩本體概念(g1,g2)在樹狀層次結構中每層的概率值p(g1)、p(g2)
p(g1)=(p1(g1),p2(g1),…,pi(g1))
p(g2)=(p1(g2),p2(g2),…,pj(g2))
上式i為本體概念g1在樹狀層次結構中的層數(shù),同理,j為本體概念g2在樹狀層次結構中的層數(shù)。
上式E[p(g1)]、E[p(g2)]分別為兩本體概念(g1,g2)在樹狀層次結構中的概率均值。
由此可得兩本體概念的在樹狀層次結構中的信息量值I(g1)、I(g2)
步驟2.3)基于信息量,可以得出兩本體概念間的語義相似度sim1(g1,g2)
兩本體概念(g1,g2)的共同父節(jié)點包含的信息量僅僅只能表示兩概念包含的相同信息。根據(jù)經驗可得兩本體概念(g1,g2)間的語義相似度sim1(g1,g2)。
步驟3:根據(jù)改進的基于語義距離方法求解本體概念(g1,g2)的語義相似度sim2(g1,g2),其具體計算過程如下:
在一個本體樹中,可以根據(jù)概念節(jié)點間的路徑距離長短判斷其語義相似程度。如果兩個節(jié)點之間的距離越近,這2個節(jié)點所代表的概念間的相似度越大;反之,2個概念節(jié)點的距離越遠,相似度越小。
2個概念節(jié)點間的邊數(shù)往往不是唯一的,節(jié)點之間存在多個路徑連通。
把概念(g1,g2)與共同父節(jié)點作為樹的子集,假設存在n個這樣的子集,即L1,L2,…,Ln。
從n個子集中找出概念經共同父節(jié)點的共現(xiàn)有向邊個數(shù)為L(L1∩L2,…,∩Ln)。
n個子集中概念經共同父節(jié)點有向邊的總個數(shù)為L′(L1∪L2,…,∪Ln)。
最后得
步驟4:根據(jù)兩本體概念節(jié)點(g1,g2)對應深度D(g1)、D(g2)與密度,構造兩本體概念語義相似度sim3(g1,g2),需先構造深度對兩本體概念語義相似度的影響函數(shù)sim深度(g1,g2)以及密度對兩本體概念語義相似度的影響函數(shù)
sim密度(g1,g2),其具體求解過程如下:
步驟4.1)先構造深度對兩本體概念語義相似度的影響函數(shù)sim深度(g1,g2)
概念節(jié)點的深度是指概念在所處的本體樹中的層次深度。在本體樹中,每個概念節(jié)點都是對上一層節(jié)點的一次細化。因此概念節(jié)點處于本體樹中層次越深,則表示的內容越具體,概念間的相似度越大。反之概念間的相似度越小。
這里深度值從根節(jié)點開始,根節(jié)點的深度值為1,從概念(g1,g2)與共同父節(jié)點構成的樹子集中分別找到兩最短路徑的共同父節(jié)點,即
則
分別為概念(g1,g2)的共同父節(jié)點在本體樹中的最短深度。
從而構造下列影響因子:
兩本體概念(g1,g2)在本體樹中的深度為:
即兩本體概念(g1,g2)在本體樹中得平均深度為:
從而構造下列影響因子:
上式dep(tree)為本體樹的深度。
綜上,有下式:
步驟4.2)構造密度對兩本體概念語義相似度的影響函數(shù)sim密度(g1,g2)
概率節(jié)點密度越大,則其直接子節(jié)點數(shù)目越多,節(jié)點細化的越具體,各直接子節(jié)點之間的相似度越大。
從概念(g1,g2)與共同父節(jié)點構成的樹子集中找到共同父節(jié)點產生的直接子節(jié)點數(shù)最少的,記為n1(p)=N1
從概念(g1,g2)與共同父節(jié)點構成的樹子集中找到共同父節(jié)點產生的直接子節(jié)點數(shù)最多的,記為n2(p)=N2
則
步驟4.3)由上述步驟sim深度(g1,g2)、sim密度(g1,g2)可得:
sim3(g1,g2)=αsim深度(g1,g2)+βsim密度(g1,g2)
上式α、β分別為深度、密度對本體概念語義相似度的影響權重因子,且α+β=1,如果α>β,則深度對對本體概念語義相似度的影響更大,若α<β,則密度對對本體概念語義相似度的影響更大,α、β可以根據(jù)實驗測試出來。
步驟5:綜合上述步驟,得到最終兩本體概念(g1,g2)間的語義相似度sim(g1,g2)。
sim(g1,g2)=Asim1(g1,g2)+Bsim2(g1,g2)+Csim3(g1,g2)
上式A、B、C分別為基于信息論方法得到的sim1(g1,g2)、基于語義距離方法得到的sim2(g1,g2)以及根據(jù)本體概念深度與密度得到的sim3(g1,g2)對本體概念(g1,g2)語義相似度的影響權重因子,同理A+B+C=1,按照A、B、C從大到小順序,依次分配其對對本體概念(g1,g2)語義相似度的影響,越大,則影響越大。
一種改進的本體概念語義相似度計算方法,其偽代碼計算過程:
輸入:兩本體概念(g1,g2)
輸出:兩本體概念間的語義相似度sim(g1,g2)。