本發(fā)明涉及語義網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種改進(jìn)的基于領(lǐng)域本體的概念相關(guān)度計(jì)算方法。
背景技術(shù):
目前,針對詞語相關(guān)度計(jì)算的研究很多,計(jì)算方法和算法也比較豐富,或是基于詞語共現(xiàn)幾率計(jì)算相關(guān)度,或是根據(jù)詞語語義詞典的相似度來得到相關(guān)度,或是基于維基百科層次結(jié)構(gòu)計(jì)算相關(guān)度。這其中不乏比較經(jīng)典和優(yōu)秀的算法,但也存在著一些問題,例如,這些方法或是不能全面考慮詞語語義,或是未語義概念間的關(guān)聯(lián)關(guān)系的特性分析相關(guān)度。領(lǐng)域本體相對于計(jì)算機(jī)處理文本,出現(xiàn)地較晚。隨著知識(shí)量的指數(shù)級(jí)增長,很難有哪部語義詞典能夠完整地覆蓋所有范圍。本體作為表示某專業(yè)領(lǐng)域的知識(shí)數(shù)據(jù)庫,其構(gòu)成結(jié)構(gòu)非常清晰,類似于一棵樹,更復(fù)雜的領(lǐng)域本體會(huì)是圖形結(jié)構(gòu)。盡管會(huì)出現(xiàn)圖形結(jié)構(gòu),但是領(lǐng)域本體中存在著非常明顯的層次結(jié)構(gòu)。概念間的相關(guān)度不等同于概念相似度,考慮了基本屬性關(guān)系、路徑距離與路徑數(shù)量、密度與深度等影響因子,也考慮本體中存在的特殊關(guān)聯(lián)關(guān)系,即相關(guān)度不僅受到相似度的影響,還與本體概念間的關(guān)聯(lián)程度有關(guān)。如工業(yè)”與“信息化”在信息化沒有現(xiàn)在如此普及時(shí),工業(yè)領(lǐng)域中還少見信息化這個(gè)概念,但是隨著信息化進(jìn)程的加快,以信息化促進(jìn)工業(yè)化成為時(shí)代口號(hào),為大多數(shù)所接受。為了滿足上述需求,本發(fā)明提供了一種改進(jìn)的基于領(lǐng)域本體的概念相關(guān)度計(jì)算方法。
技術(shù)實(shí)現(xiàn)要素:
針對于即考慮了本體間的基本屬性關(guān)系、路徑距離與路徑數(shù)量、密度與深度等影響因子,又考慮本體中存在的特殊關(guān)聯(lián)關(guān)系來計(jì)算本體概念相關(guān)度問題,本發(fā)明提供了一種改進(jìn)的基于領(lǐng)域本體的概念相關(guān)度計(jì)算方法。
為了解決上述問題,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
步驟1:利用七步法或循環(huán)獲取法構(gòu)建專業(yè)領(lǐng)域本體數(shù)據(jù)庫。
步驟2:考慮了本體間的基本屬性關(guān)系、路徑距離與路徑數(shù)量、密度與深度等影響因子計(jì)算兩本體概念(g1,g2)間的相關(guān)度。
步驟3:考慮本體中存在的特殊關(guān)聯(lián)關(guān)系,計(jì)算本體概念(g1,g2)間的相關(guān)度RE關(guān)聯(lián)(g1,g2)。
步驟4:綜合上述步驟2、步驟3,得到本體概念(g1,g2)間的最終相關(guān)度RE最終(g1,g2)
本發(fā)明的有益效果是:
1、為語義擴(kuò)展提供良好的理論基礎(chǔ)。
2、與經(jīng)典相關(guān)度計(jì)算公式對比。此方法取得了比不考慮關(guān)聯(lián)性的相似度計(jì)算方法取得了更好的效果。
3、為實(shí)現(xiàn)語義擴(kuò)展能夠提高信息檢索的查全率和查準(zhǔn)率提供良好的理論基礎(chǔ)。
附圖說明
圖1為一種改進(jìn)的基于領(lǐng)域本體的概念相關(guān)度計(jì)算方法結(jié)構(gòu)流程圖。
圖2為本體概念領(lǐng)域模塊語義樹形圖。
具體實(shí)施方式
為了解決即考慮了本體間的基本屬性關(guān)系、路徑距離與路徑數(shù)量、密度與深度等影響因子,又考慮本體中存在的特殊關(guān)聯(lián)關(guān)系來計(jì)算本體概念相關(guān)度問題,結(jié)合圖1-圖2對本發(fā)明進(jìn)行了詳細(xì)說明,其具體實(shí)施步驟如下:
步驟1:利用七步法或循環(huán)獲取法構(gòu)建專業(yè)領(lǐng)域本體數(shù)據(jù)庫。
步驟2:考慮了本體間的基本屬性關(guān)系、路徑距離與路徑數(shù)量、密度與深度等影響因子計(jì)算兩本體概念(g1,g2)間的相關(guān)度,其具體計(jì)算過程如下:
步驟2.1)構(gòu)造基于基本屬性關(guān)系對兩本體概念(g1,g2)相似度的影響函數(shù)RE屬性(g1,g2)
兩本體概念(g1,g2)相似度與屬性相似度成正比,與屬性權(quán)重也成正比。
路徑為g1→J1→…→Jn→g2
假設(shè)g1、J1、…、Jn、g2的屬性個(gè)數(shù)各為
每個(gè)屬性對相應(yīng)概念的影響權(quán)重是不同的,按照權(quán)重系數(shù)分別對概念屬性進(jìn)行排序,對每個(gè)概念屬性取前i個(gè)屬性權(quán)重值。
這里
即得下列屬性權(quán)重矩陣(n+2)×i:
從專業(yè)領(lǐng)域本體樹中,可以很清楚的知道g1、J1、…、Jn概念中的共有屬性,記為(S1′,S2′,…,Sj′),這里j為共有屬性的個(gè)數(shù),j≤i,且
為概念g1、J1、…、Jn、g2中屬性相同,則取出其對應(yīng)權(quán)重值
所以構(gòu)建的影響函數(shù)為:
步驟2.2)構(gòu)造基于路徑距離、與路徑數(shù)量對兩本體概念(g1,g2)相似度的影響函數(shù)RE路徑(g1,g2)
兩本體概念(g1,g2)相似度與其路徑長度成反比,找到兩本體概念(g1,g2)間最長路徑,其中經(jīng)過的概念節(jié)點(diǎn)有n個(gè),即(J1→…→Jn)。
即經(jīng)過路徑的長度為L(g1,g2)=n+2
兩本體概念(g1,g2)相似度與路徑數(shù)量成反比,即當(dāng)路徑數(shù)量越多,兩本體概念(g1,g2)相似度越大,這里根據(jù)專業(yè)領(lǐng)域本體樹可知路徑數(shù)量為N,如圖2。
即
上式r為路徑長度與路徑個(gè)數(shù)的權(quán)重比值,這個(gè)可以根據(jù)實(shí)驗(yàn)迭代出來。
步驟2.3)構(gòu)造密度與深度對兩本體概念(g1,g2)相似度的影響函數(shù)RE2(g1,g2),需先構(gòu)造深度對兩本體概念語義相似度的影響函數(shù)RE深度(g1,g2)以及密度對兩本體概念語義相似度的影響函數(shù)RE密度(g1,g2),其具體求解過程如下:
步驟2.3.1)先構(gòu)造深度對兩本體概念語義相似度的影響函數(shù)RE深度(g1,g2)
概念節(jié)點(diǎn)的深度是指概念在所處的本體樹中的層次深度。在本體樹中,每個(gè)概念節(jié)點(diǎn)都是對上一層節(jié)點(diǎn)的一次細(xì)化。因此概念節(jié)點(diǎn)處于本體樹中層次越深,則表示的內(nèi)容越具體,概念間的相似度越大。反之概念間的相似度越小。
這里深度值從根節(jié)點(diǎn)開始,根節(jié)點(diǎn)的深度值為1,從概念(g1,g2)與共同父節(jié)點(diǎn)構(gòu)成的樹子集中分別找到兩最短路徑的共同父節(jié)點(diǎn),即
則
分別為概念(g1,g2)的共同父節(jié)點(diǎn)在本體樹中的最短深度。
從而構(gòu)造下列影響因子:
兩本體概念(g1,g2)在本體樹中的深度為:
即兩本體概念(g1,g2)在本體樹中得平均深度為:
從而構(gòu)造下列影響因子:
上式dep(tree)為本體樹的深度。
綜上,有下式:
步驟2.3.2)構(gòu)造密度對兩本體概念語義相似度的影響函數(shù)RE密度(g1,g2)
概率節(jié)點(diǎn)密度越大,則其直接子節(jié)點(diǎn)數(shù)目越多,節(jié)點(diǎn)細(xì)化的越具體,各直接子節(jié)點(diǎn)之間的相似度越大。
從概念(g1,g2)的直接子節(jié)點(diǎn)中找到共同直接子節(jié)點(diǎn)個(gè)數(shù),如上為N。
從概念(g1,g2)中找到直接子節(jié)點(diǎn)數(shù)最多的,記為:
上式i、j分別為以概念g1、g2為父節(jié)點(diǎn)所對應(yīng)得子分枝個(gè)數(shù)。分別為概念g1,g2對應(yīng)的第i、j個(gè)子分枝中直接子節(jié)點(diǎn)的個(gè)數(shù)。
則
步驟2.3.3)由上述步驟RE深度(g1,g2)、RE密度(g1,g2)可得:
步驟3:考慮本體中存在的特殊關(guān)聯(lián)關(guān)系,計(jì)算本體概念(g1,g2)間的相關(guān)度RE關(guān)聯(lián)(g1,g2),其具體計(jì)算過程如下:
在構(gòu)建專業(yè)領(lǐng)域本體模塊過程中,有些本體之間存在特殊關(guān)聯(lián)關(guān)系,例如工業(yè)與信息化,在信息時(shí)代還沒普及的時(shí)候,這兩則之間關(guān)聯(lián)度接近為0,而現(xiàn)今,關(guān)聯(lián)度很高。
所以專業(yè)領(lǐng)域本體模塊需要擴(kuò)展連接存在特殊關(guān)聯(lián)關(guān)系的本體概念,并由相關(guān)領(lǐng)域?qū)<覍τ邢蜻呝x予一定的權(quán)重。
根據(jù)上述理論,可以計(jì)算特殊關(guān)聯(lián)關(guān)系對本體概念(g1,g2)間的相關(guān)度影響函數(shù),即:
上式N′為本體概念(g1,g2)間的路徑個(gè)數(shù),N′>0與本體概念(g1,g2)間的相關(guān)度成正比。
上式MAX(L1,L2,…,LN′)為路徑數(shù)N′中路徑長度最大的值。
分別為路徑長度最長的對應(yīng)有向邊權(quán)重值,在構(gòu)建專業(yè)領(lǐng)域數(shù)據(jù)庫過程中由領(lǐng)域?qū)<业y(tǒng)計(jì)給出。
步驟4:綜合上述步驟2、步驟3,得到本體概念(g1,g2)間的最終相關(guān)度RE最終(g1,g2),其具體計(jì)算過程如下:
其中α、β、γ分別為本體間的基本屬性關(guān)系、路徑距離與路徑數(shù)量、密度與深度的影響系數(shù),可以根據(jù)實(shí)驗(yàn)迭代得出最優(yōu)的影響系數(shù),且α+β+γ=1,如果α>γ>β,則α對本體概念(g1,g2)間的最終相關(guān)度影響最大,γ次之,β對本體概念(g1,g2)間的最終相關(guān)度影響最小。
如果不存在特殊關(guān)聯(lián)關(guān)系,則N′=0,反之,N′>0。