一種基于場(chǎng)論的本體中概念相似度計(jì)算方法
【專利摘要】本發(fā)明提供了一種基于場(chǎng)論的本體中概念相似度計(jì)算方法,基于場(chǎng)論,采用場(chǎng)的特性描述本體,把本體定義的語(yǔ)義結(jié)構(gòu)轉(zhuǎn)化為語(yǔ)義場(chǎng)以構(gòu)建語(yǔ)義場(chǎng)模型;對(duì)本體包含的概念間語(yǔ)義關(guān)系進(jìn)行規(guī)范化;本體利用信息量對(duì)概念的特征進(jìn)行描述,得到概念的語(yǔ)義引力元和語(yǔ)義距離;最后應(yīng)用所述語(yǔ)義場(chǎng)模型得到概念相似度。本發(fā)明全面考慮了概念相似與差異兩方面對(duì)概念相似度計(jì)算的影響,改進(jìn)了現(xiàn)有方法孤立考慮兩者之一的缺陷。
【專利說明】一種基于場(chǎng)論的本體中概念相似度計(jì)算方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于檢索【技術(shù)領(lǐng)域】,尤其涉及一種基于場(chǎng)論的本體中概念相似度計(jì)算方 法。
【背景技術(shù)】
[0002] 利用關(guān)鍵字的檢索從字符的表現(xiàn)形式上進(jìn)行匹配,只能檢索用戶所表達(dá)的顯性信 息,無法對(duì)用戶表示的隱性信息進(jìn)行處理。語(yǔ)言學(xué)的分類結(jié)構(gòu)就可以很好的解決這一問題, 而語(yǔ)言學(xué)分類結(jié)構(gòu)的一個(gè)應(yīng)用最廣泛的應(yīng)用就是本體。本體就可以通過概念及概念間的關(guān) 系,有效地理解用戶輸入的信息,從而達(dá)到語(yǔ)義檢索的目的。這一過程中最核心的步驟就是 依據(jù)本體中概念相似度對(duì)用戶輸入概念進(jìn)行拓展。
[0003] 本體中概念相似度的計(jì)算方式主要分為兩種,分別是基于概念間關(guān)系的邊方法和 基于節(jié)點(diǎn)的方法,基于節(jié)點(diǎn)的方法又可以分為基于節(jié)點(diǎn)信息量的方法和基于節(jié)點(diǎn)的特征的 方法。
[0004] 以上兩種類型的方法,都只考慮了概念相似度的一種角度。節(jié)點(diǎn)的方法從概念相 同的部分去分析概念的相似度,邊的方法從概念差異的角度衡量相似度,兩種方法都沒有 綜合考慮概念中相同和差異部分對(duì)相似度的影響。使用邊的方法時(shí),主要是采用權(quán)重衡量 概念的差異,主要由密度權(quán)重、深度(層次)權(quán)重、類型權(quán)重、信息量權(quán)重,前三種權(quán)重因子 不能準(zhǔn)確的反映關(guān)系所連接概念的實(shí)際差異,并且這四類權(quán)值差異的根本原因在于本體內(nèi) 概念信息量的分布。所以,無論是邊方法還是節(jié)點(diǎn)的方法,都依據(jù)不同概念的信息量之間的 關(guān)系。綜合考慮概念共享和差異的信息量,就能準(zhǔn)確的得到概念的相似度。
[0005]以本體中某一概念為參考點(diǎn),其他概念依據(jù)與該概念信息量中的差異得到與參考 點(diǎn)的距離,分布在以參考點(diǎn)為原點(diǎn)的一維空間中。當(dāng)分別以本體內(nèi)每一概念為參考點(diǎn)后,既 可以把本體中的概念分布在一個(gè)N維空間內(nèi),N為本體中概念的數(shù)量,進(jìn)而得到任意兩概念 的幾何距離。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于提供一種基于場(chǎng)論的本體中概念相似度計(jì)算方法,旨在解決現(xiàn) 有基于本體語(yǔ)義分析中的對(duì)概念特征描述不完整和對(duì)關(guān)系的作用描述不準(zhǔn)確的問題。
[0007] 本發(fā)明是這樣實(shí)現(xiàn)的,一種基于場(chǎng)論的本體中概念相似度計(jì)算方法,包括以下步 驟:
[0008] S1、基于場(chǎng)論,采用場(chǎng)的特性描述本體,把本體定義的語(yǔ)義結(jié)構(gòu)轉(zhuǎn)化為語(yǔ)義場(chǎng)以構(gòu) 建語(yǔ)義場(chǎng)模型;
[0009] S2、對(duì)本體包含的概念間語(yǔ)義關(guān)系進(jìn)行規(guī)范化;
[0010]S3、本體利用信息量對(duì)概念的特征進(jìn)行描述,得到概念的語(yǔ)義引力元和語(yǔ)義距 離;
[0011] S4、應(yīng)用所述語(yǔ)義場(chǎng)模型得到概念相似度。
[0012] 優(yōu)選地,在步驟si中,所述語(yǔ)義場(chǎng)模型用函數(shù)定義為:
[0013]
【權(quán)利要求】
1. 一種基于場(chǎng)論的本體中概念相似度計(jì)算方法,其特征在于,包括以下步驟: 51、 基于場(chǎng)論,采用場(chǎng)的特性描述本體,把本體定義的語(yǔ)義結(jié)構(gòu)轉(zhuǎn)化為語(yǔ)義場(chǎng)以構(gòu)建語(yǔ) 義場(chǎng)模型; 52、 對(duì)本體包含的概念間語(yǔ)義關(guān)系進(jìn)行規(guī)范化; 53、 本體利用信息量對(duì)概念的特征進(jìn)行描述,得到概念的語(yǔ)義引力元和語(yǔ)義距離; 54、 應(yīng)用所述語(yǔ)義場(chǎng)模型得到概念相似度。
2. 如權(quán)利要求1所述的基于場(chǎng)論的本體中概念相似度計(jì)算方法,其特征在于,在步驟 S1中,所述語(yǔ)義場(chǎng)模型用函數(shù)定義為: ^ _ fxm(cjxm(c2} t* 一 z · 式中,nKcJ、m(c2)為概念的引力兀,對(duì)于語(yǔ)義場(chǎng),引力兀;r為概念間 的語(yǔ)義距離,f為引力常數(shù)。
3. 如權(quán)利要求1所述的基于場(chǎng)論的本體中概念相似度計(jì)算方法,其特征在于,在步驟 S2中,所述語(yǔ)義關(guān)系包括上下位關(guān)系、等同關(guān)系、與關(guān)系和交叉關(guān)系、或關(guān)系、非關(guān)系、矛盾 關(guān)系和互補(bǔ)關(guān)系。
4. 如權(quán)利要求1所述的基于場(chǎng)論的本體中概念相似度計(jì)算方法,其特征在于,在步驟 S3中,所述信息量為根據(jù)某一概念的父類和子類的信息量共同決定,且用概念在本體中發(fā) 生的頻數(shù)來表示。
【文檔編號(hào)】G06F17/30GK104239546SQ201410490635
【公開日】2014年12月24日 申請(qǐng)日期:2014年9月23日 優(yōu)先權(quán)日:2014年9月23日
【發(fā)明者】王國(guó)新, 王祎楠, 閻艷, 師鑫 申請(qǐng)人:北京理工大學(xué)