中文概念一語序敏感Il 與一一詞多義Il的重要特征,勢必造成映射結(jié)果的誤差。為了解決上述問題,提出將中文 概念的等價關(guān)系發(fā)現(xiàn)抽象為全局序列比對問題,基于動態(tài)規(guī)劃的思想,并引入生物信息學(xué) 領(lǐng)域中的Needleman - ^funsch全局比對算法進(jìn)行組合概念之間的語義相似度計(jì)算。實(shí)驗(yàn)表 明,采用基于Needleman-Wunsch算法的概念全局比對相似度算法,可以有效地規(guī)避傳統(tǒng)方 法可能帶來的錯誤映射。提出的新方法在面對大規(guī)模中文本體映射任務(wù)時,比傳統(tǒng)方法更 具優(yōu)勢和合理性。
[0013] 因此,目前發(fā)布在web上的中文大規(guī)模本體仍然較少,且存在較大的異構(gòu)性,而現(xiàn) 有的中文本體映射系統(tǒng)在面對大規(guī)模本體映射任務(wù)時,顯得效率較低且可用性不高。同時, 目前仍缺乏針對中文語言描述的,且適應(yīng)語義web環(huán)境中大規(guī)模本體映射任務(wù)的相關(guān)系 統(tǒng)。因此本發(fā)明基于同義詞詞林設(shè)計(jì)并實(shí)現(xiàn)了一個面向中文的大規(guī)模本體映射系統(tǒng)。
【發(fā)明內(nèi)容】
[0014] 中文本體映射系統(tǒng)中,簡單詞元與未登錄詞都對應(yīng)于待映射本體中的概念。因此, 本發(fā)明將簡單詞元所對應(yīng)的概念稱為原子概念(Atom Concept,AC),而將未登錄詞所對應(yīng) 的概念稱為組合概念(Component Concept, CC),并且約定所有的組合概念都是由若干個原 子概念的線性排列組合而成。這里首先給出所面對問題的一組定義以及形式化描述:
[0015] 定義1本體映射:兩個待映射本體CTur' Otmget,對于源本體0S°_中的某個概念 cs°_,需要在目標(biāo)本體Otmgrt中尋找與其語義相同或接近的對應(yīng)概念C ,因此定義映射 函數(shù) map :(Turc;e- Otarget:
[0016] 對于
【主權(quán)項(xiàng)】
1. 一種面向中文語言的大規(guī)模本體映射方法,其特征在于:由三大步驟組成,分別是: 基于編輯距離和同義詞詞林相融合的概念初始關(guān)聯(lián)度計(jì)算、本體壓縮和確定性映射; (1)基于編輯距離和同義詞詞林相融合的概念初始關(guān)聯(lián)度計(jì)算 a) 編輯距離相似度 兩個待映射本體CT"1' 〇togrt,對于源本體〇s°UK"中的某個概念CS()ur'需要在目標(biāo)本體Wt中尋找與其語義相同或接近的對應(yīng)概念兩個概念(一_和c他們的編輯距 離的值以及他們的相似度值由公式⑴和公式⑵來刻畫:
其中,|Do(Cs°_,Ctal:grt) |為待映射概念Cs°_和Ctmgrt的編輯操作次數(shù),即:把字符串Cst)ura最少經(jīng)過多少步操作完全變成字符串Ctmgrt,這里的操作有三種:添加、刪除或者修改 一個字符;L(CS°_)和L(Ctmgrt)為待映射概念的字符長度;
其中,SIME(CS°_,Ctawt)為待映射概念Cs°_和Ctawt的相似度; b) 同義詞詞林相似度 基于同義詞詞林的相似度計(jì)算公式:
對于V 匕為詞元C 和Ctmg6t在第i層出現(xiàn)子編碼不同所代表的層次數(shù),|F| 表示集合F中的元素個數(shù),在本發(fā)明中恒等于5;概念相似度權(quán)重系數(shù)為aX(Fi/|F|);nsubTm為詞元Cs°_和Ctmg6t在出現(xiàn)子編碼不同的第Fi層相應(yīng)分支下所包含的節(jié)點(diǎn)總數(shù),D 為詞元Cs°_和Ctmgrt的編碼距離;aG[〇.4,0.5]之間的某個隨機(jī)數(shù)均可滿足要求; c) 多策略融合關(guān)聯(lián)度算法 首先通過比較兩種基本算法的相似度結(jié)果,取兩種算法結(jié)果的最大值;同時,綜合考慮 兩個概念Cs°_和C~^之間的相似度和相異度,并將其疊加進(jìn)入每個概念CCtmgrtW 最終關(guān)聯(lián)度;本發(fā)明定義兩種相似度算法得到的最大值為P,相應(yīng)地,相異度指標(biāo)為1-P; 顯然pG(〇,1],則有公式⑷:
(4) 在這里稱概念crUKf:和cr"之間的語義相關(guān)系數(shù)為入st,
(5) 最終得到源本體概念cr^與目標(biāo)本體的初始關(guān)聯(lián)度用公式(6)來表達(dá); (6) 由于關(guān)聯(lián)度計(jì)算具有對稱性,因此目標(biāo)本體中的概念ctmgrt的初始關(guān)聯(lián)度mtamt同理可得;于某個概念最終的初始關(guān)聯(lián)度值為零的情況,將初始關(guān)聯(lián)度因子取 [〇. 01,〇. 05]之間的某個隨機(jī)數(shù)均滿足要求;這樣就得到待映射本體0中全 部概念的初始關(guān)聯(lián)度集合Map_Os°ura和Map_0tmgrt;將初始關(guān)聯(lián)度集合統(tǒng)一采用鍵值對的形 式來表述:Map_0〈C,m> ; (2)本體壓縮算法 在面對大規(guī)模的本體映射任務(wù)時,傳統(tǒng)的算法無論在時間還是空間復(fù)雜度方面都難以 適應(yīng),因此需要相應(yīng)的策略來對原本的待映射的本體進(jìn)行壓縮; 對于源本體cr"1""的概念集合{cr' crrct;}與目標(biāo)本體〇tawt的概念集合 {cr'cr% ...,cr" 1,用每個概念的初始關(guān)聯(lián)度值<°_來刻畫該概念對于其 他概念的影響程度,已由公式(6)給出;經(jīng)過修正的場強(qiáng)函數(shù)如公式(8)所示:
(8) 取S =LR = 2 ;得到待映射本體〇s°-中每個概念C_"的勢值函數(shù)表達(dá)式,如公式 (9)所示:
(9) 目標(biāo)本體中的概念cr"的勢值%targetfcrgrt)同理可得;最終得到待映射本體〇中全 部概念的勢值集合P〇tentialMap_Os°ul:c^PpotentialMap_0 tal:get;勢值集合統(tǒng)一定義為鍵值 對:potentialMap_0〈C, 將〇中的概念集合劃分為兩部分,稱為:候選區(qū)和淘汰區(qū); 具體地,對于執(zhí)行多策略融合關(guān)聯(lián)度算法后得到的輸出鍵值對集合和Map_ 〇targ'根據(jù)每個概念元素的關(guān)聯(lián)度值分別統(tǒng)計(jì)出MapJflPMap_0target中關(guān)聯(lián)度值大于 0? 05 的概念總數(shù)分別稱為Range+Candidatejs。111'。*^Range_Candidate_0talrget,該變量定義 為待映射本體Os°UM6和0tmg6t的候選區(qū)區(qū)間上界; 對于勢值集合potentialMap+Cr^e和potentialMap_0tmget中的概念元素,根據(jù)鍵 SOUTC0 值進(jìn)行降序排序,對于,其排名用變量心滅(mrce標(biāo)識;若 smirrp 也喂e_Ow必也/e_<9 ],則概念將被作為候選概念得到保留;相 應(yīng)地,如果/?洲人,we[沏喂e_C訓(xùn)沿也fc_〇SWi「ee+l, /廣_],則概念C'將被淘汰; 由源本體和目標(biāo)本體之間存在的對稱性,對于目標(biāo)本體的候選概念抽取規(guī)則同理可 得; (3)確定性映射 對于待映射的源本體〇s°UK"和目標(biāo)本體〇tawt中的任意兩個概念CS()ura和Ctmgrt,在進(jìn)行 概念的語義相似度計(jì)算時,會出現(xiàn)如下三種情況: ① CS(Mrc;e和Ctarget均為原子概念,SP:CS()Urc;eGSKB"瓜且CtargetGSKBTYCCL ②Cs°_和1的其中之一為原子概念,而另一個為組合概念,即: 或Ctarg~級辦腿 ③CSQUrc;e和CtaIget均為組合概念,即:且 對于情況①,采用公式(3)來計(jì)算兩個概念的語義相似度;對于情況②和情況③,在本 發(fā)明中,首先將待比對的兩個詞串序列以打分矩陣(scoringmatrix)的形式表示,兩條序 列分別作為動態(tài)規(guī)劃矩陣的兩維;對于待映射本體〇s° UK"和〇 &#中的概念CS°UK"和Ctmgrt, 打分矩陣M的第i行對應(yīng)詞串序列CCst)Ura中的原子概念,第j列對應(yīng)詞串序列 CCtmgrt中的原子概念』,其中i彡m,j彡n;動態(tài)規(guī)劃矩陣M中第i行第j列元素稱為 MiJ; 首先,給出序列比對算法的懲罰因子P= -〇. 05,并分別對矩陣的第m+1行與第n+1列 進(jìn)行初始化; 其次,基于同義詞詞林相似度計(jì)算函數(shù)SIMT,對矩陣中其余mXn個元素進(jìn)行遞歸求 解; 先給出記分函數(shù)f的定義,如公式(11)所示:
遞歸規(guī)則如公式(12)所示:
(12) 從矩陣中的Mmn元素開始,回溯至矩陣中的Mn元素結(jié)束,得到最優(yōu)比對路徑;如果得到 的最優(yōu)比對路徑不止一條,則任選其一; 最后插入空位符得到正確的全局序列比對結(jié)果; 將插入空位符后的兩個待映射組合概念詞條序列稱為CCS°UK"'和CCtmgrt';這時兩 條序列中所包含的元素總數(shù)相等,統(tǒng)稱為1^';根據(jù)比對結(jié)果和基于記分函數(shù)f,得到組合概 念之間的相似度計(jì)算公式(13):
【專利摘要】本發(fā)明提供一種面向大規(guī)模中文本體的映射方法。該方法包括:基于同義詞詞林和編輯距離相似度算法相融合的概念初始關(guān)聯(lián)度計(jì)算方法;基于初始關(guān)聯(lián)度改進(jìn)的融合概念相似度和相異度的擬核力場勢函數(shù),以此勢函數(shù)對大規(guī)模本體映射規(guī)模進(jìn)行壓縮;通過引入全局序列比對算法對中文本體中的復(fù)雜概念進(jìn)行相似度的度量。由于中文詞語存在一詞多義和語序敏感現(xiàn)象,并且大規(guī)模本體映射的計(jì)算開銷非常大,而本發(fā)明首先改進(jìn)現(xiàn)有的擬核力場勢函數(shù)使得對于概念之間相似性的度量和待映射本體的規(guī)模壓縮更具合理性。其次,采用全局序列比對技術(shù)對復(fù)雜中文概念進(jìn)行映射,進(jìn)而改進(jìn)現(xiàn)有中文本體映射系統(tǒng)的缺陷,最終提高了系統(tǒng)的映射效率以及查準(zhǔn)率和查全率。
【IPC分類】G06F17-27, G06F17-30
【公開號】CN104699767
【申請?zhí)枴緾N201510082840
【發(fā)明人】王汀, 劉經(jīng)緯, 蔡萬江
【申請人】首都經(jīng)濟(jì)貿(mào)易大學(xué)
【公開日】2015年6月10日
【申請日】2015年2月15日