一種基于本體匹配的語義查詢方法
【專利摘要】本發(fā)明公開了一種基于本體匹配的語義查詢方法,屬于計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】。本方法先計(jì)算本體資源的名稱、注釋與用戶輸入字符串的語義相似度,然后分別將本體類、本體個(gè)體、本體屬性與用戶輸入字符串的語義相似度按從大到小排序,選出最符合用戶查詢要求的不超過λ*3個(gè)本體資源。本方法能夠在語義層面進(jìn)行檢索,捕捉設(shè)計(jì)人員檢索意圖,提高系統(tǒng)檢索效率。
【專利說明】—種基于本體匹配的語義查詢方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于本體匹配的語義查詢方法,屬于計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)、通訊技術(shù)的飛速發(fā)展,人們可以接觸到的信息呈爆炸式增長,引發(fā)了信息過載、檢索負(fù)荷加重等問題,急需的知識(shí)通常被實(shí)際不需要的信息垃圾淹沒。而世界經(jīng)濟(jì)正由工業(yè)經(jīng)濟(jì)向知識(shí)經(jīng)濟(jì)轉(zhuǎn)變,知識(shí)正在逐漸取代貨幣資本、勞動(dòng)力和原材料等有形資源成為經(jīng)濟(jì)增長中的關(guān)鍵性生產(chǎn)要素,知識(shí)成為具有經(jīng)濟(jì)價(jià)值的稀缺性資源。人們需要更準(zhǔn)確、快速、方便地查詢所需的信息、知識(shí),以便更加科學(xué)、快速地應(yīng)用知識(shí)指導(dǎo)生活和生產(chǎn)。
[0003]語義查詢技術(shù)是對(duì)傳統(tǒng)信息查詢的改進(jìn),它更關(guān)注信息的含義,而不停留在其表層文本上,可以克服基于關(guān)鍵詞的信息查詢的弊端?,F(xiàn)有語義查詢技術(shù)研究大多將本體及相關(guān)技術(shù)作為語義查詢的重要基礎(chǔ),大多實(shí)現(xiàn)了領(lǐng)域本體的構(gòu)建及基本推理,但對(duì)本體類、實(shí)例、屬性之間的關(guān)系考慮不足,在某些領(lǐng)域需要充分挖掘類、實(shí)例和屬性之間的語義關(guān)聯(lián)。本體通過對(duì)領(lǐng)域概念和概念之間關(guān)系的嚴(yán)格定義來確定概念的精確含義,為信息查詢提供語義支持。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是為解決如何根據(jù)用戶關(guān)鍵詞從知識(shí)庫中查詢出檢索結(jié)果的問題,提出一種基于本體匹配的語義查詢方法。本方法能夠在語義層面進(jìn)行檢索,捕捉設(shè)計(jì)人員檢索意圖,提高系統(tǒng)檢索效率。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0006]步驟一、設(shè)置一個(gè)閾值λ,`本發(fā)明中最終返回的本體類、本體個(gè)體、本體屬性個(gè)數(shù)都不超過入;
[0007]步驟二、設(shè)置一個(gè)相似度閾值σ,本發(fā)明中最終返回的本體類、本體個(gè)體、本體屬性與用戶輸入的字符串的相似度都不低于σ ;
[0008]步驟三、設(shè)定一個(gè)相近詞對(duì)閾值Θ,提取含X個(gè)詞語的句子S1與含y個(gè)詞語的句子S2的相近詞對(duì)時(shí),先依次計(jì)算句子S1中每個(gè)詞語與句子S2中每個(gè)詞語的語義相似度,構(gòu)成X*y的相似度矩陣S [x*y],再將相似度從大到小并且相似度不小于閾值Θ的詞對(duì)設(shè)置為相近詞對(duì),每提取一個(gè)相近詞對(duì),則將相似度矩陣中其所對(duì)應(yīng)的行和列的值都置為O ;
[0009]步驟三、獲取本體類列表1OntClass1, OntClass2,..., OntClass1I ,其中 OntClassi(1^1^ I)代表一個(gè)本體類,I為正整數(shù),表示含有I個(gè)本體類classList是一個(gè)鏈表,其結(jié)點(diǎn)是一個(gè)這樣的二元組:< OntClassi, Simi >,其中OntClassi是一個(gè)本體類,Simi是這個(gè)本體類與用戶輸入的字符串string的相似度,classList的初始大小為O ;
[0010]步驟四、對(duì)每一個(gè)OntClassi, I ^ i ^ I執(zhí)行以下步驟:
[0011](I)計(jì)算關(guān)鍵詞與本體類名稱的相似度SimNamei:[0012]
【權(quán)利要求】
1.一種基于本體匹配的語義查詢方法,其特征在于: 步驟一、設(shè)置一個(gè)閾值λ,本發(fā)明中最終返回的本體類、本體個(gè)體、本體屬性個(gè)數(shù)都不超過λ ; 步驟二、設(shè)置一個(gè)相似度閾值σ,本發(fā)明中最終返回的本體類、本體個(gè)體、本體屬性與用戶輸入的字符串的相似度都不低于σ ; 步驟三、設(shè)定一個(gè)相近詞對(duì)閾值Θ,提取含有X個(gè)詞語的句子S1與含有y個(gè)詞語的句子S2的相近詞對(duì)時(shí),先依次計(jì)算句子S1中每個(gè)詞語與句子S2中每個(gè)詞語的語義相似度,構(gòu)成x*y的相似度矩陣s [x*y],再將相似度從大到小并且相似度不小于閾值Θ的詞對(duì)設(shè)置為相近詞對(duì),每提取一個(gè)相近詞對(duì),則將相似度矩陣中其所對(duì)應(yīng)的行和列的值都置為O ;
步驟三、獲取本體類列表 IOntClass1, OntClass2,..., OntClass1I ,其中 OntClassi 代表一個(gè)本體類,(I ≤ i ≤ 1)1為正整數(shù),表示含有I個(gè)本體類;claSSLiSt是一個(gè)鏈表,其結(jié)點(diǎn)是一個(gè)這樣的二元組:< OntClassi, Simi >,其中OntClassi是一個(gè)本體類,Simi是這個(gè)本體類與用戶輸入的字符串string的相似度,classList的初始大小為O ; 步驟四、對(duì)每一個(gè)OntClassi, I ≤ i ≤ I執(zhí)行以下步驟:
【文檔編號(hào)】G06F17/30GK103744955SQ201410004084
【公開日】2014年4月23日 申請(qǐng)日期:2014年1月4日 優(yōu)先權(quán)日:2014年1月4日
【發(fā)明者】黃河燕, 史樹敏, 蘇超, 馮沖, 李侃 申請(qǐng)人:北京理工大學(xué)