一種基于Ontology的語義檢索方法
【專利摘要】本發(fā)明公開了一種基于Ontology的語義檢索方法。首先,構(gòu)建本體庫,完成本體規(guī)則的建立。用戶輸入檢索關(guān)鍵字,在本體支持下,通過概念相似度計(jì)算得到相似度的大小。然后,根據(jù)設(shè)定的閾值,把相似度的值高于閾值的概念添加到原始的檢索關(guān)鍵字集合中,擴(kuò)展為新的概念集。把新的概念集作為源輸入詞到本體庫中進(jìn)行檢索。最后把檢索到的結(jié)果返回給用戶。本發(fā)明在本體推理技術(shù)的支持下,通過對(duì)本體中屬性的應(yīng)用實(shí)現(xiàn)了實(shí)例的準(zhǔn)確查找,使信息檢索的查全率、查準(zhǔn)率比現(xiàn)有技術(shù)都有所提高。本發(fā)明將關(guān)鍵字簡(jiǎn)單匹配的語法層次提高到計(jì)算機(jī)可以理解的語義層次,使計(jì)算機(jī)能夠讀懂輸入的關(guān)鍵詞,從而實(shí)現(xiàn)了檢索的智能化。
【專利說明】—種基于Ontology的語義檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于自然語言處理和機(jī)器智能的交叉領(lǐng)域,就是借助Ontology (本體)技術(shù),把目前信息檢索技術(shù)從關(guān)鍵字匹配方式提高到計(jì)算機(jī)可理解的語義檢索方式,把這項(xiàng)技術(shù)應(yīng)用到旅游信息檢索上,實(shí)現(xiàn)了智能化的旅游檢索服務(wù)。
技術(shù)背景
[0002]隨著Internet和移動(dòng)通信技術(shù)的迅猛發(fā)展,Web已成為全球的信息源,如何快速、準(zhǔn)確地從浩瀚的信息資源中尋找自己所需的信息,成為困擾用戶的一個(gè)難題。傳統(tǒng)的信息檢索提供給用戶的檢索方式是以用戶輸入的關(guān)鍵詞進(jìn)行匹配的檢索方式,但是大多數(shù)的情況下這種簡(jiǎn)單的關(guān)鍵詞匹配很難理解用戶真正的檢索目的,因此導(dǎo)致目前這種信息檢索方式的精確度不高。
[0003]國(guó)外的一些專家已經(jīng)在本體方面進(jìn)行了實(shí)踐性的操作,例如Ontoseek黃頁系統(tǒng),是一個(gè)基于內(nèi)容檢索的系統(tǒng),該系統(tǒng)集成了產(chǎn)品樹型結(jié)構(gòu)和在線黃頁。它把具有表示形式化能力的系統(tǒng)與本體內(nèi)容匹配機(jī)制結(jié)合起來,并把本體庫與數(shù)據(jù)庫詞典整合在一起,提供用戶一個(gè)可以通過輸入自然語言,然后轉(zhuǎn)化為領(lǐng)域本體中的詞匯,實(shí)現(xiàn)語義層面的檢索系統(tǒng)。從Ontoseek黃頁系統(tǒng)中可得知,其中的概念詞匯和詞匯之間的關(guān)系是不受任何約束的,所以詞匯之間關(guān)系圖也許是不起任何作用的,因此會(huì)發(fā)生檢索到的結(jié)果不是用戶所需的。目前的旅游黃頁服務(wù)系統(tǒng),如“攜程網(wǎng)”、“途牛網(wǎng)”,在檢索上對(duì)用戶輸入的關(guān)鍵詞信息只是進(jìn)行了字詞的簡(jiǎn)單匹配,不能在語義上理解用戶輸入的信息,也就不能很好地檢索出用戶真正需要的信息。因此,必須將信息檢索方式從現(xiàn)有的基于關(guān)鍵詞匹配級(jí)別提升到基于知識(shí)理解級(jí)別、基于語義級(jí)別來對(duì)信息進(jìn)行組織和表達(dá),從而設(shè)計(jì)一種可以理解用戶語義的信息檢索模型。
【發(fā)明內(nèi)容】
[0004]針對(duì)現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提出了一種基于Ontology的語義檢索方法,目的是實(shí)現(xiàn)計(jì)算機(jī)對(duì)用戶輸入內(nèi)容的理解,實(shí)現(xiàn)語義層面的檢索。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:首先,構(gòu)建本體庫,完成本體規(guī)則的建立。用戶輸入的檢索關(guān)鍵字,在本體的支持下,通過概念相似度計(jì)算得到相似度的大小。然后根據(jù)設(shè)定的閾值,把相似度的值高于閾值的概念添加到原始的檢索關(guān)鍵字集合中,擴(kuò)展為新的概念集。把新的概念集作為源輸入詞到本體庫中進(jìn)行檢索。最后把檢索到的結(jié)果返回給用戶。
[0006]—種基于Ontology的語義檢索方法,包括以下步驟:
[0007]步驟一,借助本體開發(fā)工具完成本體庫的構(gòu)建,通過人工方式,分析旅游領(lǐng)域的概念或核心詞匯。構(gòu)建的本體庫形成樹型的數(shù)據(jù)結(jié)構(gòu)。
[0008]步驟二,根據(jù)領(lǐng)域概念之間的關(guān)系,利用Jena規(guī)則語法格式,完成本體規(guī)則庫的建立。[0009]步驟三,用戶輸入檢索詞匯或者語句,分詞搜索引擎進(jìn)行分詞處理。
[0010]步驟四,根據(jù)概念相似度的計(jì)算進(jìn)行語義檢索擴(kuò)展,形成新的概念集合。
[0011]步驟五,用新的集合作為原始詞,進(jìn)行檢索,并在本體規(guī)則的支持下,對(duì)本體進(jìn)行推理,檢索出本體庫中隱含的信息。
[0012]步驟六,檢索到的結(jié)果按相似度大小進(jìn)行排序。
[0013]步驟七,將檢索結(jié)果返回給用戶。
[0014]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
[0015](I)本發(fā)明在本體推理技術(shù)的支持下,通過對(duì)本體中屬性的應(yīng)用實(shí)現(xiàn)了實(shí)例的準(zhǔn)確查找,使信息檢索的查全率、查準(zhǔn)率比現(xiàn)有技術(shù)都有所提高。
[0016](2)本發(fā)明所述方法將關(guān)鍵字簡(jiǎn)單匹配的語法層次提高到計(jì)算機(jī)可以理解的語義層次,使計(jì)算機(jī)能夠讀懂輸入的關(guān)鍵詞,從而實(shí)現(xiàn)了檢索的智能化。
【專利附圖】
【附圖說明】
[0017]圖1為本發(fā)明所涉及的方法流程圖;
[0018]圖2為本發(fā)明實(shí)施例公交檢索結(jié)果;
[0019]圖3為本發(fā)明實(shí)施例酒店檢索結(jié)果;
[0020]圖4為本發(fā)明實(shí)施例景點(diǎn)檢索結(jié)果。
【具體實(shí)施方式】
[0021]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步說明。
[0022]本發(fā)明的需要的軟件環(huán)境:Windows操作系統(tǒng),Myeclipse開發(fā)工具,WEB服務(wù)器:Tomcat,數(shù)據(jù)庫:Mysql, Spring+Struts+Hibernate 框架。
[0023]本發(fā)明所述方法流程圖如圖1所示,包括以下步驟:
[0024]步驟一,借助本體開發(fā)工具Prot6g6完成本體庫的構(gòu)建,通過人工方式,分析旅游領(lǐng)域的概念或核心詞匯。構(gòu)建的本體庫形成樹型的數(shù)據(jù)結(jié)構(gòu)。
[0025]步驟二,根據(jù)領(lǐng)域概念之間的關(guān)系,例如:公交和車站之間的關(guān)系,可以用“經(jīng)過”或者“到達(dá)”這樣的屬性建立聯(lián)系,利用Jena規(guī)則語法格式,完成本體規(guī)則庫的建立。
[0026]步驟三,用戶輸入檢索請(qǐng)求:用戶通過檢索界面輸入檢索請(qǐng)求,提交給后臺(tái)處理程序。
[0027]用戶界面是利用Jsp和Jquery技術(shù)實(shí)現(xiàn)的,點(diǎn)擊檢索按鈕觸發(fā)OnclickO事件,通過javascript功能函數(shù)把頁面輸入的關(guān)鍵詞傳給后臺(tái)代碼。
[0028]步驟四,語義檢索擴(kuò)展:
[0029](I)把用戶輸入的關(guān)鍵詞進(jìn)行分詞處理,形成初始化的集合,其中借助了開源工具Lucene0
[0030](2)擴(kuò)展出整個(gè)本體庫中與初始化集合中的詞語語義相同或相似的領(lǐng)域概念,形成新的概念集合。
[0031 ] (3)計(jì)算本體概念相似度。
[0032]概念距離的計(jì)算公式為:
[0033]Distance (a, b) = N [a, Ancestor (a, b) ] +N [b, Ancestor (a, b)]
【權(quán)利要求】
1.一種基于Ontology的語義檢索方法,其特征在于將信息檢索從傳統(tǒng)的關(guān)鍵詞檢索提高到語義檢索,包括以下步驟: 步驟一,借助本體開發(fā)工具完成本體庫的構(gòu)建,通過人工方式,分析旅游領(lǐng)域的概念或核心詞匯; 步驟二,根據(jù)領(lǐng)域概念之間的關(guān)系,利用Jena規(guī)則語法格式,完成本體規(guī)則庫的建立; 步驟三,用戶輸入檢索詞匯或者語句,分詞搜索引擎進(jìn)行分詞處理; 步驟四,根據(jù)概念相似度的計(jì)算進(jìn)行語義檢索擴(kuò)展,形成新的概念集合; 步驟五,用新的集合作為原始詞,進(jìn)行檢索,并在本體規(guī)則的支持下,對(duì)本體進(jìn)行推理,檢索出本體庫中隱含的信息; 步驟六,檢索到的結(jié)果按相似度大小進(jìn)行排序; 步驟七,將檢索結(jié)果返回給用戶。
2.根據(jù)權(quán)利要求1所述的一種基于Ontology的語義檢索方法,其特征在于步驟四進(jìn)行語義檢索擴(kuò)展的方法還包括以下步驟: (1)把用戶輸入的關(guān)鍵詞進(jìn)行分詞處理,形成初始化的集合; (2)擴(kuò)展出整個(gè)本體庫中與初始化集合中的詞語語義相同或相似的領(lǐng)域概念,形成新的概念集合; (3)計(jì)算本體概念相似度; 概念距離的計(jì)算公式為:
【文檔編號(hào)】G06F17/30GK103440314SQ201310378833
【公開日】2013年12月11日 申請(qǐng)日期:2013年8月27日 優(yōu)先權(quán)日:2013年8月27日
【發(fā)明者】沈琦, 張猛, 湯艷, 宋清明 申請(qǐng)人:北京工業(yè)大學(xué)