專利名稱:基于突發(fā)事件本體的語義查詢擴(kuò)展算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于查詢擴(kuò)展算法,具體為基于突發(fā)事件本體的語義查詢擴(kuò)展算法法。該方法對已有的方 法進(jìn)行了改進(jìn),不僅能擴(kuò)展出和查詢詞有上下位關(guān)系、同義關(guān)系等語義關(guān)系的詞語,還能擴(kuò)展出和查詢詞有突發(fā)事件領(lǐng)域特定語義關(guān)系的詞語,能夠根據(jù)概念相似度大小設(shè)置擴(kuò)展哪些概念,避免了擴(kuò)展結(jié)果發(fā)生同質(zhì)化,并且能夠使最后的查詢結(jié)果按相似度有序排列。
背景技術(shù):
在信息檢索領(lǐng)域中,用戶輸入的查詢往往與文檔中的目標(biāo)詞不相匹配,導(dǎo)致信息檢索系統(tǒng)無法返回符合用戶查詢請求的結(jié)果集。如何對用戶查詢詞進(jìn)行處理以提高信息檢索的準(zhǔn)確率,是ー個(gè)開放的問題。查詢擴(kuò)展是其中一種可行的解決方法,其基本思想是在原始查詢詞的基礎(chǔ)上加入與用戶查詢詞相關(guān)聯(lián)的詞,以組成新的更長、更準(zhǔn)確的查詢詞,可以在一定程度上彌補(bǔ)用戶查詢信息不足的缺陷。基于本體進(jìn)行查詢擴(kuò)展的思想最早是由Voorhees在1994年提出的,主要是借助本體中明確形式化的概念定義,利用本體中的同義詞和特定的子類關(guān)系來進(jìn)行查詢擴(kuò)展。在此之后,基于本體進(jìn)行查詢擴(kuò)展的研究不斷深入,近年來已成為ー個(gè)研究熱點(diǎn)。本體因其可以明確地、形式化地表達(dá)概念的含義以及概念之間的語義關(guān)系,成為提供語義信息的“語義詞典”。目前,語義查詢擴(kuò)展的研究方法主要是把原始查詢映射到概念,根據(jù)本體中概念間的各種關(guān)系,利用一定的技術(shù),提取出查詢語義及其語義關(guān)聯(lián)詞,從而得到比原查詢更長的新查詢詞。許多方法是將查詢映射到本體中的概念,或者說,它們所使用的本體(例如HowNet、WordNet)更像是簡單樹形結(jié)構(gòu)的詞表,并沒有屬性和實(shí)例概念,能表達(dá)的也主要是上下位關(guān)系、同義關(guān)系,因而這樣的本體并不能擴(kuò)展出很多語義關(guān)聯(lián)詞。大部分的算法找出了查詢擴(kuò)展詞,并添加進(jìn)查詢詞中,組成比原查詢更長的查詢,也就是默認(rèn)查詢擴(kuò)展詞與原查詢詞的權(quán)重相同,有可能導(dǎo)致“主題偏移”。因此查詢詞與查詢擴(kuò)展詞的權(quán)重不應(yīng)該相同,否則會影響最后的查詢結(jié)果。為了解決這些問題,本發(fā)明提出了ー種基于突發(fā)事件本體和概念相似度計(jì)算模型的語義查詢擴(kuò)展算法。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供ー種基于突發(fā)事件本體和概念相似度計(jì)算模型的語義查詢擴(kuò)展算法,以擴(kuò)展出更多有效的查詢詞,進(jìn)而提高信息檢索的查準(zhǔn)率與查全率。首先建立了突發(fā)事件領(lǐng)域本體模型,然后建立概念相似度計(jì)算模型,最后給出了算法的實(shí)現(xiàn)步驟。I.突發(fā)事件領(lǐng)域本體模型建立的突發(fā)事件領(lǐng)域本體模型包括事件層、過程層、行動層和決策層。在圖中,描述性的知識定義在事件層,指定突發(fā)事件的類別及其相互之間的關(guān)系;過程性知識主要定義在過程層,描述了突發(fā)事件涉及到的一系列狀態(tài),前態(tài)經(jīng)過一系列過程轉(zhuǎn)入終態(tài);行動層主要定義處置突發(fā)事件所采取的行動知識,并引入角色和行動條件的概念;決策層主要定義突發(fā)事件問題、應(yīng)急預(yù)案等知識。突發(fā)事件領(lǐng)域本體包括類、屬性、關(guān)系和實(shí)例4個(gè)元素。2.概念相似度計(jì)算模型綜合考慮概念之間的語義距離、層次因素、上位概念重合度的概念相似度計(jì)算模型如下
權(quán)利要求
1.基于突發(fā)事件本體的語義查詢擴(kuò)展算法,其特征在于,首先從本體論的角度出發(fā),設(shè)計(jì)了一個(gè)基于本體的多層突發(fā)事件領(lǐng)域知識模型,定義了突發(fā)事件領(lǐng)域概念間存在的語義關(guān)系。然后通過對影響概念相似度大小的因素進(jìn)行分析,建立了一種綜合考慮概念之間的語義距離、層次因素、上位概念重合度的概念相似度計(jì)算模型。為了保證對突發(fā)事件領(lǐng)域詞匯的分詞準(zhǔn)確性,本發(fā)明還基于突發(fā)事件領(lǐng)域本體對所使用的分詞詞庫進(jìn)行了擴(kuò)展。最后設(shè)計(jì)了基于突發(fā)事件本體和概念相似度模型實(shí)現(xiàn)語義查詢擴(kuò)展的流程。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,設(shè)計(jì)了一個(gè)基于本體的多層突發(fā)事件領(lǐng)域知識模型,定義了突發(fā)事件領(lǐng)域概念間存在的語義關(guān)系,突發(fā)事件本體模型分為4層事件層、過程層、行動層和決策層。描述性的知識定義在事件層,指定突發(fā)事件的類別及其相互之間的關(guān)系;過程性知識主要定義在過程層,描述了突發(fā)事件涉及到的一系列狀態(tài),前態(tài)經(jīng)過一系列過程轉(zhuǎn)入終態(tài);行動層主要定義處置突發(fā)事件所采取的行動知識,并引入角色和行動條件的概念;決策層主要定義突發(fā)事件問題、應(yīng)急預(yù)案等知識。突發(fā)事件領(lǐng)域本體包括類、屬性、關(guān)系和實(shí)例4個(gè)元素。突發(fā)事件領(lǐng)域概念之間存在的語義關(guān)系包括分類關(guān)系(is_a)、時(shí)間關(guān)系(is_before)、并發(fā)關(guān)系(synchronize)、因果關(guān)系(cause)、f禹合關(guān)系(coupling)、需求關(guān)系(need)、條件關(guān)系(context_of)、順序關(guān)系(precede、follow)、依據(jù)關(guān)系(basedon)、參考關(guān)系(refe_for)、針對關(guān)系(aimed_at)。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,建立了一種綜合考慮概念之間的語義距離、層次因素、上位概念重合度的概念相似度計(jì)算模型
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,基于突發(fā)事件領(lǐng)域本體對所使用的分詞詞庫進(jìn)行了擴(kuò)展,將本體庫中存儲的概念都添加到了分詞詞庫中,這樣當(dāng)用戶輸入句子時(shí),能夠提取出更準(zhǔn)確的關(guān)鍵詞。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,設(shè)計(jì)了基于突發(fā)事件本體和概念相似度模型實(shí)現(xiàn)語義查詢擴(kuò)展的流程若用戶輸入采用的是自然語言模式,首先需要進(jìn)行分詞處理,提取出關(guān)鍵詞,然后進(jìn)行本體匹配。若與本體中的類概念匹配成功,則擴(kuò)展該類概念的同義詞、上下位概念、實(shí)例概念以及有cause、is before、need等特定語義關(guān)系的詞語,并應(yīng)用概念相似度計(jì)算公式計(jì)算出擴(kuò)展的概念與類概念之間的相似度;若與本體中的實(shí)例概念匹配成功,則擴(kuò)展該實(shí)例概念的屬性概念、所屬類概念等,然后應(yīng)用實(shí)例相似度計(jì)算公式計(jì)算出擴(kuò)展的實(shí)例與實(shí)例之間的相似度。最后將與輸入關(guān)鍵詞的相似度達(dá)到給定閾值的概念一同作為新的查詢關(guān)鍵詞進(jìn)行查詢。
全文摘要
本發(fā)明提出了一種基于突發(fā)事件本體的語義查詢擴(kuò)展算法。首先從本體論的角度出發(fā),設(shè)計(jì)了一個(gè)多層的突發(fā)事件本體模型,定義了突發(fā)事件領(lǐng)域概念間存在的語義關(guān)系,從而能夠擴(kuò)展出語義相關(guān)的概念。然后通過對影響概念相似度大小的因素進(jìn)行分析,建立了一種綜合考慮概念之間的語義距離、層次因素、上位概念重合度的概念相似度計(jì)算模型,更加全面地量化了本體網(wǎng)絡(luò)中概念節(jié)點(diǎn)之間的相似度,能夠根據(jù)相似度大小設(shè)置擴(kuò)展哪些概念,避免了擴(kuò)展結(jié)果同質(zhì)化,并且能夠使最后的查詢結(jié)果按相似度有序排列。為了保證對突發(fā)事件領(lǐng)域詞匯的分詞準(zhǔn)確性,本發(fā)明還基于突發(fā)事件領(lǐng)域本體對所使用的分詞詞庫進(jìn)行了擴(kuò)展。
文檔編號G06F17/30GK102663122SQ20121011825
公開日2012年9月12日 申請日期2012年4月20日 優(yōu)先權(quán)日2012年4月20日
發(fā)明者杜軍平, 楊月華 申請人:北京郵電大學(xué)