基于敘詞表的信息檢索方法及裝置制造方法
【專利摘要】一種基于敘詞表的信息檢索方法及裝置,所述方法包括根據(jù)敘詞表,對用戶輸入的檢索詞進(jìn)行規(guī)范化,獲得規(guī)范化檢索詞K;利用規(guī)范化檢索詞K,通過通用搜索引擎對規(guī)范化檢索詞K進(jìn)行檢索,對結(jié)果的網(wǎng)址進(jìn)行分析,提取要素信息;利用相似度計算的方法求出敘詞表中K的相關(guān)詞的相似度,將相似度大于閾值的相關(guān)詞加入查詢擴(kuò)展集合N;將與K的相似度作為對應(yīng)相關(guān)詞的權(quán)值,利用相關(guān)詞對每個網(wǎng)頁中的要素信息進(jìn)行加權(quán)求和計算,得到網(wǎng)頁的權(quán)值,將網(wǎng)頁按照權(quán)值由從大到小排序。本發(fā)明利用敘詞表的詞間關(guān)系,提出語義相似度計算方法,實現(xiàn)對敘詞表詞間關(guān)系的量化分析,并將計算相似度的敘詞用于檢索后結(jié)果的加權(quán)排序。本發(fā)明信息檢索方法和裝置顯著提高了查詢效果。
【專利說明】基于敘詞表的信息檢索方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請涉及一種信息檢索方法和裝置,具體地,涉及一種利用敘詞表的相似度計算得到查詢擴(kuò)展詞集從而對檢索結(jié)果進(jìn)行相似度加權(quán)排序的信息檢索方法和裝置。
【背景技術(shù)】
[0002]隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)上的信息已經(jīng)變得非常龐大,面對海量級的數(shù)據(jù),如何進(jìn)行高效、準(zhǔn)確的信息檢索是值得研究的課題?,F(xiàn)有技術(shù)中,搜索引擎憑借其符合大眾信息檢索習(xí)慣的優(yōu)勢成為了目前獲取網(wǎng)絡(luò)信息的主要工具。但是,由于目前的搜索引擎采用的都是基于關(guān)鍵詞的字面匹配模式,即僅以孤立的關(guān)鍵詞對信息內(nèi)容進(jìn)行標(biāo)引和檢索,并不能表達(dá)出詞語的語義內(nèi)涵,更不能勝任獲取文本中潛在的豐富的語義知識。因此,人們依然很難從海量信息中獲取到自己最需要的信息,在多樣化的網(wǎng)絡(luò)信息環(huán)境下,現(xiàn)有搜索技術(shù)存在著明顯的不足之處。
[0003]為解決以上問題,提出了一些新穎的網(wǎng)絡(luò)信息組織和檢索理念。例如,概念檢索和語義檢索等。本體是實現(xiàn)語義檢索的一種較為有效的工具,但本體的構(gòu)建和維護(hù)需要大量的工作。
[0004]目前很多行業(yè)領(lǐng)域都有自己較成熟的敘詞表。敘詞表是一個相對完善并且發(fā)展成熟的概念知識體系,自其從20世紀(jì)50年代誕生以來,經(jīng)過不斷發(fā)展和完善,已成為主題法中重要的信息組織工具,并曾在傳統(tǒng)文獻(xiàn)標(biāo)引和檢索中發(fā)揮過重要作用。與普通的網(wǎng)絡(luò)信息擴(kuò)展檢索方法相比,基于敘詞表詞間關(guān)系的信息檢索方法更注重利用敘詞表這一語義邏輯提高檢索結(jié)果的檢準(zhǔn)率和檢全率。基于敘詞表的信息檢索方法在某些領(lǐng)域已有相關(guān)石開究,文獻(xiàn) I (Chen C,Zhu Q, Lin L, et al.Web media semantic concept retrievalvia tag removal and model fusion[J].ACM Transactions on Intelligent Systemsand Technology (TIST), 2013,4 (4): 61)利用美國國立醫(yī)學(xué)圖書館(The National Libraryof Medicine)設(shè)計的元敘詞表(Metathesaurus)對用戶所輸入的檢索信息進(jìn)行語法分析,并根據(jù)分析結(jié)果進(jìn)行查詢擴(kuò)展。但是該文獻(xiàn)沒有對敘詞之間的關(guān)系類型進(jìn)行量化分析。文獻(xiàn) 2 (XiongXia.Domain information retrieval based on term relationships ofthesaurus.Beijing:Chinese Academy of Agricultural Sciences Dissertation,2011)給出一種基于農(nóng)業(yè)敘詞表的信息檢索方法,但該方法在查詢擴(kuò)展時只考慮了與核心檢索詞直接相關(guān)的單級擴(kuò)展,沒有考慮其他敘詞的影響。
[0005]因此,如何能夠?qū)⒃~表利用到信息檢索中,并綜合考慮敘詞間多種關(guān)系的相似度,進(jìn)行檢索結(jié)果的加權(quán)分析,成為現(xiàn)有技術(shù)亟需解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于基于敘詞表的信息檢索方法和裝置,使得能夠利用敘詞表的相似度計算得到查詢擴(kuò)展詞集從而對檢索結(jié)果進(jìn)行相似度加權(quán)排序。
[0007]為達(dá)到此目的,本發(fā)明采用了如下方案:[0008]一種基于敘詞表的信息檢索方法,包括如下步驟:
[0009]敘詞規(guī)范化步驟:根據(jù)敘詞表,對用戶輸入的檢索詞進(jìn)行規(guī)范化,獲得規(guī)范化檢索詞K ;
[0010]網(wǎng)頁抓取步驟:利用通用搜索引擎以規(guī)范化檢索詞K為檢索詞進(jìn)行檢索,對前若干個結(jié)果的網(wǎng)址進(jìn)行分析,提取出網(wǎng)頁中的要素信息,所述要素信息包括網(wǎng)頁中的URL、標(biāo)題、正文、摘要、關(guān)鍵詞;
[0011]查詢擴(kuò)展集合建立步驟:利用相似度計算的方法求出敘詞表中K的相關(guān)詞的相似度,將相似度大于所設(shè)置的閾值的相關(guān)詞加入所述查詢擴(kuò)展集合N ;
[0012]加權(quán)排序步驟:將與K的相似度作為所述查詢擴(kuò)展集合N中相關(guān)詞的權(quán)值,利用所述相關(guān)詞對每個網(wǎng)頁中的所述要素信息進(jìn)行加權(quán)求和計算,得到每個網(wǎng)頁的權(quán)值,將所述網(wǎng)頁按照所述權(quán)值由從大到小排序,并返回給用戶。
[0013]優(yōu)選地,所述加權(quán)排序步驟包括:
[0014]頻率計算步驟,計算所述查詢擴(kuò)展集合中的每一個相關(guān)詞在網(wǎng)頁的標(biāo)題中出現(xiàn)的頻率T以及在網(wǎng)頁正文中出現(xiàn)的頻率P ;
[0015]權(quán)值計算步驟,求和計算每個網(wǎng)頁的權(quán)值,其公式為:
[0016]TWn = Efl1Wi X (ω X Tj + Pj)
[0017]其中,TWn為第η個網(wǎng)頁的總權(quán)值,m為所述查詢擴(kuò)展集合N中相關(guān)詞的數(shù)目,Wi為N中第i個擴(kuò)展詞與規(guī)范化檢索詞K的相似度,Ti和Pi分別為所述擴(kuò)展詞在第i個網(wǎng)頁的標(biāo)題和正文中出現(xiàn)的頻率,ω為標(biāo)題正文比,用于調(diào)節(jié)標(biāo)題對于最終結(jié)果的重要性,ω越大,標(biāo)題對該網(wǎng)頁權(quán)值的影響越大;
[0018]排序步驟,將所述網(wǎng)頁按照所述權(quán)值由從大到小排序,并返回給用戶。
[0019]進(jìn)一步優(yōu)選地,通過實驗來選擇合適的閾值Q及加權(quán)排序中的標(biāo)題正文比ω。閾值Q取值為0.2-0.8,標(biāo)題正文比ω取值為1-6。
[0020]優(yōu)選地,所述查詢擴(kuò)展集合建立步驟包括:
[0021]建立初始查詢擴(kuò)展集合步驟:根據(jù)敘詞表對規(guī)范化檢索詞K進(jìn)行擴(kuò)展,得到關(guān)于所述規(guī)范化檢索詞K的初始查詢擴(kuò)展集合U= {D,F(xiàn),W,Y},其中,D表示K的等同詞,F(xiàn)表示K的所有上位/下位詞,即敘詞表概念樹T的所有節(jié)點,W表示K的相關(guān)詞,Y表示F的等同詞和相關(guān)詞;
[0022]建立敘詞表查詢概念樹步驟:找到所述規(guī)范化檢索K的族首詞0,以O(shè)為根節(jié)點建立敘詞表概念樹T ;
[0023]概念對組成步驟:從所述初始查詢擴(kuò)展集合中逐個抽取擴(kuò)展詞,使得規(guī)范化檢索詞K與擴(kuò)展詞組成概念對;
[0024]相似度計算步驟:根據(jù)所述概念對中規(guī)范化檢索詞K與擴(kuò)展詞的關(guān)系類型,采用不同的公式計算規(guī)范化檢索詞K與擴(kuò)展詞的相似度;
[0025]閾值判斷步驟:設(shè)置閾值Q,判斷所述初始查詢擴(kuò)展集合每個詞與所述規(guī)范化檢索詞K的相似度是否大于Q:若大于,則將該詞加入到查詢擴(kuò)展集合N中;若小于,則跳過,即不加入到查詢擴(kuò)展集合N中。
[0026]進(jìn)一步優(yōu)選地,所述相似度計算步驟包括:
[0027]當(dāng)概念對中擴(kuò)展詞為K的等同詞D時,所述相似度為等同相似度SimD (K,D),采用以下公式計算:
[0028]SimD(K,D)=l。
[0029]當(dāng)概念對中擴(kuò)展詞為K的上位/下位詞F時,所述相似度為屬分相似度SimF (K, F),采用以下公式計算:
[0030]SimF (K, F) =^Xf2Xf3
[0031]其中,為基于最短路徑的相似度,f2為基于最近根深度的相似度,f3為基于密度的相似度,
[0032]基于最短路徑的相似度的計算公式為:
[0033]f^d) =e_ad
[0034]其中,d為在T中由K到F的最短路徑長度,a為調(diào)節(jié)因子,a越大,也越大。
[0035]基于最近根深度的相似度f2的計算公式為:
[0036]f2 (h)=l-e_0h
[0037]其中,h為R(K,F(xiàn))所在深度,β為調(diào)節(jié)因子,β越大,f2也就越大。
[0038]基于密度的相似度f3的計算公式為:
[0039]
【權(quán)利要求】
1.一種基于敘詞表的信息檢索方法,包括如下步驟: 敘詞規(guī)范化步驟:根據(jù)敘詞表,對用戶輸入的檢索詞進(jìn)行規(guī)范化,獲得規(guī)范化檢索詞K ;網(wǎng)頁抓取步驟:利用通用搜索引擎以規(guī)范化檢索詞K為檢索詞進(jìn)行檢索,對前若干個結(jié)果的網(wǎng)址進(jìn)行分析,提取出網(wǎng)頁中的要素信息,所述要素信息包括網(wǎng)頁中的URL、標(biāo)題、正文、摘要、關(guān)鍵詞; 查詢擴(kuò)展集合建立步驟:利用相似度計算的方法求出敘詞表中K的相關(guān)詞的相似度,將相似度大于所設(shè)置的閾值的相關(guān)詞加入所述查詢擴(kuò)展集合N ; 加權(quán)排序步驟:將與K的相似度作為所述查詢擴(kuò)展集合N中相關(guān)詞的權(quán)值,利用所述相關(guān)詞對每個網(wǎng)頁中的所述要素信息進(jìn)行加權(quán)求和計算,得到每個網(wǎng)頁的權(quán)值,將所述網(wǎng)頁按照所述權(quán)值由從大到小排序,并返回給用戶。
2.根據(jù)權(quán)利要求1所述的基于敘詞表的信息檢索方法,其特征在于: 所述加權(quán)排序步驟包括: 頻率計算步驟,計算所述查詢擴(kuò)展集合中的每一個相關(guān)詞在網(wǎng)頁的標(biāo)題中出現(xiàn)的頻率T以及在網(wǎng)頁正文中出現(xiàn)的頻率P ; 權(quán)值計算步驟,求和計算每個網(wǎng)頁的權(quán)值,其公式為:
3.根據(jù)權(quán)利要求2所述的基于敘詞表的信息檢索方法,其特征在于: 通過實驗來選擇合適的閾值Q及加權(quán)排序中的標(biāo)題正文比ω。
4.根據(jù)權(quán)利要求3所述的基于敘詞表的信息檢索方法,其特征在于: 閾值Q取值為0.2-0.8,標(biāo)題正文比ω取值為1-6。
5.根據(jù)權(quán)利要求1所述的基于敘詞表的信息檢索方法,其特征在于: 所述查詢擴(kuò)展集合建立步驟包括: 建立初始查詢擴(kuò)展集合步驟:根據(jù)敘詞表對規(guī)范化檢索詞K進(jìn)行擴(kuò)展,得到關(guān)于所述規(guī)范化檢索詞K的初始查詢擴(kuò)展集合U= {D, F,W,Y},其中,D表示K的等同詞,F(xiàn)表示K的所有上位/下位詞,即敘詞表概念樹T的所有節(jié)點,W表示K的相關(guān)詞,Y表示F的等同詞和相關(guān)詞; 建立敘詞表查詢概念樹步驟:找到所述規(guī)范化檢索K的族首詞O,以O(shè)為根節(jié)點建立敘詞表概念樹T ; 概念對組成步驟:從所述初始查詢擴(kuò)展集合中逐個抽取擴(kuò)展詞,使得規(guī)范化檢索詞K與擴(kuò)展詞組成概念對; 相似度計算步驟:根據(jù)所述概念對中規(guī)范化檢索詞K與擴(kuò)展詞的關(guān)系類型,采用不同的公式計算規(guī)范化檢索詞K與擴(kuò)展詞的相似度; 閾值判斷步驟:設(shè)置閾值Q,判斷所述初始查詢擴(kuò)展集合每個詞與所述規(guī)范化檢索詞K的相似度是否大于Q:若大于,則將該詞加入到查詢擴(kuò)展集合N中;若小于,則跳過,即不加入到查詢擴(kuò)展集合N中。
6.根據(jù)權(quán)利要求5所述的基于敘詞表的信息檢索方法,其特征在于: 所述相似度計算步驟包括: 當(dāng)概念對中擴(kuò)展詞為K的等同詞D時,所述相似度為等同相似度SimD (K,D),采用以下公式計算:
SimD (K, D)=l。
7.根據(jù)權(quán)利要求5所述的基于敘詞表的信息檢索方法,其特征在于: 所述相似度計算步驟包括: 當(dāng)概念對中擴(kuò)展詞為K的上位/下位詞F時,所述相似度為屬分相似度SimF (K,F(xiàn)),采用以下公式計算:
SimF (K, F) =^Xf2Xf3 其中,為基于最短路徑的相似度,f2為基于最近根深度的相似度,f3為基于密度的相似度, 基于最短路徑的相似度的計算公式為: fi (d) =e_ad 其中,d為在T中由K到F的最短路徑長度,a為調(diào)節(jié)因子,a越大,也越大, 基于最近根深度的相似度f2的計算公式為: f2 (h)=l-e_eh 其中,h為(K,F(xiàn))所在深度,β為調(diào)節(jié)因子,β越大,f2也就越大, 基于密度的相似度f3的計算公式為:
8.根據(jù)權(quán)利要求5所述的基于敘詞表的信息檢索方法,其特征在于: 當(dāng)概念對中擴(kuò)展詞為K的相關(guān)詞W時,所述相似度為相關(guān)相似度SimW (K,W),采用以下公式計算:
Simff (K, ff) =gi X g2 其中,gl為基于相關(guān)關(guān)聯(lián)敘詞深度的相似度,g2為基于相關(guān)關(guān)聯(lián)敘詞密度的相似度, 基于相關(guān)關(guān)聯(lián)敘詞深度的相似度gl的計算公式為:
9.根據(jù)權(quán)利要求5所述的基于敘詞表的信息檢索方法,其特征在于:當(dāng)概念對中擴(kuò)展詞為K的上位/下位詞F的等同詞/相關(guān)詞Y時,所述相似度為間接關(guān)系相似度,分別采用以下公式計算:
SimY (K, Y) =SimF (K, F) X SimD (F, Y) 或者
SimY (K, Y) =SimF (K, F) X Simff (F,Y)。
10.一種基于敘詞表的信息檢索裝置,包括: 敘詞規(guī)范化單元:根據(jù)敘詞表,對用戶輸入的檢索詞進(jìn)行規(guī)范化,獲得規(guī)范化檢索詞K ;網(wǎng)頁抓取單元:利用所述敘詞規(guī)范化單元得到的規(guī)范化檢索詞K,利用通用搜索引擎以規(guī)范化檢索詞K為檢索詞進(jìn)行檢索,對前若干個結(jié)果的網(wǎng)址進(jìn)行分析,提取出網(wǎng)頁中的要素信息,所述要素信息包括網(wǎng)頁中的URL、標(biāo)題、正文、摘要、關(guān)鍵詞; 查詢擴(kuò)展集合建立單元:利用相似度計算的方法求出敘詞表中K的相關(guān)詞的相似度,將相似度大于所設(shè)置的閾值的相關(guān)詞加入所述查詢擴(kuò)展集合N ; 加權(quán)排序單元:將與K的相似度作為所述查詢擴(kuò)展集合N中相關(guān)詞的權(quán)值,利用所述相關(guān)詞對每個網(wǎng)頁中的所述要素信息進(jìn)行加權(quán)求和計算,得到每個網(wǎng)頁的權(quán)值,將所述網(wǎng)頁按照所述權(quán)值由從大到小排序,并返回`給用戶。
【文檔編號】G06F17/30GK103778262SQ201410080938
【公開日】2014年5月7日 申請日期:2014年3月6日 優(yōu)先權(quán)日:2014年3月6日
【發(fā)明者】李冬梅, 韓其琛, 方博 申請人:北京林業(yè)大學(xué)