基于敘詞表的信息檢索方法及裝置制造方法

文檔序號：6539725閱讀：199來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于敘詞表的信息檢索方法及裝置制造方法
【專利摘要】一種基于敘詞表的信息檢索方法及裝置，所述方法包括根據(jù)敘詞表，對用戶輸入的檢索詞進(jìn)行規(guī)范化，獲得規(guī)范化檢索詞K；利用規(guī)范化檢索詞K，通過通用搜索引擎對規(guī)范化檢索詞K進(jìn)行檢索，對結(jié)果的網(wǎng)址進(jìn)行分析，提取要素信息；利用相似度計算的方法求出敘詞表中K的相關(guān)詞的相似度，將相似度大于閾值的相關(guān)詞加入查詢擴(kuò)展集合N；將與K的相似度作為對應(yīng)相關(guān)詞的權(quán)值，利用相關(guān)詞對每個網(wǎng)頁中的要素信息進(jìn)行加權(quán)求和計算，得到網(wǎng)頁的權(quán)值，將網(wǎng)頁按照權(quán)值由從大到小排序。本發(fā)明利用敘詞表的詞間關(guān)系，提出語義相似度計算方法，實現(xiàn)對敘詞表詞間關(guān)系的量化分析，并將計算相似度的敘詞用于檢索后結(jié)果的加權(quán)排序。本發(fā)明信息檢索方法和裝置顯著提高了查詢效果。
【專利說明】基于敘詞表的信息檢索方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請涉及一種信息檢索方法和裝置，具體地，涉及一種利用敘詞表的相似度計算得到查詢擴(kuò)展詞集從而對檢索結(jié)果進(jìn)行相似度加權(quán)排序的信息檢索方法和裝置。
【背景技術(shù)】
[0002]隨著Internet的迅速發(fā)展，網(wǎng)絡(luò)上的信息已經(jīng)變得非常龐大，面對海量級的數(shù)據(jù)，如何進(jìn)行高效、準(zhǔn)確的信息檢索是值得研究的課題?，F(xiàn)有技術(shù)中，搜索引擎憑借其符合大眾信息檢索習(xí)慣的優(yōu)勢成為了目前獲取網(wǎng)絡(luò)信息的主要工具。但是，由于目前的搜索引擎采用的都是基于關(guān)鍵詞的字面匹配模式，即僅以孤立的關(guān)鍵詞對信息內(nèi)容進(jìn)行標(biāo)引和檢索，并不能表達(dá)出詞語的語義內(nèi)涵，更不能勝任獲取文本中潛在的豐富的語義知識。因此，人們依然很難從海量信息中獲取到自己最需要的信息，在多樣化的網(wǎng)絡(luò)信息環(huán)境下，現(xiàn)有搜索技術(shù)存在著明顯的不足之處。
[0003]為解決以上問題，提出了一些新穎的網(wǎng)絡(luò)信息組織和檢索理念。例如，概念檢索和語義檢索等。本體是實現(xiàn)語義檢索的一種較為有效的工具，但本體的構(gòu)建和維護(hù)需要大量的工作。
[0004]目前很多行業(yè)領(lǐng)域都有自己較成熟的敘詞表。敘詞表是一個相對完善并且發(fā)展成熟的概念知識體系，自其從20世紀(jì)50年代誕生以來，經(jīng)過不斷發(fā)展和完善，已成為主題法中重要的信息組織工具，并曾在傳統(tǒng)文獻(xiàn)標(biāo)引和檢索中發(fā)揮過重要作用。與普通的網(wǎng)絡(luò)信息擴(kuò)展檢索方法相比，基于敘詞表詞間關(guān)系的信息檢索方法更注重利用敘詞表這一語義邏輯提高檢索結(jié)果的檢準(zhǔn)率和檢全率。基于敘詞表的信息檢索方法在某些領(lǐng)域已有相關(guān)石開究，文獻(xiàn) I (Chen C，Zhu Q, Lin L, et al.Web media semantic concept retrievalvia tag removal and model fusion[J].ACM Transactions on Intelligent Systemsand Technology (TIST), 2013,4 (4): 61)利用美國國立醫(yī)學(xué)圖書館(The National Libraryof Medicine)設(shè)計的元敘詞表(Metathesaurus)對用戶所輸入的檢索信息進(jìn)行語法分析，并根據(jù)分析結(jié)果進(jìn)行查詢擴(kuò)展。但是該文獻(xiàn)沒有對敘詞之間的關(guān)系類型進(jìn)行量化分析。文獻(xiàn) 2 (XiongXia.Domain information retrieval based on term relationships ofthesaurus.Beijing:Chinese Academy of Agricultural Sciences Dissertation,2011)給出一種基于農(nóng)業(yè)敘詞表的信息檢索方法，但該方法在查詢擴(kuò)展時只考慮了與核心檢索詞直接相關(guān)的單級擴(kuò)展，沒有考慮其他敘詞的影響。
[0005]因此，如何能夠?qū)⒃~表利用到信息檢索中，并綜合考慮敘詞間多種關(guān)系的相似度，進(jìn)行檢索結(jié)果的加權(quán)分析，成為現(xiàn)有技術(shù)亟需解決的技術(shù)問題。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的在于基于敘詞表的信息檢索方法和裝置，使得能夠利用敘詞表的相似度計算得到查詢擴(kuò)展詞集從而對檢索結(jié)果進(jìn)行相似度加權(quán)排序。
[0007]為達(dá)到此目的，本發(fā)明采用了如下方案:[0008]一種基于敘詞表的信息檢索方法，包括如下步驟:
[0009]敘詞規(guī)范化步驟:根據(jù)敘詞表，對用戶輸入的檢索詞進(jìn)行規(guī)范化，獲得規(guī)范化檢索詞K ；
[0010]網(wǎng)頁抓取步驟:利用通用搜索引擎以規(guī)范化檢索詞K為檢索詞進(jìn)行檢索，對前若干個結(jié)果的網(wǎng)址進(jìn)行分析，提取出網(wǎng)頁中的要素信息，所述要素信息包括網(wǎng)頁中的URL、標(biāo)題、正文、摘要、關(guān)鍵詞；
[0011]查詢擴(kuò)展集合建立步驟:利用相似度計算的方法求出敘詞表中K的相關(guān)詞的相似度，將相似度大于所設(shè)置的閾值的相關(guān)詞加入所述查詢擴(kuò)展集合N ;
[0012]加權(quán)排序步驟:將與K的相似度作為所述查詢擴(kuò)展集合N中相關(guān)詞的權(quán)值，利用所述相關(guān)詞對每個網(wǎng)頁中的所述要素信息進(jìn)行加權(quán)求和計算，得到每個網(wǎng)頁的權(quán)值，將所述網(wǎng)頁按照所述權(quán)值由從大到小排序，并返回給用戶。
[0013]優(yōu)選地，所述加權(quán)排序步驟包括:
[0014]頻率計算步驟，計算所述查詢擴(kuò)展集合中的每一個相關(guān)詞在網(wǎng)頁的標(biāo)題中出現(xiàn)的頻率T以及在網(wǎng)頁正文中出現(xiàn)的頻率P ;
[0015]權(quán)值計算步驟，求和計算每個網(wǎng)頁的權(quán)值，其公式為:
[0016]TWn = Efl1Wi X (ω X Tj + Pj)
[0017]其中，TWn為第η個網(wǎng)頁的總權(quán)值，m為所述查詢擴(kuò)展集合N中相關(guān)詞的數(shù)目，Wi為N中第i個擴(kuò)展詞與規(guī)范化檢索詞K的相似度，Ti和Pi分別為所述擴(kuò)展詞在第i個網(wǎng)頁的標(biāo)題和正文中出現(xiàn)的頻率，ω為標(biāo)題正文比，用于調(diào)節(jié)標(biāo)題對于最終結(jié)果的重要性，ω越大，標(biāo)題對該網(wǎng)頁權(quán)值的影響越大；
[0018]排序步驟，將所述網(wǎng)頁按照所述權(quán)值由從大到小排序，并返回給用戶。
[0019]進(jìn)一步優(yōu)選地，通過實驗來選擇合適的閾值Q及加權(quán)排序中的標(biāo)題正文比ω。閾值Q取值為0.2-0.8，標(biāo)題正文比ω取值為1-6。
[0020]優(yōu)選地，所述查詢擴(kuò)展集合建立步驟包括:
[0021]建立初始查詢擴(kuò)展集合步驟:根據(jù)敘詞表對規(guī)范化檢索詞K進(jìn)行擴(kuò)展，得到關(guān)于所述規(guī)范化檢索詞K的初始查詢擴(kuò)展集合U= {D，F(xiàn)，W，Y}，其中，D表示K的等同詞，F(xiàn)表示K的所有上位/下位詞，即敘詞表概念樹T的所有節(jié)點，W表示K的相關(guān)詞，Y表示F的等同詞和相關(guān)詞；
[0022]建立敘詞表查詢概念樹步驟:找到所述規(guī)范化檢索K的族首詞0，以O(shè)為根節(jié)點建立敘詞表概念樹T ；
[0023]概念對組成步驟:從所述初始查詢擴(kuò)展集合中逐個抽取擴(kuò)展詞，使得規(guī)范化檢索詞K與擴(kuò)展詞組成概念對；
[0024]相似度計算步驟:根據(jù)所述概念對中規(guī)范化檢索詞K與擴(kuò)展詞的關(guān)系類型，采用不同的公式計算規(guī)范化檢索詞K與擴(kuò)展詞的相似度；
[0025]閾值判斷步驟:設(shè)置閾值Q，判斷所述初始查詢擴(kuò)展集合每個詞與所述規(guī)范化檢索詞K的相似度是否大于Q:若大于，則將該詞加入到查詢擴(kuò)展集合N中；若小于，則跳過，即不加入到查詢擴(kuò)展集合N中。
[0026]進(jìn)一步優(yōu)選地，所述相似度計算步驟包括:
[0027]當(dāng)概念對中擴(kuò)展詞為K的等同詞D時，所述相似度為等同相似度SimD (K，D)，采用以下公式計算:
[0028]SimD(K，D)=l。
[0029]當(dāng)概念對中擴(kuò)展詞為K的上位/下位詞F時，所述相似度為屬分相似度SimF (K, F)，采用以下公式計算:
[0030]SimF (K, F) =^Xf2Xf3
[0031]其中，為基于最短路徑的相似度，f2為基于最近根深度的相似度，f3為基于密度的相似度，
[0032]基于最短路徑的相似度的計算公式為:
[0033]f^d) =e_ad
[0034]其中，d為在T中由K到F的最短路徑長度，a為調(diào)節(jié)因子，a越大，也越大。
[0035]基于最近根深度的相似度f2的計算公式為:
[0036]f2 (h)=l-e_0h
[0037]其中，h為R(K，F(xiàn))所在深度，β為調(diào)節(jié)因子，β越大，f2也就越大。
[0038]基于密度的相似度f3的計算公式為:
[0039]
【權(quán)利要求】
1.一種基于敘詞表的信息檢索方法，包括如下步驟: 敘詞規(guī)范化步驟:根據(jù)敘詞表，對用戶輸入的檢索詞進(jìn)行規(guī)范化，獲得規(guī)范化檢索詞K ；網(wǎng)頁抓取步驟:利用通用搜索引擎以規(guī)范化檢索詞K為檢索詞進(jìn)行檢索，對前若干個結(jié)果的網(wǎng)址進(jìn)行分析，提取出網(wǎng)頁中的要素信息，所述要素信息包括網(wǎng)頁中的URL、標(biāo)題、正文、摘要、關(guān)鍵詞；查詢擴(kuò)展集合建立步驟:利用相似度計算的方法求出敘詞表中K的相關(guān)詞的相似度，將相似度大于所設(shè)置的閾值的相關(guān)詞加入所述查詢擴(kuò)展集合N ；加權(quán)排序步驟:將與K的相似度作為所述查詢擴(kuò)展集合N中相關(guān)詞的權(quán)值，利用所述相關(guān)詞對每個網(wǎng)頁中的所述要素信息進(jìn)行加權(quán)求和計算，得到每個網(wǎng)頁的權(quán)值，將所述網(wǎng)頁按照所述權(quán)值由從大到小排序，并返回給用戶。
2.根據(jù)權(quán)利要求1所述的基于敘詞表的信息檢索方法，其特征在于: 所述加權(quán)排序步驟包括: 頻率計算步驟，計算所述查詢擴(kuò)展集合中的每一個相關(guān)詞在網(wǎng)頁的標(biāo)題中出現(xiàn)的頻率T以及在網(wǎng)頁正文中出現(xiàn)的頻率P ; 權(quán)值計算步驟，求和計算每個網(wǎng)頁的權(quán)值，其公式為:
3.根據(jù)權(quán)利要求2所述的基于敘詞表的信息檢索方法，其特征在于: 通過實驗來選擇合適的閾值Q及加權(quán)排序中的標(biāo)題正文比ω。
4.根據(jù)權(quán)利要求3所述的基于敘詞表的信息檢索方法，其特征在于: 閾值Q取值為0.2-0.8，標(biāo)題正文比ω取值為1-6。
5.根據(jù)權(quán)利要求1所述的基于敘詞表的信息檢索方法，其特征在于: 所述查詢擴(kuò)展集合建立步驟包括: 建立初始查詢擴(kuò)展集合步驟:根據(jù)敘詞表對規(guī)范化檢索詞K進(jìn)行擴(kuò)展，得到關(guān)于所述規(guī)范化檢索詞K的初始查詢擴(kuò)展集合U= {D, F，W，Y}，其中，D表示K的等同詞，F(xiàn)表示K的所有上位/下位詞，即敘詞表概念樹T的所有節(jié)點，W表示K的相關(guān)詞，Y表示F的等同詞和相關(guān)詞；建立敘詞表查詢概念樹步驟:找到所述規(guī)范化檢索K的族首詞O，以O(shè)為根節(jié)點建立敘詞表概念樹T ；概念對組成步驟:從所述初始查詢擴(kuò)展集合中逐個抽取擴(kuò)展詞，使得規(guī)范化檢索詞K與擴(kuò)展詞組成概念對；相似度計算步驟:根據(jù)所述概念對中規(guī)范化檢索詞K與擴(kuò)展詞的關(guān)系類型，采用不同的公式計算規(guī)范化檢索詞K與擴(kuò)展詞的相似度；閾值判斷步驟:設(shè)置閾值Q，判斷所述初始查詢擴(kuò)展集合每個詞與所述規(guī)范化檢索詞K的相似度是否大于Q:若大于，則將該詞加入到查詢擴(kuò)展集合N中；若小于，則跳過，即不加入到查詢擴(kuò)展集合N中。
6.根據(jù)權(quán)利要求5所述的基于敘詞表的信息檢索方法,其特征在于: 所述相似度計算步驟包括: 當(dāng)概念對中擴(kuò)展詞為K的等同詞D時，所述相似度為等同相似度SimD (K，D)，采用以下公式計算:
SimD (K, D)=l。
7.根據(jù)權(quán)利要求5所述的基于敘詞表的信息檢索方法,其特征在于: 所述相似度計算步驟包括: 當(dāng)概念對中擴(kuò)展詞為K的上位/下位詞F時，所述相似度為屬分相似度SimF (K，F(xiàn))，采用以下公式計算:
SimF (K, F) =^Xf2Xf3 其中，為基于最短路徑的相似度，f2為基于最近根深度的相似度，f3為基于密度的相似度，基于最短路徑的相似度的計算公式為: fi (d) =e_ad 其中，d為在T中由K到F的最短路徑長度，a為調(diào)節(jié)因子，a越大，也越大，基于最近根深度的相似度f2的計算公式為: f2 (h)=l-e_eh 其中，h為(K，F(xiàn))所在深度，β為調(diào)節(jié)因子，β越大，f2也就越大，基于密度的相似度f3的計算公式為:
8.根據(jù)權(quán)利要求5所述的基于敘詞表的信息檢索方法,其特征在于: 當(dāng)概念對中擴(kuò)展詞為K的相關(guān)詞W時，所述相似度為相關(guān)相似度SimW (K，W)，采用以下公式計算:
Simff (K, ff) =gi X g2 其中，gl為基于相關(guān)關(guān)聯(lián)敘詞深度的相似度，g2為基于相關(guān)關(guān)聯(lián)敘詞密度的相似度，基于相關(guān)關(guān)聯(lián)敘詞深度的相似度gl的計算公式為:
9.根據(jù)權(quán)利要求5所述的基于敘詞表的信息檢索方法，其特征在于:當(dāng)概念對中擴(kuò)展詞為K的上位/下位詞F的等同詞/相關(guān)詞Y時，所述相似度為間接關(guān)系相似度，分別采用以下公式計算:
SimY (K, Y) =SimF (K, F) X SimD (F, Y) 或者
SimY (K, Y) =SimF (K, F) X Simff (F，Y)。
10.一種基于敘詞表的信息檢索裝置，包括: 敘詞規(guī)范化單元:根據(jù)敘詞表，對用戶輸入的檢索詞進(jìn)行規(guī)范化，獲得規(guī)范化檢索詞K ；網(wǎng)頁抓取單元:利用所述敘詞規(guī)范化單元得到的規(guī)范化檢索詞K，利用通用搜索引擎以規(guī)范化檢索詞K為檢索詞進(jìn)行檢索，對前若干個結(jié)果的網(wǎng)址進(jìn)行分析，提取出網(wǎng)頁中的要素信息，所述要素信息包括網(wǎng)頁中的URL、標(biāo)題、正文、摘要、關(guān)鍵詞；查詢擴(kuò)展集合建立單元:利用相似度計算的方法求出敘詞表中K的相關(guān)詞的相似度，將相似度大于所設(shè)置的閾值的相關(guān)詞加入所述查詢擴(kuò)展集合N ；加權(quán)排序單元:將與K的相似度作為所述查詢擴(kuò)展集合N中相關(guān)詞的權(quán)值，利用所述相關(guān)詞對每個網(wǎng)頁中的所述要素信息進(jìn)行加權(quán)求和計算，得到每個網(wǎng)頁的權(quán)值，將所述網(wǎng)頁按照所述權(quán)值由從大到小排序，并返回`給用戶。
【文檔編號】G06F17/30GK103778262SQ201410080938
【公開日】2014年5月7日申請日期:2014年3月6日優(yōu)先權(quán)日:2014年3月6日
【發(fā)明者】李冬梅, 韓其琛, 方博申請人:北京林業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李冬梅;韓其琛;方博
技術(shù)所有人：北京林業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于敘詞表的信息檢索方法及裝置制造方法