大量url數(shù)據(jù)任意字段索引及檢索方法
【專利摘要】本發(fā)明公開了一種大量url數(shù)據(jù)任意字段索引及檢索方法,在建立索引時(shí),包括以下步驟:反轉(zhuǎn)url;按設(shè)定的切分長(zhǎng)度對(duì)url進(jìn)行切分成關(guān)鍵字;建立倒排索引表;在進(jìn)行索引時(shí),包括以下步驟:反轉(zhuǎn)作為檢索關(guān)鍵詞的url片段;按設(shè)定的切分長(zhǎng)度對(duì)檢索url片段進(jìn)行切分作為檢索用的關(guān)鍵字;在倒排索引表中分別用切分后的檢索關(guān)鍵字進(jìn)行查找;查找結(jié)果的交集指向的url為檢索到的url。本發(fā)明對(duì)大量的url數(shù)據(jù)的檢索可以獲得較高的效率。
【專利說(shuō)明】大量url數(shù)據(jù)任意字段索引及檢索方法[【技術(shù)領(lǐng)域】][0001]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)地址,尤其涉及一種大量url數(shù)據(jù)任意字段索引及檢索方法。[【背景技術(shù)】][0002]傳統(tǒng)的文本信息檢索主要使用分詞與倒排索引技術(shù),但是傳統(tǒng)的切詞方法并不能 滿足url (Uniform Resource Locator,統(tǒng)一資源定位符)任意字段匹配檢索的需求。傳統(tǒng) 的字符串匹配技術(shù)都只是針對(duì)少量的文本數(shù)據(jù),對(duì)于大量url數(shù)據(jù)并不適合,在數(shù)據(jù)量比 較大(GB級(jí)以上)的情況下,其檢索效率不能滿足用戶需求。[
【發(fā)明內(nèi)容】
][0003]本發(fā)明要解決的技術(shù)問(wèn)題是提供一種在數(shù)據(jù)量比較大的情況下,檢索效率較高的 大量url數(shù)據(jù)任意字段索引及檢索方法。[0004]為了解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案是,一種大量url數(shù)據(jù)任意字段 索引及檢索方法,在建立索引時(shí),包括以下步驟:[0005]101)反轉(zhuǎn) url;[0006]102)按設(shè)定的切分長(zhǎng)度對(duì)url進(jìn)行切分成關(guān)鍵字;[0007]103)建立倒排索引表;[0008]在進(jìn)行索引時(shí),包括以下步驟:[0009]104)反轉(zhuǎn)作為檢索關(guān)鍵詞的url片段;[0010]105)按設(shè)定的切分長(zhǎng)度對(duì)檢索url片段進(jìn)行切分作為檢索用的關(guān)鍵字;[0011]106)在倒排索引表中分別用切分后的檢索關(guān)鍵字進(jìn)行查找;[0012]107)查找結(jié)果的交集指向的url為檢索到的url。[0013]以上所述的大量url數(shù)據(jù)任意字段索引及檢索方法,[0014]201)在步驟101之后,步驟102之前,用分隔符對(duì)url進(jìn)行切分;[0015]202)在步驟104之后,步驟105之前,用分隔符對(duì)檢索url片段進(jìn)行切分。[0016]以上所述的大量url數(shù)據(jù)任意字段索引及檢索方法,[0017]301)在步驟101之后,步驟102之前,對(duì)url數(shù)據(jù)進(jìn)行壓縮;并建立基礎(chǔ)數(shù)據(jù)表和 一對(duì)多的轉(zhuǎn)換表;在基礎(chǔ)數(shù)據(jù)表中將同樣的url數(shù)據(jù)列為一條,并建立與之對(duì)應(yīng)的ID ;在轉(zhuǎn) 換表中列出與新建ID對(duì)應(yīng)的所有url數(shù)據(jù)的編號(hào)。[0018]以上所述的大量url數(shù)據(jù)任意字段索引及檢索方法,所述的倒排索引表即是一個(gè) K-V結(jié)構(gòu)的記錄集合,其中K是檢索關(guān)鍵字,V即是對(duì)應(yīng)的記錄編號(hào)集合;倒排索引表即是以 檢索關(guān)鍵字為鍵有序存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)。[0019]以上所述的大量url數(shù)據(jù)任意字段索引及檢索方法,對(duì)url或url片段進(jìn)行切分 時(shí),以設(shè)定的切分長(zhǎng)度向后切分,最后剩余長(zhǎng)度如果不足設(shè)定的切分長(zhǎng)度時(shí),則按設(shè)定的切 分長(zhǎng)度從后向前取字符作為最后的關(guān)鍵字,全部關(guān)鍵字的長(zhǎng)度等于設(shè)定的切分長(zhǎng)度。[0020]以上所述的大量url數(shù)據(jù)任意字段索引及檢索方法,設(shè)定的切分長(zhǎng)度為20。[0021]以上所述的大量url數(shù)據(jù)任意字段索引及檢索方法,所述分隔符是“? ”和/或“ P,,& O[0022]本發(fā)明的索引及檢索方法對(duì)大量的url數(shù)據(jù)可以獲得較高的檢索效率。[【專利附圖】
【附圖說(shuō)明】][0023]下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。[0024]圖1是本發(fā)明實(shí)施例倒排索引建立的流程圖。[0025]圖2是本發(fā)明實(shí)施例使用倒排索引表執(zhí)行檢索的流程圖。[【具體實(shí)施方式】][0026](I)逐個(gè)字符切詞:[0027]為了支持任意字符子串的快速匹配檢索,必須對(duì)url進(jìn)行逐個(gè)字符的細(xì)致切分,并使用切分后的url片段建立倒排索引,解決任意字符子串匹配檢索的問(wèn)題。[0028]不限定長(zhǎng)度的逐個(gè)字符切分即是對(duì)字符串一個(gè)一個(gè)字符的向后滑動(dòng)切去子串[0029]如abcdef切分如下:[0030]abcdef[0031]bcdef[0032]cdef[0033]def[0034]ef[0035]最后切分到只有兩個(gè)字符,之所以不切分到只有一個(gè)字符,是因?yàn)榍蟹殖鰜?lái)的子串都是將來(lái)建立索引所有的關(guān)鍵字,單個(gè)字符作為檢索關(guān)鍵字在實(shí)際的應(yīng)用中沒有意義。[0036]對(duì)于WWW.baidu.com,則切分結(jié)果如下:[0037]www.baidu.com ww.baidu.com w.baidu.com.baidu.com baidu.com aidu.com idu.com du.com
【權(quán)利要求】
1.一種大量url數(shù)據(jù)任意字段索引及檢索方法,其特征在于,在建立索引時(shí),包括以下 步驟:101)反轉(zhuǎn)url ;102)按設(shè)定的切分長(zhǎng)度對(duì)url進(jìn)行切分成關(guān)鍵字;103)建立倒排索引表;在進(jìn)行索引時(shí),包括以下步驟:104)反轉(zhuǎn)作為檢索關(guān)鍵詞的url片段;105)按設(shè)定的切分長(zhǎng)度對(duì)檢索url片段進(jìn)行切分作為檢索用的關(guān)鍵字;106)在倒排索引表中分別用切分后的檢索關(guān)鍵字進(jìn)行查找;107)查找結(jié)果的交集指向的url為檢索到的url。
2.根據(jù)權(quán)利要求1所述的大量url數(shù)據(jù)任意字段索引及檢索方法,其特征在于,201)在步驟101之后,步驟102之前,用分隔符對(duì)url進(jìn)行切分;202)在步驟104之后,步驟105之前,用分隔符對(duì)檢索url片段進(jìn)行切分。
3.根據(jù)權(quán)利要求1所述的大量url數(shù)據(jù)任意字段索引及檢索方法,其特征在于,301)在步驟101之后,步驟102之前,對(duì)url數(shù)據(jù)進(jìn)行壓縮;并建立基礎(chǔ)數(shù)據(jù)表和一對(duì)多的轉(zhuǎn)換表;在基礎(chǔ)數(shù)據(jù)表中將同樣的url數(shù)據(jù)列為一條,并建立與之對(duì)應(yīng)的ID ;在轉(zhuǎn)換表 中列出與新建ID對(duì)應(yīng)的所有url數(shù)據(jù)的編號(hào)。
4.根據(jù)權(quán)利要求1所述的大量url數(shù)據(jù)任意字段索引及檢索方法,其特征在于,所述的 倒排索引表即是一個(gè)K-V結(jié)構(gòu)的記錄集合,其中K是檢索關(guān)鍵字,V即是對(duì)應(yīng)的記錄編號(hào)集 合;倒排索引表即是以檢索關(guān)鍵字為鍵有序存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)。
5.根據(jù)權(quán)利要求1所述的大量url數(shù)據(jù)任意字段索引及檢索方法,其特征在于,對(duì)url 或url片段進(jìn)行切分時(shí),以設(shè)定的切分長(zhǎng)度向后切分,最后剩余長(zhǎng)度如果不足設(shè)定的切分 長(zhǎng)度時(shí),則按設(shè)定的切分長(zhǎng)度從后向前取字符作為最后的關(guān)鍵字,全部關(guān)鍵字的長(zhǎng)度等于 設(shè)定的切分長(zhǎng)度。
6.根據(jù)權(quán)利要求1所述的大量url數(shù)據(jù)任意字段索引及檢索方法,其特征在于,設(shè)定的 切分長(zhǎng)度為20。
7.根據(jù)權(quán)利要求2所述的大量url數(shù)據(jù)任意字段索引及檢索方法,其特征在于,所述分 隔符是“? ”和/或“&”。
【文檔編號(hào)】G06F17/30GK103605704SQ201310554903
【公開日】2014年2月26日 申請(qǐng)日期:2013年11月8日 優(yōu)先權(quán)日:2013年11月8日
【發(fā)明者】毛睿, 岳磅, 陸敏華 申請(qǐng)人:深圳大學(xué)