專利名稱:一種位置敏感的簽名索引方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信息檢索技術(shù)領(lǐng)域,特別地涉及ー種位置敏感的簽名索引方法。
背景技術(shù):
信息爆炸時(shí)代,面對(duì)海量的數(shù)據(jù),需要有效的信息獲取途徑來幫助用戶檢索,提取,整合信息。搜索引擎作為信息檢索中的重要工具,日益成為人們獲得信息的重要手段。搜索引擎的結(jié)構(gòu)可以分為爬蟲,數(shù)據(jù)處 理,索引,匹配排序等部分,其中索引部分是構(gòu)建引擎數(shù)據(jù)模型的核心,索引的結(jié)構(gòu),索引的大小,索引的更新效率等都直接影響索引引擎的質(zhì)量。索引結(jié)構(gòu)可以分為,正向索引結(jié)構(gòu),倒排索引結(jié)構(gòu),位圖索引結(jié)構(gòu),簽名索引結(jié)構(gòu)
坐寸ο對(duì)于搜索引擎中常用的單個(gè)詞語的查詢,倒排索引結(jié)構(gòu),位圖索引結(jié)構(gòu)和簽名索引結(jié)構(gòu)都能比較好的支持。但是位圖索引結(jié)構(gòu)需要的空間較大,不合適于大數(shù)據(jù)的檢索。倒排索引對(duì)于單詞查詢的AND和OR操作有較好支持,但是不能很好的支持單詞間詞序的一致性。簽名索引技木通常用于數(shù)字證書,用戶驗(yàn)證領(lǐng)域。簽名索引也可以用于信息的檢索,使用簽名方法對(duì)文本塊中的每個(gè)單詞進(jìn)行特征值的計(jì)算,文本塊的特征值簽名就是包含的所有單詞的特征值的并集。使用簽名索引對(duì)于單詞在文本塊中的匹配比倒排索引效率高,同時(shí),簽名索引也支持單詞的AND操作,但是由于簽名索引機(jī)制,無法很好的支持單詞的OR操作,同時(shí)無法支持文本塊中的單詞詞序的正確性。因此,簽名索引具有如下缺點(diǎn)第一,對(duì)于文本塊中的詞序匹配,只能當(dāng)成詞袋中無序的單詞匹配進(jìn)行。第二,文本的簽名索引方法需要對(duì)文本中的所有單詞進(jìn)行索引,因此文本塊的長(zhǎng)度越大,所包含的單詞數(shù)量就越多,單詞之間的特征值重疊就越強(qiáng),因此越容易出現(xiàn)誤配的情況。第三,對(duì)于不同長(zhǎng)度的文本塊的簽名索引,當(dāng)更新時(shí)需要對(duì)整個(gè)文本塊進(jìn)行重新計(jì)算,因此更新效率較低。故,針對(duì)目前現(xiàn)有技術(shù)中存在的上述缺陷,實(shí)有必要進(jìn)行研究,以提供一種方案,解決現(xiàn)有技術(shù)中存在的缺陷,避免造成索引更新效率低,單詞詞序無法保證的問題。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明的目的在于提供ー種位置敏感的簽名索引方法,用于提高索引更新效率,同時(shí)保證多個(gè)單詞查詢的詞序一致性。為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案為ー種位置敏感的簽名索引方法,在計(jì)算文本位置敏感特征值吋,同時(shí)包含長(zhǎng)度為16比特的單詞特征值和單詞所在文本塊中的相對(duì)位置信息,使得位置敏感特征值不但可以判斷單詞是否包含在文本內(nèi),還可以判斷單詞是否出現(xiàn)在特定的位置,具體包括如下步驟計(jì)算文本塊的位置敏感特征值;根據(jù)所述文本塊的位置敏感特征值進(jìn)行單詞匹配查詢。
優(yōu)選地,所述計(jì)算文本塊的位置敏感特征值進(jìn)ー步包括以下步驟將需要檢索的文本按照設(shè)定的固定長(zhǎng)度的單詞數(shù)量切割成不同的文本塊;將所述文本塊切割成單詞數(shù)組,去除字符串中包含的停用詞,同時(shí)對(duì)單個(gè)單詞進(jìn) 行詞根操作,按照單詞在文本塊的順序形成詞組;對(duì)于所述詞組中的每個(gè)單詞分別選擇MD4,MD5,RipeMD128三種哈希算法,分別產(chǎn)生第一哈希值,第二哈希值和第三哈希值,對(duì)所述第一哈希值,第二哈希值和第三哈希值通過合取函數(shù)進(jìn)行與操作,得到長(zhǎng)度為16比特的特征值;計(jì)算每個(gè)單詞在文本塊中出現(xiàn)的位置下標(biāo)信息,記錄所述位置下標(biāo)信息;將所述單詞特征值向右循環(huán)偏移所述位置下標(biāo)信息值,偏移后的第四哈希值為所述單詞的位置敏感特征值;計(jì)算文本塊中的所有單詞的位置敏感特征值,通過析取函數(shù)的或操作獲得文本塊的位置敏感特征值。優(yōu)選地,所述根據(jù)文本塊的位置敏感特征值進(jìn)行單詞匹配查詢進(jìn)一歩包括以下步驟提取出給定文本塊的文本塊的位置敏感特征值;對(duì)需要匹配的單詞使用MD4,MD5,RipeMD128哈希算法得到一長(zhǎng)度為16比特的單詞特征值,根據(jù)單詞所在文本塊中的相對(duì)位置偏移,得到所述單詞的位置敏感特征值;判斷所述單詞的位置敏感特征值是否包含在文本塊特征值中,如果包含,則單詞和文本塊查詢匹配,如果不包含,則文本塊不包含該單詞或單詞沒有出現(xiàn)在特定的位置上。與現(xiàn)有技術(shù)采用的簽名索引結(jié)構(gòu)相比,本發(fā)明可提高索引更新效率,同時(shí)保證多個(gè)單詞查詢的詞序一致性。
圖I為本發(fā)明實(shí)施例的位置敏感的簽名索引方法的流程圖;圖2為本發(fā)明實(shí)施例的位置敏感的簽名索引方法步驟SlO的流程圖;圖3為本發(fā)明實(shí)施例的位置敏感的簽名索引方法步驟S20的流程圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)ー步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。相反,本發(fā)明涵蓋任何由權(quán)利要求定義的在本發(fā)明的精髄和范圍上做的替代、修改、等效方法以及方案。進(jìn)ー步,為了使公眾對(duì)本發(fā)明有更好的了解,在下文對(duì)本發(fā)明的細(xì)節(jié)描述中,詳盡描述了ー些特定的細(xì)節(jié)部分。對(duì)本領(lǐng)域技術(shù)人員來說沒有這些細(xì)節(jié)部分的描述也可以完全理解本發(fā)明。參見圖1,所是為本發(fā)明實(shí)施例的ー種位置敏感的簽名索引方法流程圖,將單詞特征值和單詞在句子中的相對(duì)位置編織在一起,使得簽名特征值不但可以判斷單詞是否包含在文本內(nèi),還可以判斷單詞是否出現(xiàn)在特定的位置,具體包括如下步驟
S10,計(jì)算文本塊的位置敏感特征值;S20,根據(jù)文本塊的位置敏感特征值進(jìn)行單詞匹配查詢。具體地,SlO進(jìn)ー步包括以下步驟S101,將需要檢索的文本按照設(shè)定的固定長(zhǎng)度的單詞數(shù)量分割成不同的文本塊;對(duì)于需要檢索的文本,通過固定長(zhǎng)度的單詞數(shù)量分割成不同的文本塊。該步驟的把文章分成同等單詞數(shù)量的片段,在文章作小范圍更新時(shí),只需要對(duì)相應(yīng)的文本塊片段進(jìn)行位置敏感簽名算法的重計(jì)算,其它部分可以保持不變,提高了索引更新的效率。S102,對(duì)指定文本塊切割成單詞數(shù)組,去除字符串中包含的停用詞,同時(shí)對(duì)單詞進(jìn)行詞根操作,按照單詞在文本塊的順序形成詞組;具體的詞組形式為[單詞1,單詞2,單詞3,...,單詞N]。
S103,對(duì)于詞組中的每個(gè)單詞分別選擇MD4,MD5,RipeMD128三種哈希算法,產(chǎn)生第一哈希值,第二哈希值和第三哈希值,對(duì)所述第一哈希值,第二哈希值和第三哈希值通過合取函數(shù)進(jìn)行與操作,得到長(zhǎng)度為16比特的單詞特征值;即,F(xiàn)(word) = Fmd4 (word) Π Fmd5 (word) Π FKipeMD128 (word),其中 F腿(word)為第一哈希值,F(xiàn)md5(word)為第二哈希值,F(xiàn)EipeMD128(word)為第三哈希值,F(xiàn)(word)為16比特的特征值。以上第一哈希值,第二哈希值和第三哈希值都為定長(zhǎng)特征值,優(yōu)點(diǎn)在于部分更新索引時(shí),可以根據(jù)定長(zhǎng)的特性直接定位到相應(yīng)的文本塊特征值所在位置進(jìn)行更新操作。S104,計(jì)算每個(gè)單詞在文本塊中出現(xiàn)的位置下標(biāo)信息,記錄所述位置下標(biāo)信息;計(jì)算每個(gè)單詞在文本塊中的位置下標(biāo)信息P,記錄P值。S105,將長(zhǎng)度為16比特的單詞特征值向右循環(huán)偏移所述位置下標(biāo)信息值,偏移后的第四哈希值為單詞的位置敏感特征值;例如特征值為10010001單詞在句子的第2位,即位置下標(biāo)信息值為2,那么需要向右循環(huán)偏移2位,得到第四哈希值為位置敏感特征值,位置敏感特征值為01100100。單詞的位置敏感特征值不但包括了單詞特征信息,還通過偏移包括了單詞的位置信息,相同單詞在不同位置上的特征值不同。S106,計(jì)算文本塊中的所有單詞的位置敏感特征值,通過析取函數(shù)的或操作獲得文本塊的位置敏感特征值。對(duì)于在步驟SlOl中的文本塊分割成的單詞數(shù)組[單詞1,單詞2,單詞3,...,單詞N]的位置敏感特征值分別為ド1,F(xiàn)w2, ...,F(xiàn) ,則整個(gè)句子的特征值Fp =Fwl U Fw2 U . . . U Fwn,由于F長(zhǎng)度為16比特,析取操作以后Fp長(zhǎng)度還是16比特。Fp就是該文本塊的位置敏感簽名特征值。具體地,S20進(jìn)ー步包括以下步驟S201,提取出給定文本塊的位置敏感特征值Fp ;S202,對(duì)需要匹配的單詞使用MD4,MD5,RipeMD128哈希算法得到一長(zhǎng)度為16比特的單詞特征值,根據(jù)單詞所在文本塊中的相對(duì)位置偏移,得到單詞的位置敏感特征值Fw ;S203,判斷所述單詞的位置敏感特征值是否包含在文本塊特征值中,如果包含,則單詞和文本塊查詢匹配,如果不包含,則文本塊不包含該單詞或單詞沒有出現(xiàn)在特定的位置上??捎霉紽p U Fw = Fp表示,其中Fp是指文本塊的位置敏感簽名特征值,F(xiàn)w是指查詢單詞的位置敏感簽名特征值,把Fp和Fw做ニ進(jìn)制的或操作,得到的值如果和Fp相同,則表示Fw包含在Fp中,也就是單詞包含在文本的特定位置中。根據(jù)以上技術(shù)方案,可提高索引更新效率,同時(shí)保證多個(gè)單詞查詢的詞序一致性。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.ー種位置敏感的簽名索引方法,其特征在于,在計(jì)算文本的位置敏感特征值時(shí),同時(shí)包含長(zhǎng)度為16比特的單詞特征值和單詞所在文本塊中的相對(duì)位置信息,使得位置敏感特征值不但可以判斷單詞是否包含在文本內(nèi),還可以判斷單詞是否出現(xiàn)在特定的位置,具體包括如下步驟 計(jì)算文本塊的位置敏感特征值; 根據(jù)所述位置敏感特征值進(jìn)行單詞匹配查詢。
2.根據(jù)權(quán)利要求I所述的位置敏感的簽名索引方法,其特征在于,所述計(jì)算文本的位置敏感特征值進(jìn)ー步包括以下步驟 將需要檢索的文本按照設(shè)定的固定長(zhǎng)度的單詞數(shù)量切割成不同的文本塊; 將所述文本塊切割成單詞數(shù)組,去除字符串中包含的停用詞,同時(shí)對(duì)單個(gè)單詞進(jìn)行詞根操作,按照單詞在文本塊的順序形成詞組; 對(duì)于所述詞組中的每個(gè)單詞分別選擇MD4,MD5,RipeMD128三種哈希算法,分別產(chǎn)生第ー哈希值,第二哈希值和第三哈希值,對(duì)所述第一哈希值,第二哈希值和第三哈希值通過合取函數(shù)進(jìn)行與操作,得到長(zhǎng)度為16比特的單詞特征值; 計(jì)算每個(gè)單詞在文本塊中出現(xiàn)的位置下標(biāo)信息,記錄所述位置下標(biāo)信息; 將所述單詞特征值向右循環(huán)偏移所述位置下標(biāo)信息值,偏移后的第四哈希值為所述單詞的位置敏感特征值; 計(jì)算文本塊中的所有單詞的位置敏感特征值,通過析取函數(shù)的或操作獲得文本塊的位置敏感特征值。
3.根據(jù)權(quán)利要求I所述的位置敏感的簽名索引方法,其特征在于,根據(jù)所述文本塊的位置敏感特征值進(jìn)行單詞匹配查詢進(jìn)一歩包括以下步驟 提取出給定文本塊的文本塊的位置敏感特征值; 對(duì)需要匹配的單詞使用MD4,MD5,RipeMD128哈希算法得到一長(zhǎng)度為16比特的單詞特征值,根據(jù)單詞所在文本塊中的相對(duì)位置偏移,得到所述單詞的位置敏感特征值; 判斷所述單詞的位置敏感特征值是否包含在文本塊特征值中, 如果包含,則單詞和文本塊查詢匹配, 如果不包含,則文本塊不包含該單詞或單詞沒有出現(xiàn)在特定的位置上。
全文摘要
本發(fā)明實(shí)施例公開了一種位置敏感的簽名索引方法,在計(jì)算文本位置敏感特征值時(shí),同時(shí)包含長(zhǎng)度為16比特的單詞特征值和單詞所在文本塊中的相對(duì)位置信息,使得位置敏感特征值不但可以判斷單詞是否包含在文本內(nèi),還可以判斷單詞是否出現(xiàn)在特定的位置,具體包括如下步驟計(jì)算文本的位置敏感特征值;根據(jù)所述文本的位置敏感特征值進(jìn)行單詞匹配查詢。本發(fā)明用于提高索引更新效率,同時(shí)保證多個(gè)單詞查詢的詞序一致性。
文檔編號(hào)G06F17/30GK102663011SQ20121007461
公開日2012年9月12日 申請(qǐng)日期2012年3月20日 優(yōu)先權(quán)日2012年3月20日
發(fā)明者吳明暉, 應(yīng)晶, 張紅喜, 金蒼宏, 陳天洲 申請(qǐng)人:浙江大學(xué)城市學(xué)院