一種位置敏感的簽名索引方法

文檔序號(hào)：6366625閱讀：434來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種位置敏感的簽名索引方法
技術(shù)領(lǐng)域：
本發(fā)明屬于信息檢索技術(shù)領(lǐng)域，特別地涉及ー種位置敏感的簽名索引方法。
背景技術(shù)：
信息爆炸時(shí)代，面對(duì)海量的數(shù)據(jù)，需要有效的信息獲取途徑來幫助用戶檢索，提取，整合信息。搜索引擎作為信息檢索中的重要工具，日益成為人們獲得信息的重要手段。搜索引擎的結(jié)構(gòu)可以分為爬蟲，數(shù)據(jù)處理，索引，匹配排序等部分，其中索引部分是構(gòu)建引擎數(shù)據(jù)模型的核心，索引的結(jié)構(gòu)，索引的大小，索引的更新效率等都直接影響索引引擎的質(zhì)量。索引結(jié)構(gòu)可以分為，正向索引結(jié)構(gòu)，倒排索引結(jié)構(gòu)，位圖索引結(jié)構(gòu)，簽名索引結(jié)構(gòu)
坐寸ο對(duì)于搜索引擎中常用的單個(gè)詞語的查詢，倒排索引結(jié)構(gòu)，位圖索引結(jié)構(gòu)和簽名索引結(jié)構(gòu)都能比較好的支持。但是位圖索引結(jié)構(gòu)需要的空間較大，不合適于大數(shù)據(jù)的檢索。倒排索引對(duì)于單詞查詢的AND和OR操作有較好支持，但是不能很好的支持單詞間詞序的一致性。簽名索引技木通常用于數(shù)字證書，用戶驗(yàn)證領(lǐng)域。簽名索引也可以用于信息的檢索，使用簽名方法對(duì)文本塊中的每個(gè)單詞進(jìn)行特征值的計(jì)算，文本塊的特征值簽名就是包含的所有單詞的特征值的并集。使用簽名索引對(duì)于單詞在文本塊中的匹配比倒排索引效率高，同時(shí)，簽名索引也支持單詞的AND操作，但是由于簽名索引機(jī)制，無法很好的支持單詞的OR操作，同時(shí)無法支持文本塊中的單詞詞序的正確性。因此，簽名索引具有如下缺點(diǎn)第一，對(duì)于文本塊中的詞序匹配，只能當(dāng)成詞袋中無序的單詞匹配進(jìn)行。第二，文本的簽名索引方法需要對(duì)文本中的所有單詞進(jìn)行索引，因此文本塊的長(zhǎng)度越大，所包含的單詞數(shù)量就越多，單詞之間的特征值重疊就越強(qiáng)，因此越容易出現(xiàn)誤配的情況。第三，對(duì)于不同長(zhǎng)度的文本塊的簽名索引，當(dāng)更新時(shí)需要對(duì)整個(gè)文本塊進(jìn)行重新計(jì)算，因此更新效率較低。故，針對(duì)目前現(xiàn)有技術(shù)中存在的上述缺陷，實(shí)有必要進(jìn)行研究，以提供一種方案，解決現(xiàn)有技術(shù)中存在的缺陷，避免造成索引更新效率低，單詞詞序無法保證的問題。

發(fā)明內(nèi)容
為解決上述問題，本發(fā)明的目的在于提供ー種位置敏感的簽名索引方法，用于提高索引更新效率，同時(shí)保證多個(gè)單詞查詢的詞序一致性。為實(shí)現(xiàn)上述目的，本發(fā)明的技術(shù)方案為ー種位置敏感的簽名索引方法，在計(jì)算文本位置敏感特征值吋，同時(shí)包含長(zhǎng)度為16比特的單詞特征值和單詞所在文本塊中的相對(duì)位置信息，使得位置敏感特征值不但可以判斷單詞是否包含在文本內(nèi)，還可以判斷單詞是否出現(xiàn)在特定的位置，具體包括如下步驟計(jì)算文本塊的位置敏感特征值；根據(jù)所述文本塊的位置敏感特征值進(jìn)行單詞匹配查詢。
優(yōu)選地，所述計(jì)算文本塊的位置敏感特征值進(jìn)ー步包括以下步驟將需要檢索的文本按照設(shè)定的固定長(zhǎng)度的單詞數(shù)量切割成不同的文本塊；將所述文本塊切割成單詞數(shù)組，去除字符串中包含的停用詞，同時(shí)對(duì)單個(gè)單詞進(jìn) 行詞根操作，按照單詞在文本塊的順序形成詞組；對(duì)于所述詞組中的每個(gè)單詞分別選擇MD4，MD5，RipeMD128三種哈希算法，分別產(chǎn)生第一哈希值，第二哈希值和第三哈希值，對(duì)所述第一哈希值，第二哈希值和第三哈希值通過合取函數(shù)進(jìn)行與操作，得到長(zhǎng)度為16比特的特征值；計(jì)算每個(gè)單詞在文本塊中出現(xiàn)的位置下標(biāo)信息，記錄所述位置下標(biāo)信息；將所述單詞特征值向右循環(huán)偏移所述位置下標(biāo)信息值，偏移后的第四哈希值為所述單詞的位置敏感特征值；計(jì)算文本塊中的所有單詞的位置敏感特征值，通過析取函數(shù)的或操作獲得文本塊的位置敏感特征值。優(yōu)選地，所述根據(jù)文本塊的位置敏感特征值進(jìn)行單詞匹配查詢進(jìn)一歩包括以下步驟提取出給定文本塊的文本塊的位置敏感特征值；對(duì)需要匹配的單詞使用MD4，MD5，RipeMD128哈希算法得到一長(zhǎng)度為16比特的單詞特征值，根據(jù)單詞所在文本塊中的相對(duì)位置偏移，得到所述單詞的位置敏感特征值；判斷所述單詞的位置敏感特征值是否包含在文本塊特征值中，如果包含，則單詞和文本塊查詢匹配，如果不包含，則文本塊不包含該單詞或單詞沒有出現(xiàn)在特定的位置上。與現(xiàn)有技術(shù)采用的簽名索引結(jié)構(gòu)相比，本發(fā)明可提高索引更新效率，同時(shí)保證多個(gè)單詞查詢的詞序一致性。

圖I為本發(fā)明實(shí)施例的位置敏感的簽名索引方法的流程圖；圖2為本發(fā)明實(shí)施例的位置敏感的簽名索引方法步驟SlO的流程圖；圖3為本發(fā)明實(shí)施例的位置敏感的簽名索引方法步驟S20的流程圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合附圖及實(shí)施例，對(duì)本發(fā)明進(jìn)行進(jìn)ー步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。相反，本發(fā)明涵蓋任何由權(quán)利要求定義的在本發(fā)明的精髄和范圍上做的替代、修改、等效方法以及方案。進(jìn)ー步，為了使公眾對(duì)本發(fā)明有更好的了解，在下文對(duì)本發(fā)明的細(xì)節(jié)描述中，詳盡描述了ー些特定的細(xì)節(jié)部分。對(duì)本領(lǐng)域技術(shù)人員來說沒有這些細(xì)節(jié)部分的描述也可以完全理解本發(fā)明。參見圖1，所是為本發(fā)明實(shí)施例的ー種位置敏感的簽名索引方法流程圖，將單詞特征值和單詞在句子中的相對(duì)位置編織在一起，使得簽名特征值不但可以判斷單詞是否包含在文本內(nèi)，還可以判斷單詞是否出現(xiàn)在特定的位置，具體包括如下步驟
S10，計(jì)算文本塊的位置敏感特征值；S20，根據(jù)文本塊的位置敏感特征值進(jìn)行單詞匹配查詢。具體地，SlO進(jìn)ー步包括以下步驟S101，將需要檢索的文本按照設(shè)定的固定長(zhǎng)度的單詞數(shù)量分割成不同的文本塊；對(duì)于需要檢索的文本，通過固定長(zhǎng)度的單詞數(shù)量分割成不同的文本塊。該步驟的把文章分成同等單詞數(shù)量的片段，在文章作小范圍更新時(shí)，只需要對(duì)相應(yīng)的文本塊片段進(jìn)行位置敏感簽名算法的重計(jì)算，其它部分可以保持不變，提高了索引更新的效率。S102，對(duì)指定文本塊切割成單詞數(shù)組，去除字符串中包含的停用詞，同時(shí)對(duì)單詞進(jìn)行詞根操作，按照單詞在文本塊的順序形成詞組；具體的詞組形式為[單詞1，單詞2，單詞3，...，單詞N]。
S103，對(duì)于詞組中的每個(gè)單詞分別選擇MD4，MD5，RipeMD128三種哈希算法，產(chǎn)生第一哈希值，第二哈希值和第三哈希值，對(duì)所述第一哈希值，第二哈希值和第三哈希值通過合取函數(shù)進(jìn)行與操作，得到長(zhǎng)度為16比特的單詞特征值；即，F(xiàn)(word) = Fmd4 (word) Π Fmd5 (word) Π FKipeMD128 (word),其中 F腿(word)為第一哈希值，F(xiàn)md5(word)為第二哈希值，F(xiàn)EipeMD128(word)為第三哈希值，F(xiàn)(word)為16比特的特征值。以上第一哈希值，第二哈希值和第三哈希值都為定長(zhǎng)特征值，優(yōu)點(diǎn)在于部分更新索引時(shí)，可以根據(jù)定長(zhǎng)的特性直接定位到相應(yīng)的文本塊特征值所在位置進(jìn)行更新操作。S104，計(jì)算每個(gè)單詞在文本塊中出現(xiàn)的位置下標(biāo)信息，記錄所述位置下標(biāo)信息；計(jì)算每個(gè)單詞在文本塊中的位置下標(biāo)信息P，記錄P值。S105，將長(zhǎng)度為16比特的單詞特征值向右循環(huán)偏移所述位置下標(biāo)信息值，偏移后的第四哈希值為單詞的位置敏感特征值；例如特征值為10010001單詞在句子的第2位，即位置下標(biāo)信息值為2，那么需要向右循環(huán)偏移2位，得到第四哈希值為位置敏感特征值，位置敏感特征值為01100100。單詞的位置敏感特征值不但包括了單詞特征信息，還通過偏移包括了單詞的位置信息，相同單詞在不同位置上的特征值不同。S106，計(jì)算文本塊中的所有單詞的位置敏感特征值，通過析取函數(shù)的或操作獲得文本塊的位置敏感特征值。對(duì)于在步驟SlOl中的文本塊分割成的單詞數(shù)組[單詞1，單詞2，單詞3，...，單詞N]的位置敏感特征值分別為ド1，F(xiàn)w2, ...，F(xiàn) ，則整個(gè)句子的特征值Fp =Fwl U Fw2 U . . . U Fwn,由于F長(zhǎng)度為16比特，析取操作以后Fp長(zhǎng)度還是16比特。Fp就是該文本塊的位置敏感簽名特征值。具體地，S20進(jìn)ー步包括以下步驟S201，提取出給定文本塊的位置敏感特征值Fp ；S202，對(duì)需要匹配的單詞使用MD4，MD5，RipeMD128哈希算法得到一長(zhǎng)度為16比特的單詞特征值，根據(jù)單詞所在文本塊中的相對(duì)位置偏移，得到單詞的位置敏感特征值Fw ；S203，判斷所述單詞的位置敏感特征值是否包含在文本塊特征值中，如果包含，則單詞和文本塊查詢匹配，如果不包含，則文本塊不包含該單詞或單詞沒有出現(xiàn)在特定的位置上?？捎霉紽p U Fw = Fp表示，其中Fp是指文本塊的位置敏感簽名特征值，F(xiàn)w是指查詢單詞的位置敏感簽名特征值，把Fp和Fw做ニ進(jìn)制的或操作，得到的值如果和Fp相同，則表示Fw包含在Fp中，也就是單詞包含在文本的特定位置中。根據(jù)以上技術(shù)方案，可提高索引更新效率，同時(shí)保證多個(gè)單詞查詢的詞序一致性。
以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.ー種位置敏感的簽名索引方法，其特征在于，在計(jì)算文本的位置敏感特征值時(shí)，同時(shí)包含長(zhǎng)度為16比特的單詞特征值和單詞所在文本塊中的相對(duì)位置信息，使得位置敏感特征值不但可以判斷單詞是否包含在文本內(nèi)，還可以判斷單詞是否出現(xiàn)在特定的位置，具體包括如下步驟計(jì)算文本塊的位置敏感特征值；根據(jù)所述位置敏感特征值進(jìn)行單詞匹配查詢。
2.根據(jù)權(quán)利要求I所述的位置敏感的簽名索引方法，其特征在于，所述計(jì)算文本的位置敏感特征值進(jìn)ー步包括以下步驟將需要檢索的文本按照設(shè)定的固定長(zhǎng)度的單詞數(shù)量切割成不同的文本塊；將所述文本塊切割成單詞數(shù)組，去除字符串中包含的停用詞，同時(shí)對(duì)單個(gè)單詞進(jìn)行詞根操作，按照單詞在文本塊的順序形成詞組；對(duì)于所述詞組中的每個(gè)單詞分別選擇MD4，MD5，RipeMD128三種哈希算法，分別產(chǎn)生第ー哈希值，第二哈希值和第三哈希值，對(duì)所述第一哈希值，第二哈希值和第三哈希值通過合取函數(shù)進(jìn)行與操作，得到長(zhǎng)度為16比特的單詞特征值；計(jì)算每個(gè)單詞在文本塊中出現(xiàn)的位置下標(biāo)信息，記錄所述位置下標(biāo)信息；將所述單詞特征值向右循環(huán)偏移所述位置下標(biāo)信息值，偏移后的第四哈希值為所述單詞的位置敏感特征值；計(jì)算文本塊中的所有單詞的位置敏感特征值，通過析取函數(shù)的或操作獲得文本塊的位置敏感特征值。
3.根據(jù)權(quán)利要求I所述的位置敏感的簽名索引方法，其特征在于，根據(jù)所述文本塊的位置敏感特征值進(jìn)行單詞匹配查詢進(jìn)一歩包括以下步驟提取出給定文本塊的文本塊的位置敏感特征值；對(duì)需要匹配的單詞使用MD4，MD5，RipeMD128哈希算法得到一長(zhǎng)度為16比特的單詞特征值，根據(jù)單詞所在文本塊中的相對(duì)位置偏移，得到所述單詞的位置敏感特征值；判斷所述單詞的位置敏感特征值是否包含在文本塊特征值中，如果包含，則單詞和文本塊查詢匹配，如果不包含，則文本塊不包含該單詞或單詞沒有出現(xiàn)在特定的位置上。
全文摘要
本發(fā)明實(shí)施例公開了一種位置敏感的簽名索引方法，在計(jì)算文本位置敏感特征值時(shí)，同時(shí)包含長(zhǎng)度為16比特的單詞特征值和單詞所在文本塊中的相對(duì)位置信息，使得位置敏感特征值不但可以判斷單詞是否包含在文本內(nèi)，還可以判斷單詞是否出現(xiàn)在特定的位置，具體包括如下步驟計(jì)算文本的位置敏感特征值；根據(jù)所述文本的位置敏感特征值進(jìn)行單詞匹配查詢。本發(fā)明用于提高索引更新效率，同時(shí)保證多個(gè)單詞查詢的詞序一致性。
文檔編號(hào)G06F17/30GK102663011SQ20121007461
公開日2012年9月12日申請(qǐng)日期2012年3月20日優(yōu)先權(quán)日2012年3月20日
發(fā)明者吳明暉, 應(yīng)晶, 張紅喜, 金蒼宏, 陳天洲申請(qǐng)人:浙江大學(xué)城市學(xué)院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳明暉;金蒼宏;應(yīng)晶;陳天洲;張紅喜
技術(shù)所有人：浙江大學(xué)城市學(xué)院
我是此專利的發(fā)明人

上一篇：電子裝置的制作方法
上一篇：一種廣告的點(diǎn)擊率預(yù)測(cè)方法及系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種位置敏感的簽名索引方法