亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種對海量url進行存儲和查詢方法

文檔序號:6345099閱讀:749來源:國知局
專利名稱:一種對海量url進行存儲和查詢方法
技術領域
本發(fā)明涉及海量數(shù)據(jù)結(jié)構(gòu)化存儲和查詢領域,特別涉及一種對海量結(jié)構(gòu)化 URL(Uniform Resource Locator)進行快速存儲和查詢的方法。
背景技術
隨著互聯(lián)網(wǎng)的普及,世界范圍內(nèi)的互聯(lián)網(wǎng)網(wǎng)站個數(shù)和互聯(lián)網(wǎng)的使用用戶都在不斷的增加,從而使得互聯(lián)網(wǎng)的數(shù)據(jù)在以指數(shù)級的速度增長,而和互聯(lián)網(wǎng)息息相關的便是網(wǎng)站的URL和相應的內(nèi)容。URL即統(tǒng)一資源定位符(Uniform Resource Locator),也被稱為網(wǎng)頁地址,是因特網(wǎng)上標準的資源的地址。它最初是由蒂姆·伯納斯-李發(fā)明用來作為萬維網(wǎng)的地址的,現(xiàn)在它已經(jīng)被萬維網(wǎng)聯(lián)盟編制為因特網(wǎng)標準RFC1738。URL是對可以從因特網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示。URL給資源的位置提供一種抽象的識別方法,并用這種方法給資源定位。只要能夠?qū)Y源定位,系統(tǒng)就可以對資源進行各種操作,如存取、更新、 替換和查找其屬性。URL相當于一個文件名在網(wǎng)絡范圍的擴展。因此URL是與因特網(wǎng)相連的機器上的任何可訪問對象的一個指針。URL的一般形式是<URL的訪問方式> //<主機 > 〈端口 >/<路徑>URL就像一個人的身份證號,它是一個互聯(lián)網(wǎng)頁面的唯一標識,同時也是一個互聯(lián)網(wǎng)頁面的唯一入口,無論是手動輸入URL和是通過其他連接轉(zhuǎn)入一個互聯(lián)網(wǎng)頁面,它們進入頁面是都需要這個全球唯一的URL。對于互聯(lián)網(wǎng)信息搜索應用領域,需要記錄下每個收集到的頁面信息,頁面信息包括頁面的URL和其他的頁面內(nèi)容。那么,面對如此大量的URL信息該如何快速的根據(jù)URL進行檢索呢?目前主要有以下兩種解決方法1.通過對URL建立全文索引進行檢索。2.通過對URL建立普通的樹形索引進行檢索。在面臨海量結(jié)構(gòu)化URL的查詢中,上述方法都不夠完善。第一種方法的優(yōu)點是數(shù)據(jù)加載速度快,查詢速度快,但是因為全文索引要把URL 進行拆分處理,所以不能對URL數(shù)據(jù)進行精確查詢和后模糊匹配查詢。例如如果要檢索 URL 等于"www. hostname, com/house/beijing/dongcheng. html” 的信息,在使用全文索引進行檢索的時候,會返回包含以上URL中的一個或是多個單詞的URL(如會返回包含 hostname或是bei jing的URL),而不能只返回完全匹配的URL,從而不能實現(xiàn)精確匹配的查詢。同樣的道理,對URL后模糊匹配全文索引也不能實現(xiàn)。第二種方法的優(yōu)點是支持精確和后模糊查詢,但查詢性能一般。因為要對很長的字符串建索引,建立索引的數(shù)據(jù)的行數(shù)多,字符串長度大,造成數(shù)據(jù)加載性能低下,不能滿足海量數(shù)據(jù)的處理要求
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種對URL數(shù)據(jù)進行存儲和查詢的方法,用以解決海量 URL的快速存儲和精確、后模糊匹配查詢。本發(fā)明的技術方案如下一種對海量URL進行存儲和查詢的方法,首先設計如下數(shù)據(jù)表(表1)用于存儲 URL信息表 權利要求
1. 一種對海量URL進行存儲和查詢的方法,首先將海量URL信息存入下述信息表中
2.如權利要求1所述的方法,其特征在于,信息表中除URL、MD5和keywords字段外,其他與URL關聯(lián)的信息包括URL的更新時間、URL的作者和URL對應的內(nèi)容摘要。
3.如權利要求1所述的方法,其特征在于,N= 10。
全文摘要
本發(fā)明公開了一種對海量URL進行存儲和查詢的方法,首先利用數(shù)據(jù)表存儲URL的MD5值和特征字符串,其中特征字符串是先將URL原始字符串開頭到“//WWW.”部分去除,再將剩余字符串按照“/”分割為多個字符串,取前N個分割后字符串的第一個和最后一個字符順序拼接組成(N為8~12的整數(shù));分別對數(shù)據(jù)表中的特征字符串和MD5值建立樹形索引。精確查詢時,計算待查詢URL的MD5值,查詢數(shù)據(jù)表中的MD5字段即可;后模糊匹配查詢時,根據(jù)待查詢URL的特征字符串,先查詢對數(shù)據(jù)表中的特征字符串字段,取特征字符串相符的URL值,再將待查詢URL與這些URL值進行實際匹配查詢。
文檔編號G06F17/30GK102411617SQ20111033820
公開日2012年4月11日 申請日期2011年10月31日 優(yōu)先權日2011年10月31日
發(fā)明者李建明 申請人:北京銳安科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1