一種實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板的生成方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板的生成方法和裝置。該生成方法包括:獲取網(wǎng)頁的網(wǎng)頁數(shù)據(jù);對網(wǎng)頁數(shù)據(jù)生成哈希值標(biāo)簽;查找與哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板;計算查找到的網(wǎng)頁模板與網(wǎng)頁之間的增量編碼數(shù)據(jù);根據(jù)計算得到的增量編碼數(shù)據(jù)確定是否生成新的網(wǎng)頁模板。通過本發(fā)明,解決了有技術(shù)中在實現(xiàn)增量傳輸生成網(wǎng)頁模板時系統(tǒng)開銷比較大的問題,達到了節(jié)約系統(tǒng)開銷的效果。
【專利說明】一種實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板的生成方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及瀏覽器領(lǐng)域,具體而言,涉及一種實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板的生成方法和裝置。
【背景技術(shù)】
[0002]對于C/S架構(gòu)的手機瀏覽器,當(dāng)用戶使用瀏覽器瀏覽網(wǎng)頁時,瀏覽器通過在本地緩存網(wǎng)頁模板,服務(wù)端只需要傳輸網(wǎng)頁的增量編碼數(shù)據(jù),從而達到節(jié)約網(wǎng)絡(luò)數(shù)據(jù)傳輸提高瀏覽速度的效果。
[0003]在實際應(yīng)用中,并不是所有的網(wǎng)頁都利用緩存的網(wǎng)頁模板,對于是否利用緩存的網(wǎng)頁模板,往往決定于模板與網(wǎng)頁之間的增量編碼數(shù)據(jù)的大小,如果模板與網(wǎng)頁之間的增量編碼數(shù)據(jù)小,則利用緩存的網(wǎng)頁模板,如果模板與網(wǎng)頁之間的增量編碼數(shù)據(jù)不夠小,則不利用緩存的網(wǎng)頁模板,創(chuàng)建新的網(wǎng)頁模板。在現(xiàn)有技術(shù)中,在確定是否需要生成新的網(wǎng)頁模板時,如果按照增量編碼數(shù)據(jù)的大小進行判斷,則需要計算每個網(wǎng)頁模板對于網(wǎng)頁的增量編碼數(shù)據(jù),如果緩存有大量網(wǎng)頁模板,會導(dǎo)致系統(tǒng)開銷比較大。
[0004]針對現(xiàn)有技術(shù)中在實現(xiàn)增量傳輸生成網(wǎng)頁模板時系統(tǒng)開銷比較大的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的主要目的在于提供一種實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板的生成方法和裝置,以解決現(xiàn)有技術(shù)中在實現(xiàn)增量傳輸生成網(wǎng)頁模板時系統(tǒng)開銷比較大的問題。
[0006]為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板的生成方法。該生成方法包括:獲取網(wǎng)頁的網(wǎng)頁數(shù)據(jù);對網(wǎng)頁數(shù)據(jù)生成哈希值標(biāo)簽;查找與哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板;計算查找到的網(wǎng)頁模板與網(wǎng)頁之間的增量編碼數(shù)據(jù);根據(jù)計算得到的增量編碼數(shù)據(jù)確定是否生成新的網(wǎng)頁模板。
[0007]進一步地,對網(wǎng)頁數(shù)據(jù)生成哈希值標(biāo)簽包括:根據(jù)網(wǎng)頁數(shù)據(jù)生成哈希值,按照預(yù)設(shè)規(guī)則對哈希值進行排列,根據(jù)域名和對排列后的哈希值取前綴得到多個哈希值標(biāo)簽;查找與哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板包括:根據(jù)哈希值標(biāo)簽查找模板表,得到與多個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板。
[0008]進一步地,根據(jù)計算得到的增量編碼數(shù)據(jù)確定是否生成新的網(wǎng)頁模板包括:比較查找到的網(wǎng)頁模板數(shù)據(jù)和網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁增量編碼數(shù)據(jù);判斷網(wǎng)頁增量編碼數(shù)據(jù)是否大于設(shè)定閾值;如果網(wǎng)頁增量編碼數(shù)據(jù)小于等于設(shè)定閾值,則基于增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板傳輸增量編碼數(shù)據(jù);如果網(wǎng)頁增量編碼數(shù)據(jù)大于設(shè)定閾值,則生成新的網(wǎng)頁模板。
[0009]進一步地,根據(jù)計算得到的增量編碼數(shù)據(jù)確定是否生成新的網(wǎng)頁模板包括:比較查找到的網(wǎng)頁模板數(shù)據(jù)和網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁增量編碼數(shù)據(jù);計算網(wǎng)頁增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值;判斷網(wǎng)頁的增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值是否小于設(shè)定比值閾值;如果網(wǎng)頁增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值小于設(shè)定比值閾值,將網(wǎng)頁加入到增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板覆蓋的網(wǎng)頁集中;如果網(wǎng)頁增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值大于等于設(shè)定比值閾值,生成新的網(wǎng)頁模板。
[0010]進一步地,在查找與哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板之后,該方法還包括:判斷是否存在兩個哈希值標(biāo)簽對應(yīng)相同的網(wǎng)頁模板;如果兩個哈希值標(biāo)簽對應(yīng)相同的網(wǎng)頁模板,則獲取兩個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁,并且將兩個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁加入到相同的網(wǎng)頁模板覆蓋的網(wǎng)頁集中。
[0011]為了實現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板的生成裝置。該生成裝置包括:獲取單元,用于獲取網(wǎng)頁的網(wǎng)頁數(shù)據(jù);標(biāo)簽單元,用于對網(wǎng)頁數(shù)據(jù)生成哈希值標(biāo)簽;查找單元,用于查找與哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板;計算單元,用于計算查找到的網(wǎng)頁模板與網(wǎng)頁之間的增量編碼數(shù)據(jù);生成單元,用于根據(jù)計算得到的增量編碼數(shù)據(jù)確定是否生成新的網(wǎng)頁模板。
[0012]進一步地,標(biāo)簽單元包括:第一生成模塊,用于根據(jù)網(wǎng)頁數(shù)據(jù)生成哈希值;排列模塊,用于按照預(yù)設(shè)規(guī)則對哈希值進行排列;標(biāo)簽?zāi)K,用于根據(jù)域名和對排列后的哈希值取前綴得到多個哈希值標(biāo)簽,其中,查找單元用于根據(jù)哈希值標(biāo)簽查找模板表,得到多個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板。
[0013]進一步地,生成單元包括:比較模塊,用于比較查找到的網(wǎng)頁模板數(shù)據(jù)和網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁增量編碼數(shù)據(jù);第一判斷模塊,用于判斷網(wǎng)頁增量編碼數(shù)據(jù)是否大于設(shè)定閾值;第一傳輸模塊,用于在網(wǎng)頁增量編碼數(shù)據(jù)小于等于設(shè)定閾值時,基于增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板傳輸增量編碼數(shù)據(jù);第二生成模塊,用于在網(wǎng)頁增量編碼數(shù)據(jù)大于設(shè)定閾值時,生成新的網(wǎng)頁模板。
[0014]進一步地,生成單元包括:比較模塊,用于比較查找到的網(wǎng)頁模板數(shù)據(jù)和網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁增量編碼數(shù)據(jù);計算模塊,用于計算網(wǎng)頁增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值;第二判斷模塊,用于判斷網(wǎng)頁的增量編碼數(shù)據(jù)與網(wǎng)頁編碼數(shù)據(jù)的比值是否小于設(shè)定比值閾值;第二傳輸模塊,用于在網(wǎng)頁增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值小于設(shè)定比值閾值時,將網(wǎng)頁加入到增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板覆蓋的網(wǎng)頁集中;第三生成模塊,用于在多個增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值大于等于設(shè)定比值閾值時,生成新的網(wǎng)頁模板。
[0015]進一步地,該裝置還包括:判斷單元,用于判斷是否存在兩個哈希值標(biāo)簽對應(yīng)相同的網(wǎng)頁模板;合并單元,用于在兩個哈希值標(biāo)簽對應(yīng)相同的網(wǎng)頁模板時,獲取兩個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁,并且將兩個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁加入到相同的網(wǎng)頁模板覆蓋的網(wǎng)頁集中。
[0016]通過本發(fā)明,采用網(wǎng)頁數(shù)據(jù)的哈希值生成固定個數(shù)的哈希值標(biāo)簽,根據(jù)生成的哈希值標(biāo)簽查找網(wǎng)頁模板,僅需要對查找到的網(wǎng)頁模板進行增量編碼數(shù)據(jù)大小的判斷,無需對所有網(wǎng)頁模板均進行計算,解決了有技術(shù)中在實現(xiàn)增量傳輸生成網(wǎng)頁模板時系統(tǒng)開銷比較大的問題,進而達到了節(jié)約系統(tǒng)開銷的效果。
【專利附圖】
【附圖說明】
[0017]構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0018]圖1是根據(jù)本發(fā)明第一實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的示意圖;
[0019]圖2是根據(jù)本發(fā)明第二實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的示意圖;
[0020]圖3是根據(jù)本發(fā)明第三實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的示意圖;
[0021]圖4是根據(jù)本發(fā)明第四實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的示意圖;
[0022]圖5是根據(jù)本發(fā)明第五實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的示意圖;
[0023]圖6是根據(jù)本發(fā)明實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法的流程圖;
[0024]圖7是根據(jù)本發(fā)明實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法中生成哈希值標(biāo)簽的流程圖;
[0025]圖8是根據(jù)本發(fā)明實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法中確定是否生成網(wǎng)頁模板方法的流程圖;
[0026]圖9是根據(jù)本發(fā)明實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法中確定是否生成網(wǎng)頁模板的優(yōu)選方法流程圖;以及
[0027]圖10是根據(jù)本發(fā)明第二實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法的流程圖。
【具體實施方式】
[0028]需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本發(fā)明。
[0029]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護的范圍。
[0030]需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實施例例如能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0031]本發(fā)明實施例提供了一種用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置。該網(wǎng)頁模板生成裝置用于生成網(wǎng)頁模板以實現(xiàn)對網(wǎng)頁內(nèi)容的增量進行傳輸。
[0032]圖1是根據(jù)本發(fā)明第一實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的示意圖。如圖所示,該實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置包括獲取單元10、標(biāo)簽單元20、查找單元30、計算單元40和生成單元50。[0033]獲取單元10用于獲取網(wǎng)頁的網(wǎng)頁數(shù)據(jù)。獲取單元10可以獲取任意一個網(wǎng)頁的網(wǎng)頁數(shù)據(jù),獲取的網(wǎng)頁數(shù)據(jù)可以包括獲取網(wǎng)頁內(nèi)所有內(nèi)容的數(shù)據(jù),例如網(wǎng)頁內(nèi)新聞數(shù)據(jù)、網(wǎng)頁內(nèi)的廣告數(shù)據(jù)、網(wǎng)頁內(nèi)的鏈接數(shù)據(jù)等。
[0034]獲取網(wǎng)頁數(shù)據(jù)可以首先獲取網(wǎng)頁地址,然后再根據(jù)獲取到的網(wǎng)頁地址從網(wǎng)頁數(shù)據(jù)表中獲取相應(yīng)的網(wǎng)頁數(shù)據(jù)。網(wǎng)頁數(shù)據(jù)表中可以存儲網(wǎng)頁數(shù)據(jù)的字段部分和描述部分。例如,存儲的字段是“網(wǎng)址”,對應(yīng)的描述是“網(wǎng)頁地址去除協(xié)議部分,去除錨部分,按域翻轉(zhuǎn)域名部分”。例如:http://www.sina.com.cn/a/b.php?ac=b#ab,對應(yīng)的描述部分應(yīng)該是:cn.com.sina.www/a/b.php?ac=b。
[0035]標(biāo)簽單元20用于對網(wǎng)頁數(shù)據(jù)生成哈希值標(biāo)簽。一個網(wǎng)頁數(shù)據(jù)可以生成一個哈希值,生成的哈希值可以是64位的哈希值,也可以是128位的哈希值,可以根據(jù)系統(tǒng)需要確定生成合適位數(shù)的哈希值。例如,在64位哈希值就能滿足要求的系統(tǒng)中,生成128位的哈希值反而會增加系統(tǒng)的負擔(dān),因此在哈希值的生成位數(shù)要合適。
[0036]標(biāo)簽單元20能夠通過網(wǎng)頁數(shù)據(jù)生成的哈希值生成多個哈希值標(biāo)簽,每個哈希值標(biāo)簽對應(yīng)一個網(wǎng)頁模板,該網(wǎng)頁模板覆蓋一個或多個網(wǎng)頁。
[0037]查找單元30用于查找與哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板。網(wǎng)頁模板可以是一個網(wǎng)頁,一個網(wǎng)頁可以作為另外一個網(wǎng)頁的模板,一個網(wǎng)頁模板對應(yīng)多個哈希值標(biāo)簽,可以通過其中任何一個哈希值標(biāo)簽進行查找。網(wǎng)頁模板可以是保存在緩存中的網(wǎng)頁模板,查找單元30從緩存中查找與哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板。
[0038]計算單元40用于計算查找到的網(wǎng)頁模板與網(wǎng)頁之間的增量編碼數(shù)據(jù)。網(wǎng)頁模板與網(wǎng)頁之間的增量編碼數(shù)據(jù)可以是網(wǎng)頁數(shù)據(jù)與網(wǎng)頁模板數(shù)據(jù)之間不同的數(shù)據(jù)部分。如果查找的網(wǎng)頁模板有多個,計算多個網(wǎng)頁模板與網(wǎng)頁之間的增量編碼數(shù)據(jù)。
[0039]生成單元50用于根據(jù)計算得到的增量編碼數(shù)據(jù)確定是否生成新的網(wǎng)頁模板。如果計算得到的增量編碼數(shù)據(jù) 大于設(shè)定的閾值,則生成新的網(wǎng)頁模板;如果計算得到的增量編碼數(shù)據(jù)小于等于設(shè)定的閾值,則直接調(diào)用緩存的網(wǎng)頁模板。
[0040]由上述描述可以知道,能夠通過哈希值標(biāo)簽查找對應(yīng)的網(wǎng)頁模板,并計算查找得到網(wǎng)頁模板與網(wǎng)頁之間的增量編碼數(shù)據(jù),確定直接調(diào)用緩存中的網(wǎng)頁模板或者生成新的網(wǎng)頁模板,從而減少了網(wǎng)頁模板與網(wǎng)頁進行比較的次數(shù),節(jié)約了系統(tǒng)開銷。
[0041]圖2是根據(jù)本發(fā)明第二實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的示意圖。圖2所示實施例的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置可以作為圖1所示實施例的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的優(yōu)選實施方式。該優(yōu)選實施方式的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置包括獲取單元10、標(biāo)簽單元20、查找單元30、計算單元40和生成單元50,其中,標(biāo)簽單元20包括第一生成模塊201、排列模塊202和標(biāo)簽?zāi)K203。
[0042]圖2所示實施例中的獲取單元10、查找單元30、計算單元40和生成單元50與圖1所示實施例中的獲取單元10、查找單元30、計算單元40和生成單元50的功能相同,在此不做贅述。
[0043]第一生成模塊201用于根據(jù)網(wǎng)頁數(shù)據(jù)生成哈希值。根據(jù)網(wǎng)頁數(shù)據(jù)計算哈希值可以是simhash值,其中,simhash是局部敏感哈希算法中的一種。下面以生成一個64位的simhash值為例對生成哈希值的方法進行詳細說明。
[0044]首先,將一個64維的整數(shù)向量V[i]初始化為O。初始化為O可以是將64維的整數(shù)向量v[i]的模設(shè)置為O。
[0045]其次,從網(wǎng)頁的每個字節(jié)位置處切取長度為η個字節(jié)的子串,作為網(wǎng)頁的特征集。網(wǎng)頁的特征集中的特征的個數(shù)可以是整個網(wǎng)頁的字節(jié)的個數(shù)。特征集中的每個特征是一個η個字節(jié)的字串。η可以取64,也可以是32,也可以是其他數(shù)值比如20。
[0046]再次,對特征集中的每個特征,使用一個字符串哈希函數(shù)產(chǎn)生一個64位的二進制整數(shù),對該64位的二進制整數(shù)的每個位置1:如果值為1,則使V[i]加1,否則使V[i]減I。
[0047]最后,創(chuàng)建一個新的64位的整數(shù),新創(chuàng)建的64位的整數(shù)是將64位整數(shù)的每個位與上一步得到的向量一一對應(yīng),也就是對這個新創(chuàng)建的整數(shù)的每個位置i,上步驟中的向量的V[i]不小于O時置為1,否則置為0,由此得到64位的二進制數(shù)表示的整數(shù),這個整數(shù)作為 simhash 值。
[0048]排列模塊202用于按照預(yù)設(shè)規(guī)則對哈希值進行按位隨機排列。例如,可以對64位哈希值進行32次隨機排列。
[0049]需要說明的是,排列的次數(shù)可以根據(jù)實際系統(tǒng)需要而進行確定,并不限于本發(fā)明實施例提供的次數(shù)。本發(fā)明實施例提供的排列次數(shù)僅僅是為了詳細闡述本發(fā)明的實施方案,不做窮舉和限定。
[0050]標(biāo)簽?zāi)K203用于根據(jù)域名和排列后的哈希值得到多個哈希值標(biāo)簽。對哈希值進行排列之后,得到排列后的哈希值,取排列后的哈希值前固定長度個位與域名一起作為哈希值標(biāo)簽。例如,對64位的哈希值按位做32次的隨機排列之后,得到32個排列后的哈希值??梢匀∨帕泻蟮墓V档那?6位和網(wǎng)頁的域名作為哈希值標(biāo)簽,其形式可以為“域名/排列后哈希值的前16位”。那么,對64位的哈希值按位做32次的隨機排列之后,得到32個哈希值標(biāo)簽。
[0051]需要指出的是,這里的取排列后的哈希值的前16位也可以是取32或者8位,這里只是為了更清楚的闡述本發(fā)明的方案,并不對本發(fā)明方案做不當(dāng)?shù)南薅ā?br>
[0052]查找單元40用于根據(jù)哈希值標(biāo)簽查找模板表,得到與多個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板。與多個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板可以是一個,也可以是多個。查找單元可以進行N次的查找,查找次數(shù)不超過排列的次數(shù)。例如,對哈希值進行了 32次的隨機排列之后,最多進行32次的查找。
[0053]通過網(wǎng)頁模板生成哈希值,并根據(jù)哈希值得到哈希值標(biāo)簽,利用哈希值標(biāo)簽查找網(wǎng)頁模板可以大大減少查詢網(wǎng)頁模板的次數(shù),增加了系統(tǒng)處理數(shù)據(jù)的速度,并且提高了查找網(wǎng)頁模板的準(zhǔn)確性。
[0054]圖3是根據(jù)本發(fā)明第三實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的示意圖。圖3所示實施例的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置可以作為圖1所示實施例的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的優(yōu)選實施方式。該優(yōu)選實施方式的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置包括獲取單元10、標(biāo)簽單元20、查找單元30、計算單元40和生成單元50,其中,生成單兀50包括:比較模塊501、第一判斷模塊503、第一傳輸模塊505和第二生成模塊 507。
[0055]圖3所示實施例的獲取單元10、標(biāo)簽單元20、查找單元30和計算單元40與圖1所示實施例的獲取單元10、標(biāo)簽單元20、查找單元30和計算單元40功能相同,在此不做贅述。[0056]比較模塊501用于比較查找到的網(wǎng)頁模板數(shù)據(jù)和所述網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁增量編碼數(shù)據(jù)。查找到的網(wǎng)頁模板可以是一個網(wǎng)頁模板,也可以是多個網(wǎng)頁模板,在查找到的網(wǎng)頁模板為多個模板時,可以比較多個模板中的每個模板與網(wǎng)頁數(shù)據(jù)之間的增量編碼數(shù)據(jù)??梢酝ㄟ^逐個比較的方式得到網(wǎng)頁增量編碼數(shù)據(jù),也可以同時分別比較多個模板中的每個模板與網(wǎng)頁數(shù)據(jù)之間的增量編碼數(shù)據(jù)。
[0057]第一判斷模塊503用于判斷網(wǎng)頁增量編碼數(shù)據(jù)是否大于設(shè)定閾值。如果增量編碼數(shù)據(jù)較大,也就是網(wǎng)頁與網(wǎng)頁模板的相似度越低,在增量編碼數(shù)據(jù)大于閾值的時候,查找到的網(wǎng)頁模板就不能滿足網(wǎng)頁的要求,不能作為網(wǎng)頁的模板,因此需要對增量編碼數(shù)據(jù)與閾值進行比較。
[0058]第一傳輸模塊505用于在網(wǎng)頁增量編碼數(shù)據(jù)小于等于設(shè)定閾值時,基于增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板傳輸增量編碼數(shù)據(jù)。
[0059]如果增量編碼數(shù)據(jù)小于等于設(shè)定閾值,那么網(wǎng)頁與查找到的網(wǎng)頁模板的相似度較高,查找到的網(wǎng)頁模板能夠滿足網(wǎng)頁的要求,則可以將查找到的網(wǎng)頁模板存儲在該網(wǎng)頁模板覆蓋的網(wǎng)頁集中,也可以基于查找到的網(wǎng)頁模板傳輸增量編碼數(shù)據(jù)。
[0060]第二生成模塊507用于在網(wǎng)頁增量編碼數(shù)據(jù)大于設(shè)定閾值時,生成新的網(wǎng)頁模板。如果增量編碼數(shù)據(jù)大于設(shè)定閾值,那么網(wǎng)頁與查找到的網(wǎng)頁模板的相似度無法達到網(wǎng)頁的要求,那么生成新的網(wǎng)頁模板。生成新的網(wǎng)頁模板可以是將獲取到的網(wǎng)頁作為新的網(wǎng)頁模板。
[0061]通過直接比較增量編碼數(shù)據(jù)與設(shè)定閾值的大小,確定直接調(diào)用緩存的網(wǎng)頁模板或者生成新的網(wǎng)頁模板,能夠更加方便和準(zhǔn)確的判斷調(diào)用或生成網(wǎng)頁模板。
[0062]圖4是根據(jù)本發(fā)明第四實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的示意圖。圖4所示實施例的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置可以作為圖1所示實施例的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的優(yōu)選實施方式。該優(yōu)選實施方式的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置包括獲取單元10、標(biāo)簽單元20、查找單元30、計算單元40和生成單元50,其中,生成單元50包括:比較模塊501、計算模塊502、第二判斷模塊504、第二傳輸模塊506和第三生成模塊508。
[0063]圖4所示實施例的獲取單元10、標(biāo)簽單元20、查找單元30和計算單元40與圖1所示實施例的獲取單元10、標(biāo)簽單元20、查找單元30和計算單元40功能相同,在此不做贅述。
[0064]比較模塊501比較查找到的網(wǎng)頁模板數(shù)據(jù)和所述網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁增量編碼數(shù)據(jù)。查找到的網(wǎng)頁模板可以是一個網(wǎng)頁模板,也可以是多個網(wǎng)頁模板,在查找到的網(wǎng)頁模板為多個模板時,可以比較多個模板中的每個模板與網(wǎng)頁數(shù)據(jù)之間的增量編碼數(shù)據(jù)??梢酝ㄟ^逐個比較的方式得到網(wǎng)頁增量編碼數(shù)據(jù),也可以同時分別比較多個模板中的每個模板與網(wǎng)頁數(shù)據(jù)之間的增量編碼數(shù)據(jù)。
[0065]計算模塊502用于計算網(wǎng)頁增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值??梢杂迷隽烤幋a數(shù)據(jù)比上網(wǎng)頁數(shù)據(jù),那么增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值越小,則網(wǎng)頁模板與網(wǎng)頁的相似度越高,增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值越大,則網(wǎng)頁模板與網(wǎng)頁的相似度越低。
[0066]第二判斷模塊504用于判斷網(wǎng)頁的增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值是否小于設(shè)定比值閾值??梢酝ㄟ^判斷網(wǎng)頁增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值是否小于設(shè)定比值閾值,確定網(wǎng)頁與網(wǎng)頁模板的相似度是否滿足網(wǎng)頁的需要。
[0067]第二傳輸模塊506用于在網(wǎng)頁增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值小于設(shè)定比值閾值時,將網(wǎng)頁加入到增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板覆蓋的網(wǎng)頁集中。如果增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值小于設(shè)定比值閾值,那么網(wǎng)頁與網(wǎng)頁模板的相似度能夠滿足網(wǎng)頁的要求,可以將該網(wǎng)頁加入到增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板覆蓋的網(wǎng)頁集中,再次使用該網(wǎng)頁模板時可以直接調(diào)用該網(wǎng)頁模板,并且基于調(diào)用的網(wǎng)頁模板對增量編碼數(shù)據(jù)進行傳輸,無需再次生成。
[0068]第三生成模塊508用于在多個增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值大于設(shè)定比值閾值時,生成新的網(wǎng)頁模板。如果增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值大于等于設(shè)定比值閾值,那么網(wǎng)頁與網(wǎng)頁模板的相似度無法滿足網(wǎng)頁的要求,可以生成新的網(wǎng)頁模板,也可以用網(wǎng)頁直接作為新的網(wǎng)頁模板。
[0069]通過增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值與設(shè)定比值閾值相比較能夠更加準(zhǔn)確的判斷網(wǎng)頁與網(wǎng)頁模板的相似度,該設(shè)定比值閾值可以適用于包含有不同數(shù)據(jù)量的網(wǎng)頁,而不必根據(jù)不同網(wǎng)頁的數(shù)據(jù)量設(shè)置不同的增量編碼數(shù)據(jù)的閾值,提高了基于網(wǎng)頁模板傳輸網(wǎng)頁增量文件方法的適用性,并且更加方便。
[0070]圖5是根據(jù)本發(fā)明第五實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的示意圖。圖5所示實施例的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置可以作為圖1所示實施例的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置的優(yōu)選實施方式。該優(yōu)選實施方式的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置包括獲取單元10、標(biāo)簽單元20、查找單元30、計算單元40、生成單元50、判斷單元60和合并單元70。
[0071]圖5所示實施例的獲取單元10、標(biāo)簽單元20、查找單元30、計算單元40和生成單元50與圖1所示實施例的獲取單元10、標(biāo)簽單元20、查找單元30、計算單元40和生成單元50功能相同,在此不做贅述。
[0072]判斷單元60用于判斷是否存在兩個哈希值標(biāo)簽對應(yīng)相同的網(wǎng)頁模板。一個哈希值標(biāo)簽可以對應(yīng)一個或多個網(wǎng)頁,如果兩個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板相同,則兩個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁也對應(yīng)一個相同的網(wǎng)頁模板。
[0073]合并單元70用于在兩個哈希值標(biāo)簽對應(yīng)相同的網(wǎng)頁模板時,獲取兩個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁,并且將兩個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁加入到相同的網(wǎng)頁模板覆蓋的網(wǎng)頁集中。一個哈希值標(biāo)簽可以對應(yīng)多個網(wǎng)頁,多個網(wǎng)頁可以對應(yīng)多個網(wǎng)頁模板,在網(wǎng)頁模板表中多個網(wǎng)頁可能存在于不同的網(wǎng)頁模板之下。如果兩個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板相同,則在網(wǎng)頁模板表中將兩個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁加入到相同的網(wǎng)頁模板所覆蓋的網(wǎng)頁集中。
[0074]通過網(wǎng)頁的合并以及網(wǎng)頁模板表的更新,能夠?qū)⒖梢岳孟嗤W(wǎng)頁模板的網(wǎng)頁歸屬在同一網(wǎng)頁模板所覆蓋的網(wǎng)頁集中,再次查詢網(wǎng)頁模板表的時候能夠更方便的查詢到需要的網(wǎng)頁模板,并且直接調(diào)用該網(wǎng)頁模板,避免再次生成而帶來的系統(tǒng)開銷。
[0075]本發(fā)明實施例還提供了 一種用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法。本發(fā)明實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法可以通過本發(fā)明實施例所提供的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置來執(zhí)行,本發(fā)明實施例的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置也可以用于執(zhí)行本發(fā)明實施例所提供的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法。
[0076]以下根據(jù)附圖對用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法進行詳細闡述。需要說明的是,下述步驟以及在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0077]圖6是根據(jù)本發(fā)明實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法的流程圖。以下結(jié)合該流程圖對本實施例的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法進行說明。如圖所示,該方法包括如下步驟:
[0078]步驟S101,獲取網(wǎng)頁的網(wǎng)頁數(shù)據(jù)。獲取網(wǎng)頁的網(wǎng)頁數(shù)據(jù)可以獲取任意一個網(wǎng)頁的網(wǎng)頁數(shù)據(jù),獲取的網(wǎng)頁數(shù)據(jù)可以包括獲取網(wǎng)頁內(nèi)所有內(nèi)容的數(shù)據(jù),例如網(wǎng)頁內(nèi)新聞數(shù)據(jù)、網(wǎng)頁內(nèi)的廣告數(shù)據(jù)、網(wǎng)頁內(nèi)的鏈接數(shù)據(jù)等。
[0079]獲取網(wǎng)頁數(shù)據(jù)可以首先獲取網(wǎng)頁地址,然后再根據(jù)獲取到的網(wǎng)頁地址從網(wǎng)頁數(shù)據(jù)表中獲取相應(yīng)的網(wǎng)頁數(shù)據(jù)。網(wǎng)頁數(shù)據(jù)表中可以存儲網(wǎng)頁數(shù)據(jù)的字段部分和描述部分。例如,存儲的字段是“網(wǎng)址”,對應(yīng)的描述是“網(wǎng)頁地址去除協(xié)議部分,去除錨部分,按域翻轉(zhuǎn)域名部分”。例如:http://www.sina.com.cn/a/b.php?ac=b#ab,對應(yīng)的描述部分可以是:cn.com.sina.www/a/b.php?ac=b。
[0080]步驟S102,對網(wǎng)頁數(shù)據(jù)生成哈希值標(biāo)簽。一個網(wǎng)頁數(shù)據(jù)可以生成一個哈希值,生成的哈希值可以是64位的哈希值,也可以是128位的哈希值,可以根據(jù)系統(tǒng)需要確定生成合適位數(shù)的哈希值。例如,在64位哈希值就能滿足要求的系統(tǒng)中,生成128位的哈希值反而會增加系統(tǒng)的負擔(dān),因此這里生成是根據(jù)系統(tǒng)情況生成合適位數(shù)的哈希值。
[0081]通過網(wǎng)頁數(shù)據(jù)生成的哈希值生成哈希值標(biāo)簽,每個哈希值標(biāo)簽可以對應(yīng)一個網(wǎng)頁,也可以對應(yīng)多個網(wǎng)頁。
[0082]步驟S103,查找與哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板。網(wǎng)頁模板可以是一個網(wǎng)頁,一個網(wǎng)頁可以作為另外一個網(wǎng)頁的模板,一個哈希值標(biāo)簽對應(yīng)一個網(wǎng)頁模板。網(wǎng)頁模板可以是保存在緩存中的網(wǎng)頁模板,查找單元30從緩存中查找與哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板。
[0083]步驟S104,計算查找到的網(wǎng)頁模板與網(wǎng)頁之間的增量編碼數(shù)據(jù)。網(wǎng)頁模板與網(wǎng)頁之間的增量編碼數(shù)據(jù)可以是網(wǎng)頁數(shù)據(jù)與網(wǎng)頁模板數(shù)據(jù)之間不同的數(shù)據(jù)部分。如果查找的網(wǎng)頁模板有多個,計算多個網(wǎng)頁模板與網(wǎng)頁之間的增量編碼數(shù)據(jù)。
[0084]步驟S105,根據(jù)計算得到的增量編碼數(shù)據(jù)確定是否生成新的網(wǎng)頁模板。如果計算得到的增量編碼數(shù)據(jù)大于設(shè)定的閾值,則生成新的網(wǎng)頁模板;如果計算得到的增量編碼數(shù)據(jù)小于等于設(shè)定的閾值,則直接調(diào)用緩存的網(wǎng)頁模板。
[0085]由上述描述可以知道,能夠通過哈希值標(biāo)簽查找對應(yīng)的網(wǎng)頁模板,并計算查找得到網(wǎng)頁模板與網(wǎng)頁之間的增量編碼數(shù)據(jù),確定直接調(diào)用緩存中的網(wǎng)頁模板或者生成新的網(wǎng)頁模板,從而減少了網(wǎng)頁模板與網(wǎng)頁進行比較的次數(shù),節(jié)約了系統(tǒng)開銷。
[0086]圖7是根據(jù)本發(fā)明實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法中生成哈希值標(biāo)簽的流程圖。該方法包括如下步驟:
[0087]步驟S201,根據(jù)網(wǎng)頁數(shù)據(jù)生成哈希值。根據(jù)網(wǎng)頁數(shù)據(jù)計算哈希值可以是simhash值。下面以生成一個64為的simhash值為例對生成哈希值的方法進行詳細說明。
[0088]首先,將一個64維的整數(shù)向量V[i]初始化為O。初始化為0可以是將64維的整數(shù)向量v[i]的模設(shè)置為O。
[0089]其次,從網(wǎng)頁的每個字節(jié)位置處切取長度為n個字節(jié)的子串,作為網(wǎng)頁的特征集。網(wǎng)頁的特征集中的特征的個數(shù)可以是整個網(wǎng)頁的字節(jié)的個數(shù)。特征集中的每個特征是一個n個字節(jié)的字串。n可以取64,也可以是32,也可以是其他數(shù)值比如20。
[0090]再次,對特征集中的每個特征,使用一個字符串哈希函數(shù)產(chǎn)生一個64位的二進制整數(shù),對該64位的二進制整數(shù)的每個位置1:如果值為1,則使V[i]加1,否則使V[i]減I。
[0091]最后,創(chuàng)建一個新的64位的整數(shù),新創(chuàng)建的64位的整數(shù)是將64位整數(shù)的每個位與上一步得到的向量一一對應(yīng),也就是對這個新創(chuàng)建的整數(shù)的每個位置i,上步驟中的向量V[i]不小于0時置為1,否則置為0,由此得到64位的二進制數(shù)表示的整數(shù),這個整數(shù)作為simhash 值。
[0092]步驟S202,按照預(yù)設(shè)規(guī)則對哈希值進行按位隨機排列。例如,可以對64位哈希值進行32次隨機排列。
[0093]需要說明的是,這里的排列次數(shù)可以根據(jù)實際系統(tǒng)需要而進行確定,并不限于本發(fā)明實施例提供的次數(shù)。本發(fā)明實施例提供的排列次數(shù)僅僅是為了詳細闡述本發(fā)明的實施方案,不做窮舉和限定。
[0094]步驟S203,根據(jù)域名和排列后的哈希值得到多個哈希值標(biāo)簽。對哈希值進行排列之后,得到排列后的哈希值,取排列后的哈希值前固定長度個位與域名一起作為哈希值標(biāo)簽。例如,對64位的哈希值按位做32次的隨機排列之后,得到32個排列后的哈希值??梢匀∨帕泻蟮墓V档那?6位和網(wǎng)頁的域名作為哈希值標(biāo)簽,其形式可以為“域名/排列后哈希值的前16位”。那么,對64位的哈希值按位做32次的隨機排列之后,得到32個哈希值標(biāo)簽。
[0095]需要指出的是,這里的取排列后的哈希值的前16位也可以是取32或者8位,這里只是為了更清楚的闡述本發(fā)明的方案,并不對本發(fā)明方案做不當(dāng)?shù)南薅ā?br>
[0096]步驟S204,根據(jù)哈希值標(biāo)簽查找模板表,得到與多個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板。與多個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板可以是一個,也可以是多個。查找單元可以進行N次的查找,查找次數(shù)不超過排列的次數(shù)。例如,對哈希值進行了 32次的隨機排列之后,最多進行32次的查找。
[0097]通過網(wǎng)頁模板生成哈希值,并根據(jù)哈希值得到哈希值標(biāo)簽,利用哈希值標(biāo)簽查找網(wǎng)頁模板可以大大減少查詢網(wǎng)頁模板的次數(shù),增加了系統(tǒng)處理數(shù)據(jù)的速度,并且提高了查找網(wǎng)頁模板的準(zhǔn)確性。
[0098]圖8是根據(jù)本發(fā)明實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法中確定是否生成網(wǎng)頁模板方法的流程圖。該方法包括如下步驟:
[0099]步驟S301,比較查找到的網(wǎng)頁模板數(shù)據(jù)和網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁增量編碼數(shù)據(jù)。查找到的網(wǎng)頁模板可以是一個網(wǎng)頁模板,也可以是多個網(wǎng)頁模板,在查找到的網(wǎng)頁模板為多個網(wǎng)頁模板時,要比較多個模板中的每個模板與網(wǎng)頁的增量編碼數(shù)據(jù)。
[0100]步驟S302,判斷網(wǎng)頁增量編碼文件是否大于設(shè)定閾值。如果增量編碼數(shù)據(jù)較大,也就是網(wǎng)頁與網(wǎng)頁模板的相似度越低,在增量編碼數(shù)據(jù)大于閾值的時候,查找到的網(wǎng)頁模板就不能滿足網(wǎng)頁的要求,不能作為網(wǎng)頁的模板,因此需要對增量編碼數(shù)據(jù)與閾值進行比較。
[0101]步驟S303,如果多網(wǎng)頁增量編碼數(shù)據(jù)小于等于設(shè)定閾值,則基于增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板傳輸增量編碼數(shù)據(jù)。如果增量編碼數(shù)據(jù)小于等于設(shè)定閾值,那么網(wǎng)頁與查找到的網(wǎng)頁模板的相似度較高,查找到的網(wǎng)頁模板能夠滿足網(wǎng)頁的要求,則可以基于查找到的網(wǎng)頁模板傳輸增量編碼數(shù)據(jù)。
[0102]步驟S304,如果網(wǎng)頁增量編碼數(shù)據(jù)大于設(shè)定閾值,則生成新的網(wǎng)頁模板。如果增量編碼數(shù)據(jù)大于設(shè)定閾值,那么網(wǎng)頁與查找到的網(wǎng)頁模板的相似度無法達到網(wǎng)頁的要求,那么生成新的網(wǎng)頁模板。生成新的網(wǎng)頁模板可以是將獲取到的網(wǎng)頁作為新的網(wǎng)頁模板。
[0103]通過直接比較增量編碼數(shù)據(jù)與設(shè)定閾值的大小,確定直接調(diào)用緩存的網(wǎng)頁模板或者生成新的網(wǎng)頁模板,能夠更加方便和準(zhǔn)確的判斷調(diào)用或生成網(wǎng)頁模板。
[0104]圖9是根據(jù)本發(fā)明實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法中確定是否生成網(wǎng)頁模板的優(yōu)選方法流程圖。該方法包括如下步驟:
[0105]步驟S401,比較查找到的網(wǎng)頁模板數(shù)據(jù)和網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁增量編碼數(shù)據(jù)。查找到的網(wǎng)頁模板可以是一個網(wǎng)頁模板,也可以是多個網(wǎng)頁模板,在查找到的網(wǎng)頁模板為多個網(wǎng)頁模板時,要比較多個模板中的每個模板與網(wǎng)頁的增量編碼數(shù)據(jù)。
[0106]步驟S402,計算網(wǎng)頁增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值。可以用增量編碼數(shù)據(jù)比上網(wǎng)頁數(shù)據(jù),那么增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值越小,則網(wǎng)頁模板與網(wǎng)頁的相似度越高,增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值越大,則網(wǎng)頁模板與網(wǎng)頁的相似度越低。
[0107]步驟S403,判斷網(wǎng)頁的增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值是否小于設(shè)定比值閾值??梢酝ㄟ^判斷網(wǎng)頁增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值是否小于設(shè)定比值閾值,確定網(wǎng)頁與網(wǎng)頁模板的相似度是否滿足網(wǎng)頁的需要。
[0108]步驟S404,如果網(wǎng)頁增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值小于設(shè)定比值閾值,則將網(wǎng)頁加入到增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板覆蓋的網(wǎng)頁集中。如果增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值小于設(shè)定比值閾值,那么網(wǎng)頁與網(wǎng)頁模板的相似度能夠滿足網(wǎng)頁的要求,可以將網(wǎng)頁加入到增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板覆蓋的網(wǎng)頁集中,再次需要該網(wǎng)頁模板時可以直接調(diào)用該網(wǎng)頁模板,并且基于該網(wǎng)頁模板對增量編碼數(shù)據(jù)進行傳輸。
[0109]步驟S405,如果網(wǎng)頁增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值大于等于設(shè)定比值閾值,則生成新的網(wǎng)頁模板。如果增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值大于等于設(shè)定比值閾值,那么網(wǎng)頁與網(wǎng)頁模板的相似度無法滿足網(wǎng)頁的要求,可以生成新的網(wǎng)頁模板,也可以用網(wǎng)頁直接作為新的網(wǎng)頁模板。
[0110]通過增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值與設(shè)定比值閾值相比較能夠更加準(zhǔn)確的判斷網(wǎng)頁與網(wǎng)頁模板的相似度,該設(shè)定比值閾值可以適用于包含有不同數(shù)據(jù)量的網(wǎng)頁,而不必根據(jù)不同網(wǎng)頁的數(shù)據(jù)量設(shè)置不同的增量編碼數(shù)據(jù)的閾值,提高了基于網(wǎng)頁模板傳輸網(wǎng)頁增量文件方法的適用性,并且更加方便。
[0111]圖10是根據(jù)本發(fā)明第二實施例的用于實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法的流程圖。該方法包括如下步驟:
[0112]步驟S501,獲取網(wǎng)頁的網(wǎng)頁數(shù)據(jù)。獲取網(wǎng)頁的網(wǎng)頁數(shù)據(jù)可以獲取任意一個網(wǎng)頁的網(wǎng)頁數(shù)據(jù),獲取的網(wǎng)頁數(shù)據(jù)可以包括獲取網(wǎng)頁內(nèi)所有內(nèi)容的數(shù)據(jù)。
[0113]步驟S502,對網(wǎng)頁數(shù)據(jù)生成哈希值標(biāo)簽。一個網(wǎng)頁數(shù)據(jù)可以生成一個哈希值,生成的哈希值可以是64位的哈希值,也可以是128位的哈希值,可以根據(jù)系統(tǒng)需要確定生成合適位數(shù)的哈希值。
[0114]步驟S503,查找與哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板。網(wǎng)頁模板可以是一個網(wǎng)頁,一個網(wǎng)頁可以作為另外一個網(wǎng)頁的模板,與哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板可以是一個網(wǎng)頁模板,也可以是多個網(wǎng)頁模板。網(wǎng)頁模板可以是保存在緩存中的網(wǎng)頁模板,在需要網(wǎng)頁模板時可以從緩存中查找與哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板。
[0115]步驟S504,判斷是否存在兩個哈希值標(biāo)簽對應(yīng)相同的網(wǎng)頁模板。一個哈希值標(biāo)簽可以對應(yīng)多個網(wǎng)頁,如果兩個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板相同,則兩個哈希值標(biāo)簽對應(yīng)的多個網(wǎng)頁也對應(yīng)一個相同的網(wǎng)頁模板。
[0116]步驟S505,如果兩個哈希值標(biāo)簽對應(yīng)相同的網(wǎng)頁模板,則獲取兩個哈希值標(biāo)簽對應(yīng)的多個網(wǎng)頁,并且將兩個哈希值標(biāo)簽對應(yīng)的多個網(wǎng)頁加入到相同的網(wǎng)頁模板覆蓋的網(wǎng)頁集中。一個哈希值標(biāo)簽對應(yīng)多個網(wǎng)頁,多個網(wǎng)頁可能對應(yīng)多個網(wǎng)頁模板,在網(wǎng)頁模板表中歸屬于不同的網(wǎng)頁模板之下。如果兩個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板相同,則在網(wǎng)頁模板表中將兩個哈希值標(biāo)簽對應(yīng)的多個網(wǎng)頁歸屬于相同的網(wǎng)頁模板下。
[0117]通過將對應(yīng)相同網(wǎng)頁模板的網(wǎng)頁加入到該網(wǎng)頁模板覆蓋的網(wǎng)頁集中以及網(wǎng)頁模板表的更新,能夠?qū)⒖梢詫?yīng)相同網(wǎng)頁模板的網(wǎng)頁歸屬在同一網(wǎng)頁模板所覆蓋的網(wǎng)頁集中,再次查詢網(wǎng)頁模板表的時候能夠更方便快速的查詢到需要的網(wǎng)頁模板,并且直接調(diào)用該模板。
[0118]以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【權(quán)利要求】
1.一種實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法,其特征在于,包括: 獲取網(wǎng)頁的網(wǎng)頁數(shù)據(jù); 對所述網(wǎng)頁數(shù)據(jù)生成哈希值標(biāo)簽; 查找與所述哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板; 計算查找到的網(wǎng)頁模板與所述網(wǎng)頁之間的增量編碼數(shù)據(jù);以及 根據(jù)計算得到的增量編碼數(shù)據(jù)確定是否生成新的網(wǎng)頁模板。
2.根據(jù)權(quán)利要求1所述的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法,其特征在于, 對所述網(wǎng)頁數(shù)據(jù)生成哈希值標(biāo)簽包括:根據(jù)所述網(wǎng)頁數(shù)據(jù)生成哈希值,按照預(yù)設(shè)規(guī)則對所述哈希值進行排列,根據(jù)域名和對排列后的哈希值取前綴得到多個哈希值標(biāo)簽; 查找與所述哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板包括:根據(jù)所述哈希值標(biāo)簽查找模板表,得到與所述多個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板。
3.根據(jù)權(quán)利要求1所述的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法,其特征在于,根據(jù)計算得到的增量編碼數(shù)據(jù)確定是否生成新的網(wǎng)頁模板包括: 比較查找到的網(wǎng)頁模板數(shù)據(jù)和所述網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁增量編碼數(shù)據(jù); 判斷所述網(wǎng)頁增量編碼數(shù)據(jù)是否大于設(shè)定閾值; 如果所述網(wǎng)頁增量編碼數(shù)據(jù)小于等于設(shè)定閾值,則基于所述增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板傳輸增量編碼數(shù)據(jù); 如果所述網(wǎng)頁增量編碼數(shù)據(jù)大于設(shè)定閾值,則生成新的網(wǎng)頁模板。
4.根據(jù)權(quán)利要求1所述的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法,其特征在于,根據(jù)計算得到的增量編碼數(shù)據(jù)確定是否生成新的網(wǎng)頁模板包括: 比較查找到的網(wǎng)頁模板數(shù)據(jù)和所述網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁增量編碼數(shù)據(jù); 計算所述網(wǎng)頁增量編碼數(shù)據(jù)與所述網(wǎng)頁數(shù)據(jù)的比值; 判斷所述網(wǎng)頁的增量編碼數(shù)據(jù)與所述網(wǎng)頁數(shù)據(jù)的比值是否小于設(shè)定比值閾值; 如果所述網(wǎng)頁增量編碼數(shù)據(jù)與所述網(wǎng)頁數(shù)據(jù)的比值小于設(shè)定比值閾值,將所述網(wǎng)頁加入到所述增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板覆蓋的網(wǎng)頁集中; 如果所述網(wǎng)頁增量編碼數(shù)據(jù)與所述網(wǎng)頁數(shù)據(jù)的比值大于等于設(shè)定比值閾值,生成新的網(wǎng)頁模板。
5.根據(jù)權(quán)利要求1所述的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成方法,其特征在于,在查找與所述哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板之后,所述方法還包括: 判斷是否存在兩個所述哈希值標(biāo)簽對應(yīng)相同的網(wǎng)頁模板; 如果兩個所述哈希值標(biāo)簽對應(yīng)相同的網(wǎng)頁模板,則獲取兩個所述哈希值標(biāo)簽對應(yīng)的網(wǎng)頁,并且將兩個所述哈希值標(biāo)簽對應(yīng)的網(wǎng)頁加入到所述相同的網(wǎng)頁模板覆蓋的網(wǎng)頁集中。
6.一種實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置,其特征在于,包括: 獲取單元,用于獲取網(wǎng)頁的網(wǎng)頁數(shù)據(jù); 標(biāo)簽單元,用于對所述網(wǎng)頁數(shù)據(jù)生成哈希值標(biāo)簽; 查找單元,用于查找與所述哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板; 計算單元,用于計算查找到的網(wǎng)頁模板與所述網(wǎng)頁之間的增量編碼數(shù)據(jù);以及 生成單元,用于根據(jù)計算得到的增量編碼數(shù)據(jù)確定是否生成新的網(wǎng)頁模板。
7.根據(jù)權(quán)利要求6所述的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置,其特征在于,所述標(biāo)簽單元包括: 第一生成模塊,用于根據(jù)所述網(wǎng)頁數(shù)據(jù)生成哈希值; 排列模塊,用于按照預(yù)設(shè)規(guī)則對所述哈希值進行排列; 標(biāo)簽?zāi)K,用于根據(jù)域名和對排列后的哈希值取前綴得到多個哈希值標(biāo)簽, 其中,所述查找單元用于根據(jù)所述哈希值標(biāo)簽查找模板表,得到所述多個哈希值標(biāo)簽對應(yīng)的網(wǎng)頁模板。
8.根據(jù)權(quán)利要求6所述的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置,其特征在于,所述生成單元包括: 比較模塊,用于比較查找到的網(wǎng)頁模板數(shù)據(jù)和所述網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁增量編碼數(shù)據(jù); 第一判斷模塊,用于判斷所述網(wǎng)頁增量編碼數(shù)據(jù)是否大于設(shè)定閾值; 第一傳輸模塊,用于在所述網(wǎng)頁增量編碼數(shù)據(jù)小于等于設(shè)定閾值時,基于所述增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板傳輸增量編碼數(shù)據(jù); 第二生成模塊,用于在所述網(wǎng)頁增量編碼數(shù)據(jù)大于設(shè)定閾值時,生成新的網(wǎng)頁模板。
9.根據(jù)權(quán)利要求6所述的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置,其特征在于,所述生成單元包括: 比較模塊,用于比較查找到·的網(wǎng)頁模板數(shù)據(jù)和所述網(wǎng)頁數(shù)據(jù),得到網(wǎng)頁增量編碼數(shù)據(jù); 計算模塊,用于計算所述網(wǎng)頁增量編碼數(shù)據(jù)與所述網(wǎng)頁數(shù)據(jù)的比值; 第二判斷模塊,用于判斷所述網(wǎng)頁的增量編碼數(shù)據(jù)與網(wǎng)頁編碼數(shù)據(jù)的比值是否小于設(shè)定比值閾值; 第二傳輸模塊,用于在所述網(wǎng)頁增量編碼數(shù)據(jù)與所述網(wǎng)頁數(shù)據(jù)的比值小于設(shè)定比值閾值時,將所述網(wǎng)頁加入到所述增量編碼數(shù)據(jù)對應(yīng)的網(wǎng)頁模板覆蓋的網(wǎng)頁集中; 第三生成模塊,用于在所述多個增量編碼數(shù)據(jù)與網(wǎng)頁數(shù)據(jù)的比值大于等于設(shè)定比值閾值時,生成新的網(wǎng)頁模板。
10.根據(jù)權(quán)利要求6所述的實現(xiàn)增量傳輸?shù)木W(wǎng)頁模板生成裝置,其特征在于,所述裝置還包括: 判斷單元,用于判斷是否存在兩個所述哈希值標(biāo)簽對應(yīng)相同的網(wǎng)頁模板; 合并單元,用于在兩個所述哈希值標(biāo)簽對應(yīng)相同的網(wǎng)頁模板時,獲取兩個所述哈希值標(biāo)簽對應(yīng)的網(wǎng)頁,并且將兩個所述哈希值標(biāo)簽對應(yīng)的網(wǎng)頁加入到所述相同的網(wǎng)頁模板覆蓋的網(wǎng)頁集中。
【文檔編號】G06F17/30GK103593467SQ201310612919
【公開日】2014年2月19日 申請日期:2013年11月26日 優(yōu)先權(quán)日:2013年11月26日
【發(fā)明者】周向根, 鄭海洪, 翟光亞 申請人:優(yōu)視科技有限公司