亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁更新處理方法及裝置制造方法

文檔序號:6626525閱讀:212來源:國知局
網(wǎng)頁更新處理方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)頁更新處理方法及裝置,該網(wǎng)頁更新處理方法包括:獲取待檢測網(wǎng)頁的網(wǎng)頁地址;獲取網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段;獲取預(yù)設(shè)基準(zhǔn)字段,預(yù)設(shè)基準(zhǔn)字段用于表示網(wǎng)頁更新統(tǒng)計(jì)的開始時間;判斷標(biāo)識字段對應(yīng)的時間是否晚于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間;以及如果標(biāo)識字段對應(yīng)的時間早于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間,則確定待檢測網(wǎng)頁不是新增頁面,如果標(biāo)識字段對應(yīng)的時間不早于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間,則確定待檢測網(wǎng)頁為新增頁面。本發(fā)明解決了將網(wǎng)頁更新量統(tǒng)計(jì)開始時間之前發(fā)布的網(wǎng)頁錯誤判斷為新增網(wǎng)頁而造成網(wǎng)頁更新量統(tǒng)計(jì)結(jié)果不準(zhǔn)確的問題,進(jìn)而達(dá)到了提高網(wǎng)頁更新量統(tǒng)計(jì)的正確性的效果。
【專利說明】
網(wǎng)頁更新處理方法及裝置

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種網(wǎng)頁更新處理方法及裝置。

【背景技術(shù)】
[0002]網(wǎng)頁更新量指的是在一定時間內(nèi)網(wǎng)站新發(fā)布的頁面數(shù)量,是評價網(wǎng)站績效的一項(xiàng)重要指標(biāo)。在通過網(wǎng)站訪問日志分析網(wǎng)頁更新量時,可能會遇到在網(wǎng)站開始監(jiān)測之前就發(fā)布的網(wǎng)頁,由于該網(wǎng)頁在該監(jiān)測期間被用戶訪問,錯誤的將該網(wǎng)頁認(rèn)定為新增的網(wǎng)頁;或者是在該監(jiān)測期間新發(fā)布的網(wǎng)頁,由于在該監(jiān)測期間該新增的網(wǎng)頁從未被訪問過,造成該新增網(wǎng)頁的漏統(tǒng)計(jì),以上兩種情況都影響網(wǎng)頁更新量分析的準(zhǔn)確性。目前解決上述問題的方案有兩種,第一種方案是在網(wǎng)站開始監(jiān)測之后,人工將站內(nèi)所有網(wǎng)頁都瀏覽一遍,但該方案耗時耗力,且容易遺漏,僅適用于網(wǎng)頁很少的情況;第二種方案是在網(wǎng)站監(jiān)測之后,通過程序?qū)崿F(xiàn)自動遍歷整個網(wǎng)頁,達(dá)到清除歷史數(shù)據(jù)對于網(wǎng)頁更新量的影響的目的,但是該方案必須由專業(yè)的技術(shù)人員才能實(shí)現(xiàn),且工作量較大,同時不同網(wǎng)站之間的通用性不強(qiáng)。
[0003]針對相關(guān)技術(shù)中將網(wǎng)頁更新量統(tǒng)計(jì)開始時間之前發(fā)布的網(wǎng)頁錯誤判斷為新增網(wǎng)頁而造成網(wǎng)頁更新量統(tǒng)計(jì)結(jié)果不準(zhǔn)確的問題,目前尚未提出有效的解決方案。


【發(fā)明內(nèi)容】

[0004]本發(fā)明的主要目的在于提供一種網(wǎng)頁更新處理方法及裝置,以解決將網(wǎng)頁更新量統(tǒng)計(jì)開始時間之前發(fā)布的網(wǎng)頁錯誤判斷為新增網(wǎng)頁而造成網(wǎng)頁更新量統(tǒng)計(jì)結(jié)果不準(zhǔn)確的問題。
[0005]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)頁更新處理方法。
[0006]根據(jù)本發(fā)明的網(wǎng)頁更新處理方法包括:獲取待檢測網(wǎng)頁的網(wǎng)頁地址;獲取網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段;獲取預(yù)設(shè)基準(zhǔn)字段,預(yù)設(shè)基準(zhǔn)字段用于表示網(wǎng)頁更新統(tǒng)計(jì)的開始時間;判斷標(biāo)識字段對應(yīng)的時間是否晚于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間;以及如果標(biāo)識字段對應(yīng)的時間早于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間,則確定待檢測網(wǎng)頁不是新增頁面,如果標(biāo)識字段對應(yīng)的時間不早于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間,則確定待檢測網(wǎng)頁為新增頁面。
[0007]進(jìn)一步地,獲取待檢測網(wǎng)頁的網(wǎng)頁地址包括:從網(wǎng)站訪問日志中獲取待檢測網(wǎng)頁訪問日志;查找訪問日志中標(biāo)識網(wǎng)頁地址的標(biāo)識符;以及基于標(biāo)識符獲取網(wǎng)頁地址。
[0008]進(jìn)一步地,獲取網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段包括:獲取預(yù)設(shè)正則表達(dá)式;以及根據(jù)預(yù)設(shè)正則表達(dá)式對網(wǎng)頁地址進(jìn)行正則匹配,得到標(biāo)識字段。
[0009]進(jìn)一步地,獲取預(yù)設(shè)正則表達(dá)式包括:確定網(wǎng)頁地址的匹配類型,匹配類型包括日期型、數(shù)字序列型和全局唯一標(biāo)識符型;如果網(wǎng)頁地址的匹配類型為日期型,則選擇用于匹配日期的正則表達(dá)式作為預(yù)設(shè)正則表達(dá)式;如果網(wǎng)頁地址的匹配類型為數(shù)字序列型,則選擇用于匹配數(shù)字序列的正則表達(dá)式作為預(yù)設(shè)正則表達(dá)式;以及如果網(wǎng)頁地址的匹配類型為全局唯一標(biāo)識符型,則選擇用于匹配全局唯一標(biāo)識符的正則表達(dá)式作為預(yù)設(shè)正則表達(dá)式。
[0010]進(jìn)一步地,在確定待檢測網(wǎng)頁為新增頁面之后,該方法還包括:記錄標(biāo)識字段;判斷是否獲取完畢網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志;如果判斷出獲取完畢網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志,則比較記錄的所有標(biāo)識字段對應(yīng)的時間;以及根據(jù)對應(yīng)最晚時間的標(biāo)識字段更新預(yù)設(shè)基準(zhǔn)字段。
[0011]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)頁更新處理裝置。
[0012]根據(jù)本發(fā)明的網(wǎng)頁更新處理裝置包括:第一獲取模塊,用于獲取待檢測網(wǎng)頁的網(wǎng)頁地址;第二獲取模塊,用于獲取網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段;第三獲取模塊,用于獲取預(yù)設(shè)基準(zhǔn)字段,預(yù)設(shè)基準(zhǔn)字段用于表示網(wǎng)頁更新統(tǒng)計(jì)的開始時間;第一判斷模塊,用于判斷標(biāo)識字段對應(yīng)的時間是否不早于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間;以及確定模塊,用于當(dāng)標(biāo)識字段對應(yīng)的時間早于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間時,則確定待檢測網(wǎng)頁不是新增頁面,當(dāng)標(biāo)識字段對應(yīng)的時間不早于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間時,則確定待檢測網(wǎng)頁為新增頁面。
[0013]進(jìn)一步地,第一獲取模塊包括:第一獲取單元,用于從網(wǎng)站訪問日志中獲取待檢測網(wǎng)頁的訪問日志;查找單元,用于查找訪問日志中標(biāo)識網(wǎng)頁地址的標(biāo)識符;以及第二獲取單元,用于基于標(biāo)識符獲取網(wǎng)頁地址。
[0014]進(jìn)一步地,第二獲取模塊包括:第三獲取單元,用于獲取預(yù)設(shè)正則表達(dá)式;以及匹配單元,用于根據(jù)預(yù)設(shè)正則表達(dá)式對網(wǎng)頁地址進(jìn)行正則匹配,得到標(biāo)識字段。
[0015]進(jìn)一步地,第三獲取單元包括:第一確定單元,用于確定網(wǎng)頁地址的匹配類型,匹配類型包括日期型、數(shù)字序列型和全局唯一標(biāo)識符型;以及選擇單元,用于當(dāng)網(wǎng)頁地址的匹配類型為日期型,則選擇用于匹配日期的正則表達(dá)式作為預(yù)設(shè)正則表達(dá)式,當(dāng)網(wǎng)頁地址的匹配類型為數(shù)字序列型時,則選擇用于匹配數(shù)字序列的正則表達(dá)式作為預(yù)設(shè)正則表達(dá)式,當(dāng)網(wǎng)頁地址的匹配類型為全局唯一標(biāo)識符型時,則選擇用于匹配全局唯一標(biāo)識符的正則表達(dá)式作為預(yù)設(shè)正則表達(dá)式。
[0016]進(jìn)一步地,在確定待檢測網(wǎng)頁為新增頁面之后,該裝置還包括:記錄模塊,用于記錄標(biāo)識字段;第二判斷模塊,用于判斷是否獲取完畢網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志;比較模塊,用于當(dāng)判斷出獲取完畢網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志時,比較記錄的所有標(biāo)識字段對應(yīng)的時間;以及更新模塊,用于根據(jù)對應(yīng)最晚時間的標(biāo)識字段更新預(yù)設(shè)基準(zhǔn)字段。
[0017]通過本發(fā)明,采用將待檢測網(wǎng)頁的標(biāo)識字段對應(yīng)的時間與預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間進(jìn)行比較來確定待檢測頁面是否是新增頁面,解決了將網(wǎng)頁更新量統(tǒng)計(jì)開始時間之前發(fā)布的網(wǎng)頁錯誤判斷為新增網(wǎng)頁而造成網(wǎng)頁更新量統(tǒng)計(jì)結(jié)果不準(zhǔn)確的問題,進(jìn)而達(dá)到了提高網(wǎng)頁更新量統(tǒng)計(jì)的正確性的效果。

【專利附圖】

【附圖說明】
[0018]構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0019]圖1是根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁更新處理方法的流程圖;
[0020]圖2是根據(jù)本發(fā)明第一實(shí)施例的網(wǎng)頁更新處理裝置的示意圖;
[0021]圖3是根據(jù)本發(fā)明第二實(shí)施例的網(wǎng)頁更新處理裝置的示意圖;以及
[0022]圖4是根據(jù)本發(fā)明第三實(shí)施例的網(wǎng)頁更新處理裝置的示意圖。

【具體實(shí)施方式】
[0023]需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。
[0024]根據(jù)本發(fā)明實(shí)施,提供了一種網(wǎng)頁更新處理方法,圖1是根據(jù)本發(fā)明實(shí)施例的網(wǎng)頁更新處理方法的流程圖。
[0025]如圖1所示,該方法包括如下的步驟S102至步驟SllO:
[0026]步驟S102:獲取待檢測網(wǎng)頁的網(wǎng)頁地址。
[0027]步驟S104:獲取網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段。
[0028]現(xiàn)在網(wǎng)站的網(wǎng)頁地址中都會包含一些標(biāo)識字段,例如日期、數(shù)字序列、全局唯一標(biāo)識符⑶ID等,通過比較這些標(biāo)識字段可以知道網(wǎng)頁發(fā)布的先后順序。比如一個URL為http://www.gov.cn/guowuyuan/2014_07/31/content_2727857.htm 的網(wǎng)頁,中間字段2014-07/31即為該網(wǎng)頁的發(fā)布日期。對于包含數(shù)字序列的URL,由于該數(shù)字序列的值根據(jù)時間遞增,所以通過比較兩個數(shù)字序列值可以得到其對應(yīng)的網(wǎng)頁發(fā)布的其先后順序。同理,對于包含GUID的URL,由于該GUID也是根據(jù)時間遞增的一個十六進(jìn)制數(shù)數(shù)字序列,通過比較兩個GUID也可以得到其對應(yīng)的網(wǎng)頁發(fā)布的其先后順序。
[0029]步驟S106:獲取預(yù)設(shè)基準(zhǔn)字段,預(yù)設(shè)基準(zhǔn)字段用于表示網(wǎng)頁更新統(tǒng)計(jì)的開始時間。
[0030]要判斷待檢測的網(wǎng)頁是否是新發(fā)布的網(wǎng)頁,需要設(shè)定一個基準(zhǔn)時間,用于與待檢測的網(wǎng)站的發(fā)布時間進(jìn)行比較。例如,對于URL包含日期字段的網(wǎng)頁,設(shè)定一個日期字段基準(zhǔn)值,對于URL包含數(shù)字序列的網(wǎng)頁,設(shè)定一個數(shù)字序列字段基準(zhǔn)值,對于URL包含⑶ID字段的網(wǎng)頁,則設(shè)定一個⑶ID字段基準(zhǔn)值。
[0031]步驟S108:判斷標(biāo)識字段對應(yīng)的時間是否晚于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間。
[0032]該標(biāo)識字段對應(yīng)的時間即待檢測網(wǎng)頁的發(fā)布時間,該預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間即網(wǎng)頁更新統(tǒng)計(jì)的開始時間。通過比較待檢測網(wǎng)頁的標(biāo)識字段和預(yù)設(shè)基準(zhǔn)字段可以判斷待檢測網(wǎng)頁的發(fā)布時間是否早于網(wǎng)頁更新統(tǒng)計(jì)的開始時間。
[0033]步驟SllO:如果標(biāo)識字段對應(yīng)的時間早于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間,則確定待檢測網(wǎng)頁不是新增網(wǎng)頁,如果標(biāo)識字段對應(yīng)的時間不早于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間,則確定待檢測網(wǎng)頁為新增網(wǎng)頁。
[0034]本發(fā)明實(shí)施例通過獲取待檢測網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段,將標(biāo)識字段與預(yù)設(shè)基準(zhǔn)字段比較獲得待檢測網(wǎng)頁發(fā)布時間與網(wǎng)頁更新統(tǒng)計(jì)的開始時間的先后順序,當(dāng)待檢測網(wǎng)頁發(fā)布時間不早于網(wǎng)頁更新統(tǒng)計(jì)的開始時間時,則檢測網(wǎng)頁是新增網(wǎng)頁,當(dāng)待檢測網(wǎng)頁發(fā)布時間早于網(wǎng)頁更新統(tǒng)計(jì)的開始時間時則檢測網(wǎng)頁不是新增網(wǎng)頁。由于只有待檢測網(wǎng)頁發(fā)布時間不早于網(wǎng)頁更新統(tǒng)計(jì)的開始時間,該待檢測網(wǎng)頁才是新增網(wǎng)頁,解決了將網(wǎng)頁更新量統(tǒng)計(jì)開始時間之前發(fā)布的網(wǎng)頁錯誤判斷為新增網(wǎng)頁而造成網(wǎng)頁更新量統(tǒng)計(jì)結(jié)果不準(zhǔn)確的問題。
[0035]優(yōu)選地,為了方便快捷的獲取待檢測網(wǎng)頁的地址,獲取待檢測網(wǎng)頁的網(wǎng)頁地址包括:從網(wǎng)站訪問日志中獲取待檢測網(wǎng)頁的訪問日志;查找訪問日志中標(biāo)識網(wǎng)頁地址的標(biāo)識符;以及基于標(biāo)識符獲取網(wǎng)頁地址。
[0036]網(wǎng)站訪問日志是通過JS代碼收集的用戶訪問網(wǎng)站的數(shù)據(jù),JS代碼即Java Script語言編寫的腳本文件的代碼。當(dāng)用戶訪問網(wǎng)站某一網(wǎng)頁時會生成一條該網(wǎng)頁的訪問日志,從該網(wǎng)頁訪問日志中可以清楚的知道用戶的訪問IP、訪問時間、訪問網(wǎng)頁地址、采用的瀏覽器等信息。由于一條網(wǎng)頁訪問日志包含許多的用戶訪問信息,而在進(jìn)行網(wǎng)頁更新量統(tǒng)計(jì)時只需要檢測網(wǎng)頁地址信息,通過在網(wǎng)頁訪問日志中設(shè)置一個標(biāo)識符來確定網(wǎng)頁地址在網(wǎng)頁訪問日志中的位置,因此通過查找網(wǎng)頁地址的標(biāo)識符可以找到網(wǎng)頁訪問日志中的網(wǎng)頁地址。
[0037]由于網(wǎng)站訪問日志記錄了被用戶訪問的所有網(wǎng)頁訪問日志,為了提高網(wǎng)頁更新量統(tǒng)計(jì)的效率,通常只獲取網(wǎng)頁更新量統(tǒng)計(jì)時間段內(nèi)的網(wǎng)站訪問日志,再依次對該網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志中包含的網(wǎng)頁地址進(jìn)行檢測。通過網(wǎng)站訪問日志可以方便快捷的獲取到網(wǎng)頁更新量統(tǒng)計(jì)時間段內(nèi)被用戶訪問的所有網(wǎng)頁地址。
[0038]優(yōu)選地,為了快速準(zhǔn)確的獲取網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段包括:獲取預(yù)設(shè)正則表達(dá)式;以及根據(jù)預(yù)設(shè)正則表達(dá)式對網(wǎng)頁地址進(jìn)行正則匹配,得到標(biāo)識字段。
[0039]正則表達(dá)式,又稱正規(guī)表示法、常規(guī)表示法,英語為Regular Express1n,在代碼中常簡寫為regex、regexp或RE,是計(jì)算機(jī)科學(xué)的一個概念。正則表達(dá)式使用單個字符串來描述、匹配一系列符合某個句法規(guī)則的字符串,就是用預(yù)先定義好的特定字符、及這些特定字符的組合,組成一個規(guī)則字符串,該規(guī)則字符串用來表達(dá)對字符串的一種過濾邏輯。例如,給定一個正則表達(dá)式和一個字符串,一是判斷給定的字符串是否符合正則表達(dá)式的過濾邏輯,二是可以通過正則表達(dá)式,從給定的字符串中獲取我們想要的特定部分。例如,一個用于匹配中國郵政編碼的正則表達(dá)式為“[l_9]\\d{5} ( ?! \d) “,待匹配的字符串為“Chinabei jingl0008Ihaidian”,則通過該正則表達(dá)式可以匹配出待檢測字符串中表示郵政編碼的字段“100081”。
[0040]網(wǎng)站管理員根據(jù)網(wǎng)站地址包含的標(biāo)識字段編寫相應(yīng)的正則表達(dá)式,例如,網(wǎng)頁地址中包含日期字段的,則編寫能夠匹配出網(wǎng)頁地址中日期字段的正則表達(dá)式,對于網(wǎng)頁地址中包含數(shù)字序列字段的,則編寫能夠匹配出網(wǎng)頁地址中數(shù)字序列字段的正則表達(dá)式,對于網(wǎng)頁地址中包含⑶ID字段的,則編寫能夠匹配出網(wǎng)頁地址中⑶ID字段的正則表達(dá)式。通過獲取預(yù)設(shè)正則表達(dá)式,利用該預(yù)設(shè)正則表達(dá)式可以快速準(zhǔn)確的匹配出待檢測網(wǎng)頁地址中的標(biāo)識字段。
[0041]優(yōu)選地,獲取預(yù)設(shè)正則表達(dá)式包括:確定網(wǎng)頁地址的匹配類型,匹配類型包括日期型、數(shù)字序列型和全局唯一標(biāo)識符型;如果網(wǎng)頁地址的匹配類型為日期型,則選擇用于匹配日期的正則表達(dá)式作為預(yù)設(shè)正則表達(dá)式;如果網(wǎng)頁地址的匹配類型為數(shù)字序列型,則選擇用于匹配數(shù)字序列的正則表達(dá)式作為預(yù)設(shè)正則表達(dá)式;以及如果網(wǎng)頁地址的匹配類型為全局唯一標(biāo)識符型,則選擇用于匹配全局唯一標(biāo)識符的正則表達(dá)式作為預(yù)設(shè)正則表達(dá)式。
[0042]由于不同的網(wǎng)站的網(wǎng)頁地址可能包含不同類型的標(biāo)識字段。為了適應(yīng)包含不同類型的標(biāo)識字段的網(wǎng)頁地址,通過預(yù)先根據(jù)不同表示字段類型編寫相應(yīng)的正則表達(dá)式。通過先確定待檢測網(wǎng)頁地址包含的標(biāo)識字段類型來選擇對應(yīng)的能夠匹配該標(biāo)識字段的正則表達(dá)式。通過預(yù)先設(shè)置多種能夠匹配不同類型的標(biāo)識字段的正則表達(dá)式,能夠提高對包含不同類型的標(biāo)識字段的網(wǎng)頁地址進(jìn)行匹配的適應(yīng)性。
[0043]優(yōu)選地,為了在確定待檢測網(wǎng)頁為新增網(wǎng)頁之后,方法還包括:記錄標(biāo)識字段;判斷是否獲取完畢網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志;如果判斷出獲取完畢網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志,則比較記錄的所有標(biāo)識字段對應(yīng)的時間;以及根據(jù)對應(yīng)最晚時間的標(biāo)識字段更新預(yù)設(shè)基準(zhǔn)字段。
[0044]本發(fā)明實(shí)施例通過依次檢測網(wǎng)站訪問日志中每一條網(wǎng)頁訪問日志來統(tǒng)計(jì)網(wǎng)頁更新量。在網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志都被檢測后,就可以得到在網(wǎng)頁更新量統(tǒng)計(jì)時間段內(nèi)所有新增網(wǎng)頁的標(biāo)識字段。通過比較這些標(biāo)識字段可以得到一個對應(yīng)于最晚的網(wǎng)頁發(fā)布時間的標(biāo)識字段,將該標(biāo)識字段作為下一次網(wǎng)頁更新量統(tǒng)計(jì)的預(yù)設(shè)基準(zhǔn)字段。通常,網(wǎng)站都是按天來統(tǒng)計(jì)網(wǎng)頁更新量,即統(tǒng)計(jì)每一天時間內(nèi)網(wǎng)站的頁面更新量。通過自動更新預(yù)設(shè)基準(zhǔn)字段,從而在統(tǒng)計(jì)下一天的網(wǎng)頁更新量時,不需要再預(yù)先設(shè)置基準(zhǔn)字段。此外,通過每次網(wǎng)頁更新量統(tǒng)計(jì)之后自動更新預(yù)設(shè)基準(zhǔn)字段,可以避免人為設(shè)置的預(yù)設(shè)基準(zhǔn)字段不準(zhǔn)確的問題,從而可以提高下一次網(wǎng)頁更新量統(tǒng)計(jì)的準(zhǔn)確性。但是如果下一次進(jìn)行網(wǎng)頁更新量統(tǒng)計(jì)的時間與上一次進(jìn)行網(wǎng)頁更新量統(tǒng)計(jì)的時間不連續(xù)的話,則需要重新設(shè)置預(yù)設(shè)基準(zhǔn)字段,例如,第一次網(wǎng)頁更新量統(tǒng)計(jì)是統(tǒng)計(jì)8月5日新發(fā)布的網(wǎng)頁數(shù)量,而第二次網(wǎng)頁更新量統(tǒng)計(jì)卻是統(tǒng)計(jì)8月8日新發(fā)布的網(wǎng)頁數(shù)量,因此在進(jìn)行第二次網(wǎng)頁更新量統(tǒng)計(jì)前需要重新設(shè)置預(yù)設(shè)基準(zhǔn)字段,但如果第二次網(wǎng)頁更新量統(tǒng)計(jì)是統(tǒng)計(jì)8月6日新發(fā)布的網(wǎng)頁數(shù)量則無須預(yù)先設(shè)置預(yù)設(shè)基準(zhǔn)字段。
[0045]從以上的描述中,可以看出,本發(fā)明實(shí)現(xiàn)了如下技術(shù)效果:
[0046]本發(fā)明實(shí)施例通過正則表達(dá)式方便快速的獲取待檢測網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段,將標(biāo)識字段與預(yù)設(shè)基準(zhǔn)字段比較獲得待檢測網(wǎng)頁發(fā)布時間與網(wǎng)頁更新統(tǒng)計(jì)的開始時間的先后順序,當(dāng)待檢測網(wǎng)頁發(fā)布時間不早于網(wǎng)頁更新統(tǒng)計(jì)的開始時間時,則檢測網(wǎng)頁是新增網(wǎng)頁,當(dāng)待檢測網(wǎng)頁發(fā)布時間早于網(wǎng)頁更新統(tǒng)計(jì)的開始時間時則檢測網(wǎng)頁不是新增網(wǎng)頁。由于只有待檢測網(wǎng)頁發(fā)布時間不早于網(wǎng)頁更新統(tǒng)計(jì)的開始時間,該待檢測網(wǎng)頁才是新增網(wǎng)頁,從而可以避免將那些發(fā)布時間早于網(wǎng)頁更新統(tǒng)計(jì)的開始時間的網(wǎng)頁作為新增的網(wǎng)頁,提高了網(wǎng)頁更新量統(tǒng)計(jì)結(jié)果的準(zhǔn)確性。
[0047]需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0048]根據(jù)本發(fā)明實(shí)施例,提供了一種網(wǎng)頁更新處理裝置,圖2是根據(jù)本發(fā)明第一實(shí)施例的網(wǎng)頁更新處理裝置的示意圖。
[0049]如圖2所示,該網(wǎng)頁更新處理裝置包括:第一獲取模塊10,第二獲取模塊20,第三獲取模塊30,第一判斷模塊40和確定模塊50。
[0050]第一獲取模塊10,用于獲取待檢測網(wǎng)頁的網(wǎng)頁地址。
[0051]第二獲取模塊20,用于獲取網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段。
[0052]現(xiàn)在網(wǎng)站的網(wǎng)頁地址中都會包含一些標(biāo)識字段,例如日期、數(shù)字序列、全局唯一標(biāo)識符⑶ID等,通過比較這些標(biāo)識字段可以知道網(wǎng)頁發(fā)布的先后順序。比如一個URL為http://www.gov.cn/guowuyuan/2014_07/31/content_2727857.htm 的網(wǎng)頁,中間字段2014-07/31即為該網(wǎng)頁的發(fā)布日期。對于包含數(shù)字序列的URL,由于該數(shù)字序列的值根據(jù)時間遞增,所以通過比較兩個數(shù)字序列值可以得到其對應(yīng)的網(wǎng)頁發(fā)布的其先后順序。同理,對于包含GUID的URL,由于該GUID也是根據(jù)時間遞增的一個十六進(jìn)制數(shù)數(shù)字序列,通過比較兩個GUID也可以得到其對應(yīng)的網(wǎng)頁發(fā)布的其先后順序。
[0053]第三獲取模塊30,用于獲取預(yù)設(shè)基準(zhǔn)字段,預(yù)設(shè)基準(zhǔn)字段用于表示網(wǎng)頁更新統(tǒng)計(jì)的開始時間;
[0054]要判斷待檢測的網(wǎng)頁是否是新發(fā)布的網(wǎng)頁,需要設(shè)定一個基準(zhǔn)時間,用于與待檢測的網(wǎng)站的發(fā)布時間進(jìn)行比較。例如,對于URL包含日期字段的網(wǎng)頁,設(shè)定一個日期字段基準(zhǔn)值,對于URL包含數(shù)字序列的網(wǎng)頁,設(shè)定一個數(shù)字序列字段基準(zhǔn)值,對于URL包含⑶ID字段的網(wǎng)頁,則設(shè)定一個⑶ID字段基準(zhǔn)值。
[0055]第一判斷模塊40,用于判斷標(biāo)識字段對應(yīng)的時間是否不早于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間。
[0056]標(biāo)識字段對應(yīng)的時間即待檢測網(wǎng)頁的發(fā)布時間,預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間即網(wǎng)頁更新統(tǒng)計(jì)的開始時間。通過比較待檢測網(wǎng)頁的標(biāo)識字段和預(yù)設(shè)基準(zhǔn)字段可以判斷待檢測網(wǎng)頁的發(fā)布時間是否早于網(wǎng)頁更新統(tǒng)計(jì)的開始時間。
[0057]確定模塊50,用于當(dāng)標(biāo)識字段對應(yīng)的時間早于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間時,則確定待檢測網(wǎng)頁不是新增頁面,當(dāng)標(biāo)識字段對應(yīng)的時間不早于預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間時,則確定待檢測網(wǎng)頁為新增頁面。
[0058]本發(fā)明第一實(shí)施例通過第一獲取模塊10獲取待檢測網(wǎng)頁的網(wǎng)頁地址,通過第二獲取模塊20獲取上述網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段,通過第一判斷模塊40判斷該標(biāo)識字段對應(yīng)的時間是否晚于第三獲取模塊30獲取的預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間,從而來確定待檢測網(wǎng)頁是否是新增網(wǎng)頁。通過將標(biāo)識字段與預(yù)設(shè)基準(zhǔn)字段比較獲得待檢測網(wǎng)頁發(fā)布時間與網(wǎng)頁更新統(tǒng)計(jì)的開始時間的先后順序來確定待檢測網(wǎng)頁是否為新增網(wǎng)頁,只有待檢測網(wǎng)頁的發(fā)布時間不早于網(wǎng)頁更新統(tǒng)計(jì)的開始時間時,待檢測網(wǎng)頁才是新增頁面,解決了將網(wǎng)頁更新量統(tǒng)計(jì)開始時間之前發(fā)布的網(wǎng)頁錯誤判斷為新增網(wǎng)頁而造成網(wǎng)頁更新量統(tǒng)計(jì)結(jié)果不準(zhǔn)確的問題。
[0059]圖3是根據(jù)本發(fā)明第二實(shí)施例的網(wǎng)頁更新處理裝置的示意圖。如圖3所示,該處理裝置包括:第一獲取模塊10,第二獲取模塊20,第三獲取模塊30,第一判斷模塊40和確定模塊50,其中第一獲取模塊10包括第一獲取單元101,查找單元102和第二獲取單元103。
[0060]第一獲取單元101,用于從網(wǎng)站訪問日志中獲取待檢測網(wǎng)頁的訪問日志。
[0061 ] 網(wǎng)站訪問日志是通過JS代碼收集的用戶訪問網(wǎng)站的數(shù)據(jù),JS代碼即Java Script語言編寫的腳本文件的代碼。當(dāng)用戶訪問網(wǎng)站某一網(wǎng)頁時會生成一條該網(wǎng)頁的訪問日志,從該網(wǎng)頁訪問日志中可以清楚的知道用戶的訪問IP、訪問時間、訪問網(wǎng)頁地址、采用的瀏覽器等信息。
[0062]查找單元102,用于查找訪問日志中標(biāo)識網(wǎng)頁地址的標(biāo)識符。
[0063]由于一條網(wǎng)頁訪問日志包含許多的用戶訪問信息,而在進(jìn)行網(wǎng)頁更新量統(tǒng)計(jì)時只需要檢測網(wǎng)頁地址信息,通過在網(wǎng)頁訪問日志中設(shè)置一個標(biāo)識符來確定網(wǎng)頁地址在網(wǎng)頁訪問日志中的位置,因此通過查找網(wǎng)頁地址的標(biāo)識符可以找到網(wǎng)頁訪問日志中的網(wǎng)頁地址。
[0064]第二獲取單元103,用于基于標(biāo)識符獲取網(wǎng)頁地址。
[0065]第二獲取模塊20、第三獲取模塊30、第一判斷模塊40和確定模塊50同上所述,在此不再贅述。
[0066]由于網(wǎng)站訪問日志記錄了被用戶訪問的所有網(wǎng)頁訪問日志,為了提高網(wǎng)頁更新量統(tǒng)計(jì)的效率,通常只獲取網(wǎng)頁更新量統(tǒng)計(jì)時間段內(nèi)的網(wǎng)站訪問日志,再依次對該網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志中包含的網(wǎng)頁地址進(jìn)行檢測。通過網(wǎng)站訪問日志可以方便快捷的獲取到網(wǎng)頁更新量統(tǒng)計(jì)時間段內(nèi)被用戶訪問的所有網(wǎng)頁地址。
[0067]圖4是根據(jù)本發(fā)明第三實(shí)施例的網(wǎng)頁更新處理裝置的示意圖。如圖4所示,該處理裝置包括:第一獲取模塊10,第二獲取模塊20,第三獲取模塊30,第一判斷模塊40和確定模塊50,其中,第二獲取模塊20包括第三獲取單元201和匹配單元202。
[0068]第三獲取單元201,用于獲取預(yù)設(shè)正則表達(dá)式。
[0069]正則表達(dá)式,又稱正規(guī)表示法、常規(guī)表示法,英語為Regular Express1n,在代碼中常簡寫為regex、regexp或RE,是計(jì)算機(jī)科學(xué)的一個概念。正則表達(dá)式使用單個字符串來描述、匹配一系列符合某個句法規(guī)則的字符串,就是用預(yù)先定義好的特定字符、及這些特定字符的組合,組成一個規(guī)則字符串,該規(guī)則字符串用來表達(dá)對字符串的一種過濾邏輯。例如,給定一個正則表達(dá)式和一個字符串,一是判斷給定的字符串是否符合正則表達(dá)式的過濾邏輯,二是可以通過正則表達(dá)式,從給定的字符串中獲取我們想要的特定部分。例如,一個用于匹配中國郵政編碼的正則表達(dá)式為“[l_9]\\d{5} ( ?! \d) “,待匹配的字符串為“Chinabei jingl0008Ihaidian”,則通過該正則表達(dá)式可以匹配出待檢測字符串中表示郵政編碼的字段“100081”。
[0070]網(wǎng)站管理員根據(jù)網(wǎng)站地址包含的標(biāo)識字段編寫相應(yīng)的正則表達(dá)式,例如,網(wǎng)頁地址中包含日期字段的,則編寫能夠匹配出網(wǎng)頁地址中日期字段的正則表達(dá)式,對于網(wǎng)頁地址中包含數(shù)字序列字段的,則編寫能夠匹配出網(wǎng)頁地址中數(shù)字序列字段的正則表達(dá)式,對于網(wǎng)頁地址中包含⑶ID字段的,則編寫能夠匹配出網(wǎng)頁地址中⑶ID字段的正則表達(dá)式。通過獲取預(yù)設(shè)正則表達(dá)式,利用該預(yù)設(shè)正則表達(dá)式可以快速準(zhǔn)確的匹配出待檢測網(wǎng)頁地址中的標(biāo)識字段。
[0071]匹配單元202,用于根據(jù)預(yù)設(shè)正則表達(dá)式對網(wǎng)頁地址進(jìn)行正則匹配,得到標(biāo)識字段。
[0072]第一獲取模塊10、第三獲取模塊30、第一判斷模塊40和確定模塊50同上所述,在此不再贅述。
[0073]優(yōu)選地,第三獲取單元201包括:第一確定單元,用于確定網(wǎng)頁地址的匹配類型,匹配類型包括日期型、數(shù)字序列型和全局唯一標(biāo)識符型;以及選擇單元,用于當(dāng)網(wǎng)頁地址的匹配類型為日期型,則選擇用于匹配日期的正則表達(dá)式作為預(yù)設(shè)正則表達(dá)式,當(dāng)網(wǎng)頁地址的匹配類型為數(shù)字序列型時,則選擇用于匹配數(shù)字序列的正則表達(dá)式作為預(yù)設(shè)正則表達(dá)式,當(dāng)網(wǎng)頁地址的匹配類型為全局唯一標(biāo)識符型時,則選擇用于匹配全局唯一標(biāo)識符的正則表達(dá)式作為預(yù)設(shè)正則表達(dá)式。
[0074]由于不同的網(wǎng)站的網(wǎng)頁地址可能包含不同類型的標(biāo)識字段。為了適應(yīng)包含不同類型的標(biāo)識字段的網(wǎng)頁地址,通過預(yù)先根據(jù)不同表示字段類型編寫相應(yīng)的正則表達(dá)式。通過先確定待檢測網(wǎng)頁地址包含的標(biāo)識字段類型來選擇對應(yīng)的能夠匹配該標(biāo)識字段的正則表達(dá)式。通過預(yù)先設(shè)置多種能夠匹配不同類型的標(biāo)識字段的正則表達(dá)式,能夠提高對包含不同類型的標(biāo)識字段的網(wǎng)頁地址進(jìn)行匹配的適應(yīng)性。
[0075]優(yōu)選地,在確定網(wǎng)頁為新增頁面之后,該頁面更新處理裝置還包括:記錄模塊,用于記錄標(biāo)識字段;第二判斷模塊,用于判斷網(wǎng)站訪問日志是否獲取完畢;比較模塊,用于當(dāng)網(wǎng)站訪問日志獲取完畢時,比較記錄的所有標(biāo)識字段對應(yīng)的時間;以及更新模塊,用于根據(jù)對應(yīng)最晚時間的標(biāo)識字段更新預(yù)設(shè)基準(zhǔn)字段。
[0076]本發(fā)明實(shí)施例通過依次檢測網(wǎng)站訪問日志中每一條網(wǎng)頁訪問日志來統(tǒng)計(jì)網(wǎng)頁更新量。在網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志都被檢測后,就可以得到在網(wǎng)頁更新量統(tǒng)計(jì)時間段內(nèi)所有新增網(wǎng)頁的標(biāo)識字段。通過比較這些標(biāo)識字段可以得到一個對應(yīng)于最晚的網(wǎng)頁發(fā)布時間的標(biāo)識字段,將該標(biāo)識字段作為下一次網(wǎng)頁更新量統(tǒng)計(jì)的預(yù)設(shè)基準(zhǔn)字段。通常,網(wǎng)站都是按天來統(tǒng)計(jì)網(wǎng)頁更新量,即統(tǒng)計(jì)每一天時間內(nèi)網(wǎng)站的頁面更新量。通過自動更新預(yù)設(shè)基準(zhǔn)字段,從而在統(tǒng)計(jì)下一天的網(wǎng)頁更新量時,不需要再預(yù)先設(shè)置基準(zhǔn)字段。此外,通過每次網(wǎng)頁更新量統(tǒng)計(jì)之后自動更新預(yù)設(shè)基準(zhǔn)字段,可以避免人為設(shè)置的預(yù)設(shè)基準(zhǔn)字段不準(zhǔn)確的問題,從而可以提高下一次網(wǎng)頁更新量統(tǒng)計(jì)的準(zhǔn)確性。但是如果下一次進(jìn)行網(wǎng)頁更新量統(tǒng)計(jì)的時間與上一次進(jìn)行網(wǎng)頁更新量統(tǒng)計(jì)的時間不連續(xù)的話,則需要重新設(shè)置預(yù)設(shè)基準(zhǔn)字段,例如,第一次網(wǎng)頁更新量統(tǒng)計(jì)是統(tǒng)計(jì)8月5日新發(fā)布的網(wǎng)頁數(shù)量,而第二次網(wǎng)頁更新量統(tǒng)計(jì)卻是統(tǒng)計(jì)8月8日新發(fā)布的網(wǎng)頁數(shù)量,因此在進(jìn)行第二次網(wǎng)頁更新量統(tǒng)計(jì)前需要重新設(shè)置預(yù)設(shè)基準(zhǔn)字段,但如果第二次網(wǎng)頁更新量統(tǒng)計(jì)是統(tǒng)計(jì)8月6日新發(fā)布的網(wǎng)頁數(shù)量則無須預(yù)先設(shè)置預(yù)設(shè)基準(zhǔn)字段。
[0077]綜上,本發(fā)明實(shí)施例通過第一獲取模塊10獲取待檢測網(wǎng)頁的網(wǎng)頁地址,通過第二獲取模塊20獲取上述網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段,通過第一判斷模塊40判斷該標(biāo)識字段對應(yīng)的時間是否晚于第三獲取模塊30獲取的預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間,從而來確定待檢測網(wǎng)頁是否是新增網(wǎng)頁。通過將標(biāo)識字段與預(yù)設(shè)基準(zhǔn)字段比較獲得待檢測網(wǎng)頁發(fā)布時間與網(wǎng)頁更新統(tǒng)計(jì)的開始時間的先后順序來確定待檢測網(wǎng)頁是否為新增網(wǎng)頁,只有待檢測網(wǎng)頁的發(fā)布時間不早于網(wǎng)頁更新統(tǒng)計(jì)的開始時間時,待檢測網(wǎng)頁才是新增頁面,解決了將網(wǎng)頁更新量統(tǒng)計(jì)開始時間之前發(fā)布的網(wǎng)頁錯誤判斷為新增網(wǎng)頁而造成網(wǎng)頁更新量統(tǒng)計(jì)結(jié)果不準(zhǔn)確的問題。此外,第二獲取模塊20還包括第三獲取單元201和匹配單元202,通過第三獲取單元201獲取預(yù)設(shè)正則表達(dá)式,通過匹配單元202根據(jù)預(yù)設(shè)正則表達(dá)式對網(wǎng)頁地址進(jìn)行正則匹配,實(shí)現(xiàn)快速獲取標(biāo)識字段。
[0078]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個的計(jì)算裝置上,或者分布在多個計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲在存儲裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0079]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)頁更新處理方法,其特征在于,包括: 獲取待檢測網(wǎng)頁的網(wǎng)頁地址; 獲取所述網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段; 獲取預(yù)設(shè)基準(zhǔn)字段,所述預(yù)設(shè)基準(zhǔn)字段用于表示網(wǎng)頁更新統(tǒng)計(jì)的開始時間; 判斷所述標(biāo)識字段對應(yīng)的時間是否晚于所述預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間;以及如果所述標(biāo)識字段對應(yīng)的時間早于所述預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間,則確定所述待檢測網(wǎng)頁不是新增頁面,如果所述標(biāo)識字段對應(yīng)的時間不早于所述預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間,則確定所述待檢測網(wǎng)頁為新增頁面。
2.根據(jù)權(quán)利要求1所述的網(wǎng)頁更新處理方法,其特征在于,獲取待檢測網(wǎng)頁的網(wǎng)頁地址包括: 從網(wǎng)站訪問日志中獲取所述待檢測網(wǎng)頁訪問日志; 查找所述訪問日志中標(biāo)識網(wǎng)頁地址的標(biāo)識符;以及 基于所述標(biāo)識符獲取所述網(wǎng)頁地址。
3.根據(jù)權(quán)利要求2所述的網(wǎng)頁更新處理方法,其特征在于,在確定所述待檢測網(wǎng)頁為新增頁面之后,所述方法還包括: 記錄所述標(biāo)識字段; 判斷是否獲取完畢所述網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志; 如果判斷出獲取完畢所述網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志,則比較記錄的所有所述標(biāo)識字段對應(yīng)的時間;以及 根據(jù)對應(yīng)最晚時間的所述標(biāo)識字段更新所述預(yù)設(shè)基準(zhǔn)字段。
4.根據(jù)權(quán)利要求1所述的網(wǎng)頁更新處理方法,其特征在于,所述獲取所述網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段包括: 獲取預(yù)設(shè)正則表達(dá)式;以及 根據(jù)所述預(yù)設(shè)正則表達(dá)式對所述網(wǎng)頁地址進(jìn)行正則匹配,得到所述標(biāo)識字段。
5.根據(jù)權(quán)利要求4所述的網(wǎng)頁更新處理方法,其特征在于,所述獲取預(yù)設(shè)正則表達(dá)式包括: 確定所述網(wǎng)頁地址的匹配類型,所述匹配類型包括日期型、數(shù)字序列型和全局唯一標(biāo)識符型; 如果所述網(wǎng)頁地址的匹配類型為日期型,則選擇用于匹配日期的正則表達(dá)式作為所述預(yù)設(shè)正則表達(dá)式; 如果所述網(wǎng)頁地址的匹配類型為數(shù)字序列型,則選擇用于匹配數(shù)字序列的正則表達(dá)式作為所述預(yù)設(shè)正則表達(dá)式;以及 如果所述網(wǎng)頁地址的匹配類型為全局唯一標(biāo)識符型,則選擇用于匹配全局唯一標(biāo)識符的正則表達(dá)式作為所述預(yù)設(shè)正則表達(dá)式。
6.一種網(wǎng)頁更新處理裝置,其特征在于,包括: 第一獲取模塊,用于獲取待檢測網(wǎng)頁的網(wǎng)頁地址; 第二獲取模塊,用于獲取所述網(wǎng)頁地址中用于標(biāo)識網(wǎng)頁更新時間的標(biāo)識字段; 第三獲取模塊,用于獲取預(yù)設(shè)基準(zhǔn)字段,所述預(yù)設(shè)基準(zhǔn)字段用于表示網(wǎng)頁更新統(tǒng)計(jì)的開始時間; 第一判斷模塊,用于判斷所述標(biāo)識字段對應(yīng)的時間是否不早于所述預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間;以及 確定模塊,用于當(dāng)所述標(biāo)識字段對應(yīng)的時間早于所述預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間時,則確定所述待檢測網(wǎng)頁不是新增頁面,當(dāng)所述標(biāo)識字段對應(yīng)的時間不早于所述預(yù)設(shè)基準(zhǔn)字段對應(yīng)的時間時,則確定所述待檢測網(wǎng)頁為新增頁面。
7.根據(jù)權(quán)利要求6所述的網(wǎng)頁更新處理裝置,其特征在于,所述第一獲取模塊包括: 第一獲取單元,用于從網(wǎng)站訪問日志中獲取所述待檢測網(wǎng)頁的訪問日志; 查找單元,用于查找所述訪問日志中標(biāo)識網(wǎng)頁地址的標(biāo)識符;以及 第二獲取單元,用于基于所述標(biāo)識符獲取所述網(wǎng)頁地址。
8.根據(jù)權(quán)利要求7所述的網(wǎng)頁更新處理裝置,其特征在于,在確定所述待檢測網(wǎng)頁為新增頁面之后,所述裝置還包括: 記錄模塊,用于記錄所述標(biāo)識字段; 第二判斷模塊,用于判斷是否獲取完畢所述網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志;比較模塊,用于當(dāng)判斷出獲取完畢所述網(wǎng)站訪問日志中的每一條網(wǎng)頁訪問日志時,t匕較記錄的所有所述標(biāo)識字段對應(yīng)的時間;以及 更新模塊,用于根據(jù)對應(yīng)最晚時間的所述標(biāo)識字段更新所述預(yù)設(shè)基準(zhǔn)字段。
9.根據(jù)權(quán)利要求6所述的網(wǎng)頁更新處理裝置,其特征在于,所述第二獲取模塊包括: 第三獲取單元,用于獲取預(yù)設(shè)正則表達(dá)式;以及 匹配單元,用于根據(jù)所述預(yù)設(shè)正則表達(dá)式對所述網(wǎng)頁地址進(jìn)行正則匹配,得到所述標(biāo)識字段。
10.根據(jù)權(quán)利要求9所述的網(wǎng)頁更新處理裝置,其特征在于,所述第三獲取單元包括: 第一確定單元,用于確定所述網(wǎng)頁地址的匹配類型,所述匹配類型包括日期型、數(shù)字序列型和全局唯一標(biāo)識符型;以及 選擇單元,用于當(dāng)所述網(wǎng)頁地址的匹配類型為日期型,則選擇用于匹配日期的正則表達(dá)式作為所述預(yù)設(shè)正則表達(dá)式,當(dāng)所述網(wǎng)頁地址的匹配類型為數(shù)字序列型時,則選擇用于匹配數(shù)字序列的正則表達(dá)式作為所述預(yù)設(shè)正則表達(dá)式,當(dāng)所述網(wǎng)頁地址的匹配類型為全局唯一標(biāo)識符型時,則選擇用于匹配全局唯一標(biāo)識符的正則表達(dá)式作為所述預(yù)設(shè)正則表達(dá)式。
【文檔編號】G06F17/30GK104182548SQ201410459114
【公開日】2014年12月3日 申請日期:2014年9月10日 優(yōu)先權(quán)日:2014年9月10日
【發(fā)明者】李新國, 馮鴛鶴 申請人:北京國雙科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1