亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種確定pc網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)及方法

文檔序號(hào):6640568閱讀:424來源:國知局
一種確定pc網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)及方法
【專利摘要】本發(fā)明涉及一種確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)和方法,其中,該方法包括:提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分,作為第一字段;提取PC網(wǎng)頁的標(biāo)題字段的至少一部分,作為第二字段;基于所述第一字段和第二字段對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配;驗(yàn)證匹配成功的移動(dòng)網(wǎng)頁和PC網(wǎng)頁分別對(duì)應(yīng)的URL是否相同;如果URL相同,則確定所述PC網(wǎng)頁與所述移動(dòng)網(wǎng)頁存在自適應(yīng)關(guān)系。本發(fā)明的技術(shù)方案能夠利用少量的PC網(wǎng)頁和移動(dòng)網(wǎng)頁,準(zhǔn)確地挖掘較全面的PC網(wǎng)頁和移動(dòng)網(wǎng)頁的自適應(yīng)對(duì)應(yīng)關(guān)系,降低PC網(wǎng)頁向移動(dòng)網(wǎng)頁轉(zhuǎn)化過程中所花費(fèi)的時(shí)間和資源。
【專利說明】一種確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)及方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體而言,涉及一種確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)和一種確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法。

【背景技術(shù)】
[0002]隨著移動(dòng)互聯(lián)網(wǎng)產(chǎn)業(yè)的快速發(fā)展,越來越多的用戶通過手機(jī)、PAD等移動(dòng)設(shè)備上網(wǎng)越來越普遍。3G各類wap網(wǎng)站開始蓬勃發(fā)展,很多傳統(tǒng)互聯(lián)網(wǎng)網(wǎng)站都希望將自己原有的PC網(wǎng)頁移植到移動(dòng)互聯(lián)網(wǎng)中,借助手機(jī)網(wǎng)絡(luò)用戶的增長(zhǎng),繼續(xù)保持發(fā)展。但是這些移動(dòng)設(shè)備和普通電腦不同,他們的屏幕相對(duì)于普通電腦的屏幕而言是非常小巧的,在普通電腦上可以顯示的網(wǎng)頁在移動(dòng)設(shè)備上瀏覽起來用戶體驗(yàn)并不好。
[0003]對(duì)于搜索引擎而言,當(dāng)用戶采用移動(dòng)設(shè)備進(jìn)行搜索時(shí)應(yīng)該提供適合移動(dòng)設(shè)備顯示的移動(dòng)網(wǎng)頁。目前,一種方案是針對(duì)移動(dòng)網(wǎng)頁單獨(dú)建立索引庫,當(dāng)用戶采用移動(dòng)設(shè)備進(jìn)行搜索時(shí),查詢移動(dòng)索引庫并且提供移動(dòng)網(wǎng)頁。這種方案缺點(diǎn)是需要單獨(dú)建索引庫并且需要重新計(jì)算移動(dòng)網(wǎng)頁和用戶搜索詞query的相關(guān)性以及權(quán)重。另一種方案是利用移動(dòng)UA(UserAgent,用戶代理)模擬移動(dòng)設(shè)備隨機(jī)抓取大量的PC網(wǎng)頁對(duì)應(yīng)的url (Uniform ResourceLocator,統(tǒng)一資源定位符),渲染并解析返回的網(wǎng)頁,如果為移動(dòng)網(wǎng)頁則為具有對(duì)應(yīng)關(guān)系,挖掘上述移動(dòng)網(wǎng)頁和PC網(wǎng)頁的對(duì)應(yīng)關(guān)系(調(diào)研發(fā)現(xiàn)90%以上的移動(dòng)網(wǎng)頁在PC上有對(duì)應(yīng)的PC網(wǎng)頁),當(dāng)用戶用移動(dòng)設(shè)備搜索時(shí)根據(jù)PC和移動(dòng)網(wǎng)頁的對(duì)應(yīng)關(guān)系展現(xiàn)和PC相對(duì)應(yīng)的移動(dòng)網(wǎng)頁,這種方案不需要單獨(dú)創(chuàng)建移動(dòng)索引庫,并且在出展現(xiàn)結(jié)果時(shí)根據(jù)PC網(wǎng)頁的相關(guān)性和權(quán)重直接平移到移動(dòng)網(wǎng)頁上,不需要重新計(jì)算。但是采用這種方案需要抓取大量的PC網(wǎng)頁對(duì)應(yīng)的url,而且選取哪些PC網(wǎng)頁對(duì)應(yīng)的url抓取是比較隨機(jī)的,而很多站點(diǎn)只是部分PC網(wǎng)頁有對(duì)應(yīng)的移動(dòng)網(wǎng)頁,這可能造成真正有對(duì)應(yīng)關(guān)系的PC網(wǎng)頁在選取時(shí)可能選取不到導(dǎo)致對(duì)應(yīng)關(guān)系挖掘不到,即使能夠選取到可能選取的量比較少也無法形成規(guī)則。
[0004]PC網(wǎng)頁和移動(dòng)網(wǎng)頁對(duì)應(yīng)關(guān)系分為自適應(yīng)和非自適應(yīng),自適應(yīng)指的是當(dāng)用戶利用移動(dòng)設(shè)備訪問PC網(wǎng)頁的時(shí)候站點(diǎn)自動(dòng)返回給用戶的是對(duì)應(yīng)的移動(dòng)網(wǎng)頁,非自適應(yīng)則不會(huì)。自適應(yīng)又分為跳轉(zhuǎn)和非跳轉(zhuǎn),跳轉(zhuǎn)指的是當(dāng)用戶用移動(dòng)設(shè)備訪問PC網(wǎng)頁對(duì)應(yīng)的url時(shí)站點(diǎn)返回的移動(dòng)網(wǎng)頁對(duì)應(yīng)的url和PC網(wǎng)頁對(duì)應(yīng)的url是不同的,非跳轉(zhuǎn)指的是當(dāng)用戶用移動(dòng)設(shè)備訪問PC網(wǎng)頁對(duì)應(yīng)的url時(shí)站點(diǎn)返回的移動(dòng)網(wǎng)頁對(duì)應(yīng)的url和PC網(wǎng)頁對(duì)應(yīng)的url從長(zhǎng)相上看是完全一樣的,只不過是內(nèi)容不同。
[0005]如何提供一種確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法,能夠準(zhǔn)確地利用少量的PC網(wǎng)頁和移動(dòng)網(wǎng)頁,挖掘較全面的PC網(wǎng)頁和移動(dòng)網(wǎng)頁的自適應(yīng)對(duì)應(yīng)關(guān)系,降低PC網(wǎng)頁向移動(dòng)網(wǎng)頁轉(zhuǎn)化過程中所花費(fèi)的時(shí)間和資源,成為目前急需解決的問題之一。


【發(fā)明內(nèi)容】

[0006]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決或者減緩上述問題的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)和相應(yīng)的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法。
[0007]根據(jù)本發(fā)明的一個(gè)方面,提供了一種確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng),該系統(tǒng)包括:
[0008]第一標(biāo)題字段提取器,用于提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分,作為第一字段;
[0009]第二標(biāo)題字段提取器,用于提取PC網(wǎng)頁的標(biāo)題字段的至少一部分,作為第二字段;
[0010]字段匹配器,用于根據(jù)所述第一字段和第二字段對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配;
[0011]URL比較器,用于驗(yàn)證匹配成功的移動(dòng)網(wǎng)頁和PC網(wǎng)頁分別對(duì)應(yīng)的URL是否相同;
[0012]自適應(yīng)關(guān)系確定器,在所述URL比較器判斷相同的情況下,確定所述PC網(wǎng)頁與所述移動(dòng)網(wǎng)頁存在自適應(yīng)關(guān)系。
[0013]優(yōu)選地,所述第一標(biāo)題字段提取器,在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分;所述第二標(biāo)題字段提取器,在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取PC網(wǎng)頁的標(biāo)題字段的至少一部分。
[0014]優(yōu)選地,所述字段匹配器進(jìn)一步包括:
[0015]第一數(shù)字簽名生成模塊,用于根據(jù)所述第一字段,生成所述移動(dòng)網(wǎng)頁的數(shù)字簽名,作為第一數(shù)字簽名;
[0016]第二數(shù)字簽名生成模塊,用于根據(jù)所述第二字段,生成所述PC網(wǎng)頁的數(shù)字簽名,作為第二數(shù)字簽名;
[0017]數(shù)字簽名匹配模塊,用于利用所述第一數(shù)字簽名和第二數(shù)字簽名對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配。
[0018]優(yōu)選地,所述第一數(shù)字簽名生成模塊進(jìn)一步包括:
[0019]第一分塊單元,用于對(duì)所述第一字段進(jìn)行分塊處理;
[0020]第一頻率統(tǒng)計(jì)單元,用于統(tǒng)計(jì)每個(gè)分塊在所述移動(dòng)網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率;
[0021]第一分塊選擇單元,用于選擇頻率最低的分塊作為所述移動(dòng)網(wǎng)頁的第一數(shù)字簽名;
[0022]所述第二數(shù)字簽名生成模塊進(jìn)一步包括:
[0023]第二分塊單元,用于對(duì)所述第二字段進(jìn)行分塊處理;
[0024]第二頻率統(tǒng)計(jì)單元,用于統(tǒng)計(jì)每個(gè)分塊在所述PC網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率;
[0025]第二分塊選擇單元,用于選擇頻率最低的分塊作為所述PC網(wǎng)頁的第二數(shù)字簽名。
[0026]優(yōu)選地,所述數(shù)字簽名匹配模塊進(jìn)一步包括:
[0027]第一簽名比較單元,用于比較所述第一數(shù)字簽名和第二數(shù)字簽名是否相同;
[0028]第一匹配判斷單元,用于在簽名比較單元確定所述第一數(shù)字簽名和第二數(shù)字簽名相同時(shí),判斷所述移動(dòng)網(wǎng)頁和PC網(wǎng)頁匹配。
[0029]優(yōu)選地,所述數(shù)字簽名匹配模塊進(jìn)一步包括:
[0030]第二簽名確定單元,用于確定所述第一數(shù)字簽名和第二數(shù)字簽名的相似度;
[0031]第二匹配判斷單元,用于在相似度高于預(yù)定閾值的情況下,判斷所述移動(dòng)網(wǎng)頁和PC網(wǎng)頁匹配。
[0032]優(yōu)選地,該系統(tǒng)還包括:
[0033]用戶代理器,用于檢測(cè)用戶的終端類型是移動(dòng)終端還是PC終端;
[0034]自適應(yīng)判斷器,用于判斷是否存在與用戶請(qǐng)求的PC網(wǎng)頁具有所述自適應(yīng)關(guān)系的移動(dòng)網(wǎng)頁;
[0035]移動(dòng)網(wǎng)頁推送器,用于在存在與用戶請(qǐng)求的PC網(wǎng)頁具有所述自適應(yīng)關(guān)系的移動(dòng)網(wǎng)頁的情況下,為用戶以非跳轉(zhuǎn)的方式推送所述移動(dòng)網(wǎng)頁。
[0036]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法,該方法包括:
[0037]提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分,作為第一字段;
[0038]提取PC網(wǎng)頁的標(biāo)題字段的至少一部分,作為第二字段;
[0039]基于所述第一字段和第二字段對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配;
[0040]驗(yàn)證匹配成功的移動(dòng)網(wǎng)頁和PC網(wǎng)頁分別對(duì)應(yīng)的URL是否相同;
[0041]如果URL相同,則確定所述PC網(wǎng)頁與所述移動(dòng)網(wǎng)頁存在自適應(yīng)關(guān)系。
[0042]優(yōu)選地,提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分具體為:在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分;提取PC網(wǎng)頁的標(biāo)題字段的至少一部分具體為:在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取PC網(wǎng)頁的標(biāo)題字段的至少一部分。
[0043]優(yōu)選地,根據(jù)所述第一字段和第二字段對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配,進(jìn)一步包括:
[0044]根據(jù)所述第一字段,生成所述移動(dòng)網(wǎng)頁的數(shù)字簽名,作為第一數(shù)字簽名;
[0045]根據(jù)所述第二字段,生成所述PC網(wǎng)頁的數(shù)字簽名,作為第二數(shù)字簽名;
[0046]利用所述第一數(shù)字簽名和第二數(shù)字簽名對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配。
[0047]優(yōu)選地,根據(jù)所述第一字段,生成所述移動(dòng)網(wǎng)頁的數(shù)字簽名,作為第一數(shù)字簽名,進(jìn)一步包括:
[0048]對(duì)所述第一字段進(jìn)行分塊處理;
[0049]統(tǒng)計(jì)每個(gè)分塊在所述移動(dòng)網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率;
[0050]選擇頻率最低的分塊作為所述移動(dòng)網(wǎng)頁的第一數(shù)字簽名;
[0051]根據(jù)所述第二字段,生成所述PC網(wǎng)頁的數(shù)字簽名,作為第二數(shù)字簽名,進(jìn)一步包括:
[0052]對(duì)所述第二字段進(jìn)行分塊處理;
[0053]統(tǒng)計(jì)每個(gè)分塊在所述PC網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率;
[0054]選擇頻率最低的分塊作為所述PC網(wǎng)頁的第二數(shù)字簽名。
[0055]優(yōu)選地,利用所述第一數(shù)字簽名和第二數(shù)字簽名對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配,進(jìn)一步包括:
[0056]比較所述第一數(shù)字簽名和第二數(shù)字簽名是否相同;
[0057]如果相同,則判斷所述移動(dòng)網(wǎng)頁和PC網(wǎng)頁匹配。
[0058]優(yōu)選地,利用所述第一數(shù)字簽名和第二數(shù)字簽名對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配,進(jìn)一步包括:
[0059]比較所述第一數(shù)字簽名和第二數(shù)字簽名的相似度;
[0060]如果相似度高于預(yù)定閾值,則判斷所述移動(dòng)網(wǎng)頁和PC網(wǎng)頁匹配。[0061 ] 優(yōu)選地,該方法還包括:
[0062]通過用戶代理邏輯檢測(cè)用戶的終端類型是移動(dòng)終端還是PC終端;
[0063]如果是移動(dòng)終端,則判斷是否存在與用戶請(qǐng)求的PC網(wǎng)頁具有所述自適應(yīng)關(guān)系的移動(dòng)網(wǎng)頁;
[0064]如果是,則為用戶以非跳轉(zhuǎn)的方式推送所述移動(dòng)網(wǎng)頁。
[0065]本發(fā)明的有益效果為:
[0066]本發(fā)明無需單獨(dú)創(chuàng)建移動(dòng)索引庫,并且不需要重新計(jì)算移動(dòng)網(wǎng)頁和用戶query的相關(guān)性以及權(quán)重,通過抓取少量的PC網(wǎng)頁和移動(dòng)網(wǎng)頁,利用少量的PC網(wǎng)頁和移動(dòng)網(wǎng)頁的標(biāo)題字段的匹配關(guān)系來針對(duì)性的選取需要待驗(yàn)證抓取的PC網(wǎng)頁對(duì)應(yīng)的URL,一方面節(jié)省了需要抓取的PC網(wǎng)頁對(duì)應(yīng)的URL的量,同時(shí)利用較少的抓取來挖掘較全面的PC網(wǎng)頁和移動(dòng)網(wǎng)頁的自適應(yīng)對(duì)應(yīng)關(guān)系,進(jìn)而實(shí)現(xiàn)移動(dòng)網(wǎng)頁的推送,節(jié)省了大量PC網(wǎng)頁向移動(dòng)網(wǎng)頁轉(zhuǎn)化過程中所花費(fèi)的時(shí)間和資源。
[0067]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。

【專利附圖】

【附圖說明】
[0068]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0069]圖1示意性示出了本發(fā)明一個(gè)實(shí)施例的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)的框圖;
[0070]圖2不意性不出了本發(fā)明另一個(gè)實(shí)施例的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)中的字段匹配器的框圖;
[0071 ] 圖3示意性示出了本發(fā)明另一個(gè)實(shí)施例的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)的框圖;
[0072]圖4示意性示出了本發(fā)明一個(gè)實(shí)施例的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法的流程圖;
[0073]圖5不意性不出了本發(fā)明另一個(gè)實(shí)施例的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法的步驟S13的細(xì)分流程圖;以及
[0074]圖6不意性不出了本發(fā)明另實(shí)施例的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法的流程圖。

【具體實(shí)施方式】
[0075]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
[0076]本【技術(shù)領(lǐng)域】技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個(gè)”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。
[0077]本【技術(shù)領(lǐng)域】技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語),具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語,應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會(huì)用理想化或過于正式的含義來解釋。
[0078]圖1示出了本發(fā)明一個(gè)實(shí)施例的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)的框圖。
[0079]參照?qǐng)D1,本發(fā)明實(shí)施例的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng),包括:
[0080]第一標(biāo)題字段提取器11,用于提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分,作為第一字段;
[0081]第二標(biāo)題字段提取器12,用于提取PC網(wǎng)頁的標(biāo)題字段的至少一部分,作為第二字段;
[0082]字段匹配器13,用于根據(jù)所述第一字段和第二字段對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配;
[0083]URL比較器14,用于驗(yàn)證匹配成功的移動(dòng)網(wǎng)頁和PC網(wǎng)頁分別對(duì)應(yīng)的URL是否相同;
[0084]自適應(yīng)關(guān)系確定器15,在所述URL比較器判斷相同的情況下,確定所述PC網(wǎng)頁與所述移動(dòng)網(wǎng)頁存在自適應(yīng)關(guān)系。
[0085]進(jìn)一步地,本發(fā)明實(shí)施例中的第一標(biāo)題字段提取器,在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分;所述第二標(biāo)題字段提取器,在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取PC網(wǎng)頁的標(biāo)題字段的至少一部分。
[0086]本發(fā)明實(shí)施例,首先利用pc網(wǎng)頁和移動(dòng)網(wǎng)頁的title匹配關(guān)系來針對(duì)性的選取需要待驗(yàn)證抓取的PC網(wǎng)頁對(duì)應(yīng)的URL以及具有相同title的移動(dòng)網(wǎng)頁;其中,網(wǎng)頁的title即當(dāng)前網(wǎng)頁的名稱。比如對(duì)應(yīng)的 URL 為 http://news.sohu.com/20141126/n406414760.shtml的PC網(wǎng)頁,該P(yáng)C網(wǎng)頁的title為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-搜狐新聞”,與上述PC網(wǎng)頁的title相匹配的移動(dòng)網(wǎng)頁對(duì)應(yīng)的URL為http://m.sohu.com/n/406414760/,該移動(dòng)網(wǎng)頁的title為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-新聞?lì)l道-手機(jī)搜狐”。通過提取移動(dòng)網(wǎng)頁的標(biāo)題字段即title的至少一部分,如“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-新聞?lì)l道-手機(jī)搜狐”作為第一字段;并提取PC網(wǎng)頁的標(biāo)題字段的至少一部分,如“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-搜狐新聞”作為第二字段;基于所述第一字段和第二字段對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配,可見上述的PC網(wǎng)頁和移動(dòng)網(wǎng)頁匹配成功,根據(jù)該匹配成功的移動(dòng)網(wǎng)頁和PC網(wǎng)頁分別對(duì)應(yīng)的URL生成URL模板,使用所述URL模板確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁的自適應(yīng)關(guān)系。
[0087]本發(fā)明實(shí)施例通過針對(duì)性的選取PC網(wǎng)頁對(duì)應(yīng)的URL,通過抓取盡量少的PC網(wǎng)頁對(duì)應(yīng)的URL來獲取較全面的pc和移動(dòng)網(wǎng)頁的自適應(yīng)對(duì)應(yīng)關(guān)系,達(dá)到挖掘移動(dòng)站點(diǎn)并且收錄其上的移動(dòng)網(wǎng)頁的目的。
[0088]更優(yōu)選地,本發(fā)明實(shí)施例中呈現(xiàn)移動(dòng)網(wǎng)頁的移動(dòng)終端包括但不限于手機(jī)、PDA、游戲機(jī)等。需要說明的是,所述搜狐新聞僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的新聞網(wǎng)站也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。
[0089]為了進(jìn)一步體現(xiàn)發(fā)明的優(yōu)越性,如下進(jìn)一步揭示本發(fā)明確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)中的字段匹配器13的在另一實(shí)施例中的內(nèi)部結(jié)構(gòu),來體現(xiàn)依據(jù)字段匹配器13實(shí)現(xiàn)的另一實(shí)施例的細(xì)節(jié)。參照?qǐng)D2,字段匹配器13進(jìn)一步包括第一數(shù)字簽名生成模塊131、第二數(shù)字簽名生成模塊132以及數(shù)字簽名匹配模塊133:
[0090]所述的第一數(shù)字簽名生成模塊131,用于根據(jù)所述第一字段,生成所述移動(dòng)網(wǎng)頁的數(shù)字簽名,作為第一數(shù)字簽名;
[0091]所述的第二數(shù)字簽名生成模塊132,用于根據(jù)所述第二字段,生成所述PC網(wǎng)頁的數(shù)字簽名,作為第二數(shù)字簽名;
[0092]所述的數(shù)字簽名匹配模塊133,用于利用所述第一數(shù)字簽名和第二數(shù)字簽名對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配。
[0093]進(jìn)一步地,本發(fā)明實(shí)施例中的第一數(shù)字簽名生成模塊131進(jìn)一步包括:第一分塊單元,用于對(duì)所述第一字段進(jìn)行分塊處理;第一頻率統(tǒng)計(jì)單元,用于統(tǒng)計(jì)每個(gè)分塊在所述移動(dòng)網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率;第一分塊選擇單元,用于選擇頻率最低的分塊作為所述移動(dòng)網(wǎng)頁的第一數(shù)字簽名;
[0094]進(jìn)一步地,本發(fā)明實(shí)施例中的第二數(shù)字簽名生成模塊131進(jìn)一步包括:第二分塊單元,用于對(duì)所述第二字段進(jìn)行分塊處理;第二頻率統(tǒng)計(jì)單元,用于統(tǒng)計(jì)每個(gè)分塊在所述PC網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率;第二分塊選擇單元,用于選擇頻率最低的分塊作為所述PC網(wǎng)頁的第二數(shù)字簽名。
[0095]本發(fā)明實(shí)施例中,提取移動(dòng)網(wǎng)頁title并且生成簽名、提取pc網(wǎng)頁標(biāo)題字段title并且生成簽名。在生成title對(duì)應(yīng)簽名的時(shí)候,通過利用特定的分隔符,比如等把title分割為不同的塊,統(tǒng)計(jì)每個(gè)分塊在對(duì)應(yīng)網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率,選擇頻率最低的分塊部分作為對(duì)應(yīng)網(wǎng)頁的數(shù)字簽名,而頻率較高的則為公用部分,進(jìn)而實(shí)現(xiàn)去掉title中公用的部分,只計(jì)算title中核心部分的簽名。比如PC網(wǎng)頁http://news.sohu.com/20141126/n406414760.shtml的title為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-搜狐新聞”,其中“搜狐新聞”是公用部分(存在于大量的網(wǎng)頁title中),“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡”在對(duì)應(yīng)網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率最低,則將“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡”作為PC網(wǎng)的標(biāo)簽。移動(dòng)網(wǎng)頁和Pc網(wǎng)頁的title需要采取同樣的方法處理。之所以這樣處理是因?yàn)榫哂袑?duì)應(yīng)關(guān)系的pc和移動(dòng)網(wǎng)頁title的公用部分是不同的。比如上述pc網(wǎng)頁URL對(duì)應(yīng)的移動(dòng)網(wǎng)頁的URL:http://m.sohu.com/n/406414760/的title為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-新聞?lì)l道-手機(jī)搜狐”,利用特定的分隔符,比如等把title進(jìn)行分塊處理后,其中公用部分為“新聞?lì)l道”和“手機(jī)搜狐”,則移動(dòng)網(wǎng)頁的標(biāo)簽確定為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡”。
[0096]進(jìn)一步地,本發(fā)明實(shí)施例中的數(shù)字簽名匹配模塊133進(jìn)一步包括:第一簽名比較單元,用于比較所述第一數(shù)字簽名和第二數(shù)字簽名是否相同;第一匹配判斷單元,用于在簽名比較單元確定所述第一數(shù)字簽名和第二數(shù)字簽名相同時(shí),判斷所述移動(dòng)網(wǎng)頁和PC網(wǎng)頁匹配。
[0097]本發(fā)明實(shí)施例,通過比較已經(jīng)生成的第一數(shù)字簽名和第二數(shù)字簽名,來匹配pc網(wǎng)頁和移動(dòng)網(wǎng)頁,簽名相同的記為一對(duì)。比如,上述PC網(wǎng)的標(biāo)簽為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡”,移動(dòng)網(wǎng)頁的標(biāo)簽為,“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡”,可見pc網(wǎng)頁和移動(dòng)網(wǎng)頁的簽名相同判斷所述移動(dòng)網(wǎng)頁和PC網(wǎng)頁匹配。則:pc網(wǎng)頁對(duì)應(yīng)的 url:http://news.sohu.com/20141126/n406414760.shtml 和移動(dòng)網(wǎng)頁對(duì)應(yīng)的 url:http://m.sohu.com/n/406414760/記為一對(duì),其中能匹配上移動(dòng)url的pc url稱為有對(duì)應(yīng)關(guān)系的pc url ο
[0098]進(jìn)一步地,本發(fā)明的另一實(shí)施例中的數(shù)字簽名匹配模塊133進(jìn)一步包括:第二簽名確定單元,用于確定所述第一數(shù)字簽名和第二數(shù)字簽名的相似度;第二匹配判斷單元,用于在相似度高于預(yù)定閾值的情況下,判斷所述移動(dòng)網(wǎng)頁和PC網(wǎng)頁匹配。
[0099]本發(fā)明實(shí)施例,通過比較已經(jīng)生成的第一數(shù)字簽名和第二數(shù)字簽名,來匹配pc網(wǎng)頁和移動(dòng)網(wǎng)頁,不僅可以將第一數(shù)字簽名和第二數(shù)字簽名相同的移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配,還可以如果PC網(wǎng)的標(biāo)簽與移動(dòng)網(wǎng)頁的標(biāo)簽為并不是完全相同,但是很相似,而且如果相似度高于預(yù)定閾值,則同樣判斷所述移動(dòng)網(wǎng)頁和PC網(wǎng)頁匹配。其中,能匹配上移動(dòng)url的pc url稱為有對(duì)應(yīng)關(guān)系的pc url。則可以判斷具有自適應(yīng)對(duì)應(yīng)關(guān)系并且是跳轉(zhuǎn)形式的,則為用戶以跳轉(zhuǎn)的方式推送所述移動(dòng)網(wǎng)頁。
[0100]為了進(jìn)一步體現(xiàn)發(fā)明的優(yōu)越性,如下進(jìn)一步揭示本發(fā)明確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng)的在另一實(shí)施例中的結(jié)構(gòu)。參照?qǐng)D3,本實(shí)施例中提出的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng),還包括:
[0101]用戶代理器16,用于檢測(cè)用戶的終端類型是移動(dòng)終端還是PC終端;
[0102]自適應(yīng)判斷器17,用于判斷是否存在與用戶請(qǐng)求的PC網(wǎng)頁具有所述自適應(yīng)關(guān)系的移動(dòng)網(wǎng)頁;
[0103]移動(dòng)網(wǎng)頁推送器18,用于在存在與用戶請(qǐng)求的PC網(wǎng)頁具有所述自適應(yīng)關(guān)系的移動(dòng)網(wǎng)頁的情況下,為用戶以非跳轉(zhuǎn)的方式推送所述移動(dòng)網(wǎng)頁。
[0104]本發(fā)明實(shí)施例,通過用戶代理邏輯檢測(cè)移動(dòng)終端的用戶,并根據(jù)用戶的搜索詞判斷是否存在與用戶請(qǐng)求的PC網(wǎng)頁具有所述自適應(yīng)關(guān)系的移動(dòng)網(wǎng)頁,如果PC url和相對(duì)應(yīng)的移動(dòng) url 長(zhǎng)相相同,如:比如:pc url:http://news.sohu.com/20141126/n406414760.shtml和移動(dòng)url:http://m.sohu.com/n/406414760/,則可以判斷具有自適應(yīng)對(duì)應(yīng)關(guān)系并且是非跳轉(zhuǎn)形式的,為用戶以非跳轉(zhuǎn)的方式推送所述移動(dòng)網(wǎng)頁。
[0105]本發(fā)明實(shí)施例提供的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng),利用少量的PC網(wǎng)頁和移動(dòng)網(wǎng)頁的標(biāo)題字段的匹配關(guān)系來針對(duì)性的選取需要待驗(yàn)證抓取的PC網(wǎng)頁對(duì)應(yīng)的URL, 一方面節(jié)省了需要抓取的PC網(wǎng)頁對(duì)應(yīng)的URL的量,同時(shí)利用較少的抓取來挖掘較全面的PC網(wǎng)頁和移動(dòng)網(wǎng)頁的自適應(yīng)對(duì)應(yīng)關(guān)系,進(jìn)而實(shí)現(xiàn)移動(dòng)網(wǎng)頁的推送,節(jié)省了大量PC網(wǎng)頁向移動(dòng)網(wǎng)頁轉(zhuǎn)化過程中所花費(fèi)的時(shí)間和資源。
[0106]圖4示出了本發(fā)明一個(gè)實(shí)施例的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法的流程圖。
[0107]參照?qǐng)D4,本發(fā)明實(shí)施例的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法包括以下步驟:
[0108]S11、提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分,作為第一字段;
[0109]S12、提取PC網(wǎng)頁的標(biāo)題字段的至少一部分,作為第二字段;
[0110]S13、基于所述第一字段和第二字段對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配;
[0111]S14、驗(yàn)證匹配成功的移動(dòng)網(wǎng)頁和PC網(wǎng)頁分別對(duì)應(yīng)的URL是否相同;
[0112]S15、如果URL相同,則確定所述PC網(wǎng)頁與所述移動(dòng)網(wǎng)頁存在自適應(yīng)關(guān)系。
[0113]進(jìn)一步地,本發(fā)明實(shí)施例中的第一標(biāo)題字段提取器,在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分;所述第二標(biāo)題字段提取器,在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取PC網(wǎng)頁的標(biāo)題字段的至少一部分。
[0114]本發(fā)明實(shí)施例,首先利用pc網(wǎng)頁和移動(dòng)網(wǎng)頁的title匹配關(guān)系來針對(duì)性的選取需要待驗(yàn)證抓取的PC網(wǎng)頁對(duì)應(yīng)的URL以及具有相同title的移動(dòng)網(wǎng)頁;其中,網(wǎng)頁的title即當(dāng)前網(wǎng)頁的名稱。比如對(duì)應(yīng)的 URL 為 http://news.sohu.com/20141126/n406414760.shtml的PC網(wǎng)頁,該P(yáng)C網(wǎng)頁的title為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-搜狐新聞”,與上述PC網(wǎng)頁的title相匹配的移動(dòng)網(wǎng)頁對(duì)應(yīng)的URL為http://m.sohu.com/n/406414760/,該移動(dòng)網(wǎng)頁的title為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-新聞?lì)l道-手機(jī)搜狐”。通過提取移動(dòng)網(wǎng)頁的標(biāo)題字段即title的至少一部分,如“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-新聞?lì)l道-手機(jī)搜狐”作為第一字段;并提取PC網(wǎng)頁的標(biāo)題字段的至少一部分,如“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-搜狐新聞”作為第二字段;基于所述第一字段和第二字段對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配,可見上述的PC網(wǎng)頁和移動(dòng)網(wǎng)頁匹配成功,根據(jù)該匹配成功的移動(dòng)網(wǎng)頁和PC網(wǎng)頁分別對(duì)應(yīng)的URL生成URL模板,使用所述URL模板確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁的自適應(yīng)關(guān)系。
[0115]本發(fā)明實(shí)施例通過針對(duì)性的選取PC網(wǎng)頁對(duì)應(yīng)的URL,通過抓取盡量少的PC網(wǎng)頁對(duì)應(yīng)的URL來獲取較全面的pc和移動(dòng)網(wǎng)頁的自適應(yīng)對(duì)應(yīng)關(guān)系,達(dá)到挖掘移動(dòng)站點(diǎn)并且收錄其上的移動(dòng)網(wǎng)頁的目的。
[0116]更優(yōu)選地,本發(fā)明實(shí)施例中呈現(xiàn)移動(dòng)網(wǎng)頁的移動(dòng)終端包括但不限于手機(jī)、PDA、游戲機(jī)等。需要說明的是,所述搜狐新聞僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的新聞網(wǎng)站也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。
[0117]為了進(jìn)一步體現(xiàn)發(fā)明的優(yōu)越性,如下進(jìn)一步揭示本發(fā)明確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法中步驟S13的細(xì)分步驟,來體現(xiàn)依據(jù)本步驟實(shí)現(xiàn)的另一實(shí)施例。參照?qǐng)D5,本步驟的細(xì)分步驟包括:
[0118]S131、根據(jù)所述第一字段,生成所述移動(dòng)網(wǎng)頁的數(shù)字簽名,作為第一數(shù)字簽名;
[0119]S132、根據(jù)所述第二字段,生成所述PC網(wǎng)頁的數(shù)字簽名,作為第二數(shù)字簽名;
[0120]S133、利用所述第一數(shù)字簽名和第二數(shù)字簽名對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配。
[0121]本發(fā)明實(shí)施例中,根據(jù)所述第一字段,生成所述移動(dòng)網(wǎng)頁的數(shù)字簽名,作為第一數(shù)字簽名,進(jìn)一步包括:對(duì)所述第一字段進(jìn)行分塊處理;統(tǒng)計(jì)每個(gè)分塊在所述移動(dòng)網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率;選擇頻率最低的分塊作為所述移動(dòng)網(wǎng)頁的第一數(shù)字簽名;
[0122]本發(fā)明實(shí)施例中,根據(jù)所述第二字段,生成所述PC網(wǎng)頁的數(shù)字簽名,作為第二數(shù)字簽名,進(jìn)一步包括:對(duì)所述第二字段進(jìn)行分塊處理;統(tǒng)計(jì)每個(gè)分塊在所述PC網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率;選擇頻率最低的分塊作為所述PC網(wǎng)頁的第二數(shù)字簽名。
[0123]本發(fā)明實(shí)施例中,提取移動(dòng)網(wǎng)頁title并且生成簽名、提取pc網(wǎng)頁標(biāo)題字段title并且生成簽名。在生成title對(duì)應(yīng)簽名的時(shí)候,通過利用特定的分隔符,比如等把title分割為不同的塊,統(tǒng)計(jì)每個(gè)分塊在對(duì)應(yīng)網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率,選擇頻率最低的分塊部分作為對(duì)應(yīng)網(wǎng)頁的數(shù)字簽名,而頻率較高的則為公用部分,進(jìn)而實(shí)現(xiàn)去掉title中公用的部分,只計(jì)算title中核心部分的簽名。比如PC網(wǎng)頁http://news.sohu.com/20141126/n406414760.shtml的title為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-搜狐新聞”,其中“搜狐新聞”是公用部分(存在于大量的網(wǎng)頁title中),“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡”在對(duì)應(yīng)網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率最低,則將“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡”作為PC網(wǎng)的標(biāo)簽。移動(dòng)網(wǎng)頁和Pc網(wǎng)頁的title需要采取同樣的方法處理。之所以這樣處理是因?yàn)榫哂袑?duì)應(yīng)關(guān)系的pc和移動(dòng)網(wǎng)頁title的公用部分是不同的。比如上述pc網(wǎng)頁URL對(duì)應(yīng)的移動(dòng)網(wǎng)頁的URL:http://m.sohu.com/n/406414760/的title為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡-新聞?lì)l道-手機(jī)搜狐”,利用特定的分隔符,比如等把title進(jìn)行分塊處理后,其中公用部分為“新聞?lì)l道”和“手機(jī)搜狐”,則移動(dòng)網(wǎng)頁的標(biāo)簽確定為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡”。
[0124]本發(fā)明實(shí)施例中,利用所述第一數(shù)字簽名和第二數(shù)字簽名對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配,進(jìn)一步包括:比較所述第一數(shù)字簽名和第二數(shù)字簽名是否相同;如果相同,則判斷所述移動(dòng)網(wǎng)頁和PC網(wǎng)頁匹配。
[0125]本發(fā)明實(shí)施例,通過比較已經(jīng)生成的第一數(shù)字簽名和第二數(shù)字簽名,來匹配pc網(wǎng)頁和移動(dòng)網(wǎng)頁,簽名相同的記為一對(duì)。比如,上述PC網(wǎng)的標(biāo)簽為“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡”,移動(dòng)網(wǎng)頁的標(biāo)簽為,“美軍無人機(jī)襲擊巴基斯坦西北部致至少8人死亡”,可見pc網(wǎng)頁和移動(dòng)網(wǎng)頁的簽名相同判斷所述移動(dòng)網(wǎng)頁和PC網(wǎng)頁匹配。則:pc網(wǎng)頁對(duì)應(yīng)的 url:http://news.sohu.com/20141126/n406414760.shtml 和移動(dòng)網(wǎng)頁對(duì)應(yīng)的 url:http://m.sohu.com/n/406414760/記為一對(duì),其中能匹配上移動(dòng)url的pc url稱為有對(duì)應(yīng)關(guān)系的pc url ο
[0126]本發(fā)明的另一實(shí)施例中,利用所述第一數(shù)字簽名和第二數(shù)字簽名對(duì)移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配,進(jìn)一步包括:比較所述第一數(shù)字簽名和第二數(shù)字簽名的相似度;如果相似度高于預(yù)定閾值,則判斷所述移動(dòng)網(wǎng)頁和PC網(wǎng)頁匹配。
[0127]本發(fā)明實(shí)施例,通過比較已經(jīng)生成的第一數(shù)字簽名和第二數(shù)字簽名,來匹配pc網(wǎng)頁和移動(dòng)網(wǎng)頁,不僅可以將第一數(shù)字簽名和第二數(shù)字簽名相同的移動(dòng)網(wǎng)頁和PC網(wǎng)頁進(jìn)行匹配,還可以如果PC網(wǎng)的標(biāo)簽與移動(dòng)網(wǎng)頁的標(biāo)簽為并不是完全相同,但是很相似,而且如果相似度高于預(yù)定閾值,則同樣判斷所述移動(dòng)網(wǎng)頁和PC網(wǎng)頁匹配。其中,能匹配上移動(dòng)url的pc url稱為有對(duì)應(yīng)關(guān)系的pc url。
[0128]為了進(jìn)一步體現(xiàn)發(fā)明的優(yōu)越性,如下進(jìn)一步揭示本發(fā)明確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法的另一實(shí)施例。參照?qǐng)D6,本發(fā)明確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法還包括:
[0129]通過用戶代理邏輯檢測(cè)用戶的終端類型是移動(dòng)終端還是PC終端;
[0130]如果是移動(dòng)終端,則判斷是否存在與用戶請(qǐng)求的PC網(wǎng)頁具有所述自適應(yīng)關(guān)系的移動(dòng)網(wǎng)頁;
[0131]如果是,則為用戶以非跳轉(zhuǎn)的方式推送所述移動(dòng)網(wǎng)頁。
[0132]本發(fā)明實(shí)施例,通過用戶代理邏輯檢測(cè)移動(dòng)終端的用戶,并根據(jù)用戶的搜索詞判斷是否存在與用戶請(qǐng)求的PC網(wǎng)頁具有所述自適應(yīng)關(guān)系的移動(dòng)網(wǎng)頁,如果PC url和相對(duì)應(yīng)的移動(dòng) url 長(zhǎng)相相同,如:比如:pc url:http://news.sohu.com/20141126/n406414760.shtml和移動(dòng)url:http://m.sohu.com/n/406414760/,則可以判斷具有自適應(yīng)對(duì)應(yīng)關(guān)系并且是非跳轉(zhuǎn)形式的,用戶以非跳轉(zhuǎn)的方式推送所述移動(dòng)網(wǎng)頁。
[0133]本發(fā)明實(shí)施例提供的確定PC網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法,利用少量的PC網(wǎng)頁和移動(dòng)網(wǎng)頁的標(biāo)題字段的匹配關(guān)系來針對(duì)性的選取需要待驗(yàn)證抓取的PC網(wǎng)頁對(duì)應(yīng)的URL, 一方面節(jié)省了需要抓取的PC網(wǎng)頁對(duì)應(yīng)的URL的量,同時(shí)利用較少的抓取來挖掘較全面的PC網(wǎng)頁和移動(dòng)網(wǎng)頁的自適應(yīng)對(duì)應(yīng)關(guān)系,進(jìn)而實(shí)現(xiàn)移動(dòng)網(wǎng)頁的推送,節(jié)省了大量PC網(wǎng)頁向移動(dòng)網(wǎng)頁轉(zhuǎn)化過程中所花費(fèi)的時(shí)間和資源。
[0134]綜上所述,本發(fā)明一方面節(jié)省了需要去抓的PC網(wǎng)頁對(duì)應(yīng)的URL量,同時(shí)利用較少的抓取來挖掘較全面的PC和移動(dòng)網(wǎng)頁的自適應(yīng)對(duì)應(yīng)關(guān)系,召回率較高,準(zhǔn)確率也得到了有效的提尚。
[0135]應(yīng)當(dāng)注意,在此提供的算法和公式不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示例一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
[0136]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
[0137]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本發(fā)明并幫助理解本發(fā)明各個(gè)方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法和裝置解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如權(quán)利要求書所反映,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0138]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
[0139]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。
[0140]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的網(wǎng)站安全檢測(cè)設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0141] 以上所述僅是本發(fā)明的部分實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1.一種確定?網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的系統(tǒng),包括:第一標(biāo)題字段提取器,用于提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分,作為第一字段;第二標(biāo)題字段提取器,用于提取網(wǎng)頁的標(biāo)題字段的至少一部分,作為第二字段;字段匹配器,用于根據(jù)所述第一字段和第二字段對(duì)移動(dòng)網(wǎng)頁和網(wǎng)頁進(jìn)行匹配;比較器,用于驗(yàn)證匹配成功的移動(dòng)網(wǎng)頁和網(wǎng)頁分別對(duì)應(yīng)的是否相同;自適應(yīng)關(guān)系確定器,在所述比較器判斷相同的情況下,確定所述網(wǎng)頁與所述移動(dòng)網(wǎng)頁存在自適應(yīng)關(guān)系。
2.如權(quán)利要求1所述的系統(tǒng),所述第一標(biāo)題字段提取器,在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分;所述第二標(biāo)題字段提取器,在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取網(wǎng)頁的標(biāo)題字段的至少一部分。
3.如權(quán)利要求1-2任一項(xiàng)所述的系統(tǒng),所述字段匹配器進(jìn)一步包括: 第一數(shù)字簽名生成模塊,用于根據(jù)所述第一字段,生成所述移動(dòng)網(wǎng)頁的數(shù)字簽名,作為第一數(shù)字簽名; 第二數(shù)字簽名生成模塊,用于根據(jù)所述第二字段,生成所述網(wǎng)頁的數(shù)字簽名,作為第二數(shù)字簽名; 數(shù)字簽名匹配模塊,用于利用所述第一數(shù)字簽名和第二數(shù)字簽名對(duì)移動(dòng)網(wǎng)頁和網(wǎng)頁進(jìn)行匹配。
4.一種確定?網(wǎng)頁與移動(dòng)網(wǎng)頁自適應(yīng)關(guān)系的方法,包括: 提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分,作為第一字段; 提取網(wǎng)頁的標(biāo)題字段的至少一部分,作為第二字段; 基于所述第一字段和第二字段對(duì)移動(dòng)網(wǎng)頁和網(wǎng)頁進(jìn)行匹配; 驗(yàn)證匹配成功的移動(dòng)網(wǎng)頁和網(wǎng)頁分別對(duì)應(yīng)的是否相同; 如果相同,則確定所述網(wǎng)頁與所述移動(dòng)網(wǎng)頁存在自適應(yīng)關(guān)系。
5.如權(quán)利要求4所述的方法,提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一少一部分具體為:在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取移動(dòng)網(wǎng)頁的標(biāo)題字段的至少一部分;提???網(wǎng)頁的標(biāo)題字段的至少一部分具體為:在網(wǎng)頁的源代碼頭部部分,根據(jù)預(yù)定標(biāo)簽提取網(wǎng)頁的標(biāo)題字段的至少一部分。
6.如權(quán)利要求4-5任一項(xiàng)所述的方法,根據(jù)所述第一字段和第二字段對(duì)移動(dòng)網(wǎng)頁和網(wǎng)頁進(jìn)行匹配,進(jìn)一步包括: 根據(jù)所述第一字段,生成所述移動(dòng)網(wǎng)頁的數(shù)字簽名,作為第一數(shù)字簽名; 根據(jù)所述第二字段,生成所述?¢:網(wǎng)頁的數(shù)字簽名,作為第二數(shù)字簽名; 利用所述第一數(shù)字簽名和第二數(shù)字簽名對(duì)移動(dòng)網(wǎng)頁和網(wǎng)頁進(jìn)行匹配。
7.如權(quán)利要求4-6任一項(xiàng)所述的方法,根據(jù)所述第一字段,生成所述移動(dòng)網(wǎng)頁的數(shù)字簽名,作為第一數(shù)字簽名,進(jìn)一步包括: 對(duì)所述第一字段進(jìn)行分塊處理; 統(tǒng)計(jì)每個(gè)分塊在所述移動(dòng)網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率; 選擇頻率最低的分塊作為所述移動(dòng)網(wǎng)頁的第一數(shù)字簽名; 根據(jù)所述第二字段,生成所述網(wǎng)頁的數(shù)字簽名,作為第二數(shù)字簽名,進(jìn)一步包括: 對(duì)所述第二字段進(jìn)行分塊處理; 統(tǒng)計(jì)每個(gè)分塊在所述網(wǎng)頁所屬網(wǎng)站中出現(xiàn)的頻率; 選擇頻率最低的分塊作為所述%網(wǎng)頁的第二數(shù)字簽名。
8.如權(quán)利要求4-7任一項(xiàng)所述的方法,利用所述第一數(shù)字簽名和第二數(shù)字簽名對(duì)移動(dòng)網(wǎng)頁和網(wǎng)頁進(jìn)行匹配,進(jìn)一步包括: 比較所述第一數(shù)字簽名和第二數(shù)字簽名是否相同; 如果相同,則判斷所述移動(dòng)網(wǎng)頁和%網(wǎng)頁匹配。
9.如權(quán)利要求4-8任一項(xiàng)所述的方法,利用所述第一數(shù)字簽名和第二數(shù)字簽名對(duì)移動(dòng)網(wǎng)頁和網(wǎng)頁進(jìn)行匹配,進(jìn)一步包括: 比較所述第一數(shù)字簽名和第二數(shù)字簽名的相似度; 如果相似度高于預(yù)定閾值,則判斷所述移動(dòng)網(wǎng)頁和網(wǎng)頁匹配。
10.如權(quán)利要求4-9任一項(xiàng)所述的方法,該方法還包括: 通過用戶代理邏輯檢測(cè)用戶的終端類型是移動(dòng)終端還是終端; 如果是移動(dòng)終端,則判斷是否存在與用戶請(qǐng)求的?網(wǎng)頁具有所述自適應(yīng)關(guān)系的移動(dòng)網(wǎng)頁; 如果是,則為用戶以非跳轉(zhuǎn)的方式推送所述移動(dòng)網(wǎng)頁。
【文檔編號(hào)】G06F17/30GK104504100SQ201410838598
【公開日】2015年4月8日 申請(qǐng)日期:2014年12月29日 優(yōu)先權(quán)日:2014年12月29日
【發(fā)明者】王智廣, 張飛虎 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1