本發(fā)明涉及網(wǎng)頁瀏覽技術(shù)領(lǐng)域,具體而言,涉及一種網(wǎng)頁頁面的預(yù)讀取方法、裝置及智能終端設(shè)備。
背景技術(shù):
隨著互聯(lián)網(wǎng)的普及、計(jì)算機(jī)作為家庭以及工作的必備產(chǎn)品之一,人們使用計(jì)算機(jī)上的瀏覽器訪問互聯(lián)網(wǎng)日趨頻繁;尤其隨著例如智能手機(jī)和平板電腦的智能終端產(chǎn)品的迅速普及,用戶使用終端瀏覽器訪問互聯(lián)網(wǎng)成為日常行為。在用戶使用瀏覽器打開網(wǎng)頁的過程中,如果當(dāng)前的網(wǎng)絡(luò)環(huán)境受限,或者終端設(shè)備的運(yùn)行速度受限,就會影響網(wǎng)頁的打開速度,造成用戶等待,用戶上網(wǎng)的體驗(yàn)感很差。影響網(wǎng)頁打開速度的主要原因是下載網(wǎng)頁內(nèi)容的時(shí)間過長。
目前,一般采用對可能需要的網(wǎng)頁進(jìn)行預(yù)讀取的方法來滿足用戶快速打開網(wǎng)頁的需要。該方法主要是在用戶瀏覽當(dāng)前網(wǎng)頁頁面的過程中,服務(wù)器端獲取用戶下一步可能需要的網(wǎng)頁,在用戶未瀏覽這些網(wǎng)頁之前先將這些網(wǎng)頁的網(wǎng)址及其資源加載到本地緩存中;當(dāng)用戶訪問其中某個(gè)網(wǎng)頁時(shí)直接從本地緩存中讀取相關(guān)數(shù)據(jù)來展示給用戶閱覽,避免了等待下載網(wǎng)頁的過程,縮短用戶進(jìn)行網(wǎng)頁訪問操作后的網(wǎng)頁響應(yīng)時(shí)間。
現(xiàn)有的網(wǎng)頁預(yù)讀取方法常見以下兩種:
第一、在用戶瀏覽連續(xù)內(nèi)容的某一個(gè)網(wǎng)頁時(shí)預(yù)讀取該網(wǎng)頁上包含的鏈接到相鄰網(wǎng)頁的一個(gè)或多個(gè)關(guān)鍵字,例如“下一頁”、“next page”等,然后依次取鏈接的網(wǎng)頁內(nèi)容并放入本地緩存中。
第二、從服務(wù)器端獲取網(wǎng)頁列表,然后依次讀取該網(wǎng)頁列表中各網(wǎng)頁內(nèi)容并放入本地緩存中。
由上可知,現(xiàn)有的第一種網(wǎng)頁預(yù)讀取方法只能適用于特定網(wǎng)頁,即只對一個(gè)較長的內(nèi)容被拆分成用超鏈接鏈起來的多個(gè)網(wǎng)頁有效,而對于大量不存在頁碼順序的其它網(wǎng)頁,如新聞網(wǎng)頁等,這種方法將無法預(yù)讀取到用戶后續(xù)可能訪問的網(wǎng)頁,因此并不能加快瀏覽器網(wǎng)頁頁面的顯示?,F(xiàn)有的第二種網(wǎng)頁預(yù)讀取方法則需要預(yù)讀取大量的數(shù)據(jù)并載入本地緩存,嚴(yán)重占用緩存空間,甚至造成緩存空間不足的情況發(fā)生。
另外,人們還提出基于網(wǎng)頁上的熱點(diǎn)鏈接來“猜測”用戶可能訪問的網(wǎng)頁的思路,然后對這些網(wǎng)頁進(jìn)行有針對性的預(yù)讀取,以提高預(yù)讀取的有效性。例如,2012年9月12日公開的申請?zhí)枮?01210074771.6的中國專利文獻(xiàn),名稱為“一種網(wǎng)頁預(yù)加載方法及系統(tǒng)”,該方法為:確定源網(wǎng)頁內(nèi)包含的熱點(diǎn)鏈接,對熱點(diǎn)鏈接對應(yīng)的目標(biāo)網(wǎng)頁進(jìn)行預(yù)加載;但是,該專利文獻(xiàn)中公開的確定熱點(diǎn)鏈接的方式還是本領(lǐng)域技術(shù)人員容易想到的方法,例如根據(jù)源網(wǎng)頁A中某鏈接被點(diǎn)擊的總次數(shù)來確定是否為熱點(diǎn)鏈接;以用戶對各個(gè)鏈接的點(diǎn)擊順序。這種方法確定熱點(diǎn)鏈接的準(zhǔn)確率偏低。例如,該申請?zhí)枮?01210074771.6的專利文獻(xiàn)的第0099段中就自述了“在實(shí)際應(yīng)用中,可能存在雖然用戶點(diǎn)擊了某鏈接,但是用戶可能并不喜歡或者不是特別喜歡這個(gè)鏈接的情況,在這種情況下,如果單純地通過點(diǎn)擊次數(shù)來區(qū)分一個(gè)鏈接是否為熱點(diǎn)鏈接,可能會使得結(jié)果 不夠準(zhǔn)確”。同樣,以用戶對各個(gè)鏈接的點(diǎn)擊順序來確定熱點(diǎn)鏈接的準(zhǔn)確率也是偏低的。例如,還存在用戶對源網(wǎng)頁上包含的多個(gè)熱點(diǎn)鏈接都感興趣的情況,其不一定每天都是按照固定順序點(diǎn)擊,當(dāng)某個(gè)熱點(diǎn)鏈接出現(xiàn)熱點(diǎn)信息時(shí),用戶也許先點(diǎn)擊該熱點(diǎn)鏈接。例如足球世界杯期間,用戶會先點(diǎn)擊世界杯比賽新聞;在世界杯期間,某款非常著名品牌召開新品發(fā)布會,用戶會先點(diǎn)擊關(guān)于該新品的熱點(diǎn)鏈接。因此,即便將這兩種方式組合,用該組合方式確定熱點(diǎn)鏈接的準(zhǔn)確率也將偏低。
另外,申請?zhí)枮?01210074771.6的專利文獻(xiàn)并沒有考慮熱點(diǎn)鏈接還存在熱度隨著時(shí)間衰減的問題。例如,美國籃球NBA總比賽結(jié)束后的一段時(shí)間,用戶關(guān)注NBA欄目的熱度會顯著降低。還例如,熱點(diǎn)新聞或熱點(diǎn)頭條每天都在出現(xiàn),今天的熱點(diǎn)新聞或熱點(diǎn)頭條到明天也許熱度就降低了,一星期之后也許就沒人關(guān)注了。
2014年1月8日公開的申請?zhí)枮?01310461879.5的中國專利文獻(xiàn),名稱為“基于預(yù)讀取的網(wǎng)頁頁面熱點(diǎn)資源更新方法和裝置”,其主要提出了針對鏈接的熱度進(jìn)行熱度衰減處理的方法。但是,該專利文獻(xiàn)中已經(jīng)將其熱度定義為:“熱度H可以表示出在過去預(yù)定時(shí)長的時(shí)間窗內(nèi)該點(diǎn)出頁被點(diǎn)擊的次數(shù)”(見第0047段),其與申請?zhí)枮?01210074771.6的中國專利文獻(xiàn)公開的熱點(diǎn)鏈接的確定方式是一樣,這就同樣存在確定熱度的準(zhǔn)確率偏低的缺陷;另外,該專利文獻(xiàn)還提出時(shí)間衰減因子和熱度衰減因子,利用該衰減因子來進(jìn)行熱度衰減處理;但是該專利文獻(xiàn)并沒有給出如何設(shè)置或者得到該衰減因子,僅僅籠統(tǒng)的說通過對客戶端日志進(jìn)行數(shù)據(jù)挖掘后而設(shè)置的,對不同的來源地址配置的時(shí)間衰減因子X和熱度衰減因子Y通常并不相同。因?yàn)樵谏暾執(zhí)枮?01310461879.5的中國專利文獻(xiàn) 中,獲得準(zhǔn)確的時(shí)間衰減因子和熱度衰減因子對于鏈接的熱度的處理結(jié)果至關(guān)重要,而其沒有給出具體的設(shè)置準(zhǔn)確的時(shí)間衰減因子和熱度衰減因子的方法,因此存在利用該衰減因子來進(jìn)行熱度衰減處理得到熱度的準(zhǔn)確率偏低的缺陷;另外,其時(shí)間衰減處理過程是:N=N×X×T/Now,式中,X為時(shí)間衰減因子,T為鏈接對信息中的點(diǎn)出頁第一次被訪問的時(shí)間,Now為當(dāng)前時(shí)間(如服務(wù)器當(dāng)前時(shí)間),上述第一次被訪問的時(shí)間以及當(dāng)前時(shí)間均可以包括:年、月、日、小時(shí)、分鐘以及秒;該時(shí)間衰減處理過程同樣存在不具備普遍性的缺陷,以致無法適用于所有的網(wǎng)頁熱度的有效確定。例如,足球世界杯期間,即便非球迷的用戶也會關(guān)注或點(diǎn)擊世界杯比賽的新聞,但球迷和非球迷的關(guān)注世界杯比賽的時(shí)間長度不一樣,世界杯比賽結(jié)束,球迷用戶依然會點(diǎn)擊世界杯的相關(guān)新聞,包括回放欄目等,而非球迷將不會再點(diǎn)擊世界杯的相關(guān)新聞。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種網(wǎng)頁頁面的預(yù)讀取方法、裝置及智能終端設(shè)備,以改善上述的問題。
在本發(fā)明的實(shí)施例中提供了一種網(wǎng)頁頁面預(yù)讀取方法,其特征在于,包括:
獲取一個(gè)或多個(gè)用戶在一個(gè)時(shí)間段內(nèi)對所有網(wǎng)頁頁面的訪問信息;
分析訪問信息和確定多個(gè)參數(shù)值;
根據(jù)確定的多個(gè)參數(shù)值來確定每條從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的點(diǎn)擊路徑的熱度值;
基于熱度值將多條點(diǎn)擊路徑制成網(wǎng)頁頁面的預(yù)讀取列表;
從預(yù)讀取列表中查詢當(dāng)前瀏覽的網(wǎng)頁的點(diǎn)擊路徑,從而預(yù)讀取相應(yīng)待瀏覽的目標(biāo)網(wǎng)頁數(shù)據(jù)。
優(yōu)選的,在獲取一個(gè)或多個(gè)用戶在一個(gè)時(shí)間段內(nèi)對所有網(wǎng)頁頁面的訪問信息時(shí)對每個(gè)網(wǎng)頁頁面的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗的預(yù)處理的步驟。
優(yōu)選的,所述參數(shù)包括:所有網(wǎng)頁頁面中的每個(gè)網(wǎng)頁頁面的點(diǎn)擊量、從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的點(diǎn)擊路徑的點(diǎn)擊次數(shù)、占比率和點(diǎn)擊率、從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的用戶數(shù)、和從第一網(wǎng)頁頁面點(diǎn)擊出的第二網(wǎng)頁頁面的數(shù)量。
優(yōu)選的,在確定每條點(diǎn)擊路徑的熱度值之前篩選掉網(wǎng)頁頁面的點(diǎn)擊量低于網(wǎng)頁點(diǎn)擊量閾值的網(wǎng)頁頁面,和篩選掉點(diǎn)擊路徑的占比率低于占比率閾值的點(diǎn)擊路徑。
優(yōu)選的,在根據(jù)確定的多個(gè)參數(shù)值來確定每條從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的點(diǎn)擊路徑的熱度值的步驟中,該計(jì)算方法為:
式中,hot(refer,url)表示點(diǎn)擊路徑refer-->url的熱度值;
pv:表示第一網(wǎng)頁頁面refer的點(diǎn)擊量;
pv_ru:表示從第一網(wǎng)頁頁面refer點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面url的點(diǎn)擊次數(shù);
ratio:表示點(diǎn)擊路徑(refer-->url)的占比率;
ctr:表示當(dāng)前路徑(refer-->url)的點(diǎn)擊率;
uv:表示訪問該點(diǎn)擊路徑refer-->url的用戶數(shù);
url_num:表示從第一網(wǎng)頁頁面refer點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面url的數(shù)量。
優(yōu)選的,在根據(jù)確定的多個(gè)參數(shù)值來確定每條從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的點(diǎn)擊路徑的熱度值的步驟中,該計(jì)算方法為:
式中,hot(refer,url)表示點(diǎn)擊路徑refer-->url的熱度值;
i:表示距離當(dāng)前計(jì)算時(shí)間的時(shí)間數(shù);
pv:表示第一網(wǎng)頁頁面refer的點(diǎn)擊量;
pv_ru:表示從第一網(wǎng)頁頁面refer點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面url的點(diǎn)擊次數(shù);
ratio:表示點(diǎn)擊路徑(refer-->url)的占比率;
ctr:表示當(dāng)前路徑(refer-->url)的點(diǎn)擊率;
uv:表示訪問該點(diǎn)擊路徑refer-->url的用戶數(shù);
url_num:表示從第一網(wǎng)頁頁面refer點(diǎn)擊出的第二網(wǎng)頁頁面url的數(shù)量。
優(yōu)選的,利用威爾遜區(qū)間公式對參數(shù)ctr進(jìn)行置信區(qū)間計(jì)算,取區(qū)間下限作為參數(shù)ctr的最終值。
優(yōu)選的,在基于熱度值將多條點(diǎn)擊路徑制成網(wǎng)頁頁面的預(yù)讀取列表的步驟中,以熱度值大小進(jìn)行有序排列的方式將多條點(diǎn)擊路徑制成網(wǎng)頁頁面的預(yù)讀取列表。
優(yōu)選的,在制成網(wǎng)頁頁面的預(yù)讀取列表之前,篩選掉熱度值低于預(yù)設(shè)熱度閾值的點(diǎn)擊路徑。
優(yōu)選的,在從預(yù)讀取列表中查詢當(dāng)前瀏覽的網(wǎng)頁的點(diǎn)擊路徑,從而預(yù)讀取相應(yīng)待瀏覽的目標(biāo)網(wǎng)頁數(shù)據(jù)的步驟中,從預(yù)讀取列表中查詢以當(dāng)前瀏覽的網(wǎng)頁點(diǎn)擊出多個(gè)目標(biāo)網(wǎng)頁的多條點(diǎn)擊路徑,選擇最大熱度值的點(diǎn)擊路徑來預(yù)讀取目標(biāo)網(wǎng)頁數(shù)據(jù),或者按熱度值的降 序方式預(yù)讀取多個(gè)目標(biāo)網(wǎng)頁數(shù)據(jù);當(dāng)預(yù)讀取列表中不存在從當(dāng)前瀏覽的網(wǎng)頁點(diǎn)擊出目標(biāo)網(wǎng)頁的點(diǎn)擊路徑時(shí),不觸發(fā)預(yù)讀取操作。
在本發(fā)明的實(shí)施例中還提供了一種網(wǎng)頁頁面預(yù)讀取裝置,其特征在于,包括:
獲取模塊、分析處理模塊、確定模塊、生成模塊、和預(yù)讀取模塊,其中:
所述獲取模塊用于獲取用戶在一個(gè)時(shí)間段內(nèi)對所有網(wǎng)頁頁面的訪問信息;
所述分析處理模塊用于分析訪問信息和確定多個(gè)參數(shù)值;
所述確定模塊用于根據(jù)確定的多個(gè)參數(shù)值來確定每條從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的點(diǎn)擊路徑的熱度值;
所述生成模塊用于基于熱度值將多條點(diǎn)擊路徑制成網(wǎng)頁頁面的預(yù)讀取列表;
所述預(yù)讀取模塊用于從預(yù)讀取列表中查詢當(dāng)前瀏覽的網(wǎng)頁的點(diǎn)擊路徑,從而預(yù)讀取相應(yīng)待瀏覽的目標(biāo)網(wǎng)頁數(shù)據(jù)。
優(yōu)選的,還包括:預(yù)處理模塊,用于對網(wǎng)頁數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。
優(yōu)選的,還包括:第一篩選模塊,用于篩選掉網(wǎng)頁頁面的點(diǎn)擊量低于網(wǎng)頁點(diǎn)擊量閾值的網(wǎng)頁頁面,和篩選掉點(diǎn)擊路徑的占比率低于占比率閾值的點(diǎn)擊路徑。
優(yōu)選的,還包括:第二篩選模塊,用于篩選掉熱度值低于預(yù)設(shè)熱度閾值的點(diǎn)擊路徑。
在本發(fā)明的實(shí)施例中還提供了一種智能終端設(shè)備,其特征在于,包括如上所述的網(wǎng)頁頁面預(yù)讀取裝置。
本發(fā)明實(shí)施例提供的技術(shù)方案的有益效果是:結(jié)合分析確定的網(wǎng)頁頁面的多個(gè)參數(shù)值來得出用戶訪問網(wǎng)頁的熱度趨勢,能夠提前 給用戶預(yù)讀取出網(wǎng)頁數(shù)據(jù)的命中概率大大提高,進(jìn)而保證了預(yù)讀取的高準(zhǔn)確性和高有效性,在預(yù)讀取高概率的網(wǎng)頁數(shù)據(jù)并保存到本地緩存后,提高了用戶打開網(wǎng)頁頁面的速度,提升了用戶體驗(yàn)。
附圖說明
圖1是本發(fā)明的網(wǎng)頁頁面預(yù)讀取方法的流程圖;
圖2是本發(fā)明的網(wǎng)頁頁面預(yù)讀取裝置的結(jié)構(gòu)示意圖;
圖3是本發(fā)明的網(wǎng)頁頁面預(yù)讀取裝置的一個(gè)優(yōu)選實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。通常在此處附圖中描述和示出的本發(fā)明實(shí)施例的組件可以以各種不同的配置來布置和設(shè)計(jì)。因此,以下對在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例。基于本發(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
下面將結(jié)合本發(fā)明的附圖和具體實(shí)施例,對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述。
圖1是本發(fā)明的網(wǎng)頁頁面的預(yù)讀取方法的流程圖。
如圖1所示,本發(fā)明的第一實(shí)施例提供了一種網(wǎng)頁頁面的預(yù)讀取方法,包括:
步驟S101:獲取用戶在一個(gè)時(shí)間段內(nèi)對所有網(wǎng)頁頁面的訪問信息。
獲取用戶在一個(gè)時(shí)間段內(nèi)對所有網(wǎng)頁頁面的訪問信息的方式可以采用讀取用戶的終端設(shè)備的網(wǎng)絡(luò)訪問的客戶端上網(wǎng)記錄日志的方式,也可以采用讀取服務(wù)器保存的訪問網(wǎng)頁頁面的上網(wǎng)記錄日志的方式來獲取。而且如果日志中沒有記錄每個(gè)頁面的訪問量,在這里還可以在獲取了所有網(wǎng)頁的信息后,統(tǒng)計(jì)每個(gè)網(wǎng)頁的訪問量以及時(shí)間分布情況等等。用戶可以是1個(gè),也可以是多個(gè)。一般來說,獲取多個(gè)不特定用戶在一個(gè)時(shí)間段內(nèi)訪問的所有網(wǎng)頁頁面的方式優(yōu)選采用讀取服務(wù)器保存的訪問網(wǎng)頁頁面的上網(wǎng)記錄日志的方式。該日志記錄的信息內(nèi)容是本領(lǐng)域的技術(shù)人員都知道的,這里不再舉例說明。同樣的,記錄和獲取用戶上網(wǎng)和瀏覽網(wǎng)頁的方法可以采用任何公知的方法,例如2013年12月11日公開的申請?zhí)枮?01310364722.0的中國專利文獻(xiàn),名稱為“一種用戶操作日志信息的記錄及讀取方法”,又如2015年4月15日公開的申請?zhí)枮?01510038747.0的中國專利文獻(xiàn),名稱為“一種移動用戶上網(wǎng)記錄的生成方法及系統(tǒng)”。這里可以獲取1個(gè)或多個(gè)用戶在一個(gè)時(shí)間段內(nèi)對所有網(wǎng)頁頁面的訪問信息。這里所述的一個(gè)時(shí)間段可以根據(jù)實(shí)際應(yīng)用情況來設(shè)定。例如,當(dāng)要獲取多個(gè)用戶的訪問情況時(shí),該一段時(shí)間可以設(shè)定為多個(gè)小時(shí),例如12個(gè)小時(shí)、24個(gè)小時(shí)、30個(gè)小時(shí)、36個(gè)小時(shí)等等;當(dāng)要獲取1個(gè)用戶的訪問情況時(shí),該一段時(shí)間可以設(shè)定為多日,例如5日、7日、10日、15日等等。
在另一個(gè)實(shí)施例中,在獲取用戶在一個(gè)時(shí)間段內(nèi)對所有網(wǎng)頁頁面的訪問信息時(shí)對每個(gè)網(wǎng)頁頁面的數(shù)據(jù)進(jìn)行預(yù)處理的步驟。所述預(yù)處理的步驟包括:數(shù)據(jù)清洗。通常,無論是客戶端保存的上網(wǎng)記錄 日志還是服務(wù)器保存的上網(wǎng)記錄日志都會記錄大量的信息,其中包括非網(wǎng)絡(luò)請求數(shù)據(jù)、不規(guī)范數(shù)據(jù)以及非主文檔請求數(shù)據(jù)、不一致的無關(guān)的數(shù)據(jù)。例如,日志數(shù)據(jù)中可以包括用戶IP地址、用戶ID、請求訪問的URL、請求方法、訪問時(shí)間、傳輸協(xié)議、傳輸?shù)淖止?jié)數(shù)、錯(cuò)誤代碼、用戶代理等屬性。用戶的一次網(wǎng)頁瀏覽請求可能會讓瀏覽器自動下載多個(gè)文件,如一些圖片等,下載的所有文件構(gòu)成一個(gè)網(wǎng)頁頁面視圖,構(gòu)成一次請求對應(yīng)多個(gè)日志項(xiàng)的情況。
因此有必要先對日志記錄的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗的預(yù)處理,將無關(guān)的數(shù)據(jù)從日志記錄的數(shù)據(jù)中清除掉。例如,清洗掉URL擴(kuò)展名:一般信息網(wǎng)站中,只是網(wǎng)頁頁面正文與用戶的請求有關(guān),而網(wǎng)頁頁面上的圖片類的網(wǎng)頁頁面請求(后綴名為gif,jpg等)和腳本類文件(后綴名為js,cgi,css的文件)可以被認(rèn)為是與用戶請求無關(guān)的,應(yīng)將其刪除。通常情況下,用戶不會指定請求某個(gè)網(wǎng)頁上的全部圖片和腳本文件,日志中的圖片和腳本文件大多是進(jìn)行網(wǎng)頁框架配置的腳本內(nèi)容的網(wǎng)頁中攜帶的圖片信息,該圖片和腳本文件在用戶瀏覽網(wǎng)頁頁面文字內(nèi)容時(shí)作為附屬文件自動下載的,這些圖片和腳本文件不能真實(shí)反映出用戶的請求行為,在數(shù)據(jù)清洗過程中將會被刪除。
通過數(shù)據(jù)清洗,將與用戶請求無關(guān)的數(shù)據(jù)清除掉,獲得適合于后續(xù)的統(tǒng)計(jì)、分析操作的可靠的精確數(shù)據(jù),有利于得到準(zhǔn)確的統(tǒng)計(jì)和分析結(jié)果,更利于減少數(shù)據(jù)的運(yùn)算量。
步驟S102:分析訪問信息和確定多個(gè)參數(shù)值。
所述參數(shù)可以包括:所有網(wǎng)頁頁面中的每個(gè)網(wǎng)頁頁面的點(diǎn)擊量、從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的點(diǎn)擊路徑的點(diǎn)擊次數(shù)、占 比率和點(diǎn)擊率、從第一網(wǎng)頁頁面點(diǎn)擊出第二網(wǎng)頁頁面的用戶數(shù)、和第一網(wǎng)頁頁面點(diǎn)擊出的第二網(wǎng)頁頁面的數(shù)量。
分析確定所有網(wǎng)頁頁面中的每個(gè)網(wǎng)頁頁面被訪問的次數(shù),即點(diǎn)擊量。
分析確定從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的點(diǎn)擊路徑的點(diǎn)擊次數(shù),即點(diǎn)擊量。
分析確定從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的點(diǎn)擊路徑的占比率,該占比率為在設(shè)定的時(shí)間段內(nèi)從第一網(wǎng)頁頁面點(diǎn)擊出第二網(wǎng)頁頁面的次數(shù)與從該第一網(wǎng)頁頁面點(diǎn)擊出所有網(wǎng)頁頁面的次數(shù)的百分比。
分析確定從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的點(diǎn)擊路徑的點(diǎn)擊率,也就是用該點(diǎn)擊路徑的點(diǎn)擊量除以第一網(wǎng)頁頁面的點(diǎn)擊量。
分析確定從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的用戶數(shù)。
分析確定從第一網(wǎng)頁頁面點(diǎn)擊出的第二網(wǎng)頁頁面的數(shù)量。
通常,通過例如PC瀏覽器或智能終端瀏覽器等各種瀏覽器在打開某網(wǎng)頁之后,會在瀏覽器界面中展現(xiàn)出構(gòu)成該網(wǎng)頁的各種元素,例如,可能包括文字、圖片、音頻、視頻等等內(nèi)容,還可能包括鏈接這種常見的網(wǎng)頁頁面元素。訪問者點(diǎn)擊網(wǎng)頁內(nèi)的鏈接就可以自動跳轉(zhuǎn)到鏈接的目標(biāo)處,其通常是另一個(gè)網(wǎng)頁。用戶通過瀏覽器瀏覽的各種網(wǎng)頁頁面的各種信息都會記錄在所有終端設(shè)備的網(wǎng)絡(luò)訪問的客戶端上網(wǎng)記錄日志中,例如訪問的時(shí)間(包括訪問開始時(shí)間和訪問結(jié)束時(shí)間)、URL地址、傳送的內(nèi)容類型等。為了便于區(qū)分,可以將鏈接對應(yīng)的一個(gè)網(wǎng)頁稱為下一個(gè)網(wǎng)頁或目標(biāo)網(wǎng)頁,將網(wǎng)頁內(nèi)容中包含有該鏈接的網(wǎng)頁稱為當(dāng)前網(wǎng)頁或源網(wǎng)頁,點(diǎn)擊路徑就是從 當(dāng)前網(wǎng)頁(源網(wǎng)頁)頁面點(diǎn)擊進(jìn)入另一個(gè)網(wǎng)頁(目標(biāo)網(wǎng)頁)頁面的路徑,通常來說,該路徑的尾部是當(dāng)前網(wǎng)頁(源網(wǎng)頁)頁面,該路徑的頭部是用戶點(diǎn)擊出的另一個(gè)網(wǎng)頁(目標(biāo)網(wǎng)頁)頁面。
在本實(shí)施例中,假設(shè)一個(gè)時(shí)間段為12個(gè)小時(shí),每個(gè)網(wǎng)頁頁面的點(diǎn)擊量就是在12個(gè)小時(shí)內(nèi)該網(wǎng)頁頁面被點(diǎn)擊的次數(shù)。從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的點(diǎn)擊路徑的占比率就是在12個(gè)小時(shí)內(nèi)從第一網(wǎng)頁頁面點(diǎn)擊出第二網(wǎng)頁頁面的次數(shù)占從該第一網(wǎng)頁頁面點(diǎn)擊出所有網(wǎng)頁頁面的次數(shù)的百分比。例如,用戶在12小時(shí)內(nèi)從例如UC瀏覽器首頁上的資訊中心網(wǎng)頁頁面(第一網(wǎng)頁頁面)點(diǎn)擊出體育欄網(wǎng)頁頁面(第二網(wǎng)頁頁面)的次數(shù)為3次,而在該12小時(shí)內(nèi)從該資訊中心網(wǎng)頁頁面(第一網(wǎng)頁頁面)點(diǎn)擊出所有網(wǎng)頁頁面的次數(shù)為20次,所述被點(diǎn)擊出的所有網(wǎng)頁例如是新聞欄網(wǎng)頁頁面、體育欄網(wǎng)頁頁面、娛樂欄網(wǎng)頁頁面、財(cái)經(jīng)欄網(wǎng)頁頁面、社會欄網(wǎng)頁頁面、NBA欄網(wǎng)頁頁面等,則從所述資訊中心網(wǎng)頁頁面(第一網(wǎng)頁頁面)點(diǎn)擊出所述體育欄網(wǎng)頁頁面(第二網(wǎng)頁頁面)的點(diǎn)擊路徑的占比率為15%;同樣的,如果用戶在12小時(shí)內(nèi)從所述資訊中心網(wǎng)頁頁面(第一網(wǎng)頁頁面)點(diǎn)擊出娛樂欄網(wǎng)頁頁面(第二網(wǎng)頁頁面)的次數(shù)為5次,該點(diǎn)擊路徑的占比率則為25%。
步驟S102中涉及的參數(shù)都是對于本領(lǐng)域的技術(shù)人員來說都是公知的參數(shù),這里不再做過多解釋。步驟S103:根據(jù)上述確定的多個(gè)參數(shù)值來確定每條從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的點(diǎn)擊路徑的熱度值。
下面通過幾個(gè)例子來說明如何確定點(diǎn)擊路徑的熱度值。
實(shí)例1:
直接使用上述確定的多個(gè)參數(shù)值來確定每條點(diǎn)擊路徑的熱度值的方法為:
式中,hot(refer,url)表示點(diǎn)擊路徑refer-->url的熱度值;
pv:表示第一網(wǎng)頁頁面refer的點(diǎn)擊量;
pv_ru:表示從第一網(wǎng)頁頁面refer點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面url的點(diǎn)擊次數(shù),即點(diǎn)擊路徑refer-->url的點(diǎn)擊量;
ratio:表示點(diǎn)擊路徑(refer-->url)的占比率;
ctr:表示當(dāng)前點(diǎn)擊路徑(refer-->url)的點(diǎn)擊率,也就是當(dāng)前點(diǎn)擊路徑的點(diǎn)擊量除以第一網(wǎng)頁頁面refer的點(diǎn)擊量;
uv:表示訪問點(diǎn)擊路徑refer-->url的用戶數(shù);
url_num:表示從第一網(wǎng)頁頁面refer點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面url的數(shù)量。
實(shí)例2:
當(dāng)設(shè)定的時(shí)間段的時(shí)長較短,就會出現(xiàn)獲取的用戶訪問的網(wǎng)頁量過少的可能性,為了彌補(bǔ)這一不利影響,發(fā)明人對參數(shù)ctr做了做置信區(qū)間計(jì)算,也就是利用公知的威爾遜區(qū)間公式,取區(qū)間下限作為參數(shù)ctr的最終值;然后,采用上述公式(1)計(jì)算得到每條點(diǎn)擊路徑的熱度值。
實(shí)例3:
考慮到熱度隨著時(shí)間衰減的因素,本發(fā)明提供了使用上述確定的多個(gè)參數(shù)值來確定每條點(diǎn)擊路徑的熱度值的第二種方法為:
式中,hot(refer,url)表示點(diǎn)擊路徑refer-->url的熱度值;
i:表示距離當(dāng)前計(jì)算時(shí)間的時(shí)間數(shù);該時(shí)間數(shù)可以是小時(shí)數(shù)或者天數(shù);
pv:表示第一網(wǎng)頁頁面refer的點(diǎn)擊量;
pv_ru:表示從第一網(wǎng)頁頁面refer點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面url的點(diǎn)擊次數(shù),即點(diǎn)擊路徑refer-->url的點(diǎn)擊量;
ratio:表示點(diǎn)擊路徑(refer-->url)的占比率;
ctr:表示當(dāng)前點(diǎn)擊路徑(refer-->url)的點(diǎn)擊率,也就是當(dāng)前點(diǎn)擊路徑的點(diǎn)擊量除以第一網(wǎng)頁頁面refer的點(diǎn)擊量;
uv:表示訪問點(diǎn)擊路徑refer-->url的用戶數(shù);即從第一網(wǎng)頁頁面refer點(diǎn)擊出第二網(wǎng)頁頁面url的用戶數(shù);
url_num:表示從第一網(wǎng)頁頁面refer點(diǎn)擊出的第二網(wǎng)頁頁面url的數(shù)量。
在上式(2)中,當(dāng)考慮以小時(shí)為熱度衰減的時(shí)間單位時(shí),i值為距離當(dāng)前計(jì)算時(shí)間的小時(shí)數(shù);當(dāng)考慮以天為熱度衰減的時(shí)間單位時(shí),i值為距離當(dāng)前計(jì)算時(shí)間的天數(shù)。
當(dāng)然,還可以采用實(shí)例2與實(shí)例3相結(jié)合的方式來計(jì)算每條點(diǎn)擊路徑的熱度值。
在另一個(gè)實(shí)施例中,在確定每條點(diǎn)擊路徑的熱度值之前篩選掉網(wǎng)頁頁面的點(diǎn)擊量低于網(wǎng)頁點(diǎn)擊量閾值的網(wǎng)頁頁面,和篩選掉點(diǎn)擊路徑的占比率低于占比率閾值的點(diǎn)擊路徑。
所述網(wǎng)頁點(diǎn)擊量閾值和所述占比率閾值可以根據(jù)實(shí)際應(yīng)用情況而定。例如當(dāng)設(shè)定收集用戶訪問網(wǎng)頁的一個(gè)時(shí)間段為不同值時(shí),例如12個(gè)小時(shí)、24個(gè)小時(shí)、30個(gè)小時(shí),或者5日、7日、10日等,所述網(wǎng)頁點(diǎn)擊量閾值和所述占比率閾值可以相應(yīng)地設(shè)置為不同的 值。當(dāng)收集訪問網(wǎng)頁的用戶數(shù)不同時(shí),所述網(wǎng)頁點(diǎn)擊量閾值和所述占比率閾值也可以相應(yīng)地設(shè)置為不同的值。
步驟S104:基于熱度值將多條點(diǎn)擊路徑制成網(wǎng)頁頁面的預(yù)讀取列表。
將多條點(diǎn)擊路徑制成網(wǎng)頁頁面的預(yù)讀取列表,該預(yù)讀取列表中的多條點(diǎn)擊路徑可以是有序排列的。經(jīng)過步驟S103之后,每條點(diǎn)擊路徑都有了一個(gè)熱度值,可以以熱度值的大小進(jìn)行排序的方式將多條點(diǎn)擊路徑制成網(wǎng)頁頁面的預(yù)讀取列表,即預(yù)讀取列表中的多條點(diǎn)擊路徑可以以熱度值的大小進(jìn)行有序排列。
在另一個(gè)實(shí)施例中,如果統(tǒng)計(jì)出的點(diǎn)擊路徑數(shù)量非常多,可以先篩選掉熱度值低的點(diǎn)擊路徑,以減少數(shù)據(jù)的運(yùn)算量,還可以避免將用戶不會瀏覽的網(wǎng)頁數(shù)據(jù)預(yù)讀取并載入本地緩存,從而節(jié)省緩存空間資源的占用??梢愿鶕?jù)經(jīng)驗(yàn)值來預(yù)設(shè)熱度閾值,篩選掉熱度值低于熱度閾值的點(diǎn)擊路徑。為了減少數(shù)據(jù)的運(yùn)算量,可以在制成網(wǎng)頁頁面的預(yù)讀取列表之前,先篩選掉熱度值低于預(yù)設(shè)熱度閾值的點(diǎn)擊路徑。
步驟S105:從預(yù)讀取列表中查詢當(dāng)前瀏覽的網(wǎng)頁的點(diǎn)擊路徑,從而預(yù)讀取相應(yīng)待瀏覽的目標(biāo)網(wǎng)頁數(shù)據(jù)。
當(dāng)用戶瀏覽當(dāng)前網(wǎng)頁或第一網(wǎng)頁頁面時(shí),從預(yù)讀取列表中查詢以當(dāng)前網(wǎng)頁或第一網(wǎng)頁頁面作為源網(wǎng)頁的點(diǎn)擊路徑。當(dāng)預(yù)讀取列表中存在從當(dāng)前網(wǎng)頁或第一網(wǎng)頁點(diǎn)擊出多個(gè)目標(biāo)網(wǎng)頁的多條點(diǎn)擊路徑時(shí),可以選擇最大熱度值的點(diǎn)擊路徑來預(yù)讀取目標(biāo)網(wǎng)頁并載入本地緩存,當(dāng)然為了保證預(yù)讀取目標(biāo)網(wǎng)頁的準(zhǔn)確率,可以按熱度值的 降序方式預(yù)讀取多個(gè)目標(biāo)網(wǎng)頁并載入本地緩存,例如預(yù)讀取2個(gè)、3個(gè)、4個(gè)或更多目標(biāo)網(wǎng)頁。該目標(biāo)網(wǎng)頁就是步驟S105中的相應(yīng)待瀏覽的網(wǎng)頁。
另外,當(dāng)預(yù)讀取列表中不存在從當(dāng)前瀏覽的網(wǎng)頁點(diǎn)擊出目標(biāo)網(wǎng)頁的點(diǎn)擊路徑時(shí),不觸發(fā)預(yù)讀取操作,當(dāng)用戶點(diǎn)擊下一個(gè)網(wǎng)頁頁面時(shí)從網(wǎng)絡(luò)服務(wù)器獲取對應(yīng)的網(wǎng)頁信息。
如果用戶不請求新的網(wǎng)頁而直接停止瀏覽網(wǎng)頁,如關(guān)閉瀏覽器,則釋放預(yù)讀取的網(wǎng)頁數(shù)據(jù),避免沒有使用的預(yù)讀取的網(wǎng)頁數(shù)據(jù)占用大量的本地緩存資源。
本發(fā)明實(shí)施例提供的網(wǎng)頁頁面預(yù)讀取方法,其有益效果是:結(jié)合分析確定的網(wǎng)頁頁面的多個(gè)參數(shù)值來得出用戶訪問網(wǎng)頁的熱度趨勢,能夠提前給用戶預(yù)讀取出網(wǎng)頁數(shù)據(jù)的命中概率大大提高,進(jìn)而保證了預(yù)讀取的高準(zhǔn)確性和高有效性,在預(yù)讀取高概率的網(wǎng)頁數(shù)據(jù)并保存到本地緩存后,提高了用戶打開網(wǎng)頁頁面的速度,提升了用戶體驗(yàn)。
圖2是本發(fā)明的網(wǎng)頁頁面預(yù)讀取裝置的結(jié)構(gòu)示意圖。如圖2所示,本發(fā)明的網(wǎng)頁頁面預(yù)讀取裝置包括:獲取模塊201、分析處理模塊202、確定模塊203、生成模塊204、和預(yù)讀取模塊205,其中:
所述獲取模塊201用于獲取用戶在一個(gè)時(shí)間段內(nèi)對所有網(wǎng)頁頁面的訪問信息;
所述分析處理模塊202用于分析訪問信息和確定多個(gè)參數(shù)值。所述參數(shù)包括:所有網(wǎng)頁頁面中的每個(gè)網(wǎng)頁頁面的點(diǎn)擊量、從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的點(diǎn)擊路徑的點(diǎn)擊次數(shù)、占比率和 點(diǎn)擊率、從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的用戶數(shù)、和從第一網(wǎng)頁頁面點(diǎn)擊出的第二網(wǎng)頁頁面的數(shù)量;
所述確定模塊203用于根據(jù)確定的多個(gè)參數(shù)值來確定每條從第一網(wǎng)頁頁面點(diǎn)擊進(jìn)入第二網(wǎng)頁頁面的點(diǎn)擊路徑的熱度值;
所述生成模塊204用于基于熱度值將多條點(diǎn)擊路徑制成網(wǎng)頁頁面的預(yù)讀取列表;
所述預(yù)讀取模塊205用于從預(yù)讀取列表中查詢當(dāng)前瀏覽的網(wǎng)頁的點(diǎn)擊路徑,從而預(yù)讀取相應(yīng)待瀏覽的目標(biāo)網(wǎng)頁數(shù)據(jù)。
所述網(wǎng)頁頁面預(yù)讀取裝置實(shí)施例中各個(gè)模塊的具體功能和交互方式可參見圖1對應(yīng)實(shí)施例的記載,在此不再贅述。
進(jìn)一步的,所述獲取模塊包括預(yù)處理模塊,用于對網(wǎng)頁數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。
圖3是本發(fā)明的網(wǎng)頁頁面預(yù)讀取裝置的一個(gè)優(yōu)選實(shí)施例的結(jié)構(gòu)示意圖。如圖3所示,
進(jìn)一步的,所述網(wǎng)頁頁面預(yù)讀取裝置還包括第一篩選模塊206,用于篩選掉網(wǎng)頁頁面的點(diǎn)擊量低于網(wǎng)頁點(diǎn)擊量閾值的網(wǎng)頁頁面,和篩選掉點(diǎn)擊路徑的占比率低于占比率閾值的點(diǎn)擊路徑。
進(jìn)一步的,所述網(wǎng)頁頁面預(yù)讀取裝置還包括第二篩選模塊207,用于篩選掉熱度值低于預(yù)設(shè)熱度閾值的點(diǎn)擊路徑。
在本發(fā)明的實(shí)施例中還提供了一種智能終端設(shè)備,其包括如上所述的網(wǎng)頁頁面預(yù)讀取裝置。
本發(fā)明實(shí)施例提供的基于用戶訪問熱度的網(wǎng)頁頁面預(yù)讀取裝置,其有益效果是:結(jié)合分析確定的網(wǎng)頁頁面的多個(gè)參數(shù)值來得出用戶訪問網(wǎng)頁的熱度趨勢,能夠提前給用戶預(yù)讀取出網(wǎng)頁數(shù)據(jù)的命 中概率大大提高,進(jìn)而保證了預(yù)讀取的高準(zhǔn)確性和高有效性,在預(yù)讀取高概率的網(wǎng)頁數(shù)據(jù)并保存到本地緩存后,提高了用戶打開網(wǎng)頁頁面的速度,提升了用戶體驗(yàn)。
本發(fā)明實(shí)施例所提供的基于用戶訪問熱度的網(wǎng)頁頁面預(yù)讀取方法的計(jì)算機(jī)程序產(chǎn)品,包括存儲了程序代碼的計(jì)算機(jī)可讀存儲介質(zhì),所述程序代碼包括的指令可用于執(zhí)行前面方法實(shí)施例中所述的方法,具體實(shí)現(xiàn)可參見方法實(shí)施例,在此不再贅述。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置的具體工作過程,可以參考前述方法實(shí)施例中的對應(yīng)過程,在此不再贅述。
所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲在一個(gè)計(jì)算機(jī)可讀取存儲介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在一個(gè)存儲介質(zhì)中,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機(jī)存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。