本發(fā)明屬于網(wǎng)頁(yè)瀏覽行為分析技術(shù)領(lǐng)域,特別涉及一種基于TF-IDF和樸素貝葉斯多維度的網(wǎng)頁(yè)瀏覽行為評(píng)估方法。
背景技術(shù):
瀏覽網(wǎng)頁(yè)行為評(píng)估方法對(duì)實(shí)現(xiàn)人員的行為習(xí)慣分析有著重要的作用和意義。傳統(tǒng)的網(wǎng)頁(yè)瀏覽分析由問卷調(diào)查的方法已經(jīng)不能滿足社會(huì)信息化發(fā)展的需求。近年來(lái)針對(duì)不同種類人群的網(wǎng)絡(luò)行為分析,研究者提出了相應(yīng)的分析方法,如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹、KNN方法、遺傳方法等。
朱全銀、賈笑穎等人已有的研究基礎(chǔ)包括:朱全銀,嚴(yán)云洋,周培,谷天峰.一種基于線性插補(bǔ)與自適應(yīng)滑動(dòng)窗口的商品價(jià)格預(yù)測(cè)模型.山東大學(xué)學(xué)報(bào).2012,Vol.42(5):53-58;朱全銀,潘祿,劉文儒,等.Web科技新聞分類抽取方法[J].淮陰工學(xué)院學(xué)報(bào),2015,24(5):18-24;李翔,朱全銀.聯(lián)合聚類和評(píng)分矩陣共享的協(xié)同過(guò)濾推薦[J].計(jì)算機(jī)科學(xué)與探索,2014,8(6):751-759;Quanyin Zhu,Sunqun Cao.A Novel Classifier-independent Feature Selection Algorithm for Imbalanced Datasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The Case Study for Price Extracting of Mobile Phone Sell Online.2011,p:282-285;Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast based on Dichotomy Backfilling and Disturbance Factor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093;Zhu Quan-yin,Yin Yonghua,Yan Yun-yang,Gu Tian-feng.A Novel Efficient AdaptiveSliding Window Model for Week-ahead Price Forecasting.TELKOMNIKAIndonesian Journal of Electrical Engineering.2014.Vol.12(3):2219-2226;Zhu Quanyin,Pan Lu,Yin Yonghua LiXiang.Influence on Normalization and Magnitude Normalization for PriceForecasting of Agricultural Products.Information Technology Journal(ITJ).2013.Vol.12(15):3046-3057;Quanyin Zhu,Jin Ding,Yonghua Yin,Pei Zhou.A Hybrid Approach for New Products Discovery of Cell Phone Based on Web Mining.Journal of Information and Computational Science(JICS).2012,Vol.9(16):5039-5046。朱全銀、賈笑穎等人申請(qǐng)、公開與授權(quán)的相關(guān)專利:朱全銀,尹永華,嚴(yán)云楊,曹蘇群等,一種基于神經(jīng)網(wǎng)絡(luò)的多品種商品價(jià)格預(yù)測(cè)的數(shù)據(jù)預(yù)處理方法.中國(guó)專利:ZL 201210325368.6,2016.06.08;朱全銀,胡蓉靜,何蘇群,周培等.一種基于線性插補(bǔ)與自適應(yīng)滑動(dòng)窗口的商品價(jià)格預(yù)測(cè)方法.中國(guó)專利:ZL 201110423015.5,2015.07.01;朱全銀,曹蘇群,嚴(yán)云洋,胡蓉靜等,一種基于二分?jǐn)?shù)據(jù)修補(bǔ)與擾亂因子的商品價(jià)格預(yù)測(cè)方法.中國(guó)專利:ZL201110422274.6,2015.07.01;朱全銀,辛誠(chéng),李翔,潘舒新等,一種基于K-means和LDA雙向驗(yàn)證的網(wǎng)絡(luò)行為習(xí)慣聚類方法.中國(guó)專利公開號(hào):CN106202480A,2016.12.07;朱全銀,辛誠(chéng),劉斌,潘舒新等,一種基于分類語(yǔ)料庫(kù)-關(guān)鍵詞詞頻-記錄關(guān)聯(lián)的網(wǎng)絡(luò)行為習(xí)慣量化方法.中國(guó)專利公開號(hào)CN106202498A,2016.12.07;李翔,朱全銀,胡榮林,周泓.一種基于譜聚類的冷鏈物流配載智能推薦方法.中國(guó)專利公開號(hào):CN105654267A,2016.06.08。
TF-IDF:
TF-IDF(Term Frequency–Inverse Document Frequency)是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù)。在一份給定的文件里,詞頻(Term Frequency,TF)指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù);逆向文件頻率(Inverse Document Frequency,IDF)是一個(gè)詞語(yǔ)普遍重要性的度量,某一特定詞語(yǔ)的IDF,可以由總文件數(shù)目除以包含該詞語(yǔ)之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。
樸素貝葉斯方法:
樸素貝葉斯方法是文本分類的一種熱門方法,文本分類是以詞頻為特征判斷文件所屬類別或其他的問題。樸素貝葉斯分類器是一系列以假設(shè)特征之間強(qiáng)獨(dú)立下運(yùn)用貝葉斯定理為基礎(chǔ)的簡(jiǎn)單概率分類器。樸素貝葉斯分類器是高度可擴(kuò)展的,因此需要數(shù)量與學(xué)習(xí)問題中的變量(特征/預(yù)測(cè)器)成線性關(guān)系的參數(shù)。最大似然訓(xùn)練可以通過(guò)評(píng)估一個(gè)封閉形式的表達(dá)式來(lái)完成,只需花費(fèi)線性時(shí)間,而不需要其他很多類型的分類器所使用的費(fèi)時(shí)的迭代逼近。
拉普拉斯平滑參數(shù):
拉普拉斯平滑(Lamplace Smoothing)是一種比較常用的平滑方法,用于解決零概率問題。所謂的零概率問題,就是在計(jì)算新實(shí)例的概率時(shí),如果某個(gè)分量在訓(xùn)練集中從沒出現(xiàn)過(guò),會(huì)導(dǎo)致整個(gè)實(shí)例的概率計(jì)算結(jié)果為0。針對(duì)這種情況,使用拉普拉斯平滑值后,在計(jì)算數(shù)據(jù)的最大似然估計(jì)時(shí),會(huì)在計(jì)算公式中加上取值范圍的大小,從而修正樸素貝葉斯算法,避免了零概率的出現(xiàn)。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:針對(duì)現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種減少網(wǎng)頁(yè)瀏覽數(shù)據(jù)量,節(jié)約時(shí)間;能夠準(zhǔn)確反映人員的網(wǎng)頁(yè)瀏覽行為的多維度網(wǎng)頁(yè)瀏覽行為評(píng)估方法。
技術(shù)方案:為解決上述技術(shù)問題,本發(fā)明提供的一種多維度網(wǎng)頁(yè)瀏覽行為評(píng)估方法,包括如下步驟:
步驟一:對(duì)搜狗語(yǔ)料庫(kù)中的文本分詞,計(jì)算詞語(yǔ)的詞頻TF和逆向文件概率IDF作為文本特征,采用樸素貝葉斯方法對(duì)語(yǔ)料庫(kù)進(jìn)行文本分類訓(xùn)練,得到文本訓(xùn)練集,對(duì)搜狗語(yǔ)料庫(kù)中的文本折半切分,得到驗(yàn)證測(cè)試集,通過(guò)遍歷,得到最優(yōu)拉普拉斯平滑參數(shù)Alpha;
步驟二:通過(guò)一種改進(jìn)型的自適應(yīng)網(wǎng)頁(yè)爬取方法,對(duì)待處理的網(wǎng)頁(yè)瀏覽數(shù)據(jù)進(jìn)行標(biāo)題數(shù)據(jù)的爬取,得到處理后的已瀏覽網(wǎng)頁(yè)標(biāo)題集;
步驟三:對(duì)步驟二中處理后的已瀏覽網(wǎng)頁(yè)標(biāo)題集進(jìn)行分詞,得到網(wǎng)頁(yè)分詞集,使用步驟一中的拉普拉斯平滑參數(shù)Alpha的樸素貝葉斯方法對(duì)網(wǎng)頁(yè)分詞集進(jìn)行分類,得到已瀏覽網(wǎng)頁(yè)分類集,設(shè)置網(wǎng)頁(yè)類型判斷閾值,將大于閾值的網(wǎng)頁(yè)分詞集加入文本訓(xùn)練集中;
步驟四:對(duì)處理后的網(wǎng)頁(yè)分類、瀏覽時(shí)間、瀏覽終端等網(wǎng)頁(yè)瀏覽數(shù)據(jù)進(jìn)行預(yù)處理,采用終端-時(shí)間-分類判別方法對(duì)處理后的網(wǎng)頁(yè)瀏覽數(shù)據(jù)進(jìn)行評(píng)估,得到網(wǎng)頁(yè)瀏覽行為評(píng)估結(jié)果。
進(jìn)一步的,所述步驟一中得到最優(yōu)拉普拉斯平滑參數(shù)Alpha的具體方法為:
步驟1.1:定義網(wǎng)頁(yè)分類類型、搜狗語(yǔ)料庫(kù)文本類型和停用詞;
步驟1.2:對(duì)搜狗語(yǔ)料庫(kù)中的文本進(jìn)行分詞并且剔除停用詞;
步驟1.3:計(jì)算分詞后文本詞語(yǔ)的詞頻TF和逆向文件概率IDF;
步驟1.4:以TF-IDF作為文本特征,使用樸素貝葉斯方法訓(xùn)練搜狗語(yǔ)料庫(kù)中的文本,得到文本訓(xùn)練集;
步驟1.5:將搜狗語(yǔ)料庫(kù)中的文本折半拆分,作為驗(yàn)證測(cè)試集,通過(guò)遍歷,得到使用樸素貝葉斯方法時(shí)的最優(yōu)拉普拉斯平滑參數(shù)Alpha。
進(jìn)一步的,所述步驟二中得到處理后的已瀏覽網(wǎng)頁(yè)標(biāo)題集的具體方法為:
步驟2.1:定義已瀏覽網(wǎng)頁(yè)地址集、網(wǎng)頁(yè)停用詞集和已瀏覽網(wǎng)頁(yè)標(biāo)題集;
步驟2.2:將已瀏覽網(wǎng)頁(yè)地址集中的URL按照目錄分隔符“/”進(jìn)行切割,得到處理后的URL,使用網(wǎng)頁(yè)爬取程序按照從右至左依次爬取URL,獲取網(wǎng)頁(yè)中的title、description和keywords,并且剔除網(wǎng)頁(yè)停用詞;
步驟2.3:當(dāng)爬取到最后一個(gè)URL時(shí),將URL按照域名分隔符“.”進(jìn)行切割,得到處理后的URL,使用網(wǎng)頁(yè)爬取程序按照從左至右依次爬取URL,獲取網(wǎng)頁(yè)中的title、description和keywords,并且剔除網(wǎng)頁(yè)停用詞;
步驟2.4:將步驟2.2和步驟2.3中得到的網(wǎng)頁(yè)數(shù)據(jù)加入到網(wǎng)頁(yè)標(biāo)題集中,得到處理后的已瀏覽網(wǎng)頁(yè)標(biāo)題集。
進(jìn)一步的,所述步驟三中得到已瀏覽網(wǎng)頁(yè)分類集,并通過(guò)閾值判斷重新對(duì)文本訓(xùn)練集進(jìn)行訓(xùn)練的具體方法為:
步驟3.1:定義網(wǎng)頁(yè)類型判斷閾值為0.82;
步驟3.2:對(duì)處理好的已瀏覽網(wǎng)頁(yè)標(biāo)題集進(jìn)行分詞,得到網(wǎng)頁(yè)標(biāo)題分詞集,使用拉普拉斯平滑參數(shù)為Alpha的樸素貝葉斯方法對(duì)網(wǎng)頁(yè)進(jìn)行分類,得到已瀏覽網(wǎng)頁(yè)分類集和對(duì)應(yīng)的網(wǎng)頁(yè)類型召回率集;
步驟3.3:將召回率大于網(wǎng)頁(yè)類型判斷閾值的網(wǎng)頁(yè)分詞集加入到文本訓(xùn)練集中,重新對(duì)文本訓(xùn)練集進(jìn)行訓(xùn)練。
進(jìn)一步的,所述步驟四中得到網(wǎng)頁(yè)瀏覽行為評(píng)估結(jié)果的具體方法為:
步驟4.1:定義瀏覽網(wǎng)頁(yè)時(shí)的停留時(shí)間集、瀏覽終端集、網(wǎng)頁(yè)有效瀏覽集、網(wǎng)頁(yè)無(wú)效瀏覽集和網(wǎng)頁(yè)數(shù)據(jù)信息集;
步驟4.2:對(duì)不同終端瀏覽不同類型的網(wǎng)站的停留時(shí)間設(shè)置有效閾值,得到網(wǎng)頁(yè)瀏覽有效閾值集;
步驟4.3:判斷網(wǎng)頁(yè)數(shù)據(jù)信息是否大于對(duì)應(yīng)的有效閾值,如果大于閾值,將對(duì)應(yīng)的網(wǎng)頁(yè)分類信息加入到網(wǎng)頁(yè)有效瀏覽集中;否則加入到網(wǎng)頁(yè)無(wú)效瀏覽集中;
步驟4.4:統(tǒng)計(jì)網(wǎng)頁(yè)有效瀏覽集中每種網(wǎng)頁(yè)類型的數(shù)量,得到數(shù)量最多的前三種網(wǎng)頁(yè)類型,即為網(wǎng)頁(yè)瀏覽行為評(píng)估結(jié)果。
與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:
本發(fā)明方法利用網(wǎng)頁(yè)瀏覽數(shù)據(jù),有效的分析了網(wǎng)頁(yè)瀏覽行為,增加了網(wǎng)頁(yè)瀏覽行為評(píng)估的準(zhǔn)確性,具體的:本發(fā)明利用網(wǎng)頁(yè)瀏覽數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,首先使用樸素貝葉斯方法對(duì)搜狗語(yǔ)料庫(kù)中的文本進(jìn)行訓(xùn)練,得到文本訓(xùn)練集并通過(guò)遍歷得到最優(yōu)拉普拉斯平滑參數(shù)Alpha,然后使用腳本爬取網(wǎng)頁(yè)瀏覽數(shù)據(jù)集中的URL,獲取網(wǎng)頁(yè)中的指定內(nèi)容,并將其進(jìn)行分詞,使用拉普拉斯平滑參數(shù)為Alpha的樸素貝葉斯方法對(duì)網(wǎng)頁(yè)進(jìn)行分類,得到已瀏覽網(wǎng)頁(yè)分類集,引入瀏覽網(wǎng)頁(yè)時(shí)的停留時(shí)間、瀏覽終端數(shù)據(jù),針對(duì)不同終端瀏覽不同類型的網(wǎng)頁(yè)設(shè)定有效停留時(shí)間閾值,對(duì)網(wǎng)頁(yè)瀏覽數(shù)據(jù)進(jìn)行判斷,得到網(wǎng)頁(yè)有效瀏覽集,統(tǒng)計(jì)有效瀏覽網(wǎng)頁(yè)類型數(shù)量最多的前三項(xiàng)即為網(wǎng)頁(yè)瀏覽行為的評(píng)估結(jié)果。本發(fā)明有效的分析了網(wǎng)頁(yè)瀏覽數(shù)據(jù),增加了網(wǎng)頁(yè)瀏覽行為評(píng)估的準(zhǔn)確性。此外,本發(fā)明創(chuàng)造性地提出了一種自適應(yīng)性網(wǎng)頁(yè)爬取方法用于獲取網(wǎng)頁(yè)的標(biāo)題內(nèi)容,提高了網(wǎng)頁(yè)爬取的抓全率。
附圖說(shuō)明
圖1為本發(fā)明的總體流程圖;
圖2為圖1中文本分詞和遍歷搜索最優(yōu)平滑參數(shù)方法的流程圖;
圖3為圖1中使用自適應(yīng)性網(wǎng)頁(yè)爬取方法獲取網(wǎng)頁(yè)標(biāo)題的流程圖;
圖4為圖1中網(wǎng)頁(yè)分類的流程圖;
圖5為圖1中采用多維度數(shù)據(jù)對(duì)網(wǎng)頁(yè)瀏覽信息進(jìn)行分析的流程圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施方式,進(jìn)一步闡明本發(fā)明。
本發(fā)明包括如下步驟:
步驟一:對(duì)搜狗語(yǔ)料庫(kù)中的文本分詞,計(jì)算詞語(yǔ)的詞頻TF和逆向文件概率IDF并作為文本特征,采用樸素貝葉斯方法對(duì)語(yǔ)料庫(kù)進(jìn)行文本分類訓(xùn)練,得到文本訓(xùn)練集,對(duì)搜狗語(yǔ)料庫(kù)中的文本折半切分,得到驗(yàn)證測(cè)試集,通過(guò)遍歷,得到最優(yōu)拉普拉斯平滑參數(shù)Alpha,具體的如圖2所示:
步驟1.1:定義CATE1,CATE2,CATE3,CATE4,CATE5,CATE6,CATE7,CATE8,CATE9分別為財(cái)經(jīng)、互聯(lián)網(wǎng)、健康、教育、軍事、旅游、體育、文化和其他類別文本集,定義SougouC為搜狗語(yǔ)料庫(kù)集,SougouC={CATE1,CATE2,…,CATE9},CATEi={txti1,txti2,…,txtin},其中,txtin為CATEi文本集中的第n篇文本,i∈[1,9],n∈[1,1990];
步驟1.2:定義文本停用詞集SWORD={sword1,sword2,…,wordsw};
步驟1.3:對(duì)步驟1.1得到的CATEi中的文本進(jìn)行分詞,得到文本分類詞語(yǔ)集PCATE={PCA1,PCA2,…PCA9},其中,PCAi={wrod1,word2,…,wordk},i∈[1,9];
步驟1.4:從PCATE中剔除步驟1.2中定義的SOWRD,得到新的文本分類詞語(yǔ)集NPCATE=PCATE-SOWRD;
步驟1.5:計(jì)算NPCATE的詞語(yǔ)頻數(shù)和逆向文件概率,分別得到詞語(yǔ)頻數(shù)集TF和逆向文件概率集IDF;
步驟1.6:將TF-IDF作為數(shù)據(jù)分類的文本特征,使用樸素貝葉斯方法對(duì)步驟1.4得到的NPCATE進(jìn)行訓(xùn)練,得到文本訓(xùn)練集CLF;
步驟1.7:將步驟1.1中的CATEi文本折半切分,得到驗(yàn)證測(cè)試集NTESTe={txte1,txte2,…,txtew},其中,txtew為NTESTe文本集中的第w篇文本,e∈[1,9],w∈[1,995];
步驟1.8:定義拉普拉斯平滑參數(shù)Alpha和判斷變量SD,均賦初值為0;
步驟1.9:當(dāng)Alpha<=1時(shí),執(zhí)行步驟1.10;否則執(zhí)行步驟1.13;
步驟1.10:使用樸素貝葉斯方法對(duì)步驟1.7中得到的NTEST進(jìn)行分類,得到待測(cè)文本召回率Recall;
步驟1.11:將分類結(jié)果與CATE中的文本比較,得到分類召回率PER,如果Recall>PER,則SD=Alpha;
步驟1.12:Alpha=Alpha+0.1;
步驟1.13:得到最優(yōu)拉普拉斯平滑參數(shù)Alpha=SD。
步驟二:通過(guò)一種改進(jìn)型的自適應(yīng)網(wǎng)頁(yè)爬取方法,對(duì)待處理的網(wǎng)頁(yè)瀏覽數(shù)據(jù)進(jìn)行標(biāo)題數(shù)據(jù)的爬取,得到處理后的已瀏覽網(wǎng)頁(yè)標(biāo)題集,具體的如圖3所示:
步驟2.1:定義已瀏覽網(wǎng)頁(yè)地址集WE={web1,web2,…,webdr},定義網(wǎng)頁(yè)停用詞集WR={wword1,wword2,…,wwordro},定義已瀏覽網(wǎng)頁(yè)標(biāo)題集WT={webt1,webt2,…,webtdr};
步驟2.2:定義循環(huán)變量n,用于遍歷步驟2.1中的WE,webn為WE中第n個(gè)網(wǎng)頁(yè),其中,n賦初值為1;
步驟2.3:當(dāng)循環(huán)變量n<=dr時(shí),執(zhí)行步驟2.4;否則執(zhí)行步驟2.15;
步驟2.4:去除URL中webn的前綴’http://’和’www.’,定義URL中的目錄分隔符’/’的數(shù)量為NUM,將URL按照目錄分隔符’/’切分為WS={webs1,webs2,…,websws},其中,ws=LNUM+1,定義采用本步驟處理后的URL為NWSws=webs1+webs2+…+websws;
步驟2.5:定義循環(huán)變量wn,用來(lái)遍歷步驟2.4中的NWS,其中NWSwn為NWS中第wn個(gè)網(wǎng)頁(yè),其中,wn賦初值為ws;
步驟2.6:當(dāng)循環(huán)變量wn>1時(shí),執(zhí)行步驟2.7;否則執(zhí)行步驟2.9;
步驟2.7:使用腳本爬取URL NWSwn中title、description、keywords的字符串,得到網(wǎng)頁(yè)標(biāo)題集webt={title,description,keywords}-WR;
步驟2.8:wn=wn-1;
步驟2.9:定義URL中NWSwn中域名分隔符’.’的數(shù)量為DNUM,根據(jù)域名分隔符‘.’將URL切分為OWS={owebs1,owebs2,…,owebsso},其中,so=DNUM+1,定義采用本步驟處理后得到的URL為OWSso=owebs1+owebs2+…+owebsso;
步驟2.10:定義循環(huán)變量ws用來(lái)遍歷步驟2.9中的OWS,其中OWSws為OWS中第ws個(gè)網(wǎng)頁(yè),其中,ws賦初值so;
步驟2.11:當(dāng)循環(huán)變量ws>2時(shí),執(zhí)行步驟2.12;否則執(zhí)行步:2.14;
步驟2.12:使用腳本爬取URL OWSwf中title、description、keywords的字符串,得到網(wǎng)頁(yè)標(biāo)題集webt={title,description,keywords}-WR;
步驟2.13:ws=ws-1;
步驟2.14:n=n+1;
步驟2.15:得到處理后的已瀏覽網(wǎng)頁(yè)標(biāo)題集WT={webt1,webt2,…,webtdr};
步驟三:對(duì)處理后的已瀏覽網(wǎng)頁(yè)標(biāo)題集進(jìn)行分詞,得到網(wǎng)頁(yè)分詞集,使用拉普拉斯平滑參數(shù)為Alpha的樸素貝葉斯方法對(duì)網(wǎng)頁(yè)分詞集進(jìn)行分類,得到已瀏覽網(wǎng)頁(yè)分類集,設(shè)置網(wǎng)頁(yè)類型判斷閾值,將大于閾值的網(wǎng)頁(yè)分詞集加入文本訓(xùn)練集中,具體的如圖4所示:
步驟3.1:定義網(wǎng)頁(yè)類型判斷閾值Beta=0.82;
步驟3.2:將步驟2.15得到的已瀏覽網(wǎng)頁(yè)標(biāo)題集WT進(jìn)行分詞,得到網(wǎng)頁(yè)標(biāo)題分詞集WPT={webword1,webword2,…,webworddr},其中,webworddr={eword1,eword2,…,ewords};
步驟3.3:使用拉普拉斯平滑參數(shù)為Alpha的樸素貝葉斯方法對(duì)步驟3.2中得到的WPT進(jìn)行分類,得到已瀏覽網(wǎng)頁(yè)分類集WC={wc1,wc2,…,wcdr},以及對(duì)應(yīng)的網(wǎng)頁(yè)類型召回率WP={wp1,wp2,…,wpdr};
步驟3.4:定義循環(huán)變量k用于遍歷步驟3.3中的WP,WPk為WP中第k的網(wǎng)頁(yè)的準(zhǔn)確率,其中,k賦初值為1;
步驟3.5:當(dāng)循環(huán)變量k<dr時(shí),執(zhí)行步驟3.6;否則執(zhí)行步驟3.9;
步驟3.6:當(dāng)循環(huán)變量wpk>Beta時(shí),執(zhí)行步驟3.7;否則執(zhí)行步驟3.8;
步驟3.7:將對(duì)應(yīng)的webwordk加入步驟1.6得到的文本訓(xùn)練集CLF中,重新對(duì)文本訓(xùn)練集進(jìn)行訓(xùn)練;
步驟3.8:k=k+1;
步驟3.9:得到處理后的已瀏覽網(wǎng)頁(yè)分類集WC={webc1,webc2,…,webcdr};
步驟四:對(duì)處理后的網(wǎng)頁(yè)分類、瀏覽時(shí)間、瀏覽終端等網(wǎng)頁(yè)瀏覽數(shù)據(jù)進(jìn)行預(yù)處理,采用終端-時(shí)間-分類判別方法對(duì)處理后的網(wǎng)頁(yè)瀏覽數(shù)據(jù)進(jìn)行評(píng)估,得到網(wǎng)頁(yè)瀏覽行為評(píng)估結(jié)果,具體的如圖5所示:
步驟4.1:定義瀏覽網(wǎng)頁(yè)時(shí)的停留時(shí)間集和瀏覽終端集分別為WM={webme1,webme2,…,webmedr},WD={webd1,webd2,…,webddr},其中,webmedr為瀏覽網(wǎng)頁(yè)webdr所用的時(shí)間,webddr為瀏覽網(wǎng)頁(yè)webdr時(shí)所使用的終端設(shè)備;
步驟4.2:定義網(wǎng)頁(yè)數(shù)據(jù)信息集IWF=WM+WD+WC;
步驟4.3:定義網(wǎng)頁(yè)有效瀏覽集和網(wǎng)頁(yè)無(wú)效瀏覽集分別為TSU和NTSU;
步驟4.4:定義網(wǎng)頁(yè)瀏覽有效閾值集JUA={jua1,1,1,jua1,1,2,…,juaj,u,a},其中,juaj,u,a表示使用j終端瀏覽u類型網(wǎng)頁(yè)時(shí)停留時(shí)間為a秒;
步驟4.5:定義循環(huán)變量f用于遍歷步驟4.2中得到的IWF,IWFf為IWF第f網(wǎng)頁(yè)使用終端瀏覽頁(yè)面的停留時(shí)間,其中,f賦初值為1;
步驟4.6:當(dāng)循環(huán)變量f<dr時(shí),執(zhí)行步驟4.7;否則執(zhí)行步驟4.11;
步驟4.7:當(dāng)循環(huán)變量IWFf<JUA時(shí),執(zhí)行步驟4.8;否則執(zhí)行步驟4.9;
步驟4.8:將IWFf加入到NTSU,即,NTSU=NTSU∪IWFf;
步驟4.9:將IWFf加入到TSU,即,TSU=TSU∪IWFf;
步驟4.10:f=f+1;
步驟4.11:統(tǒng)計(jì)TSU中不同網(wǎng)頁(yè)類型的數(shù)量SUMCAT={scat1,scat2,…,scat9},scatst代表st類的網(wǎng)頁(yè)數(shù)量,其中,st∈[1,9];
步驟4.12:得到網(wǎng)頁(yè)瀏覽行為評(píng)估集REC={re1,re2,re3},其中,re1,re2,re3為步驟4.11得到的SUMCAT中網(wǎng)頁(yè)數(shù)量最大的前3種網(wǎng)頁(yè)類型;
其中,步驟一中通過(guò)遍歷得到的最優(yōu)拉普拉斯平滑參數(shù)Alpha取值為0.8,步驟四中的網(wǎng)頁(yè)有效閾值集的取值為:使用PC端瀏覽財(cái)經(jīng)、互聯(lián)網(wǎng)、健康、教育、軍事、旅游、體育、文化的有效時(shí)間閾值分別為5秒、5秒、3秒、3秒、2秒、6秒、4秒和9秒;使用移動(dòng)設(shè)備瀏覽財(cái)經(jīng)、互聯(lián)網(wǎng)、健康、教育、軍事、旅游、體育、文化的有效時(shí)間閾值分別為2秒、2.5秒、3秒、2秒、2.5秒、2秒和5秒。
為了更好的說(shuō)明本方法的有效性,抽取1000名人員的1023156條網(wǎng)頁(yè)瀏覽數(shù)據(jù)進(jìn)行分析。首先通過(guò)樸素貝葉斯方法對(duì)搜狗語(yǔ)料庫(kù)的17910篇文本進(jìn)行訓(xùn)練,得到文本分類訓(xùn)練集。爬取URL的網(wǎng)頁(yè)標(biāo)題并采用平滑參數(shù)為0.86的樸素貝葉斯方法對(duì)網(wǎng)頁(yè)進(jìn)行分類,根據(jù)對(duì)應(yīng)的閾值得到有效瀏覽網(wǎng)頁(yè)集和網(wǎng)頁(yè)瀏覽行為評(píng)估結(jié)果。采用直接訪問網(wǎng)頁(yè)的方式獲取網(wǎng)頁(yè)標(biāo)題,能夠獲取到223042個(gè)網(wǎng)頁(yè)的網(wǎng)頁(yè)標(biāo)題,占總數(shù)的21.7%,能夠評(píng)估623名人員的網(wǎng)頁(yè)瀏覽行為,占總數(shù)的62.3%;采用本發(fā)明方法的步驟,能夠獲取到664028個(gè)有效的網(wǎng)頁(yè)標(biāo)題,占總數(shù)的64.9%,相比于直接訪問頁(yè)面提高了43.2%;最終能夠評(píng)估729名人員的網(wǎng)頁(yè)瀏覽行為,占總數(shù)的72.9%,相比于人工提高了10.6%。
以上所述僅為本發(fā)明的實(shí)施例子而已,并不用于限制本發(fā)明。凡在本發(fā)明的原則之內(nèi),所作的等同替換,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。本發(fā)明未作詳細(xì)闡述的內(nèi)容屬于本專業(yè)領(lǐng)域技術(shù)人員公知的已有技術(shù)。