1.一種多維度網(wǎng)頁瀏覽行為評估方法,其特征在于,包括如下步驟:
步驟一:對搜狗語料庫中的文本分詞,計算詞語的詞頻TF和逆向文件概率IDF作為文本特征,采用樸素貝葉斯方法對語料庫進行文本分類訓(xùn)練,得到文本訓(xùn)練集,對搜狗語料庫中的文本折半切分,得到驗證測試集,通過遍歷,得到最優(yōu)拉普拉斯平滑參數(shù)Alpha;
步驟二:通過一種改進型的自適應(yīng)網(wǎng)頁爬取方法,對待處理的網(wǎng)頁瀏覽數(shù)據(jù)進行標題數(shù)據(jù)的爬取,得到處理后的已瀏覽網(wǎng)頁標題集;
步驟三:對步驟二中處理后的已瀏覽網(wǎng)頁標題集進行分詞,得到網(wǎng)頁分詞集,使用步驟一中的拉普拉斯平滑參數(shù)Alpha的樸素貝葉斯方法對網(wǎng)頁分詞集進行分類,得到已瀏覽網(wǎng)頁分類集,設(shè)置網(wǎng)頁類型判斷閾值,將大于閾值的網(wǎng)頁分詞集加入文本訓(xùn)練集中;
步驟四:對處理后的網(wǎng)頁分類、瀏覽時間、瀏覽終端等網(wǎng)頁瀏覽數(shù)據(jù)進行預(yù)處理,采用終端-時間-分類判別方法對處理后的網(wǎng)頁瀏覽數(shù)據(jù)進行評估,得到網(wǎng)頁瀏覽行為評估結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種多維度網(wǎng)頁瀏覽行為評估方法,其特征在于,所述步驟一中得到最優(yōu)拉普拉斯平滑參數(shù)Alpha的具體方法為:
步驟1.1:定義網(wǎng)頁分類類型、搜狗語料庫文本類型和停用詞;
步驟1.2:對搜狗語料庫中的文本進行分詞并且剔除停用詞;
步驟1.3:計算分詞后文本詞語的詞頻TF和逆向文件概率IDF;
步驟1.4:以TF-IDF作為文本特征,使用樸素貝葉斯方法訓(xùn)練搜狗語料庫中的文本,得到文本訓(xùn)練集;
步驟1.5:將搜狗語料庫中的文本折半拆分,作為驗證測試集,通過遍歷,得到使用樸素貝葉斯方法時的最優(yōu)拉普拉斯平滑參數(shù)Alpha。
3.根據(jù)權(quán)利要求1所述的一種多維度網(wǎng)頁瀏覽行為評估方法,其特征在于,所述步驟二中得到處理后的已瀏覽網(wǎng)頁標題集的具體方法為:
步驟2.1:定義已瀏覽網(wǎng)頁地址集、網(wǎng)頁停用詞集和已瀏覽網(wǎng)頁標題集;
步驟2.2:將已瀏覽網(wǎng)頁地址集中的URL按照目錄分隔符“/”進行切割,得到處理后的URL,使用網(wǎng)頁爬取程序按照從右至左依次爬取URL,獲取網(wǎng)頁中的title、description和keywords,并且剔除網(wǎng)頁停用詞;
步驟2.3:當爬取到最后一個URL時,將URL按照域名分隔符“.”進行切割,得到處理后的URL,使用網(wǎng)頁爬取程序按照從左至右依次爬取URL,獲取網(wǎng)頁中的title、description和keywords,并且剔除網(wǎng)頁停用詞;
步驟2.4:將步驟2.2和步驟2.3中得到的網(wǎng)頁數(shù)據(jù)加入到網(wǎng)頁標題集中,得到處理后的已瀏覽網(wǎng)頁標題集。
4.根據(jù)權(quán)利要求1所述的一種多維度網(wǎng)頁瀏覽行為評估方法,其特征在于,所述步驟三中得到已瀏覽網(wǎng)頁分類集,并通過閾值判斷重新對文本訓(xùn)練集進行訓(xùn)練的具體方法為:
步驟3.1:定義網(wǎng)頁類型判斷閾值為0.82;
步驟3.2:對處理好的已瀏覽網(wǎng)頁標題集進行分詞,得到網(wǎng)頁標題分詞集,使用拉普拉斯平滑參數(shù)為Alpha的樸素貝葉斯方法對網(wǎng)頁進行分類,得到已瀏覽網(wǎng)頁分類集和對應(yīng)的網(wǎng)頁類型召回率集;
步驟3.3:將召回率大于網(wǎng)頁類型判斷閾值的網(wǎng)頁分詞集加入到文本訓(xùn)練集中,重新對文本訓(xùn)練集進行訓(xùn)練。
5.根據(jù)權(quán)利要求1所述的一種多維度網(wǎng)頁瀏覽行為評估方法,其特征在于,所述步驟四中得到網(wǎng)頁瀏覽行為評估結(jié)果的具體方法為:
步驟4.1:定義瀏覽網(wǎng)頁時的停留時間集、瀏覽終端集、網(wǎng)頁有效瀏覽集、網(wǎng)頁無效瀏覽集和網(wǎng)頁數(shù)據(jù)信息集;
步驟4.2:對不同終端瀏覽不同類型的網(wǎng)站的停留時間設(shè)置有效閾值,得到網(wǎng)頁瀏覽有效閾值集;
步驟4.3:判斷網(wǎng)頁數(shù)據(jù)信息是否大于對應(yīng)的有效閾值,如果大于閾值,將對應(yīng)的網(wǎng)頁分類信息加入到網(wǎng)頁有效瀏覽集中;否則加入到網(wǎng)頁無效瀏覽集中;
步驟4.4:統(tǒng)計網(wǎng)頁有效瀏覽集中每種網(wǎng)頁類型的數(shù)量,得到數(shù)量最多的前三種網(wǎng)頁類型,即為網(wǎng)頁瀏覽行為評估結(jié)果。