基于用戶訪問內(nèi)容的實時個性化信息采集方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于用戶訪問內(nèi)容的實時個性化信息采集方法。
【背景技術(shù)】
[0002] 隨著家庭環(huán)境中智能手機、平板電腦等終端產(chǎn)品的增加,各種多媒體數(shù)據(jù)的豐富, 用戶已逐漸建立起對智能終端設(shè)備的使用習(xí)慣。然而隨著終端產(chǎn)品的增加,網(wǎng)絡(luò)信息的增 長也極為迅速,海量的信息可以為用戶提供豐富信息資源的同時,也對用戶如何快速從信 息海洋中獲取所需信息提出了挑戰(zhàn)。根據(jù)用戶訪問內(nèi)容進行的實時個性化信息采集成為大 數(shù)據(jù)背景下一個重要課題,對后續(xù)的數(shù)據(jù)分析和挖掘具有至關(guān)重要的推動意義。
[0003] 現(xiàn)今常用的根據(jù)主題定向抓取網(wǎng)頁資源的技術(shù)為聚焦爬蟲技術(shù),通用聚焦爬蟲的 目標是根據(jù)事先選定的主題來人工設(shè)定主題關(guān)鍵字和種子鏈接,從而盡可能多地采集相關(guān) 頁面,這會消耗非常多的系統(tǒng)資源、網(wǎng)絡(luò)帶寬,處理速度慢。并且現(xiàn)今的聚焦爬蟲技術(shù)主要 采用基于內(nèi)容評價的主題爬行策略,忽略了鏈接信息的作用,預(yù)測鏈接價值的能力較差。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的就是為了解決上述問題,提供一種基于用戶訪問內(nèi)容的實時個性化 信息采集方法,它通過分析用戶網(wǎng)絡(luò)請求實時獲取用戶訪問鏈接,結(jié)合內(nèi)容評價和鏈接結(jié) 構(gòu)準確快速爬取與主題相關(guān)的有效子鏈接,并建立鏈接主題分類庫對采集的鏈接進行主題 分類、重要性排序和內(nèi)容存儲。
[0005] 為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
[0006] -種基于用戶訪問內(nèi)容的實時個性化信息采集方法,包括如下步驟:
[0007] 步驟(1):通過實時分析用戶網(wǎng)絡(luò)請求獲取當(dāng)前種子頁面,并提取網(wǎng)頁的結(jié)構(gòu)化 信息;
[0008] 步驟(2):根據(jù)網(wǎng)頁的結(jié)構(gòu)化信息從多角度提取主題關(guān)鍵詞;組成主題關(guān)鍵詞詞 條;
[0009] 步驟(3):提取當(dāng)前種子頁面的子鏈接的錨文本,依據(jù)主題關(guān)鍵詞詞條對錨文本 進行分詞,并依據(jù)分詞后的結(jié)果建立向量空間模型,根據(jù)向量空間模型利用余弦定理計算 子鏈接與當(dāng)前種子頁面的主題相關(guān)性;并把主題相關(guān)性大于設(shè)定閾值的子鏈接判定為有效 子鏈接;
[0010] 步驟(4):建立鏈接主題分類庫,進行種子鏈接優(yōu)先級設(shè)定和當(dāng)前種子鏈接主題 分類;
[0011] 步驟(5):計算鏈接主題分類庫中所有子鏈接的重要性,并依據(jù)重要性對子鏈接 進行排序,并進行排序后所有子鏈接所對應(yīng)的頁面信息的下載和數(shù)據(jù)存儲。
[0012] 所述步驟(1):實時獲取用戶網(wǎng)絡(luò)請求,并從所述網(wǎng)絡(luò)請求中提取統(tǒng)一資源定位 符URL (Uniform Resource Locator,是互聯(lián)網(wǎng)標準資源的地址),根據(jù)URL下載對應(yīng)網(wǎng)頁作 為當(dāng)前種子頁面,并提取網(wǎng)頁的結(jié)構(gòu)化信息;
[0013] 所述步驟(2):對步驟(1)的網(wǎng)頁的結(jié)構(gòu)化信息進行分詞操作,獲得所有候選關(guān)鍵 詞,從統(tǒng)計分析、結(jié)構(gòu)分析和語言分析三個方面分別計算每個候選關(guān)鍵詞的權(quán)值,并選取權(quán) 值最大的設(shè)定數(shù)量的詞作為主題關(guān)鍵詞;將選取出來的主題關(guān)鍵詞組成主題關(guān)鍵詞詞條, 將選取出來的主題關(guān)鍵詞相對應(yīng)的權(quán)值組成特征向量;
[0014] 所述步驟⑶:爬取種子頁面中所有子鏈接,提取每個子鏈接的錨文本,將步驟 (2)的主題關(guān)鍵詞詞條作為詞庫對錨文本進行分詞,根據(jù)錨文本分詞后的詞對應(yīng)的詞頻獲 取相應(yīng)子鏈接的特征向量,組成向量空間模型,根據(jù)向量空間模型利用余弦定理計算子鏈 接與當(dāng)前種子頁面的主題相關(guān)性;并把主題相關(guān)性大于設(shè)定閾值的子鏈接判定為有效子鏈 接;
[0015] 所述步驟(4):建立鏈接主題分類庫,進行種子鏈接優(yōu)先級設(shè)定和當(dāng)前種子鏈接 主題分類:
[0016] 進行種子鏈接優(yōu)先級設(shè)定,并利用當(dāng)前鏈接主題分類庫對當(dāng)前種子鏈接進行匹 配,
[0017] 如果種子鏈接屬于當(dāng)前鏈接主題分類庫,則將步驟(3)提取的有效子鏈接存入當(dāng) 前鏈接主題分類庫并跳轉(zhuǎn)執(zhí)行步驟(1);
[0018] 如果種子鏈接不屬于當(dāng)前鏈接主題分類庫,則根據(jù)種子鏈接建立新的鏈接主題分 類庫,并執(zhí)行步驟(5);
[0019] 所述步驟(5):根據(jù)步驟(3)的子鏈接與當(dāng)前種子頁面的主題相關(guān)性和步驟(4) 的當(dāng)前種子鏈接優(yōu)先級,計算當(dāng)前鏈接主題分類庫中所有子鏈接的重要性,根據(jù)重要性對 鏈接主題分類庫中的所有URL進行排序,并進行排序后相應(yīng)頁面信息的下載和數(shù)據(jù)存儲。
[0020] 所述步驟⑴的網(wǎng)頁的結(jié)構(gòu)化信息包括:網(wǎng)頁的標題、簡介和正文。
[0021] 所述步驟(2)的步驟為:
[0022] 步驟(2-1):對標題、簡介和正文進行分詞操作,去除干擾詞匯,最終獲得所有候 選關(guān)鍵詞;
[0023] 步驟(2-2):統(tǒng)計所有候選關(guān)鍵詞的屬性信息,并將所有候選關(guān)鍵詞的屬性信息 存儲;所述屬性信息包括:包括詞頻、詞位置、詞跨度、詞長和詞性;
[0024] 步驟(2-3):從統(tǒng)計分析、結(jié)構(gòu)分析和語言分析三個方面分別計算每個候選關(guān)鍵 詞的權(quán)重參數(shù),根據(jù)每個候選關(guān)鍵詞的權(quán)重參數(shù),確定每個候選關(guān)鍵詞的權(quán)值Score (X1), 并選取權(quán)值最大的設(shè)定數(shù)量的詞作為主題關(guān)鍵詞,將選取出來的主題關(guān)鍵詞組成主題關(guān)鍵 詞詞條,將選取出來的主題關(guān)鍵詞相對應(yīng)的權(quán)值組成特征向量。
[0025] 所述步驟(2-1)中干擾詞匯包括停用詞、合并數(shù)字和人名;
[0026] 所述步驟(2-2)的所有候選關(guān)鍵詞的屬性信息存儲到哈希表wordMap中,其中key 為候選關(guān)鍵詞,value為自定義的詞信息結(jié)構(gòu)對象,存儲每個候選關(guān)鍵詞的屬性信息。
[0027] 所述步驟(2-3)中,從統(tǒng)計分析方面計算每個候選關(guān)鍵詞的權(quán)重參數(shù):
[0028] 利用詞頻加權(quán)函數(shù)Tf (X1)計算當(dāng)前種子頁面中候選關(guān)鍵詞X1的詞頻權(quán)重T f (X1);
[0029] 計算公式為:
[0030]
LlN 丄UOldSOOS A I ^ ?V <
[0031] 其中Ii1是候選關(guān)鍵詞出現(xiàn)的次數(shù),而分母
是所有k個候選關(guān)鍵詞的出現(xiàn)次數(shù) 之和。
[0032] 所述步驟(2-3)中,從結(jié)構(gòu)分析方面計算每個候選關(guān)鍵詞的權(quán)重參數(shù):
[0033] a利用詞位置加權(quán)函數(shù)計算候選關(guān)鍵詞Xi的詞位置權(quán)重Loc (X ;);
[0034] 計算公式為:
[0035] Loc (Xi) = tloc;
[0036] t。。是詞位置加權(quán)函數(shù)Loc (X ;) = t。。的一個系數(shù),表示詞語出現(xiàn)的位置。
[0037] b利用詞跨度加權(quán)函數(shù)計算候選關(guān)鍵詞X1的詞跨度權(quán)重Spa(X J ;
[0038] 計算公式為:
[0039]
[0040] 其中,I1表示詞語出現(xiàn)的段落數(shù)量,L表示段落總數(shù)。
[0041] 所述步驟(2-3)中,從語言分析方面計算每個候選關(guān)鍵詞的權(quán)重參數(shù):
[0042] c利用詞長加權(quán)函數(shù)計算候選關(guān)鍵詞的詞長權(quán)重Len(X1);
[0043] 計算公式為:
[0044]
[0045] 其中,Ien (Xi)表示候選關(guān)鍵詞Xi的實際詞長,分母Max(len(X丨),Ien(X2),…,Ien(X k)) 表示k個候選關(guān)鍵詞中詞長最長的長度;len (Xk)表示第k個候選關(guān)鍵詞中詞長的長度。
[0046] d利用詞性加權(quán)函數(shù)計算候選關(guān)鍵詞的詞性權(quán)重Pos (Xi);
[0047] 計算公式為:
[0048] Pos(X1) = tpos;
[0049] 其中,tp。^詞性加權(quán)函數(shù)Pos(x J = tpcis的一個系數(shù),表示詞性。
[0050] 所述步驟(2-3)中,根據(jù)每個候選關(guān)鍵詞的權(quán)重參數(shù),確定每個候選關(guān)鍵詞的權(quán) 值Score (Xi)的計算公式為:
[0051] Score (Xi) = Tf (Xi) X (1+Loc (Xi) +Spa (Xi) +Len (Xi) +Pos (Xi)) 〇
[0052] 選取權(quán)值最大的設(shè)定數(shù)量的詞作為主題關(guān)鍵詞,將選取出來的主題關(guān)鍵詞組成主 題關(guān)鍵詞詞條β = (XdX2,...,Xn),將選取出來的主題關(guān)鍵詞相對應(yīng)的權(quán)值組成特征向量 a = (Wl,W2,…,Wn)。Xr^示所有的主題關(guān)鍵詞,w η表示所有對應(yīng)