基于用戶訪問內(nèi)容的實時個性化信息采集方法

文檔序號：9417391閱讀：365來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于用戶訪問內(nèi)容的實時個性化信息采集方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于用戶訪問內(nèi)容的實時個性化信息采集方法。
【背景技術(shù)】
[0002] 隨著家庭環(huán)境中智能手機、平板電腦等終端產(chǎn)品的增加，各種多媒體數(shù)據(jù)的豐富，用戶已逐漸建立起對智能終端設(shè)備的使用習(xí)慣。然而隨著終端產(chǎn)品的增加，網(wǎng)絡(luò)信息的增長也極為迅速，海量的信息可以為用戶提供豐富信息資源的同時，也對用戶如何快速從信息海洋中獲取所需信息提出了挑戰(zhàn)。根據(jù)用戶訪問內(nèi)容進行的實時個性化信息采集成為大數(shù)據(jù)背景下一個重要課題，對后續(xù)的數(shù)據(jù)分析和挖掘具有至關(guān)重要的推動意義。
[0003] 現(xiàn)今常用的根據(jù)主題定向抓取網(wǎng)頁資源的技術(shù)為聚焦爬蟲技術(shù)，通用聚焦爬蟲的目標是根據(jù)事先選定的主題來人工設(shè)定主題關(guān)鍵字和種子鏈接，從而盡可能多地采集相關(guān) 頁面，這會消耗非常多的系統(tǒng)資源、網(wǎng)絡(luò)帶寬，處理速度慢。并且現(xiàn)今的聚焦爬蟲技術(shù)主要采用基于內(nèi)容評價的主題爬行策略，忽略了鏈接信息的作用，預(yù)測鏈接價值的能力較差。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的就是為了解決上述問題，提供一種基于用戶訪問內(nèi)容的實時個性化信息采集方法，它通過分析用戶網(wǎng)絡(luò)請求實時獲取用戶訪問鏈接，結(jié)合內(nèi)容評價和鏈接結(jié) 構(gòu)準確快速爬取與主題相關(guān)的有效子鏈接，并建立鏈接主題分類庫對采集的鏈接進行主題分類、重要性排序和內(nèi)容存儲。
[0005] 為了實現(xiàn)上述目的，本發(fā)明采用如下技術(shù)方案：
[0006] -種基于用戶訪問內(nèi)容的實時個性化信息采集方法，包括如下步驟：
[0007] 步驟（1):通過實時分析用戶網(wǎng)絡(luò)請求獲取當(dāng)前種子頁面，并提取網(wǎng)頁的結(jié)構(gòu)化信息；
[0008] 步驟（2):根據(jù)網(wǎng)頁的結(jié)構(gòu)化信息從多角度提取主題關(guān)鍵詞；組成主題關(guān)鍵詞詞條；
[0009] 步驟（3):提取當(dāng)前種子頁面的子鏈接的錨文本，依據(jù)主題關(guān)鍵詞詞條對錨文本進行分詞，并依據(jù)分詞后的結(jié)果建立向量空間模型，根據(jù)向量空間模型利用余弦定理計算子鏈接與當(dāng)前種子頁面的主題相關(guān)性；并把主題相關(guān)性大于設(shè)定閾值的子鏈接判定為有效子鏈接；
[0010] 步驟（4):建立鏈接主題分類庫，進行種子鏈接優(yōu)先級設(shè)定和當(dāng)前種子鏈接主題分類；
[0011] 步驟（5):計算鏈接主題分類庫中所有子鏈接的重要性，并依據(jù)重要性對子鏈接進行排序，并進行排序后所有子鏈接所對應(yīng)的頁面信息的下載和數(shù)據(jù)存儲。
[0012] 所述步驟（1):實時獲取用戶網(wǎng)絡(luò)請求，并從所述網(wǎng)絡(luò)請求中提取統(tǒng)一資源定位符URL (Uniform Resource Locator，是互聯(lián)網(wǎng)標準資源的地址），根據(jù)URL下載對應(yīng)網(wǎng)頁作為當(dāng)前種子頁面，并提取網(wǎng)頁的結(jié)構(gòu)化信息；
[0013] 所述步驟（2):對步驟（1)的網(wǎng)頁的結(jié)構(gòu)化信息進行分詞操作，獲得所有候選關(guān)鍵詞，從統(tǒng)計分析、結(jié)構(gòu)分析和語言分析三個方面分別計算每個候選關(guān)鍵詞的權(quán)值，并選取權(quán) 值最大的設(shè)定數(shù)量的詞作為主題關(guān)鍵詞；將選取出來的主題關(guān)鍵詞組成主題關(guān)鍵詞詞條，將選取出來的主題關(guān)鍵詞相對應(yīng)的權(quán)值組成特征向量；
[0014] 所述步驟⑶：爬取種子頁面中所有子鏈接，提取每個子鏈接的錨文本，將步驟 (2)的主題關(guān)鍵詞詞條作為詞庫對錨文本進行分詞，根據(jù)錨文本分詞后的詞對應(yīng)的詞頻獲取相應(yīng)子鏈接的特征向量，組成向量空間模型，根據(jù)向量空間模型利用余弦定理計算子鏈接與當(dāng)前種子頁面的主題相關(guān)性；并把主題相關(guān)性大于設(shè)定閾值的子鏈接判定為有效子鏈接；
[0015] 所述步驟（4):建立鏈接主題分類庫，進行種子鏈接優(yōu)先級設(shè)定和當(dāng)前種子鏈接主題分類：
[0016] 進行種子鏈接優(yōu)先級設(shè)定，并利用當(dāng)前鏈接主題分類庫對當(dāng)前種子鏈接進行匹配，
[0017] 如果種子鏈接屬于當(dāng)前鏈接主題分類庫，則將步驟（3)提取的有效子鏈接存入當(dāng) 前鏈接主題分類庫并跳轉(zhuǎn)執(zhí)行步驟（1);
[0018] 如果種子鏈接不屬于當(dāng)前鏈接主題分類庫，則根據(jù)種子鏈接建立新的鏈接主題分類庫，并執(zhí)行步驟（5);
[0019] 所述步驟（5):根據(jù)步驟（3)的子鏈接與當(dāng)前種子頁面的主題相關(guān)性和步驟（4) 的當(dāng)前種子鏈接優(yōu)先級，計算當(dāng)前鏈接主題分類庫中所有子鏈接的重要性，根據(jù)重要性對鏈接主題分類庫中的所有URL進行排序，并進行排序后相應(yīng)頁面信息的下載和數(shù)據(jù)存儲。
[0020] 所述步驟⑴的網(wǎng)頁的結(jié)構(gòu)化信息包括：網(wǎng)頁的標題、簡介和正文。
[0021] 所述步驟（2)的步驟為：
[0022] 步驟（2-1):對標題、簡介和正文進行分詞操作，去除干擾詞匯，最終獲得所有候選關(guān)鍵詞；
[0023] 步驟（2-2):統(tǒng)計所有候選關(guān)鍵詞的屬性信息，并將所有候選關(guān)鍵詞的屬性信息存儲；所述屬性信息包括：包括詞頻、詞位置、詞跨度、詞長和詞性；
[0024] 步驟（2-3):從統(tǒng)計分析、結(jié)構(gòu)分析和語言分析三個方面分別計算每個候選關(guān)鍵詞的權(quán)重參數(shù)，根據(jù)每個候選關(guān)鍵詞的權(quán)重參數(shù)，確定每個候選關(guān)鍵詞的權(quán)值Score (X1)，并選取權(quán)值最大的設(shè)定數(shù)量的詞作為主題關(guān)鍵詞，將選取出來的主題關(guān)鍵詞組成主題關(guān)鍵詞詞條，將選取出來的主題關(guān)鍵詞相對應(yīng)的權(quán)值組成特征向量。
[0025] 所述步驟（2-1)中干擾詞匯包括停用詞、合并數(shù)字和人名；
[0026] 所述步驟（2-2)的所有候選關(guān)鍵詞的屬性信息存儲到哈希表wordMap中，其中key 為候選關(guān)鍵詞，value為自定義的詞信息結(jié)構(gòu)對象，存儲每個候選關(guān)鍵詞的屬性信息。
[0027] 所述步驟（2-3)中，從統(tǒng)計分析方面計算每個候選關(guān)鍵詞的權(quán)重參數(shù)：
[0028] 利用詞頻加權(quán)函數(shù)Tf (X1)計算當(dāng)前種子頁面中候選關(guān)鍵詞X1的詞頻權(quán)重T f (X1);
[0029] 計算公式為：
[0030]
LlN 丄UOldSOOS A I ^ ?V <
[0031] 其中Ii1是候選關(guān)鍵詞出現(xiàn)的次數(shù)，而分母
是所有k個候選關(guān)鍵詞的出現(xiàn)次數(shù) 之和。
[0032] 所述步驟（2-3)中，從結(jié)構(gòu)分析方面計算每個候選關(guān)鍵詞的權(quán)重參數(shù)：
[0033] a利用詞位置加權(quán)函數(shù)計算候選關(guān)鍵詞Xi的詞位置權(quán)重Loc (X ;);
[0034] 計算公式為：
[0035] Loc (Xi) = tloc;
[0036] t。。是詞位置加權(quán)函數(shù)Loc (X ;) = t。。的一個系數(shù)，表示詞語出現(xiàn)的位置。
[0037] b利用詞跨度加權(quán)函數(shù)計算候選關(guān)鍵詞X1的詞跨度權(quán)重Spa(X J ;
[0038] 計算公式為：
[0039]
[0040] 其中，I1表示詞語出現(xiàn)的段落數(shù)量，L表示段落總數(shù)。
[0041] 所述步驟（2-3)中，從語言分析方面計算每個候選關(guān)鍵詞的權(quán)重參數(shù)：
[0042] c利用詞長加權(quán)函數(shù)計算候選關(guān)鍵詞的詞長權(quán)重Len(X1);
[0043] 計算公式為：
[0044]
[0045] 其中，Ien (Xi)表示候選關(guān)鍵詞Xi的實際詞長，分母Max(len(X丨)，Ien(X2)，…，Ien(X k)) 表示k個候選關(guān)鍵詞中詞長最長的長度；len (Xk)表示第k個候選關(guān)鍵詞中詞長的長度。
[0046] d利用詞性加權(quán)函數(shù)計算候選關(guān)鍵詞的詞性權(quán)重Pos (Xi);
[0047] 計算公式為：
[0048] Pos(X1) = tpos;
[0049] 其中，tp。^詞性加權(quán)函數(shù)Pos(x J = tpcis的一個系數(shù)，表示詞性。
[0050] 所述步驟（2-3)中，根據(jù)每個候選關(guān)鍵詞的權(quán)重參數(shù)，確定每個候選關(guān)鍵詞的權(quán) 值Score (Xi)的計算公式為：
[0051] Score (Xi) = Tf (Xi) X (1+Loc (Xi) +Spa (Xi) +Len (Xi) +Pos (Xi)) 〇
[0052] 選取權(quán)值最大的設(shè)定數(shù)量的詞作為主題關(guān)鍵詞，將選取出來的主題關(guān)鍵詞組成主題關(guān)鍵詞詞條β = (XdX2,...，Xn)，將選取出來的主題關(guān)鍵詞相對應(yīng)的權(quán)值組成特征向量 a = (Wl，W2,…，Wn)。Xr^示所有的主題關(guān)鍵詞，w η表示所有對應(yīng)

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曹葉文;王鵬達;
技術(shù)所有人：山東大學(xué);
我是此專利的發(fā)明人

上一篇：用于管理用戶日程表的方法和使用該方法的設(shè)備的制造方法
上一篇：一種音樂隨機播放方法和裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

實時個性化推薦系統(tǒng)相關(guān)技術(shù)

用戶個性化需求相關(guān)技術(shù)

用戶個性化相關(guān)技術(shù)

用戶個性化標簽相關(guān)技術(shù)

用戶個性化推薦相關(guān)技術(shù)

實時數(shù)據(jù)采集相關(guān)技術(shù)

matlab實時數(shù)據(jù)采集相關(guān)技術(shù)

實時數(shù)據(jù)采集系統(tǒng)方案相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于用戶訪問內(nèi)容的實時個性化信息采集方法