亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種互聯網用戶分群方法及系統(tǒng)的制作方法

文檔序號:10570010閱讀:185來源:國知局
一種互聯網用戶分群方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種互聯網用戶分群方法及系統(tǒng),其特征在于,包括步驟:S1:對URL進行分塊;S2:為分塊后的URL進行粗分類;S3:根據URL粗分類形成已分類URL隊列;S4:依據URL隊列進行網頁抓??;S5:分析被抓取網頁,得到URL細分類。本方法實現了基于網絡爬蟲的移動互聯網用戶分群;針對單單利用URL分析來對用戶進行分類的不足,在該基礎上再添加網絡爬蟲技術來進一步分析,從而實現對用戶的精確分類,并提高分類的準確性。
【專利說明】
一種互聯網用戶分群方法及系統(tǒng)
技術領域
[0001]本發(fā)明涉及互聯網數據處理領域,具體為一種互聯網用戶分群方法及系統(tǒng)。
【背景技術】
[0002]網絡爬蟲(Web Crawler),又稱為網絡蜘蛛(Web Spider)或Web信息采集器,是一個自動下載網頁的計算機程序或自動化腳本。聚焦網絡爬蟲是指有選擇性地爬行那些與預先定義好的主題相關頁面的網絡爬蟲。
[0003]URL,又稱統(tǒng)一資源定位符,簡單地講就是我們平時在瀏覽器中輸入的搜索地址。它由三部分組成,第一部分是協議(或稱為服務方式),如http;第二部分是存有該資源的主機IP地址(有時也包括端口號);第三部分是主機資源的具體地址,如目錄和文件名等。其中第一部分和第二部分有符號'Ir隔開,第二部分和第三部分用符號隔開。
[0004]隨著移動互聯網的快速發(fā)展,人們越來越離不開使用移動終端進行上網,運營商積累了越來越多的用戶上網行為,如果能夠有效地利用這些上網行為,對用戶進行分群分類,從而對用戶提供進一步的優(yōu)質服務,可以使得運營商在激烈的市場競爭中提高自己的競爭力。
[0005]但是在以往對移動互聯網用戶分群上,只針對用戶上網產生的URL進行URL分析,從而實現對用戶的粗分類;這種粗分類無法對URL進行精準識別,從而影響運營商的運營效果O
[0006]鑒于上述缺陷,本發(fā)明創(chuàng)作者經過長時間的研究和實踐終于獲得了本發(fā)明。

【發(fā)明內容】

[0007]為解決上述技術缺陷,本發(fā)明采用的技術方案在于,提供一種互聯網用戶分群方法,其特征在于,包括步驟:
[0008]SI:對URL進行分塊;
[0009]S2:為分塊后的URL進行粗分類;
[0010]S3:根據URL粗分類形成已分類URL隊列;
[0011]S4:依據URL隊列進行網頁抓取;
[0012]S5:分析被抓取網頁,得到URL細分類。
[0013]較佳的,所述步驟SI具體為:
[0014]步驟SI 1:從URL隊列中獲取URL;
[0015]步驟SI 2:對URL進行分塊;
[0016]步驟S13:過濾無用分塊;
[0017]步驟S14:形成URL分塊。
[0018]較佳的,所述步驟S2具體為:
[0019]步驟S21:提取URL分塊特征值;
[0020]步驟S22:將特征值與訓練集進行匹配;[0021 ]步驟S23:完成對URL進行粗分類。
[0022]較佳的,所述步驟S4具體為:
[0023]步驟S41:對已分類URL進行散列處理;
[0024]步驟S42:根據URL及其粗分類進行聚焦網絡爬蟲;
[0025]步驟S43:抓取網頁內容、網頁圖片。
[0026]較佳的,所述步驟S5具體為:
[0027]步驟S51:對網頁內容進行自然語言處理;
[0028]步驟S52:對網頁圖片進行圖像處理;
[0029]步驟S53:整合處理結果;
[0030]步驟S54:形成URL的細分類。
[0031 ]較佳的,所述步驟S2還包括步驟S2后的:
[0032]步驟S220:若步驟S22中無法產生任何分類,則將該URL分類為“未分類”。
[0033]較佳的,還包括所述步驟S5后的:
[0034]步驟S6:對URL粗分類與URL細分類進行整合修正,確定最終URL細分類。
[0035]一種互聯網用戶分群系統(tǒng),包括:
[0036]一 URL分塊單元,用于對URL進行分塊;
[0037]一 URL分類單元,用于為分塊后的URL進行粗分類;
[0038]一URL分列單元,用于根據URL粗分類形成已分類URL隊列;
[0039]—網絡爬蟲單元,用于依據URL隊列進行網頁抓??;
[0040]一頁面與圖片分析單元,用于分析被抓取網頁,得到URL細分類。
[0041]較佳的,包括:
[0042]所述URL分塊單元包括:
[0043 ]一 URL獲取模塊,用于從URL隊列中獲取URL;
[0044]—URL分塊模塊:用于對URL進行分塊;
[0045]—分塊過濾模塊:用于過濾無用分塊;
[0046]—分塊存儲模塊:用于形成URL分塊;
[0047]所述URL分類單元包括:
[0048]一特征值提取模塊:用于提取URL分塊特征值;
[0049]—特征值匹配模塊:用于將特征值與訓練集進行匹配;
[0050]一URL粗分類模塊:用于對URL進行粗分類;
[0051]所述網絡爬蟲單元包括:
[0052]一散列處理模塊:用于對已分類URL進行散列處理;
[0053]一網絡爬蟲模塊:用于根據URL及其粗分類進行聚焦網絡爬蟲;
[0054]一網頁抓取模塊:用于抓取網頁內容、網頁圖片;
[0055]所述頁面與圖片分析單元包括:
[0056]一自然語言處理模塊:用于對網頁內容進行自然語言處理;
[0057]一圖片處理模塊:用于對網頁圖片進行圖像處理;
[0058]一整合處理模塊:用于整合處理結果;
[0059]一細分類模塊:用于形成URL的細分類。
[0060]較佳的,還包括:一整合處理單元,用于對URL粗分類與URL細分類進行整合修正,確定最終URL細分類。
[0061]與現有技術相比,本發(fā)明的有益效果是:本方法實現了基于網絡爬蟲的移動互聯網用戶分群;針對單單利用URL分析來對用戶進行分類的不足,在該基礎上再添加網絡爬蟲技術來進一步分析,從而實現對用戶的精確分類,并提高分類的準確性。
【附圖說明】
[0062]圖1為本發(fā)明方法流程圖;
[0063]圖2為本發(fā)明步驟SI流程圖;
[0064]圖3為本發(fā)明步驟S2流程圖之一;
[0065]圖4為本發(fā)明步驟S2流程圖之二;
[0066]圖5為本發(fā)明步驟S4流程圖;
[0067]圖6為本發(fā)明步驟S5流程圖。
【具體實施方式】
[0068]以下結合附圖,對本發(fā)明上述的和另外的技術特征和優(yōu)點作更詳細的說明。
[0069]本發(fā)明所述方法能夠在實時處理用戶使用移動互聯網產生的行為的過程中進行設置,該方法實現對移動互聯網用戶進行分群,即根據用戶的上網行為,分析該用戶瀏覽了哪方面的內容,從而分析該用戶感興趣的內容,進而對用戶進行分群,以供實時處理系統(tǒng)對用戶進行下一步的動作。
[0070]本發(fā)明所述的移動互聯網用戶分群方法,請參見圖1所示,其為本發(fā)明所述方法流程圖,本發(fā)明所述方法包括步驟:
[0071]S1:對URL進行分塊;
[0072]S2:為分塊后的URL進行粗分類;
[0073]S3:根據URL粗分類形成URL隊列;
[0074]S4:依據URL隊列進行網頁抓?。?br>[0075]S5:分析被抓取網頁,得到URL細分類。
[0076]請參見圖2所示,其為本發(fā)明所述方法所述步驟SI流程圖。
[0077]所述步驟SI中,對獲得的URL數據源進行處理。我們知道URL的格式是[Protocol: //連接類型.站名.網域類型.國別/path],我們根據URL中存在的符號和數字對該URL進行分塊,并且同時過濾掉例如Protocol和“連接類型”這些對分類并沒有太多幫助的詞語,然后將完整的URL與分塊后的URL進行分析。
[0078]具體的,所述步驟SI包括步驟:
[0079]Sll:從URL隊列中獲取URL;
[0080]需要進行分類的所有URL均位于一URL隊列中,首先從URL隊列中,獲取待分析的URL0
[0081 ] S12:對URL進行分塊;對數據源傳遞過來的完整的URL,根據符號和數字將URL進行分塊處理,形成URL塊,以如下URL為例:http: //www.scut.edu.cn/webpage/about.htm,按照 “:,,、“",,、等符號對該URL進行分塊,得到結果:“http”、“麗,,、“scut”、“edu”、“cn”、“webpage”、“about”、“htm” 等URL塊。
[0082]S13:過濾無用分塊;
[0083]在所述步驟S12中,對完整的URL進行了分塊,其中,“http”、“www”等分塊對于分類沒有實質性的作用,將此類分塊進行剔除,實際操作中,預先存在一用于存放無用分塊數據庫,將分塊的結果與該無用分塊數據庫進行對比,將所述無用分塊中包含的無用分塊進行剔除,留下對分類存在實質作用的分塊。
[0084]S14:形成 URL 分塊;
[0085]經過所述步驟SI3后,形成最終的URL分塊。
[0086]請參見圖3所示,其為本發(fā)明所述方法所述步驟S2流程圖。
[0087]所述步驟S2中,對各個URL塊進行分析,將各個URL分塊與預設的URL字典進行匹配,其中,字典中存儲著URL分塊與URL分類的匹配對。匹配過程中,提取各個URL中包含的可用于分析的特征詞,并依據這些特征詞在URL字典中進行尋找,找到匹配的大類,從而將URL進行粗分類。這里的粗分類,是指若一個URL中的URL塊對應了不同的類別,那么選取對應的類別出現次數最多那個類別作為該URL的粗分類類別。
[0088]具體的,所述步驟S2包括步驟:
[0089]S21:提取URL分塊特征值;
[0090]步驟S21中,首先獲取所述步驟SI(步驟S14)中產生的URL分塊,將分塊內容與所述URL字典進行匹配,將所述URL字典中存在的URL分塊提取出來,作為URL分塊特征值。
[0091]此處URL分塊特征值的物理含義為將對分類有實質性貢獻的分塊篩選出來,其與所述步驟S13中的事先過濾掉無用模塊不同,所述步驟S13中所過濾掉的是一定不會對分類產生貢獻的分塊,將可能對分類產生貢獻的分塊留下來,而所述步驟S21是確定一定能夠對分類產生貢獻的分塊。
[0092]S22:將特征值與訓練集進行匹配;
[0093]確定對分類有實質貢獻的分塊之后,將這些分塊與URL字典進行匹配,獲得與這些對分類有實質性貢獻的分塊在所述URL字典中對應的分類。
[0094]S23:完成對URL進行粗分類;
[0095]根據所述步驟S22中確定的分類,對URL進行粗分類,如果一個URL在步驟S22中產生了多個分類,那么選擇若干分類中出現頻率最多的分類作為粗分類。
[0096]作為一種優(yōu)選的方案,大類中包含一個未分類,專門歸納那些無法被粗分類的URL。當選用此種方案的時候,步驟S2變?yōu)槿鐖D4所述的流程。及所述步驟S2還包括步驟:S220:若步驟S22中無法產生任何分類,則將該URL分類為“未分類”。
[0097]所述步驟S3中,將不同的分類對應的URL分列,同一分類URL并入同一隊列,形成若干已分類URL隊列。
[0098]請參見圖5所示,其為本發(fā)明所述方法所述步驟S4流程圖。
[0099]所述步驟S4中,對于傳遞而來的每一個已分類URL隊列,進行散列處理,這里的散列處理是為了方便后續(xù)的查重操作;根據URL和它對應的大類,,利用聚焦網絡爬蟲技術對相關網頁上的內容和圖片進行抓取,并將這些抓取的網頁內容和網頁上的圖片與URL建立對應關系;將URL和抓取的對應網頁傳遞到網頁分析單元進行分析。
[0100]S41:對已分類URL進行散列處理;
[0101]利用的技術是典型的BloomFilter(布隆過濾器),此處散列處理可以排除掉進入同一個已分類URL隊列中的相同的URL,避免重復處理,避免浪費時間,也能夠避免數據偏差。
[0102]S42:根據URL及其粗分類進行聚焦網絡爬蟲;
[0103]經過所述步驟S41散列處理后的已分類URL隊列,對該隊列進行主題設定,所述主題與粗分類類別一致。區(qū)別在于,粗分類所分的類別可能是例如阿拉伯數字或者是代碼化的類別,而主題會根據粗分類的不同對應到具體的類別,例如粗分類中分類為“I”,主題為與粗分類T對應的“教育”。
[0104]S43:抓取網頁內容、網頁圖片;
[0105]根據所述步驟S42中所確定的主題,選取相關網頁進行抓取,獲取其中的網頁內容、網頁圖片并存儲。
[0106]請參見圖6所示,其為本發(fā)明所述方法所述步驟S4流程圖。
[0107]所述步驟S5中,對傳遞而來的網頁內容和網頁上的圖片,利用自然語言處理技術和圖像處理技術,對其進行分析。我們知道如今的自然語言處理技術已經可以將網頁內容進行分析然后將其分類,圖像處理技術已經可以將圖像表達的是什么分析出來,從而我們可以得到更加細致的主題,并對URL進行細分類。
[0108]所述步驟S5具體包括步驟:
[0109]S51:對網頁內容進行自然語言處理;
[0110]首先對所述步驟S43中抓取到的網頁(文字)內容進行自然語言處理,提取根據自然語言處理結果得到的詳細分類信息;
[0111]S52:對網頁圖片進行圖像處理;
[0112]與步驟S51同時進行所述步驟S52,對所述步驟S43中抓取到的網頁(文字)內容進行自然語言處理,提取根據自然語言處理結果得到的詳細分類信息;
[0113]S53:整合處理結果;
[0114]匯總所述步驟S51與所述步驟S52的信息,進行整合處理。
[0115]S54:形成URL的細分類。
[0116]根據所述步驟S53過程結果確定URL細分類。
[0117]作為一種改進的方案,包括所述步驟S5后的步驟S6,對URL粗分類與URL細分類進行整合修正,以確保數據庫的數據正確,具體的,例如可以以粗分類為準、或者以細分類為準,或者根據一定條件進行判斷,此處整合修正以最終修正的URL細分類與實際接近為準。
[0118]本發(fā)明還提供一種互聯網用戶分群系統(tǒng),包括:
[0119]一 URL分塊單元,用于對URL進行分塊;
[0120]一 URL分類單元,用于為分塊后的URL進行粗分類;
[0121 ] 一URL分列單元,用于根據URL粗分類形成已分類URL隊列;
[0122]—網絡爬蟲單元,用于依據URL隊列進行網頁抓??;
[0123]—頁面與圖片分析單元,用于分析被抓取網頁,得到URL細分類。
[0124]所述URL分塊單元包括:
[0125]一 URL獲取模塊,用于從URL隊列中獲取URL;
[ΟΙ26] — URL分塊模塊:用于對URL進行分塊;
[0127] —分塊過濾模塊:用于過濾無用分塊;
[ΟΙ28] —分塊存儲模塊:用于形成URL分塊;
[0129]所述URL分類單元包括:
[0130]—特征值提取模塊:用于提取URL分塊特征值;
[0131]—特征值匹配模塊:用于將特征值與訓練集進行匹配;
[0132]一URL粗分類模塊:用于對URL進行粗分類;
[0133]所述網絡爬蟲單元包括:
[0134]一散列處理模塊:用于對已分類URL進行散列處理;
[0135]—網絡爬蟲模塊:用于根據URL及其粗分類進行聚焦網絡爬蟲;
[0136]—網頁抓取模塊:用于抓取網頁內容、網頁圖片;
[0137]所述頁面與圖片分析單元包括:
[0138]一自然語言處理模塊:用于對網頁內容進行自然語言處理;
[0139]一圖片處理模塊:用于對網頁圖片進行圖像處理;
[0140]一整合處理模塊:用于整合處理結果;
[0141]一細分類模塊:用于形成URL的細分類。
[0142]作為一種改進的方案,本發(fā)明所述系統(tǒng)還包括:一整合處理單元,用于對URL粗分類與URL細分類進行整合修正,確定最終URL細分類。
[0143]盡管參照前述實施例對本發(fā)明進行了詳細的說明,對于本領域的技術人員來說,其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換,凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【主權項】
1.一種互聯網用戶分群方法,其特征在于,包括步驟: S1:對URL進行分塊; 52:為分塊后的URL進行粗分類; 53:根據URL粗分類形成已分類URL隊列; S4:依據URL隊列進行網頁抓??; S5:分析被抓取網頁,得到URL細分類。2.如權利要求1所述的互聯網用戶分群方法,其特征在于,所述步驟SI具體為: 步驟SI 1:從URL隊列中獲取URL ; 步驟S12:對URL進行分塊; 步驟S13:過濾無用分塊; 步驟S14:形成URL分塊。3.如權利要求1所述的互聯網用戶分群方法,其特征在于,所述步驟S2具體為: 步驟S21:提取URL分塊特征值; 步驟S22:將特征值與訓練集進行匹配; 步驟S23:完成對URL進行粗分類。4.如權利要求1所述的互聯網用戶分群方法,其特征在于,所述步驟S4具體為: 步驟S41:對已分類URL進行散列處理; 步驟S42:根據URL及其粗分類進行聚焦網絡爬蟲; 步驟S43:抓取網頁內容、網頁圖片。5.如權利要求1所述的互聯網用戶分群方法,其特征在于,所述步驟S5具體為: 步驟S51:對網頁內容進行自然語言處理; 步驟S52:對網頁圖片進行圖像處理; 步驟S53:整合處理結果; 步驟S54:形成URL的細分類。6.如權利要求3所述的互聯網用戶分群方法,其特征在于,所述步驟S2還包括步驟S2后的: 步驟S220:若步驟S22中無法產生任何分類,則將該URL分類為“未分類”。7.如權利要求1-6中任一項所述的互聯網用戶分群方法,其特征在于,還包括所述步驟S5后的: 步驟S6:對URL粗分類與URL細分類進行整合修正,確定最終URL細分類。8.一種互聯網用戶分群系統(tǒng),其特征在于,包括: 一 URL分塊單元,用于對URL進行分塊; 一 URL分類單元,用于為分塊后的URL進行粗分類; 一 URL分列單元,用于根據URL粗分類形成已分類URL隊列; 一網絡爬蟲單元,用于依據URL隊列進行網頁抓??; 一頁面與圖片分析單元,用于分析被抓取網頁,得到URL細分類。9.如權利要求8所述的互聯網用戶分群系統(tǒng),其特征在于,包括: 所述URL分塊單元包括: 一 URL獲取模塊,用于從URL隊列中獲取URL; 一URL分塊模塊:用于對URL進行分塊; 一分塊過濾模塊:用于過濾無用分塊; 一分塊存儲模塊:用于形成URL分塊; 所述URL分類單元包括: 一特征值提取模塊:用于提取URL分塊特征值; 一特征值匹配模塊:用于將特征值與訓練集進行匹配; 一URL粗分類模塊:用于對URL進行粗分類; 所述網絡爬蟲單元包括: 一散列處理模塊:用于對已分類URL進行散列處理; 一網絡爬蟲模塊:用于根據URL及其粗分類進行聚焦網絡爬蟲; 一網頁抓取模塊:用于抓取網頁內容、網頁圖片; 所述頁面與圖片分析單元包括: 一自然語言處理模塊:用于對網頁內容進行自然語言處理; 一圖片處理模塊:用于對網頁圖片進行圖像處理; 一整合處理模塊:用于整合處理結果; 一細分類模塊:用于形成URL的細分類。10.如權利要求9所述的互聯網用戶分群系統(tǒng),其特征在于,還包括:一整合處理單元,用于對URL粗分類與URL細分類進行整合修正,確定最終URL細分類。
【文檔編號】G06F17/30GK105930444SQ201610248416
【公開日】2016年9月7日
【申請日】2016年4月20日
【發(fā)明人】李青海, 簡宋全, 潘宇翔, 鄒立斌
【申請人】廣州精點計算機科技有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1