專利名稱:互聯(lián)網(wǎng)事件分析方法與裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種互聯(lián)網(wǎng)事件分析方法與裝置。
背景技術(shù):
網(wǎng)絡(luò)輿情是通過互聯(lián)網(wǎng)傳播的、公眾對現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問題所持的有較強(qiáng)影響力、傾向性的言論和觀點(diǎn),主要通過微博、BBS論壇、博客、新聞跟貼、轉(zhuǎn)貼等實(shí)現(xiàn)并加以強(qiáng)化。由于互聯(lián)網(wǎng)具有虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點(diǎn),越來越多的網(wǎng)民樂意通過這種渠道來表達(dá)觀點(diǎn)、傳播思想。網(wǎng)絡(luò)輿情是一股強(qiáng)大的輿論力量,會反作用于熱點(diǎn)事件并對社會發(fā)展和事態(tài)進(jìn)程產(chǎn)生一定的影響。如果引導(dǎo)不善,負(fù)面的網(wǎng)絡(luò)輿情將對社會公共安全形成較大威脅。網(wǎng)絡(luò)上的互聯(lián)網(wǎng)事件是網(wǎng)絡(luò)輿情體現(xiàn)的基本要素,對互聯(lián)網(wǎng)事件的管理是實(shí)現(xiàn)網(wǎng)絡(luò)輿情管理的重要的環(huán)節(jié)。目前,對互聯(lián)網(wǎng)事件的管理主要是對互聯(lián)網(wǎng)事件相關(guān)內(nèi)容和數(shù)據(jù)的收集,而無法進(jìn)行更深層次地分析、防止互聯(lián)網(wǎng)事件發(fā)展,給出合理的應(yīng)對措施,從而對互聯(lián)網(wǎng)事件相關(guān)者造成損失或不良影響。
發(fā)明內(nèi)容
本發(fā)明提供了一種互聯(lián)網(wǎng)事件分析方法與裝置,以解決現(xiàn)有技術(shù)無法對互聯(lián)網(wǎng)事件進(jìn)行更深層次地分析、防止互聯(lián)網(wǎng)事件發(fā)展,給出合理的應(yīng)對措施的問題。為了解決上述問題,本發(fā)明公開了一種互聯(lián)網(wǎng)事件分析方法,包括:根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲取所述正常用戶訪問的網(wǎng)站的統(tǒng)一資源定位符URL的信息和所述正常用戶的用戶標(biāo)識信息;根據(jù)所述URL的信息,獲取所述URL對應(yīng)的網(wǎng)頁正文,并對所述網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提取;根據(jù)提取的所述熱點(diǎn)詞,從獲取的所述網(wǎng)頁正文中提取出互聯(lián)網(wǎng)事件;獲取訪問所述互聯(lián)網(wǎng)事件的所述正常用戶的用戶標(biāo)識信息;根據(jù)所述用戶標(biāo)識信息和設(shè)置的人群分組樣本庫,分別確定所述正常用戶所在的人群分組,獲取各個所述人群分組的屬性信息,其中,所述人群分組樣本庫包括多個人群分組的信息,每個人群分組包括的用戶標(biāo)識信息,和每個人群分組的屬性信息;根據(jù)獲取的所述各個人群分組的屬性信息,確定所述互聯(lián)網(wǎng)事件的事件人群信息。優(yōu)選地,所述根據(jù)提取的所述熱點(diǎn)詞,從獲取的所述網(wǎng)頁正文中提取出互聯(lián)網(wǎng)事件的步驟包括:根據(jù)提取的所述熱點(diǎn)詞,從獲取的所述網(wǎng)頁正文中提取出至少一組相同主題的互聯(lián)網(wǎng)事件的變化事件;將每組所述變化事件作為與本組主題相對應(yīng)的單個互聯(lián)網(wǎng)事件。優(yōu)選地,所述獲取訪問所述互聯(lián)網(wǎng)事件的所述正常用戶的用戶標(biāo)識信息的步驟包括:根據(jù)所述互聯(lián)網(wǎng)事件對應(yīng)的所有變化事件,確定各個所述變化事件對應(yīng)的URL ;根據(jù)過濾后的所述全網(wǎng)網(wǎng)絡(luò)訪問日志信息,確定訪問所述各個變化事件對應(yīng)的URL的正常用戶的用戶標(biāo)識信息。優(yōu)選地,在所述根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲取所述正常用戶訪問的網(wǎng)站的URL的信息和所述正常用戶的用戶標(biāo)識信息的步驟之前,還包括:獲取用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息;對所述用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息進(jìn)行過濾,去除非正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲得所述正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,其中,所述非正常用戶包括以下至少之一:爬蟲用戶、非正常域名用戶、無法識別的用戶。優(yōu)選地,所述對所述網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提取的步驟包括:對所述網(wǎng)頁正文進(jìn)行詞組劃分和提取操作;計(jì)算提取出的詞組的詞頻,并判斷所述詞頻是否滿足設(shè)定閾值;提取出滿足所述設(shè)定閾值的詞組作為所述熱點(diǎn)詞。為了解決上述問題,本發(fā)明還公開了一種互聯(lián)網(wǎng)事件分析裝置,包括:第一獲取模塊,用于根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲取所述正常用戶訪問的網(wǎng)站的統(tǒng)一資源定位符URL的信息和所述正常用戶的用戶標(biāo)識信息;第一提取模塊,用于根據(jù)所述URL的信息,獲取所述URL對應(yīng)的網(wǎng)頁正文,并對所述網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提?。坏诙崛∧K,用于根據(jù)提取的所述熱點(diǎn)詞,從獲取的所述網(wǎng)頁正文中提取出互聯(lián)網(wǎng)事件;第二獲取模塊,用于獲取訪問所述互聯(lián)網(wǎng)事件的所述正常用戶的用戶標(biāo)識信息;第三獲取模塊,用于根據(jù)所述用戶標(biāo)識信息和設(shè)置的人群分組樣本庫,分別確定所述正常用戶所在的人群分組,獲取各個所述人群分組的屬性信息,其中,所述人群分組樣本庫包括多個人群分組的信息,每個人群分組包括的用戶標(biāo)識信息,和每個人群分組的屬性信息;確定模塊,用于根據(jù)獲取的所述各個人群分組的屬性信息,確定所述互聯(lián)網(wǎng)事件的事件人群信息。優(yōu)選地,所述第二提取模塊,用于根據(jù)提取的所述熱點(diǎn)詞,從獲取的所述網(wǎng)頁正文中提取出至少一組相同主題的互聯(lián)網(wǎng)事件的變化事件;將每組所述變化事件作為與本組主題相對應(yīng)的單個互聯(lián)網(wǎng)事件。優(yōu)選地,所述第三獲取模塊,用于根據(jù)所述互聯(lián)網(wǎng)事件對應(yīng)的所有變化事件,確定各個所述變化事件對應(yīng)的URL ;根據(jù)過濾后的所述全網(wǎng)網(wǎng)絡(luò)訪問日志信息,確定訪問所述各個變化事件對應(yīng)的URL的正常用戶的用戶標(biāo)識信息。優(yōu)選地,所述互聯(lián)網(wǎng)事件分析裝置還包括:第四獲取模塊,用于在所述第一獲取模塊根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲取所述正常用戶訪問的網(wǎng)站的URL的信息和所述正常用戶的用戶標(biāo)識信息之前,獲取用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息;對所述用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息進(jìn)行過濾,去除非正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲得所述正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,其中,所述非正常用戶包括以下至少之一:爬蟲用戶、非正常域名用戶、無法識別的用戶。優(yōu)選地,所述第一提取模塊在對所述網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提取時,對所述網(wǎng)頁正文進(jìn)行詞組劃分和提取操作;計(jì)算提取出的詞組的詞頻,并判斷所述詞頻是否滿足設(shè)定閾值;提取出滿足所述設(shè)定閾值的詞組作為所述熱點(diǎn)詞。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):本發(fā)明針對互聯(lián)網(wǎng)事件,首先根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息得到正常用戶訪問網(wǎng)站的URL和正常用戶的用戶標(biāo)識信息;對URL對應(yīng)的網(wǎng)頁正文提取熱點(diǎn)詞后,根據(jù)熱點(diǎn)詞進(jìn)行互聯(lián)網(wǎng)事件提取,如根據(jù)“房姐”這個熱點(diǎn)詞提取一系列的“房姐”事件,作為“房姐”這個主題的互聯(lián)網(wǎng)事件;然后,獲取訪問該互聯(lián)網(wǎng)事件的用戶的用戶標(biāo)識信息,進(jìn)而通過用戶標(biāo)識信息和預(yù)先設(shè)置的人群分組樣本庫確定各個用戶所在的人群分組;再通過人群分組的屬性信息,如性別、年齡、愛好、社情傾向性特征等等,確定互聯(lián)網(wǎng)事件的事件人群信息,也即關(guān)注該事件的人群的特征信息。通過本發(fā)明,能夠直接得到互聯(lián)網(wǎng)事件的關(guān)注人群的相關(guān)信息,從而能夠了解到該互聯(lián)網(wǎng)事件相關(guān)的人群的特征、屬性等等信息,進(jìn)而,該事件的相關(guān)者能夠根據(jù)這些信息對該事件進(jìn)行深入分析,給出合理的應(yīng)對策略,以正確引導(dǎo)該事件的輿情用戶,從而解決了現(xiàn)有技術(shù)因不對互聯(lián)網(wǎng)事件從人群的角度進(jìn)行分析,導(dǎo)致無法對互聯(lián)網(wǎng)事件進(jìn)行更深層次地分析、防止互聯(lián)網(wǎng)事件發(fā)展,給出合理的應(yīng)對措施的問題。
圖1是根據(jù)本發(fā)明實(shí)施例一的一種互聯(lián)網(wǎng)事件分析方法的步驟流程圖;圖2是根據(jù)本發(fā)明實(shí)施例二的一種互聯(lián)網(wǎng)事件分析方法的步驟流程圖;圖3是根據(jù)本發(fā)明實(shí)施例三的一種互聯(lián)網(wǎng)事件分析方法的步驟流程圖;圖4是根據(jù)本發(fā)明實(shí)施例四的一種互聯(lián)網(wǎng)事件分析裝置的結(jié)構(gòu)框圖。
具體實(shí)施例方式為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一步詳細(xì)的說明。實(shí)施例一參照圖1,示出了根據(jù)本發(fā)明實(shí)施例一的一種互聯(lián)網(wǎng)事件分析方法的步驟流程圖。本實(shí)施例的互聯(lián)網(wǎng)事件分析方法包括以下步驟:步驟S102:根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲取正常用戶訪問的網(wǎng)站的URL (Uniform Resource Locator,統(tǒng)一資源定位符)的信息和正常用戶的用戶標(biāo)識信息。步驟S104:根據(jù)URL的信息,獲取URL對應(yīng)的網(wǎng)頁正文,并對網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提取。步驟S106:根據(jù)提取的熱點(diǎn)詞,從獲取的網(wǎng)頁正文中提取出互聯(lián)網(wǎng)事件。提取出的互聯(lián)網(wǎng)事件包括至少一件。通常情況下,一個主題的互聯(lián)網(wǎng)事件可以包括一組事件,這一組事件具有相同的主題,如“房姐”主題的一系列事件,本發(fā)明中,將具有相同主題的一系列事件看作為一個互聯(lián)網(wǎng)事件。步驟S108:獲取訪問互聯(lián)網(wǎng)事件的正常用戶的用戶標(biāo)識信息。在獲取的正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息中,一個URL與一個用戶標(biāo)識是一一對應(yīng)的。而一個互聯(lián)網(wǎng)事件包括的一系列事件均具有相對應(yīng)的一系列URL,通過URL與用戶標(biāo)識的對應(yīng)關(guān)系,即可確定訪問互聯(lián)網(wǎng)事件的用戶的用戶標(biāo)識。步驟SllO:根據(jù)用戶標(biāo)識信息和設(shè)置的人群分組樣本庫,分別確定訪問互聯(lián)網(wǎng)事件的正常用戶所在的人群分組,獲取各個人群分組的屬性信息。其中,人群分組樣本庫包括多個人群分組的信息,每個人群分組包括的用戶標(biāo)識信息,和每個人群分組的屬性信息。屬性信息的具體定義可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況適當(dāng)設(shè)置,用以說明該分組的人群具有的某個方面或某些方面的特性,如人群分組的性別、年齡、興趣、愛好、社情傾向性特征等等,本發(fā)明對此不作限制。人群分組樣本庫可以通過事先收集的樣本生成,也可以直接采用第三方提供的樣本庫。若采用通過事先收集樣本的樣本生成的方式,則可以事先收集用戶的網(wǎng)絡(luò)訪問信息,通過網(wǎng)絡(luò)訪問信息確定各種網(wǎng)絡(luò)訪問標(biāo)識與用戶的對應(yīng)關(guān)系,如COOKIE ID、ADSL賬號、IP地址、郵箱賬號等等與用戶的對應(yīng)關(guān)系,然后通過用戶的網(wǎng)絡(luò)訪問信息收集用戶的各種相關(guān)屬性信息,如上述性別、年齡、興趣、愛好、社情傾向性特征等信息;再然后,根據(jù)收集的用戶的屬性信息按照一定規(guī)則將用戶分組,形成人群分組,如按照年齡將用戶分為青年以下組、青年組、中年組、老年組等。這樣,就形成了具有一定屬性信息的人群分組,而通過用戶標(biāo)識可以確定一個用戶所在的人群分組。步驟S112:根據(jù)獲取的各個人群分組的屬性信息,確定互聯(lián)網(wǎng)事件的事件人群信
肩、O也即,確定關(guān)注互聯(lián)網(wǎng)事件的人群的信息,如,根據(jù)關(guān)注某個互聯(lián)網(wǎng)事件的人群的年齡特征,可以確定有90 %青年人關(guān)注該互聯(lián)網(wǎng)事件,而其它年齡組的用戶僅有10 %關(guān)注了該事件等等。通過本實(shí)施例,針對互聯(lián)網(wǎng)事件,首先根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息得到正常用戶訪問網(wǎng)站的URL和正常用戶的用戶標(biāo)識信息;對URL對應(yīng)的網(wǎng)頁正文提取熱點(diǎn)詞后,根據(jù)熱點(diǎn)詞進(jìn)行互聯(lián)網(wǎng)事件提?。蝗缓?,獲取訪問該互聯(lián)網(wǎng)事件的用戶的用戶標(biāo)識信息,進(jìn)而通過用戶標(biāo)識信息和預(yù)先設(shè)置的人群分組樣本庫確定各個用戶所在的人群分組;再通過人群分組的屬性信息,確定互聯(lián)網(wǎng)事件的事件人群信息,也即關(guān)注該事件的人群的特征信息。通過本實(shí)施例,能夠直接得到互聯(lián)網(wǎng)事件的關(guān)注人群的相關(guān)信息,從而能夠了解到該互聯(lián)網(wǎng)事件相關(guān)的人群的特征、屬性等等信息,進(jìn)而,該事件的相關(guān)者能夠根據(jù)這些信息對該事件進(jìn)行深入分析,給出合理的應(yīng)對策略,以正確引導(dǎo)該事件的輿情用戶,從而解決了現(xiàn)有技術(shù)因不對互聯(lián)網(wǎng)事件從人群的角度進(jìn)行分析,導(dǎo)致無法對互聯(lián)網(wǎng)事件進(jìn)行更深層次地分析、防止互聯(lián)網(wǎng)事件發(fā)展,給出合理的應(yīng)對措施的問題。實(shí)施例二參照圖2,示出了根據(jù)本發(fā)明實(shí)施例二的一種互聯(lián)網(wǎng)事件分析方法的步驟流程圖。本實(shí)施例的互聯(lián)網(wǎng)事件分析方法包括以下步驟:步驟S202:通過獲取主干網(wǎng)流量的鏡像數(shù)據(jù),獲取用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信
肩、O獲取的用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息可以是所有網(wǎng)民的上網(wǎng)訪問日志信息。用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息的獲取可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況采用任意適當(dāng)?shù)姆绞将@取,本實(shí)施例中,通過獲取主干網(wǎng)流量的鏡像數(shù)據(jù),獲取用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,可以保證獲取的信息的全面和有效。步驟S204:對用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息進(jìn)行過濾,獲取正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息;根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息獲取正常用戶訪問的網(wǎng)站的URL的信息和正常用戶的用戶標(biāo)識信息。對用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息進(jìn)行過濾,可以過濾掉臟數(shù)據(jù),主要包括非正常用戶的數(shù)據(jù),非正常用戶通常可以包括爬蟲用戶、非正常域名用戶、無法識別的用戶。本實(shí)施例中,對用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息進(jìn)行過濾,去除非正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲得正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,其中,非正常用戶包括以下至少之一:爬蟲用戶、非正常域名用戶、無法識別的用戶;然后,根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲取正常用戶訪問的網(wǎng)站的URL的信息和正常用戶的用戶標(biāo)識信息。
步驟S206:根據(jù)URL的信息,獲取URL對應(yīng)的網(wǎng)頁正文。步驟S208:對網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提取。本實(shí)施例中,對網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提取包括:對網(wǎng)頁正文進(jìn)行詞組劃分和提取操作;計(jì)算提取出的詞組的詞頻,并判斷該詞頻是否滿足設(shè)定閾值;提取出滿足設(shè)定閾值的詞組作為熱點(diǎn)詞。其中,對網(wǎng)頁正文的詞組劃分和提取操作可以由本領(lǐng)域技術(shù)人員根據(jù)實(shí)際情況采用任意適當(dāng)?shù)姆绞?,參照相關(guān)技術(shù)實(shí)現(xiàn),也可以借助于第三方應(yīng)用和軟件進(jìn)行詞組劃分和提取。此外,設(shè)定閾值可以由本領(lǐng)域技術(shù)人員適當(dāng)設(shè)置,本發(fā)明對此不作限制。步驟S210:根據(jù)提取的熱點(diǎn)詞,從獲取的網(wǎng)頁正文中提取出至少一組相同主題的互聯(lián)網(wǎng)事件的變化事件;將每組變化事件作為與本組主題相對應(yīng)的單個互聯(lián)網(wǎng)事件。本實(shí)施例中,每個互聯(lián)網(wǎng)事件包括同一主題的互聯(lián)網(wǎng)事件在不同時間的變化事件。例如,“房姐”主題事件包括一系列不同時間的變化事件,如開始被披露的事件,接著被詳細(xì)公開的事件,然后被調(diào)查的事件,最后被如何處理的事件等等一系列隨著時間推移這一主題事件的變化事件。本實(shí)施例中,在獲取到一組相同主題的互聯(lián)網(wǎng)事件的變化事件后,將該主題對應(yīng)的一系列變化事件作為該主題的單個互聯(lián)網(wǎng)事件,如將上述“房姐”主題事件包括的一系列變化事件,作為一個“房姐”主題的互聯(lián)網(wǎng)事件,也即,一系列的“房姐”變化事件被認(rèn)為是一個“房姐”事件。優(yōu)選地,還可以根據(jù)預(yù)設(shè)的關(guān)鍵詞和提取的熱點(diǎn)詞,從獲取的網(wǎng)頁正文中提取出互聯(lián)網(wǎng)事件。這是因?yàn)椋绻A(yù)設(shè)了關(guān)鍵詞,則可以結(jié)合提取的熱點(diǎn)詞更為快速全面地提取事件,為事件分組。步驟S212:獲取訪問互聯(lián)網(wǎng)事件的正常用戶的用戶標(biāo)識信息。本實(shí)施例中,根據(jù)互聯(lián)網(wǎng)事件對應(yīng)的所有變化事件,確定各個變化事件對應(yīng)的URL ;根據(jù)過濾后的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,確定訪問各個變化事件對應(yīng)的URL的正常用戶的用戶標(biāo)識信息。通過過濾后的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,可以獲取用戶訪問的URL與用戶的用戶標(biāo)識之間的對應(yīng)關(guān)系。而一個主題的互聯(lián)網(wǎng)事件本質(zhì)上包括一系列的變化事件,這一系列的變化事件均對應(yīng)有相應(yīng)的URL,根據(jù)URL與用戶標(biāo)識之間的對應(yīng)關(guān)系,即可確定訪問某個互聯(lián)網(wǎng)事件的那些用戶的用戶標(biāo)識信息。步驟S214:根據(jù)用戶標(biāo)識信息和設(shè)置的人群分組樣本庫,分別確定訪問互聯(lián)網(wǎng)事件的正常用戶所在的人群分組,進(jìn)而獲取各個人群分組的屬性信息。其中,人群分組樣本庫包括多個人群分組的信息,每個人群分組包括的用戶標(biāo)識信息,和每個人群分組的屬性信息。步驟S216:根據(jù)獲取的各個人群分組的屬性信息,確定互聯(lián)網(wǎng)事件的事件人群信
肩、O通過本實(shí)施例,能夠直接得到互聯(lián)網(wǎng)事件的相關(guān)人群的信息,從而能夠了解到關(guān)注該互聯(lián)網(wǎng)事件的人群的相關(guān)特征、屬性等,進(jìn)而,該事件的相關(guān)者能夠根據(jù)這些信息對該事件進(jìn)行深入分析,給出合理的應(yīng)對策略,以正確引導(dǎo)該事件的輿情用戶。實(shí)施例三參照圖3,示出了根據(jù)本發(fā)明實(shí)施例三的一種互聯(lián)網(wǎng)事件分析方法的步驟流程圖。
本實(shí)施例的互聯(lián)網(wǎng)事件分析方法包括以下步驟:步驟S302:獲取用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息。用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息可能是跨多個網(wǎng)絡(luò)的,本步驟中,可以通過獲取主干網(wǎng)的鏡像流量,即主干網(wǎng)流量的鏡像數(shù)據(jù),從而獲取用戶訪問全網(wǎng)的全網(wǎng)網(wǎng)絡(luò)訪問日志信息。步驟S304:對獲取的用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息進(jìn)行過濾,過濾掉包括非正常用戶的訪問數(shù)據(jù)在內(nèi)的臟數(shù)據(jù),獲得正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,進(jìn)而獲得正常用戶訪問的網(wǎng)站的URL和正常用戶的WD。如,過濾掉爬蟲用戶、非正常域名用戶或者無法識別的用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息。過濾后的數(shù)據(jù)主要包括正常用戶訪問的網(wǎng)站的URL的信息正常用戶的WD。優(yōu)選地,還可以包括訪問時間以及地區(qū)的信息。其中,UID是用戶ID(標(biāo)識),用以標(biāo)注用戶名;訪問時間以及地區(qū)用于標(biāo)識用戶對某個URL的訪問時間及該用戶所在的地區(qū)。步驟S306:根據(jù)正常用戶訪問的網(wǎng)站的URL,獲取網(wǎng)站訪問內(nèi)容,進(jìn)行網(wǎng)頁正文抽取。步驟S308:將抽取的網(wǎng)頁正文的內(nèi)容進(jìn)行分析、分詞,提取詞組并計(jì)算出詞組的詞頻,按照設(shè)定閾值提取熱點(diǎn)詞。也即,對網(wǎng)頁正文進(jìn)行分析,詞組劃分和提取,之后計(jì)算提取出的詞組的詞頻,將詞頻滿足設(shè)定閾值的詞組作為熱點(diǎn)詞。步驟S310:根據(jù)熱點(diǎn)詞、預(yù)定義的關(guān)鍵詞,抽取出多個不同主題的互聯(lián)網(wǎng)事件。其中,每個互聯(lián)網(wǎng)事件可以包括一組相同主題的相關(guān)事件(即變化事件)。步驟S312:以互聯(lián)網(wǎng)事件為基準(zhǔn),統(tǒng)計(jì)出用戶訪問信息列表,其中包括訪問互聯(lián)網(wǎng)事件的用戶的WD。本步驟中,以各個互聯(lián)網(wǎng)事件為基準(zhǔn),統(tǒng)計(jì)出用戶訪問信息列表,也即,對某個互聯(lián)網(wǎng)事件來說,統(tǒng)計(jì)出訪問該事件的所有用戶的相關(guān)訪問信息,包括WD。步驟S314:訪問人群分組樣本庫,根據(jù)訪問互聯(lián)網(wǎng)事件的用戶的WD,確定互聯(lián)網(wǎng)事件的事件人群信息。人群分組樣本庫已定義好人群分組,根據(jù)WD即可確定訪問某個互聯(lián)網(wǎng)事件的人群分組情況,獲得人群分組的屬性信息,進(jìn)而獲得該互聯(lián)網(wǎng)事件相關(guān)的事件人群信息。例如,“房姐”事件的訪問用戶有1000個,通過用戶的UID和人群分組樣本庫,確定這1000個用戶中有600個屬于偏向激進(jìn)的青年分組,有200個屬于偏向中性的青年分組,還有200個偏向激進(jìn)的中年分組,據(jù)此,可以了解,“房姐”事件的事件人群信息包括:被大多數(shù)青年用戶關(guān)注,大多數(shù)關(guān)注該事件的用戶偏向于激進(jìn)等一系列的相關(guān)信息。步驟S316:展現(xiàn)互聯(lián)網(wǎng)事件的事件人群信息。本步驟為可選步驟,以便于相關(guān)互聯(lián)網(wǎng)事件管理者或相關(guān)者從人群角度深入了解和分析該事件,進(jìn)而可以給出相應(yīng)的應(yīng)對策略?;ヂ?lián)網(wǎng)事件的事件人群信息可以以任意適當(dāng)?shù)姆绞秸宫F(xiàn),如以圖形方式或列表方式等等,本發(fā)明對此不作限制。所有正常用戶訪問的網(wǎng)站都執(zhí)行上述步驟,最終形成一個全網(wǎng)的網(wǎng)站事件人群關(guān)系O通過本實(shí)施例,提供了一種對互聯(lián)網(wǎng)事件對應(yīng)人群進(jìn)行分析的方案,能夠挖據(jù)互聯(lián)網(wǎng)事件背后的具體人群信息,通過該方案能夠直接給出互聯(lián)網(wǎng)事件相關(guān)的人群信息,從而能夠了解到關(guān)注互聯(lián)網(wǎng)事件的人群的特征、屬性等相關(guān)具體信息,以對互聯(lián)網(wǎng)事件進(jìn)行更深層次地分析、防止互聯(lián)網(wǎng)事件發(fā)展,并給出合理的應(yīng)對措施。實(shí)施例四參照圖4,示出了根據(jù)本發(fā)明實(shí)施例四的一種互聯(lián)網(wǎng)事件分析裝置的結(jié)構(gòu)框圖。本實(shí)施例的互聯(lián)網(wǎng)事件分析裝置包括:第一獲取模塊402,用于根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲取正常用戶訪問的網(wǎng)站的URL的信息和正常用戶的用戶標(biāo)識信息;第一提取模塊404,用于根據(jù)URL的信息,獲取URL對應(yīng)的網(wǎng)頁正文,并對網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提??;第二提取模塊406,用于根據(jù)提取的熱點(diǎn)詞,從獲取的網(wǎng)頁正文中提取出互聯(lián)網(wǎng)事件,其中,每組互聯(lián)網(wǎng)事件包括同一主題的互聯(lián)網(wǎng)事件在不同時間的變化事件;第二獲取模塊408,用于獲取訪問互聯(lián)網(wǎng)事件的正常用戶的用戶標(biāo)識信息;第三獲取模塊410,用于根據(jù)用戶標(biāo)識信息和設(shè)置的人群分組樣本庫,分別確定正常用戶所在的人群分組,獲取各個人群分組的屬性信息,其中,人群分組樣本庫包括多個人群分組的信息,每個人群分組包括的用戶標(biāo)識信息,和每個人群分組的屬性信息;確定模塊412,用于根據(jù)獲取的各個人群分組的屬性信息,確定互聯(lián)網(wǎng)事件的事件人群信息。優(yōu)選地,第一提取模塊404在對網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提取時,對網(wǎng)頁正文進(jìn)行詞組劃分和提取操作;計(jì)算提取出的詞組的詞頻,并判斷詞頻是否滿足設(shè)定閾值;提取出滿足設(shè)定閾值的詞組作為熱點(diǎn)詞。優(yōu)選地,第二提取模塊406,用于根據(jù)提取的熱點(diǎn)詞,從獲取的網(wǎng)頁正文中提取出至少一組相同主題的互聯(lián)網(wǎng)事件的變化事件;將每組所述變化事件作為與本組主題相對應(yīng)的單個互聯(lián)網(wǎng)事件。優(yōu)選地,第二提取模塊406,用于根據(jù)預(yù)設(shè)的關(guān)鍵詞和提取的熱點(diǎn)詞,從獲取的網(wǎng)頁正文中提取出互聯(lián)網(wǎng)事件。優(yōu)選地,第二獲取模塊408,用于根據(jù)互聯(lián)網(wǎng)事件對應(yīng)的所有變化事件,確定各個變化事件對應(yīng)的URL ;根據(jù)過濾后的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,確定訪問各個變化事件對應(yīng)的URL的正常用戶的用戶標(biāo)識信息。優(yōu)選地,本實(shí)施例的互聯(lián)網(wǎng)事件分析裝置還包括:第四獲取模塊414,用于在第一獲取模塊402根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲取正常用戶訪問的網(wǎng)站的URL的信息和所述正常用戶的用戶標(biāo)識信息之前,獲取用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息;對用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息進(jìn)行過濾,去除非正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲得正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,其中,非正常用戶包括以下至少之一:爬蟲用戶、非正常域名用戶、無法識別的用戶。優(yōu)選地,第四獲取模塊414通過獲取主干網(wǎng)流量的鏡像數(shù)據(jù),獲取用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息。本實(shí)施例的互聯(lián)網(wǎng)事件分析裝置用于實(shí)現(xiàn)前述多個方法實(shí)施例中相應(yīng)的互聯(lián)網(wǎng)事件分析方法,并具有相應(yīng)的方法實(shí)施例的有益效果,在此不再贅述。本說明書中的各個實(shí)施例均采用遞進(jìn)的方式描述,每個實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個實(shí)施例之間相同相似的部分互相參見即可。對于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上對本發(fā)明所提供的一種互聯(lián)網(wǎng)事件分析方法和裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1.一種互聯(lián)網(wǎng)事件分析方法,其特征在于,包括: 根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲取所述正常用戶訪問的網(wǎng)站的統(tǒng)一資源定位符URL的信息和所述正常用戶的用戶標(biāo)識信息; 根據(jù)所述URL的信息,獲取所述URL對應(yīng)的網(wǎng)頁正文,并對所述網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提?。? 根據(jù)提取的所述熱點(diǎn)詞,從獲取的所述網(wǎng)頁正文中提取出互聯(lián)網(wǎng)事件; 獲取訪問所述互聯(lián)網(wǎng)事件的所述正常用戶的用戶標(biāo)識信息; 根據(jù)所述用戶標(biāo)識信息和設(shè)置的人群分組樣本庫,分別確定所述正常用戶所在的人群分組,獲取各個所述人群分組的屬性信息,其中,所述人群分組樣本庫包括多個人群分組的信息,每個人群分組包括的用戶標(biāo)識信息,和每個人群分組的屬性信息; 根據(jù)獲取的所述各個人群分組的屬性信息,確定所述互聯(lián)網(wǎng)事件的事件人群信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)提取的所述熱點(diǎn)詞,從獲取的所述網(wǎng)頁正文中提取出互聯(lián)網(wǎng)事件的步驟包括: 根據(jù)提取的所述熱點(diǎn)詞,從獲取的所述網(wǎng)頁正文中提取出至少一組相同主題的互聯(lián)網(wǎng)事件的變化事件; 將每組所述變化事件作為與本組主題相對應(yīng)的單個互聯(lián)網(wǎng)事件。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取訪問所述互聯(lián)網(wǎng)事件的所述正常用戶的用戶標(biāo)識信息的步驟包括: 根據(jù)所述互聯(lián)網(wǎng)事件對應(yīng)的所有變化事件,確定各個所述變化事件對應(yīng)的URL ;根據(jù)過濾后的所述全網(wǎng)網(wǎng)絡(luò)訪問日志信息,確定訪問所述各個變化事件對應(yīng)的URL的正常用戶的用戶標(biāo)識信息。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲取所述正常用戶訪問的網(wǎng)站的URL的信息和所述正常用戶的用戶標(biāo)識信息的步驟之前,還包括: 獲取用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息; 對所述用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息進(jìn)行過濾,去除非正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲得所述正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,其中,所述非正常用戶包括以下至少之一:爬蟲用戶、非正常域名用戶、無法識別的用戶。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提取的步驟包括: 對所述網(wǎng)頁正文進(jìn)行詞組劃分和提取操作; 計(jì)算提取出的詞組的詞頻,并判斷所述詞頻是否滿足設(shè)定閾值; 提取出滿足所述設(shè)定閾值的詞組作為所述熱點(diǎn)詞。
6.一種互聯(lián)網(wǎng)事件分析裝置,其特征在于,包括: 第一獲取模塊,用于根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲取所述正常用戶訪問的網(wǎng)站的統(tǒng)一資源定位符URL的信息和所述正常用戶的用戶標(biāo)識信息; 第一提取模塊,用于根據(jù)所述URL的信息,獲取所述URL對應(yīng)的網(wǎng)頁正文,并對所述網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提取; 第二提取模塊,用于根據(jù)提取的所述熱點(diǎn)詞,從獲取的所述網(wǎng)頁正文中提取出互聯(lián)網(wǎng)事件; 第二獲取模塊,用于獲取訪問所述互聯(lián)網(wǎng)事件的所述正常用戶的用戶標(biāo)識信息; 第三獲取模塊,用于根據(jù)所述用戶標(biāo)識信息和設(shè)置的人群分組樣本庫,分別確定所述正常用戶所在的人群分組,獲取各個所述人群分組的屬性信息,其中,所述人群分組樣本庫包括多個人群分組的信息,每個人群分組包括的用戶標(biāo)識信息,和每個人群分組的屬性信息; 確定模塊,用于根據(jù)獲取的所述各個人群分組的屬性信息,確定所述互聯(lián)網(wǎng)事件的事件人群信息。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第二提取模塊,用于根據(jù)提取的所述熱點(diǎn)詞,從獲取的所述網(wǎng)頁正文中提取出至少一組相同主題的互聯(lián)網(wǎng)事件的變化事件;將每組所述變化事件作為與本組主題相對應(yīng)的單個互聯(lián)網(wǎng)事件。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第三獲取模塊,用于根據(jù)所述互聯(lián)網(wǎng)事件對應(yīng)的所有變化事件,確定各個所述變化事件對應(yīng)的URL;根據(jù)過濾后的所述全網(wǎng)網(wǎng)絡(luò)訪問日志信息,確定訪問所述各個變化事件對應(yīng)的URL的正常用戶的用戶標(biāo)識信息。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括: 第四獲取模塊,用于在所述第一獲取模塊根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲取所述正常用戶訪問的網(wǎng)站的URL的信息和所述正常用戶的用戶標(biāo)識信息之前,獲取用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息;對所述用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息進(jìn)行過濾,去除非正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲得所述正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,其中,所述非正常用戶包括以下至少之一:爬蟲用戶、非正常域名用戶、無法識別的用戶。
10.根據(jù)權(quán) 利要求6所述的裝置,其特征在于,所述第一提取模塊在對所述網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提取時,對所述網(wǎng)頁正文進(jìn)行詞組劃分和提取操作;計(jì)算提取出的詞組的詞頻,并判斷所述詞頻是否滿足設(shè)定閾值;提取出滿足所述設(shè)定閾值的詞組作為所述熱點(diǎn)詞。
全文摘要
本發(fā)明提供了一種互聯(lián)網(wǎng)事件分析方法與裝置,其中,互聯(lián)網(wǎng)事件分析方法包括根據(jù)正常用戶的全網(wǎng)網(wǎng)絡(luò)訪問日志信息,獲取正常用戶訪問的網(wǎng)站的URL的信息和正常用戶的用戶標(biāo)識信息;根據(jù)URL的信息,獲取URL對應(yīng)的網(wǎng)頁正文,并對網(wǎng)頁正文進(jìn)行熱點(diǎn)詞提取;根據(jù)提取的熱點(diǎn)詞,從獲取的網(wǎng)頁正文中提取出互聯(lián)網(wǎng)事件;獲取訪問互聯(lián)網(wǎng)事件的正常用戶的用戶標(biāo)識信息;根據(jù)用戶標(biāo)識信息和設(shè)置的人群分組樣本庫,分別確定正常用戶所在的人群分組,獲取各個人群分組的屬性信息;根據(jù)獲取的各個人群分組的屬性信息,確定互聯(lián)網(wǎng)事件的事件人群信息。通過本發(fā)明,能夠?qū)ヂ?lián)網(wǎng)事件進(jìn)行更深層次地分析。
文檔編號G06F17/30GK103188347SQ20131008457
公開日2013年7月3日 申請日期2013年3月15日 優(yōu)先權(quán)日2013年3月15日
發(fā)明者羅峰, 黃蘇支, 李娜 申請人:億贊普(北京)科技有限公司