亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于網(wǎng)絡(luò)結(jié)構(gòu)用戶行為模式的信息跟蹤與檢測(cè)方法及系統(tǒng)的制作方法

文檔序號(hào):6471202閱讀:318來(lái)源:國(guó)知局

專利名稱::基于網(wǎng)絡(luò)結(jié)構(gòu)用戶行為模式的信息跟蹤與檢測(cè)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及網(wǎng)絡(luò)信息分析技術(shù),更具體地,涉及一種基于網(wǎng)絡(luò)結(jié)構(gòu)用戶行為模式的信息跟蹤與檢測(cè)方法及系統(tǒng)。
背景技術(shù)
:信息技術(shù)日新月異的發(fā)展使得海量數(shù)據(jù)存儲(chǔ)成為可能,信息爆炸已經(jīng)成為當(dāng)今IT領(lǐng)域面臨的重要問(wèn)題之一。如何從海量的網(wǎng)絡(luò)數(shù)據(jù)中快速、有效地獲得有價(jià)值的信息是一個(gè)亟需解決的問(wèn)題。寬帶、光纖以及3G技術(shù)使得用戶獲得數(shù)據(jù)的渠道越來(lái)越寬暢,由于帶寬造成的信息瓶頸已經(jīng)逐漸遠(yuǎn)離于當(dāng)今的社會(huì)。隨著網(wǎng)絡(luò)應(yīng)用的豐富,在各類靜態(tài)應(yīng)用之后,出現(xiàn)了越來(lái)越多的動(dòng)態(tài)網(wǎng)絡(luò)應(yīng)用,比如電子公告板(BBS,Bulletinboardsystem)、網(wǎng)絡(luò)日志(Blog)、維基百科(Wikipedia)等應(yīng)用程序。傳統(tǒng)的門(mén)戶網(wǎng)站也對(duì)自身的系統(tǒng)進(jìn)行了改進(jìn),使原有的以靜態(tài)內(nèi)容為主的網(wǎng)站得到了很大的擴(kuò)展,吸引的用戶數(shù)量也迅速增長(zhǎng)。這些用戶每日發(fā)表的帖子、話題以及回復(fù)的評(píng)論、看法等分散在網(wǎng)絡(luò)的各個(gè)應(yīng)用中,信息量與日俱增。從目前人類的角度來(lái)看,人本身根本無(wú)法處理如此海量的網(wǎng)絡(luò)信息,因此如何從網(wǎng)絡(luò)的海量信息中得出有用、有效的話題則成為一個(gè)重要需求。話題檢測(cè)作為話題跟蹤與檢測(cè)(TopicDetectionandTracking,TDT)的一個(gè)子研究領(lǐng)域,其目的就是為了通過(guò)組織和探索海量的文本信息,并從此類信息中識(shí)別出特定的話題。話題檢測(cè)可以自動(dòng)的將一些分離的信息聚合成不同的簇,相同的簇中保存著同類話題的不同信息。來(lái)自美國(guó)國(guó)防先進(jìn)研究項(xiàng)目局(DARPA,USDefenseAdvancedResearchProjectsAgency)、馬薩諸塞大學(xué)、卡耐基-梅隆大學(xué)和DragonSystem的研究人員于1998年完成了一個(gè)前瞻性的研究。話題被定義為一個(gè)種子事件或者活動(dòng)以及其伴隨的與之直接相關(guān)的事件或者活動(dòng)。因此,可以認(rèn)為話題是由一系列的事件或者活動(dòng)構(gòu)成的。TDT2004的文檔中對(duì)事件和活動(dòng)作出了更為詳細(xì)的描述,指出事件即是在特定時(shí)間和特定地點(diǎn)發(fā)生的一些事,并帶有必要的先決條件和必然的后果。而活動(dòng)指的是在某段特定時(shí)間、特定地點(diǎn)發(fā)生的一系列的有聯(lián)系的、具有相同關(guān)注點(diǎn)的事件。現(xiàn)有技術(shù)中關(guān)于話題跟蹤和檢測(cè)方面的研究與本發(fā)明略有不同,本發(fā)明中的信息跟蹤和檢測(cè)主要是指發(fā)現(xiàn)互聯(lián)網(wǎng)論壇中的熱點(diǎn)話題?;ヂ?lián)網(wǎng)論壇從本質(zhì)上講是一個(gè)Web應(yīng)用,該Web應(yīng)用程序主要用于容納話題討論和張貼用戶所產(chǎn)生的內(nèi)容?;ヂ?lián)網(wǎng)論壇往往也被稱為Web論壇、電子公告板、討論區(qū)或者直接簡(jiǎn)稱為版塊、論壇。一般而言,論壇往往指整個(gè)進(jìn)行討論的社區(qū),而版塊往往指組成整個(gè)社區(qū)的一個(gè)子論壇,這些版塊往往只針對(duì)某一特定方面的話題進(jìn)行討論。版塊中的主題往往是通過(guò)一些固定的形式進(jìn)行組織,不同的論壇則有所不同,常見(jiàn)的有按時(shí)間順序模式和按話題組織模式。根據(jù)中國(guó)互聯(lián)網(wǎng)信息中心(ChinaInternetNetworkInformationCenter,CNNIC)的統(tǒng)計(jì),2008年底,中國(guó)已經(jīng)有近2.53億互聯(lián)網(wǎng)用戶,其巾還包括2.14億寬帶用戶,占總用戶人數(shù)的84.7%。隨著層出不窮的網(wǎng)絡(luò)應(yīng)用逐漸在中國(guó)境內(nèi)流行,越來(lái)越多的年輕人投入到這些帶有互動(dòng)、娛樂(lè)等特點(diǎn)的應(yīng)用中,盡管Myspace、Facebook等應(yīng)用在國(guó)際上十分流行,國(guó)內(nèi)也有類似的以及其它各種類型的社會(huì)化網(wǎng)絡(luò)應(yīng)用程序,但國(guó)內(nèi)網(wǎng)民使用最多,最廣泛的一類網(wǎng)絡(luò)應(yīng)用還是傳統(tǒng)的電子公告板以及新形式的互聯(lián)網(wǎng)論壇。在國(guó)內(nèi),各個(gè)互聯(lián)網(wǎng)論壇的注冊(cè)用戶已經(jīng)達(dá)到了30億之多(每個(gè)W絡(luò)用戶可以在多個(gè)互聯(lián)網(wǎng)論壇中進(jìn)行注冊(cè)),80%的國(guó)內(nèi)網(wǎng)站都經(jīng)營(yíng)著自己的互聯(lián)網(wǎng)論壇,這些互聯(lián)網(wǎng)論壇的每日頁(yè)面瀏覽量(PageView,PV)已經(jīng)達(dá)到了16億之多。同時(shí),每天在這些論壇中發(fā)表的帖子則超過(guò)了1千萬(wàn)。盡管這些論壇的帖子中夾雜了大量的垃圾信息和不良信息,其整體上表現(xiàn)出來(lái)的數(shù)量還是相當(dāng)驚人的。根據(jù)參考文獻(xiàn)1(KumaranQAllan丄Textclassificationandnamedentitiesforneweventdetection.Proceedingsofthe27thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.2004.297304),熱點(diǎn)話題可以被定義為在某一個(gè)時(shí)間段內(nèi)頻繁出現(xiàn)的話題。Kumamn等人同樣給出了關(guān)于某個(gè)話題熱門(mén)程度的描述,將話題的熱門(mén)程度分為兩個(gè)主要因素,其一為熱門(mén)關(guān)鍵詞在文檔中出現(xiàn)的頻率,其二為文檔中所包含該關(guān)鍵詞的數(shù)量。這類利用權(quán)重機(jī)制來(lái)進(jìn)行熱點(diǎn)話題發(fā)現(xiàn)的方法對(duì)于捕捉文檔中重要的、具有代表性的關(guān)鍵詞非常有效。在評(píng)價(jià)關(guān)鍵詞的重要性的諸多方法中,TF-IDF(TermFrequency-InverseDocumentFrequency,關(guān)鍵詞頻率-逆序文檔步頁(yè)率)是一禾中非常常見(jiàn)的評(píng)價(jià)方法。在其之后,又出現(xiàn)了TFnDF方法。這兩種方法都需要大量的計(jì)算。由于目前的話題跟蹤與檢測(cè)算法沒(méi)有對(duì)互聯(lián)網(wǎng)論壇的實(shí)際特性進(jìn)行針對(duì)性的設(shè)計(jì),且計(jì)算量大,因而無(wú)法對(duì)網(wǎng)絡(luò)信息中敏感性和爭(zhēng)議性話題做出迅速判斷。
發(fā)明內(nèi)容針對(duì)上述問(wèn)題,本發(fā)明提出了針對(duì)互聯(lián)網(wǎng)論壇的基于網(wǎng)絡(luò)結(jié)構(gòu)和用戶行為模式的熱點(diǎn)話題發(fā)現(xiàn)方法,可以迅速地檢測(cè)互聯(lián)網(wǎng)論壇中的熱點(diǎn)話題,減小計(jì)算量。本發(fā)明的內(nèi)容主要針對(duì)如何從給定的互聯(lián)網(wǎng)論壇中檢測(cè)或抽取所感興趣的熱點(diǎn)話題。本發(fā)明提出了一種用于在給定互聯(lián)網(wǎng)論壇中檢測(cè)熱點(diǎn)話題的方法及系統(tǒng)。該方法及系統(tǒng)利用了復(fù)雜網(wǎng)絡(luò)(ComplexNetworks)的知識(shí)以便于分析互聯(lián)網(wǎng)論壇中的用戶之間的關(guān)系,并對(duì)用戶的行為模式進(jìn)行分析,這些方面都于現(xiàn)有技術(shù)有所不同。在互聯(lián)網(wǎng)論壇的環(huán)境下,本發(fā)明具有很高的效率和準(zhǔn)確性。為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于網(wǎng)絡(luò)結(jié)構(gòu)用戶行為模式的信息跟蹤與檢測(cè)方法,該方法包括以下步驟A、提取網(wǎng)絡(luò)數(shù)據(jù);B、構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu);C、根據(jù)所述網(wǎng)絡(luò)數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu),計(jì)算第一用戶模式數(shù)據(jù);D、根據(jù)所述網(wǎng)絡(luò)數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu),計(jì)算第二用戶模式數(shù)據(jù);E、根據(jù)上述網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)絡(luò)結(jié)構(gòu)、第一用戶模式數(shù)據(jù)和第二用戶模式數(shù)據(jù),獲得檢測(cè)結(jié)果。根據(jù)本發(fā)明的另一個(gè)方面,在上述歩驟A中,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)單元抓取并存儲(chǔ)網(wǎng)頁(yè);通過(guò)信息提取單元分析并提取出網(wǎng)絡(luò)數(shù)據(jù)。根據(jù)本發(fā)明的另一個(gè)方面,在上述步驟B中以圖的形式構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),所述圖是無(wú)向圖,所述網(wǎng)絡(luò)結(jié)構(gòu)中每個(gè)用戶對(duì)應(yīng)于所述圖中的一個(gè)節(jié)點(diǎn)。根據(jù)本發(fā)明的另一個(gè)方面,所述第一用戶模式數(shù)據(jù)是通過(guò)適應(yīng)度估計(jì)算法得出的適應(yīng)度估計(jì)值,所述第二用戶模式數(shù)據(jù)是通過(guò)活躍度估計(jì)算法得出的活躍度估計(jì)值,所述檢測(cè)結(jié)果是通過(guò)熱度估計(jì)算法得出的熱度估計(jì)值。本發(fā)明還提供一種基于網(wǎng)絡(luò)結(jié)構(gòu)用戶行為模式的信息跟蹤與檢測(cè)系統(tǒng),其特征在于,該系統(tǒng)包括網(wǎng)絡(luò)爬蟲(chóng)單元,用于抓取并存儲(chǔ)目標(biāo)網(wǎng)站的網(wǎng)頁(yè);信息抽取單元,用于提取出所需的網(wǎng)絡(luò)數(shù)據(jù);通用數(shù)據(jù)存取單元,用于將所述信息抽取單元提取出的所述網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,并讀取所述數(shù)據(jù)庫(kù)中已存儲(chǔ)的數(shù)據(jù);網(wǎng)絡(luò)構(gòu)造單元,利用提取出的所述網(wǎng)絡(luò)數(shù)據(jù)構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu);第一用戶模式數(shù)據(jù)估計(jì)單元,用于估計(jì)網(wǎng)絡(luò)中節(jié)點(diǎn)的第一用戶模式數(shù)據(jù);第二用戶模式數(shù)據(jù)估計(jì)單元,用于估計(jì)網(wǎng)絡(luò)中節(jié)點(diǎn)的第二用戶模式數(shù)據(jù);檢測(cè)結(jié)果獲取單元,用于根據(jù)所述網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)絡(luò)結(jié)構(gòu)、第一用戶模式數(shù)據(jù)和第二用戶模式數(shù)據(jù),獲得檢測(cè)結(jié)果。根據(jù)本發(fā)明的另一個(gè)方面,所述系統(tǒng)還包括模板管理單元,用于創(chuàng)建、修改和刪除所述預(yù)定義的模板;所述網(wǎng)絡(luò)爬蟲(chóng)單元根據(jù)URL地址對(duì)目標(biāo)網(wǎng)站進(jìn)行訪問(wèn),獲取目標(biāo)網(wǎng)站的網(wǎng)頁(yè),并將抓取到的網(wǎng)頁(yè)數(shù)據(jù)存儲(chǔ)于本地文件系統(tǒng)中;所述信息抽取單元可與所述網(wǎng)絡(luò)爬蟲(chóng)單元順序工作或并行工作,所述信息抽取單元將已存儲(chǔ)的網(wǎng)頁(yè)與所述模板管理單元中預(yù)定義的模板進(jìn)行匹配,然后根據(jù)匹配的模板中已定義的信息抽取所需的數(shù)據(jù)和數(shù)據(jù)模式,獲得所需的網(wǎng)絡(luò)數(shù)據(jù)。根據(jù)本發(fā)明的另一個(gè)方面,所述網(wǎng)絡(luò)構(gòu)造單元以圖的形式構(gòu)建所述網(wǎng)絡(luò)結(jié)構(gòu),所述圖是無(wú)向圖,所述網(wǎng)絡(luò)結(jié)構(gòu)中每個(gè)用戶對(duì)應(yīng)于所述圖中的一個(gè)節(jié)點(diǎn)。根據(jù)本發(fā)明的另一個(gè)方面,所述第一用戶模式數(shù)據(jù)是通過(guò)適應(yīng)度估計(jì)算法得出的適應(yīng)度估計(jì)值,所述第二用戶模式數(shù)據(jù)是通過(guò)活躍度估計(jì)算法得出的活躍度估計(jì)值,所述檢測(cè)結(jié)果是通過(guò)熱度估計(jì)算法得出的熱度估計(jì)值。圖1是按照本發(fā)明一個(gè)實(shí)施方式的互聯(lián)網(wǎng)論壇帖子的構(gòu)成形式示意圖。圖2是按照本發(fā)明的一個(gè)實(shí)施方式的網(wǎng)絡(luò)的度分布曲線。圖3是按照本發(fā)明的一個(gè)實(shí)施方式使用公式(4)產(chǎn)生的網(wǎng)絡(luò)的度分布曲線示意圖。圖4是按照本發(fā)明一個(gè)實(shí)施方式的每日節(jié)點(diǎn)增加數(shù)的統(tǒng)計(jì)圖。圖5是按照本發(fā)明一個(gè)實(shí)施方式的每日邊增加數(shù)的統(tǒng)計(jì)圖。圖6是按照本發(fā)明一個(gè)實(shí)施方式的每日每節(jié)點(diǎn)增加邊數(shù)的統(tǒng)計(jì)圖。圖7是用戶創(chuàng)建帖子數(shù)分布圖。圖8是按照本發(fā)明的一個(gè)實(shí)施方式的工作流程圖。圖9是按照本發(fā)明的一個(gè)實(shí)施方式的系統(tǒng)結(jié)構(gòu)示意圖。具體實(shí)施例方式為了進(jìn)一步說(shuō)明本發(fā)明的原理及特性,以下結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。下面結(jié)合附圖詳細(xì)描述本發(fā)明的具體實(shí)施方式。按照本發(fā)明一個(gè)實(shí)施例的基于網(wǎng)絡(luò)結(jié)構(gòu)和用戶行為模式的信息跟蹤與檢測(cè)方法,包括首先,提取互聯(lián)網(wǎng)論壇的網(wǎng)絡(luò)數(shù)據(jù)并建立起網(wǎng)絡(luò)結(jié)構(gòu)。一個(gè)互聯(lián)網(wǎng)論壇一般由幾個(gè)版塊構(gòu)成,其中每個(gè)版塊可能又包含有其他子版塊或者許多帖子,子版塊下一般直接包含有相關(guān)帖子。按照本發(fā)明的一個(gè)實(shí)施方式,將網(wǎng)絡(luò)中出現(xiàn)的關(guān)于某個(gè)主題的新聞、論壇帖子、博客等統(tǒng)稱為"帖子"。圖l是按照本發(fā)明一個(gè)實(shí)施方式的互聯(lián)網(wǎng)論壇帖子的構(gòu)成形式示意圖。如圖l中所示,一個(gè)常見(jiàn)的帖子包括了版塊名稱(BoardName)、標(biāo)題(Title)、發(fā)帖人(UserName)、內(nèi)容(Content)、引用內(nèi)容(R印liedTo)以及發(fā)表時(shí)間或編輯時(shí)間(TimeofPostorEdit)。版塊名稱表示帖子發(fā)表的位置。帖子當(dāng)中的標(biāo)題和內(nèi)容是一個(gè)帖子中最重要的部分,也是在大多數(shù)話題檢測(cè)方法中進(jìn)行重點(diǎn)研究的部分。帖子當(dāng)中的用戶名則顯示了發(fā)帖人在互聯(lián)網(wǎng)論壇中用于識(shí)別用戶身份的標(biāo)識(shí)符,可以是字符串或者數(shù)字等。一般情況下,互聯(lián)網(wǎng)論壇中用戶名不允許重復(fù)。時(shí)間和日期則表示發(fā)表該帖子的時(shí)間。在一些互聯(lián)網(wǎng)論壇中提供了對(duì)所發(fā)表帖子的編輯功能,此類論壇一般可以顯示該帖子在后期被編輯的時(shí)間。如果帖子之間有回復(fù)關(guān)系或引用關(guān)系,則一般在帖子的主體內(nèi)容中有所體現(xiàn),此時(shí)帖子中會(huì)將回復(fù)或者引用的全部?jī)?nèi)容或部分內(nèi)容在主要內(nèi)容的上方或下方進(jìn)行顯示。由于互聯(lián)網(wǎng)論壇中的用戶名不允許重復(fù),因此可以通過(guò)用戶所發(fā)表的帖子信息將用戶聯(lián)系成一個(gè)網(wǎng)絡(luò)。圖或網(wǎng)絡(luò)的度分布是有關(guān)這個(gè)圖或網(wǎng)絡(luò)的重要特征和屬性之一,因此對(duì)網(wǎng)絡(luò)的研究都是從研究度分布的角度進(jìn)行的。在本發(fā)明中,用G表示一個(gè)圖。圖G是一個(gè)有序二元組(V,E),其中V稱為頂集,E稱為邊集。它們也可以寫(xiě)成V(G)和E(G)。E的元素是一個(gè)二元組數(shù)對(duì),用(x,y)表示,其中x,yGV。若一條邊的兩個(gè)頂點(diǎn)為同一頂點(diǎn),則此邊稱作環(huán)。如果給圖的每條邊規(guī)定一個(gè)方向,那么得到的圖稱為有向圖。在有向圖中,與一個(gè)節(jié)點(diǎn)相關(guān)聯(lián)的邊有出邊和入邊之分。相反,邊沒(méi)有方向的圖稱為無(wú)向圖。優(yōu)選地,按照本發(fā)明的一個(gè)實(shí)施方式,使用無(wú)向圖表示一個(gè)網(wǎng)絡(luò),從而建立起互聯(lián)網(wǎng)論壇的網(wǎng)絡(luò)結(jié)構(gòu)。度(Degree),即一個(gè)頂點(diǎn)的度,是指與該邊相關(guān)聯(lián)的邊的條數(shù),頂點(diǎn)v的度記作d(v)。顯然有有向圖的頂點(diǎn)的度可分入度(InDegree)和出度(OutDegree)。一個(gè)頂點(diǎn)的入度是指與該邊相關(guān)聯(lián)的入邊的條數(shù),出度則指與該邊相關(guān)聯(lián)的出邊的條數(shù)。在按照本發(fā)明的一個(gè)實(shí)施方式所涉及的互聯(lián)網(wǎng)論壇中,網(wǎng)絡(luò)中的每個(gè)用戶對(duì)應(yīng)于無(wú)向圖中的一個(gè)節(jié)點(diǎn)存在。假設(shè)圖中沒(méi)有環(huán),且任意兩個(gè)頂點(diǎn)之間最多只有一條邊,那么,如果邊集E中存在一個(gè)二元組(i,j),則節(jié)點(diǎn)i和節(jié)點(diǎn)j之間存在至少一次的帖子回復(fù)關(guān)系。按照本發(fā)明的一個(gè)實(shí)施方式,從互聯(lián)網(wǎng)上某個(gè)中等規(guī)模的論壇上獲取其所有數(shù)據(jù),其中共有注冊(cè)用戶約20,000名,帖子信息有近700,000條。另外,利用下文中將描述的按照本發(fā)明的一個(gè)實(shí)施方式的基于網(wǎng)絡(luò)結(jié)構(gòu)和用戶行為模式的信息跟蹤和檢測(cè)系統(tǒng),從互聯(lián)網(wǎng)論壇獲得的相關(guān)數(shù)據(jù),這些數(shù)據(jù)主要包括用戶名、用戶標(biāo)識(shí)、發(fā)帖數(shù)量、話題標(biāo)識(shí)、發(fā)帖內(nèi)容、發(fā)帖時(shí)間等。通過(guò)該系統(tǒng)使用這些數(shù)據(jù)構(gòu)建一個(gè)完整的網(wǎng)絡(luò),并計(jì)算出該網(wǎng)絡(luò)的度分布。定義網(wǎng)絡(luò)的形成模型如下*節(jié)點(diǎn)在每個(gè)討論區(qū)中發(fā)言的每個(gè)不同用戶ID計(jì)為一個(gè)節(jié)點(diǎn),重復(fù)出現(xiàn)的相同用戶ID不予考慮;*邊若兩個(gè)用戶ID之間存在回復(fù)關(guān)系,則認(rèn)為節(jié)點(diǎn)之間存在一條邊;*自環(huán)假設(shè)網(wǎng)絡(luò)中沒(méi)有自環(huán),忽略用戶回復(fù)自己所發(fā)表的原始帖子時(shí)形成的自環(huán);*重邊不考慮由于用戶之間存在多次的回復(fù)關(guān)系形成的重邊,認(rèn)為任意兩個(gè)用戶之間最多只存在一條邊。網(wǎng)絡(luò)的度采用統(tǒng)計(jì)的方法可以直接獲得,度分布需要在獲得整個(gè)網(wǎng)絡(luò)中所有節(jié)點(diǎn)的度以后計(jì)算獲得。度分布實(shí)際上是指度為k的節(jié)點(diǎn)在整個(gè)網(wǎng)絡(luò)中出現(xiàn)的概率P(k)。圖2是按照本發(fā)明的一個(gè)實(shí)施方式的網(wǎng)絡(luò)的度分布曲線。其中橫軸表示節(jié)點(diǎn)的度,用k表示;縱軸表示度為k的節(jié)點(diǎn)在整個(gè)網(wǎng)絡(luò)中出現(xiàn)的概率,用p(k)表示。圖2中的子圖橫縱軸含義與大圖相同,但其坐標(biāo)為雙對(duì)數(shù)坐標(biāo),雙對(duì)數(shù)坐標(biāo)是考察網(wǎng)絡(luò)是否具有無(wú)標(biāo)度特性的一個(gè)重要衡量因素之一。從圖2中可以看出,回復(fù)關(guān)系網(wǎng)絡(luò)的度分布與原始的BA無(wú)標(biāo)度網(wǎng)絡(luò)基本相同?;貜?fù)關(guān)系網(wǎng)絡(luò)即由互聯(lián)網(wǎng)論壇中用戶之間的回復(fù)關(guān)系構(gòu)成的網(wǎng)絡(luò),原始的BA無(wú)標(biāo)度網(wǎng)絡(luò)艮卩Barab&si(Barabdsi,Albert-L4sz16andR6kaAlbert,"Emergenceofscalinginrandomnetworks",Science,286:509-512,October15,1999)等人最初創(chuàng)建的無(wú)標(biāo)度網(wǎng)絡(luò)。圖2中無(wú)論主圖還是子圖都具有和原始BA無(wú)標(biāo)度網(wǎng)絡(luò)共同的圖形特性。BA無(wú)標(biāo)度網(wǎng)絡(luò)的度分布服從冪律分布,冪律分布可以由公式(2)來(lái)表示尸(A)oc^"(2)在BA無(wú)標(biāo)度網(wǎng)絡(luò)中,公式(2)中的r為3,而由圖2計(jì)算得出互聯(lián)網(wǎng)論壇回復(fù)關(guān)系網(wǎng)絡(luò)的r二2.28937±0.01321。此處兩種網(wǎng)絡(luò)度分布的r值產(chǎn)生差異的原因是由于在網(wǎng)絡(luò)構(gòu)造過(guò)程中存在的優(yōu)先連接概率n的不同所造成的。在BA無(wú)標(biāo)度網(wǎng)絡(luò)中,優(yōu)先連接概率n的定義如公式(3)所示<formula>formulaseeoriginaldocumentpage12</formula>n.=J.(3)而按照本發(fā)明的一個(gè)實(shí)施方式所構(gòu)造的網(wǎng)絡(luò)中優(yōu)先連接概率n如公式(4)所示<formula>formulaseeoriginaldocumentpage12</formula>7.(4)公式(4)中t表示演進(jìn)的步數(shù),^則表示為節(jié)點(diǎn)的適應(yīng)度,其詳細(xì)定義可以參見(jiàn)參考文獻(xiàn)2(LuG.OldSchoolBBS:TheChineseSocialNetworkingPhenomenon:http://www.readwriteweb.com/archives/bbs—china_social—networking.php)。A表示節(jié)點(diǎn)i的度,而a表示衰減因子。公式(4)用于在給定少數(shù)初始節(jié)點(diǎn)的情況下產(chǎn)生一個(gè)網(wǎng)絡(luò)或者在給定一個(gè)網(wǎng)絡(luò)的情況下用于估計(jì)網(wǎng)絡(luò)中給定節(jié)點(diǎn)的適應(yīng)度。圖3是按照本發(fā)明的一個(gè)實(shí)施方式使用公式(4)產(chǎn)生的網(wǎng)絡(luò)的度分布曲線示意圖。圖3中的橫軸表示節(jié)點(diǎn)的度,用k表示;縱軸表示度為k的節(jié)點(diǎn)在整個(gè)網(wǎng)絡(luò)中出現(xiàn)的概率,用P(k)表示。圖3中的子圖橫縱軸含義與大圖相同,但其坐標(biāo)為雙對(duì)數(shù)坐標(biāo)。對(duì)于一個(gè)給定的網(wǎng)絡(luò),可以使用公式(4)來(lái)估計(jì)節(jié)點(diǎn)的適應(yīng)度,本發(fā)明的網(wǎng)絡(luò)中節(jié)點(diǎn)所對(duì)應(yīng)的即是互聯(lián)網(wǎng)論壇中的一個(gè)用戶。得到用戶的適應(yīng)度(即獲得某個(gè)節(jié)點(diǎn)的適應(yīng)度)之后,可以用其估計(jì)由該用戶產(chǎn)生的話題的熱度。因此,適應(yīng)度除了可以用于檢測(cè)熱點(diǎn)話題之外,還可以用于進(jìn)行部分預(yù)測(cè)工作。接下來(lái),對(duì)互聯(lián)網(wǎng)論壇的用戶行為模式進(jìn)行分析?;ヂ?lián)網(wǎng)論壇中的用戶可以被大致的分為兩類,即活躍用戶和非活躍用戶。活躍用戶會(huì)經(jīng)常的、有規(guī)律的登錄論壇并瀏覽、査看論壇中的相關(guān)信息,而非活躍用戶則是不定期的進(jìn)行上述活動(dòng),且頻率較小。從發(fā)表和創(chuàng)建帖子方面看,活躍用戶會(huì)經(jīng)常的發(fā)表帖子用于討論各類問(wèn)題,而非活躍用戶則很少進(jìn)行該方面的活動(dòng)。為了更好地了解互聯(lián)網(wǎng)論壇中用戶的屬性,本發(fā)明對(duì)由論壇數(shù)據(jù)產(chǎn)生的回復(fù)關(guān)系網(wǎng)絡(luò)進(jìn)行了統(tǒng)計(jì)。圖4是按照本發(fā)明一個(gè)實(shí)施方式的每日節(jié)點(diǎn)增加數(shù)的統(tǒng)計(jì)圖。圖5是按照本發(fā)明一個(gè)實(shí)施方式的每日邊增加數(shù)的統(tǒng)計(jì)圖。圖6是按照本發(fā)明一個(gè)實(shí)施方式的每日每節(jié)點(diǎn)增加邊數(shù)的統(tǒng)計(jì)圖。圖4展示了每日的節(jié)點(diǎn)增加數(shù),其中橫軸表示天數(shù),縱軸表示節(jié)點(diǎn)的增加數(shù)量。圖5則展示了邊的每日增加數(shù),其中橫軸表示天數(shù),縱軸表示邊的增加數(shù)量。如圖4和圖5所示,每日節(jié)點(diǎn)的增加數(shù)目和邊的增加數(shù)目沒(méi)有明顯的規(guī)律,基本處于隨機(jī)狀態(tài)。通過(guò)圖4和圖5很難對(duì)互聯(lián)網(wǎng)論壇中用戶和帖子的演化過(guò)程進(jìn)行精確的描述。圖6則展示了每日每節(jié)點(diǎn)平均增加的邊數(shù),其中橫軸表示天數(shù),縱軸表示節(jié)每個(gè)節(jié)點(diǎn)平均鏈接數(shù)量。類似于圖4和圖5得到的結(jié)果,該特征的變化也沒(méi)有明顯的規(guī)律,也難以用精確的表達(dá)式進(jìn)行描述。圖7是用戶創(chuàng)建帖子數(shù)分布圖,其中橫軸表示帖子數(shù)量,縱軸表示相對(duì)頻率。從圖7中可以看出,在互聯(lián)網(wǎng)論壇中存在著一些超級(jí)用戶,這些超級(jí)用戶創(chuàng)建了大量的帖子,與此同時(shí),有大量的用戶則僅僅是創(chuàng)建了少量帖子。按照本發(fā)明的一個(gè)實(shí)施方式中,論壇中最活躍的用戶創(chuàng)建了7,000多個(gè)帖子,而有40%的用戶僅僅只創(chuàng)建了一個(gè)帖子。最后,確定互聯(lián)網(wǎng)論壇中熱點(diǎn)話題。熱點(diǎn)話題是指互聯(lián)網(wǎng)論壇中在某段時(shí)間內(nèi)出現(xiàn)頻率較高且影響了較多活躍用戶的的話題。用h表示話題的熱門(mén)程度,其中下標(biāo)t代表話題,則^'由如下公式定義公式(5)中^表示話題在互聯(lián)網(wǎng)論壇中的持續(xù)時(shí)間,",表示對(duì)該話題進(jìn)行討論的所有用戶集,,表示用戶i的適應(yīng)度,《表示用戶i的活躍程度。為了計(jì)算簡(jiǎn)便,可以使用用戶在論壇活躍期內(nèi)發(fā)表的帖子數(shù)量來(lái)表示用戶的活躍程度,同時(shí)使用優(yōu)先連接概率n來(lái)表示用戶的適應(yīng)度。這樣,一個(gè)給定話題的熱門(mén)程度主要由該話題在其生命周期內(nèi)吸引的不同用戶的重要程度來(lái)決定。下面分別給出上述各個(gè)步驟中所涉及的算法偽代碼。1、網(wǎng)絡(luò)構(gòu)造算法下面的偽代碼為網(wǎng)絡(luò)構(gòu)造算法/mYwe/-//MF/wfa〃/wtoWFz/Mser//os<3co朋ec/z'oww油y7=//"Faw/(7,》&wof/"五五2、適應(yīng)度估計(jì)算法下面的偽代碼為適應(yīng)度估計(jì)算法,"&ss=0ybmac/z"m&s啤/w化r/'s騰3、活躍度估計(jì)算法下面的偽代碼為活躍度估計(jì)算法cow欣wcfAewe/wwA:化£」4、熱度估計(jì)算法下面的偽代碼為熱度估計(jì)算法為了進(jìn)行算法的有效性實(shí)驗(yàn),進(jìn)行了相關(guān)的實(shí)驗(yàn)。按照本發(fā)明的一個(gè)實(shí)施方式,利用一種基于網(wǎng)絡(luò)結(jié)構(gòu)用戶行為模式的信息跟蹤與檢測(cè)系統(tǒng)進(jìn)行實(shí)現(xiàn),該系統(tǒng)包括網(wǎng)絡(luò)爬蟲(chóng)單元,用于抓取并存儲(chǔ)目標(biāo)網(wǎng)站的網(wǎng)頁(yè);信息抽取單元,用于將抓取到的網(wǎng)頁(yè)根據(jù)預(yù)定義的模板進(jìn)行匹配,得到進(jìn)行話題熱度分析所需的具體數(shù)據(jù);通用數(shù)據(jù)存取單元,用于對(duì)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)存儲(chǔ)和讀??;模板管理單元,用于創(chuàng)建、修改和刪除模板;網(wǎng)絡(luò)構(gòu)造單元,用于構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu);適應(yīng)度估計(jì)單元,用于估計(jì)網(wǎng)絡(luò)中節(jié)點(diǎn)的適應(yīng)度;活躍度估計(jì)單元,用于估計(jì)網(wǎng)絡(luò)中節(jié)點(diǎn)的活躍度;熱度估計(jì)單元,用于估計(jì)互聯(lián)網(wǎng)論壇中話題的熱度。網(wǎng)絡(luò)爬蟲(chóng)單元根據(jù)給定的初始URL地址對(duì)目標(biāo)網(wǎng)站進(jìn)行訪問(wèn),獲取目標(biāo)網(wǎng)站的網(wǎng)頁(yè)。訪問(wèn)過(guò)程的同時(shí)對(duì)網(wǎng)頁(yè)進(jìn)行URL解析,將網(wǎng)頁(yè)中的URL地址存入U(xiǎn)RL隊(duì)列中。當(dāng)網(wǎng)絡(luò)爬蟲(chóng)單元完成當(dāng)前URL地址的網(wǎng)頁(yè)抓取時(shí),將繼續(xù)URL隊(duì)列中下一個(gè)URL地址的抓取,抓取到的網(wǎng)頁(yè)數(shù)據(jù)存儲(chǔ)于本地文件系統(tǒng)中?,F(xiàn)有技術(shù)中存在與網(wǎng)絡(luò)爬蟲(chóng)單元功能類似的軟件,主要包括有各大商業(yè)搜索引擎的網(wǎng)絡(luò)爬蟲(chóng)以及開(kāi)源軟件領(lǐng)域的一些具有類似功能的軟件(比如Nutch)等。信息抽取單元可與網(wǎng)絡(luò)爬蟲(chóng)單元順序工作或并行工作。信息抽取單元進(jìn)行工作時(shí),將直接處理通過(guò)網(wǎng)絡(luò)爬蟲(chóng)單元抓取并存儲(chǔ)到本地的網(wǎng)頁(yè)。首先,信息抽取單元對(duì)這些存儲(chǔ)到本地的網(wǎng)頁(yè)進(jìn)行識(shí)別,判斷其適合何種模板。然后,信息抽取單元根據(jù)判定的結(jié)果選用合適的模板,由于模板中定義了信息抽取所需的數(shù)據(jù)和該數(shù)據(jù)的模式,因此可將模板套用到網(wǎng)頁(yè)中后可獲得所需的數(shù)據(jù)。在本發(fā)明的一個(gè)實(shí)施例中,從該互聯(lián)網(wǎng)論壇中抽取的數(shù)據(jù)包括但不限于用戶名、用戶標(biāo)識(shí)、發(fā)帖數(shù)量、話題標(biāo)識(shí)、發(fā)帖內(nèi)容、發(fā)帖時(shí)間等。數(shù)據(jù)結(jié)構(gòu)包括但不限于字符串、整數(shù)、時(shí)間日期等。通用數(shù)據(jù)存儲(chǔ)單元用于將信息抽取后獲得的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,也可以用于數(shù)據(jù)的讀取,數(shù)據(jù)讀取主要用于后期的計(jì)算。模板管理單元主要用于建立、修改、刪除系統(tǒng)中的模板。網(wǎng)絡(luò)構(gòu)造單元根據(jù)信息抽取單元提取的網(wǎng)絡(luò)數(shù)據(jù)以及上述網(wǎng)絡(luò)構(gòu)造算法,構(gòu)造網(wǎng)絡(luò)。然后將處理后的數(shù)據(jù)傳遞給適應(yīng)度估計(jì)單元以及活躍度估計(jì)單元,熱度估計(jì)單元將適應(yīng)度估計(jì)單元以及活躍度估計(jì)單元所得的結(jié)果進(jìn)一步計(jì)算已獲得話題的熱度。該系統(tǒng)利用了DotNet的技術(shù),只需在一臺(tái)有公共語(yǔ)言運(yùn)行時(shí)(CLR,CommonLanguageRuntime)支持的平臺(tái)上即可運(yùn)行。該系統(tǒng)的主要功能是在作為數(shù)據(jù)源的互聯(lián)網(wǎng)論壇中收集用戶和帖子的信息。實(shí)驗(yàn)結(jié)果證明,按照本發(fā)明的一個(gè)實(shí)施方式的熱點(diǎn)話題檢測(cè)方法所包括的用戶適應(yīng)度算法、用戶活躍度算法以及網(wǎng)絡(luò)構(gòu)造算法均有效。當(dāng)然,本領(lǐng)域的技術(shù)人員知道,可以采用任何適當(dāng)?shù)挠?jì)算機(jī)編程軟件來(lái)實(shí)現(xiàn)該系統(tǒng),并且互聯(lián)網(wǎng)論壇的選擇包括但不限于國(guó)內(nèi)論壇。按照本發(fā)明的一個(gè)實(shí)施方式,實(shí)驗(yàn)所用的數(shù)據(jù)均采集于國(guó)內(nèi)的某個(gè)論壇,帖子數(shù)目近700,000,用戶數(shù)目近20,000。每個(gè)帖子的數(shù)據(jù)結(jié)構(gòu)基本相同,如前文中的圖l所示。優(yōu)選地,按照前述方法獲取論壇帖子的數(shù)據(jù)后,將其存入到一個(gè)標(biāo)準(zhǔn)的關(guān)系型數(shù)據(jù)庫(kù)中。該數(shù)據(jù)庫(kù)中需要根據(jù)互聯(lián)網(wǎng)論壇的帖子內(nèi)容建立相應(yīng)的數(shù)據(jù)表,該表應(yīng)具有用戶名、帖子主題、帖子內(nèi)容、發(fā)表與編輯時(shí)間等數(shù)據(jù)列。這些數(shù)據(jù)的獲取是由前文所述系統(tǒng)實(shí)現(xiàn)的。當(dāng)然,本領(lǐng)域的技術(shù)人員知道,可以采用任何適當(dāng)?shù)臄?shù)據(jù)庫(kù),包括但不限于關(guān)系型數(shù)據(jù)庫(kù)。表1表示按照本發(fā)明的一個(gè)實(shí)施方式的方法獲得的適應(yīng)度結(jié)果。表1中展示了IO個(gè)適應(yīng)度最高的用戶,表中的用戶標(biāo)識(shí)代表了一個(gè)唯一的用戶,為了不涉及該互聯(lián)網(wǎng)論壇的用戶隱私,表l中沒(méi)有顯示用戶名,而使用用戶標(biāo)識(shí)進(jìn)行描述。適應(yīng)度計(jì)算結(jié)果是根據(jù)前文中介紹的適應(yīng)度估計(jì)算法得出的,表l中的用戶標(biāo)識(shí)是一個(gè)不斷遞增的大整數(shù),也就是說(shuō)用戶標(biāo)識(shí)小的用戶在該互聯(lián)網(wǎng)論壇中的注冊(cè)時(shí)間早,而用戶標(biāo)識(shí)大的用戶在該論壇中注冊(cè)的時(shí)間晚。從表l巾可以看出,用戶注冊(cè)的早晚與該用戶的適應(yīng)度大小并無(wú)直接的必然聯(lián)系。表1十大高適應(yīng)度用戶<table>tableseeoriginaldocumentpage18</column></row><table><table>tableseeoriginaldocumentpage19</column></row><table>表2表示按照本發(fā)明的一個(gè)實(shí)施方式的方法獲得的活躍度結(jié)果。表2展示了十個(gè)具有最高活躍度值的用戶,表2中使用的用戶標(biāo)識(shí)與表1中相同,此處不再贅述。從表2中可以看到,表中僅有一個(gè)排名第5的用戶在表1中出現(xiàn),而其在表l中的排名位置為第8。由此可見(jiàn),活躍度和適應(yīng)度有很大的差別,兩者都是反映用戶在互聯(lián)網(wǎng)論壇中重要程度的重要參數(shù)。表2十大高活躍度用戶<table>tableseeoriginaldocumentpage19</column></row><table>表3表示按照本發(fā)明的一個(gè)實(shí)施方式的方法獲得的熱度值結(jié)果。表3展示了數(shù)據(jù)源中十個(gè)最熱門(mén)的話題,話題標(biāo)識(shí)同用戶標(biāo)識(shí)一樣,都是一個(gè)唯一標(biāo)識(shí)符,用于標(biāo)識(shí)一個(gè)話題。表3展示的熱度值是根據(jù)前文中介紹的熱度估計(jì)算法計(jì)算而得的。表3十大熱門(mén)話題<table>tableseeoriginaldocumentpage19</column></row><table><table>tableseeoriginaldocumentpage20</column></row><table>下面將十大熱門(mén)話題所討論的主要內(nèi)容簡(jiǎn)略列出,同時(shí)給出該話題的相關(guān)數(shù)據(jù)信息。出于保護(hù)個(gè)人隱私的考慮,在列出話題的主要內(nèi)容時(shí)隱去了部分內(nèi)容,隱去的內(nèi)容主要是一些人物姓名。1.該話題主要是一些非?;钴S的用戶在互聯(lián)網(wǎng)論壇中進(jìn)行爭(zhēng)吵的內(nèi)容,數(shù)據(jù)源中共包含該話題相關(guān)帖子97份,共有29個(gè)不同用戶參與其中。2.該話題主要是對(duì)某位過(guò)去的政治家的相關(guān)討論,數(shù)據(jù)源中共包含該話題相關(guān)帖子50份,共有26個(gè)用戶參與其中。3.該話題主要是對(duì)另外某一位過(guò)去的政治家進(jìn)行的相關(guān)討論,數(shù)據(jù)源中共包含該話題相關(guān)帖子45份,共有30個(gè)用戶參與其中。4.該話題主要是對(duì)60年代到70年代發(fā)生的一個(gè)政治事件進(jìn)行討論,數(shù)據(jù)源中共包括相關(guān)帖子45份,共有29個(gè)用戶參與其中。5.該話題主要是對(duì)該互聯(lián)網(wǎng)論壇中某位用戶發(fā)表的一篇政治性文章進(jìn)行討論,數(shù)據(jù)源中共包括相關(guān)帖子117份,共有69個(gè)用戶參與其中。6.該話題主要是對(duì)該互聯(lián)網(wǎng)論壇如何進(jìn)行發(fā)展進(jìn)行討論,數(shù)據(jù)源中共包括相關(guān)帖子29份,共有19個(gè)用戶參與其中。7.該話題主要是該互聯(lián)網(wǎng)論壇中兩大用戶團(tuán)體進(jìn)行爭(zhēng)吵的內(nèi)容,數(shù)據(jù)源中共包含該話題相關(guān)帖子86份,共有35個(gè)不同用戶參與其中。8.該話題主要是該互聯(lián)網(wǎng)論壇中另外一次的兩大類用戶進(jìn)行爭(zhēng)吵的內(nèi)容,數(shù)據(jù)源中共包含該話題相關(guān)帖子20,共有16不同用戶參與其中。9.該話題主要是對(duì)一位前政治家的妻子進(jìn)行討論,數(shù)據(jù)源中共包括相關(guān)帖子86份,共有37個(gè)用戶參與其中。10.該話題主要是對(duì)中國(guó)的經(jīng)濟(jì)模式進(jìn)行討論,數(shù)據(jù)源中共包括相關(guān)帖子36份,共有24個(gè)用戶參與其中。從上述的內(nèi)容總結(jié)中可以看到,針對(duì)某個(gè)話題進(jìn)行討論的帖子數(shù)和參與的用戶數(shù)對(duì)該話題的熱門(mén)程度給出了一個(gè)直觀而簡(jiǎn)單的描述,但按照本發(fā)明的一個(gè)實(shí)施方式的實(shí)驗(yàn)結(jié)果中得到的熱點(diǎn)話題是完全按照本發(fā)明的話題熱度估計(jì)算法得到的。從上述的話題內(nèi)容總結(jié)中就可以推測(cè)出這些內(nèi)容必將是在互聯(lián)網(wǎng)論壇中得到眾多響應(yīng)和關(guān)注的話題,這些話題往往是有爭(zhēng)議和在政治上敏感的。綜上所述,按照本發(fā)明的一個(gè)實(shí)施方式,發(fā)現(xiàn)熱點(diǎn)話題的整個(gè)工作流程如圖8所示。S01:提取網(wǎng)絡(luò)數(shù)據(jù)。利用上述方法從網(wǎng)絡(luò)論壇中提取用于構(gòu)建網(wǎng)絡(luò)的數(shù)據(jù)。S03:構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)。利用S01中獲得的數(shù)據(jù),按照本發(fā)明的一個(gè)實(shí)施方式的上述網(wǎng)絡(luò)構(gòu)造算法,創(chuàng)建互聯(lián)網(wǎng)論壇的網(wǎng)絡(luò)結(jié)構(gòu)。S05:適應(yīng)度估計(jì)。利用SOl、S03獲得的數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu),按照本發(fā)明的一個(gè)實(shí)施方式的上述適應(yīng)度估計(jì)算法,計(jì)算網(wǎng)絡(luò)中各用戶的適應(yīng)度,判斷用戶的重要性。S07:活躍度估計(jì)。利用S01、S03獲得的數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu),按照本發(fā)明的一個(gè)實(shí)施方式的上述活躍度估計(jì)算法,計(jì)算網(wǎng)絡(luò)中各用戶的活躍度,判斷用戶的重要性。S09:熱度估計(jì)。利用S01-S07獲得的數(shù)據(jù)、網(wǎng)絡(luò)結(jié)構(gòu)、適應(yīng)度和活躍度,按照本發(fā)明的一個(gè)實(shí)施方式的上述熱度估計(jì)算法,判斷熱點(diǎn)話題。雖然以上描述了本發(fā)明的多個(gè)具體實(shí)施方式,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這些具體實(shí)施方式僅是舉例說(shuō)明,本領(lǐng)域的技術(shù)人員在不脫離本發(fā)明的原理和實(shí)質(zhì)的情況下,可以對(duì)上述方法及系統(tǒng)的細(xì)節(jié)進(jìn)行各種省略、替換和改變。例如,合并上述單元和/或方法步驟,從而按照實(shí)質(zhì)相同的方法執(zhí)行實(shí)質(zhì)相同的功能以實(shí)現(xiàn)實(shí)質(zhì)相同的結(jié)果則屬于本發(fā)明的范圍。因此,本發(fā)明的范圍僅由所附權(quán)利要求書(shū)限定。權(quán)利要求1.一種基于網(wǎng)絡(luò)結(jié)構(gòu)用戶行為模式的信息跟蹤與檢測(cè)方法,其特征在于,該方法包括以下步驟A、提取網(wǎng)絡(luò)數(shù)據(jù);B、構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu);C、根據(jù)所述網(wǎng)絡(luò)數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu),計(jì)算第一用戶模式數(shù)據(jù);D、根據(jù)所述網(wǎng)絡(luò)數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu),計(jì)算第二用戶模式數(shù)據(jù);E、根據(jù)上述網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)絡(luò)結(jié)構(gòu)、第一用戶模式數(shù)據(jù)和第二用戶模式數(shù)據(jù),獲得檢測(cè)結(jié)果。2.根據(jù)權(quán)利要求1所述的方法,其特征在于在上述步驟A中,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)單元抓取并存儲(chǔ)網(wǎng)頁(yè);通過(guò)信息提取單元分析并提取出網(wǎng)絡(luò)數(shù)據(jù)。3.根據(jù)權(quán)利要求l所述的方法,其特征在于在上述歩驟B中以圖的形式構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),所述圖是無(wú)向圖,所述網(wǎng)絡(luò)結(jié)構(gòu)中每個(gè)用戶對(duì)應(yīng)于所述圖中的一個(gè)節(jié)點(diǎn)。4.根據(jù)權(quán)利要求1所述的方法,其特征在于所述第一用戶模式數(shù)據(jù)是通過(guò)適應(yīng)度估計(jì)算法得出的適應(yīng)度估計(jì)值,所述第二用戶模式數(shù)據(jù)是通過(guò)活躍度估計(jì)算法得出的活躍度估計(jì)值,所述檢測(cè)結(jié)果是通過(guò)熱度估計(jì)算法得出的熱度估計(jì)值。5.—種基于網(wǎng)絡(luò)結(jié)構(gòu)用戶行為模式的信息跟蹤與檢測(cè)系統(tǒng),其特征在于,該系統(tǒng)包括網(wǎng)絡(luò)爬蟲(chóng)單元,用于抓取并存儲(chǔ)目標(biāo)網(wǎng)站的網(wǎng)頁(yè);信息抽取單元,用于提取出所需的網(wǎng)絡(luò)數(shù)據(jù);通用數(shù)據(jù)存取單元,用于將所述信息抽取單元提取出的所述網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,并讀取所述數(shù)據(jù)庫(kù)中已存儲(chǔ)的數(shù)據(jù);網(wǎng)絡(luò)構(gòu)造單元,利用提取出的所述網(wǎng)絡(luò)數(shù)據(jù)構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu);第一用戶模式數(shù)據(jù)估計(jì)單元,用于估計(jì)網(wǎng)絡(luò)中節(jié)點(diǎn)的第一用戶模式數(shù)據(jù);第二用戶模式數(shù)據(jù)估計(jì)單元,用于估計(jì)網(wǎng)絡(luò)中節(jié)點(diǎn)的第二用戶模式數(shù)據(jù);檢測(cè)結(jié)果獲取單元,用于根據(jù)所述網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)絡(luò)結(jié)構(gòu)、第一用戶模式數(shù)據(jù)和第二用戶模式數(shù)據(jù),獲得檢測(cè)結(jié)果。6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于所述系統(tǒng)還包括模板管理單元,用于創(chuàng)建、修改和刪除所述預(yù)定義的模板;所述網(wǎng)絡(luò)爬蟲(chóng)單元根據(jù)URL地址對(duì)目標(biāo)網(wǎng)站進(jìn)行訪問(wèn),獲取目標(biāo)網(wǎng)站的網(wǎng)頁(yè),并將抓取到的網(wǎng)頁(yè)數(shù)據(jù)存儲(chǔ)于本地文件系統(tǒng)中;所述信息抽取單元可與所述網(wǎng)絡(luò)爬蟲(chóng)單元順序工作或并行工作,所述信息抽取單元將已存儲(chǔ)的網(wǎng)頁(yè)與所述模板管理單元中預(yù)定義的模板進(jìn)行匹配,然后根據(jù)匹配的模板中已定義的信息抽取所需的數(shù)據(jù)和數(shù)據(jù)模式,獲得所需的網(wǎng)絡(luò)數(shù)據(jù)。7.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于所述網(wǎng)絡(luò)構(gòu)造單元以圖的形式構(gòu)建所述網(wǎng)絡(luò)結(jié)構(gòu),所述圖是無(wú)向圖,所述網(wǎng)絡(luò)結(jié)構(gòu)中每個(gè)用戶對(duì)應(yīng)于所述圖中的一個(gè)節(jié)點(diǎn)。8.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于所述第一用戶模式數(shù)據(jù)是通過(guò)適應(yīng)度估計(jì)算法得出的適應(yīng)度估計(jì)值,所述第二用戶模式數(shù)據(jù)是通過(guò)活躍度估計(jì)算法得出的活躍度估計(jì)值,所述檢測(cè)結(jié)果是通過(guò)熱度估計(jì)算法得出的熱度估計(jì)值。全文摘要本發(fā)明提供一種基于網(wǎng)絡(luò)結(jié)構(gòu)用戶行為模式的信息跟蹤與檢測(cè)方法及系統(tǒng)。首先獲取互聯(lián)網(wǎng)論壇中所有的目標(biāo)信息,將信息進(jìn)一步進(jìn)行抽取工作,獲得有關(guān)帖子的標(biāo)題、內(nèi)容、用戶名、發(fā)表時(shí)間等信息。然后用網(wǎng)絡(luò)構(gòu)建算法將抽取到的信息進(jìn)行互聯(lián)網(wǎng)論壇網(wǎng)絡(luò)結(jié)構(gòu)的重建,建立一個(gè)完整的圖,并計(jì)算該圖的相關(guān)性質(zhì)。隨后,使用適應(yīng)度估計(jì)算法、活躍度估計(jì)算法以及熱度估計(jì)算法進(jìn)行相關(guān)的計(jì)算,得到互聯(lián)網(wǎng)論壇中的熱點(diǎn)話題。本發(fā)明考慮了互聯(lián)網(wǎng)論壇的網(wǎng)絡(luò)結(jié)構(gòu),考慮了互聯(lián)網(wǎng)論壇中用戶的重要性,能夠迅速的判斷互聯(lián)網(wǎng)論壇中的敏感性和爭(zhēng)議性熱點(diǎn)話題,減小了計(jì)算量。文檔編號(hào)G06F17/30GK101393566SQ20081022680公開(kāi)日2009年3月25日申請(qǐng)日期2008年11月17日優(yōu)先權(quán)日2008年11月17日發(fā)明者飛丁,云劉,司夏萌,立張,張振江,張海峰,朱國(guó)東,勇李,波沈,輝程,凡賈申請(qǐng)人:北京交通大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1