專利名稱::一種互聯(lián)網(wǎng)新穎詞監(jiān)測方法
技術領域:
:本發(fā)明涉及一種互聯(lián)網(wǎng)新穎詞監(jiān)測方法,屬于互聯(lián)網(wǎng)信息挖掘領域。
背景技術:
:隨著網(wǎng)絡日益成為人們發(fā)布信息、溝通信息的主要媒體,網(wǎng)絡已逐漸成為一個多元化的信息平臺。在這個平臺上,既有官方的新聞,也有小道的消息。如何在第一時間把握這些消息,并且把握人們對這些消息的看法,尋找人們關注的新焦點和新熱點,就成為一個自然的需求了。不論是普通用戶還是行業(yè)專家都希望有一個自動化的工具或者方法幫助他們實時地跟蹤他們所關注的領域的最新熱點話題或者新聞,進而了解該領域的最新進展。不難發(fā)現(xiàn),在一般情況下,某個關鍵詞突然大量集中出現(xiàn)往往意味著某個熱點新聞或者熱點事件的發(fā)生,而當發(fā)生了被廣泛關注的新聞或事件時,又會在網(wǎng)絡上集中出現(xiàn)大量的帶有相應關鍵詞的文本。因此,互聯(lián)網(wǎng)文本中相應關鍵詞的數(shù)量的較大變化常常反映了社會熱點新聞或事件的出現(xiàn)或降溫,而網(wǎng)絡上反映熱點新聞或事件的文本又會進一步推動廣大網(wǎng)民對于熱點新聞和事件的關注程度和看法。也就是說,異常高的關鍵詞詞頻和新出現(xiàn)的顯著的熱點新聞和事件有一定的耦合關系。信息熵是計算語言學中一種用來表達信息所包含的信息量的一個指標。在本發(fā)明中,我們通過信息熵來度量關鍵詞的新穎程度。本發(fā)明對于網(wǎng)絡監(jiān)管機構、關注社會熱點新聞和事件的機構來說,是非常有價值的自動監(jiān)控新事件發(fā)生及群眾對事件反應的工具。以下討論的關于詞的方法,均指關鍵詞。不同詞有不同的出現(xiàn)詞頻,其信息熵的大小不僅與當日的詞頻有關,更與其一段時間內的詞頻變化有關。比如在某日,不同出現(xiàn)詞頻的詞的相同出現(xiàn)次數(shù)有不同含義。對于一個使用頻率很高的詞來說,詞頻的歷史均值和歷史標準差都很大,例如,分別是500次/天和350次/天。如果在某一天,其互聯(lián)網(wǎng)頻率增加了300次,變成了800次,即增加了大約1倍,那么一般仍然很正常;但是,如果其互聯(lián)網(wǎng)頻率變成了1200次,即增加了大約2倍,就會預示著發(fā)生了相應的熱點新聞或事件了。而對一個頻率比較低的詞,平均日互聯(lián)網(wǎng)出現(xiàn)頻率及其標準差很小,例如,分別是20次和15次。如果在某一天,其互聯(lián)網(wǎng)頻率增加了30次,變成了50次,即增加了大約1倍多,那么一般仍然很正常;但是,如果在某一天,互聯(lián)網(wǎng)上該詞的信息量增加了300次,變成了320次,則預示出現(xiàn)了相應的熱點事件或新聞。也就是說,同樣是增加300次,對高頻詞說,仍然正常;而對低頻詞來說,則說明出現(xiàn)了新事件,則該詞可以定義為當天的"新穎詞"。以上說明對具有不同詞頻的詞的度量,標準是不同的。對于低頻詞,上述的300次出現(xiàn)次數(shù)稱為新穎高的詞頻增加量。我們的主要目標是檢測異常高的詞頻增加量,通過信息熵的度量,進而監(jiān)控并預測網(wǎng)絡熱點信息的出現(xiàn)或降溫,以及進行必要的報警。KhooK.B.等人于2001年提出了一種跟蹤熱點話題的方法,對一些定點的網(wǎng)站或者網(wǎng)頁定期統(tǒng)計一些關鍵詞項(term)的詞頻,并利用tfidf公式計算每個term的當前權重,并從中得到當前的熱點話題(topic)(KhooK.B.,MitsuruI.EmergingTopicTrackingSystem.AdvancedIssuesofE-CommerceandWeb-BasedInformationSystems,WECWIS2001,ThirdInternationalWorkshopon.2-11.2001.)。其貢獻之處在于,給出了一種標準化的公式來計算每個term的當前權重,隨著時間的變化,這個權重也會隨之變化,從而反映出互聯(lián)網(wǎng)信息熱點的變化情況。利用該方法的主要缺點在于,沒有考慮每個term的歷史,因此無法根據(jù)每個詞的信息熵對異常的熱點信息進行準確的度量,只能對各個term進行橫向的比較。
發(fā)明內容本發(fā)明的目的在于克服現(xiàn)有技術中存在的問題,提供一種基于信息熵的互聯(lián)網(wǎng)新穎詞監(jiān)測方法。本發(fā)明針對互聯(lián)網(wǎng)上的某個領域,對其相關詞匯的頻率變化進行監(jiān)測,計算關鍵詞的信息熵,從而描述該詞的新穎度,并確定其是否為新穎詞,進而對新穎詞進行圖形化顯示。同時,對這些新穎詞進行持續(xù)性的觀測,即連續(xù)對該詞所代表的新事件進行"熱點關注"。所以,本發(fā)明包括對"新穎詞"的發(fā)現(xiàn)及追蹤兩部分組成。發(fā)現(xiàn)主要基于信息熵,來尋找到事件的突發(fā)點,隨后通過對其出現(xiàn)的頻數(shù)變化,保持對其的追蹤。由于通?;ヂ?lián)網(wǎng)信息數(shù)量龐大,本發(fā)明的圖形輸出方式實質上是給出了一個總結性信息,從而提高了發(fā)現(xiàn)新話題信息的效率。對網(wǎng)絡監(jiān)管部門來說,本發(fā)明可以提供一個及時的熱點信息觀察窗口,盡早發(fā)現(xiàn)那些新發(fā)生的事件,并對其進行追蹤,了解事態(tài)的變化及群眾對其的看法。此外,根據(jù)本方法,可以從互聯(lián)網(wǎng)角度,對熱點信息和事件的變化情況進行監(jiān)控和預測,并可以相當?shù)販蚀_向用戶報警。總的來說,本發(fā)明技術方案可包括以下內容輸入領域關鍵詞從而確定相關領域網(wǎng)站,抓取相關網(wǎng)站上的信息,計算當天的備選新穎詞,通過信息熵得到當天新穎詞,新穎詞圖形化顯示,新穎詞的持續(xù)跟蹤及對其原文的查看(見圖l)。具體來說〈1〉確定相關領域網(wǎng)站互聯(lián)網(wǎng)涵蓋的領域很廣,只有對相關領域的新穎詞進行監(jiān)測,才會使得結果更有意義。確定相關領域網(wǎng)站的可按以下步驟進行〈1.1〉輸入代表相關領域的關鍵詞,通過搜索引擎得到返回的多個結果(比如,500個);〈1.2〉每個結果可用域名,路徑和文件名三部分組成,選取這些結果中出現(xiàn)最頻繁的多個域名(比如,50個)作為候選網(wǎng)站首頁。注意這里的域名有的是頂級的,有的只是某一子域名,由其涵蓋的結果決定;〈1.3〉對每個候選首頁求兩個指標OutlineRatio(OR)和ContentRatio(CR)這兩個指標的定義如下0R=|_,其中S為該首頁上指向其余各個網(wǎng)址的超鏈接個數(shù),戶。為該首頁上所有的出鏈個數(shù);CR=|l,其中P,為該首頁下級的頁面中,包含搜索領域關鍵詞的頁面數(shù),尸為該首頁下包含的所有頁面數(shù)。〈1.4>把OR值大于其閾值ORt(比如,0.7)并且CR值大于CRt其閾值(比如,0.5)的網(wǎng)站做為種子存入數(shù)據(jù)庫中,這些網(wǎng)址構成了這個領域的信息來源集;通過上述方法,可以得到某個特定領域的信息來源集。需要提醒的是,互聯(lián)網(wǎng)的變化發(fā)展是很快的,所以這個集合也要注意更新。當然,如果距離上一次更新所經(jīng)過的時間較短,則不更新也可;或者本領域信息來源集的變化較小或者已有比較權威的信息來源集,則直接使用這些信息來源集即可,無需進行上述步驟?!?〉抓取相關網(wǎng)站上的信息6得到相關領域的網(wǎng)站集后,按照以下步驟進行其信息內容的抓取〈2.1〉從數(shù)據(jù)庫的站點列表中讀取一條網(wǎng)站地址記錄;〈2.2〉抓取得到該地址的頁面,存入數(shù)據(jù)庫的網(wǎng)頁信息表中,同時記錄抓取時間等相關信息;〈2.3〉當該頁面有內部鏈接時,得到該鏈接地址,返回〈2.2〉;〈2.4〉當頁面已經(jīng)是最后一層時,程序結束;通過上述步驟,可以得到每天的該領域的互聯(lián)網(wǎng)上的信息,為進一步數(shù)據(jù)處理提供了素材,也為后面的用戶對新穎詞所暗示的事件的察看打下了基礎。需要說明的是,本發(fā)明方法要求用以上方法積累一段時間的歷史數(shù)據(jù)。〈3>通過信息熵計算當天的備選新穎詞得到當天的所有網(wǎng)頁后,我們就可以計算當天的備選新穎詞了。按以下步驟進行〈3.1〉對當天存入數(shù)據(jù)庫的網(wǎng)頁主體文字進行分詞處理,統(tǒng)計每一個詞的信息特征值TF,公式如下7Fr=河"),其中freq(ij)表示詞語i在文章j中的出現(xiàn)次數(shù),num(j)表示文章j的總詞數(shù),TFij即詞i在文章j中的詞頻。〈3.2〉對每個詞求其當天的信息熵值。公式如下log盧2巧乂=1〈3.3〉對每篇文章的詞計算TF*ENTROPY值,作為其權重,按其大小進行排序,取排名靠前(比如,前二十名)的詞語作為該篇文章的備選新穎詞;〈3.4〉匯總當天出現(xiàn)的所有文章,將每篇文章的備選新穎詞取并集,構成當天的備選新穎詞,若備選詞a在當天的f篇文章中都被列入備選新穎詞之列,則該詞a的頻率就定為f,我們在數(shù)據(jù)庫中記錄下該值和所出現(xiàn)的f篇文章編號,以方便后期的跟蹤和察看;通過上述步驟,可以得到當天的備選新穎詞。最終的新穎詞結果就從這些詞中產(chǎn)生?!?〉計算當天新穎詞接下來,我們將使用均值方差模型來評估每一個候選詞是否有資格成為當天的新穎詞。步驟如下〈4.1〉〈4.2〉將當日抓取的網(wǎng)頁中的所有單詞與用戶詞典進行比較,刪去沒有出現(xiàn)在用戶詞典中的單詞;對當天的每一個備選新穎詞,按照其在過去一段時間(比如,三十天,以下的計算以30天為例)內記錄的頻率計算其均值和方差。公式如下30平均值avg=2;/—-)、—'=1,方差var=V302](勿(z)-ovg)2|.=13030〈4.3〉評估每一個備選新詞的新穎系數(shù)n,公式為:n氣freqi-avgi)/Vceil(vari),其中ceil()是上取整函數(shù)。〈4.4〉然后按照下列折線判別函數(shù)檢測每個關鍵詞的新穎度ei。即,當~00<11<0時,6i=0;當0^n〈l時,6i=floor(10n),其中floor()是下取整函數(shù);當l^n〈2時,6i=floor(70(n-1))+10;當2511<3時,01=floor(9(n—2》+80;當35n<4時,6i=floor(10(n—3》+90,當45n〈+oo時,0i=99。最后,當關鍵詞ti的異常度ei〉90分時,該詞被認定為是新穎詞;通過上述步驟我們就可以得到當天的新穎詞匯,將其存入到數(shù)據(jù)庫中?!?〉新穎詞的圖形化顯示這一步我們將會把得到的新穎詞用一種直觀的方式表現(xiàn)出來。整個圖形用柱狀圖顯示,柱的長度表示了新穎度的大小(見圖3)。同時,還可使其顏色隨著新穎度的變化,由綠,黃,橙,紅進行變化,以更加直觀地體現(xiàn)新穎度差別?!?〉新穎詞的持續(xù)跟蹤及對其原文的査看用戶在看到新穎詞的圖形化展示后,檢測到了哪些詞代表了今天的新事件。但僅從詞匯還看不出事件的全貌,所以,可以讓用戶點擊新穎詞去査看當天出現(xiàn)這些新穎詞的新聞(見圖4)。此外,用戶在識別了一個新事件后,會希望在以后的日子里對其進行關注。本發(fā)明也允許用戶持續(xù)長時間的關注某一新穎詞的頻率歷史變化(見圖5)。本發(fā)明與Khoo等人的技術區(qū)別有以下五點。第一,Khoo等人使用了TFIDF公式來度量關鍵詞項的重要程度,但存在一個問題在一篇文章中,無論一個詞出現(xiàn)了1次還是100次,對IDF值的貢獻是相同的。IDF值只考量了在文集中包含詞語的文章數(shù)目,而沒有考慮詞語在文集中不同文檔的分布變化。同時,大多數(shù)的算法中IDF是根據(jù)一個大規(guī)模的文集靜態(tài)計算的,這對于時間敏感度高的新聞來說是不利于提取關鍵詞的。所以,本發(fā)明使用了信息熵作為當天詞匯是否新穎的度量標準。第二,Khoo等人沒有考慮各個term的歷史均值和標準差,也沒有對高頻詞和低頻詞的不同情況進行分別處理的機制,而在本文中發(fā)明設計了對不同頻率詞匯變化的權重度量公式,使用歷史均值和歷史標準差對詞頻顯著性波動,進行預測。由于每個關鍵詞是否是新穎詞在很大程度上依賴于歷史上該關鍵詞的頻率分布,所以利用歷史均值和標準差可以從根本上提高新穎詞檢測的實際應用效果。第三,對詞頻的變化所代表的熱點話題的變化,Khoo等人使用term的權重的排位來體現(xiàn),而本發(fā)明通過閥值條件來判斷,該閥值除了建立在歷史標準差之上,還對高頻詞和低頻詞進行區(qū)分,并使之更接近實際使用場合。第四,Khoo等人的技術沒有進行圖形化顯示,不方便實際應用,本發(fā)明設計和實現(xiàn)了圖形條長度及顏色的顯示方法,使用戶可以一目了然。第五,Khoo等人的技術并沒有給出對新穎詞的持續(xù)跟蹤和全面了解的方法。本發(fā)明中用戶可以查看出現(xiàn)新穎詞的新聞內容,并且可以持續(xù)跟蹤新穎詞的頻率變化,對于研究一個新穎事件的發(fā)展全過程有很大的益處。本發(fā)明方法可以有效地發(fā)現(xiàn)當天的新穎詞匯,并且能夠通過圖形化的方式對其進行顯示,用戶還可以通過閱讀出現(xiàn)新穎詞的新聞來全面地了解新事件的動態(tài),并通過對其的長時間跟蹤來對事件持續(xù)關注。用戶可以通過使用本發(fā)明方法對自己關注的領域所發(fā)生的新事件在第一時間做出反應,可以指導互聯(lián)網(wǎng)新信息發(fā)現(xiàn)和監(jiān)管的實踐。舉例來說,如果新穎信息為股市熱點信息,通過此監(jiān)控技術,就可以間接地了解宏觀經(jīng)濟指標變動、公司財務變化對股價的影響,為決策機關的政策制定提供更多的理論依據(jù)。隨著互聯(lián)網(wǎng)的進一步發(fā)展和滲透,將會有更多的金融信息通過網(wǎng)絡的渠道進行公示,而由于互聯(lián)網(wǎng)的廣泛性和匿名性,很可能成為故意炒作者的利器。從這個意義上說,對互聯(lián)網(wǎng)金融信息最新的發(fā)展變化進行研究還可以幫助金融監(jiān)督機構有效地實現(xiàn)金融監(jiān)管,提高信息可信度,打擊惡意操作的行為。對于企業(yè)管理者而言,如果可以提前把握互聯(lián)網(wǎng)金融信息對自身股市行為帶來的可能影響,那么勢必將更為有效地做出決策,同時也可以及時地對虛假和炒作的金融信息做出回應。9圖l本發(fā)明方法的主要步驟流程圖22007-05-30新浪網(wǎng)的新聞分頁上的信息;圖32007-05-30日發(fā)現(xiàn)的新穎詞圖形展示;圖45.30當天就"印花稅"這一新穎詞出現(xiàn)的文章簡表;圖5"印花稅"在五、六月份的頻率變化趨勢;具體實施例方式下面結合具體實施例和附圖對本發(fā)明作進一步描述。實施例l(l)本實施例以金融領域作為目標領域,選擇"金融"作為領域關鍵詞進行網(wǎng)站收集,并把收集到的網(wǎng)站列表存入數(shù)據(jù)庫之中,表l給出了其中的一部分。表l序號鏈接1http:〃finance.sina,com.cn/2http:〃finance.163.com/3http:〃cn.financc.yahoo.com/4http:〃finance.sohu.com/5http:〃finance.tom.com/6http:〃www.jrj.com7http:〃www,hexun,com,cn8http:〃www.enet.com.cn/finance/9http:〃www.qq.com/finance/10http:〃news.chinabyte.com/11http:〃www.gov,cn/jrzg/zgyw.htm12http:〃news.hexun.com/13http://news.china.com/14http:〃msn.ynct.com/<table>tableseeoriginaldocumentpage11</column></row><table>(2)抓取相關網(wǎng)站上的信息本例子使用從2006年末至2007年末的互聯(lián)新聞信息數(shù)據(jù)?!?.1〉從如表1中的數(shù)據(jù)庫的站點列表中讀取一條網(wǎng)站地址記錄,比如http:〃finance.sina.com.cn;〈2.2〉抓取得到該地址的頁面,存入數(shù)據(jù)庫的網(wǎng)頁信息表中,同時記錄抓取時間等相關信息,例子見圖2;〈2.3〉當該頁面有內部鏈接時,得到該鏈接地址,返回〈2.2〉;〈2.4〉當頁面己經(jīng)是最后一層時,程序結束;本發(fā)明并不限于抓取互聯(lián)網(wǎng)新聞文本,可以抓取任何能夠反映熱點信息的文本,例如論壇文本。(3)通過信息熵計算當天的備選新穎詞選取2007.5.30日作為實驗點。在得到當天的所有網(wǎng)頁后,計算當天的備選新穎詞了。按以下步驟進行〈3.1〉對當天存入數(shù)據(jù)庫的網(wǎng)頁主體文字進行分詞處理,統(tǒng)計每一個詞的信息特征值tf,公式如下<formula>formulaseeoriginaldocumentpage11</formula>其中freq(i,j)表示詞語i在文章j中的出現(xiàn)次數(shù),num(j)表示文章j的總詞數(shù),TFy即詞i在文章j中的詞頻。〈3.2〉對每個詞求其5.30當天的信息熵值。公式如下-<formula>formulaseeoriginaldocumentpage11</formula>〈3.3〉對每篇文章的詞計算1*£^[1110丫值,作為其權重,按其大小進行排序,取前二十名為該篇文章的備選新穎詞;〈3.4〉匯總當天出現(xiàn)的所有文章,將每篇文章的備選新穎詞取并集,構成當天的備選新穎詞,若備選詞a在當天的f篇文章中都排前二十,則該詞a的頻率就定為f,在數(shù)據(jù)庫中記錄下該值和所出現(xiàn)的f篇文章編號,以方便后期的跟蹤和察看;表2列出了一部分2007-5-30號當天的候選新穎詞列表。表2詞匯印花稅基金美元…股份公司犯罪左曉蕾充足率格林TF承ENTROPY32.523.612.53.211.34.24.37.5頻率值775534…417556(4)計算當天新穎詞〈4.1〉將當日抓取的網(wǎng)頁中的所有單詞與用戶詞典進行比較,刪去沒有出現(xiàn)在用戶詞典中的單詞;〈4.2〉對當天的每一個備選新穎詞,按照其在過去三十天內記錄的頻率計算其均值和方差,公式如下〈4.3〉〈4.4〉30平均值avg-爿1---方差var=飛302]CMKi)-avg)2'=13030評估每一個備選新詞的新穎系數(shù)n,公式為n=(freqi-avgi)/T/ceil(vaTi),其中ceil()是上取整函數(shù)。然后按照下列折線判別函數(shù)檢測每個關鍵詞的新穎度ei。也就是說,當^xKri<0時,6i=0;當0Sn<1時,6i=floor(10n),其中floor()是下取整函數(shù);當l^n〈2時,ei:floor(80(n-1))+10;當2^n<3時,6i=floor(9(n—2》+70;當機立3<n<4時,6i=floor(7(n—3》+90當4^n<+00時,6i=99。最后,當關鍵詞ti的異常度9i〉90分時,該詞被認定為是新穎詞。表3給出了部分備選新穎詞的新穎度計算過程。12表3<table>tableseeoriginaldocumentpage13</column></row><table>(5)新穎詞的圖形化顯示圖3所示的圖形方式下,按照圖形條的長度,通過査一個20個長度和20個顏色一一對應的表,來決定其應該繪制的顏色。圖形條表示關鍵詞的新穎程度,圖形條越長,表示該詞的新穎度越大。圖中可以看出,關鍵詞"印花稅"的新穎度非常高(且顏色為大紅色,圖中未顯示),說明今天一定發(fā)生了某種與之相關的新事件,而實際上,當天確實是證監(jiān)會宣布上調印花稅的時候;關鍵詞"延邊"的新穎度也很高,因為當天有關于延邊借殼上市違規(guī)的報道。而關鍵詞"美元"雖然詞頻的絕對值較高,但是由于詞頻變化較小,新穎系數(shù)很低,不認為是新穎詞匯。(6)新穎詞的持續(xù)跟蹤及對其原文的查看本發(fā)明還可以在發(fā)現(xiàn)新穎詞之后,還可以對當天出現(xiàn)該新穎詞的新聞進行查看,以確定究竟發(fā)生了什么事情。比如在5.30這天發(fā)現(xiàn)了印花稅作為一個新穎詞出現(xiàn)了,那么可以看到如圖4所示的出現(xiàn)印花稅的文章內容。這里也摘錄其中的一條"據(jù)新華社電為進一步促進證券市場的健康發(fā)展,經(jīng)國務院批準,財政部決定從2007年5月30日起,調整證券(股票)交易印花稅稅率,由現(xiàn)行1%。調整為3%。。即對買賣、繼承、贈與所書立的A股、B股股權轉讓書據(jù),由立據(jù)雙方當事人分別按3%。的稅率繳納證券(股票)交易印花稅。"有了對包含新穎詞的內容的査看,就可以進一步把握新穎詞背后所蘊含的意思和事件。此外,在發(fā)現(xiàn)新穎詞之后,我們還應該對其進行持續(xù)性的關注。這時我們更多的是關注其詞頻的變化,因為詞頻的多少就直接表現(xiàn)了該詞的熱度。如圖5所示。實施例2本實施例采用一個測試集合來評價本發(fā)明的有效性。該測試集合取自各個門戶網(wǎng)站的新聞和消息,因為本發(fā)明基于領域的新穎詞監(jiān)測系統(tǒng),所以以金融領域為研究對象,來對發(fā)明的有效性進行評價。由于新穎詞是一個全新的概念,如何評價其選擇是否正確,以及這些新穎詞匯的正確率有多高需要一個參照標準,當前還沒有一個客觀的全面的標準來進行評價,對于這種情形,本發(fā)明依據(jù)新浪財經(jīng)等門戶網(wǎng)站上的信息排行榜,預先采用人工的方式確定一個新穎詞匯的參照表(由于隨著時間變動,該詞匯表也是不斷變化的,每天都可能改變)的方式來進行。目前在信息檢索領域,用于評價詞匯提取性能的最常用指標是召回率(Recall)和査準率(Precision),在本發(fā)明的有效性評價中,采用這兩個指標來進行,分別定義為P-(獲取的符合條件的新穎詞數(shù)目)/(獲取的詞匯總數(shù)目)R=(獲取的符合條件的新穎詞數(shù)目)/(新穎詞匯表中詞數(shù)目)兩個指標分別從不同側面刻畫了性能的好壞。測試首先是獲取數(shù)據(jù)集合,文檔時間范圍為2007年5月18日至2007年6月1日,選取的信息來源自前面表1所列舉的網(wǎng)站。采用本發(fā)明所介紹的第<1>步方法來獲取網(wǎng)頁數(shù)據(jù),并保存于本地供進一步評測使用,測試文檔集合詳細情形參見表4所示,列出了成功獲取的文檔篇數(shù)、詞數(shù)以及文檔大小。獲取數(shù)據(jù)的同時,對文檔進行了中文分詞處理,分詞基于中科院計算所的海量詞典進行,后面的統(tǒng)計計算是基于分詞后的結果。表4日期文檔數(shù)量集合大小200705181,0251,202,582bytes20070519489586,180bytes20070520364574,591bytes200705211,1071,371,684bytes20070522844785,734bytes20070523964895,145bytes200705241,0211,347,607bytes20070525994928,564bytes<table>tableseeoriginaldocumentpage15</column></row><table>針對該段時間的關鍵詞新穎度檢測獲得的新穎度結果如表5所示,當日的新穎度依賴于前面的歷史詞頻和波動變化。表5<table>tableseeoriginaldocumentpage15</column></row><table>在表5中,該段時間每日的關鍵詞新穎度隨著相應詞頻的歷史均值和歷史方差變動,以測試文檔頭一天的新穎度數(shù)據(jù)為例,在此前未有歷史均值和方差的基礎上,該天的新穎度數(shù)據(jù)可能說明不了什么問題,僅僅只是在當天的信息熵的基礎上,更多的以詞頻本身來體現(xiàn)當天的熱點詞匯,詞頻大的,比如"基金",新穎度為68,該天的詞頻數(shù)量為75,占有很大的比重,只能說明在該天的出現(xiàn)次數(shù)較多,等到隔一周時間之后,該詞的詞頻73雖然還是很大,但新穎度就已經(jīng)下降得很低了。平常詞頻均值較小的詞語,如"印花稅",在測試文檔第一天的數(shù)據(jù)中,新穎度為3,詞頻數(shù)目8很小,隨后的幾天其頻數(shù)一直比較低。但是到了5.28,雖然詞頻僅有50,但是新穎度已經(jīng)達到88了。主要是由于詞頻的歷史數(shù)據(jù)較大波動率所致。同時,我們可以看出,在5.30之前,人們對印花稅就已經(jīng)開始議論了,由此可以看出本發(fā)明有一定的揭示新事件發(fā)生的可能性的功能。本發(fā)明相以之前的類似發(fā)明,最大的改進在于新穎詞的候選方面使用了信息熵作為評價指標。相比TFIDF的方法,本發(fā)明更看重詞匯在一天當中的概率分布,越均勻則說明越不是候選詞。而TFIDF只是看重詞頻,得到的結果自然要比本發(fā)明差一些。在本發(fā)明方法的效果評價過程中,我們選用某門戶網(wǎng)站上的財經(jīng)排行榜作為依據(jù),需要指出的是,新穎詞的選擇在一定程序上依靠人的主觀判斷。所以標準并不唯一。對比結果如表8所示。表6分類本發(fā)明新穎詞匯累計某門戶網(wǎng)站的財經(jīng)排行榜時間段20070518-2007060120070518-20070601詞例印花稅,延邊,周小川,廣發(fā),QDII,商品房,證監(jiān)會,屠光紹,左曉蕾,充足,國債等等印花稅,延邊,周小川,廣發(fā),QDII,商品房,證監(jiān)會,屠光紹,左曉蕾,充足,國債,估值,反彈等等總詞數(shù)146166符合標準詞數(shù)115一平均召回率0.6928—平均査準率0.7877—因為該網(wǎng)站搜集的這些信息都是以消息標題形式呈現(xiàn),我們針對這些事件提取了關鍵詞,同時列出了該段時間內我們的方法發(fā)現(xiàn)的新穎詞信息。經(jīng)過統(tǒng)計計算,可以看到本發(fā)明的平均查準率為78.77%,平均召回率為69.3%,效果較好。從詞性上對這些新穎詞進行分析,名詞詞性的熱點詞匯多為有關該人所發(fā)表的看法,如5月18日周小川發(fā)表股市泡沫令人擔憂的評論;該事物的特殊變化,如5月28日銀星能源連續(xù)出現(xiàn)20余個漲停板后受到強烈關注;有關該事物的一些政策措施,如5月19日中國人民銀行上調存貸款基準利率。動詞詞性的熱點詞匯多為對當日股市期貨等財經(jīng)指標走勢的評價,5月16日的反彈是在經(jīng)歷15日暴跌后,股指出現(xiàn)報復性反彈。多個詞與同一組文章相關通常是有一定關聯(lián)的詞語,如5月17日的援引、箭在弦上、署名是"《金融時報》發(fā)表記者署名文章稱中國新一輪宏觀調控箭在弦上,不過力度將保持溫和。該報道同時援引未具名專家的話稱,如果CPI(消費者價格指數(shù))繼續(xù)攀升,不排除央行下一步采取加息措施的可能性。"5月18日的辭職,沃爾福威茨是世界銀行集團17日發(fā)表執(zhí)行董事會和行長的聲明,宣布沃爾福威茨將辭去行長職務。5月30日的印花稅這組詞匯則是有關印花稅在當日上調至3%的新聞通報及相關評論和影響評價。而少數(shù)看起來無關的詞匯則是文章關鍵詞的提取有誤,如5月28日的提示的相關新聞是"上證所上市公司部日前發(fā)布了《關于加強*3丁和8丁公司風險揭示的通知》。通知要求,*8丁公司和3丁公司應及時向控股股東和實際控制人函證相關信息,至少每兩周披露一次風險提示公告。"表6中的數(shù)據(jù)可以看出,本發(fā)明具有較高的平均查準率,原因主要是使用信息熵的方法,很好的過濾了無意義詞或普遍詞對算法的影響,此外充分利用了"新穎詞匯在某一特定時間點相較于自身歷史回溯忽增的特點",與此同時,另一方面本發(fā)明顯示出較低的平均召回率,這可能是因為選取的信息來源是有限集,可以通過調整參數(shù)來擴大信息來源數(shù)。總體來看,本發(fā)明在新穎詞的監(jiān)測方法有比較好的效果,適合用作人們對于某一領域的持續(xù)關注的工具。權利要求1.一種互聯(lián)網(wǎng)新穎詞監(jiān)測方法,其特征在于,包括下列步驟a)根據(jù)目標信息源集合,獲得其中各個首頁及其內部鏈接所指向的各級下級頁面中當日的所有文章;b)對各個文章作分詞處理,并為各個文章中的每個詞語賦予權重,以權重最大的前a個詞語作為該文章的備選新穎詞,并以該備選新穎詞同時成為多個文章的備選新穎詞時的文章數(shù)作為該詞當天的頻率freq;c)根據(jù)各個備選新穎詞在b天內的freq記錄計算各個備選新穎詞的新穎系數(shù)<mathsid="math0001"num="0001"><math><![CDATA[<mrow><mi>n</mi><mo>=</mo><mrow><mo>(</mo><mi>freq</mi><mo>-</mo><mi>avg</mi><mo>)</mo></mrow><mo>/</mo><msqrt><mi>ceil</mi><mrow><mo>(</mo><mi>var</mi><mo>)</mo></mrow></msqrt><mo>,</mo></mrow>]]></math>id="icf0001"file="A2008101178210002C1.tif"wi="44"he="5"top="93"left="38"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>其中<mathsid="math0002"num="0002"><math><![CDATA[<mrow><mi>avg</mi><mo>=</mo><mfrac><mrow><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>b</mi></munderover><mi>freq</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow><mi>b</mi></mfrac><mo>,</mo></mrow>]]></math>id="icf0002"file="A2008101178210002C2.tif"wi="30"he="15"top="86"left="95"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths><mathsid="math0003"num="0003"><math><![CDATA[<mrow><mi>var</mi><mo>=</mo><mfrac><msqrt><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>b</mi></munderover><msup><mrow><mo>(</mo><mi>freq</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>-</mo><mi>avg</mi><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mi>b</mi></mfrac><mo>,</mo></mrow>]]></math>id="icf0003"file="A2008101178210002C3.tif"wi="43"he="16"top="85"left="129"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>ceil表示上取整函數(shù);d)根據(jù)新穎系數(shù)n確定新穎度θ,當某個備選新穎詞的新穎度大于新穎度閾值θt時,即認為該詞語是當天的新穎詞。2.如權利要求l所述的方法,其特征在于,步驟a)所述目標信息源集合通過下述方法獲i.確定目標領域;ii.確定目標領域的關鍵詞;iii.通過搜索引擎搜索所述領域關鍵詞,得到返回的前c個結果;W.從所述c個結果中提取出現(xiàn)頻率最高的前d個域名;v.從所述d個域名對應的d個首頁中提取OR值大于其閾值ORpCR值大于其閾值CRt的首頁,并以這些首頁對應的域名作為目標信息源集合,其中,OR=A,CR=!,兩式中尸0尸"《表示當前首頁中指向其余d-l個首頁的超鏈接個數(shù),尸。表示當前首頁上所有的外部鏈接個數(shù);^表示當前首頁的下級頁面中包含所述領域關鍵詞的頁面數(shù),^表示當前首頁的下級頁面?zhèn)€數(shù);3.如權利要求2所述的方法,其特征在于,所述目標信息源集合定期更新。4.如權利要求l所述的方法,其特征在于,步驟b)所述權重按照下述方法計算i.計算每一個詞語的信息特征值TFU:<formula>formulaseeoriginaldocumentpage3</formula>freq(ij)表示當前詞語i在其所在的文章j中的出現(xiàn)次數(shù),num(j)表示該文章j的總詞語數(shù);ii.計算每一個詞語在當天的信息熵值ENTROPY:<formula>formulaseeoriginaldocumentpage3</formula>N表示文章數(shù);iii.以TFjj和ENTROPY的乘積作為當前詞語的權重。5.如權利要求1所述的方法,其特征在于,在步驟b)和c)之間將所有備選新穎詞和用戶詞典進行比較,僅對出現(xiàn)在用戶詞典中的詞語進行后續(xù)處理。6.如權利要求1所述的方法,其特征在于,步驟d)所述新穎度e按照下述規(guī)則取值當HiO時,6i=0;當0^n〈l時,ei=floor(10n),其中floor()是下取整函數(shù);當l^n〈2時,ei=floor(70(n—1))+10;當2^n〈3時,6i=floor(9(n—2))+80;當3£n<4時,6i=floor(10(n—3))+90,當4Sn〈+oo時,6i=99。7.如權利要求1所述的方法,其特征在于,步驟d)之后以柱形圖展示新穎詞,其中柱長表示新穎度。8.如權利要求1所述的方法,其特征在于,a=20,b=30,c=500,d=50,6產(chǎn)90,OR產(chǎn)0.7,CR產(chǎn)0.5。9.如權利要求1所述的方法,其特征在于,步驟d)之后還包括集中展示各個新穎詞所在的文章。全文摘要本發(fā)明公開了一種互聯(lián)網(wǎng)新穎詞監(jiān)測方法,屬于互聯(lián)網(wǎng)信息挖掘領域。本發(fā)明方法包括下列步驟根據(jù)目標信息源集合,獲得其中各個首頁及其內部鏈接所指向的各級下級頁面中當日的所有文章;對各個文章作分詞處理,并為各個文章中的每個詞語賦予權重,以權重最大的前a個詞語作為該文章的備選新穎詞,并以該備選新穎詞同時成為多個文章的備選新穎詞時的文章數(shù)作為該詞當天的頻率freq;根據(jù)各個備選新穎詞在b天內的freq記錄計算各個備選新穎詞的新穎系數(shù)n;根據(jù)新穎系數(shù)n確定新穎度θ,當某個備選新穎詞的新穎度大于新穎度閾值θ<sub>t</sub>時,即認為該詞語是當天的新穎詞。本發(fā)明方法可以有效地發(fā)現(xiàn)當天的新穎詞匯,指導互聯(lián)網(wǎng)新信息發(fā)現(xiàn)和監(jiān)管的實踐。文檔編號G06F17/30GK101645066SQ20081011782公開日2010年2月10日申請日期2008年8月5日優(yōu)先權日2008年8月5日發(fā)明者循梁,超王申請人:北京大學