專利名稱:一種事件信息挖掘并預警的方法
技術領域:
本發(fā)明屬于信息技術領域,尤其涉及一種采用特定策略、步驟對爬取得到的互聯(lián)網(wǎng)信息進行處理從而進行食品安全事件信息發(fā)現(xiàn)、預警的方法,主要應用于食品安全事件信息監(jiān)控、風險預警等非常規(guī)突發(fā)事件的應急處理工作中。
背景技術:
近年來,食品安全事件諸如瘦肉精、染色饅頭、塑化劑、毒黃瓜等頻頻發(fā)生,這既造成了極壞的社會影響,也帶來了大量的經(jīng)濟損失。為了避免或最大限度的降低這些食品安全事件所帶來的危害,基于事件的風險預警技術開始得到了極大關注。為進行基于事件的風險預警,這就需要提前發(fā)現(xiàn)這些事件的信息。隨著Internet的迅猛發(fā)展,互聯(lián)網(wǎng)網(wǎng)民數(shù)量越來越龐大,互聯(lián)網(wǎng)逐漸成為網(wǎng)民發(fā)布信息、獲取信息和傳遞信息的主要載體,而且通過人、組織等之間的交互形成了一個和現(xiàn)實社會有一定的對應、關聯(lián)關系的虛擬社會。它已經(jīng)變成了世界上規(guī)模最大的公共數(shù)據(jù)源,而且其規(guī)模還正在不停的增長著。此狀況下,利用互聯(lián)網(wǎng)自身的特點,建立起完善的社會信息反饋網(wǎng)絡,提前發(fā)現(xiàn)各種可能帶來危機的“未然”因素,為食品安全事件的應急管理提供及時、準確、全面的信息就顯得勢在必行和有著非常重要的意義。為利用互聯(lián)網(wǎng)上的信息進行食品安全事件的風險預警,需要經(jīng)過一定的過程得到事件相關的信息。這首先需要進行互聯(lián)網(wǎng)信息爬取,之后即可進行食品安全事件相關的信息提取、發(fā)現(xiàn)工作。為此,有必要從食品安全事件應急管理的角度考察食品安全事件信息提取、發(fā)現(xiàn)的目的和關鍵點:在基于事件的食品安全風險預警工作中,需要識別可能演變成事件的蛛絲馬跡信息;對信息的性質進行判斷,確定是否是一個事件,基于此識別已經(jīng)正在形成的事件信息;對已經(jīng)發(fā)現(xiàn)、識別的事件信息,對其發(fā)展趨勢進行追蹤和監(jiān)控,以監(jiān)控事件的發(fā)展趨勢,待其發(fā)展到一定程度需要進行及時的預警,以此為采取特定措施提供基礎。在這樣一個過程里面,其中的關鍵步驟是進行事件信息的識別,理論上這可以通過各種有監(jiān)督的機器學習或者無監(jiān)督的機器學習方法實現(xiàn),但結合實際的信息需求和準確度、可操作性等的考慮,往往采取一些變通的措施。比如有研究工作采取的方式是:事先建立一些信息分類(比如疾病),針對每個分類收集一些關鍵詞,之后對收集到的網(wǎng)頁信息以這些分類和關鍵詞為基礎,采取關鍵詞匹配的方式進行信息分類,并在此基礎上監(jiān)控類別信息即事件的發(fā)展。也有研究工作采用了信息的相關性檢測、命名實體識別、利用疾病和地址的信息提取、可視化的展示結果等步驟進行事件信息的識別和判斷的做法。
從評估試驗的結果看,上述做法中事件信息的判斷、識別、預警等還存在性能上的不足(準確率、召回率等參數(shù)有待進一步提高)。對此,如果考慮到上述方法中僅考慮了新聞信息而未考慮目前的Web2.0應用比如博客信息、未考慮信息中存在的各種垃圾信息的影響、截止目前信息提取技術的準確度尚未足夠高,及直接將經(jīng)過關鍵詞匹配后得到的類別信息作為同一種事件信息的做法中可能存在信息對應的主體不一致等問題,上述方法存在性能上的不足也就不足為奇了。
發(fā)明內容
為解決上述問題,本發(fā)明的目的在于提供一種采取特定措施和策略對爬取的網(wǎng)頁信息進行特定處理從而有效的進行食品安全事件信息發(fā)現(xiàn)、事件預警的方法。方法中形成的步驟如下所述。一、建立本體依據(jù)食品安全事件的特點和后期信息分析的需要,從對象、區(qū)域、結果、關聯(lián)者、時間等緯度建立食品安全事件信息本體。從而為食品安全事件的信息過濾、信息分類、信息發(fā)現(xiàn)等提供了基礎。二、信息過濾在上述建立的本體基礎上,對爬取得到的網(wǎng)頁信息進行過濾。過濾過程主要分為兩個部分:食品安全信息過濾、垃圾信息過濾。其中前者主要是通過對信息的標題、內容等采取模式匹配的方法確定其是否屬于食品安全信息;后者主要是對通過內容、鏈接作弊的垃圾信息、以及用戶生成內容中的無關意見、低質量意見和欺騙性垃圾意見通過建立檢測模型進行過濾。從而保證進入后續(xù)過程的信息的質量。三、信息分類在上述建立的本體基礎上,對爬取、過濾后的信息,通過對信息的標題、內容等采取模式匹配、基于機器學習分類模型的判斷識別方法進行信息的分類處理,從而將信息歸入到不同的類別中。四、事件區(qū)分對歸入到不同類別的信息,通過基于本體的聚類方法,對類別中的信息進一步按照事件的不同進行區(qū)分,從而區(qū)分出不同的事件。過程中對信息的時間范圍進行限制也是一個需要考慮的問題。五、趨勢追蹤經(jīng)過信息過濾、分類、事件區(qū)分后,在建立表示事件的特征參數(shù)諸如頁面數(shù)、頁面瀏覽數(shù)、綜合指數(shù)等的基礎上,通過定期計算事件特征參數(shù)值的方法對事件的發(fā)展趨勢進行追蹤。六、事件預警定期計算事件各特征參數(shù)值,并將事件當前的各特征參數(shù)值和其之前一定時期內的均值進行比較,如果差值大于一定的閾值,則進行事件預警。七、結果展示在對所得到的網(wǎng)頁信息進行信息分類、事件區(qū)分、趨勢追蹤和預警分析的基礎上,將結果展示給用戶和對用戶進行服務。八、本體補充和修正考慮到互聯(lián)網(wǎng)信息的分布變化特點,從持續(xù)提高方法效率的角度出發(fā),定期對信息分類、事件區(qū)分等過程的結果進行評估,并基于此對本體中的不足諸如遺漏、錯誤等加以補充、修正,以提高后續(xù)的方法效率。本發(fā)明為保證信息分類、事件發(fā)現(xiàn)的準確、高效,建立了符合食品安全事件信息特點的本體,建立本體過程中主要從對象、結果、區(qū)域、時間、關聯(lián)者幾個緯度進行。
本發(fā)明為提高事件信息發(fā)現(xiàn)的準確度,在對爬取得到的互聯(lián)網(wǎng)信息進行后續(xù)處理前,首先對其進行了信息過濾處理,包括食品安全信息過濾、垃圾信息過濾。本發(fā)明所采用的食品安全信息過濾主要作用是判斷信息是否屬于食品安全相關信息。其過程主要是對信息的標題、內容,基于食品安全事件信息本體中的對象、結果兩個緯度,通過組合這兩個緯度的本體實例的名稱、屬性等對信息采取模式匹配的方法進行過濾。本發(fā)明所采用的垃圾信息過濾主要作用是對信息中可能存在的垃圾信息進行識別過濾,具體的包括對內容作弊頁面、鏈接作弊頁面、不可信意見、低質量意見、無關意見等垃圾信息進行了過濾,過濾中采用了基于機器學習方法建立的組合檢測模型。從而保證了進入后續(xù)處理過程中的信息的質量。本發(fā)明為對欺騙性垃圾意見進行識別過濾,首先采用啟發(fā)式方法形成候選欺騙性垃圾意見樣本集合,并根據(jù)“寧缺勿濫”的原則進行整理標注,形成一個準確的欺騙性垃圾意見集合;考慮到反例樣本分布特征的多樣性、標注時間以及工作量等問題,未對反例樣本進行標注。基于此,選擇了一種“從正例和無標注數(shù)據(jù)中學習”的機器學習方法,具體的依據(jù)上述的準確欺騙性垃圾意見集合和無標注的用戶生成內容樣本集合完成檢測模型的建立;模型建立過程中主要考慮意見作者、意見內容、內容分布及鏈接四個緯度的特征。欺騙性垃圾意見識別過程中采取了黑名單識別、反向識別、模型識別等方法,從而更加準確的識別欺騙性垃圾意見。本發(fā)明在對內容作弊頁面、鏈接作弊頁面、低質量意見、無關意見等垃圾信息進行過濾的過程中,基于內容、內容分布、鏈接三個緯度的特征采用機器學習方法(諸如支持向量機等)建立了檢測模型,進行垃圾信息的識別判斷。本發(fā)明在對爬取、過濾后的互聯(lián)網(wǎng)信息進行分類過程中,對信息的標題、內容,一方面通過組合食品安全事件信息本體實例的名稱、屬性等采取模式匹配的方法進行分類;同時基于事先建立的本體、及標注過的樣本集合采用兩種機器學習方法建立了兩個分類模型。對某一信息的最終分類結果取決于三種方法分類結果的多數(shù)者。本發(fā)明在對爬取的互聯(lián)網(wǎng)信息進行過濾、分類過程中采取的模式匹配方法包括布爾匹配、頻數(shù)匹配、實例名稱間的距離匹配、實例名稱同義反義匹配、實例名稱別名匹配等方式。具體的方式選擇及具體規(guī)則建立通過事先對信息的統(tǒng)計分析確定。本發(fā)明為保證事件信息識別的準確率,對經(jīng)過分類的食品安全信息,通過采用聚類的方法(主要考慮信息標題及內容中和本體中對象、區(qū)域、結果、關聯(lián)者幾個緯度的實例名稱和屬性匹配的詞語,同時信息的時間也是一個重要的限制條件)對具體的事件進行了區(qū)分。聚類過程中,主要采用了后綴樹的方法。本發(fā)明為了追蹤事件的發(fā)展趨勢,主要建立了頁面數(shù)、頁面瀏覽數(shù)、頁面轉發(fā)數(shù)、信息來源區(qū)域數(shù)、信息來源網(wǎng)站數(shù)以及綜合指數(shù)(通過加權的方法綜合上述參數(shù))等特征參數(shù),并基于此對事件的發(fā)展趨勢進行追蹤。本發(fā)明定期計算事件各特征參數(shù)值和其之前一定時間范圍內的均值之間的關系,當差值達到一定程度時(比如3倍的標準差)進行及時的事件預警。本發(fā)明通過定期進行信息分類、事件區(qū)分的結果評估,以及基于此的本體修正和補充,保證了本體的持續(xù)改進和完善,以及方法中信息分類、事件信息發(fā)現(xiàn)等的準確度。
與現(xiàn)有技術相比,本發(fā)明的優(yōu)點:本發(fā)明通過建立食品安全事件信息本體,并在此基礎上對爬取得到的互聯(lián)網(wǎng)信息采取信息過濾、信息分類、事件區(qū)分、事件預警等技術進行處理,保證了食品安全事件信息發(fā)現(xiàn)、預警的準確性和全面性,保證了食品安全風險預警的效率。
圖1事件信息挖掘并預警的方法流程圖;圖2食品安全事件信息本體示意圖;圖3垃圾信息分類示意圖;圖4欺騙性垃圾意見檢測模型建立示意圖;圖5欺騙性垃圾意見識別方法示意圖;圖6食品安全事件區(qū)分示意圖。
具體實施例方式本發(fā)明的具體實施方式
如圖1所示,具體步驟敘述如下。1、建立本體考慮到食品安全事件的特點以及后期事件信息提取、追蹤等分析的需要,在食品安全事件信息本體的構建過程中,主要從對象、區(qū)域、時間、結果、關聯(lián)者五個緯度考慮建立(如圖2所示)。比如對象即食品,可分為初產(chǎn)品、加工產(chǎn)品等類別,初產(chǎn)品又可以分為蔬菜、水果等類別,以此類推;再比如結果可分為污染、中毒等類別,污染又可以分為過期、超標等類別,以此類推;直至分類到不能再分為止,即為一個最底層的元素(即實例)。其他類別的構建過程類似。此外,針對本體中的每個實例,分別建立了對應的同義詞、反義詞、別名詞等附加表,以備后續(xù)信息處理過程中使用。2、信息過濾對特定的信息源,采用互聯(lián)網(wǎng)信息爬取技術(比如通用爬取、有限范圍爬取等技術)對信息源中的信息進行爬取??紤]到一個網(wǎng)站上可能存在和預定主題不相關的內容、以及可能存在各種垃圾信息的情況,為了提高事件信息發(fā)現(xiàn)、預警的準確度,在對信息進行后續(xù)處理之前,首先對信息進行過濾。整個過濾過程分為兩個方面:即食品安全信息過濾、垃圾信息過濾。食品安全信息過濾,即判斷所采集的信息是否屬于食品安全相關的信息。這里面需要考慮兩個問題:信息范圍、過濾規(guī)則。關于過濾規(guī)則,基于建立的食品安全事件信息本體,過程中主要考慮對象和結果兩個緯度,具體的通過組合這兩個緯度的本體實例的名稱、屬性等采取模式匹配的方法進行過濾;方法中所采取的模式匹配具體方法包括布爾匹配、頻數(shù)匹配、實例名稱間的距離匹配、實例名稱同義反義匹配、實例名稱別名匹配等方式;具體的方式選擇及具體規(guī)則建立通過對信息統(tǒng)計分析后確定(事先確定并定期更新)。關于信息范圍的選擇,這里主要考慮信息的標題、信息內容兩個緯度,考慮到信息標題和信息內容可能存在不匹配的情況,具體處理過程中首先對信息的標題進行處理,如果經(jīng)過對標題信息過濾后,信息可以被歸入食品安全信息類別,則對此信息的處理完畢;否則對信息的內容進行二次判斷處理。
Web垃圾可分為Web垃圾頁面和用戶生成內容中的垃圾意見兩種。其中,Web垃圾頁面可分為內容作弊頁面、鏈接作弊頁面;垃圾意見按照其負面影響大小不同,可將其分為不可信意見、低質量意見、無關意見。不可信意見,也就是欺騙性的意見,一方面表現(xiàn)為對特定的對象、事件、人物等給出不符合實際情況的超高評價、恭維等;另一方面也可能表現(xiàn)為對特定的對象、事件、人物等給出不符合實際情況的超低評價、謾罵、攻擊等。低質量意見,此種意見內容一般長度較短,其內容可能是有用的,也可能是無用的,但是由于其內容對特定的話題/產(chǎn)品描述不詳細,不能非常確定其對特定話題/產(chǎn)品的意見挖掘的意義,因此也認為是一種垃圾意見(針對計算機而言)。無關意見,此種意見主要表現(xiàn)為廣告或者和話題無關的內容(如圖3所示)。對一網(wǎng)站的Web垃圾頁面、用戶生成內容中的低質量意見、無關意見等,考慮到其垃圾特征相對比較明顯,可以基于事先建立的經(jīng)過標注的樣本集合,提取樣本的內容、內容分布、鏈接等緯度的特征后建立檢測模型進行檢測。關于內容緯度的特征,本方法中采用了對抽取出來的信息進行分詞、去掉停用詞并經(jīng)過降維(可采用文檔頻率法、信息增益法等)后形成內容特征向量-權數(shù)為詞語頻率;關于內容分布特征,本方法中采用了信息的標題長度(字符數(shù))、段落數(shù)、句子數(shù)、段落長度(均值)、句子長度(均值)、信息長度(字符數(shù))、錨文本數(shù)、錨文本長度(字符數(shù)-均值)等(建立模型過程中,對特征進行歸一化處理,過程為y = x/ (max+1),其中X、y分別是歸一化前后的特征值,max為事先對網(wǎng)站信息集合內樣本統(tǒng)計該特征所得到的最大值;在11^1參數(shù)更新前如果出現(xiàn)X > max時,則取X = max+1,即y = I);關于鏈接緯度的特征,本方法中采用了信息的網(wǎng)站內出鏈數(shù)占總出鏈數(shù)比例、信息的網(wǎng)站外出鏈數(shù)占總出鏈數(shù)比例、信息鏈接垃圾頁面集合(事先構建)內的信息數(shù)占總出鏈數(shù)比例、垃圾頁面集合(事先構建)內鏈接此信息的數(shù)量占總頁面數(shù)比例等。針對上述三個維度的特征,基于事先建立的垃圾信息集合和非垃圾信息集合,分別形成特征向量并采取機器學習的方法(比如支持向量機等)建立垃圾信息檢測模型(三個,基于更新的樣本集合定期更新模型 ),之后即可對所采集的信息進行過濾(信息被判斷為垃圾信息的規(guī)則是至少其中兩個模型的檢測結果為正例)。同時,對一網(wǎng)站用戶生成內容中的欺騙性垃圾意見,考慮到垃圾特征不是很明顯,在建立垃圾意見樣本集合過程中遵循寧缺勿濫的原則(即要保證欺騙性垃圾意見樣本的準確性),結合基于知識庫的審核、排查等方式對可能是欺騙性垃圾意見的信息(此過程中主要關注用戶生成內容中內容重復或者近似重復的意見、一定時間范圍內發(fā)布意見量最高的top-Nl個作者所發(fā)布的意見、一定時間范圍內意見量最高的top-N2個特定對象相關的意見、一定時間范圍內發(fā)布意見量最高的top-N3個IP地址相關的意見、針對特定對象發(fā)布意見最早的top-M個用戶所發(fā)布的意見和針對特定對象的意見修正次數(shù)最多的top-N5個用戶所發(fā)布的意見,并形成候選欺騙性垃圾意見集合)進行審核確認。具體的采取了兩種方法進行確認,一種是正向確認,一種是反向確認。所謂正向確認,如果意見信息內容和欺騙性垃圾意見知識庫中的信息描述的是同一件事情,即信息內容與欺騙性垃圾意見知識庫中的某信息描述相匹配,則為欺騙性垃圾意見。欺騙性垃圾意見知識庫中的信息條目增加規(guī)則為:對于一條意見信息,經(jīng)過一段時間的過程或者事后證明,某用戶所發(fā)布的信息的確是欺騙性的意見,加入知識庫中。比如在某論壇有人發(fā)布信息說某品牌牛奶中含有三聚氰胺,但后來有人舉出種種理由說明這是不可能的,事后證明后者是某品牌牛奶公司的內部員工欺騙所致,由此即可確認此意見信息是欺騙性垃圾信息,加入知識庫中(知識庫事先構建并定期更新)。所謂反向確認,即在現(xiàn)有的正常情況下,出現(xiàn)此類信息是不可能的,從而從反向的角度證明是欺騙性垃圾意見。比如反向確認知識庫(事先構建并定期更新)中的一條規(guī)則為:某一用戶id在設定時間中(比如I分鐘)對一種或多種產(chǎn)品發(fā)布了多于N(比如10條)條意見信息,則將該用戶所發(fā)表的這些意見信息標注為欺騙性垃圾意見信息。能匹配此規(guī)則的一個例子是:某一論壇中某一用戶id在不到I分鐘的時間中對3種不同產(chǎn)品發(fā)布了 15條評價信息,從一個正常人的角度考慮這是不可能的。因此,從反向的角度證明了此用戶所發(fā)布的這些信息的欺騙性。將通過上述方法確認的信息進行標注,并形成準確欺騙性垃圾意見集合,同時對于經(jīng)常發(fā)布欺騙性垃圾意見的用戶,即發(fā)布欺騙性垃圾意見最多的N個用戶,將其加到黑名單以備后期識別使用;另外,依據(jù)準確的欺騙性垃圾意見集合等,歸納意見作者的反常行為(比如上述用戶在I分鐘內針對3種產(chǎn)品發(fā)布了 15條信息等)形成規(guī)則,以備后用。注意到明確的確認一意見是非欺騙性垃圾意見也存在相當?shù)睦щy(對于一條信息,不能明確的表明是欺騙性垃圾意見也可能意味著不能明確的說明其不是欺騙性垃圾意見),考慮到時間、工作量、以及非欺騙性垃圾意見存在的多樣性等因素,這里沒有對非欺騙性垃圾意見進行標注。建立了準確欺騙性垃圾意見集合后,從判斷識別欺騙性垃圾意見的角度看,目前需要選擇機器學習方法、抽取樣本特征后建立檢測模型。注意到經(jīng)過上述的過程得到了經(jīng)過標注的欺騙性垃圾意見集合,但沒有非欺騙性垃圾意見集合。這就意味著不能簡單地采用一般的有監(jiān)督機器學習方法,因為它建立分類模型需要同時具備正例、反例集合。所以我們這里采用了一種“從正例和無標注數(shù)據(jù)中學習”的機器學習方法-偏置SVM(Liu,B., Y.Dai, X.Li, W.Lee, and P.Yu.Building text classifiers using positive andunlabeled examples.Proceedings of IEEE International Conference on Data Mining,2003.) o關于檢測模型建立過程中樣本特征的確定,本發(fā)明中主要從四個緯度考慮:意見作者、意見內容、意見內容分布、鏈接特征四個緯度。其中關于意見內容特征的確定方法是:對抽取出來的意見信息 進行分詞,去掉停用詞,并經(jīng)過降維(可采用文檔頻率法、信息增益法等)后形成內容特征向量(權數(shù)為詞語頻率);關于意見內容分布特征的選擇方法是選擇:意見段落數(shù)、段落長度(均值)、句子數(shù)、句子長度(均值)、詞數(shù)、第一人稱代詞數(shù)、第二人稱代詞數(shù)、第三人稱代詞數(shù)等(建立模型過程中,對特征進行歸一化處理,過程為I =x/(max+1),其中X、y分別是歸一化前后的特征值,max為事先對網(wǎng)站信息集合內樣本統(tǒng)計該特征所得到的最大值;在!1^1參數(shù)更新前如果出現(xiàn)X > max時,貝U取x = max+1,即y =I);對于意見作者緯度的特征選擇方法是選擇:意見用戶名(字符數(shù))、意見發(fā)布時間(距離當天零點的時間間隔)、意見發(fā)布時間間隔(和上一條信息相比)、意見字數(shù)、意見數(shù)/小時(截至此條信息為止)、意見字數(shù)變化比率(和上一條信息相比)、意見數(shù)變化比率(截至此條信息為止,和上一小時相比)等(建立模型過程中,對特征進行歸一化處理,過程為y = x/(max+1),其中x、y分別是歸一化前后的特征值,max為事先對網(wǎng)站信息集合內樣本統(tǒng)計該特征所得到的最大值;在!1^1參數(shù)更新前如果出現(xiàn)X > max時,貝U取x = max+1,即I = D ;對于意見信息的鏈接特征緯度的選擇方法是選擇:意見信息的網(wǎng)站內入鏈數(shù)、意見信息的網(wǎng)站內出鏈數(shù)、意見信息的網(wǎng)站外入鏈數(shù)、意見信息的網(wǎng)站外出鏈數(shù)、意見信息鏈接準確欺騙性垃圾意見集合內的信息數(shù)、準確欺騙性垃圾意見集合內信息鏈接意見信息的數(shù)量等(建立模型過程中,對特征進行歸一化處理,過程為I = x/(max+l),其中X、y分別是歸一化前后的特征值,max為事先對網(wǎng)站信息集合內樣本統(tǒng)計該特征所得到的最大值;在max參數(shù)更新前如果出現(xiàn)X > max時,貝U取x = max+1,即y = I);針對上述四個維度的特征,基于上述步驟建立的準確欺騙性垃圾意見集合和無標注樣本集合(即用戶生成內容網(wǎng)頁集合中的其他樣本組成的集合),分別形成特征向量并建立檢測模型(四個,基于更新的樣本集合定期更新模型)(如圖4所示)。之后即可對新爬取得到的用戶生成內容信息進行欺騙性垃圾意見的識別過濾。首先進行黑名單識別,對屬于黑名單中用戶發(fā)布的信息,直接識別為欺騙性垃圾意見;對于剩余意見,依據(jù)前述過程歸納的規(guī)則按照反向確認(即在現(xiàn)有的正常情況下,出現(xiàn)此類信息是不可能的,從而從反向的角度證明是欺騙性垃圾意見)的方式進行識別,對于不正常的意見,識別為欺騙性垃圾意見;對于剩余的意見按照上述過程建立的欺騙性垃圾意見檢測模型進行識別,識別過程為,對意見信息分別進行四個模型的判斷,如果至少有三個模型判斷為正例,則對此信息識別為欺騙性垃圾意見(如圖5所示)。經(jīng)過以上過濾步驟后的,參與到后續(xù)信息處理過程中的信息(即食品安全相關的非垃圾信息)相對質量較高,這為后續(xù)信息處理的準確提供了基礎。3、信息分類信息分類的目標在于識別信息所屬類別(比如屬于何種對象、屬于何區(qū)域、屬于何關聯(lián)者等,類別事先確定)及為食品安全事件信息的發(fā)現(xiàn)提供基礎。綜合考慮信息分類的準確性、計算量和可操作性等問題,此階段食品安全信息分類的過程中首先采取了模式匹配的方法進行。同樣,這里面需要考慮兩個問題:信息范圍、分類規(guī)則。關于分類規(guī)則,基于建立的食品安全事件信息本體,過程中主要考慮本體實例名稱、屬性等,具體的通過組合這些本體實例的名稱、屬性等采取模式匹配的方法進行分類;方法中所采取的模式匹配具體方法包括布爾匹配、頻數(shù)匹配、實例名稱間的距離匹配、實例名稱同義反義匹配、實例名稱別名匹配等方式;具體的方式選擇及具體規(guī)則建立通過對信息統(tǒng)計分析后確定(事先確定并定期更新)。關于信息范圍的選擇,這里主要考慮信息的標題、信息內容兩個緯度,考慮到信息標題和信息內容可能存在不匹配的情況,具體處理過程中首先對信息的標題進行處理,如果對信息的標題采用上述的模式匹配方法分類后,信息可以被歸入當前所選的信息類別(比如蘋果類別),則針對此信息類別的模式匹配分類處理完畢;否則對該信息的內容采用上述的模式匹配方法針對此信息類別進行二次模式匹配分類處理。同時,為進一步提高信息分類的準確度,方法中還基于建立的本體、及標注過的樣本集合,采用兩種機器學習方法(支持向量機、KNN)(方法中采用的信息范圍,是將信息標題和內容綜合在一起,并進行分詞、去停用詞、降維后進行建模-其中詞語權重為詞語頻率,考慮到標題詞語的重要性,對標題詞語的權重乘以事先確定的倍數(shù);同樣的,對和本體實例名稱、屬性匹配的詞語權重乘以事先確定的倍數(shù))分別針對每一信息類別建立分類判斷模型(基于更新的樣本集合定期更新模型)。對每一信息類別,采用上述三種方法同時對過濾后的每一信息進行分類處理,并根據(jù)三種方法的分類結果中占多數(shù)者決定信息是否應該歸入某一個類別。4、事件區(qū)分(如圖6所示)
對爬取得到的互聯(lián)網(wǎng)信息進行過濾和分類后,考慮到同一類別信息中比如蘋果類別信息中可能存在不同的事件,比如不同時間發(fā)生的不同事件。因此,為了進一步對信息中的不同事件進行區(qū)分,以分類后的信息為基礎,基于上述本體知識,采取聚類(本方法中采用基于后綴樹的方法進行)的方法對分類后的信息進行聚類處理。聚類過程中的信息范圍主要考慮信息標題和內容,首先對其進行分詞、去除停用詞后,并提取和本體中對象、區(qū)域、結果、關聯(lián)者四個緯度實例名稱、屬性相匹配的詞語作為特征進行聚類計算;另外聚類過程中對時間的處理也是一個重要的問題,比如相差3天的兩個信息可能是同一事件的可能性要大于相差I年的兩個信息,因此,需要對歸入同一事件的信息的發(fā)布時間進行限制(比如限制同一事件的信息分布時間區(qū)間為一個月內,事先通過統(tǒng)計分析的方式確定)。此外,在區(qū)分事件的基礎上,基于本體中結果緯度的實例名稱、屬性等,對信息中的事件結果進行信息匹配、抽取。由此,完成了類別信息中具體事件的區(qū)分和提取相關的結果,基于此對事件、結果等進行標記和保存。5、趨勢追蹤在對事件進行區(qū)分的基礎上,建立表示事件的特征參數(shù),具體的事件特征通過和事件相關的信息頁面數(shù)、頁面瀏覽數(shù)、頁面轉發(fā)數(shù)、信息來源區(qū)域數(shù)、信息來源網(wǎng)站數(shù)以及綜合指數(shù)(通過加權的方法綜合上述參數(shù)得到,權數(shù)通過德爾菲方法確定,但需保證權數(shù)之和為I)等表示事件的特征,并定期(比如每隔I小時)對特征參數(shù)進行計算處理。并根據(jù)時間的變化,綜合分析這些事件特征參數(shù)的變化情況。另外,步驟4提取出來的結果緯度的事件信息在方法中也作為一個重要的事件特征參數(shù)使用。如果結果信息有變化,補充后進行保存。6、事件預警在上述事件趨勢追蹤的基礎上,定期(比如每12小時)計算表示事件的各特征參數(shù)(包括綜合指數(shù))數(shù)值,并將事件當前的各特征參數(shù)值和其之前一定時期內的均值(目前考慮到網(wǎng)絡事件傳播的特點,選擇了一個月作為計算周期,也可據(jù)情況進行調整)進行
比較,如果差值大于一定的閾值(比如3倍的標準差,閾值事先設定),則對此事件進行預
m
目O其中閾值的確定方法為:在收集事件各特征參數(shù)的歷史(比如一年內)變化數(shù)據(jù)基礎上,并結合經(jīng)過確認的歷史食品安全事件的發(fā)生時間、區(qū)域、規(guī)模等資料(可以從食品安全相關管理部門獲得),計算事件各特征參數(shù)值和其之前一定時期內(比如一個月)的均值之間的差值形成變量-作為自變量,將表示特定性質食品安全事件是否發(fā)生(I表示發(fā)生、O表示未發(fā)生)的變量作為因變量,采用logistic回歸分析的方法建立上述自變量、因變量之間的回歸預測模型?;诖四P停Y合事件特征參數(shù)的歷史變化趨勢特點,選擇可以使得因變量值為I的合適的自變量值作為閾值。同時,基于步驟4提取出來的結果緯度的事件信息,通過定期比較其和事先確定的預警標志(如中毒等)之間的異同基礎上,提供不同種類事件的預警。7、結果展示在對所得到的網(wǎng)頁信息進行信息分類、事件區(qū)分、趨勢追蹤和預警分析的基礎上,將分析得到的結果通過表格、圖等的方式展示給用戶。并對預警信息提供短信息、郵件等即時送發(fā)的服務方式。8、本體補充和修正在事件信息發(fā)現(xiàn)的整個過程中,構建的食品安全事件信息本體對信息分類、事件區(qū)分等步驟的性能有著重要的影響。因此,考慮到互聯(lián)網(wǎng)信息的分布變化特點,從持續(xù)提高方法效率的角度出發(fā),需要定期對信息分類、事件區(qū)分等過程的結果進行評估。并對本體中的不足諸如遺漏、錯誤等加以補充、修正,以提高方法后續(xù)的效率。由此,完整地實現(xiàn)了從爬取得到的互聯(lián)網(wǎng)信息中提取食品安全事件信息,并根據(jù)事件發(fā)展過程及時進行預警和為用戶服務的全過程。過程中,通過采取信息過濾、分類、聚類、趨勢追蹤等技術保證了事件信息發(fā)現(xiàn)、預警的準確。這將為食品安全事件的風險預警、快速應急處理等提供重要的信息基礎。值得說明的是,本發(fā)明不僅可用于食品安全事件的應急管理。稍加改造,即可應用到其他的、能從互聯(lián)網(wǎng)上獲取事件信息的非常規(guī)突發(fā)事件的風險預警等應急處理工作中。
權利要求
1.一種事件信息挖掘并預警的方法,其步驟為: 1)建立事件信息本體,并基于所述事件信息本體對爬取的互聯(lián)網(wǎng)信息進行過濾,得到與事件相關的信息; 2)基于所述事件信息本體中的實例名稱和屬性采用模式匹配方法對過濾后的信息進行分類; 3)對分類后的信息按照設定特征進行聚類,得到每一類信息中所包含的事件; 4)定期計算每一事件的各特征參數(shù)值;如果某事件的各特征參數(shù)值和其之前一定時期內的均值之間的差值超過事先設定的閾值,則對該事件進行預警。
2.如權利要求1所述的方法,其特征在于所述事件特征參數(shù)包括:信息頁面數(shù)、頁面瀏覽數(shù)、頁面轉發(fā)數(shù)、信息來源區(qū)域數(shù)、信息來源網(wǎng)站數(shù)以及綜合這些參數(shù)形成的綜合指數(shù)。
3.如權利要求2所述的方法,其特征在于從事件信息的對象、區(qū)域、結果、關聯(lián)者、時間五個緯度創(chuàng)建所述事件信息本體;對所述事件信息本體中的每一實例建立包括該實例名稱的同義詞、反義詞、別名詞的附加表。
4.如權利要求3所述的方法,其特征在于基于所述事件信息本體對爬取的互聯(lián)網(wǎng)信息進行過濾,得到與事件相關的信息的方法為:利用所述事件信息本體中對象和結果兩個緯度的本體實例名稱、屬性采取模式匹配的方法進行過濾;其中首先對爬取的互聯(lián)網(wǎng)信息的標題采用模式匹配方法進行過濾,如果當前信息屬于所需事件相關信息,則針對當前信息的過濾處理完畢;否則利用模式匹配的方法對該信息的內容進行過濾,判斷其是否屬于所需事件相關息。
5.如權利要求4所述的方法,其特征在于對一網(wǎng)站爬取得到的與事件相關的信息進行非欺騙性垃圾意見的垃圾信息過濾,其方法為: 1)選取部分與事件相關的信息,并對其進行標注,得到垃圾信息集合和非垃圾信息集合; 2)從信息內容、信息內容分布、信息鏈接特征三個緯度對所述垃圾信息集合和非垃圾信息集合樣本進行特征提取,生成每一維度的特征向量; 3)采用機器學習方法基于所述垃圾信息集合和非垃圾信息集合建立基于每一維度特征的非欺騙性垃圾意見的垃圾信息檢測模型; 4)利用所述非欺騙性垃圾意見的垃圾信息檢測模型對所述與事件相關的信息進行非欺騙性垃圾意見的垃圾信息過濾。
6.如權利要求5所述的方法,其特征在于對一網(wǎng)站爬取得到的與事件相關的信息進行欺騙性垃圾意見過濾,其方法為: 1)選取部分與事件相關的信息并生成用戶生成內容網(wǎng)頁集合,對用戶生成內容網(wǎng)頁進行標注,得到候選欺騙性垃圾意見集合; 2)對候選欺騙性垃圾意見集合中的每一個樣本進行過濾,對確定的欺騙性垃圾意見進行標注,得到準確欺騙性垃圾意見集合; 3)從意見作者、意見內容、意見內容分布、鏈接特征四個緯度對所述準確欺騙性垃圾意見集合和無標注的用戶生成內容網(wǎng)頁集合進行特征提取,生成每一維度的特征向量; 4)采用機器學習方法基于所述準確欺騙性垃圾意見集合和無標注用戶生成內容網(wǎng)頁集合建立每一維度的欺騙性垃圾意見檢測模型;5)利用所述欺騙性垃圾意見檢測模型對所述與事件相關的信息進行欺騙性垃圾意見過濾。
7.如權利要求6所述的方法,其特征在于所述步驟2)中還包括:a)基于建立的事件信息本體及標注過的樣本集合采用支持向量機機器學習方法,分別針對設定的每一信息類別建立一基于信息標題和內容的分類判斷模型,對信息進行分類處理;b)基于建立的事件信息本體及標注過的樣本集合米用KNN機器學習方法,分別針對設定的每一信息類別建立一基于信息標題和內容的分類判斷模型,對信息進行分類處理;最后根據(jù)步驟2)、a)、b)三種方法的分類結果中占多數(shù)者決定信息是否應該歸入某一個類別。
8.如權利要求6所述的方法,其特征在于所述候選欺騙性垃圾意見集合的產(chǎn)生方法為:將用戶生成內容中內容重復或者近似重復的意見、或一定時間范圍內發(fā)布意見量最高的top-Nl個作者所發(fā)布的意見、或一定時間范圍內意見量最高的top-N2個對象相關的意見、或一定時間范圍內發(fā)布意見量最高的top-N3個IP地址相關的意見、或針對特定對象發(fā)布意見最早的top-M個用戶所發(fā)布的意見、或針對特定對象的意見修正次數(shù)最多的top-N5個用戶所發(fā)布的意見,識別為候選欺騙性垃圾意見,得到候選欺騙性垃圾意見集合;所述準確欺騙性垃圾意見集合的產(chǎn)生方法為:對所述候選欺騙性垃圾意見集合中的每一樣本進行正向確認和反向確認;然后對確認的樣本進行標注,形成準確欺騙性垃圾意見集合。
9.如權利要求1所述的方法,其特征在于所述步驟2)的分類方法為:對于設定的每一信息類別,首先對信息的標題采用模式匹配方法進行分類,如果某信息可以被歸入當前所選的信息類別,則針對此信息類別的模式匹配分類處理完畢;否則對該信息的內容采用模式匹配方法進行分類,判斷其是否可歸入當前所選信息類別。
10.如權利要求4所述的方法,其特征在于所述模式匹配方法為:布爾匹配、或頻數(shù)匹配、或實例名稱間的距離匹配、 或實例名稱同義反義匹配、或實例名稱別名匹配。
11.如權利要求1所述的方法,其特征在于對分類后的信息進行聚類處理的方法為:對信息標題和內容進行分詞、去除停用詞后提取和所述事件信息本體中對象、區(qū)域、結果、關聯(lián)者四個緯度實例名稱、屬性相匹配的詞語作為特征進行聚類計算;同時對聚類過程中屬于同一事件的信息進行篩選,選取設定發(fā)布時間段內的信息作為同一事件的信息。
12.如權利要求1所述的方法,其特征在于對事件進行預警的閾值設定方法為:在收集事件各特征參數(shù)的歷史變化數(shù)據(jù)基礎上,結合經(jīng)過確認的歷史事件的發(fā)生時間、區(qū)域、規(guī)模,計算事件各特征參數(shù)值和其之前一定時期內的均值之間的差值形成變量并作為自變量,將表示設定事件是否發(fā)生的變量作為因變量,采用logistic回歸分析的方法建立上述自變量、因變量之間的回歸預測模型;然后基于此模型,選擇使得因變量值為I的自變量值作為閾值;其中因變量值為I表示事件發(fā)生,O表示事件未發(fā)生。
13.如權利要求1至12任一所述的方法,其特征在于所述事件為食品安全事件。
全文摘要
本發(fā)明公開了一種事件信息挖掘并預警的方法,屬于信息技術領域。本方法為1)建立事件信息本體,對爬取的互聯(lián)網(wǎng)信息進行過濾,得到與事件相關的信息;2)基于所述事件信息本體中的實例名稱和屬性對過濾后的信息進行分類;3)對分類后的信息按照設定特征進行聚類,得到每一類信息中所包含的事件;4)定期計算每一事件的信息頁面數(shù)、頁面瀏覽數(shù)、頁面轉發(fā)數(shù)、信息來源區(qū)域數(shù)、信息來源網(wǎng)站數(shù)以及綜合指數(shù)等事件特征參數(shù)值;5)如果某事件的各特征參數(shù)值和其之前一定時期內的均值之間的差值超過事先設定的閾值,則對該事件進行預警。本發(fā)明保證了食品安全事件信息發(fā)現(xiàn)、預警的準確性和全面性,提高了食品安全風險預警的效率。
文檔編號G06F17/30GK103176981SQ20111043083
公開日2013年6月26日 申請日期2011年12月20日 優(yōu)先權日2011年12月20日
發(fā)明者楊風雷, 崔建業(yè), 汪海燕, 黎建輝 申請人:中國科學院計算機網(wǎng)絡信息中心