專利名稱:一種面向即時交互文本的事件識別與跟蹤方法
技術領域:
本發(fā)明涉及一種信息檢索、抽取與管理以及自然語言處理技術,特別是涉及一種面向在線即時交互文本的事件識別與跟蹤。
背景技術:
隨著互聯(lián)網(wǎng)技術應用的日趨廣泛,基于交互式文本的網(wǎng)絡應用不斷發(fā)展,已經(jīng)成為人們獲取和發(fā)布信息的主要手段之一,例如網(wǎng)絡聊天室、微博等典型的交互文本應用。這些文本中蘊含著大量豐富的信息資源,如何實現(xiàn)對這些交互文本應用中發(fā)生的事件按主題類別查找、組織和利用,成為當務之急。比如自動識別網(wǎng)絡學習者的情感變化事件,從而調節(jié)其學習效率;識別各種社會敏感的突發(fā)事件或者新事件等。申請人經(jīng)過查新,未檢索本發(fā)明相關的專利。但是找相似的幾篇文章,分別是1)基于頻繁模式的消息文本聚類研究。胡吉祥,中國科學院研究生院(計算技術研究所)。2)用于聊天詞匯的權重計算方法⑶TF_IDF。高鵬,曹先彬,計算機仿真,2007. 12。文章1)的作者發(fā)現(xiàn)了頻繁模式(稱之為關鍵頻繁模式)包含了詞序和鄰近上下文等更多的語義信息對交互文本特征抽取的關鍵性,提出了一種無指導的基于頻繁模式的特征選擇算法,應用于文本分類和聚類。文章2)主要針對聊天室的內容監(jiān)控應用,通過分別離線計算詞匯在不同數(shù)據(jù)源中的權值并匯總、并對重點詞匯提高權重等方式來計算聊天數(shù)據(jù)的詞匯權重,從而達到識別聊天室主題的目的。根據(jù)上述查新,現(xiàn)有相似技術與本發(fā)明方法主要有以下幾方面的不同1.現(xiàn)有技術的研究對象為以整個新聞(事件)或者段落,而本方法針對話輪級別。2.現(xiàn)有技術為離線主題識別方法,而本方法為在線事件識別方法。3.現(xiàn)有技術識別的結果僅為整個新聞(事件)或段落是否屬于哪一類主題,以及相關的新聞(事件)發(fā)生,即主題級的識別與跟蹤;而本方法主要是發(fā)現(xiàn)在線交互雙方討論的事件是否一致,該事件是否完整(開始和結束),參與的人有那些,即對單一、具體事件的識別與跟蹤。4.在交互文本的特征表示方面,現(xiàn)有技術離線收集僅為當前新聞(事件)的詞頻特征進行計算,而本方法發(fā)現(xiàn)了時間依賴特性,引入時間閾值內的所有話輪特征的聚集來進行主題分類。5.現(xiàn)有方法以無監(jiān)督的概率潛在語義分析方法為主,而本方法針對主題的分層模型,提出了有監(jiān)督的、分層PLSA主題模型訓練方法,并定時更新主題模型。
發(fā)明內容
針對前述相關技術與本發(fā)明比較中所存在的問題,本發(fā)明提供了一種面向在線即時交互文本的事件識別與跟蹤方法,包括如下步驟
第一步話輪級主題類別分類階段(1)在即時交互文本中,以用戶一次輸入的發(fā)言Speech為一個話輪Turn,用五元組表示為Ti = (i, id, role, stamp, content)其中,Ti表示第i個話輪,且i e z,Z是正整數(shù)集合;id表示區(qū)分說話人的唯一標示符;role表示說話人的角色,它分兩個類別說話人Speaker和接受者recipient ;stamp 表示話輪發(fā)生的時間戳;content表示一次話輪中發(fā)言的所有文本;那么Ti. stamp就表示第i個話輪發(fā)生的時間,Ti. content就表示第i個話輪的內容,所述的交互文本是來自于同一個聊天室或者討論群組內的話輪;(2)對當前話輪Ti的內容Ti. content進行文本預處理,按照特征詞典提取其中的
特征詞,計算語言特征向量 =(1^1,化2”",1^,".1^),其中 ,0<11彡11表示第h個特征詞在Ti. content中出現(xiàn)的次數(shù),η表示特征詞的個數(shù);所述的特征詞典,是從訓練數(shù)據(jù)中提取的;(3)如果話輪凡是系統(tǒng)中出現(xiàn)的首次話輪,也即T1,轉至IJ (5);否則,執(zhí)行(4);(4)計算話輪Ti的自適應語言特征聚集向量W^ = (^1,14^2,...,^1.,...^1),其中 ,0<h'彡 n 表示第
h'個特征詞在該語言特征聚集中出現(xiàn)的次數(shù),η表示特征詞的個數(shù);(5)利用有監(jiān)督分層概率潛在語義分析模型進行話輪級主題類別分類;第二步,話輪級事件識別與跟蹤階段(1)依據(jù)話輪所屬主題類別,前后話輪發(fā)生的時間差以及前后話輪說話人在社會網(wǎng)絡級上的緊度來判斷當前話輪Ti是否是事件的開始、延續(xù)與結束;(2)如果話輪Ti是事件結束語句,也就是形成了一個完整的事件,那么標記Ti為已結束事件的話輪,否則標記為未結束事件的話輪;(3)判斷是否到達定期更新時間;如果到達,則對有監(jiān)督分層概率潛在語義分析模型進行模型更新;否則,結束算法,所述的定期更新是指每一個月末將新識別的完整事件加入到訓練集中,對模型重新訓練;第一步的步驟(4)所述的自適應語言特征聚集向量的計算過程是Stepl 計算當前話輪Ti發(fā)生后,在時間間隔[Ti. stamp-Δ T, Ti. stamp]內話輪發(fā)生的頻次V (Ti)
權利要求
1. 一種面向即時交互文本的事件識別與跟蹤方法,其特征在于包括如下步驟 第一步話輪級主題類別分類階段(1)在即時交互文本中,以用戶一次輸入的發(fā)言Speech為一個話輪Turn,用五元組表示為Ti = (i, id, role, stamp, content)其中,Ti表示第i個話輪,且i e Z,Z是正整數(shù)集合;id表示區(qū)分說話人的唯一標示符;role表示說話人的角色,它分兩個類別說話人Speaker和接受者recipient ;stamp表示話輪發(fā)生的時間戳;content表示一次話輪中發(fā)言的所有文本;那么Ti. stamp就表示第i個話輪發(fā)生的時間,Ti. content就表示第i個話輪的內容, 所述的交互文本是來自于同一個聊天室或者討論群組內的話輪;(2)對當前話輪Ti的內容Ti.content進行文本預處理,按照特征詞典提取其中的特征詞,計算語言特征向量
2.如權利要求1所述的一種面向即時交互文本的事件識別與跟蹤方法,其特征在于 第一步中步驟( 利用有監(jiān)督分層概率潛在語義分析模型進行話輪級主題類別分類的過程為Mepl:計算當前話輪Ti的語言特征聚集向量『%,利用有監(jiān)督分層概率潛在語義分析算法學習得到的WZ將H7t^映射到潛在語義空間Z上,也就是利用潛在語義空間Z表示 Ti的語言特征聚集的內容,即
3.如權利要求1所述的一種面向即時交互文本的事件識別與跟蹤方法,其特征在于 所述的第二步中步驟(1)的具體過程如下Stepl 查找并獲得[Ti. Stamp-Th5Ti. stamp]時間間隔內發(fā)生的、并且不是事件結束的話輪集合 ^ = {rg,...,r,|0<g</};Step2 如果U只含有元素Ti,那么標記Ti為一個新的事件的起始句,算法結束;否則, 令1 = i_l,執(zhí)行乂印3 ;St印3 判斷Ti與T1的主題類別是否相同;Step4 如果Ti與T1的主題類別相同,那么將Ti歸屬到T1所屬的事件中,算法結束;否則令1 = 1-1,執(zhí)行乂印5 ;St印5 如果1彡g,那么,轉到St印3 ;否則,轉到St印6 ;St印6 如果Ti的所屬的事件為空,那么令Γ = i_l,轉到St印7 ;否則,結束算法; St印7 計算Ti. id與T1' .id在社會網(wǎng)絡級上的緊度d ;乂印8:如果d>0. 5,那么將Ti歸屬到T1,所屬事件中,算法結束;否則令1' =1' -1, 執(zhí)行乂印9 ;St印9 如果Γ ^ g,那么,轉到St印7 ;否則,標記Ti為一個新事件的起始句,結束算法。
4.如權利要求3所述的一種面向即時交互文本的事件識別與跟蹤方法,其特征在于所述的社會網(wǎng)絡緊度的計算方法為IO(TiMJ1^id)d(TJd, Ti , .id)=-! 1 I (T1 id) + O (T1 id) +1 (Tll id) + O (Tll id)其中IdV id)表示Ti. id的入度之和,0(Ti. id)表示Ti. id的出度之和,Th. id類似;IO(Ti. id,Th. id)表示Ti. id對IV1. id談話次數(shù)以及Th. id對Ti. id說話的次數(shù)之和,出度、入度的統(tǒng)計是歷史數(shù)據(jù)的總和,社會網(wǎng)絡的緊度每月更新一次。
全文摘要
本發(fā)明公開了一種面向即時交互文本的事件識別與跟蹤方法,按照兩個大步驟實施I、在話輪級主題類別分類階段,利用自適應語言特征聚集表示模型來表示話輪內容以及訓練所得的有監(jiān)督分層概率潛在語義分析模型來進行話輪主題類別的分類;II、在話輪級事件識別與跟蹤階段,依據(jù)話輪所屬主題類別,前后話輪發(fā)生的時間差以及前后話輪說話人在社會網(wǎng)絡級上的緊度來判斷事件的開始、延續(xù)與結束。其中,(1)提出依據(jù)當前話輪發(fā)生后時間序列數(shù)據(jù)波動的大小來自適應調整話輪緊密程度閾值Th的思想,進而進行自適應語言特征聚集計算;(2)在實施中定時更新有監(jiān)督分層概率潛在語義分析模型。所提方法是一個在線識別與跟蹤算法。
文檔編號G06F17/30GK102411611SQ201110312540
公開日2012年4月11日 申請日期2011年10月15日 優(yōu)先權日2011年10月15日
發(fā)明者張惠三, 田鋒, 鄭慶華 申請人:西安交通大學