亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本集合中事件的重要度的計(jì)算方法

文檔序號:6582199閱讀:233來源:國知局
專利名稱:一種文本集合中事件的重要度的計(jì)算方法
技術(shù)領(lǐng)域
本發(fā)明屬于語言文字信息處理領(lǐng)域,具體地說是涉及一種文本集合中事件的重要度的計(jì)算方法。

背景技術(shù)
大量研究成果表明,事件在許多文本中是客觀存在的,事件之間有著緊密的聯(lián)系,不同的事件在文本中有不同的重要度。計(jì)算文本集合中的事件重要度,是文本信息處理的基礎(chǔ)工作?;谖谋局械闹匾录?,在自動(dòng)問答領(lǐng)域,可以有針對性的抽取一些重要事件作為問題的答案;在自動(dòng)文摘領(lǐng)域可以選擇包含重要事件的句子作為文摘的單位;在信息檢索領(lǐng)域,可以根據(jù)事件重要度的不同選擇一些事件作為查詢擴(kuò)展的對象,事件重要度也可以作為擴(kuò)展對象的權(quán)重設(shè)置的參考;在本體領(lǐng)域,可以為領(lǐng)域本體的構(gòu)建推薦重要的事件,可以為領(lǐng)域本體的評價(jià)提供標(biāo)準(zhǔn),等等。
計(jì)算文本集合中事件重要度的研究主要應(yīng)用在自動(dòng)文摘領(lǐng)域。普遍認(rèn)為事件之間的關(guān)系是通過事件的要素而直接關(guān)聯(lián)的,表現(xiàn)在文本中就是事件的同一要素出現(xiàn)在不同的事件中。例如有文章報(bào)道,其題目為Extractive summarization using inter-and intra-eventrelevance(該文作者是W.J.Li,M.L.Wu,and Q.Lu,發(fā)表于2006年出版的期刊Proceedings of the 21st International Conference on Computational Linguistics andthe 44th annual meeting of the ACL)和文章Event-centric summary generation(該文作者是L.Vanderwende,M.Banko,and A.Menezes,發(fā)表于2004年出版的期刊Proceedingsof the DUC-2004 Workshop),該文公開了通過事件要素的關(guān)聯(lián),建立事件關(guān)系圖,進(jìn)而采用經(jīng)典的PageRank算法計(jì)算事件的重要度的方法。已有方法存在的不足(1)對每個(gè)事件提取其要素是一件非常困難的工作,目前的提取效果還是非常不理想的;(2)在很多情況下,事件間的關(guān)系并不是直接通過事件要素而關(guān)聯(lián)的;(3)使用經(jīng)典的PageRank算法計(jì)算事件的重要度并不是很合適的選擇。因此,已有方法在文本集合中計(jì)算事件的重要度時(shí)難以自動(dòng)實(shí)現(xiàn),且準(zhǔn)確率低。


發(fā)明內(nèi)容
鑒于以上所述現(xiàn)有技術(shù)存在的問題和不足,本發(fā)明要解決的技術(shù)問題是提供一種文本集合中事件的重要度的計(jì)算方法,該方法可以自動(dòng)實(shí)現(xiàn)、能夠提高文本集合中事件的重要度計(jì)算的準(zhǔn)確率。
為了解決上述問題,本發(fā)明采用下述技術(shù)方案 一種文本集合中事件的重要度的計(jì)算方法,其特征在于利用事件間相互的影響關(guān)系計(jì)算文本集合中事件的重要度,首先輸入文本集合,從文本集合中識別出所有的事件,由該所有事件組成事件集合E;其次根據(jù)一個(gè)事件的發(fā)生導(dǎo)致另一個(gè)事件發(fā)生的概率計(jì)算兩事件間的影響因子;接著依據(jù)兩兩事件間的影響因子構(gòu)造事件影響因子矩陣;最后利用鏈接分析算法迭代計(jì)算事件影響因子矩陣中每個(gè)事件的重要度,具體步驟如下 A、輸入文本集合,從文本集合中識別出事件集合E; B、計(jì)算事件集合E中的事件間的影響因子; C、構(gòu)造事件影響因子矩陣; D、計(jì)算事件集合E中每個(gè)事件的重要度。
上述步驟A中所述的從文本集合中得到事件集合E,其操作步驟如下 A1、將文本集合經(jīng)ICTCLAS分詞后,依據(jù)《漢語文本詞性標(biāo)注標(biāo)記集》選取所有的動(dòng)詞(v)、名動(dòng)詞(vn)構(gòu)成候選事件集合E1; A2、從候選事件集合E1中刪除主觀感知、猜想、闡述等類似動(dòng)詞,得到候選事件集合E2; A3、從候選事件集合E2中刪除一部分抽象意義高的動(dòng)詞,并將與其一起出現(xiàn)的名詞(n)添加到候選事件集合E2,最后得到的候選事件集合E3,即為所述文本集合的事件集合E。
上述步驟B中所述的計(jì)算事件集合E中的事件間的影響因子,其事件ei對事件ej的影響因子的計(jì)算公式為 其中,wij是事件ei對事件ej的影響因子; M是所述的文本集合, d是所述的文本集合M中的任意一篇文檔, Ndei表示事件ei在文檔d中出現(xiàn)的次數(shù), Fd(ei,ej)表示事件ei出現(xiàn)的文檔d,事件ej也同時(shí)在其中出現(xiàn)的次數(shù), 如果wij>1,則令wij=1。
上述步驟C中所述的構(gòu)造事件影響因子矩陣,其事件影響因子矩陣為 W=(wij)n×n 其中,n為事件集合E中事件的個(gè)數(shù),1≤i,j≤n,wij表示事件ei對ej的影響因子。
上述步驟D中所述的計(jì)算事件集合E中每個(gè)事件的重要度,其操作步驟如下 D1、初始化事件集合E中每個(gè)事件的重要度; D2、初始化每個(gè)事件的Authorities值和Hubs值均為0; D3、計(jì)算每個(gè)事件的Authorities值; D4、計(jì)算每個(gè)事件的Hubs值; D5、依據(jù)事件的Authorities值和Hubs值計(jì)算每個(gè)事件的重要度; D6、規(guī)范化每個(gè)事件的重要度; D7、判斷每個(gè)事件的重要度是否滿足迭代收斂的精度,如果是,則執(zhí)行完畢,否則,轉(zhuǎn)步驟D2,如此循環(huán)直到滿足迭代收斂的精度ε,計(jì)算事件重要度結(jié)束。
本發(fā)明的一種文本集合中事件的重要度的計(jì)算方法與現(xiàn)有技術(shù)相比較,具有以下效果該方法構(gòu)造了事件影響因子矩陣來描述文本集合中事件的關(guān)聯(lián)強(qiáng)弱,依據(jù)事件間的影響因子具有雙向和不對稱的特征,提出了一種綜合考慮了事件的Authorities值和Hubs值的鏈接分析算法,顯著地提高了文本集合中事件的重要度計(jì)算的準(zhǔn)確率;該方法在事件識別規(guī)則的基礎(chǔ)上,可以自動(dòng)的實(shí)現(xiàn)文本集合中事件的重要度的計(jì)算。



圖1是本發(fā)明的一種文本集合中事件的重要度的計(jì)算方法的流程圖; 圖2是圖1中步驟104所述的事件集合E中計(jì)算每個(gè)事件的重要度的流程圖。

具體實(shí)施例方式 下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一步詳細(xì)的描述。
參照圖1,本發(fā)明的一種文本集合中事件的重要度的計(jì)算方法包括如下步驟 步驟101、輸入文本集合,從文本集合中得到所有事件,由該所有事件組成事件集合E,其具體如下 A1、將文本集合經(jīng)ICTCLAS分詞后,依據(jù)《漢語文本詞性標(biāo)注標(biāo)記集》選取所有的動(dòng)詞(v)、名動(dòng)詞(vn)構(gòu)成候選事件集合E1; A2、從候選事件集合E1中刪除主觀感知、猜想、闡述等類似動(dòng)詞,得到候選事件集合E2。例如,句子“我認(rèn)為應(yīng)該進(jìn)行比賽”、“人們猜想這是不對的”和“有人說,還是回去吧”,句中的“認(rèn)為”、“猜想”、“說”等詞,均不屬于事件,而句中的“比賽”、“回去”則屬于事件; A3、從候選事件集合E2中刪除一部分抽象意義高的動(dòng)詞,并將與其一起出現(xiàn)的名詞添加到候選事件集合E2。例如,句子“汶川發(fā)生地震了”、“我們開始座談”、“大家準(zhǔn)備開會”,句中的動(dòng)詞“發(fā)生”、“開始”、“準(zhǔn)備”的抽象意義較高,不作為事件,句中的名詞“地震”、“座談”、“開會”分別作為事件,最后得到的候選事件集合E3,即為所述文本集合的事件集合E; 步驟102、計(jì)算事件集合E中的事件間的影響因子。
事件間的影響因子α是指事件ei的發(fā)生導(dǎo)致事件ej發(fā)生的概率大小。事件間的影響因子α的大小是指 (1)影響因子越大表示一個(gè)事件發(fā)生后,另一個(gè)事件發(fā)生的概率越大,0≤α≤1,根據(jù)影響因子的大小,可以人為的為事件間的關(guān)系賦予名稱,比如因果關(guān)系、跟隨關(guān)系等; (2)兩個(gè)事件間的影響因子的大小常常是不對稱的。比如,“地震”對“死亡”的影響就應(yīng)該很大,而“死亡”對“地震”的影響相對較小。
事件ei對事件ej的影響因子的計(jì)算公式為 其中,wij是事件ei對事件ej的影響因子; M是所述的文本集合, d是所述的文本集合M中的任意一篇文檔, Ndei表示事件ei在文檔d中出現(xiàn)的次數(shù), Fd(ei,ej)表示事件ei出現(xiàn)的文檔d,事件ej也同時(shí)在其中出現(xiàn)的次數(shù)。
如果wij>1,則令wij=1。
步驟103、構(gòu)造事件影響因子矩陣 事件影響因子矩陣為 W=(wij)n×n 其中,n為事件集合E中事件的個(gè)數(shù),1≤i,j≤n,wij表示事件ei對ej的影響因子。
步驟104、計(jì)算事件集合E中每個(gè)事件的重要度,參照圖2,包括如下步驟 步驟201、初始化事件集合E中每個(gè)事件的重要度; 對事件集合E中每個(gè)事件的重要度的初始化按照以下公式進(jìn)行 其中,R(ei)是事件ei的重要度,n是事件集合E中事件的個(gè)數(shù)。
步驟202、初始化每個(gè)事件的Authorities值和Hubs值均為0。
步驟203、計(jì)算每個(gè)事件的Authorities值 計(jì)算每個(gè)事件的Authorities值公式為 其中,Si是事件ei的Authorities值,In(ei)表示對ei有影響的事件集合,R(ej)k-1是事件ej的第k-1次迭代時(shí)的重要度,wji是事件ej對事件ei的影響因子; 步驟204、計(jì)算每個(gè)事件的Hubs值 計(jì)算每個(gè)事件的Hubs值的公式為 其中,So是事件ei的Hubs值,Out(ei)表示ei對其它有影響的事件集合R(eg)k-1是事件eg的第k-1次迭代時(shí)的重要度,wig是事件ei對事件eg的影響因子。
步驟205、依據(jù)事件的Authorities值和Hubs值,計(jì)算每個(gè)事件的重要度。
計(jì)算每個(gè)事件的重要度的公式為 其中,R(ei)k是事件ei的第k次迭代時(shí)的重要度;d是一個(gè)阻尼系數(shù),取值范圍為0~1,通常取d=0.85;α、β是調(diào)節(jié)Authorities值和Hubs值的兩個(gè)參數(shù),α,β≥0,且α+β=1,如果α=0,就以Authorities值作為迭代計(jì)算的依據(jù),演變成了類似于PageRank算法,如果β=0,就以Hubs值作為迭代計(jì)算的依據(jù),類似于Reverse PageRank算法,為了綜合考慮事件的Authorities值和Hubs值,通常取α=β=0.5。
計(jì)算事件重要度的公式由初始分布和一個(gè)轉(zhuǎn)移概率矩陣W=(wij)n×n(即事件影響因子矩陣)決定,W在每次迭代計(jì)算時(shí)都相同,因此計(jì)算事件重要度的公式是一個(gè)齊次馬爾可夫過程。其計(jì)算過程可以看作是一個(gè)矩陣特征向量求解的過程,從而保證了計(jì)算過程的收斂性。
步驟206、規(guī)范化每個(gè)事件的重要度。
規(guī)范化每個(gè)事件的重要度的公式為 其中,R(ei)k是事件ei的第k次迭代時(shí)的重要度;

是所有事件的重要度之和。
步驟207、判斷所有事件是否滿足迭代收斂的精度。
判斷事件ei是否滿足迭代收斂的精度ε,判斷是否迭代收斂公式為 |R(ei)k-R(ei)k-1|>ε 其中,R(ei)k是事件ei的第k次迭代時(shí)的重要度,R(ei)k-1是事件ei的第k-1次迭代時(shí)的重要度,ε是迭代收斂的精度要求,如果事件ei滿足迭代收斂的精度ε,則文本集合中計(jì)算事件的重要度結(jié)束,如果事件ei不能滿足迭代收斂的精度ε,則返回重新執(zhí)行步驟202,如此循環(huán)直到滿足迭代收斂的精度ε,計(jì)算事件的重要度結(jié)束。
本發(fā)明的一種文本集合中事件的重要度的計(jì)算方法(簡記作HARank)與具有代表性的對象級排序兩種算法(PopRank和Reverse PageRank)在事件的重要度排序的效果上進(jìn)行了實(shí)驗(yàn)比較。
實(shí)驗(yàn)語料通過搜索引擎獲取,包括5類事件“汶川地震”、“印尼海嘯”、“馬英九競選”、“5.8空難”和“中國SARS”。由于搜索引擎返回的有些結(jié)果僅僅是網(wǎng)站的主頁或者是一些圖片,不是新聞報(bào)道等文本資料,所以按照搜索返回的網(wǎng)頁的順序,人工參與篩選了返回結(jié)果中排在前面的30篇文本作為實(shí)驗(yàn)語料。
文本中重要事件的確定方法5位和本課題研究無關(guān)的本科生閱讀了5類事件的30篇文本,每個(gè)學(xué)生給出了每類的10個(gè)重要事件,最后有課題組的3名研究生采用了Pooling技術(shù)確定了每個(gè)類別的10個(gè)重要事件。Pooling技術(shù)的做法是每個(gè)類別根據(jù)5個(gè)本科生提交的10個(gè)重要事件,求他們的并集形成一個(gè)pool,然后由3名研究生在pool中挑選出10個(gè)重要事件,作為一個(gè)類別的重要事件的標(biāo)準(zhǔn)答案,這10個(gè)事件重要度的順序是3名研究生商量人工確定的。
計(jì)算事件的重要度時(shí),取d=0.85,α=β=0.5,當(dāng)前后兩次迭代誤差ε≤1×10-9時(shí),認(rèn)為迭代過程收斂到不動(dòng)點(diǎn)。5類事件語料的事件重要度排序比較結(jié)果如表1所示。
使用召回率(Recall)和肯德爾系數(shù)(Kendall)兩種方法對表1中數(shù)據(jù)進(jìn)行分析,分別定義為 其中,CS是使用某種算法得到的事件集合,元素按照事件重要度降序排列;ES是專家給定的事件集合,也是降序排列。
表15類事件語料的事件重要度排序比較
實(shí)驗(yàn)結(jié)果表明,本發(fā)明所述的方法對事件重要性的排序與人工評測最為吻合,PopRank和Reverse PageRank的排序效果相差不大。原因是Reverse PageRank算法側(cè)重于事件的Hubs值,PopRank側(cè)重于事件的Authoritites值。但在事件影響因子矩陣中,有的事件的Hubs值和Authorities值都不大,但其Hubs與Authorities值之和卻可能很大;另外,同一個(gè)領(lǐng)域事件中,有的事件的Hubs值偏大,有的事件的Authorities值偏大,單純的側(cè)重于Hubs值或Authorities值的事件排序算法都是不合理的。
本發(fā)明所述的方法并不限于具體實(shí)施方式
中所述的實(shí)施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出的其它的實(shí)施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
權(quán)利要求
1.一種文本集合中事件的重要度的計(jì)算方法,其特征在于首先輸入文本集合,從文本集合中識別出所有的事件,由該所有事件組成事件集合E;其次根據(jù)一個(gè)事件的發(fā)生導(dǎo)致另一個(gè)事件發(fā)生的概率計(jì)算兩事件間的影響因子;接著依據(jù)兩兩事件間的影響因子構(gòu)造事件影響因子矩陣;最后利用鏈接分析算法迭代計(jì)算事件影響因子矩陣中每個(gè)事件的重要度,具體步驟如下
A、輸入文本集合,從文本集合中識別出事件集合E;
B、計(jì)算事件集合E中的事件間的影響因子;
C、構(gòu)造事件影響因子矩陣;
D、計(jì)算事件集合E中每個(gè)事件的重要度。
2.根據(jù)權(quán)利要求1所述的文本集合中事件的重要度的計(jì)算方法,其特征在于,上述步驟A中所述的從文本集合中得到事件集合E,其操作步驟如下
A1、將文本集合經(jīng)ICTCLAS分詞后,依據(jù)《漢語文本詞性標(biāo)注標(biāo)記集》選取所有的動(dòng)詞(v)、名動(dòng)詞(vn)構(gòu)成候選事件集合E1;
A2、從候選事件集合E1中刪除主觀感知、猜想、闡述等類似動(dòng)詞,得到候選事件集合E2;
A3、從候選事件集合E2中刪除一部分抽象意義高的動(dòng)詞,并將與其一起出現(xiàn)的名詞(n)添加到候選事件集合E2,最后得到的候選事件集合E3,即為所述文本集合的事件集合E。
3.根據(jù)權(quán)利要求2所述的文本集合中事件的重要度的計(jì)算方法,其特征在于,上述步驟B中所述的計(jì)算事件集合E中的事件間的影響因子,其事件ei對事件ej的影響因子的計(jì)算公式為
其中,wij是事件ei對事件ej的影響因子;
M是所述的文本集合;
d是所述的文本集合M中的任意一篇文檔;
Ndei是事件ei在文檔d中出現(xiàn)的次數(shù);
Fd(ei,ej)是事件ei出現(xiàn)的文檔d,事件ej也同時(shí)在其中出現(xiàn)的次數(shù),
如果wij>1,則令wij=1。
4.根據(jù)權(quán)利要求3所述的文本集合中事件的重要度的計(jì)算方法,其特征在于,上述步驟C中所述的構(gòu)造事件影響因子矩陣,其事件影響因子矩陣為
W=(wij)n×n
其中,n為事件集合E中事件的個(gè)數(shù),1≤i,j≤n,wij表示事件ei對ej的影響因子。
5.根據(jù)權(quán)利要求4所述的文本集合中事件的重要度的計(jì)算方法,其特征在于,上述步驟D中所述的計(jì)算事件集合E中每個(gè)事件的重要度,其操作步驟如下
D1、初始化事件集合E中每個(gè)事件的重要度
對事件集合E中的每個(gè)事件的重要度的初始化公式為
其中,R(ei)是事件ei的重要度,n是事件集合E中事件的個(gè)數(shù);
D2、初始化每個(gè)事件的Authorities值和Hubs值均為0
D3、計(jì)算每個(gè)事件的Authorities值
計(jì)算每個(gè)事件的Authorities值公式為
其中,Si是事件ei的Authorities值,In(ei)表示對ei有影響的事件集合,R(ej)k-1是事件ej的第k-1次迭代時(shí)的重要度,wji是事件ej對事件ei的影響因子;
D4、計(jì)算每個(gè)事件的Hubs值
計(jì)算每個(gè)事件的Hubs值的公式為
其中,So是事件ei的Hubs值,Out(ei)表示ei對其它有影響的事件集合R(eg)k-1是事件eg的第k-1次迭代時(shí)的重要度,wig是事件ei對事件eg的影響因子;
D5、計(jì)算每個(gè)事件的重要度
計(jì)算每個(gè)事件的重要度的公式為
其中,R(ei)k是事件ei的第k次迭代時(shí)的重要度;d是一個(gè)阻尼系數(shù),取值范圍為0~1,通常取d=0.85;α、β是調(diào)節(jié)Authorities值和Hubs值的兩個(gè)參數(shù),α,β≥0,且α+β=1,如果α=0,就以Authorities值作為迭代計(jì)算的依據(jù),演變成了類似于PageRank算法,如果β=0,就以Hubs值作為迭代計(jì)算的依據(jù),類似于Reverse PageRank算法,為了綜合考慮事件的Authorities值和Hubs值,通常取α=β=0.5;
D6、規(guī)范化每個(gè)事件的重要度
規(guī)范化每個(gè)事件的重要度的公式為
其中,R(ei)k是事件ei的第k次迭代時(shí)的重要度;
是所有事件的重要度之和。
D7、判斷每個(gè)事件的重要度是否滿足迭代收斂的精度
判斷事件ei是否滿足迭代收斂的精度ε,判斷是否迭代收斂公式為
|R(ei)k-R(ei)k-1|>ε
其中,R(ei)k是事件ei的第k次迭代時(shí)的重要度,R(ei)k-1是事件ei的第k-1次迭代時(shí)的重要度,ε是迭代收斂的精度要求,如果事件ei滿足迭代收斂的精度ε,則文本集合中計(jì)算事件的重要度結(jié)束,如果事件ei不能滿足迭代收斂的精度ε,則返回重新執(zhí)行步驟202,如此循環(huán)直到滿足迭代收斂的精度ε,計(jì)算事件的重要度結(jié)束。
全文摘要
本發(fā)明公開了一種計(jì)算文本集合中事件的重要度的方法,該方法其特征在于首先從文本集合中識別出所有的事件,由該所有事件組成事件集合E;其次根據(jù)一個(gè)事件的發(fā)生導(dǎo)致另一個(gè)事件發(fā)生的概率計(jì)算兩事件間的影響因子;接著依據(jù)兩兩事件間的影響因子構(gòu)造事件影響因子矩陣;最后利用鏈接分析算法迭代計(jì)算事件影響因子矩陣中每個(gè)事件的重要度。該方法構(gòu)造了事件間的影響因子矩陣來描述文本集合中事件間的關(guān)聯(lián)強(qiáng)弱,依據(jù)事件間影響因子具有雙向和不對稱的特征,提出了一種綜合考慮了事件的Authorities值和Hubs值的鏈接分析算法,顯著地提高了文本集合中事件的重要度計(jì)算的準(zhǔn)確率。該方法在事件識別規(guī)則的基礎(chǔ)上,可以自動(dòng)的實(shí)現(xiàn)文本集合中事件的重要度的計(jì)算。
文檔編號G06F17/21GK101727437SQ20091019957
公開日2010年6月9日 申請日期2009年11月26日 優(yōu)先權(quán)日2009年11月26日
發(fā)明者仲兆滿, 劉宗田, 周文, 劉煒, 付劍鋒 申請人:上海大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1