1.英文長篇小說摘要生成方法,其特征在于,所述摘要生成過程如下:
步驟1,給出英文長篇自動摘要的問題定義;
步驟2,然后對英文長篇小說的章節(jié)分割、句子分割、單詞分割、去停用詞和詞干化進(jìn)行數(shù)據(jù)預(yù)處理;
步驟3,采用主題建模處理來發(fā)現(xiàn)英文長篇小說關(guān)聯(lián)的主題詞,進(jìn)而獲取摘要的候選句子,并形成候選句子集;
步驟4,從主題建模輸出的候選句子集合中篩選信息量最大的句子,句子選取后重新組成英文長篇小說的機(jī)器摘要;
步驟5,引入外部語言資源,并構(gòu)建外部語言資源相應(yīng)的內(nèi)部數(shù)據(jù)組織結(jié)構(gòu)來對自動摘要進(jìn)行優(yōu)化,從而生成有效的自動摘要。
2.根據(jù)權(quán)利要求1所述英文長篇小說摘要生成方法,其特征在于,所述問題定義包括摘要壓縮率定義,所述摘要壓縮率定義如下:
英文長篇小說可表示為句子的集合,記作英文長篇小說的自動摘要也可表示為句子的集合,記作通常有那么自動摘要關(guān)于英文長篇小說的壓縮率為:
3.根據(jù)權(quán)利要求2所述英文長篇小說摘要生成方法,其特征在于,所述問題定義還包括主題分布定義,所述主題分布定義如下:
記所有主題詞組成的主題空間為記各主題詞在英文長篇小說中的出現(xiàn)概率為則英文長篇小說的主題詞概率分布向量為:
其中
4.根據(jù)權(quán)利要求3所述英文長篇小說摘要生成方法,其特征在于,所述問題定義還包括摘要主題多樣性定義,所述摘要主題多樣性定義如下:
給定英文長篇小說及其自動摘要則自動摘要的主題多樣性可通過自動摘要和英文長篇小說的主題概率分布向量之間的余弦相關(guān)性進(jìn)行度量,則自動摘要的主題多樣性為:
其中,
5.根據(jù)權(quán)利要求4所述英文長篇小說摘要生成方法,其特征在于,所述問題定義還包括抽取式自動摘要問題定義,所述抽取式自動摘要問題定義如下:
英文長篇小說的自動摘要需要盡可能地同時滿足高壓縮率和高壓縮質(zhì)量這兩個目標(biāo),則高壓縮率和高壓縮質(zhì)量分別為:
從公式(4)和(5)可看出,高壓縮率和高壓縮質(zhì)量這兩個目標(biāo)是一對矛盾體:
一方面,為了獲取高壓縮率,理想的自動摘要最好只包含一個句子或者為空,此時自動摘要的高壓縮率達(dá)到最小值0;
另一方面,為了獲取最佳的高壓縮質(zhì)量,理想的自動摘要最好覆蓋英文長篇小說原文的所有主題,在最極端情況下,直接使用原文作自動摘要,此時主題多樣性達(dá)到了最大值1;
為此,需要用一個抽取式自動摘要問題公式將高壓縮率和高壓縮質(zhì)量這兩個相互矛盾的目標(biāo)統(tǒng)一起來,設(shè)該抽取式自動摘要問題的計算公式為:
其中,α∈[0,1]為平衡參數(shù),用來平衡這兩個相互矛盾的目標(biāo)的影響,當(dāng)公式(6)的值越大時則主題多樣性目標(biāo)越重要;反之,當(dāng)公式(6)的值越小時則高壓縮率目標(biāo)越重要;
至此,高壓縮率和高壓縮質(zhì)量這兩個相互矛盾的目標(biāo)就是如何從給定英文長篇小說中快速搜索出滿足以上公式的自動摘要。
6.根據(jù)權(quán)利要求5所述英文長篇小說摘要生成方法,其特征在于,主題建模處理過程如下:
在自動摘要生成過程中,主題建模的主要目的是為了發(fā)現(xiàn)英文長篇小說關(guān)聯(lián)的主題詞,進(jìn)而獲取摘要的候選句子;具體采用LDA算法對英文長篇小說進(jìn)行主題建模和句子抽取。
7.根據(jù)權(quán)利要求6所述英文長篇小說摘要生成方法,其特征在于,對自動摘要進(jìn)行優(yōu)化過程如下:
由于英文中大量存在著多義詞和同義詞,這對語義分析造成了極大的困擾;考慮到英文長篇小說和參考摘要的書寫者、書寫年代與詞匯使用有極大的差異;有鑒于此,對機(jī)器摘要中一些同義詞進(jìn)行了映射,將其轉(zhuǎn)化成了相對簡單的單詞,并將單詞稱作基本詞,這有利于提高摘要的機(jī)器可閱讀性;為此需要引入了外部語言資源,并構(gòu)建外部語言資源相應(yīng)的內(nèi)部數(shù)據(jù)組織結(jié)構(gòu);為了處理摘要中的同義詞問題,構(gòu)建了一個同義詞網(wǎng);
(5.1)語義消歧:語義消歧任務(wù)可看作是一個分類任務(wù);利用含有語義、詞性標(biāo)注的訓(xùn)練數(shù)據(jù)集來訓(xùn)練分類器;這意味著,輸入一個目標(biāo)詞以及目標(biāo)詞的上下文信息,通過已經(jīng)訓(xùn)練好的分類器可得到目標(biāo)詞最合適的語義;
(5.2)整合同義詞組:從RogetThesaurus在線版中對同義詞組進(jìn)行整合得到同義詞網(wǎng),各個終點節(jié)點為基本詞,即低級詞,連通的節(jié)點表示終點詞的同義詞,并對同義詞網(wǎng)的所有單詞進(jìn)行了排序,以加快查找操作;利用該同義詞網(wǎng)可將自動摘要中的所有同義詞,轉(zhuǎn)換為它們對應(yīng)的基本詞;從而消除了大部分同義詞問題,極大地提高了自動摘要的機(jī)器的可閱讀性。