本發(fā)明涉及英文長篇小說摘要生成技術(shù)領(lǐng)域,具體涉及英文長篇小說摘要生成方法。
背景技術(shù):
隨著網(wǎng)上英文長篇小說數(shù)量的爆炸式增長,如果讀者要想快速了解一篇英文長篇小說的主要內(nèi)容,就得借助該英文長篇小說的摘要。目前,對英文長篇小說的摘要生成還采用人工方法,導(dǎo)致難于壓縮提煉出英文長篇小說的主要內(nèi)容。
技術(shù)實現(xiàn)要素:
本發(fā)明是為了解決現(xiàn)有英文長篇小說的摘要生成還采用人工方法,導(dǎo)致難于壓縮提煉出英文長篇小說主要內(nèi)容的不足,提供一種英文長篇小說摘要生成方法,該方法能對英文長篇小說進行摘要的自動生成,并且生成摘要的速度較快、質(zhì)量較高。
以上技術(shù)問題是通過下列技術(shù)方案解決的:
英文長篇小說摘要生成方法,所述摘要生成過程如下:
步驟1,給出英文長篇自動摘要的問題定義;
步驟2,然后對英文長篇小說的章節(jié)分割、句子分割、單詞分割、去停用詞和詞干化進行數(shù)據(jù)預(yù)處理;
步驟3,采用主題建模處理來發(fā)現(xiàn)英文長篇小說關(guān)聯(lián)的主題詞,進而獲取摘要的候選句子,并形成候選句子集;
步驟4,從主題建模輸出的候選句子集合中篩選信息量最大的句子,句子選取后重新組成英文長篇小說的機器摘要;
步驟5,引入外部語言資源,并構(gòu)建外部語言資源相應(yīng)的內(nèi)部數(shù)據(jù)組織結(jié)構(gòu)來對自動摘要進行優(yōu)化,從而生成有效的自動摘要。
本方案能對英文長篇小說進行摘要的自動生成,并且生成摘要的速度較快、質(zhì)量較高。
作為優(yōu)選,所述問題定義包括摘要壓縮率定義,所述摘要壓縮率定義如下:
英文長篇小說可表示為句子的集合,記作英文長篇小說的自動摘要也可表示為句子的集合,記作通常有那么自動摘要關(guān)于英文長篇小說的壓縮率為:
作為優(yōu)選,所述問題定義還包括主題分布定義,所述主題分布定義如下:
記所有主題詞組成的主題空間為記各主題詞在英文長篇小說中的出現(xiàn)概率為則英文長篇小說的主題詞概率分布向量為:
其中
作為優(yōu)選,所述問題定義還包括摘要主題多樣性定義,所述摘要主題多樣性定義如下:
給定英文長篇小說及其自動摘要則自動摘要的主題多樣性可通過自動摘要和英文長篇小說的主題概率分布向量之間的余弦相關(guān)性進行度量,則自動摘要的主題多樣性為:
其中,
作為優(yōu)選,所述問題定義還包括抽取式自動摘要問題定義,所述抽取式自動摘要問題定義如下:
英文長篇小說的自動摘要需要盡可能地同時滿足高壓縮率和高壓縮質(zhì)量這兩個目標(biāo),則高壓縮率和高壓縮質(zhì)量分別為:
從公式(4)和(5)可看出,高壓縮率和高壓縮質(zhì)量這兩個目標(biāo)是一對矛盾體:
一方面,為了獲取高壓縮率,理想的自動摘要最好只包含一個句子或者為空,此時自動摘要的高壓縮率達到最小值0;
另一方面,為了獲取最佳的高壓縮質(zhì)量,理想的自動摘要最好覆蓋英文長篇小說原文的所有主題,在最極端情況下,直接使用原文作自動摘要,此時主題多樣性達到了最大值1;
為此,需要用一個抽取式自動摘要問題公式將高壓縮率和高壓縮質(zhì)量這兩個相互矛盾的目標(biāo)統(tǒng)一起來,設(shè)該抽取式自動摘要問題的計算公式為:
其中,α∈[0,1]為平衡參數(shù),用來平衡這兩個相互矛盾的目標(biāo)的影響,當(dāng)公式(6)的值越大時則主題多樣性目標(biāo)越重要;反之,當(dāng)公式(6)的值越小時則高壓縮率目標(biāo)越重要;
至此,高壓縮率和高壓縮質(zhì)量這兩個相互矛盾的目標(biāo)就是如何從給定英文長篇小說中快速搜索出滿足以上公式的自動摘要。
作為優(yōu)選,主題建模處理過程如下:
在自動摘要生成過程中,主題建模的主要目的是為了發(fā)現(xiàn)英文長篇小說關(guān)聯(lián)的主題詞,進而獲取摘要的候選句子。具體采用LDA算法對英文長篇小說進行主題建模和句子抽取。
作為優(yōu)選,對自動摘要進行優(yōu)化過程如下:
由于英文中大量存在著多義詞和同義詞,這對語義分析造成了極大的困擾;考慮到英文長篇小說和參考摘要的書寫者、書寫年代與詞匯使用有極大的差異;有鑒于此,對機器摘要中一些同義詞進行了映射,將其轉(zhuǎn)化成了相對簡單的單詞,并將單詞稱作基本詞,這有利于提高摘要的機器可閱讀性;為此需要引入了外部語言資源,并構(gòu)建外部語言資源相應(yīng)的內(nèi)部數(shù)據(jù)組織結(jié)構(gòu);為了處理摘要中的同義詞問題,構(gòu)建了一個同義詞網(wǎng);
(5.1)語義消歧:語義消歧任務(wù)可看作是一個分類任務(wù);利用含有語義、詞性標(biāo)注的訓(xùn)練數(shù)據(jù)集來訓(xùn)練分類器;這意味著,輸入一個目標(biāo)詞以及目標(biāo)詞的上下文信息,通過已經(jīng)訓(xùn)練好的分類器可得到目標(biāo)詞最合適的語義;
(5.2)整合同義詞組:從RogetThesaurus在線版中對同義詞組進行整合得到同義詞網(wǎng),各個終點節(jié)點為基本詞,即低級詞,連通的節(jié)點表示終點詞的同義詞,并對同義詞網(wǎng)的所有單詞進行了排序,以加快查找操作;利用該同義詞網(wǎng)可將自動摘要中的所有同義詞,轉(zhuǎn)換為它們對應(yīng)的基本詞;從而消除了大部分同義詞問題,極大地提高了自動摘要的機器的可閱讀性。
本發(fā)明能夠達到如下效果:
1、本發(fā)明能對英文長篇小說進行摘要的自動生成,并且生成摘要的速度較快、質(zhì)量較高。
2、本發(fā)明能處理幅較長、上下文更復(fù)雜和涉及主題更多的英文長篇小說,壓縮率較高。
3、本發(fā)明引入主題建模,通過獲取英文長篇小說關(guān)聯(lián)的上下文主題詞,使得據(jù)此生成的自動摘要能更好地體現(xiàn)英文長篇小說的上下文場景,提高自動摘要的生成質(zhì)量。
4、本發(fā)明以主題多樣性來表示壓縮質(zhì)量和冗余率來表示壓縮率為目標(biāo),定義了候選句子的重要性評估函數(shù),給出了NP窮舉難題的高效求解算法。
5、本發(fā)明結(jié)合SemCor和同義詞詞典的外部資源對自動摘要進行優(yōu)化,以克服多義詞或同義詞引起的自動摘要語義混淆問題,使得最終生成的自動摘要具有更好的機器可讀性。
附圖說明
圖1為本發(fā)明英文長篇小說自動生產(chǎn)摘要的一種過程架構(gòu)示意圖。
圖2為本發(fā)明同義詞網(wǎng)一種示意圖。
具體實施方式
下面結(jié)合附圖與實施例對本發(fā)明作進一步的說明。
實施例,英文長篇小說摘要生成方法,參見圖1所示,所述摘要生成過程如下:
步驟1,給出英文長篇自動摘要的問題定義;
步驟2,然后對英文長篇小說的章節(jié)分割、句子分割、單詞分割、去停用詞和詞干化進行數(shù)據(jù)預(yù)處理;
步驟3,采用主題建模處理來發(fā)現(xiàn)英文長篇小說關(guān)聯(lián)的主題詞,進而獲取摘要的候選句子,并形成候選句子集;
步驟4,從主題建模輸出的候選句子集合中篩選信息量最大的句子,句子選取后重新組成英文長篇小說的機器摘要;
步驟5,引入外部語言資源,并構(gòu)建外部語言資源相應(yīng)的內(nèi)部數(shù)據(jù)組織結(jié)構(gòu)來對自動摘要進行優(yōu)化,從而生成有效的自動摘要。
(一)問題定義過程如下:
所述問題定義包括摘要壓縮率定義、主題分布定義、摘要主題多樣性定義和抽取式自動摘要問題定義,
(1.1)所述摘要壓縮率定義如下:
英文長篇小說可表示為句子的集合,記作英文長篇小說的自動摘要也可表示為句子的集合,記作通常有那么自動摘要關(guān)于英文長篇小說的壓縮率為:
(1.2)所述主題分布定義如下:
記所有主題詞組成的主題空間為記各主題詞在英文長篇小說中的出現(xiàn)概率為則英文長篇小說的主題詞概率分布向量為:
其中
(1.3)所述摘要主題多樣性定義如下:
給定英文長篇小說及其自動摘要則自動摘要的主題多樣性可通過自動摘要和英文長篇小說的主題概率分布向量之間的余弦相關(guān)性進行度量,則自動摘要的主題多樣性為:
其中,
(1.4)所述抽取式自動摘要問題定義如下:
英文長篇小說的自動摘要需要盡可能地同時滿足高壓縮率和高壓縮質(zhì)量這兩個目標(biāo),則高壓縮率和高壓縮質(zhì)量分別為:
從公式(4)和(5)可看出,高壓縮率和高壓縮質(zhì)量這兩個目標(biāo)是一對矛盾體:
一方面,為了獲取高壓縮率,理想的自動摘要最好只包含一個句子或者為空,此時自動摘要的高壓縮率達到最小值0;
另一方面,為了獲取最佳的高壓縮質(zhì)量,理想的自動摘要最好覆蓋英文長篇小說原文的所有主題,在最極端情況下,直接使用原文作自動摘要,此時主題多樣性達到了最大值1;
為此,需要用一個抽取式自動摘要問題公式將高壓縮率和高壓縮質(zhì)量這兩個相互矛盾的目標(biāo)統(tǒng)一起來,設(shè)該抽取式自動摘要問題的計算公式為:
其中,α∈[0,1]為平衡參數(shù),用來平衡這兩個相互矛盾的目標(biāo)的影響,當(dāng)公式(6)的值越大時則主題多樣性目標(biāo)越重要;反之,當(dāng)公式(6)的值越小時則高壓縮率目標(biāo)越重要;
至此,高壓縮率和高壓縮質(zhì)量這兩個相互矛盾的目標(biāo)就是如何從給定英文長篇小說中快速搜索出滿足以上公式的自動摘要。
(二)數(shù)據(jù)預(yù)處理過程如下:
在對源英文長篇小說進行主題建模和句子選取之前,需要對英文長篇小說進行預(yù)處理,具體包括章節(jié)分割、句子分割、單詞分割、去停用詞和詞干化這幾個步驟。
(2.1)章節(jié)分割:英文長篇小說通常由幾十個章節(jié)所組成,相鄰的章節(jié)之間既互相關(guān)聯(lián)又彼此獨立;由于每個章節(jié)是由作者直接設(shè)定的,為此,可獨立地抽取出每個章節(jié)的主題,使得后面的主題建模能在確保句子抽取效果的前提下,通過多線程技術(shù)提高建模效率。
(2.2)句子分割:在英文長篇小說中,將最小的摘要處理單位設(shè)定為句子。采用NLTK中的句子分割器,在該句子分割器掃描英文長篇小說時,當(dāng)遇到句子結(jié)束符時就劃分為新的一句。英文長篇小說經(jīng)過句子分割器分割后,英文長篇小說可表示為句子的集合,記作:
(2.3)單詞分割:是將句子表示成獨立的單詞集合。由于英文一般以空格等特殊字符作為單詞分隔符,把英文長篇小說的每個句子Si進一步表示為單詞集合,記作:在單詞分割過程中,還對每個單詞進行了小寫化,以方便后續(xù)步驟的處理。
(2.4)去停用詞:停用詞包括介詞、代詞和冠詞,停用詞幾乎不攜帶任何的語言成分信息,因此為了避免停用詞對自動摘要生成造成的干擾,需要過濾掉句子中的停用詞。采用NLTK所列出的停用詞表對單詞分割后的句子集進行停用詞過濾。
(2.5)詞干化:每個單詞都有其詞根,詞干化就是將不同詞性以及不同時態(tài)的詞轉(zhuǎn)化為詞根形式。
詞干化可極大地集中語言信息,從而減少相關(guān)計算的規(guī)模,也能有效地避免后續(xù)主題建模時可能遇到的單詞稀疏問題。采用Snowball算法將不同詞性以及不同時態(tài)的詞轉(zhuǎn)化為詞根形式。
(三)主題建模處理過程如下:
在自動摘要生成過程中,主題建模的主要目的是為了發(fā)現(xiàn)英文長篇小說關(guān)聯(lián)的主題詞,進而獲取摘要的候選句子。具體采用LDA算法對英文長篇小說進行主題建模和句子抽取。
例如,如果在一篇文章中頻繁地出現(xiàn)“地震”、“生還”、“搶救”等單詞,則能大概判斷出這篇文章的主題很有可能與“地震救援”有關(guān)。
LDA算法公式如下:
Pr(word|doc)=∑topicPr(word|topic)·Pr(topic|doc) (7),
其中,各個符號含義的說明如下:
Pr(word|doc):表示單詞word在文檔doc中的出現(xiàn)概率,它通常是已知的量,其值等于單詞word在文檔doc中的出現(xiàn)次數(shù)除以文檔doc的單詞總數(shù)。
Pr(word|topic):表示在給定主題topic的情況下,各個單詞word的出現(xiàn)概率,用于描述單詞和主題的相關(guān)程度。
Pr(topic|doc):表示在給定文檔doc的情況下,各個主題topic的出現(xiàn)概率,用于描述主題和文檔的相關(guān)程度。
給定一個英文長篇小說的文檔集合,利用大量已知的Pr(word|doc),讓LDA算法訓(xùn)練計算出兩外兩類未知的量:Pr(word|topic)和Pr(topic|doc)。因而,可使用LDA算法從一個文檔集合中計算得到英文長篇小說的主題。在LDA算法中,每一篇文檔代表了某些主題所構(gòu)成的一個概率分布,而每一個主題又代表了很多單詞所構(gòu)成的一個概率分布。
具體地,對于給定文檔集中的每篇文檔,LDA定義了以下的生成過程:
(3.1)對每篇英文長篇小說文檔,根據(jù)它的主題分布,獲取一個主題;
(3.2)從獲取的主題對應(yīng)的單詞分布中,抽取一個單詞;
(3.3)重復(fù)以上過程,直至遍歷完英文長篇小說文檔的每個單詞。
最終,得到一系列的主題詞以及主題詞的分布概率。利用主題詞,可回溯到英文長篇小說中含有該主題詞的所有句子,將這些句子定義為主題句或稱作候選句。因而,給定一個英文長篇小說經(jīng)過主題建模后,將得到一個重要句子的集合,作為英文長篇小說摘要的候選句子集,記作:顯然,使用工具Gensim來進行LDA主題建模。Gensim是一款專門用于LDA主題建模的工具,它是基于Python語言開發(fā)的開源第三方庫,目前已被廣泛地應(yīng)用于LDA主題建模。使用的版本為0.13.1。
(四)句子選取過程如下:
經(jīng)過前面主題模型的候選句子抽取操作后,英文長篇小說被變換為一個候選句子集合:該候選句子集合覆蓋了英文長篇小說的所有主題,因而如果直接使用該候選句子集合作為英文長篇小說的自動摘要,顯然能很好地滿足主題多樣性要求。然而,該候選句子集合的數(shù)量遠大于理想摘要句子的數(shù)量,因而難以達到理想摘要的高壓縮比要求。為此,需要從主題建模輸出的候選句子集合中篩選信息量最大的句子,重新組成英文長篇小說摘要。
從問題定義所給出的目標(biāo)函數(shù)可看出,如果直接利用該目標(biāo)函數(shù)從候選句子集合中篩選出使得目標(biāo)函數(shù)值最大的候選句子子集,則該候選句子子集是一個非常耗時的過程,其計算時間復(fù)雜度為:其中,θ是摘要期望壓縮率。實際上,由于因而該求解過程的時間復(fù)雜度為:
由于英文長篇小說包含的候選句子規(guī)模較大,這種窮舉法在實際中是不可行,這種窮舉法會成為NP問題。為此,采用以下的方法進行自動摘要選取。
首先,認(rèn)定高壓縮比英文長篇小說的自動摘要過程必須達到的首要目標(biāo),從而將雙目標(biāo)優(yōu)化問題轉(zhuǎn)化為單目標(biāo)優(yōu)化問題。則將抽取式自動摘要問題重新定義如下:
其中,θ是期望壓縮率,其值設(shè)定需保證自動摘要的長度不超過500個單詞。
然后,定義句子重要性評估函數(shù)來量化評估每個候選句子在體現(xiàn)主題多樣性上的重要程度,從而將組合空間的最優(yōu)化搜索問題轉(zhuǎn)換為基于“貪婪”策略的線性空間搜索問題。
這里主要根據(jù)各個句子在主題多樣性上的表現(xiàn)和在冗余信息量上的表現(xiàn)來評估候選句子的重要性,從而選取出對主題多樣性重要程度影響最大的候選句子,以構(gòu)成英文長篇小說的摘要。
(4.1)對句子的正面主題多樣性的觀察可知:對于英文長篇小說的任一句子,它關(guān)聯(lián)主題越多,則該句子就越重要;它關(guān)聯(lián)的主題在英文長篇小說中出現(xiàn)的概率越高,則該句子就越重要。
例如,給定英文長篇小說的兩個句子,如果一個句子關(guān)聯(lián)兩個出現(xiàn)概率較高的主題,而另一個句子僅關(guān)聯(lián)一個出現(xiàn)概率較低的主題,顯然,相比于第二個句子,選擇第一個句子作為摘要更能體現(xiàn)主題多樣性,即第一個句子更重要?;谟^察1,可定義公式來度量句子集中各個句子關(guān)于主題多樣性的表現(xiàn)情況。
句子的正面主題多樣性定義:對于任一候選句子該句子的正面主題多樣性度量如下:
其中,θ1為參數(shù),在實驗中被設(shè)定為2。
例子1:對于英文長篇小說《JaneEyre》中的句子“I never liked long walks,especially on chilly afternoons:dreadful to me was the coming home in the raw twilight,with nipped fingers and toes,and a heart saddened by the chidings of Bessie,the nurse,and humbled by the consciousness of my physical inferiority to Eliza,John,and Georgiana Reed”。其中單詞“Reed”以及“John”都是主題詞,假定它們的主題出現(xiàn)概率分別為0.013和0.008,那么將兩個主題概率值相加以后再乘以(假定α1=2),得到的值就是該句子的正面主題多樣性度量值。
(4.2)對句子的負(fù)面主題多樣性的觀察可知:對于英文長篇小說的任一句子,如果它關(guān)聯(lián)的主題均沒有當(dāng)前英文長篇小說摘要中出現(xiàn)過,則該句子越重要,該句子主題冗余量?。环駝t,如果它關(guān)聯(lián)的主題在當(dāng)前英文長篇小說摘要中出現(xiàn)的次數(shù)越大,則該句子越不重要,該句子主題冗余量大。
假定已經(jīng)獲得了一個當(dāng)前非完整的英文長篇小說的摘要為了方便描述,假定摘要僅包含一個關(guān)聯(lián)主題A的句子,則給定英文長篇小說的兩個句子分別關(guān)聯(lián)兩個同等重要的主題A和B,對句子的負(fù)面主題多樣性的觀察可知,將認(rèn)為第一個句子出現(xiàn)了主題冗余,其關(guān)聯(lián)的主題在當(dāng)前摘要中出現(xiàn)過,而第二個句子更加重要。基于對句子的負(fù)面主題多樣性的觀察可知,可定義公式來度量候選句子集中各個句子關(guān)于主題標(biāo)題多樣性的冗余表現(xiàn)情況。
句子的負(fù)面主題多樣性定義:給定一個當(dāng)前英文長篇小說摘要對于英文長篇小說的任一候選句子該句子的負(fù)面主題多樣性可度量公式如下:
其中,表示主題詞Wt在摘要中的出現(xiàn)次數(shù),θ2為參數(shù),在實驗中被設(shè)定為2。
例子2:對于例子1給定的句子,假定“Reed”和“John”這兩個句子相關(guān)的主題詞分別在當(dāng)前英文長篇小說摘要中出現(xiàn)過2次和1次,并假定α2=1。則句子的負(fù)面主題多樣性為1+2+1,等于4。說明負(fù)面主題多樣性值越小,句子越重要。
(4.3)對句子的信息冗余量的觀察可知,對于英文長篇小說的任一句子,它包含的無用詞越多,則該句子就越不重要;反之,包含的無用詞越少,就越重要。
例如,給定英文長篇小說的兩個句子,如果兩個句子均關(guān)聯(lián)同樣主題,但第一個句子包含的無用單詞數(shù)量高于第二個句子,考慮到摘要的高壓縮比限制,顯然,相比于第二個句子,選擇第一個句子更合適,即第一個句子更不重要,因為在同樣的主題多樣性表現(xiàn)下,第一個句子的冗余英文長篇小說信息更多。類符/形符比是語料庫語言學(xué)中常見的概念,其中,類符表示不重復(fù)的單詞數(shù)量,而形符則表示給定語料庫所有的單詞數(shù)量,它常被用來衡量一個語料庫的詞匯密度。受此啟發(fā),結(jié)合對句子的信息冗余量的觀察可定義公式來度量候選句子集中各個句子的冗余英文長篇小說信息量。
句子的信息冗余量定義:對于任一候選句子符號表示所有的無用詞的集合,則該句子的冗余信息可度量公式如下:
其中,表示單詞W在句子中的出現(xiàn)次數(shù)。
從公式可看出,認(rèn)為一個句子中的無用詞越多,則它包含的情節(jié)信息越少,即冗余信息量越大。如英文長篇小說《JaneEyre》中出現(xiàn)的兩個句子“Do you think,because I am poor,obscure,plain,and little,I am soulless and heartless?”和“What do you want?”和“Whatdoyouwant?”,這兩句話的冗余信息量分別為0.4375和0.25。
根據(jù)負(fù)面主題多樣性可度量公式和冗余信息可度量公式可得到以下的句子重要性評估公式:
句子重要性評估公式的值越大,則句子越重要。
(4.4)對句子情節(jié)位置的觀察可知,句子位置同樣是句子選取的重點研究方向,在此,考慮英文長篇小說的特征觀察了句子的情節(jié)位置;通常的敘述性英文長篇小說情節(jié)都可分為三個組成部分:開頭、經(jīng)過和結(jié)尾,其中每個部分包含信息量并不相同;為此,摘要也應(yīng)有對應(yīng)的三個組成部分,以盡可能保持與原文一致的主題多樣性,它們都應(yīng)選取英文長篇小說中對應(yīng)的部分。
例如,摘要的開頭部分應(yīng)抽取自英文長篇小說的開頭中的句子,其算法如下:
輸入:英文長篇小說
基于主題模型,獲取摘要的候選句子集和
計算候選句子的正面主題多樣性
計算候選句了的信息冗余量
endfor
設(shè)置和為空;
Forkfroml to3do
基于當(dāng)前摘要計算負(fù)面主題多樣性
基于和計算
endfor
獲取中擁有最大重要性函數(shù)值的候選句子
候選句子加入摘要候選句子從英文長篇小說句子集移除;
endwhile
endfor
return英文長篇小說初始摘要
(4.5)對句子情節(jié)位置的觀察后可知,可將分割后的英文長篇小說候選句子集劃分為三部子集:開頭、經(jīng)過和結(jié)尾;然后分別從這三個子集中選取重要性評分最高的句子,作為英文長篇小說的摘要。
選取重要性評分最高的句子的過程如下:首先,確定英文長篇小說開頭、經(jīng)過和結(jié)果部分所占比例,分別記作α1、α2和α3;這里按照敘述性英文長篇小說的一般性規(guī)律,即開頭部分和結(jié)尾部分各占20%,經(jīng)過部分占60%,設(shè)定α1=α3=0.2和α2=0.6;然后根據(jù)主題建模中確定的候選句子集合其中m英文長篇小說候選句子數(shù)量,確定三個候選句子子集,分別記作:
最后,將分別從這三個子集中選取最重要的句子,構(gòu)成自動摘要。根據(jù)句子的重要性評估值,從選取個重要性最高的句子,記作類似地,從選取個最重要的句子選取,記作從選取個最重要的句子選取,記作最后,合并成最終的摘要算法1給出了基于句子重要性評估函數(shù)的英文長篇小說抽取式自動算法描述。
(五)對自動摘要進行優(yōu)化過程如下:
由于英文中大量存在著多義詞和同義詞,這對語義分析造成了極大的困擾??紤]到英文長篇小說和參考摘要的書寫者、書寫年代與詞匯使用有極大的差異。有鑒于此,對機器摘要中一些同義詞進行了映射,將其轉(zhuǎn)化成了相對簡單的單詞,并將單詞稱作基本詞,這有利于提高摘要的機器可閱讀性。為此需要引入了外部語言資源,并構(gòu)建外部語言資源相應(yīng)的內(nèi)部數(shù)據(jù)組織結(jié)構(gòu)。為了處理摘要中的同義詞問題,構(gòu)建了一個同義詞網(wǎng)。
(5.1)語義消歧:語義消歧任務(wù)可看作是一個分類任務(wù);利用含有語義、詞性標(biāo)注的訓(xùn)練數(shù)據(jù)集來訓(xùn)練分類器;這意味著,輸入一個目標(biāo)詞以及目標(biāo)詞的上下文信息,通過已經(jīng)訓(xùn)練好的分類器可得到目標(biāo)詞最合適的語義。
參見圖2所示,圖2表示同義詞網(wǎng),其中黑色表示低級詞,白色表示非低級詞。
采用SemCor作為訓(xùn)練數(shù)據(jù)集。SemCor是Brown語料庫的子集,總共360,000字,約234,000的語義標(biāo)注信息,在語義消歧中被廣泛使用。
(5.2)整合同義詞組:從RogetThesaurus在線版中對同義詞組進行整合得到同義詞網(wǎng),各個終點節(jié)點為基本詞,即低級詞,連通的節(jié)點表示終點詞的同義詞,并對同義詞網(wǎng)的所有單詞進行了排序,以加快查找操作。利用該同義詞網(wǎng)可將自動摘要中的所有同義詞,轉(zhuǎn)換為它們對應(yīng)的基本詞。從而消除了大部分同義詞問題,極大地提高了自動摘要的機器的可閱讀性。
RogetThesaurus是一部大型的同義詞詞典。爬取了約250,000個詞的同義詞,這是一種一對多的關(guān)系。即一個詞對應(yīng)多個語義、一個語義組中有多個同義詞。例如,“good”,既有“fine(adj.)”的意思,也有“advantage(n.)”的意思,在表示,而“great”和“wonderful”屬于“fine”的同義詞組中的同義詞。然后,利用“基本詞”和牛津?qū)W習(xí)者詞典提供基本詞來對一個同義詞組進行標(biāo)志,構(gòu)建一個同義詞單元。從語義相似度程度上來說,一個同義詞組中的所有的相似度均為1。例如“good”同時也是一個“基本詞”,所以可用它來標(biāo)注“fine”這個同義詞組。需要說明的是,這些基本詞是語言學(xué)家抽取出來的低級詞,但這些低級詞可幫助英語學(xué)習(xí)者更好地理解文章意思。如維基百科簡易版里的文章都用基本詞來進行創(chuàng)作。
綜上所述,這個將摘要的同義詞和多義詞轉(zhuǎn)換為基本詞的算法可稱之為基本詞單元算法。利用這個基本詞單元算法,將人工摘要與機器摘要的單詞做了一個較好統(tǒng)一,提高機器摘要的質(zhì)量。本實施例能對英文長篇小說進行摘要的自動生成,并且生成摘要的速度較快、質(zhì)量較高。
上面結(jié)合附圖描述了本發(fā)明的實施方式,但實現(xiàn)時不受上述實施例限制,本領(lǐng)域普通技術(shù)人員可在所附權(quán)利要求的范圍內(nèi)做出各種變化或修改。