亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

多語(yǔ)言自動(dòng)文摘方法與流程

文檔序號(hào):12719874閱讀:172來(lái)源:國(guó)知局
多語(yǔ)言自動(dòng)文摘方法與流程

本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其涉及一種多語(yǔ)言自動(dòng)文摘方法。



背景技術(shù):

隨著大數(shù)據(jù)時(shí)代到來(lái),多語(yǔ)言信息,例如多語(yǔ)言新聞文檔隨處可見(jiàn)。有效地分析多語(yǔ)言文檔集合,獲取其中的重要信息,并按照用戶需求的語(yǔ)言呈現(xiàn)給用戶,可以幫助用戶快速、便利地理解該文檔集合的主體信息。以中文、英文文檔集合生成中文摘要為例,最簡(jiǎn)單的做法是首先將英文文檔通過(guò)機(jī)器翻譯翻譯為中文,然后將其與中文文檔一起,通過(guò)傳統(tǒng)的多文檔自動(dòng)摘要方法,生成中文摘要。然而,機(jī)器翻譯的效果往往不能令人滿意,存在很多錯(cuò)誤,使得機(jī)器翻譯譯文的可讀性較差。多語(yǔ)言自動(dòng)文摘評(píng)測(cè)會(huì)議(MSE)在2005年進(jìn)行了多語(yǔ)言自動(dòng)文摘評(píng)測(cè),Daume III和Marcu獲得了評(píng)測(cè)的冠軍,并和其他隊(duì)伍得出類似的結(jié)論:當(dāng)不使用機(jī)器翻譯譯文文檔集合時(shí),摘要的ROUGE得分(一種評(píng)價(jià)生成摘要和參考摘要重合度的指標(biāo))最高。一方面,機(jī)器翻譯譯文存在很多錯(cuò)誤,使用機(jī)器翻譯譯文會(huì)引入很多噪音,降低可讀性;另一方面,機(jī)器翻譯譯文文檔中的信息不會(huì)被非譯文文檔完全覆蓋,即機(jī)器翻譯譯文文檔仍然會(huì)給我們提供很多有價(jià)值的信息,我們還是需要利用機(jī)器翻譯譯文增強(qiáng)摘要的信息量。多語(yǔ)言自動(dòng)文摘方法需要平衡可讀性和信息量。



技術(shù)實(shí)現(xiàn)要素:

為了解決現(xiàn)有技術(shù)中的上述問(wèn)題,即為了實(shí)現(xiàn)如何獲取指定語(yǔ)言的摘要,且在保證該摘要含有更多的重要信息的信息量時(shí),提高可讀性?;诖?,本發(fā)明提供了一種多語(yǔ)言自動(dòng)文摘方法,包括以下步驟:

步驟1,獲取多個(gè)目標(biāo)語(yǔ)言文檔中的多個(gè)謂詞論元結(jié)構(gòu);

步驟2,對(duì)所述多個(gè)謂詞論元結(jié)構(gòu)中的每一個(gè)謂詞論元進(jìn)行重要性打分;

步驟3,根據(jù)所述每一個(gè)謂詞論元的重要性得分,生成目標(biāo)語(yǔ)言摘要。

優(yōu)選地,對(duì)所述謂多個(gè)詞論元結(jié)構(gòu)中的每一個(gè)謂詞論元進(jìn)行重要性打分,包括如下步驟:

步驟21,計(jì)算組成所述謂詞論元的詞向量的加權(quán)平均數(shù),得到所述謂詞論元的短語(yǔ)向量;

步驟22,根據(jù)所述謂詞論元的短語(yǔ)向量計(jì)算所述謂詞論元結(jié)構(gòu)中謂詞論元的相似度;

步驟23,利用所述相似度獲取語(yǔ)義相同的謂詞論元;

步驟24,根據(jù)所述相似度計(jì)算謂詞論元的重要性得分。

優(yōu)選地,所述根據(jù)所述謂詞論元的短語(yǔ)向量計(jì)算所述謂詞論元結(jié)構(gòu)中謂詞論元的相似度,具體包括:

在每一目標(biāo)語(yǔ)言文檔中分別任選一個(gè)謂詞論元,每?jī)蓚€(gè)謂詞論元根據(jù)各自的短語(yǔ)向量計(jì)算該兩個(gè)間的相似度,直至所有目標(biāo)語(yǔ)言文檔中的所有個(gè)謂詞論元均任意兩個(gè)匹配計(jì)算完相似度為止。

優(yōu)選地,所述利用所述相似度獲取語(yǔ)義相同的謂詞論元,具體包括:

當(dāng)所述相似度大于預(yù)設(shè)閾值時(shí),確認(rèn)所述相似度所屬的謂詞論元語(yǔ)義相同。

優(yōu)選地,在根據(jù)所述相似度計(jì)算謂詞論元的重要性得分時(shí),通過(guò)如下計(jì)算公式:

利用上述兩個(gè)公式分別進(jìn)行迭代計(jì)算,直到迭代計(jì)算結(jié)果穩(wěn)定時(shí)得到各謂詞論元的重要性得分;

其中,ci和cj為任意兩個(gè)謂詞論元,u(ci)為ci的重要性得分,u(cj)為cj的重要性得分,μ是平滑因子,Mij表示ci與cj的相似度,N為謂詞論元總數(shù)。

優(yōu)選地,所述根據(jù)所述每一個(gè)謂詞論元的重要性得分,生成目標(biāo)語(yǔ)言摘要,具體包括:

根據(jù)每一個(gè)謂詞論元的重要性得分、謂詞論元生成目標(biāo)語(yǔ)言摘要的目標(biāo)函數(shù)以及約束集合,選取符合的謂詞論元集合;

將所述謂詞論元集合中的各個(gè)謂詞論元構(gòu)成所述目標(biāo)語(yǔ)言摘要。

優(yōu)選地,所述步驟1之前還包括:

對(duì)多個(gè)請(qǐng)求語(yǔ)言文檔進(jìn)行翻譯,得到多個(gè)統(tǒng)一為目標(biāo)語(yǔ)言的目標(biāo)語(yǔ)言文檔。

與現(xiàn)有技術(shù)相比,本發(fā)明至少具有以下優(yōu)點(diǎn):

通過(guò)本發(fā)明中的多語(yǔ)言自動(dòng)文摘設(shè)計(jì),實(shí)現(xiàn)了獲取指定語(yǔ)言的摘要,且在保證該摘要含有更多的重要信息的信息量時(shí),提高可讀性。

附圖說(shuō)明

圖1是本發(fā)明提出的多語(yǔ)言自動(dòng)文摘方法的流程示意圖;

圖2是本發(fā)明提供的語(yǔ)義角色標(biāo)注的實(shí)例示意圖;

圖3是本發(fā)明提出的是通過(guò)融合謂詞論元結(jié)構(gòu)生成摘要的示意圖;其中,(a)、(b)和(c)來(lái)自輸入文檔;(d)是(c)的機(jī)器翻譯譯文;(e)是最終生成的摘要。

具體實(shí)施方式

下面參照附圖來(lái)描述本發(fā)明的優(yōu)選實(shí)施方式。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,這些實(shí)施方式僅僅用于解釋本發(fā)明的技術(shù)原理,并非旨在限制本發(fā)明的保護(hù)范圍。

在本發(fā)明中,提供了一種多語(yǔ)言自動(dòng)文摘方法,該多語(yǔ)言包含了目標(biāo)語(yǔ)言和非目標(biāo)語(yǔ)言,如圖1所示,具體包括如下步驟:

步驟101,獲取多個(gè)目標(biāo)語(yǔ)言文檔中的多個(gè)謂詞論元結(jié)構(gòu)。

在本步驟之前,還包括:

對(duì)多個(gè)請(qǐng)求語(yǔ)言文檔進(jìn)行翻譯,得到多個(gè)統(tǒng)一為目標(biāo)語(yǔ)言的目標(biāo)語(yǔ)言文檔;即將非目標(biāo)語(yǔ)言文檔全部翻譯為目標(biāo)語(yǔ)言文檔。其中,該翻譯可以是通過(guò)機(jī)器翻譯,可以使用本地機(jī)器翻譯系統(tǒng),或者在線機(jī)器翻譯,例如百度翻譯,但并不僅局限于該種翻譯方式。

本步驟中,在獲取謂詞論元結(jié)構(gòu)時(shí),依據(jù)語(yǔ)義角色標(biāo)注處理,將原句劃分為多個(gè)謂詞、論元,利用重要謂詞和論元構(gòu)成摘要。語(yǔ)義角色標(biāo)注是一種自然語(yǔ)言處理領(lǐng)域的淺層語(yǔ)義分析技術(shù)。它以句子為單位,分析句子中的謂詞與其相關(guān)成分之間的語(yǔ)義關(guān)系,進(jìn)而獲取句子所表達(dá)語(yǔ)義的淺層表示。由于語(yǔ)義角色標(biāo)注可以提供較為簡(jiǎn)潔、準(zhǔn)確、有益的分析結(jié)果,因此近年來(lái)受到了學(xué)術(shù)界的普遍重視,并已經(jīng)成功地應(yīng)用到信息抽取、自動(dòng)問(wèn)答、機(jī)器翻譯等任務(wù)中。

語(yǔ)義角色標(biāo)注以句子中的謂詞為核心,分析句子中的其相關(guān)成分與謂詞之間的相互關(guān)系,因此謂詞在句子的語(yǔ)義表達(dá)中處于核心的支配地位,其它成分均為謂詞服務(wù)。一個(gè)謂詞代表了一個(gè)事件,而與謂詞相關(guān)的句子成分通常代表與事件相關(guān)的成分,比如該事件的施事者、受事者,以及事件發(fā)生的時(shí)間、地點(diǎn)、方式、原因等。在語(yǔ)義角色標(biāo)注任務(wù)中,上述與事件相關(guān)的成分被稱為謂詞的一個(gè)論元,而且每個(gè)論元都有一個(gè)相對(duì)于謂詞的語(yǔ)義角色,比如施事者、受事者。下面是一個(gè)語(yǔ)義角色標(biāo)注的例子:

[警方]Agent[正在]Time[詳細(xì)]Adverbial[調(diào)查]Pred[事故原因]Patient

其中“調(diào)查”是謂詞,代表了一個(gè)事件,“警方”是施事者,“事故原因”是受事者,“正在”是事件發(fā)生的時(shí)間,“詳細(xì)”是事件的修飾語(yǔ)。由此可見(jiàn),語(yǔ)義角色標(biāo)注能夠抽取出一個(gè)句子表達(dá)的事件的全部重要信息。

命題庫(kù)(Proposition Bank,Prop Bank)是受到語(yǔ)義角色與句法信息的研究啟發(fā)而建立的。命題庫(kù)把語(yǔ)義角色分為兩大類。第一類語(yǔ)義角色是與具體謂詞直接相關(guān)的,這些角色用ARG0,ARG2,ARG3,ARG4,ARG5表示,比如ARG0通常表示動(dòng)作的施事,ARG1通常表示動(dòng)作的影響等,ARG2-ARG5對(duì)于不同的謂語(yǔ)動(dòng)詞會(huì)有不同的語(yǔ)義含義;第二類語(yǔ)義角色是起修飾作用的輔助性角色,其角色標(biāo)簽都以ARGM開(kāi)頭,常見(jiàn)的有表示時(shí)間的角色ARGM-TMP,表示地理位置的角色ARGM-LOC,表示一般性修飾成分的角色ARGM-ADV等。如圖2所示,是三個(gè)標(biāo)注實(shí)例。對(duì)于每一個(gè)至少包含一個(gè)ARG0和一個(gè)ARG1的謂詞論元結(jié)構(gòu),我們提取其謂詞,ARG0,ARG1,ARGM-LOC和ARGM-TMP作為謂詞和重要論元,用于構(gòu)建摘要。其他論元,比如ARG3-5,ARGM-MOD和ARGM-ADV等被認(rèn)為是次要論元,不參與摘要構(gòu)建。

步驟102,對(duì)所述多個(gè)謂詞論元結(jié)構(gòu)中的每一個(gè)謂詞論元進(jìn)行重要性打分。

在該步驟中,具體包括:

步驟201,計(jì)算組成所述謂詞論元的詞向量的加權(quán)平均數(shù),得到所述謂詞論元的短語(yǔ)向量;其中,利用Word2Vec工具在大規(guī)模中文單語(yǔ)語(yǔ)料上訓(xùn)練300維的詞向量;對(duì)于每一個(gè)謂詞論元,我們將組成其謂詞或論元的詞的向量相加,取平均,作為該謂詞論元的短語(yǔ)向量;

步驟202,根據(jù)所述謂詞論元的短語(yǔ)向量計(jì)算所述謂詞論元結(jié)構(gòu)中謂詞論元的相似度;其中,例如用余弦相似度計(jì)算論元和謂詞的之間的相似度;所述根據(jù)所述謂詞論元的短語(yǔ)向量計(jì)算所述謂詞論元結(jié)構(gòu)中謂詞論元的相似度,具體包括:

在所有的目標(biāo)語(yǔ)言文檔中分別任選一個(gè)謂詞論元,根據(jù)各自的短語(yǔ)向量計(jì)算這兩個(gè)謂詞論元的語(yǔ)義相似度,直至所有目標(biāo)語(yǔ)言文檔中的所有謂詞論元均任意兩個(gè)計(jì)算完相似度為止。

步驟203,利用所述相似度獲取來(lái)自不同語(yǔ)言的語(yǔ)義相同的謂詞論元;

該步驟具體包括:

當(dāng)所述來(lái)自不同目標(biāo)語(yǔ)言文檔的兩個(gè)謂詞論元之間的相似度大于預(yù)設(shè)閾值時(shí),確認(rèn)所述相似度所屬的來(lái)自不同目標(biāo)語(yǔ)言文檔的謂詞論元語(yǔ)義相同。

進(jìn)一步地,對(duì)于所有的跨語(yǔ)言的(謂詞,謂詞)、(論元,論元)、(謂詞,論元)對(duì),如果其相似度大于某閾值,我們認(rèn)為其是語(yǔ)義相同的。該閾值可以通過(guò)在MSR語(yǔ)料測(cè)試獲得。MSR語(yǔ)料是一個(gè)釋義句語(yǔ)料庫(kù),一共含有5801個(gè)句對(duì),其中3900個(gè)句對(duì)是語(yǔ)義相同的。

步驟204,根據(jù)所述相似度計(jì)算謂詞論元的重要性得分。

本步驟中,利用改進(jìn)的PageRank算法進(jìn)行重要性得分計(jì)算;

PageRank算法通過(guò)迭代遞歸計(jì)算來(lái)更新每個(gè)謂詞論元的重要性得分,直到得分穩(wěn)定為止。具體的計(jì)算公式如下:

其中,ci和cj為任意謂詞論元,u(ci)為ci的重要性得分,u(cj)為cj的重要性得分,μ是平滑因子,Mij表示ci與cj的相似度,N為謂詞論元總數(shù)。當(dāng)來(lái)自目標(biāo)語(yǔ)言文檔的謂詞論元ci和非目標(biāo)語(yǔ)言的謂詞論元cj語(yǔ)義相同時(shí),Mij被置零。

利用上述公式,可以分別計(jì)算每一個(gè)謂詞論元ci的得分,通過(guò)迭代計(jì)算,直到迭代計(jì)算結(jié)果穩(wěn)定時(shí)得到各謂詞論元的最終的重要性得分。

為了提高摘要的可讀性,對(duì)于在那些能夠在非譯文文檔中找到語(yǔ)義對(duì)應(yīng)的譯文論元,本發(fā)明傾向于選擇非譯文論元(指的該語(yǔ)言文檔的語(yǔ)言為目標(biāo)語(yǔ)言),而那些無(wú)法在非譯文文檔找到語(yǔ)義對(duì)應(yīng)的譯文論元的不受影響。圖3是一個(gè)實(shí)例,其中(a)(b)來(lái)自中文文檔,(c)來(lái)自英文文檔,(d)是(c)的機(jī)器翻譯譯文,不難發(fā)現(xiàn),(d)的翻譯存在錯(cuò)誤,例如將“Turkey would not apologize over the downing of the plane.”翻譯為“土耳其不會(huì)對(duì)飛機(jī)倒塌表示歉意”(準(zhǔn)確的譯文應(yīng)該是“土耳其不會(huì)對(duì)飛機(jī)墜落道歉”)。(a)中的ARG1——“土耳其拒絕為擊落俄羅斯戰(zhàn)機(jī)事件道歉”表達(dá)了相同的含義。在給論元打分時(shí),我們傾向于給(a)的ARG1更高的得分,而(d)的ARG1較低得分。

為了實(shí)現(xiàn)該目的,本發(fā)明對(duì)傳統(tǒng)的PageRank算法提出以下修改:將不同語(yǔ)言之間的、語(yǔ)義相同的謂詞或論元之間連接權(quán)重改為單向,即將該權(quán)重由譯文一側(cè)指向非譯文一側(cè),從而鼓勵(lì)非譯文謂詞或論元獲得更高的得分,同時(shí),那些無(wú)法在非譯文文檔找到語(yǔ)義對(duì)應(yīng)的重要的譯文論元的得分不受影響。

為了實(shí)現(xiàn)這一目標(biāo),我們提出一種引導(dǎo)排序的策略,修改跨語(yǔ)言謂詞或論元之間的相似度矩陣。對(duì)于Mij,我們可以理解為cj傳遞給ci的得分權(quán)重,當(dāng)ci來(lái)自譯文文檔,而cj來(lái)自于非譯文文檔,并且cj和ci語(yǔ)義相同時(shí),相比于ci,cj應(yīng)該具有更高的得分,即ci應(yīng)該把權(quán)重傳遞給cj,cj不應(yīng)該把權(quán)重傳遞給ci,即,Mij=0(語(yǔ)義相同),Mji保持不變。而對(duì)于那些在非譯文文檔中找不到語(yǔ)義相同的譯文謂詞或論元,其與非譯文謂詞和論元的相似度矩陣不變。

步驟103,根據(jù)所述每一個(gè)謂詞論元的重要性得分,生成目標(biāo)語(yǔ)言摘要。

本步驟具體包括:

根據(jù)每一個(gè)謂詞論元的重要性得分、謂詞論元生成目標(biāo)語(yǔ)言摘要的目標(biāo)函數(shù)以及約束集合,選取符合的謂詞論元集合;

將所述謂詞論元集合中的各個(gè)謂詞論元構(gòu)成所述目標(biāo)語(yǔ)言摘要。

在本步驟中,還利用了整數(shù)線性規(guī)劃。我們將ARG0記做AG(Agent,實(shí)施者),將謂詞+ARG1(+ARG2)記做CF(Core Fact,核心事實(shí)),將ARGM-TMP和ARGM-LOC記做AF(Auxiliary Fact,輔助事實(shí)),利用步驟3獲得的謂詞和論元,通過(guò)整數(shù)線性規(guī)劃生成摘要該過(guò)程,即是選取重要并且冗余度低的AG、CF和AF集合,利用這些選中的AG、CF和AF組成新句子的過(guò)程。該過(guò)程分為4個(gè)子步驟,分別是:

(1)定義抽取用于生成摘要的論元和謂詞的目標(biāo)函數(shù);

(2)定義語(yǔ)法約束、共現(xiàn)約束和長(zhǎng)度約束;

(3)通過(guò)整數(shù)線性規(guī)劃,選取最大化目標(biāo)函數(shù)且滿足約束的論元和謂詞集合;

(4)將選中的論元和謂詞組成合法的句子。

對(duì)于子步驟(1),該目標(biāo)函數(shù)對(duì)論元或謂詞的重要性得分進(jìn)行獎(jiǎng)勵(lì),同時(shí),對(duì)被選中的謂詞和論元相似度進(jìn)行懲罰。具體如下式:

上式中,和分別表示AGi、CFi和AFi的重要性得分;αi、βi和γi分別表示AGi、CFi和AFi是否被選中;αij表示AGi和AGj是否被同時(shí)選中,βij表示CFi和CFj是否被同時(shí)選中,γij表示AFi和AFj是否被同時(shí)選中;和表示AG,CF和AF間的余弦相似度;λ是對(duì)冗余性的懲罰因子,取0.01。

對(duì)于子步驟(2),語(yǔ)法約束如下:

為了使得選中的謂詞和論元能夠構(gòu)成合法的句子,即AG,CF和AF集合能構(gòu)成合法的句子,被選中的AG,CF和AF必須滿足語(yǔ)法約束,即:

每個(gè)被選中的AG必須都能在原文檔中找到搭配過(guò)的CF;

每個(gè)被選中的CF必須都能在原文檔中找到搭配過(guò)的AG;

每個(gè)被選中的AF必須都能在原文檔中找到搭配過(guò)的CF;

只有滿足以上三個(gè)條件,被選中的AG,CF和AF最終才能構(gòu)成形如“AGiCFjAFk”的摘要句子。

共現(xiàn)約束如下:

當(dāng)αij=1時(shí),αi和αj必須同時(shí)為1;當(dāng)αi和αj其中至少有一個(gè)不為1時(shí),αij必須為0。

同理,當(dāng)βij=1時(shí),βi和βj必須同時(shí)為1;當(dāng)βi和βj其中至少有一個(gè)不為1時(shí),βij必須為0。當(dāng)γij=1時(shí),γi和γj必須同時(shí)為1;當(dāng)γi和γj其中至少有一個(gè)不為1時(shí),γij必須為0。

長(zhǎng)度約束如下:

為了公平的評(píng)價(jià)不同的生成摘要方法,最終生成的摘要必須滿足長(zhǎng)度限制,如本實(shí)驗(yàn)定義的400個(gè)漢字。

對(duì)于子步驟(3),通過(guò)以上兩個(gè)子步驟定義的目標(biāo)函數(shù)和約束條件,我們可以利用整數(shù)線性規(guī)劃選取重要且冗余性低的AG,CF和AF集合。我們使用lp_solve工具包解決整數(shù)線性規(guī)劃問(wèn)題。

對(duì)于子步驟(4),按照原文檔中出現(xiàn)過(guò)的謂詞和論元的搭配,將這些論元和謂詞融合為新句子作為摘要。對(duì)于那些出現(xiàn)在不同原文檔中摘要句子,按照原文檔的日期先后排序;對(duì)于那些出現(xiàn)在相同原文檔中摘要句子,按照其出現(xiàn)在原文檔中的先后排序。

5.實(shí)驗(yàn)設(shè)置

5.1.實(shí)驗(yàn)數(shù)據(jù)集

在實(shí)驗(yàn)中我們利用自己標(biāo)注的多語(yǔ)言自動(dòng)文摘數(shù)據(jù)集驗(yàn)證本發(fā)明的可行性。本數(shù)據(jù)集含有15個(gè)文檔集合,每個(gè)集合對(duì)應(yīng)一個(gè)2015年的熱門新聞話題,每個(gè)集合包含20篇中文新聞和20篇英文新聞,平均每個(gè)集合含有447個(gè)中文句子,513個(gè)英文句子。平均每個(gè)中文文檔含有556個(gè)詞語(yǔ),每個(gè)英文文檔含有590個(gè)單詞。一共有九個(gè)標(biāo)注者參與了數(shù)據(jù)集的標(biāo)注,即生成人工摘要。對(duì)于每個(gè)集合,三個(gè)標(biāo)注者分別生成一份400個(gè)字左右的中文摘要。

5.2.對(duì)比實(shí)驗(yàn)

我們?cè)O(shè)計(jì)了以下三種對(duì)比的基線系統(tǒng),這些對(duì)比實(shí)驗(yàn)均沒(méi)有采用引導(dǎo)排序的策略。

(1)中文基線系統(tǒng):該基線系統(tǒng)只使用中文文檔生成中文摘要。

(2)英文基線系統(tǒng):該基線系統(tǒng)只使用英文譯文文檔生成中文摘要。

(3)中、英文基線系統(tǒng):該基線系統(tǒng)使用中文和英文譯文文檔生成中文摘要。

5.3.評(píng)價(jià)指標(biāo)

通過(guò)計(jì)算生成摘要與參考摘要(人工生成摘要)的內(nèi)容的重合度,自動(dòng)評(píng)價(jià)生成摘要的質(zhì)量。Lin對(duì)摘要自動(dòng)評(píng)測(cè)做了大量工作,他參考機(jī)器翻譯中BLEU方法的提出ROUGE。Lin的評(píng)測(cè)方法里使用最廣的是ROUGE的各種變體,如ROUGE-N(N取1-5),ROUGE-L,以及ROUGE-SU4。本實(shí)驗(yàn)中,采用了使用較為廣泛的ROUGE-1,ROUGE-2和ROUGE-SU4等指標(biāo)對(duì)生成摘要進(jìn)行評(píng)測(cè)。

5.4.實(shí)驗(yàn)結(jié)果

附表1給出了不同系統(tǒng)的多語(yǔ)言自動(dòng)摘要的ROUGE得分。我們可以看到在三個(gè)基線系統(tǒng)中,英文基線系統(tǒng)表現(xiàn)最差,中文基線系統(tǒng)表現(xiàn)最好,中、英文基線系統(tǒng)介于兩者之間。雖然中、英文基線系統(tǒng)輸入的信息量最大,但是英文譯文翻譯錯(cuò)誤影響了可讀性。本發(fā)明提出的方法,平衡了信息量和可讀性,取得了優(yōu)于所有基線系統(tǒng)的結(jié)果。

表1多語(yǔ)言自動(dòng)文摘結(jié)果

本發(fā)明的積極效果:

針對(duì)多語(yǔ)言的文檔集合,本發(fā)明可以幫助用戶獲取該多種語(yǔ)言中的指定語(yǔ)言的摘要。由于機(jī)器翻譯的譯文可讀性較差,直接將機(jī)器翻譯譯文和非譯文文檔合并到一起做摘要,會(huì)影響其可讀性。如果不使用機(jī)器翻譯譯文,雖然可讀性會(huì)得到保證,譯文文檔的信息量卻會(huì)損失。本發(fā)明通過(guò)檢測(cè)語(yǔ)義相同的不同語(yǔ)言的文本片段,指導(dǎo)論元的打分,使得那些能夠在非譯文文檔中找到語(yǔ)義對(duì)應(yīng)的譯文論元的權(quán)重傾向于積累到其對(duì)應(yīng)的非譯文論元,而那些無(wú)法在非譯文文檔找到語(yǔ)義對(duì)應(yīng)的譯文論元的權(quán)重不受影響,仍然有機(jī)會(huì)被選中為重要論元,最終參與生成摘要。本發(fā)明能夠在利用譯文文檔保證信息量的同時(shí),提高可讀性。在我們自己標(biāo)注的中英多語(yǔ)言自動(dòng)文摘數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,本發(fā)明超越了其他方法,證明了基于本發(fā)明的有效性和優(yōu)越性。

本領(lǐng)域技術(shù)人員應(yīng)該能夠意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的模塊、及方法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn),為了清楚地說(shuō)明電子硬件和軟件的可互換性,在上述說(shuō)明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以電子硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。本領(lǐng)域技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。

至此,已經(jīng)結(jié)合附圖所示的優(yōu)選實(shí)施方式描述了本發(fā)明的技術(shù)方案,但是,本領(lǐng)域技術(shù)人員容易理解的是,本發(fā)明的保護(hù)范圍顯然不局限于這些具體實(shí)施方式。在不偏離本發(fā)明的原理的前提下,本領(lǐng)域技術(shù)人員可以對(duì)相關(guān)技術(shù)特征作出等同的更改或替換,這些更改或替換之后的技術(shù)方案都將落入本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1