亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

中文文本摘要生成系統(tǒng)及方法與流程

文檔序號:12802542閱讀:821來源:國知局
中文文本摘要生成系統(tǒng)及方法與流程

本發(fā)明涉及文本數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種中文文本摘要生成系統(tǒng)及方法。



背景技術(shù):

文本摘要生成和總結(jié)是一個(gè)最近隨著大數(shù)據(jù)而出現(xiàn)的科研技術(shù)難題。因?yàn)殡S著數(shù)據(jù)的爆炸性產(chǎn)生,特別是文本數(shù)據(jù),人們已經(jīng)無法及時(shí)瀏覽和理解所有感興趣的相關(guān)文本,但遺漏某些重要的文本信息又會造成很多組織和應(yīng)用的損失。因此文本摘要自動歸納總結(jié)是實(shí)際應(yīng)用中非常需要的應(yīng)用面非常廣的一項(xiàng)技術(shù)。比如,用戶對商家的評論總結(jié),自動新聞?wù)漠a(chǎn)生。

目前大部分中文文章摘要自動產(chǎn)生工具的工作方式是進(jìn)行關(guān)鍵字式的片段提取形成文章總結(jié)或摘要。它們主要的方法是尋找文章中的關(guān)鍵字。然后選取含有關(guān)鍵字較多的句子形成摘要。這些方法的主要缺點(diǎn)是不能概括全文,摘要中的句子直接沒有很好的自然銜接。最重要的是這些方法都沒有真正的理解文章用自己理解后的語言組織成摘要。具體來說,目前主流技術(shù)的步驟如下:

1、將原文本拆分為句子,在每個(gè)句子中過濾掉停用詞(可選),并只保留指定詞性的單詞(可選)。由此可以得到句子的集合和單詞的集合。每個(gè)單詞作為關(guān)聯(lián)圖中的一個(gè)節(jié)點(diǎn)。設(shè)定窗口大小為k,假設(shè)一個(gè)句子依次由下面的單詞組成:w1,w2,w3,w4,w5,...,wn,其中{w1,w2,...,wk},{w2,w3,...,wk+1},{w3,w4,...,wk+2}等都是一個(gè)窗口。在一個(gè)窗口中的任兩個(gè)單詞對應(yīng)的節(jié)點(diǎn)之間存在一個(gè)無向無權(quán)的邊?;谏厦鏄?gòu)成圖,可以計(jì)算出每個(gè)單詞節(jié)點(diǎn)的重要性。最重要的若干單詞可以作為關(guān)鍵詞。

2、接著是關(guān)鍵短語提取。若原文本中存在若干個(gè)關(guān)鍵詞相鄰的情況,那么這些關(guān)鍵詞可以構(gòu)成一個(gè)關(guān)鍵詞組。例如,在一篇介紹支持向量機(jī)的文章中,可以找到關(guān)鍵詞支持、向量、機(jī),通過關(guān)鍵詞組提取,可以得到支持向量機(jī)。

3、最后是摘要的生成。將每個(gè)句子看成圖中的一個(gè)節(jié)點(diǎn),若兩個(gè)句子之間有相似性,認(rèn)為對應(yīng)的兩個(gè)節(jié)點(diǎn)之間有一個(gè)無向有權(quán)邊,權(quán)值是相似度。通過某種算法計(jì)算得到的重要性最高的若干句子可以當(dāng)作摘要。

另外有些方法針對部分特別的結(jié)構(gòu)化的文本,比如網(wǎng)頁,xml等。這些技術(shù)利用這些結(jié)構(gòu)信息,去估計(jì)某些關(guān)鍵位置或關(guān)鍵標(biāo)簽下的句子。最后將這些系統(tǒng)認(rèn)為重要的句子組合成摘要。其主要缺點(diǎn)是不能概括全文,沒有真正的理解文章用自己理解后的語言組織成摘要。除以上缺點(diǎn)之外,目前主流的文本摘要方法都有人為特征定制和提取的工作。

本發(fā)明是基于深度學(xué)習(xí)的seq2seq技術(shù),全稱sequencetosequence。該技術(shù)突破了傳統(tǒng)的固定大小輸入問題框架,開通了將經(jīng)典深度神經(jīng)網(wǎng)絡(luò)模型(dnns)運(yùn)用于翻譯與智能問答這一類序列型(sequencebased,項(xiàng)目間有固定的先后關(guān)系)任務(wù)的先河,并被證實(shí)在翻譯以及人機(jī)短問快答的應(yīng)用中有著不俗的表現(xiàn)。首先簡單介紹下seq2seq模型。

seq2seq被提出于2014年,最早由兩篇文章獨(dú)立地闡述了它主要思想,分別是googlebrain團(tuán)隊(duì)的《sequencetosequencelearningwithneuralnetworks》和yoshuabengio團(tuán)隊(duì)的《learningphraserepresentationusingrnnencoder-decoderforstatisticalmachinetranslation》。這兩篇文章針對機(jī)器翻譯的問題不謀而合地提出了相似的解決思路,seq2seq由此產(chǎn)生。seq2seq解決問題的主要思路是通過深度神經(jīng)網(wǎng)絡(luò)模型(常用的是lstm,長短記憶網(wǎng)絡(luò),一種循環(huán)神經(jīng)網(wǎng)絡(luò))將一個(gè)作為輸入的序列映射為一個(gè)作為輸出的序列,這一過程由編碼輸入與解碼輸出兩個(gè)環(huán)節(jié)組成。seq2seq基礎(chǔ)模型當(dāng)應(yīng)用于文檔歸納時(shí),它需要有獨(dú)特的創(chuàng)新的變化,才能更好的解決特定問題。那么在文檔歸納時(shí),除了通常的seq2seq模型需要處理的問題以外,還需要以下注意幾個(gè)關(guān)鍵特點(diǎn):1、文章中句子的主題連續(xù)性;2、文章中句子之間的含義跳轉(zhuǎn);3、文章中段落之間的核心關(guān)系。這些現(xiàn)有技術(shù)中都沒有得以解決。



技術(shù)實(shí)現(xiàn)要素:

發(fā)明目的:本發(fā)明針對現(xiàn)有技術(shù)存在的問題,提供一種中文文本摘要生成系統(tǒng)及方法。

技術(shù)方案:本發(fā)明所述的中文文本摘要生成系統(tǒng)包括預(yù)處理模塊、詞匯理解模塊、句子理解模塊、段落理解模塊和摘要自動生成模塊,其中:

所述預(yù)處理模塊,用于將原始文本進(jìn)行分詞,并對每個(gè)詞都形成對應(yīng)的原始詞向量;

所述詞匯理解模塊,用于按將原始詞向量集合作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,得到對應(yīng)詞匯的具有上下文背景信息的詞向量;

所述句子理解模塊,用于將具有上下文背景信息的詞向量轉(zhuǎn)換為句子向量,并將句子向量集合作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,得到對應(yīng)句子的具有上下文背景信息的句子向量;

所述段落理解模塊,用于將句子向量轉(zhuǎn)換為段落向量,并將段落向量集合作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行處理,得到對應(yīng)段落的具有上下文背景信息的段落向量;

所述摘要自動生成模塊,用于將詞匯理解模塊生成的詞向量、句子理解模塊生成的句子向量和段落理解模塊生成的段落向量連接成一個(gè)總向量,并作為seq2seq模型中解碼序列rnn的原始狀態(tài),采用seq2seq模型進(jìn)行逐字逐句的輸出,得到文章摘要。

進(jìn)一步的,所述預(yù)處理模塊具體用于將原始文本進(jìn)行分詞,并將分詞后得到的每個(gè)詞匯都形成一個(gè)原始詞向量,并按順序排列得到原始詞向量集合w={wiw|iw=1,2,…,nw},。

進(jìn)一步的,所述詞匯理解模塊具體用于按將原始詞向量集合w={wiw|iw=1,2,…,nw}作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)詞匯的具有上下文背景信息的詞向量wbiw,,形成詞向量集合wb={wbiw|iw=1,2,…,nw},wiw表示第i個(gè)詞向量,nw表示詞向量總個(gè)數(shù)。

進(jìn)一步的,所述句子理解模塊具體用于按照原始文本中句子的詞匯組成方式,將詞向量集合wb轉(zhuǎn)換為句子向量集合s={sis|is=1,2,…,ns},并將句子向量集合s作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)句子的具有上下文背景信息的句子向量sbis,,形成句子向量集合sb={sbis|is=1,2,…,ns},其中,ns表示句子向量總個(gè)數(shù)。

進(jìn)一步的,所述段落理解模塊具體用于按照原始文本中段落的句子組成方式,將句子向量集合sb轉(zhuǎn)換為段落向量集合p={pip|ip=1,2,…,np},并將段落向量集合p作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)段落的具有上下文背景信息的段落向量pbip,,形成段落向量集合pb={pbip|ip=1,2,…,np},np表示段落向量總個(gè)數(shù)。

本發(fā)明所述的中文文本摘要生成方法包括以下步驟:

(1)將原始文本進(jìn)行分詞,并對每個(gè)詞都形成對應(yīng)的原始詞向量;

(2)按將原始詞向量集合作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,得到對應(yīng)詞匯的具有上下文背景信息的詞向量;

(3)將具有上下文背景信息的詞向量轉(zhuǎn)換為句子向量,并將句子向量集合作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行處理,得到對應(yīng)句子的具有上下文背景信息的句子向量;

(4)將句子向量轉(zhuǎn)換為段落向量,并將段落向量集合作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行處理,得到對應(yīng)段落的具有上下文背景信息的段落向量;

(5)將步驟(2)生成的詞向量、步驟(3)生成的句子向量和步驟(4)生成的段落向量連接成一個(gè)總向量,并作為seq2seq模型中解碼序列rnn的原始狀態(tài),采用seq2seq模型進(jìn)行逐字逐句的輸出,得到文章摘要。

進(jìn)一步的,步驟(1)具體包括:

將原始文本進(jìn)行分詞,并將分詞后得到的每個(gè)詞匯都形成一個(gè)原始詞向量,并按順序排列得到原始詞向量集合w={wiw|iw=1,2,…,nw},wiw表示第i個(gè)詞向量,nw表示詞向量總個(gè)數(shù)。

進(jìn)一步的,步驟(2)具體包括:按將原始詞向量集合w作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)詞匯的具有上下文背景信息的詞向量wbiw,,形成詞向量集合wb={wbiw|iw=1,2,…,nw}。

進(jìn)一步的,步驟(3)具體包括:按照原始文本中句子的詞匯組成方式,將詞向量集合wb轉(zhuǎn)換為句子向量集合s={sis|is=1,2,…,ns},并將句子向量集合s作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)句子的具有上下文背景信息的句子向量sbis,,形成句子向量集合sb={sbis|is=1,2,…,ns},其中,ns表示句子向量總個(gè)數(shù)。

進(jìn)一步的,步驟(4)具體包括:按照原始文本中段落的句子組成方式,將句子向量集合sb轉(zhuǎn)換為段落向量集合p={pip|ip=1,2,…,np},并將段落向量集合p作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)段落的具有上下文背景信息的段落向量pbip,,形成段落向量集合pb={pbip|ip=1,2,…,np},np表示段落向量總個(gè)數(shù)。

有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn)是:本發(fā)明模仿人類去通讀全文,深層次理解文章總體含義。它的工作方式是模擬人類大腦的神經(jīng)元,在每讀入一個(gè)字的時(shí)候,會聯(lián)系上下文形成短語,聯(lián)系前后句子形成概要性的記憶。該記憶是選擇性和持續(xù)更新的。當(dāng)讀完整片文章后,它的記憶里保留了對整個(gè)文章的一個(gè)深度理解概念。最后,它在通過序列化的輸出字詞序列,形成總結(jié)和摘要。再加上系統(tǒng)過去閱讀的大量文獻(xiàn)所形成的廣義的基本常識,系統(tǒng)能夠更加全面的總結(jié)摘要。

附圖說明

圖1是本發(fā)明的中文文本摘要生成系統(tǒng)的系統(tǒng)框圖;

圖2是本發(fā)明的流程示意圖。

具體實(shí)施方式

如圖1和圖2所示,本實(shí)施例的中文文本摘要生成系統(tǒng)包括預(yù)處理模塊、詞匯理解模塊、句子理解模塊、段落理解模塊和摘要自動生成模塊,其中:

所述預(yù)處理模塊,用于將原始文本進(jìn)行分詞,并將分詞后得到的每個(gè)詞匯都形成一個(gè)原始詞向量,并按順序排列得到原始詞向量集合w={wiw|iw=1,2,…,nw},wiw表示第i個(gè)詞向量,nw表示詞向量總個(gè)數(shù);其中,分詞具體采用的是現(xiàn)有技術(shù)中的分詞方法,詞匯都形成原始詞向量的方法也是現(xiàn)有技術(shù)的方法,例如cbow模型。

所述詞匯理解模塊,用于將每個(gè)詞匯的原始詞向量wiw作為一個(gè)神經(jīng)單元,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)詞匯的具有上下文背景信息的詞向量wbiw,,形成詞向量集合wb={wbiw|iw=1,2,…,nw}。其中,該模塊的雙向長短期記憶神經(jīng)網(wǎng)絡(luò)的主要用途是讓系統(tǒng)按順序通讀文章中每個(gè)詞。雙向是指從前往后和從后往前2個(gè)方向。遞歸網(wǎng)絡(luò)在第t個(gè)時(shí)間步的判定會影響其在隨后的時(shí)間步的判定。所以遞歸網(wǎng)絡(luò)有來自當(dāng)下和不久之前的兩種輸入,此二者的結(jié)合決定了網(wǎng)絡(luò)對于新數(shù)據(jù)如何反應(yīng),與人類日常生活中的情形頗為相似。遞歸網(wǎng)絡(luò)與前饋網(wǎng)絡(luò)的區(qū)別便在于這種不斷將自身上一刻輸出當(dāng)作輸入的反饋循環(huán)。人們常說遞歸網(wǎng)絡(luò)是有記憶的。為神經(jīng)網(wǎng)絡(luò)添加記憶的目的在于:序列本身即帶有信息,而遞歸網(wǎng)絡(luò)能利用這種信息完成前饋網(wǎng)絡(luò)無法完成的任務(wù)。這些順序信息保存在遞歸網(wǎng)絡(luò)隱藏狀態(tài)中,不斷向前層層傳遞,跨越許多個(gè)時(shí)間步,影響每一個(gè)新樣例的處理。人類記憶會在體內(nèi)不斷進(jìn)行不可見的循環(huán),對我們的行為產(chǎn)生影響而不顯現(xiàn)出完整樣貌,而信息也同樣會在遞歸網(wǎng)絡(luò)的隱藏狀態(tài)中循環(huán)。用數(shù)學(xué)形式來描述將記憶向前傳遞的過程是:

ht=φ(wxt+uht-1),

即第t個(gè)時(shí)間步的隱藏狀態(tài)ht是同一時(shí)間步的輸入xt的函數(shù),由一個(gè)權(quán)重矩陣w(和在前饋網(wǎng)絡(luò)中使用的一樣)修正,加上前一時(shí)間步的隱藏狀態(tài)ht-1乘以它自己的隱藏狀態(tài)到隱藏狀態(tài)的矩陣u(或稱過渡矩陣,與馬爾可夫鏈近似)。其中φ是一個(gè)激活函數(shù),常用sigmoid函數(shù)。權(quán)重矩陣w是決定賦予當(dāng)前輸入及過去隱藏狀態(tài)多少重要性的篩選器。它們所產(chǎn)生的誤差將會通過反向傳播返回,用于調(diào)整權(quán)重,直到誤差不能再降低為止。權(quán)重輸入與隱藏狀態(tài)之和用函數(shù)進(jìn)行擠壓-可能是邏輯s形函數(shù)(sigmoid函數(shù))或雙曲正切函數(shù),視具體情況而定-這是將很大或很小的值壓縮至一個(gè)邏輯空間內(nèi)的標(biāo)準(zhǔn)工具,同時(shí)也用于產(chǎn)生反向傳播所能接受的梯度。由于這一反饋循環(huán)會在系列的每一個(gè)時(shí)間步發(fā)生,每一個(gè)隱藏狀態(tài)不僅僅跟蹤前一個(gè)隱藏狀態(tài),還包括了記憶能力范圍內(nèi)所有在之前的狀態(tài)。若輸入一系列字母,則遞歸網(wǎng)絡(luò)必定會根據(jù)第一個(gè)字符來決定對第二個(gè)字符的感知,例如,第一個(gè)字母如果是x,網(wǎng)絡(luò)就可能推斷下一個(gè)字母是y,而第一個(gè)字母如果是a,則網(wǎng)絡(luò)可能推斷下一個(gè)字母是b。由于遞歸網(wǎng)絡(luò)具有時(shí)間維度,所以可能用動畫示意最為清楚(最先出現(xiàn)的節(jié)點(diǎn)垂直線可被視為一個(gè)前饋網(wǎng)絡(luò),隨時(shí)間展開后變?yōu)檫f歸網(wǎng)絡(luò))。通過正向和反向的處理,最后就得到了包含前面和后面相關(guān)的語境上下文的詞向量。

所述句子理解模塊,用于按照原始文本中句子的詞匯組成方式,將詞向量集合wb轉(zhuǎn)換為句子向量集合s={sis|is=1,2,…,ns},并將每個(gè)句子向量sis作為一個(gè)神經(jīng)單元,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)句子的具有上下文背景信息的句子向量sbis,,形成句子向量集合sb={sbis|is=1,2,…,ns},其中,ns表示句子向量總個(gè)數(shù)。詞向量集合wb轉(zhuǎn)換的句子向量集合s中句子向量很好的具備了整個(gè)句子的信息和內(nèi)部文字關(guān)系。再通過雙向長短期記憶網(wǎng)絡(luò)里,系統(tǒng)會著重的關(guān)注句子之間的轉(zhuǎn)換或承接。

所述段落理解模塊,用于按照原始文本中段落的句子組成方式,將句子向量集合sb轉(zhuǎn)換為段落向量集合p={pip|ip=1,2,…,np},并將每個(gè)段落向量pip作為一個(gè)神經(jīng)單元,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)段落的具有上下文背景信息的段落向量pbip,,形成段落向量集合pb={pbip|ip=1,2,…,np},np表示段落向量總個(gè)數(shù)。

所述摘要自動生成模塊,用于將詞向量集合wb、句子向量集合sb、段落向量集合pb作為輸入,采用seq2seq模型進(jìn)行逐字逐句的輸出,得到文章摘要。本發(fā)明將3個(gè)向量(詞,句子,段落)連接成一個(gè)大向量,這個(gè)大向量的大小是原來單獨(dú)向量的3倍。然后把這個(gè)合并后的大向量,作為解碼序列rnn的原始狀態(tài),然后逐步逐詞的輸出。其思想起源于“neuralmachinetranslationbyjointlylearningtoalignandtranslate”,但是本創(chuàng)新將它拓展到了中文文本摘要領(lǐng)域,并且為此領(lǐng)域應(yīng)用做了必要的模型修改。seq2seq模型通常是用于自動翻譯和自動問題回答,之所以能自動翻譯或問題回答,都是經(jīng)過大量訓(xùn)練得到,例如自動翻譯的訓(xùn)練數(shù)據(jù)就是大量的成對的原文句子和翻譯目標(biāo)語言的句子,同理,自動摘要生成也是需要訓(xùn)練學(xué)習(xí),訓(xùn)練數(shù)據(jù)可以是目前網(wǎng)上或機(jī)構(gòu)內(nèi)所有的各類文章和它的標(biāo)題或人工總結(jié)的一些要點(diǎn)。更廣義的說,只要有了這些成對的所謂的任何sequence輸入作為訓(xùn)練,它學(xué)到的就是輸出目標(biāo)sequence。句子向量和段落向量的輸入是幫助模型理解句子層級和段落層級的關(guān)聯(lián)關(guān)系。另外,如果僅將詞向量作為輸入,生成摘要,很可能會拘泥于過多的單詞細(xì)節(jié),而忽略了句子和段落之間的承接,因此又將句子向量集合sb、段落向量集合pb作為輸入,來關(guān)注句子和段落之間的承接。

本實(shí)施例的中文文本摘要生成方法包括以下步驟:

(1)將原始文本進(jìn)行分詞,并將分詞后得到的每個(gè)詞匯都形成一個(gè)原始詞向量,并按順序排列得到原始詞向量集合w={wiw|iw=1,2,…,nw},wiw表示第i個(gè)詞向量,nw表示詞向量總個(gè)數(shù);

(2)按將原始詞向量集合w作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)詞匯的具有上下文背景信息的詞向量wbiw,,形成詞向量集合wb={wbiw|iw=1,2,…,nw};

(3)按照原始文本中句子的詞匯組成方式,將詞向量集合wb轉(zhuǎn)換為句子向量集合s={sis|is=1,2,…,ns},并將句子向量集合s作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)句子的具有上下文背景信息的句子向量sbis,,形成句子向量集合sb={sbis|is=1,2,…,ns},其中,ns表示句子向量總個(gè)數(shù);

(4)按照原始文本中段落的句子組成方式,將句子向量集合sb轉(zhuǎn)換為段落向量集合p={pip|ip=1,2,…,np},并將段落向量集合p作為輸入,采用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)按順序進(jìn)行正向和反向處理,將最終神經(jīng)網(wǎng)絡(luò)中各神經(jīng)單元的記憶狀態(tài)作為對應(yīng)段落的具有上下文背景信息的段落向量pbip,,形成段落向量集合pb={pbip|ip=1,2,…,np},np表示段落向量總個(gè)數(shù);

(5)將詞向量集合wb、句子向量集合sb、段落向量集合pb連接成一個(gè)總向量,并作為seq2seq模型中解碼序列rnn的原始狀態(tài),采用seq2seq模型進(jìn)行逐字逐句的輸出,得到文章摘要。

該方法與上述系統(tǒng)一一對應(yīng),因此不再贅述。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1