亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于主題詞的語(yǔ)言生成方法與流程

文檔序號(hào):11386528閱讀:396來(lái)源:國(guó)知局
本發(fā)明涉及一種語(yǔ)言生成方法,特別是一種基于主題詞利用深度學(xué)習(xí)以及注意力機(jī)制對(duì)語(yǔ)言的生成方法。
背景技術(shù)
::隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,在線用戶評(píng)論對(duì)電商和消費(fèi)者影響重大。研究表明多數(shù)消費(fèi)者在做出購(gòu)買決策前會(huì)在網(wǎng)上收集產(chǎn)品服務(wù)相關(guān)信息,并且購(gòu)買后會(huì)在網(wǎng)上分享消費(fèi)體驗(yàn)和購(gòu)買評(píng)價(jià)。此外,大量網(wǎng)絡(luò)用戶在購(gòu)買產(chǎn)品或服務(wù)前會(huì)閱讀用戶評(píng)論,并且受到評(píng)論內(nèi)容的影響。因此,海量的在線用戶評(píng)論是幫助消費(fèi)者發(fā)現(xiàn)產(chǎn)品質(zhì)量和做出相應(yīng)購(gòu)買決策的重要信息源。然而,由于現(xiàn)階段評(píng)論過(guò)程的繁瑣,導(dǎo)致用戶不愿意花費(fèi)較多的時(shí)間用于評(píng)價(jià)購(gòu)買的對(duì)象,它們通常只是利用較短的通用型詞語(yǔ)進(jìn)行評(píng)論,一定程度上影響了潛在消費(fèi)者的購(gòu)買決策。如何能夠在用戶給出的較短的語(yǔ)言文字中,得到盡可能準(zhǔn)確的信息,從而能針對(duì)性對(duì)顧客的提供更加優(yōu)質(zhì)的服務(wù),成為眾多商家極為關(guān)注的問(wèn)題。自然語(yǔ)言生成(naturallanguagegeneration,nlg)是將數(shù)據(jù)翻譯轉(zhuǎn)化為自然語(yǔ)言表示,它可以看作是相反的自然語(yǔ)言理解:自然語(yǔ)言理解是對(duì)輸入的句子生成機(jī)器的表示語(yǔ)言,而自然語(yǔ)言生成是將概念轉(zhuǎn)化為文字。近年來(lái),以深度學(xué)習(xí)為代表的自然語(yǔ)言生成技術(shù)異軍突起,在網(wǎng)絡(luò)銷售等諸多領(lǐng)域獲得廣泛的關(guān)注?,F(xiàn)有的語(yǔ)言生成方法通常是利用現(xiàn)有的規(guī)則或者人工設(shè)計(jì)的模板,現(xiàn)有的語(yǔ)言生成方法有以下幾種:(1)通過(guò)模板生成:構(gòu)造相應(yīng)的模板,每個(gè)模板中包括一些變量和一些常量,文本生成器根據(jù)用戶輸入的內(nèi)容,將這些內(nèi)容作為字符串填充到模板中替代變量。(2)通過(guò)模式生成:該方法利用修辭謂詞和操作符來(lái)構(gòu)成文本主題的表達(dá)順序。(3)通過(guò)短語(yǔ)/規(guī)則擴(kuò)展(rhetoricalstructuretheory,rst):該方法認(rèn)為一段文字的各個(gè)組成部分無(wú)論是句子、段落甚至由段落構(gòu)成的章節(jié)之間都是按照特定的關(guān)系層次內(nèi)聚起來(lái),根據(jù)內(nèi)聚關(guān)系對(duì)文本進(jìn)行生成。(4)通過(guò)屬性特征生成:該技術(shù)對(duì)語(yǔ)言生成的每一部分信息增添屬性,直到能夠唯一地決定一個(gè)輸出結(jié)果為止。這些傳統(tǒng)的語(yǔ)言生成方法在實(shí)際應(yīng)用時(shí)存在以下問(wèn)題:(1)通過(guò)模板生成雖然簡(jiǎn)單可行,但生成的文本不完備,質(zhì)量不高。(2)通過(guò)模式生成雖然生成的文本結(jié)構(gòu)具有層次性,但該方法只適用于結(jié)構(gòu)固定的文章,缺乏靈活性。(3)rst方法具有較強(qiáng)的靈活性。但是由于句子間具有復(fù)雜的語(yǔ)義和語(yǔ)法關(guān)系,構(gòu)建文本規(guī)則庫(kù)并不容易。(4)基于屬性特征的方法概念簡(jiǎn)單,生成的文本相對(duì)靈活,但屬性間的內(nèi)容關(guān)系較為復(fù)雜,工作量很大,即很難確定什么樣的文本變化能夠作為屬性特征添加進(jìn)集合中。隨著對(duì)語(yǔ)言生成方法的不斷改進(jìn),現(xiàn)有的比較流行的方法還包括基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetworks,rnns)和sequence-to-sequence(seq2seq)的技術(shù)?;趓nns的生成語(yǔ)言模型是將訓(xùn)練文本輸入到rnn語(yǔ)言模型中進(jìn)行訓(xùn)練。訓(xùn)練結(jié)束后,根據(jù)給定的內(nèi)容按照語(yǔ)言模型輸出的概率分布進(jìn)行采樣得到下一個(gè)詞,不斷重復(fù)這一內(nèi)容得到完整的生成文本。假設(shè)訓(xùn)練數(shù)據(jù)序列為(x1,…,xt),經(jīng)過(guò)rnn結(jié)構(gòu)得到輸出序列(o1,…,ot),然后通過(guò)softmax函數(shù)得到概率分布p(xt+1|x≤t)。生成語(yǔ)言模型的目的是使概率分布最大。rnns計(jì)算公式如下:ht=tanh(whxxt+whhht-1+bh)(1)ot=wohht+bo(2)xt表示輸入向量,ht表示隱含層單元,ot表示輸出單元,whx表示輸入層到隱含層的權(quán)重矩陣,whh表示隱含層到隱含層的權(quán)重矩陣,bh和bo表示偏置。seq2seq模型是將一個(gè)序列(sequence)翻譯成另一個(gè)序列(sequence),通常被作為翻譯模型,而語(yǔ)言生成也是一個(gè)“翻譯”的過(guò)程。其基本結(jié)構(gòu)由兩個(gè)rnn模型構(gòu)成,一個(gè)作為解碼器(encoder),另一個(gè)作為編碼器(decoder),稱為rnnencoder-decoder。作為encoder的rnn,用于把一個(gè)sequence壓縮表示成一個(gè)固定大小的向量(fixed-lengthvectorrepresentation),即將一段文本進(jìn)行語(yǔ)義表示。作為decoder的rnn,根據(jù)encoder的向量(vector),生成標(biāo)記(token)序列,這個(gè)token序列就是生成的sequence。在生成過(guò)程中,常用極大似然估計(jì)進(jìn)行優(yōu)化,使得通過(guò)encoder和decoder操作后生成文本的概率最大。seq2seq結(jié)構(gòu)圖如圖1所示。基于rnns的方法是將上下文encoder,然后再decoder成目標(biāo)文本。但是這種做法的缺點(diǎn)是,無(wú)論上下文context有多長(zhǎng),包含多少信息量,最終都要被壓縮成一個(gè)幾百維的向量。這意味著context越大,最終得到的向量會(huì)丟失越多的信息。目前以seq2seq為代表的語(yǔ)言生成模型,對(duì)短句子或文本的生成有著較好的效果。但是該模型存在一些問(wèn)題,它們往往在生成較長(zhǎng)文本時(shí)的效果較差。因此注意力機(jī)制(attention)的引入解決了這一問(wèn)題,在生成過(guò)程中,注意力模型分配給不同中文詞語(yǔ)的大小不同的注意力,也就是賦予不同的權(quán)值。這意味著在生成每個(gè)單詞時(shí),原先都是相同的中間語(yǔ)義表示會(huì)被替換成根據(jù)當(dāng)前單詞而不斷變化的值。attention模型的結(jié)構(gòu)如圖2所示。計(jì)算公式如下:st=f(st-1,yt-1,ct)(3)etj=α(st-1,hj)(6)st是指decoder在t時(shí)刻的隱層狀態(tài),同seq2seq相比,這里的ct隨著encoder的輸入而不斷變化,它是一個(gè)加權(quán)求和值。atj表示attention模型對(duì)encoder每個(gè)輸入賦予的注意力程度,它的計(jì)算同softmax相似。α是用來(lái)計(jì)算st-1,hj這兩者的關(guān)系分?jǐn)?shù),如果分?jǐn)?shù)大則說(shuō)明關(guān)注度較高,注意力分布就會(huì)更加集中在這個(gè)輸入單詞上。雖然基于attention機(jī)制的seq2seq模型能夠生成較好的文本,但是由于模型通常采用模仿訓(xùn)練集中語(yǔ)言的生成方式,訓(xùn)練文本中存在大量的“很好”,“不清楚”等通用型詞語(yǔ),使生成的在線評(píng)論趨于“保守”,缺乏多樣性,即產(chǎn)生萬(wàn)金油式但幾乎沒(méi)有信息量的語(yǔ)言,導(dǎo)致該模型生成的語(yǔ)言不能夠反應(yīng)任何信息。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提出了一種基于主題詞的注意力(attention)機(jī)制的語(yǔ)言生成方法,使得生成的文本更加流暢以及富有多樣性。本專利所述方法利用用戶的背景信息(性別、興趣、愛(ài)好等)、用戶的打分情況(rating)、評(píng)論對(duì)象(item)信息以及用戶勾選的關(guān)鍵詞自動(dòng)生成社交網(wǎng)站的評(píng)論。在線評(píng)論的自動(dòng)生成,而且使得生成的文本更加流暢以及富有多樣性,不僅為用戶提供了便捷,而且對(duì)潛在用戶的購(gòu)買決策起到了導(dǎo)向作用。附圖說(shuō)明圖1為現(xiàn)有技術(shù)的seq2seq結(jié)構(gòu)圖。圖2為現(xiàn)有技術(shù)的attention結(jié)構(gòu)圖。圖3為本發(fā)明的lstm選擇激活單元tanh函數(shù)圖。圖4為本發(fā)明的基于主題詞的語(yǔ)言生成流程圖。具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個(gè)實(shí)施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。本發(fā)明方法涉及到智能分析、語(yǔ)言生成等技術(shù),可用于在線評(píng)論的自動(dòng)生成,而且使得生成的文本更加流暢以及富有多樣性。本發(fā)明在attention模型基礎(chǔ)上提出一種基于主題詞(topicword)的語(yǔ)言生成模型(t-seq2seq)。t-seq2seq模型是基于傳統(tǒng)的seq2seq框架,利用context和topicword聯(lián)合attention機(jī)制生成目標(biāo)序列。在模型的encoder部分,利用雙向lstm結(jié)構(gòu)生成輸入x的隱層信息lstm的計(jì)算公式如下:it=σ(wixt+uiht-1+bi)(7)ot=σ(woxt+uoht-1+bo)(8)ft=σ(wfxt+ufht-1+bf)(9)ct=ft·ct-1+it·tanh(wcx+ucht-1+bc)(10)ht=ot·tanh(ct)(11)其中it、ot、ft、ct、ht分別表示輸入門信息、輸出門信息、忘記門信息、細(xì)胞狀態(tài)信息以及歷史的隱層信息,wi、wo、wf、wc、ui、uo、uf和uc分別表示輸入門、輸出門、忘記門和細(xì)胞狀態(tài)的輸入xt的權(quán)值以及輸入ht-1的權(quán)重,bi、bo、bf和bc表示各個(gè)控制門對(duì)應(yīng)的偏置。lstm選擇激活單元是tanh函數(shù),如圖3所示,它是將一個(gè)實(shí)數(shù)輸入映射到[-1,1]范圍內(nèi)。假定數(shù)據(jù)集ki表示topicword的詞向量,bi表示用戶的背景,它是由性別、年齡和愛(ài)好構(gòu)成的向量。itemi表示評(píng)價(jià)對(duì)象(商品或服務(wù))的id。ri={ri0,ri1,ri2,…rin}表示用戶打分,它是一個(gè)j維的one-hot向量,j表示評(píng)分范圍(通常是1-5),ri0表示對(duì)該商品i的整體評(píng)分,{ri1,ri2,…rin}表示對(duì)于商品i的各屬性打分,n表示屬性個(gè)數(shù)。對(duì)于某條評(píng)分生成的上下文向量表示如下:其中ei∈rd×n,d表示商品屬性上下文向量的維度,n表示評(píng)分i向量對(duì)應(yīng)的維度,d0表示商品(itemi)向量的維度。一旦計(jì)算出不同評(píng)分j(通常是1-5)生成的上下文向量,將它們首尾連接起來(lái)生成情感向量ci。情感向量ci在topicword的attention結(jié)構(gòu)中也會(huì)被使用,情感向量ci的表示如下:ci=tanh(w[e0,e1,e2,…,ej]+b)(13)w和b分別表示對(duì)應(yīng)的權(quán)重和偏置。此外,yi表示生成的評(píng)論。然后利用bi,ci,itemi構(gòu)建上下文向量xi。最后利用xi和ki生成yi,xi的定義如下:xi=tanh(w[bi,ci]+b)(14)topicword由兩部分組成,一部分來(lái)自于用戶勾選的關(guān)鍵詞,另一部分通過(guò)文檔主題生成模型(latentdirichletallocation,lda)構(gòu)建文本-主題-主題詞之間的關(guān)系,在這一過(guò)程中,本發(fā)明的實(shí)現(xiàn)流程如圖4所示,首先利用社交平臺(tái)的評(píng)論信息生成評(píng)論語(yǔ)料,然后將用戶勾選的關(guān)鍵詞對(duì)應(yīng)到相應(yīng)的語(yǔ)料信息中,最后利用語(yǔ)料信息生成相應(yīng)主題(topic)中概率最高的10個(gè)topicword。首先利用公式(12)找到用戶勾選屬性詞對(duì)應(yīng)的概率最高的topic。具體計(jì)算過(guò)程如下:t表示用戶勾選屬性對(duì)應(yīng)的topic,w表示每個(gè)topic下對(duì)應(yīng)的topicword,cwt表示單詞w在topict中出現(xiàn)的次數(shù)。然后利用lda得到語(yǔ)料信息中該topic下最相關(guān)的10個(gè)詞,利用預(yù)先定義好的停用詞詞表,過(guò)濾掉通用型詞,例如“很好”,“一般”等。最后利用word2vec訓(xùn)練評(píng)論語(yǔ)料,得到topicword的詞向量(k1…kn),n表示topicword的個(gè)數(shù)。然后利用seq2seq模型對(duì)context以及topicmodel進(jìn)行訓(xùn)練。在模型decoding部分,利用公式(3)、(4)、(5)、(6)計(jì)算出輸入xi的隱層信息所對(duì)應(yīng)的中間層信息ci。此外,同時(shí)將topicword的詞向量也通過(guò)attention機(jī)制生成中間層信息oi。單詞kj所對(duì)應(yīng)的attention權(quán)重定義如下:si-1表示decoder在i-1時(shí)刻的隱含層狀態(tài),ht表示輸入x對(duì)應(yīng)的最后一個(gè)隱含層狀態(tài),ηo表示一個(gè)多層感知機(jī)。相比較傳統(tǒng)的attention模型,t-seq2seq模型更多的強(qiáng)調(diào)了topicword對(duì)最終生成語(yǔ)言的影響,盡可能的降低了非相關(guān)詞的影響。然后,將ci和oi通過(guò)一個(gè)聯(lián)合attention機(jī)制的結(jié)構(gòu),使二者共同影響最終生成的序列,使其不僅與context相關(guān),而且和利用用戶勾選屬性生成的topicword相關(guān)。除了用于生成上下文向量x,情感信息ci還被應(yīng)用于topicword的attention機(jī)制中,對(duì)于每一個(gè)topicwordkj,ci生成topicword的情感信息mj定義如下:t-seq2seq定義生成概率p(yi)=pv(yi)+pk(yi),pv(yi)和pk(yi)定義如下:在上述公式中,v是context的詞表,k是主題詞的詞表,f是lstm單元。ψv(si,yi-1,ω)和ψk(si,yi-1,ω,ci,mω)定義如下:σ(·)是tanh激活單元,w表示單詞ω的one-hot詞向量,bv和bk都是網(wǎng)絡(luò)訓(xùn)練中的參數(shù)。a表示歸一化參數(shù),它的計(jì)算公式如下:利用t-seq2seq模型生成在線評(píng)論可以分為兩部分,對(duì)于非topicword,它的處理機(jī)制同傳統(tǒng)的seq2seq+attention模型類似,只是si的隱層信息除了使用ci以外還利用了topicword的中間層信息oi;而對(duì)于topicword來(lái)講,除了上述傳統(tǒng)模型外,還需要一個(gè)topic+attention的機(jī)制提供一個(gè)pk(yi)的概率分布。通過(guò)該概率進(jìn)一步提升topicword在生成序列中的影響。由上述公式可知,概率pk(yi)取決于decoder的隱層狀態(tài)si,中間層信息ci,情感信息mω以及前詞生成的序列yi-1。這意味著,給定一個(gè)context信息,topicword與context越相關(guān),那么它出現(xiàn)在生成序列中的概率就越大,同時(shí)情感信息mω也會(huì)影響生成評(píng)論的感情色彩。此外,為了提升生成評(píng)論的語(yǔ)言流暢性,本發(fā)明引入了基于fp-growth算法的模板機(jī)制,生成相關(guān)語(yǔ)料的頻繁模式樹(shù),得到由頻繁詞語(yǔ)及詞性組成的句子骨架,最后利用句子骨架及上述模型生成的語(yǔ)言構(gòu)建最終生成的文本。其中所做的處理步驟如下:(1)第一遍掃描數(shù)據(jù)庫(kù),找出頻繁1項(xiàng)集,按降序排列。(2)第二遍掃描數(shù)據(jù)庫(kù),過(guò)濾不頻繁集合,并將頻繁1項(xiàng)集插入到fp-tree中,相同前綴的路徑共用,同時(shí)增加一個(gè)headertable,將fp-tree中相同的item連接起來(lái)。(3)從headertable的最下面的item開(kāi)始,構(gòu)造每個(gè)item的條件模式基。(4)構(gòu)造條件fp-tree。過(guò)濾掉低于閾值的item。(5)遞歸的挖掘每個(gè)條件fp-tree,累加后綴頻繁項(xiàng)集,直到找到fp-tree為空或fp-tree只有一條路徑。通過(guò)t-seq2seq模型,主要解決了在線評(píng)論生成的四個(gè)問(wèn)題,它們分別是多樣化問(wèn)題、語(yǔ)言流暢性問(wèn)題、內(nèi)容完整性問(wèn)題和感情極性。下面將分別進(jìn)行解釋。(1)多樣性。在傳統(tǒng)的語(yǔ)言生成問(wèn)題中,通常只是利用context信息進(jìn)行生成,得到的語(yǔ)言通常沒(méi)有什么心意,只是用一些通用性的詞進(jìn)行替代,這樣生成的文本顯得有些“保守”。而利用t-seq2seq模型,我們將topicword抽象成用戶的記憶,憑借用戶的“記憶”生成更加富有多樣性的語(yǔ)言。其次,我們還將用戶的興趣愛(ài)好等作為輸入,進(jìn)一步的提升了用戶個(gè)性化對(duì)生成語(yǔ)言的影響。(2)語(yǔ)言流暢性。在語(yǔ)言生成過(guò)程中,生成文本的第一個(gè)詞很重要,這是因?yàn)樗悄P蚫ecoder階段的起始部分,它對(duì)接下來(lái)生成語(yǔ)言的流暢性產(chǎn)生非常重要的影響。如果第一個(gè)詞被錯(cuò)誤的生成,那么整個(gè)文本的流暢性受到嚴(yán)重的影響,甚至?xí)赏耆煌x的文本。而在傳統(tǒng)的seq2seq+attention模型中,生成語(yǔ)言的首詞通常只由c0決定,這是因?yàn)楫?dāng)t=0時(shí),si-1和yi-1都不存在。而在t-seq2seq模型中,生成語(yǔ)言的首詞不只由c0決定,還受到topicword的o0影響,也就是說(shuō)topicword包含的信息能夠一定程度上影響首詞的生成質(zhì)量。因此,在語(yǔ)言生成中,利用t-seq2seq模型能夠較好的生成首詞,從而生成流暢性高的語(yǔ)言。此外,本專利利用fp-growth挖掘到的頻繁模式集構(gòu)建生成句子的骨架,從而進(jìn)一步提升生成文本的流暢性。(3)內(nèi)容完整性。內(nèi)容完整性的含義是指,在生成語(yǔ)言中,應(yīng)盡可能多的包含用戶輸入的關(guān)鍵詞信息。例如對(duì)于旅游網(wǎng)站用戶,用戶勾選了“快捷”、“舒適”等詞,生成的語(yǔ)言中應(yīng)盡可能多的包含這兩方面的信息。在t-seq2seq模型中,我們除了利用用戶勾選的關(guān)鍵詞作為topicword,還選取了關(guān)鍵詞對(duì)應(yīng)topic中的概率最大的10個(gè)詞作為topic,這樣能夠盡可能多的覆蓋到用戶輸入的信息。(4)感情極性。感情極性是指通過(guò)用戶的打分,判斷該用戶生成評(píng)論的感情色彩,即該用戶是否推薦該商品或服務(wù)。本專利通過(guò)用戶打分和商品屬性,構(gòu)建情感信息ci,該向量一部分作為上下文向量x的輸入,另一部分用于生成topicword的情感信息mω。通過(guò)影響上下文向量以及topicword的生成,進(jìn)一步加強(qiáng)生成評(píng)論的感情色彩。當(dāng)前第1頁(yè)12當(dāng)前第1頁(yè)12
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1