亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

使用神經(jīng)網(wǎng)絡(luò)變換文本為聲頻信號的設(shè)備的制作方法

文檔序號:6417553閱讀:293來源:國知局
專利名稱:使用神經(jīng)網(wǎng)絡(luò)變換文本為聲頻信號的設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明為一件分案申請,原申請的申請?zhí)枮?5190349.7,申請日為1995年3月21日,發(fā)明名稱為“使用神經(jīng)網(wǎng)絡(luò)變換文本為聲頻信號的方法和設(shè)備”。
本發(fā)明涉及變換文本為聲頻信號的領(lǐng)域,特別涉及使用神經(jīng)網(wǎng)絡(luò)變換文本信號為聲頻信號。
文本/話音變換涉及變換文本信息流為話音波形。這個變換過程通常包括文本的話音表示物變換為多個話音參數(shù),然后話音參數(shù)由話音合成器變換為話音波形。使用級聯(lián)系統(tǒng)(Concatenative sys-tem)變換話音表示物為話音參數(shù)。級聯(lián)系統(tǒng)存儲由話音分析產(chǎn)生的可能是二重單音或半音節(jié)的參數(shù),和響應(yīng)話音表示物,使用以調(diào)節(jié)它們的持續(xù)期間和平滑諸多跳變(transition)以產(chǎn)生話音參數(shù)的存儲圖型串接起來。級聯(lián)系統(tǒng)的一個問題是必須存儲大量的圖型。一般地,在級聯(lián)系統(tǒng)中必須存儲1000個以上的圖型。另外,在存儲圖型之間的跳變不是平滑的。還使用按規(guī)則合成(synthesis-by-rule)系統(tǒng)變換話音表示物為語音參數(shù)。按規(guī)則合成系統(tǒng)存儲每個可能的語音表示物的目標(biāo)話音參數(shù)。按照一組規(guī)則在語音表示物之間跳變的基礎(chǔ)上修改目標(biāo)話音參數(shù)。按規(guī)則合成系統(tǒng)的問題是語音表示物之間的跳變是不自然的,因為跳變規(guī)則僅僅要產(chǎn)生跳變的幾個類型(style)。另外,必須存儲一個大的規(guī)則集。
還使用神經(jīng)網(wǎng)絡(luò)變換語音表示物為話音參數(shù)。神經(jīng)網(wǎng)絡(luò)被訓(xùn)練用于將話音參數(shù)與記錄消息的文本的語音表示物相關(guān)聯(lián)。該訓(xùn)練導(dǎo)致神經(jīng)網(wǎng)絡(luò)具有加權(quán),這代表從語音表示物產(chǎn)生話音波形所要求的轉(zhuǎn)移函數(shù)。神經(jīng)網(wǎng)絡(luò)克服了級聯(lián)系統(tǒng)和按規(guī)則合成系統(tǒng)的大量存儲的要求,因為知識庫存儲在加權(quán)中,而不存儲在存儲器中。
用于變換包括音素的語音表示物為話音參數(shù)的一個神經(jīng)網(wǎng)絡(luò)實施例使用一組或窗口的音素為其輸入。該窗口的音素數(shù)量是固定的并且是預(yù)定的。神經(jīng)網(wǎng)絡(luò)產(chǎn)生該窗口的中間音素的幾個話音參數(shù)幀,而在中間音素周圍的窗口中的其它音素給該神經(jīng)網(wǎng)絡(luò)提供一個前后關(guān)系(context)用于確定話音參數(shù)。這個實施例的問題是所產(chǎn)生的話音參數(shù)不產(chǎn)生語音表示物之間平滑的跳變,因此產(chǎn)生的話音不自然而且可能是不可理解的。
據(jù)此,現(xiàn)在需要一種減少存儲要求、提供語音表示物之間的平滑跳變以產(chǎn)生自然的和可理解的語音的文本/話音變換系統(tǒng)。


圖1示出根據(jù)本發(fā)明使用文本/聲頻變換的一個車輛導(dǎo)航系統(tǒng)。
圖2-1和2-2示出根據(jù)本發(fā)明的為用于文本/聲頻變換的神經(jīng)網(wǎng)絡(luò)而產(chǎn)生的訓(xùn)練數(shù)據(jù)的方法。
圖3示出根據(jù)本發(fā)明的用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方法。
圖4示出根據(jù)本發(fā)明的用于從文本流產(chǎn)生聲頻的方法。
圖5示出根據(jù)本發(fā)明的可用作聲頻幀的語音表示物的二進(jìn)制字。
本發(fā)明提供一種變換文本為聲頻信號(如話音)的方法。這是通過首先訓(xùn)練神經(jīng)網(wǎng)絡(luò)使記錄的話音消息的文本與那些消息的話音相關(guān)而實現(xiàn)的。為了開始訓(xùn)練,記錄的話音消息被變換為具有固定持續(xù)時間的一系列聲頻幀。然后,每個聲頻被指定一個語音表示物和一個目標(biāo)聲頻表示物,語音表示物是代表聲頻的音素和清晰度特性的二進(jìn)制字,而目標(biāo)聲頻表示物是聲頻信息如節(jié)奏和能量的一個矢量。利用這個信息,訓(xùn)練神經(jīng)網(wǎng)絡(luò)從文本流產(chǎn)生聲頻表示物,以使文本可變換為話音。
參照圖1-5對本發(fā)明進(jìn)行更詳細(xì)地敘述。圖1示出一個車輛導(dǎo)航系統(tǒng)100,它包括一個定向數(shù)據(jù)庫102、文本/音素處理器103、持續(xù)期間處理器104、預(yù)處理器105、神經(jīng)網(wǎng)絡(luò)106和合成器107。定向數(shù)據(jù)庫102內(nèi)含一組文本消息,用以代表街名、公路、陸標(biāo)和引導(dǎo)車輛操作者需要的其它數(shù)據(jù)。定向數(shù)據(jù)庫或某些其它信源把文本流101提供給文本/音素處理器103。文本/音素處理器103產(chǎn)生提供給預(yù)處理器105的文本流的音素和清晰度特性。預(yù)處理器105也從持續(xù)處理器104接收文本流101的持續(xù)期間數(shù)據(jù)。響應(yīng)持續(xù)期間數(shù)據(jù)和音素及清晰度特性,預(yù)處理器105產(chǎn)生一系列固定持續(xù)期間的音素幀。神經(jīng)網(wǎng)絡(luò)106接收每個音素幀并基于其內(nèi)部加權(quán)產(chǎn)生音素幀的聲頻表示。合成器107響應(yīng)由神經(jīng)網(wǎng)絡(luò)106產(chǎn)生的聲頻表示物產(chǎn)生一個聲頻108。車輛導(dǎo)航系統(tǒng)100使用通用或數(shù)字信號處理器以軟件實現(xiàn)。
定向數(shù)據(jù)庫102產(chǎn)生被表達(dá)的文本。在車輛導(dǎo)航系統(tǒng)的上下文本中,這可能是該系統(tǒng)提供的方向和信息,用于引導(dǎo)用戶到他或她的目的地。這個輸入文本可以是任何語言,而且不需要是該語言的書寫形式表示物。該輸入文本可以是該語言的音素形式。
文本/音素處理器103一般變換文本為一系列音素表示物和句法邊界的描述及句法成分的起伏度。變換為音素表示物和確定起伏度可用各種方法實現(xiàn),包括字母/聲音規(guī)則和文本的形態(tài)分析。類似地,確定句法邊界的技術(shù)包括根據(jù)標(biāo)點符號的位置和公共功能字,諸如前置詞、代詞、冠詞和連接詞分析該文本和簡單的邊界插入。在優(yōu)選的實施例中,定向數(shù)據(jù)庫102提供一個音素和文本的句法表示物,包括一系列音素,每字的字類別,句法邊界和句法成分的起伏度和重音。所用的音素系列是來自Garafolo,John S.的文章“The Struc-ture And Format of The DARPA TIMIT CD-ROMPrototype”,1988年國家標(biāo)準(zhǔn)與技術(shù)學(xué)院出版。字類別一般指示文本流中該字的作用。作為結(jié)構(gòu)的字,諸如冠詞、前置詞和代詞按功能分類。加上含義對結(jié)構(gòu)的字按內(nèi)容分類。第三個字類別存在用于不是字的一部分的聲音,即無聲和一些聲門的停止。在文本流中識別的句法邊界是句子邊界,從句邊界,詞組邊界和字邊界。字的起伏度分為1至13的值,代表最小的起伏度和最大的起伏度,而音節(jié)重音分類為主要、輔助、無重音和強調(diào)。在優(yōu)選的實施例中,由于定向數(shù)據(jù)庫存儲文本的音素和句法表示,所以文本/音素處理器103簡單地傳送那個信息到持續(xù)期間處理器104和預(yù)處理器105。
持續(xù)期間處理器104指定一個持續(xù)期間給定從文本/音素處理器103輸出的每個音素。該持續(xù)期間是正在發(fā)出該音素的時間。該持續(xù)期間可由各種方式產(chǎn)生,包括神經(jīng)網(wǎng)絡(luò)和基于規(guī)則的部件。在優(yōu)選的實施例中,對于給定音素的持續(xù)期間(D)利用基于規(guī)則的部件產(chǎn)生如下該持續(xù)期間由下式(1)確定D=dmin+t+(λ(dinherent-dmin)) (1)式中dmin是最小持續(xù)期間、dinherent是固有持續(xù)期間,二者從下表1中選擇。λ值由以下規(guī)則確定表 1音素 dmin(msec) dinherent(msec)aa 185110ae 19085ah 13065ao 180105aw 185110ax 80 35axh 80 35axr 95 60ay 17595eh 12065er 115100ey 16085ih 10550ix 80 45iy 12065ow 15575oy 205105uh 12045uw 13055ux 13055el 160140hh 95 70hv 60 30l 75 40r 70 50w 75 45y 50 35em 205 125en 205 115eng 205 115m 85 50n 75 45ng 95 45dh 55 5f 125 75s 145 85sh 150 80th 140 10v 90 15z 150 15zh 155 45bcl 75 25dcl 75 25gcl 75 15kcl 75 55pcl 85 50tcl 80 35b 10 5d 20 10dx 20 20g 30 20k 40 25p 10 5t 30 15ch 120 80jh 115 80q 55 35nx 75 45sil 200 200
如果音素是核心,即音節(jié)中的元音或音節(jié)的輔音,或者在從句的最后音節(jié)中的核心之后,且音素是一個翻轉(zhuǎn)的、橫向的或鼻音的,則λ1=λinitial×m1和m1=1.4,否則λ1=λinitial如果音素是該核心或者在從句的最后音節(jié)中核心之后并且不是翻轉(zhuǎn)的(retroflex)、橫向(lateral)的、或鼻音的,則λ2=λ1m2和m2=1.4,否則λ2=λ1如果音素是一個音節(jié)的核心,且核心并示結(jié)束一個詞組,則λ3=λ2m3和m3=0.6,否則λ3=λ2如果該音素是一個字音節(jié)的核心,該音節(jié)結(jié)束一個詞組,而且不是一個元音,則λ4=λ3m4和m4=1.2,否則λ4=λ3如果該音素跟著該音節(jié)中的一個元音,該音節(jié)結(jié)束一個詞組,則λ5=λ4m5和m5=1.4,否則λ5=λ4
如果該音素是一音節(jié)的核心,該音節(jié)不結(jié)束一字,則λ6=λ5m6和m6=0.85,否則λ6=λ5如果該音素是二音節(jié)以上的字,而且是不結(jié)束該字的音節(jié)的核心,則λ7=λ6m7和m7=0.8,否則λ7=λ6如果該音素是一個輔音,該輔音不在一個字的第一音節(jié)核心的前面,則λ8=λ7m8和m8=0.75,否則λ8=λ7如果該音素是在非重讀的字節(jié)中而且不是該字節(jié)的核心,或者它是在該字節(jié)的核心之后,則λ9=λ8m9和m9=0.7,除非該音素是后接一個元音的半元音,在這種情況,則λ9=λ8m11和m10=0.25,否則λ9=λ8如果音素是字中間字節(jié)的核心,該字節(jié)為非重讀或者具有次重音,則λ10=λ9m11和m11=0.75,否則λ10=λ9如果音素是非字中間字節(jié)的核心,該字節(jié)為非重讀或者具有次重音,則λ11=λ10m12和m12=0.7,否則λ11=λ10如果音素是結(jié)束一個字的一個元音,而且是在詞組的最后字節(jié)中,則λ12=λ11m13和m13=1.2,否則λ12=λ11如果音素是結(jié)束一個字的一個元音,而且不在詞組的最后字節(jié)中,則λ13=λ12(1-(m14(1-m13)))和m14=0.3,否則,λ13=λ12如果音素是后接相同字中的一個摩擦音的一個元音,且該音素不是在詞組的最后字節(jié)中,則λ15=λ14(1-(m14(1-m15)))否則λ15=λ14如果音素是在相同字中后接一個閉合音的元音,且該音素是在詞組的最后字節(jié)中,則
λ16=λ15m16和m16=1.6,否則λ16=λ15如果音素是在相同字中后接一個閉合音的元音,且該音素不在詞組中的最后字節(jié)中,則λ17=λ16(1-(m14(1-m16)))否則λ17=λ16如果音素是后接一個鼻音的元音,且該音素是在詞組的最后字節(jié)中,則λ17=λ16m17和m17=1.2,否則λ17=λ16如果音素是后接一個鼻音的一個元音,且該音素不在詞組的最后字節(jié)中,則λ18=λ17(1-(m14(1-m17)))否則λ18=λ17如果音素是一個后接一個元音的元音,則λ19=λ18m18和m18=1.4,否則λ19=λ18如果音素是一個元音,其前面為一個元音,則λ20=λ19m19和m19=0.7,否則λ20=λ19如果音素是一個“n”,在同一字中其前面為一個元音且在同一字中后接一個非重讀的元音,則λ21=λ20m20和m20=0.1,否則λ21=λ20如果音素是一個輔音,在同一詞組中其前面是一個輔音而在同一詞組中其后面不接輔音,則λ22=λ21m21和m21=0.8,除非這兩個輔音具有相同的發(fā)音位置,在這種情況下,則λ22=λ21m21m22和m22=0.7,否則λ22=λ21如果音素是一個輔音,在同一詞組中其前面沒有輔音在同一詞組中其后接一輔音,則λ23=λ22m23和m23=0.7,除非這兩個輔音具有相同的發(fā)音位置,在這種情況下,則λ23=λ22m22m23否則λ23=λ22如果音素是一個輔音,在同一詞組中其前面為一個輔音和在同一詞組中其后接一個輔音,則,λ=λ23m24和m24=0.5。除非這些輔音具有相同的發(fā)音位置,在這種情況下,則λ=λ23m22m24否則λ=λ23值t確定如下如果音素是一個重音的元音,前面為一個不發(fā)音的釋放或塞擦音,則t=25毫秒,否則t=20。
另外,如果音素在非重讀的音節(jié)中,或者音素放在它所在的字節(jié)的核心之后,則在它用于等式(1)之前,最小持續(xù)期間dmin被減去一半。
dmin、dinherent、t和m1至m24的最佳值使用標(biāo)準(zhǔn)的數(shù)字技術(shù)確定以使使用等式(1)計算的持續(xù)期間和從記錄話音的數(shù)據(jù)庫來的實際持續(xù)期間的均方差最小。在確定dmin、dinherent、t和m1至m24期間選擇λinital的值為1。但是,在實際文本/話音的變換期間,對于較慢的更可懂的話音的最佳值是λinital=1.4。
預(yù)處理器105變換持續(xù)期間處理器104和文本/音素處理器103的輸出為神經(jīng)網(wǎng)絡(luò)106的適當(dāng)輸入。預(yù)處理器105將時間劃分為一系列的固定持續(xù)期間的幀,并給每幀指定一個音素,在那個幀期間該音素通常是發(fā)聲的。這是從每個音素的表示法及其由持續(xù)期間處理器104提供的持續(xù)期間的直接變換。指定給一幀的周期將落入指定給一個音素的周期中。那個音素是在該幀期間通常發(fā)聲的音素。對于這些幀的每一幀,音素的表示是根據(jù)通常發(fā)聲的該音素產(chǎn)生的。該音素表示識別該音素和與該音素相關(guān)的發(fā)音特征。下面的表2-a至2-f列出在優(yōu)選實施例中使用的60個音素和36個發(fā)音特征。也產(chǎn)生每幀的前后關(guān)系的描述,包括該幀的音素表示,在相鄰幀中其它幀的音素表示和附加的前后關(guān)系數(shù)據(jù),該數(shù)據(jù)指明句法邊界,字的起伏度,字節(jié)重音和字類別。與現(xiàn)有技術(shù)相比,前后關(guān)系的描述不由分離音素的數(shù)量確定,而是由主要是時間測量量的幀數(shù)確定。在優(yōu)選的實施例中,中心在所考慮的幀附近的51幀的音素表示包括在該前后關(guān)系描述中。另外,從文本/音素處理器103和持續(xù)期間處理器104的輸出得到的前后關(guān)系數(shù)據(jù)包括六個距離值,這些值指示到三個前面的和三個后面的音素的中間的時間距離,兩個距離值指示到目前音素的開始和結(jié)束的時間距離,八個邊界值指示到前面和后面字、詞組、從句和句子的時間距離;兩個距離值指示到前面和后面音素的時間距離;六個持續(xù)期間值指示三個前面和三個后面音素的持續(xù)期間;目前音素的持續(xù)時間;51個值指示51個音素表示物的每個表示物的字起伏度;51個值指示51個音素的表示物的每個表示物的字類別;和51個值指示51幀的每幀的音節(jié)重音。
表2a
表2b
表2c
表2d
表2e
表2f
<p>神經(jīng)網(wǎng)絡(luò)106接收由預(yù)處理器105提供的前后關(guān)系描述和基于其內(nèi)部加權(quán)產(chǎn)生合成器107需要的以產(chǎn)生聲頻幀的聲頻表示。在優(yōu)選實施例中使用的神經(jīng)網(wǎng)絡(luò)106是四層重復(fù)前向饋送網(wǎng)絡(luò)。在輸入層它有6100個處理單元(PE),在第一隱藏層有50個PE,在第二隱藏層有50個PE和在輸出層有14個PE。兩個隱藏層使用反曲傳輸函數(shù),而輸入和輸出層使用線性傳輸函數(shù)。對于51個音素表示該輸入層再分為4896個PE,每個音素表示使用96個PE;140個PE用于重復(fù)輸入,即在輸出層14個PE的十個過去的輸出狀態(tài);和1064個PE用于前后關(guān)系數(shù)據(jù)。用于前后關(guān)系數(shù)據(jù)的1064個PE再劃分,900個PE用于接收指示到三個前面和三個后面音素的中間的時間距離的六個距離值,兩個距離值指示到當(dāng)前音素的開始和結(jié)束的時間距離,六個持續(xù)期間值指示三個前面和三個后面音素的持續(xù)時間,和本音素的持續(xù)時間;8個PE用于接收指示到前面與后面字、詞組、從句和句子的時間距離的八個邊界值;2個PE用于指示到前面和后面音素的時間距離的兩個距離值;1個PE用于本音素的持續(xù)期間;51個PE用于指示51個音素表示的每個表示的字起伏度的51個值;51個PE用于指示51個音素表示的每個表示的字類別的51個值;和51個PE用于指示51幀的每幀的字節(jié)重讀的51個值。用于接收指示到三個前面和三個后面音素的中間的時間距離的六個距離值,指示到本音素的開始和結(jié)束的時間距離的兩個距離值,六個持續(xù)期間值和本音素的持續(xù)期間的900個PE是這樣安排的,即在每個音素的基礎(chǔ)上一個PE專用于每個值。由于有60個可能的音素和15個值,那6個距離值指示到前三個和后三個音素的中間的時間距離,2個距離值指示到目前音素的開始和結(jié)束的時間距離,6個持續(xù)期間值和本音素的持續(xù)期間,需要900個PE。神經(jīng)網(wǎng)絡(luò)106產(chǎn)生話音參數(shù)的聲頻表示,由合成器107用于產(chǎn)生聲頻幀。在優(yōu)選實施例中產(chǎn)生的聲頻表示包括14個參數(shù),即音高;能量;由于說話估計的能量;基于能量值的歷史的參數(shù),它影響有聲和無聲頻帶間劃分的安排;和從該幀的線性預(yù)測編碼(LPC)分析導(dǎo)出的前十個記錄區(qū)(log area)比率。
合成器107變換由神經(jīng)網(wǎng)絡(luò)106提供的聲頻表示為聲頻信號??捎糜谶@里的技術(shù)包括格式合成,多帶激勵合成和線性預(yù)測編碼。在優(yōu)選實施例中使用的方法是LPC,利用從神經(jīng)網(wǎng)絡(luò)提供的記錄區(qū)比率產(chǎn)生的在自回歸濾波器激勵中的一個變量。自回歸濾波器使用由神經(jīng)網(wǎng)絡(luò)提供的音高上具有話音激勵的低頻和具有非話音激勵的高頻的雙頻激勵方案進(jìn)行激勵。激勵的能量由神經(jīng)網(wǎng)絡(luò)提供。截止頻率由以下等式確定,在該頻率以下用于話音激勵。fcutoff=8000(1-1-VEE(0.35+3.5P8000)K)+2P----(2)]]>式中fcutoff為截止頻率,以Hz為單位,VE是話音能量,E是能量,P是音高,K是閾值參數(shù)。VE,E,P和K的值由神經(jīng)網(wǎng)絡(luò)106提供。VE是由于話音激勵在該信號中能量的傾向性估計,而K是從能量值的歷史中導(dǎo)出的閾值調(diào)整。音高和這兩個能量在神經(jīng)網(wǎng)絡(luò)的輸出中以對數(shù)刻度。截止頻率調(diào)整到最接近的頻率,對于某個整數(shù)n可表示為(3n+1/2)P,因為話音和無聲判定是對音高的三個諧波頻帶進(jìn)行的。另外,如果截止頻率大于35倍的音高頻率,則激勵完全是話音的。
圖2-1和2-2以圖表示用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的目標(biāo)聲頻表示208是如何從訓(xùn)練文本200產(chǎn)生的。訓(xùn)練文本200是口說的和記錄的,產(chǎn)生訓(xùn)練文本的記錄聲頻消息204。然后訓(xùn)練文本200轉(zhuǎn)換為音素形式,該音素形式與訓(xùn)練文本的記錄聲頻消息204時間對準(zhǔn)以產(chǎn)生多個音素,多個音素的每個音素的持續(xù)期間變化并且由該記錄聲頻消息204確定。然后記錄聲頻消息劃分為一系列聲頻幀205,每個聲頻幀具有固定的持續(xù)期間213。固定持續(xù)期間最好為5毫秒。類似地,多個音素201被變換為具有相同固定持續(xù)期間213的一系列音素表示物202,每個聲頻幀有相應(yīng)的音素表示物。特別地,聲頻幀206相應(yīng)于指定的音素代表214。對于聲頻幀206,還產(chǎn)生前后關(guān)系描述207,包括指定的音素表示214和在該聲頻幀206每側(cè)的多個聲頻幀的音素表示。前后關(guān)系表述207最好包括指示句法邊界,字起伏度,字節(jié)重讀和字類別的前后關(guān)系數(shù)據(jù)216。聲頻幀系列206使用聲頻或語音編碼器,最好是線性預(yù)測編碼器進(jìn)行編碼,產(chǎn)生一系列目標(biāo)聲頻表示208,以便每個聲頻幀有相應(yīng)的指定目標(biāo)聲頻表示。特別地,聲頻幀206相應(yīng)指定的目標(biāo)聲頻表示212。目標(biāo)聲頻表示208代表話音編碼器的輸出,而且可包括一系列數(shù)字矢量,這些矢量描述幀的特征,諸如音高209,信號能量210和記錄區(qū)比率211。
圖3示出在正常操作之前建立神經(jīng)網(wǎng)絡(luò)106必須出現(xiàn)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程。神經(jīng)網(wǎng)絡(luò)基于其輸入矢量和由PE使用的內(nèi)部傳遞函數(shù)產(chǎn)生輸出矢量。在訓(xùn)練過程期間用于該傳遞函數(shù)的系數(shù)是變化的,以便變化該輸出矢量。傳遞函數(shù)和系數(shù)一起稱為神經(jīng)網(wǎng)絡(luò)106的加權(quán),在訓(xùn)練過程中加權(quán)是變化的,以便變化由給定的輸入矢量產(chǎn)生的輸出矢量。加權(quán)初始地設(shè)定為小的隨機值。前后關(guān)系描述207用作輸入矢量并且加到神經(jīng)網(wǎng)絡(luò)106的輸入。前后關(guān)系描述207根據(jù)神經(jīng)網(wǎng)絡(luò)加權(quán)值進(jìn)行處理產(chǎn)生一個輸出矢量,即相關(guān)的聲頻表示300。在訓(xùn)練期間的開始,該相關(guān)的聲頻表示300無意義,因此神經(jīng)網(wǎng)絡(luò)加權(quán)是隨機值。產(chǎn)生差錯信號矢量正比于相關(guān)聲頻表示300和指定的目標(biāo)聲頻表示211之間的距離。然后加權(quán)值以減少這個差錯信號的方向進(jìn)行調(diào)整。對于相關(guān)對的前后關(guān)系描述207和指定目標(biāo)聲頻表示211,這個過程重復(fù)很多次。使相關(guān)聲頻表示300接近指定目標(biāo)聲頻表示211的這個調(diào)整加權(quán)的過程是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。這種訓(xùn)練使用標(biāo)準(zhǔn)差錯后傳播方法。一旦訓(xùn)練神經(jīng)網(wǎng)絡(luò)106,加權(quán)值具有變換前后關(guān)系描述207為數(shù)值類似于指定目標(biāo)聲頻表示211的一個輸出矢量需要的信息。上面對照圖1敘述的優(yōu)選神經(jīng)網(wǎng)絡(luò)的實施例在認(rèn)為完全訓(xùn)練之前要求多達(dá)一千萬的前后關(guān)系描述的表示207給其輸入和下面的加權(quán)調(diào)整。
圖4表示如何在正常操作期間使用訓(xùn)練的神經(jīng)網(wǎng)絡(luò)106變換文本流400為聲頻的。文本流400變換為具有固定持續(xù)期間213的一系列音素幀401,每幀的表示與音素表示203的類型相同。對于每個指定音素幀402,產(chǎn)生前后關(guān)系描述403與前后關(guān)系描述207的類型相同。這被提供作為神經(jīng)網(wǎng)絡(luò)106的輸入,為指定的音素幀402產(chǎn)生一個產(chǎn)生的聲頻表示物405。對于系列的音素幀401中的每個指定的音素幀402執(zhí)行變換產(chǎn)生多個聲頻表示物404。多個聲頻表示物404提供作為合成器107的輸入,產(chǎn)生聲頻108。
圖5示出音素表示物203的優(yōu)選實施例。一幀的音素表示203包括二進(jìn)制字500,它被分為音素ID501和發(fā)音特征502。音素ID501只是在該幀期間通常為發(fā)聲的音素的N個碼表示之一。音素ID501包括N比特,每比特代表一個音素,它在給定幀中可發(fā)聲。這些比特之一被置位,指示正發(fā)聲的音素,而其它的比特被清除。在圖5中,正發(fā)聲的音素是B的釋放音,所以比特B506被置位,而比特AA503、AE504、AH505、D507、JJ508和音素ID501中的所有其它比特都被清除。發(fā)音特征502是敘述正在發(fā)聲音素的發(fā)聲方法。例如,上述B是發(fā)聲的唇音釋放,因此清除比特元音509,半元音510,鼻音511,人工音514和代表B釋放不具有的特征的其它比特,同時設(shè)定代表B釋放具有的特征如鼻音512和發(fā)聲513的比特。在優(yōu)選的實施例中,有60個可能的音素和36個發(fā)音特征,二進(jìn)制字500是96比特。
本發(fā)明提供變換文本為聲頻信號如話音的一種方法。利用這樣的方法,話音合成系統(tǒng)被訓(xùn)練自動地產(chǎn)生講話者的話音,而無需按規(guī)則合成系統(tǒng)要求的冗長乏味的規(guī)則產(chǎn)生或者串聯(lián)系統(tǒng)要求的邊界相符與平滑。這個方法提供對以前試圖將神經(jīng)網(wǎng)絡(luò)應(yīng)用到該問題的改進(jìn),因為所用的前后關(guān)系描述在音素的表示邊界上不產(chǎn)生大的改變。
權(quán)利要求
1.一種變換文本為聲頻信號的設(shè)備,其特征在于,包括一個文本/音素處理器,其中該文本/音素處理器翻譯文本流為一系列音素表示物;一個持續(xù)期間處理器,可操作地接到該文本/音素處理器,其中該持續(xù)期間處理器為該文本流產(chǎn)生持續(xù)期間數(shù)據(jù);一個預(yù)處理器,其中該預(yù)處理器變換該系列音素表示和該持續(xù)期間數(shù)據(jù)為一系列音素幀,其中該系列音素幀的每個音素幀具有固定持續(xù)期間并具有一個前后關(guān)系描述,和其中該前后關(guān)系表述是基于該系列音素幀的每個音素幀和該系列音素幀的至少一些其它音素幀;一個神經(jīng)網(wǎng)絡(luò),其中該神經(jīng)網(wǎng)絡(luò)基于該前后關(guān)系描述為該系列音素幀的一個音素幀產(chǎn)生一個聲頻表示物。
2.根據(jù)權(quán)利要求1的設(shè)備,其特征在于,進(jìn)一步包括一個合成器,可操作的接到該神經(jīng)網(wǎng)絡(luò),響應(yīng)該聲頻表示物產(chǎn)生一個可聞信號。
3.一種車輛導(dǎo)航系統(tǒng),其特征在于,包括由多個文本流組成的定向數(shù)據(jù)庫;一個文本/音素處理器,可操作地接到該定向數(shù)據(jù)庫,其中該文本/音素處理器翻譯該多個文本本流的一個文本流為一系列音素表示物;一個持續(xù)期間處理器,可操作地接到該文本/音素處理器,其中該持續(xù)期間處理器對該文本流產(chǎn)生持續(xù)期間數(shù)據(jù);一個預(yù)處理器,其中該預(yù)處理器變換該系列音素表示和該持續(xù)期間數(shù)據(jù)為一系列音素幀,其中該系列音素幀的每個音素幀具有固定持續(xù)期間并且具有一個前后關(guān)系描述,和其中該前后關(guān)系描述是基于該系列音素幀的每音素幀和該系列音素幀的至少一些其它音素幀;一個神經(jīng)網(wǎng)絡(luò),其中該神經(jīng)網(wǎng)絡(luò)基于該前后關(guān)系描述為該系列音素幀的一個音素幀產(chǎn)生一個聲頻表示物。
4.根據(jù)權(quán)利要求3的車輛導(dǎo)航系統(tǒng),其特征在于,進(jìn)一步包括一個合成器,可操作地接到該神經(jīng)網(wǎng)絡(luò),響應(yīng)該聲頻表示物產(chǎn)生一個可聞信號。
全文摘要
首先訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)106使用記錄的聲頻消息204,文本可變換為可聞信號,如話音。為了開始訓(xùn)練,記錄的聲頻消息被變換為具有固定持續(xù)期間213的一系列聲頻幀205。然后,每個聲頻幀被指定一個音素表示物203和一個目標(biāo)聲頻表示物208,該音素表示物203是一個二進(jìn)制字,代表該聲頻幀的音素和發(fā)音特征,而該目標(biāo)聲頻表示物208是一個聲頻信息如音高和能量的矢量。在訓(xùn)練后,神經(jīng)網(wǎng)絡(luò)106用于將文本變換為話音。首先,被變換的文本被翻釋為與該音素表示物208相同形式的并且具有固定持續(xù)期間213的一系列音素幀401。然后響應(yīng)包括一些音素幀401的前后關(guān)系描述207,該神經(jīng)網(wǎng)絡(luò)產(chǎn)生聲頻表示物。然后該聲頻表示物由合成器107變換為話音波形。
文檔編號G06N3/00GK1275746SQ99127510
公開日2000年12月6日 申請日期1999年12月29日 優(yōu)先權(quán)日1994年4月28日
發(fā)明者奧爾漢·卡拉里, 杰拉爾德·愛德華·科里恩, 艾拉·艾倫·拉爾森 申請人:摩托羅拉公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1