轉(zhuǎn)換語音的方法

文檔序號：2819542閱讀：473來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：轉(zhuǎn)換語音的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及轉(zhuǎn)換語音的方法，該方法中，由第一說話者產(chǎn)生的語音信號被取樣用于計算反射系數(shù)。
有語音障礙的人的語音通常不清楚，而且聽起來很難識別。語音障礙人的語音質(zhì)量會產(chǎn)生問題，尤其是當(dāng)用通信裝置或通信網(wǎng)把語音障礙人產(chǎn)生的語音信號發(fā)送并轉(zhuǎn)換到接收機。由于通信網(wǎng)有限的傳輸容量和聲學(xué)特性，所以語音障礙人產(chǎn)生的語音對聽者來說仍較難識別和聽懂。另一方面，無論是否用通信裝置或通信網(wǎng)傳送語音信號，對聽者來說總是很難識別并明白語音障礙人的語音。
此外，在需要改變說話者產(chǎn)生的語音時，即校正語言聲音為更好的聲音格式或把說話者產(chǎn)生的語音轉(zhuǎn)換成另一說話者的聲音，這樣，第一說話者的語音聽起來就和第二說話者的語音一樣。
本發(fā)明的目的是提供一種方法，使說話者的語音能以這樣的方式被改變或校正，即使聽者聽到的語音或校正或改變后的語音信號對應(yīng)于另一說話者產(chǎn)生的語音，或以某一希望的方式校正的同一說話者的語音。
這種新穎的轉(zhuǎn)換語音的方式就是根據(jù)本發(fā)明所提供的方法，其特征包括下列步驟根據(jù)反射系數(shù)計算模擬第一說話者聲道(vocal tract)的無損耗管的圓柱部分的截面積的特征，第一說話者的無損耗管的圓柱部分的截面積的所述特征與至少一個以前的講話者各個存儲的模擬該說話者聲道的無損耗管的圓柱部分的截面積的特定聲音特征相比較，以識別聲音。為給所識別的聲音提供各自的識別符，計算對所述聲音模擬說話者聲道的無損耗管的圓柱部分的截面積地存儲的特性和同一聲音的各自的后序特性之間的差值，根據(jù)所識別的聲音的識別符，在存儲器中檢索模擬同樣聲音的那個說話者的聲道的無損耗管的圓柱部分的截面積的第二說話者的特定說話特性，通過把所述差值和模擬同樣聲音的那個說話者的聲道的無損耗管的圓柱部分的截面積的第二說話者的特定說話特征相加構(gòu)成一個和值，根據(jù)該和值計算出新的反射系數(shù)，從新的反射系數(shù)中產(chǎn)生新的語音信號。
本發(fā)明基于下列思想，通過LPC(線性預(yù)測編碼)的方法分析語音信號，產(chǎn)生一套模擬說話者聲道的參數(shù)，這些參數(shù)通常為反射系數(shù)的特征。根據(jù)本發(fā)明，聲音是通過比較從要轉(zhuǎn)換的聲音的反射系數(shù)中計算出的無損耗管的圓柱部分的截面積和幾個說話者以前接收的各自對同一聲音計算的圓柱的截面積，從要轉(zhuǎn)變的語音中識別的。此后，對每個說話者，每個聲音的截面積計算某個特征，通常是平均值。然后，從這個特征中減去對應(yīng)于每個聲音的聲音參數(shù)，即說話者的無損耗聲道的圓柱的截面積，提供要傳送到下一轉(zhuǎn)換步的差值以及該聲音的識別符。在此之前，對應(yīng)于要模擬的說話者(即，目標(biāo)人)的每個聲音識別符的聲音參數(shù)的特征已經(jīng)確定，從而通過把所述差值和在存儲器中檢索到的目標(biāo)人的同一聲音的聲音參數(shù)的特征相加，原始聲音就可以被再現(xiàn)，就好象是目標(biāo)人發(fā)出的聲音。通過把那個差值相加，語言的聲音，即不包括在基于識別符的聲音中的聲音間的信息被產(chǎn)生，其中對應(yīng)于那些聲音，即通常為說話者聲道的無損耗管的圓柱的截面積的平均值的特征已在存儲器中被找到。
這種轉(zhuǎn)換語音的方法的優(yōu)點是有可能以一種方式校正在語言聲音中發(fā)生的以及由說話者的物理特性引起的錯誤和不準(zhǔn)確，使語音能更容易地被聽者聽懂。
而且，根據(jù)本發(fā)明的方法，有可能把一個說話者的語音轉(zhuǎn)換成聽起來象另一說話人的語音。
本發(fā)明所使用的無損耗管模型的圓柱部分的截面積可很容易地以常規(guī)的語音編碼規(guī)則從所謂反射系數(shù)中計算出來。自然，該面積的其它截面尺寸，如半徑或直徑也可確定為一個參考參數(shù)。另一方面，除圓形之外，管的橫截面也可以是其它形狀。
下面將參照附圖詳細(xì)說明本發(fā)明。其中

圖1和2通過包括模擬說話者聲管的無損耗管的順序的圓柱部分的無損耗管說明說話者聲道的模型;
圖3說明了說話期間無損耗管是如何改變的，圖4示出了聲音是如何被識別并轉(zhuǎn)換到與所希望的參數(shù)一致的流程圖;
圖5a是說明在語言轉(zhuǎn)換器的聲級(sound level)上根據(jù)本發(fā)明的語音編碼的框圖，圖5b是通過語音信號轉(zhuǎn)換方法說明根據(jù)本發(fā)明在一個聲級上語音信號的再現(xiàn)步驟的處理圖，圖6是實現(xiàn)根據(jù)本發(fā)明的方法的一個實施例的語音轉(zhuǎn)換器的功能和簡化的框圖。
圖1示出了包括順序的圓柱部分C1到C8且構(gòu)成人的聲道的粗模型的無損耗管模型的透視圖。圖1的無損耗管模型的側(cè)視圖示于圖2。人的聲道通常指由人的聲帶、喉、咽和唇限定的聲音通道，通過該通道人產(chǎn)生語音聲音。在圖1和2中，圓柱部分C1說明了緊接在聲帶間聲門后的聲道部分的形狀，圓柱部分C8指示出在唇部聲道的形狀，圓柱部分C2到C7說明聲門和唇間離散的聲道部分的形狀。當(dāng)產(chǎn)生不同的聲音時，聲道的形狀在說話時通常是變化的。同樣，代表聲道的各個部分的離散的圓柱C1到C8的直徑和面積在說話期間也是變化的。但是，同一發(fā)明人以前的國際申請Wo.92/20064中公開了這種特征，從大量的瞬時聲道形狀計算出的聲道的平均形狀是每個說話者的一個不變的特征，該不變的特征用于在電信系統(tǒng)中聲音更緊湊地傳輸，用于識別說話者或用于轉(zhuǎn)換說話者的語音。因此，長時間內(nèi)從聲道的無損耗管模型的圓柱C1到C8的截面積的瞬時值計算的圓柱部分C1到C8的截面積的平均值也是相當(dāng)準(zhǔn)確的常數(shù)。而且，圓柱的截面尺寸的值也是由實際聲道的值確定的，因此是說話者相當(dāng)準(zhǔn)確的常數(shù)特征。
根據(jù)本發(fā)明的方法利用在現(xiàn)有技術(shù)中線性預(yù)測編碼(LPC)中作為臨時結(jié)果產(chǎn)生的所謂反射系數(shù)，即具有與聲道的形狀和結(jié)構(gòu)有特定聯(lián)系的所謂PARCOR-系數(shù)rk。聲道的無損耗管模型的圓柱部分Ck的反射系數(shù)rk和面積Ak間的聯(lián)系遵循公式(1)其中K＝1，2，3……產(chǎn)生用于本發(fā)明的反射系數(shù)的LPC分析也被用在許多已知的語音編碼方法中。
接下來將參閱圖4總的說明對理解本發(fā)明很重要的那部分方法的步驟。在圖4中，輸入信號IN在方框10中以8KHz的取樣頻率被取樣，形成一個8比特的取樣序列S0。在方框11中，從樣值中抽取直流(DC)分量，以消除編碼中可能出現(xiàn)的干擾側(cè)音。此后，取樣信號在方框12中由第一階FIR(有限脈沖響應(yīng))濾波器通過加權(quán)高信號頻率進行預(yù)加重。在方框13中，樣值被分割成每幀有160個樣值的幀，每幀的持續(xù)期為20ms。
在方框14中，通過自相關(guān)的方法在每幀上進行LPC分析來模擬語音信號譜，特征級為P＝8，然后，用下列公式(2)從幀中計算自相關(guān)函數(shù)ACF的P+1值其中K＝0，1，…8除自相關(guān)函數(shù)外，也可能用其它合適的函數(shù)，如協(xié)方差函數(shù)。用舒爾遞推或其它合適的遞推方法從所得到的自相關(guān)函數(shù)的值中計算出語音編碼器中使用的短期分析濾波器的8個所謂反射系數(shù)rk的值。舒爾遞推每20ms產(chǎn)生新的反射系數(shù)。在本發(fā)明的一個實施例中，所述系數(shù)包括16比特，它們的數(shù)目為8。如果需要，可通過較長時間地使用舒爾遞推，使反射系數(shù)的數(shù)目增加。
在第16步，通過圓柱部分模擬說話者聲道的無損耗管的每個圓柱部分Ck的截面積Ak從每幀算出的反射系數(shù)rk中得出。由于舒爾遞推每20ms產(chǎn)生新的反射系數(shù)，所以對每個圓柱部分Ck每秒將獲得50個截面積。算出無損耗管的圓柱的截面積后，在第17步通過比較這些算出的圓柱體的截面積和參數(shù)存儲器中所存的圓柱的截面積的值，識別語音信號的聲音。這一比較操作在結(jié)合圖5a中的標(biāo)號60、60A、61A將詳細(xì)給出。在第18步，在存儲器中查找第一說話者對同一聲音的以前的參數(shù)的平均值，從這些平均值中減去從同一說話者收到的樣值的瞬時參數(shù)，從而產(chǎn)生一個差值，存在存儲器中。
然后，在第19步，在存儲器中查找預(yù)存儲的目標(biāo)人的有關(guān)聲音的幾個樣值的圓柱體截面積的平均值，目標(biāo)人是其語音將被模仿的人。目標(biāo)人也可以是例如第一個說話者，但用這種方法說話者的發(fā)音錯誤通過用這種轉(zhuǎn)換步驟，以及新的更精確的參數(shù)被校正，通過上述參數(shù)，說話者的語音可被轉(zhuǎn)換成例如更清楚或更容易識別。
此后在第20步，在上述第18步中計算出的差值加到該目標(biāo)人的同一聲音的圓柱體截面積的平均值上。在第21步，從該和值中計算反射系數(shù)，該反射系數(shù)在步22中進行LPC解碼，解碼產(chǎn)生的電語音信號加到例如麥克風(fēng)或數(shù)據(jù)通信系統(tǒng)上。
在圖5a所示的本發(fā)明的實施例中，以這樣的方式描述用于在一個聲級上編碼語音的分析，即根據(jù)在要分析的語音信號的預(yù)定的聲音中產(chǎn)生的瞬時無損耗管模型的圓柱部分的面積計算模擬聲道的無損耗管的圓柱部分的截面積的平均值。一個聲音的持續(xù)時間很長，所以從語音信號中出現(xiàn)的單個聲音可計算出幾個甚至數(shù)十個暫時連續(xù)的無損耗管模型。這示于圖3，示出了4個暫時連續(xù)的瞬時無損耗管模型S1到S4。從圖3中可清楚地看出無損耗管的單個圓柱體的半徑和截面積隨時間的變化。例如，瞬時模型S1、S2和S3可在同一聲音期間被粗分類產(chǎn)生，從中計算出平均值。而模型S4明顯不同且與另一聲音相聯(lián)，因此在平均時不予考慮。
接下來，將參照圖5a的框圖描述在一個聲級上的語音轉(zhuǎn)換。雖然語音可借助于單個聲音被編碼并轉(zhuǎn)換，但在轉(zhuǎn)換中用所有這些聲音也是合理的，這種轉(zhuǎn)換希望以這樣的方式進行，即這些聲音聽起來是新的聲音。例如，把語音轉(zhuǎn)換成聽起來象是另一個說話者說的，而不是實際說話者說的，或者例如以這樣的方式提高語音質(zhì)量，和原始的未轉(zhuǎn)換的語音相比，使聽者更清楚地區(qū)別被轉(zhuǎn)換的語音的聲音。在語音中，轉(zhuǎn)換可用于例如所有的遠(yuǎn)音和輔音。
如果瞬時無損耗管59的每個圓柱部分的截面的尺寸在一個已知的說話者的各個聲音的預(yù)定存儲的有限值內(nèi)，語音信號中產(chǎn)生的瞬時無損耗管模型59(圖5a)可在方框52中被識別以對應(yīng)一個特定聲音。這些特定聲音和特定圓柱有限值被存在產(chǎn)生一個所謂聲音偽裝(mask)的所謂量化表54中。在圖5a中，標(biāo)號60和61說明所述特定聲音和特定圓柱有限值是如何在要識別的瞬時聲道模型59需適合的允許區(qū)域60A和61A(無陰影區(qū)域)中為每個聲音產(chǎn)生一個偽裝或模型。在圖5a中，瞬時聲道模型59適合聲音偽裝60，而顯然不適合聲音偽裝61。這樣，方框52用作一類聲濾波器，它把聲道模型分成正確的聲音組a、e、i等。聲音被識別后，根據(jù)在圖5a的框52中識別的聲音的識別符53在參數(shù)存儲器55中查找對應(yīng)于每個聲音，如a、e、i、k的參數(shù)，這些參數(shù)是無損耗管的圓柱的截面積的特定聲音特征，如平均值。在聲音識別方框52中，通過在參數(shù)存儲器55中查找對應(yīng)于每個瞬時聲音的參數(shù)，已可能對每個要識別的聲音提供一個識別符53。這些參數(shù)可輸入到一個減法裝置，根據(jù)圖5a的方框56，借助聲音識別符，即無損耗管圓柱的截面積的特征，通常是平均值，計算在參數(shù)存儲器中查找的聲音參數(shù)和所述聲音的瞬時值之間的差值。這個差值進而被送去以圖5b的方式相加并解碼，這將結(jié)合所述附圖詳細(xì)描述。
圖5b是說明在本發(fā)明的語音轉(zhuǎn)換方法中，在一個聲級上再現(xiàn)語音信號的處理圖，接收被識別的聲音的識別符500，并根據(jù)該聲音參數(shù)500在參數(shù)存儲器501中查尋與該聲音相應(yīng)的參數(shù)，并在502處提供給求和器503，通過對該差值和參數(shù)求和產(chǎn)生新的反射系數(shù)。通過解碼新的反射系數(shù)計算新的語音信號。這種通過相加產(chǎn)生語音信號將在圖6和相應(yīng)的解釋中更詳細(xì)地介紹。
圖6是實現(xiàn)根據(jù)本發(fā)明的方法的一個實施例的語音轉(zhuǎn)換器600的功能的和簡化的框圖。第一個說話者(即將被模仿的說話者)的語音通過麥克風(fēng)601到達(dá)語音轉(zhuǎn)換器601。轉(zhuǎn)換器也可連接到某個數(shù)據(jù)通信系統(tǒng)，從而使要被轉(zhuǎn)換的語音信號作為一個電信號輸入。由麥克風(fēng)601轉(zhuǎn)換的語音信號在602處進行LPC編碼(編碼)，并從中為每個聲音計算反射系數(shù)。信號的其它部分在603處被發(fā)出以供后面在615處的解碼。所計算的反射系數(shù)被發(fā)送到一個單元604，用于特征計算，該單元根據(jù)反射系數(shù)為每個聲音計算模擬說話者的聲道的無損耗管的圓柱的截面積的特征，聲音識別單元605通過把根據(jù)第一說話者(即要被模仿的說話者)產(chǎn)生的聲音的反射系數(shù)計算的說話聲道的無損耗管模型的圓柱部分的截面積與存在某存儲器中的至少一個以前的說話者的各個以前識別的特定聲音值相比較來識別聲音。比較的結(jié)果得到所識別的聲音的識別符、借助所識別的聲音的識別符，在607和609處，在說話者的參數(shù)表608中尋找參數(shù)，在表中已存儲了該第一說話人(要被模仿的)對同一聲音的各個參數(shù)，如平均值，減法裝置606從中減去僅從同一說話人得到的樣值的瞬時參數(shù)。這樣就產(chǎn)生了一個差值，被存在存儲器中。
此外，借助在方框605中識別的聲音的識別符，在610、612處從目標(biāo)人，即第一說話人的語音要轉(zhuǎn)換成的第二人的參數(shù)表611中查尋對應(yīng)于那個識別的聲音的特征，例如根據(jù)反射系數(shù)計算的模擬說話人聲道的無損耗管的截面積的特定聲音平均值，并提供給加法器613。對于加法器也已在617處從減法裝置606輸入由減法裝置計算的差值，該差值通過加法器617加到在目標(biāo)人的參數(shù)表611中查尋到的特征上，例如加到根據(jù)說話者聲道的反射系數(shù)計算的模擬說話者聲道的無損耗管的圓柱的截面積的聲音特定平均值。然后產(chǎn)生一個總和，在反射系數(shù)的再現(xiàn)方框614中計算反射系數(shù)。而且，從反射系數(shù)中產(chǎn)生一個信號，其中第一說話者的語音信號以這樣的方式被轉(zhuǎn)換成聲結(jié)構(gòu)，使聽者相信他聽到了第二說話者的語音，雖然實際的說話者是其語音已被轉(zhuǎn)換的第一說話者，所以其語音聽起來和第二說話者一樣。這個語音信號進一步加到LPC解碼器615，其中這一語音信號被LPC解碼并與該語音信號的LPC未編碼部分相加，產(chǎn)生最終的語音信號，該信號在揚聲器616中被轉(zhuǎn)換成聲結(jié)構(gòu)。在這一步，該語音信號也可僅保留電結(jié)構(gòu)，并被轉(zhuǎn)送到某個數(shù)據(jù)或電信系統(tǒng)，以進一步發(fā)送或轉(zhuǎn)送。
根據(jù)本發(fā)明的上述方法，在實際中例如可以用軟件通過常規(guī)信號處理器來實現(xiàn)。
附圖和相關(guān)的解釋僅僅意在說明本發(fā)明的思想。致于具體細(xì)節(jié)，根據(jù)本發(fā)明的轉(zhuǎn)換語音的方法可在權(quán)利要求的范圍內(nèi)變化。顯然，上述本發(fā)明是主要結(jié)合語音模仿進行描述的，但所述語音轉(zhuǎn)換器也可用于某種語音轉(zhuǎn)換。
權(quán)利要求
1.一種轉(zhuǎn)換語音的方法，其中由第一說話人產(chǎn)生的語音信號(IN)被取樣，以計算反射系數(shù)(rk)，該方法的特征在于下列步驟從反射系數(shù)(rk)中計算(16；51；604)模擬第一說話人聲道的無損耗管(圖1和2)的截面積的特征，第一說話者的無損耗管(圖1和2)的圓柱部分的截面積(圖2；AK)的所述特征與用于聲音識別的模擬說話者的聲道的無損耗管的圓柱部分的截面積(AK)的至少一個以前說話者的各個存儲的特定聲音特征相比較(17；52；605)，以給所識別的聲音提供各自的識別符，對所述聲音計算模擬說話者聲道的無損耗管的圓柱部分的截面積(圖2；AK)的存儲的特征與同一聲音的后序各個特征的差；根據(jù)所識別的聲音的識別符在存儲器(611)中查找對同一聲音的模擬說話者的聲道的無損耗管的圓柱部分的截面積(圖2；AK)的第二說話者的特定說話的特征，通過把所述差值(617)與對同一聲音的模擬那個說話者的聲道的無損耗管的圓柱部分的截面積的第二說話者的說話者特定特征(612)相加構(gòu)成(20；613)一個和值；根據(jù)該和值計算新的反射系數(shù)，以及從所述新的反射系數(shù)中產(chǎn)生(615)一個新的語音信號(616)。
2.根據(jù)權(quán)利要求1的方法，其特征在于對代表第一說話人的同一聲音的無損耗管的物理尺寸計算一個特征，并存在存儲器(608)中。
全文摘要
本發(fā)明涉及語音轉(zhuǎn)換的方法，其中根據(jù)說話人的語音信號計算反射系數(shù)，從中計算模擬說話人聲管的無損耗管的圓柱部分的橫截面積的特征，從所述特征中識別聲音并提供識別符。而后，計算代表所述聲音的特征與代表同一聲音的后序特征之差，根據(jù)識別符在存儲器中查尋對同一聲音模擬那個說話者的聲道的第二說話人的說話者特定特征，通過把所述差值和第二說話者的特定特征相加得到和值，算出新的反射系數(shù)，產(chǎn)生新的語音信號。
文檔編號G10L21/02GK1102291SQ94190055
公開日1995年5月3日申請日期1994年2月10日優(yōu)先權(quán)日1993年2月12日
發(fā)明者馬科·萬斯卡申請人:諾基亞電信公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馬科·萬斯卡
技術(shù)所有人：諾基亞電信公司
我是此專利的發(fā)明人

上一篇：包括至少一個編碼器的傳輸系統(tǒng)的制作方法
上一篇：發(fā)送和接收編碼話音的方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音轉(zhuǎn)換文字軟件相關(guān)技術(shù)

語音轉(zhuǎn)文字轉(zhuǎn)換器相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

轉(zhuǎn)換語音的方法