專利名稱:語(yǔ)音信號(hào)內(nèi)插的裝置、方法和程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語(yǔ)音信號(hào)內(nèi)插的裝置、方法和程序。
背景技術(shù):
如今音樂(lè)節(jié)目等通過(guò)有線或射頻廣播或通信廣泛地分布。如果頻帶太寬,為了廣播音樂(lè)等類似的節(jié)目,防止音樂(lè)數(shù)據(jù)量過(guò)大并拓寬所占頻帶是很重要的。為避免這個(gè)問(wèn)題,音樂(lè)數(shù)據(jù)在利用結(jié)合在頻率掩蔽方法的語(yǔ)音壓縮格式進(jìn)行壓縮后被分布,比如MP3(MPEG1音頻層3)格式和AAC(高級(jí)音頻編碼)格式。
頻率掩蔽方法是利用一種現(xiàn)象來(lái)壓縮語(yǔ)音的,該現(xiàn)象即人類很難聽(tīng)到低級(jí)聲音信號(hào)的頻譜成分,所述低級(jí)聲音信號(hào)的頻率接近高級(jí)聲音信號(hào)的頻譜成分。
圖4(b)表示利用頻率掩蔽方法壓縮如圖4(a)所示的頻譜的原始聲音的結(jié)果圖,(圖4(a)表示獲得由以MP3格式壓縮人類產(chǎn)生的語(yǔ)音的頻譜的一個(gè)示例)。
如圖所示,如同由頻率掩蔽方法壓縮的語(yǔ)音,一般具有2KHz或者更高的頻率的成分大量丟失,甚至接近提供頻譜峰值的、低于2KHz的成分(語(yǔ)音的基頻成分和諧波成分的頻譜)也大量丟失。
在日本未決的公開(kāi)號(hào)為2001-356788專利公開(kāi)的方法中,內(nèi)插壓縮的語(yǔ)音頻譜來(lái)獲得原始語(yǔ)音頻譜。根據(jù)這個(gè)方法,內(nèi)插頻帶是從壓縮后的頻譜剩余中獲得,表示與在內(nèi)插頻帶中相同的分布的頻譜成分被插入到由于壓縮而丟失頻譜成分的頻帶,以使匹配整個(gè)頻譜的包絡(luò)線。
如果用日本未決的公開(kāi)號(hào)為2001-356788專利所公開(kāi)的方法內(nèi)插圖4(b)所示的頻譜,可獲得如圖4(c)所示的頻譜,其與原始語(yǔ)音的頻譜很不相同。即使具有這樣頻譜的語(yǔ)音被重放,只會(huì)獲得非常不自然的語(yǔ)音。這個(gè)問(wèn)題一般與由人類產(chǎn)生的并用這個(gè)方法壓縮的語(yǔ)音有關(guān)。
本發(fā)明是在上述環(huán)境下產(chǎn)生的,且本發(fā)明的目的在于提供一種頻率內(nèi)插裝置和方法來(lái)從壓縮的語(yǔ)音中恢復(fù)人聲并保持高的音質(zhì)。
發(fā)明內(nèi)容
為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明第一方面,提供了一種語(yǔ)音信號(hào)內(nèi)插裝置,其包括基音波形信號(hào)產(chǎn)生裝置,用來(lái)獲取代表語(yǔ)音波形的輸入語(yǔ)音信號(hào)并且使與所述的輸入語(yǔ)音信號(hào)的單位基音對(duì)應(yīng)的一段時(shí)長(zhǎng)充分相同,以將所述的輸入語(yǔ)音信號(hào)轉(zhuǎn)換為基音波形信號(hào);頻譜獲得裝置,用來(lái)根據(jù)基音波形信號(hào)產(chǎn)生代表所述輸入語(yǔ)音信號(hào)頻譜的數(shù)據(jù);平均裝置,用來(lái)根據(jù)由所述頻譜獲得裝置產(chǎn)生的多個(gè)數(shù)據(jù),產(chǎn)生代表所述輸入語(yǔ)音信號(hào)的各個(gè)頻譜成分平均值分布的平均數(shù)據(jù);和語(yǔ)音信號(hào)恢復(fù)裝置,用來(lái)產(chǎn)生輸出語(yǔ)音信號(hào),其代表具有由所述平均裝置產(chǎn)生的平均數(shù)據(jù)表征的頻譜的語(yǔ)音。
所述的基音波形信號(hào)產(chǎn)生裝置包括可變?yōu)V波器,它的頻率特征被控制為可變的,可變?yōu)V波器對(duì)所述輸入語(yǔ)音信號(hào)進(jìn)行濾波以獲得輸入語(yǔ)音的基頻成分;濾波器特征確定裝置,用于根據(jù)所述可變?yōu)V波器獲得的基頻成分來(lái)識(shí)別輸入語(yǔ)音的基頻、并控制所述可變?yōu)V波器使得頻率特征截止除了在識(shí)別的基頻附近的頻率分量之外的頻率成分;
基音獲得裝置,用來(lái)根據(jù)由所述可變?yōu)V波器獲得的基頻成分值,分割所述輸入語(yǔ)音信號(hào)成在與單位基音相應(yīng)的段內(nèi)的一語(yǔ)音信號(hào);和音長(zhǎng)固定裝置,用來(lái)通過(guò)以充分相同的采樣數(shù)目來(lái)采樣所述輸入語(yǔ)音信號(hào)的每段來(lái)產(chǎn)生基音波形信號(hào),該基音波形信號(hào)具有在每段中充分相同的時(shí)長(zhǎng)。
所述濾波器特征確定裝置可包括交叉檢測(cè)裝置,用來(lái)識(shí)別所述可變?yōu)V波器獲得的基頻成分達(dá)到預(yù)定值的定時(shí)周期,并根據(jù)所述識(shí)別的周期來(lái)識(shí)別基頻。
所述濾波器特征確定裝置可包括平均基音檢測(cè)裝置,用來(lái)根據(jù)所述輸入語(yǔ)音信號(hào)、在被濾波前檢測(cè)所述輸入語(yǔ)音信號(hào)代表的語(yǔ)音的基音的時(shí)長(zhǎng);和判斷裝置,判斷所述交叉檢測(cè)裝置識(shí)別的周期和所述平均基音檢測(cè)裝置識(shí)別的基音的時(shí)長(zhǎng)是否彼此相差一個(gè)預(yù)定量或更多,如果判斷所述周期和所述時(shí)長(zhǎng)相同,控制所述可變?yōu)V波器使得頻率特征截止除了由所述交叉檢測(cè)裝置識(shí)別的基頻附近的頻率分量之外的頻率成分,而如果判斷周期和時(shí)長(zhǎng)是不同,控制所述可變?yōu)V波器使得頻率特征截止除了從由所述平均基音檢測(cè)裝置識(shí)別的基音時(shí)長(zhǎng)中識(shí)別的基頻附近的頻率分量之外的頻率成分。
所述平均基音檢測(cè)裝置包括倒頻譜分析裝置,用來(lái)計(jì)算由所述可變?yōu)V波器濾波前的輸入語(yǔ)音信號(hào)的倒頻譜具有最大值處的頻率;自相關(guān)分析裝置,用來(lái)計(jì)算由所述可變?yōu)V波器濾波前的輸入語(yǔ)音信號(hào)的周期圖具有最大值處的頻率;平均計(jì)算裝置,用來(lái)根據(jù)所述倒頻譜分析裝置和所述自相關(guān)分析裝置計(jì)算的頻率,計(jì)算所述輸入語(yǔ)音信號(hào)表示的語(yǔ)音的基音平均值,并識(shí)別所述已計(jì)算的平均值作為語(yǔ)音的基音的時(shí)長(zhǎng)。
根據(jù)本發(fā)明的第二方面,提供了一種語(yǔ)音信號(hào)內(nèi)插方法,其包括步驟獲取代表語(yǔ)音波形的輸入語(yǔ)音信號(hào),并且使與所述的輸入語(yǔ)音信號(hào)的單位基音對(duì)應(yīng)的一段的時(shí)長(zhǎng)充分相同,以將所述的輸入語(yǔ)音信號(hào)轉(zhuǎn)換為基音波形信號(hào);根據(jù)所述基音波形信號(hào)來(lái)產(chǎn)生代表所述輸入語(yǔ)音信號(hào)頻譜的數(shù)據(jù);根據(jù)多個(gè)數(shù)據(jù),產(chǎn)生代表所述輸入語(yǔ)音信號(hào)各個(gè)的頻譜成分的平均值分布的頻譜的平均數(shù)據(jù);和產(chǎn)生輸出語(yǔ)音信號(hào),其具有由所述平均數(shù)據(jù)表征的頻譜的語(yǔ)音。
根據(jù)本發(fā)明的第三方面,提供一種用于使計(jì)算機(jī)進(jìn)行如下操作的程序基音波形信號(hào)產(chǎn)生裝置,用來(lái)獲取代表語(yǔ)音波形的輸入語(yǔ)音信號(hào),并且使與所述的輸入語(yǔ)音信號(hào)的單位基音對(duì)應(yīng)的一段的時(shí)長(zhǎng)充分相同,以將所述的輸入語(yǔ)音信號(hào)轉(zhuǎn)換為基音波形信號(hào);頻譜獲得裝置,用來(lái)根據(jù)所述基音波形信號(hào)產(chǎn)生代表所述輸入語(yǔ)音信號(hào)的頻譜的數(shù)據(jù);平均裝置,用來(lái)根據(jù)由所述頻譜獲得裝置產(chǎn)生的多個(gè)數(shù)據(jù),產(chǎn)生代表所述輸入語(yǔ)音信號(hào)的各個(gè)頻譜成分平均值分布的頻譜的平均數(shù)據(jù);和語(yǔ)音信號(hào)恢復(fù)裝置,用來(lái)產(chǎn)生輸出語(yǔ)音信號(hào),其具有由所述平均裝置產(chǎn)生的平均數(shù)據(jù)表征的頻譜的語(yǔ)音。
圖1表示根據(jù)本發(fā)明一實(shí)施例的語(yǔ)音信號(hào)內(nèi)插裝置的結(jié)構(gòu)圖;圖2表示基音獲得單元的結(jié)構(gòu)框圖;圖3表示平均單元的結(jié)構(gòu)框圖;圖4(a)表示原始語(yǔ)音頻譜一示例圖,圖4(b)表示利用頻率掩蔽方法壓縮圖4(a)所示頻譜獲得的頻譜圖,和圖4(c)表示利用傳統(tǒng)方法、通過(guò)內(nèi)插具有圖4(a)所示頻譜信號(hào)而獲得的頻譜圖;圖5表示利用圖1所示語(yǔ)音內(nèi)插裝置,內(nèi)插具有圖4(a)所示頻譜信號(hào)獲得的信號(hào)頻譜圖;圖6(a)表示具有圖4(a)所示頻譜的語(yǔ)音的基頻成分和諧波成分的強(qiáng)度的時(shí)間變化圖,圖6(b)表示具有圖4(b)所示頻譜的語(yǔ)音的基頻成分和諧波成分的強(qiáng)度的時(shí)間變化圖;圖7表示具有圖5所示頻譜的語(yǔ)音的基頻成分和諧波成分的強(qiáng)度的時(shí)間變化圖。
具體實(shí)施例方式
參照附圖,將描述本發(fā)明的實(shí)施例。
圖1是根據(jù)本發(fā)明一實(shí)施例的語(yǔ)音信號(hào)內(nèi)插裝置的結(jié)構(gòu)圖。如圖所示,這個(gè)語(yǔ)音信號(hào)內(nèi)插裝置由語(yǔ)音數(shù)據(jù)輸入單元1,基音獲得單元2,音長(zhǎng)固定單元3,子帶分割單元4,平均單元5,子帶合成單元6,基音恢復(fù)單元7和語(yǔ)音輸出單元8構(gòu)成。
語(yǔ)音數(shù)據(jù)輸入單元1由記錄介質(zhì)驅(qū)動(dòng)器組成,諸如軟盤(pán)驅(qū)動(dòng)器,MO(磁光盤(pán))驅(qū)動(dòng)器和CD-R(可記錄密度盤(pán))驅(qū)動(dòng)器來(lái)讀取記錄在記錄介質(zhì)如軟盤(pán),MO和CD-R上的數(shù)據(jù)。
語(yǔ)音數(shù)據(jù)輸入單元1獲得代表語(yǔ)音波形的語(yǔ)音數(shù)據(jù)并將其提供給基音固定單元3。
語(yǔ)音數(shù)據(jù)具有是以PCM(脈沖編碼調(diào)制)進(jìn)行調(diào)制的數(shù)字信號(hào)格式,并假定語(yǔ)音數(shù)據(jù)代表以恒定周期抽樣的語(yǔ)音,所述恒定周期充分低于語(yǔ)音基音。
基音獲得單元2,音長(zhǎng)固定單元3,子帶分割單元4,子帶合成單元6和基音恢復(fù)單元7每個(gè)由數(shù)據(jù)處理設(shè)備構(gòu)成,如DSP(數(shù)字信號(hào)處理器)和CPU(中央處理單元)。
基音獲得單元2,音長(zhǎng)固定單元3,子帶分割單元4,子帶合成單元6和基音恢復(fù)單元7的部分或整個(gè)功能可由單一數(shù)據(jù)處理設(shè)備實(shí)現(xiàn)。
如圖2所示,基音獲得單元2從功能上包括倒頻譜分析單元21,自相關(guān)分析單元22,權(quán)重計(jì)算單元23,BPF(帶通濾波器)系數(shù)計(jì)算單元24,BPF 25,過(guò)零點(diǎn)分析單元26,波形相關(guān)分析單元27和相位調(diào)整單元28。
倒頻譜分析單元21,自相關(guān)分析單元22,權(quán)重計(jì)算單元23,BPF(帶通濾波器)系數(shù)計(jì)算單元24,BPF 25,過(guò)零點(diǎn)分析單元26,波形相關(guān)分析單元27和相位調(diào)整單元28中的部分或整體可由單一數(shù)據(jù)處理設(shè)備實(shí)現(xiàn)。
倒頻譜分析單元21對(duì)從語(yǔ)音數(shù)據(jù)輸入單元1提供的語(yǔ)音數(shù)據(jù)進(jìn)行倒頻譜分析,識(shí)別代表語(yǔ)音數(shù)據(jù)的語(yǔ)音的基頻,并產(chǎn)生代表識(shí)別基頻的數(shù)據(jù)來(lái)提供給權(quán)重計(jì)算單元23。
更具體地,當(dāng)語(yǔ)音數(shù)據(jù)由語(yǔ)音數(shù)據(jù)輸入單元1提供時(shí),倒頻譜分析單元21首先將語(yǔ)音數(shù)據(jù)的強(qiáng)度轉(zhuǎn)變成完全等于原始值對(duì)數(shù)的數(shù)值(對(duì)數(shù)的底是任意的,比如可用常用對(duì)數(shù))。
接下來(lái),倒頻譜分析單元21通過(guò)快速傅立葉變換(或其他任意產(chǎn)生代表傅立葉變換離散變量數(shù)據(jù)的方法)計(jì)算轉(zhuǎn)換的語(yǔ)音數(shù)據(jù)的頻譜(即倒頻譜)。
在提供倒頻譜的最大值的頻率中的最低頻率被識(shí)別為基頻,并產(chǎn)生代表識(shí)別的基頻的數(shù)據(jù)且提供給權(quán)重計(jì)算單元23。
當(dāng)語(yǔ)音數(shù)據(jù)從語(yǔ)音數(shù)據(jù)輸入單元1提供時(shí),自相關(guān)分析單元22根據(jù)語(yǔ)音數(shù)據(jù)的波形的自相關(guān)函數(shù)來(lái)識(shí)別代表語(yǔ)音數(shù)據(jù)的語(yǔ)音基頻,產(chǎn)生代表識(shí)別的基頻的數(shù)據(jù)來(lái)提供給權(quán)重計(jì)算單元23。
更具體地,當(dāng)語(yǔ)音數(shù)據(jù)從語(yǔ)音數(shù)據(jù)輸入單元1提供時(shí),自相關(guān)分析單元22首先識(shí)別自相關(guān)函數(shù)r,其由方程(1)r(1)=1/N{ê(t+1)·ê(t)的右項(xiàng)表示,其中N是抽樣語(yǔ)音數(shù)據(jù)的總和,ê(á)是從語(yǔ)音數(shù)據(jù)的第一抽樣起計(jì)數(shù)的第á個(gè)抽樣的數(shù)值。
其次,自相關(guān)分析單元22識(shí)別基頻,它是低于預(yù)定較低限頻率的最低頻率,在這些提供通過(guò)自相關(guān)函數(shù)r(1)傅立葉變換獲得的函數(shù)(周期圖)的最大值的頻率中,產(chǎn)生代表識(shí)別的基頻的數(shù)據(jù)來(lái)提供給重計(jì)算單元23。
當(dāng)代表基頻的兩條數(shù)據(jù)被從倒頻譜分析單元21和自相關(guān)分析單元22提供時(shí),權(quán)重計(jì)算單元23計(jì)算由兩條數(shù)據(jù)代表的基頻的倒數(shù)的平均絕對(duì)值。產(chǎn)生代表計(jì)算值(即平均基音長(zhǎng)度)的數(shù)據(jù),并將其提供給BPF系數(shù)計(jì)算單元24。
如將在下面描述的,從權(quán)重計(jì)算單元23將代表平均基音長(zhǎng)度的數(shù)據(jù)和從過(guò)零點(diǎn)分析單元26將過(guò)零點(diǎn)信號(hào)供給BPF系數(shù)計(jì)算單元24,并且根據(jù)提供的數(shù)據(jù)和過(guò)零點(diǎn)信號(hào),判斷平均基音長(zhǎng)度,基音信號(hào)和過(guò)零點(diǎn)周期是否彼此相差一個(gè)預(yù)定量。如果判斷它們是相同的,BPF 25的頻率特征被控制,使得中心頻率(BPF25的通帶中心頻率)變?yōu)檫^(guò)零點(diǎn)周期的倒數(shù)。如果判斷它們是不同的,BPF25的頻率特征被控制使得中心頻率變?yōu)槠骄糸L(zhǎng)的倒數(shù)。
BPF25具有FIR(有限脈沖響應(yīng))型濾波函數(shù),其能變換它的中心頻率。
更具體地,BPF 25將自己的中心頻率設(shè)定為與BPF系數(shù)計(jì)算單元24控制的值相同。BPF 25對(duì)從語(yǔ)音數(shù)據(jù)輸入單元1提供的語(yǔ)音數(shù)據(jù)進(jìn)行濾波,并將已濾波語(yǔ)音信號(hào)(基音信號(hào))到過(guò)零點(diǎn)分析單元26和波形相關(guān)分析單元27。假定基音信號(hào)是具有與語(yǔ)音數(shù)據(jù)充分地相同的抽樣周期的數(shù)字?jǐn)?shù)據(jù)。
BPF25的帶寬優(yōu)選地被設(shè)定為使得BPF25的通帶的上限落在語(yǔ)音數(shù)據(jù)代表的語(yǔ)音的兩倍基頻的范圍或者更低。
當(dāng)從BPF 25提供的基音信號(hào)的瞬時(shí)值變?yōu)椤?”,過(guò)零點(diǎn)分析單元26檢測(cè)定時(shí)(過(guò)零點(diǎn)定時(shí)),并且提供代表檢測(cè)定時(shí)的信號(hào)(過(guò)零點(diǎn)信號(hào))到BPF系數(shù)計(jì)算單元24。
當(dāng)基音信號(hào)的瞬時(shí)值取為一預(yù)定值時(shí),過(guò)零點(diǎn)分析單元26檢測(cè)定時(shí),且將其代替過(guò)零點(diǎn)信號(hào)提供給BPF系數(shù)計(jì)算單元24。
從語(yǔ)音數(shù)據(jù)輸入單元1將語(yǔ)音數(shù)據(jù)并且從波形相關(guān)分析單元27將基音信號(hào)提供波形相關(guān)分析單元27,波形相關(guān)分析單元在基音信號(hào)的單位周期(例如,一個(gè)周期)的時(shí)刻將語(yǔ)音數(shù)據(jù)分解。波形相關(guān)分析單元27計(jì)算在給出各種相位的語(yǔ)音數(shù)據(jù)和每一個(gè)劃分的段中的基音信號(hào)之間的相關(guān)性,并且確定具有最高相關(guān)的語(yǔ)音數(shù)據(jù)的相位作為那個(gè)段中的語(yǔ)音數(shù)據(jù)的相位。
更具體地,對(duì)每一段和每一個(gè)不同相位(是一個(gè)為0或者更大的整數(shù)),波形相關(guān)分析單元27計(jì)算諸如方程(2)右端的項(xiàng)表示的cor值。波形相關(guān)分析單元27識(shí)別與最大Cor值相對(duì)應(yīng)的的數(shù)值Φ,產(chǎn)生代表值Φ的數(shù)據(jù),并且把它提供給相位調(diào)節(jié)單元28,作為表示在每一段中的語(yǔ)音數(shù)據(jù)的相位的相位數(shù)據(jù)。
Cor={f(i-)·g(i)}
式中,n是一段中的抽樣總和,f(β)是這一段中從語(yǔ)音數(shù)據(jù)第一個(gè)樣本開(kāi)始計(jì)數(shù)的第β個(gè)樣本的值。g( )是這一段中基音信號(hào)的第 個(gè)樣本值。
每一段的時(shí)長(zhǎng)優(yōu)選為大約一個(gè)基音。每一段越長(zhǎng),段內(nèi)的樣本數(shù)增加越多,使得基音波形信號(hào)的數(shù)據(jù)量增加,或者樣本周期變長(zhǎng),基音波形信號(hào)所代表的語(yǔ)音變得不正確。
從語(yǔ)音數(shù)據(jù)輸入單元1將語(yǔ)音數(shù)據(jù)和從波形相關(guān)分析單元27將代表在每段的語(yǔ)音數(shù)據(jù)的相位Ф的數(shù)據(jù)提供相位調(diào)節(jié)單元28,相位調(diào)節(jié)單元28將這一段的語(yǔ)音數(shù)據(jù)的相位設(shè)置為等于代表相位數(shù)據(jù)這一段中的相位Ф。移相的語(yǔ)音數(shù)據(jù)被提供給音長(zhǎng)固定單元3。
從相位調(diào)節(jié)單元28將移相語(yǔ)音數(shù)據(jù)提供音長(zhǎng)固定單元3,音長(zhǎng)固定單元重新采樣這一段的語(yǔ)音數(shù)據(jù),且將重新采樣的語(yǔ)音數(shù)據(jù)提供給子帶分割單元4。音長(zhǎng)固定單元3以這樣的方式重新采樣每段的語(yǔ)音數(shù)據(jù)的樣本數(shù)基本上相等,并且以相等的基音來(lái)將樣本安排到這一段基音上。
音長(zhǎng)固定單元3產(chǎn)生代表每一段中的原始樣本的數(shù)目的樣本數(shù)目的數(shù)據(jù),并把它提供給語(yǔ)音輸出單元8。如果通過(guò)數(shù)據(jù)輸入單元1得到的語(yǔ)音數(shù)據(jù)的采樣周期為已知,樣本數(shù)目數(shù)據(jù)就是代表與單位基音相應(yīng)的段內(nèi)語(yǔ)音數(shù)據(jù)的原始時(shí)間長(zhǎng)度的信息。
子帶分割單元4對(duì)音長(zhǎng)固定單元3提供的語(yǔ)音數(shù)據(jù)執(zhí)行正交變換,例如DCT(離散余弦變換)或者離散傅立葉變換(例如,快速傅立葉變換)以產(chǎn)生定常周期的子帶數(shù)據(jù)(例如,與單位基音對(duì)應(yīng)的周期或與整數(shù)倍的單位基音對(duì)應(yīng)的周期)。當(dāng)每次子帶數(shù)據(jù)產(chǎn)生的時(shí)候,這個(gè)數(shù)據(jù)被提供給平均單元5。子帶數(shù)據(jù)5表示了由子帶分割單元4提供的語(yǔ)音數(shù)據(jù)所表示的語(yǔ)音頻譜分布。
根據(jù)子帶分割單元4多次提供的子帶數(shù)據(jù),平均單元5產(chǎn)生子帶數(shù)據(jù)(此后稱為平均子帶數(shù)據(jù)),其是譜分量的平均值,并將其提供給子帶合成單元6。
從功能上說(shuō),平均單元5由圖3所示的子帶數(shù)據(jù)存儲(chǔ)部分5 1和平均部分52組成。
子帶數(shù)據(jù)存儲(chǔ)部分51是存儲(chǔ)器,如RAM(隨機(jī)存取存儲(chǔ)器),存儲(chǔ)由子帶分割單元4提供最近的三條子帶數(shù)據(jù),通過(guò)平均部分52存取。當(dāng)通過(guò)平均部分52進(jìn)行存取時(shí),子帶數(shù)據(jù)存儲(chǔ)部分51將存儲(chǔ)的子帶數(shù)據(jù)的最先的兩條(最早的第三和第二條)到平均部分52。
平均部分52由DSP、CPU等構(gòu)成,基音獲得單元2,音長(zhǎng)固定單元3,子帶分割單元4,子帶合成單元6和基音恢復(fù)單元7的部分或整個(gè)功能可由在平均部分52中的單一數(shù)據(jù)處理設(shè)備實(shí)現(xiàn)。
每次子帶分割單元4提供一條子帶數(shù)據(jù)時(shí),平均部分52對(duì)子帶數(shù)據(jù)存儲(chǔ)部分51進(jìn)行存取。從子帶分割單元4提供的最新的子帶數(shù)據(jù)被存儲(chǔ)在子帶數(shù)據(jù)存儲(chǔ)部分51中。平均部分52從子帶數(shù)據(jù)存儲(chǔ)部分51中讀取最早的兩條子帶數(shù)據(jù)。
平均部分52計(jì)算在同一頻率下三條子帶數(shù)據(jù)頻譜分量強(qiáng)度的平均值(例如,算術(shù)平均)。這三條子帶數(shù)據(jù)包括由子帶分割單元4提供的一條子帶數(shù)據(jù)和從子帶數(shù)據(jù)存儲(chǔ)部分51中讀取的兩條子帶數(shù)據(jù)。平均部分52產(chǎn)生代表譜分量的強(qiáng)度的計(jì)算的平均值的頻率分布的數(shù)據(jù)(平均子帶數(shù)據(jù)),并將其提供給子帶合成單元6。
在代表用來(lái)產(chǎn)生平均子帶數(shù)據(jù)的三條子帶數(shù)據(jù)的譜分量中,在f頻率(f>0)處的強(qiáng)度由i1,i2和i3(i1≥0,i2≥0,i3≥0)來(lái)表示。在平均子帶數(shù)據(jù)代表的譜分量的f頻率處的平均子帶數(shù)據(jù)的強(qiáng)度等于i1,i2和i3的平均值(例如,i1,i2和i3的算術(shù)平均)。
子帶合成單元6將從平均單元5提供的平均子帶數(shù)據(jù)變換為語(yǔ)音數(shù)據(jù),它的每個(gè)頻率分量的強(qiáng)度由平均子帶數(shù)據(jù)表征。子帶合成單元6提供產(chǎn)生的語(yǔ)音數(shù)據(jù)到基音恢復(fù)單元7。由子帶合成單元6產(chǎn)生的語(yǔ)音數(shù)據(jù)可是PCM調(diào)制的數(shù)字信號(hào)。
子帶合成單元6對(duì)平均子帶數(shù)據(jù)進(jìn)行的轉(zhuǎn)換本質(zhì)上是與子帶分割單元4為產(chǎn)生子帶數(shù)據(jù)所進(jìn)行的轉(zhuǎn)換相對(duì)應(yīng)的逆轉(zhuǎn)換。更具體地,例如,如果子帶數(shù)據(jù)是通過(guò)語(yǔ)音信號(hào)進(jìn)行DCT產(chǎn)生的,子帶合成單元6通過(guò)平均子帶數(shù)據(jù)進(jìn)行IDCT(逆DCT)來(lái)產(chǎn)生語(yǔ)音信號(hào)。
基音恢復(fù)單元7以音長(zhǎng)固定單元3提供的采樣數(shù)目數(shù)據(jù)代表的采樣數(shù)目對(duì)從子帶合成單元6提供的語(yǔ)音數(shù)據(jù)中的每段進(jìn)行重新采樣,以在被音長(zhǎng)固定單元3改變之前來(lái)恢復(fù)每段的時(shí)長(zhǎng)。帶有每段中的恢復(fù)時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù)被提供給語(yǔ)音輸出單元8。
語(yǔ)音輸出單元8由PCM解碼器,D/A(數(shù)字到模擬)轉(zhuǎn)換器,AF(音頻)放大器,揚(yáng)聲器等組成。
語(yǔ)音輸出單元8從基音恢復(fù)單元7接收帶有每段中的恢復(fù)時(shí)長(zhǎng)的語(yǔ)音數(shù)據(jù),解調(diào)該語(yǔ)音數(shù)據(jù),對(duì)其進(jìn)行數(shù)模轉(zhuǎn)換并且放大。獲得的模擬信號(hào)驅(qū)動(dòng)揚(yáng)聲器并重放語(yǔ)音。
參考附圖4,5至7,描述上述獲得語(yǔ)音的操作。
圖5是利用圖1所示語(yǔ)音內(nèi)插裝置內(nèi)插圖4(a)所示頻譜的信號(hào)而獲得的信號(hào)頻譜圖。
圖6(a)表示在具有圖4(a)所示頻譜的語(yǔ)音基頻分量和諧波分量強(qiáng)度的時(shí)間變化圖。
圖6(b)表示在具有圖4(b)所示頻譜的語(yǔ)音基頻分量和諧波分量強(qiáng)度的時(shí)間變化圖。
圖7表示在具有圖5所示頻譜的語(yǔ)音基頻分量和諧波分量強(qiáng)度的時(shí)間變化圖。
從圖4(a),4(c)和圖5的頻譜范圍的比較可看出,對(duì)原始語(yǔ)音頻譜,用圖1所示的語(yǔ)音內(nèi)插裝置將頻譜分量?jī)?nèi)插到被進(jìn)行掩蔽的語(yǔ)音中而獲得的頻譜比用日本未決的專利公開(kāi)號(hào)2001-35678中所公開(kāi)的方法將頻譜分量?jī)?nèi)插到被進(jìn)行掩蔽的語(yǔ)音而獲得的頻譜更加累似于原始語(yǔ)音的頻譜。
如圖6(b)所示,示出了其頻譜分量被通過(guò)掩蔽而移去部分的語(yǔ)音的基頻分量和諧波分量強(qiáng)度的時(shí)間變化圖不比圖6(a)所示的原始語(yǔ)音的基頻分量和諧波分量的強(qiáng)度的時(shí)間變化圖更加平滑。(圖6(a),圖6(b),和圖7中,圖形“BND0”示出了語(yǔ)音的基頻分量的強(qiáng)度,“BNDK”(其中K是從1到8的整數(shù))表示語(yǔ)音的第k+1諧波分量的強(qiáng)度)。
如圖7所示,圖形示出了用圖1所示的語(yǔ)音內(nèi)插裝置將頻譜分量到被進(jìn)行掩蔽的語(yǔ)音信號(hào)而獲得的信號(hào)的基頻分量和諧波分量強(qiáng)度的時(shí)間變化圖比圖6(b)所示的更加平滑,并且更加累似于圖6(a)所示的原始語(yǔ)音的基頻分量和諧波分量的強(qiáng)度的時(shí)間變化圖。
由圖1所示的語(yǔ)音內(nèi)插裝置再生的語(yǔ)音是自然語(yǔ)音,而且與通過(guò)由日本未決專利公開(kāi)號(hào)2001-356788的方法進(jìn)行內(nèi)插而再生的語(yǔ)音或者沒(méi)有進(jìn)行對(duì)掩蔽的信號(hào)進(jìn)行頻譜內(nèi)插而再生的語(yǔ)音相比,更近似于原始語(yǔ)音。
音長(zhǎng)固定單元3對(duì)在輸入到語(yǔ)音信號(hào)內(nèi)插裝置的語(yǔ)音數(shù)據(jù)的單位基音部分的時(shí)長(zhǎng)進(jìn)行歸一化,消除基音的抖動(dòng)。因此,由子帶分割單元4產(chǎn)生的子帶數(shù)據(jù)提供準(zhǔn)確的在由語(yǔ)音數(shù)據(jù)表示的語(yǔ)音的每個(gè)頻率分量(基頻和諧波分量)的強(qiáng)度的時(shí)間變化。因此,由平均單元5產(chǎn)生的子帶數(shù)據(jù)提供準(zhǔn)確的由語(yǔ)音數(shù)據(jù)表示的語(yǔ)音的每個(gè)頻率分量的強(qiáng)度的時(shí)間變化。
基音波形獲得系統(tǒng)的結(jié)構(gòu)不僅限于上面的描述。
比如,語(yǔ)音輸入單元1可以通過(guò)電話線、專用線路、或者諸如衛(wèi)星頻道的通信線路從外部得到語(yǔ)音數(shù)據(jù)。在這種情形下,語(yǔ)音數(shù)據(jù)輸入單元1裝備有通信控制單元,諸如調(diào)制解調(diào)器,DSU(數(shù)據(jù)服務(wù)單元)和路由器。
語(yǔ)音數(shù)據(jù)輸入單元1可以具有包括麥克風(fēng),AF放大器,抽樣器,A/D(模擬到數(shù)字)轉(zhuǎn)換器,PCM編碼器等的語(yǔ)音收集裝置。語(yǔ)音收集裝置放大代表由麥克風(fēng)收集的語(yǔ)音的語(yǔ)音信號(hào),對(duì)其抽樣和A/D轉(zhuǎn)換,并對(duì)抽樣的語(yǔ)音信號(hào)進(jìn)行PCM來(lái)獲得語(yǔ)音數(shù)據(jù)。由語(yǔ)音數(shù)據(jù)輸入單元1獲得的語(yǔ)音數(shù)據(jù)不限于PCM信號(hào)。
語(yǔ)音輸出單元8可以將從基音再生單元7提供的語(yǔ)音數(shù)據(jù)或者從解調(diào)語(yǔ)音數(shù)據(jù)獲得的數(shù)據(jù)通過(guò)通信線路提供給外部。在這種情形,語(yǔ)音輸出單元8裝配有由(比如)調(diào)制解調(diào)器,DSU等組成的通信控制單元。
語(yǔ)音輸出單元8可以將從基音再生單元7提供的語(yǔ)音數(shù)據(jù)或者經(jīng)解調(diào)語(yǔ)音數(shù)據(jù)獲得的數(shù)據(jù)寫(xiě)到在外部記錄介質(zhì)或者諸如硬盤(pán)的外部存儲(chǔ)設(shè)備。在這種情形,語(yǔ)音輸出單元8裝配有由諸如記錄介質(zhì)驅(qū)動(dòng)器的控制電路和硬盤(pán)控制器。
被平均單元5用來(lái)產(chǎn)生平均的子帶數(shù)據(jù)的子帶數(shù)據(jù)的數(shù)目不限于僅為三條數(shù)據(jù),可以是每平均子帶數(shù)據(jù)有多個(gè)數(shù)據(jù)。不要求從子帶分割單元4連續(xù)提供用來(lái)產(chǎn)生平均子帶數(shù)據(jù)的多個(gè)子帶數(shù)據(jù)。比如,平均單元5可以從子帶分割單元4提供的兩個(gè)數(shù)據(jù)的間隔(或者在多個(gè)數(shù)據(jù)的間隔)獲得多個(gè)子帶數(shù)據(jù),并且僅使用獲得的子帶數(shù)據(jù)來(lái)產(chǎn)生平均子帶數(shù)據(jù)。
當(dāng)從子帶驅(qū)動(dòng)單元4提供子帶數(shù)據(jù)的一個(gè)數(shù)據(jù)由時(shí),平均單元52可以將其立刻存儲(chǔ)在子帶數(shù)據(jù)存儲(chǔ)部分51中,并讀取最新的三條子帶數(shù)據(jù)來(lái)產(chǎn)生平均子帶數(shù)據(jù)。
上面描述了本發(fā)明的實(shí)施例。本發(fā)明的語(yǔ)音信號(hào)內(nèi)插裝置不僅能由專用系統(tǒng)實(shí)現(xiàn),而且能由一般計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)。
比如,可以將用于執(zhí)行語(yǔ)音數(shù)據(jù)輸入單元1,基音獲得單元2,音長(zhǎng)固定單元3,子帶分割單元4,平均單元5,子帶合成單元6,基音再生單元7和語(yǔ)音輸出單元8的操作的程序存儲(chǔ)在介質(zhì)(CD-ROM,MO,軟盤(pán)等)上。該程序安裝在具有D/A轉(zhuǎn)換器,AF放大器,揚(yáng)聲器等的個(gè)人計(jì)算機(jī)上,以執(zhí)行上述處理并利用個(gè)人計(jì)算機(jī)實(shí)現(xiàn)語(yǔ)音信號(hào)內(nèi)插裝置。
例如,可以通過(guò)通信線路將該程序上載到在通信線路上的電子公告系統(tǒng)上來(lái)分布該程序。用代表該程序的信號(hào)調(diào)制一載波,并且將調(diào)制波傳送到對(duì)該調(diào)制波進(jìn)行解調(diào)以恢復(fù)該程序的接收器。
上述處理可通過(guò)啟動(dòng)該程序,并且以與一般應(yīng)用程序相似的方式在OS的控制下執(zhí)行該程序。
如果OS負(fù)責(zé)部分處理或者如果它構(gòu)成本發(fā)明組元的一部分,可以將刪除對(duì)應(yīng)于這部分的程序部分存儲(chǔ)在記錄介質(zhì)上。甚至在這種情形,在本發(fā)明中,假定記錄介質(zhì)存儲(chǔ)用于執(zhí)行將由計(jì)算機(jī)執(zhí)行的每個(gè)功能和步驟的程序。
發(fā)明效果到目前所述,根據(jù)本發(fā)明實(shí)現(xiàn)的語(yǔ)音信號(hào)內(nèi)插裝置和方法能從壓縮的語(yǔ)音中恢復(fù)原始語(yǔ)音,并保持高的音質(zhì)。
權(quán)利要求
1.一種語(yǔ)音信號(hào)內(nèi)插裝置,其包括基音波形信號(hào)產(chǎn)生裝置,用來(lái)獲取代表語(yǔ)音波形的輸入語(yǔ)音信號(hào)并且使與所述的輸入語(yǔ)音信號(hào)的單位基音對(duì)應(yīng)的一段時(shí)長(zhǎng)充分相同,以將所述的輸入語(yǔ)音信號(hào)轉(zhuǎn)換為基音波形信號(hào);頻譜獲得裝置,用來(lái)根據(jù)基音波形信號(hào)產(chǎn)生代表所述輸入語(yǔ)音信號(hào)頻譜的數(shù)據(jù);平均裝置,用來(lái)根據(jù)由所述頻譜獲得裝置產(chǎn)生的多個(gè)數(shù)據(jù),產(chǎn)生代表所述輸入語(yǔ)音信號(hào)的各個(gè)頻譜成分平均值分布的平均數(shù)據(jù);和語(yǔ)音信號(hào)恢復(fù)裝置,用來(lái)產(chǎn)生輸出語(yǔ)音信號(hào),其代表具有由所述平均裝置產(chǎn)生的平均數(shù)據(jù)表征的頻譜的語(yǔ)音。
2.如權(quán)利要求1所述的語(yǔ)音信號(hào)內(nèi)插裝置,其中,所述的基音波形信號(hào)產(chǎn)生裝置包括可變?yōu)V波器,它的頻率特征被控制為可變的,可變?yōu)V波器對(duì)所述輸入語(yǔ)音信號(hào)進(jìn)行濾波以獲得輸入語(yǔ)音的基頻成分;濾波器特征確定裝置,用于根據(jù)所述可變?yōu)V波器獲得的基頻成分來(lái)識(shí)別輸入語(yǔ)音的基頻、并控制所述可變?yōu)V波器使得頻率特征截止除了在識(shí)別的基頻附近的頻率分量之外的頻率成分;基音獲得裝置,用來(lái)根據(jù)由所述可變?yōu)V波器獲得的基頻成分值,分割所述輸入語(yǔ)音信號(hào)成在與單位基音相應(yīng)的段內(nèi)的一語(yǔ)音信號(hào);和音長(zhǎng)固定裝置,用來(lái)通過(guò)以充分相同的采樣數(shù)目來(lái)采樣所述輸入語(yǔ)音信號(hào)的每段來(lái)產(chǎn)生基音波形信號(hào),該基音波形信號(hào)具有在每段中充分相同的時(shí)長(zhǎng)。
3.如權(quán)利要求2所述的語(yǔ)音信號(hào)內(nèi)插裝置,其中,所述濾波器特征確定裝置包括交叉檢測(cè)裝置,用來(lái)識(shí)別所述可變?yōu)V波器獲得的基頻成分達(dá)到預(yù)定值的定時(shí)周期,并根據(jù)所述識(shí)別的周期來(lái)識(shí)別基頻。
4.如權(quán)利要求3所述的語(yǔ)音信號(hào)內(nèi)插裝置,其中,所述濾波器特征確定裝置可包括平均基音檢測(cè)裝置,用來(lái)根據(jù)所述輸入語(yǔ)音信號(hào)、在被濾波前檢測(cè)所述輸入語(yǔ)音信號(hào)代表的語(yǔ)音的基音的時(shí)長(zhǎng);和判斷裝置,判斷所述交叉檢測(cè)裝置識(shí)別的周期和所述平均基音檢測(cè)裝置識(shí)別的基音的時(shí)長(zhǎng)是否彼此相差一個(gè)預(yù)定量或更多,如果判斷所述周期和所述時(shí)長(zhǎng)相同,控制所述可變?yōu)V波器使得頻率特征截止除了由所述交叉檢測(cè)裝置識(shí)別的基頻附近的頻率分量之外的頻率成分,而如果判斷周期和時(shí)長(zhǎng)是不同,控制所述可變?yōu)V波器使得頻率特征截止除了從由所述平均基音檢測(cè)裝置識(shí)別的基音時(shí)長(zhǎng)中識(shí)別的基頻附近的頻率分量之外的頻率成分。
5.如權(quán)利要求4所述的語(yǔ)音信號(hào)內(nèi)插裝置,其中,所述平均基音檢測(cè)裝置包括倒頻譜分析裝置,用來(lái)計(jì)算由所述可變?yōu)V波器濾波前的輸入語(yǔ)音信號(hào)的倒頻譜具有最大值處的頻率;自相關(guān)分析裝置,用來(lái)計(jì)算由所述可變?yōu)V波器濾波前的輸入語(yǔ)音信號(hào)的周期圖具有最大值處的頻率;平均計(jì)算裝置,用來(lái)根據(jù)所述倒頻譜分析裝置和所述自相關(guān)分析裝置計(jì)算的頻率,計(jì)算所述輸入語(yǔ)音信號(hào)表示的語(yǔ)音的基音平均值,并識(shí)別所述已計(jì)算的平均值作為語(yǔ)音的基音的時(shí)長(zhǎng)。
6.一種語(yǔ)音信號(hào)內(nèi)插方法,其包括步驟獲取代表語(yǔ)音波形的輸入語(yǔ)音信號(hào),并且使與所述的輸入語(yǔ)音信號(hào)的單位基音對(duì)應(yīng)的一段的時(shí)長(zhǎng)充分相同以將所述的輸入語(yǔ)音信號(hào)轉(zhuǎn)換為基音波形信號(hào);根據(jù)所述基音波形信號(hào)來(lái)產(chǎn)生代表所述輸入語(yǔ)音信號(hào)頻譜的數(shù)據(jù);根據(jù)多個(gè)數(shù)據(jù),產(chǎn)生代表所述輸入語(yǔ)音信號(hào)各個(gè)的頻譜成分的平均值分布的頻譜的平均數(shù)據(jù);和產(chǎn)生輸出語(yǔ)音信號(hào),其具有由所述平均數(shù)據(jù)表征的頻譜的語(yǔ)音。
7.一種用于使計(jì)算機(jī)進(jìn)行如下操作的程序基音波形信號(hào)產(chǎn)生裝置,用來(lái)獲取代表語(yǔ)音波形的輸入語(yǔ)音信號(hào),并且使與所述的輸入語(yǔ)音信號(hào)的單位基音對(duì)應(yīng)的一段的時(shí)長(zhǎng)充分相同,以將所述的輸入語(yǔ)音信號(hào)轉(zhuǎn)換為基音波形信號(hào);頻譜獲得裝置,用來(lái)根據(jù)所述基音波形信號(hào)產(chǎn)生代表所述輸入語(yǔ)音信號(hào)的頻譜的數(shù)據(jù);平均裝置,用來(lái)根據(jù)由所述頻譜獲得裝置產(chǎn)生的多個(gè)數(shù)據(jù),產(chǎn)生代表所述輸入語(yǔ)音信號(hào)的各個(gè)頻譜成分平均值分布的頻譜的平均數(shù)據(jù);和語(yǔ)音信號(hào)恢復(fù)裝置,用來(lái)產(chǎn)生輸出語(yǔ)音信號(hào),其具有由所述平均裝置產(chǎn)生的平均數(shù)據(jù)表征的頻譜的語(yǔ)音。
全文摘要
本發(fā)明提供了一種語(yǔ)音信號(hào)內(nèi)插裝置,其能從語(yǔ)音壓縮狀態(tài)恢復(fù)自然人聲并保持高的音質(zhì)。當(dāng)表征將被內(nèi)插的語(yǔ)音的語(yǔ)音信號(hào)由語(yǔ)音數(shù)據(jù)輸入單元1獲得時(shí),基音獲得單元2對(duì)這個(gè)語(yǔ)音信號(hào)進(jìn)行濾波以從濾波結(jié)果確定音長(zhǎng)。音長(zhǎng)固定單元3使語(yǔ)音信號(hào)具有對(duì)應(yīng)單位基音的段的恒定時(shí)長(zhǎng),并產(chǎn)生基音波形數(shù)據(jù)。子帶分割單元4轉(zhuǎn)換基音波形數(shù)據(jù)為表征頻譜的子帶數(shù)據(jù)。多個(gè)子帶數(shù)據(jù)被平均單元5進(jìn)行平均,然后,子帶合成單元6轉(zhuǎn)換子帶數(shù)據(jù)為表征子帶合成單元6的語(yǔ)音波形的信號(hào)。每段的時(shí)長(zhǎng)由基音恢復(fù)單元7恢復(fù),并且聲音輸出單元8重放信號(hào)表示的聲音。
文檔編號(hào)G10L11/04GK1514931SQ0380034
公開(kāi)日2004年7月21日 申請(qǐng)日期2003年5月28日 優(yōu)先權(quán)日2002年6月7日
發(fā)明者佐藤寧 申請(qǐng)人:株式會(huì)社建伍