專利名稱:快速頻域音調(diào)估計(jì)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般涉及音頻信號(hào)處理的方法和裝置,確切地說(shuō),是估計(jì)語(yǔ)音信號(hào)音調(diào)的方法。
背景技術(shù):
語(yǔ)音是通過(guò)在聲道中調(diào)節(jié)氣流而產(chǎn)生的。清音起源于聲道中某處收縮而產(chǎn)生的湍流噪聲,而濁音則是通過(guò)喉中聲帶的周期性振動(dòng)來(lái)激發(fā)的。粗略地說(shuō),變化的喉部振動(dòng)周期導(dǎo)致了語(yǔ)音的音調(diào)。典型情況下,低比特率的語(yǔ)音編碼方案將調(diào)節(jié)與語(yǔ)音源(濁音或清音)相分離,對(duì)這兩個(gè)要素分開(kāi)編碼。為了使語(yǔ)音能夠恰當(dāng)?shù)刂亟ǎ诰幋a之時(shí)需要準(zhǔn)確地估計(jì)語(yǔ)音中濁音部分的音調(diào)。為了達(dá)到這個(gè)目的,已經(jīng)開(kāi)發(fā)了多種技術(shù),既包括時(shí)間域的方法,又包括頻率域的方法。Hess在PitchDetermination of Speech Signals(Springer-Verlag,1983)中對(duì)許多這些技術(shù)進(jìn)行了綜述,這里引用作為參考。
周期信號(hào)比如濁音語(yǔ)音的傅氏變換,在頻率域的形式為一系列脈沖或者說(shuō)尖峰。這個(gè)脈沖系列對(duì)應(yīng)于信號(hào)的線狀譜,它能夠表示為一個(gè)序列{(ai,θi),其中θi為尖峰的頻率,ai為線狀譜各自的復(fù)數(shù)值振幅。為了確定語(yǔ)音信號(hào)中指定的一個(gè)區(qū)段是濁音還是清音,以及該區(qū)段是濁音時(shí)為了計(jì)算音調(diào),時(shí)域信號(hào)首先乘以一個(gè)有限的光滑時(shí)窗。那么,加窗信號(hào)的傅氏變換為X(θ)=ΣkakW(θ-θk)-----(1)]]>其中W(θ)為時(shí)窗的傅氏變換。
給定任何音調(diào)頻率,對(duì)應(yīng)于該音調(diào)頻率的線狀譜,在該頻率的所有倍數(shù)處都可能包含線狀譜分量。所以有以下事實(shí)在線狀譜中出現(xiàn)的任何頻率都可能是許多不同的候選音調(diào)頻率的一個(gè)倍數(shù)。結(jié)果,對(duì)于變換后信號(hào)中出現(xiàn)的任何尖峰,將會(huì)有一系列候選音調(diào)頻率可以導(dǎo)致這個(gè)特定尖峰,其中每個(gè)候選頻率都是該尖峰頻率的一個(gè)整數(shù)被除數(shù)。無(wú)論是在頻率域中分析頻譜,還是把它變換回時(shí)間域作進(jìn)一步的分析,都存在這種不確定。
典型情況下,頻域音調(diào)估計(jì)是基于對(duì)變換后信號(hào)X(θ)中尖峰的位置和振幅的分析。例如,Martin在題為“Comparison of PitchDetection by Cepstrum and Spectral Comb Analysis”的一篇文章中,介紹了基于將頻譜與原型梳狀譜的“齒”進(jìn)行相關(guān)的一種方法,這篇文章收入1982年的Proceedings of the International Conference onAcoustics,Speech and Signal Processing(ICASSP),在180-183頁(yè),這里引用作為參考。音調(diào)頻率由使梳函數(shù)與變換后語(yǔ)音信號(hào)相關(guān)結(jié)果最大的梳頻率給出。
有關(guān)的一類音調(diào)估計(jì)方案是“倒譜”方案,如同例如Hess在上述書(shū)中396-408頁(yè)介紹的。在這種技術(shù)中,對(duì)語(yǔ)音信號(hào)的頻譜應(yīng)用一種對(duì)數(shù)運(yùn)算,然后對(duì)數(shù)譜再變換回時(shí)間域,以產(chǎn)生倒譜信號(hào)。音調(diào)頻率就是時(shí)間域倒譜信號(hào)第一個(gè)尖峰的位置。這嚴(yán)格對(duì)應(yīng)于在周期T上,使線頻率z(i)對(duì)應(yīng)振幅的對(duì)數(shù)與cos(ω(i)T)相關(guān)結(jié)果最大。對(duì)于音調(diào)周期T的每種猜測(cè),函數(shù)cos(ωT)都是ω的周期函數(shù)。在音調(diào)頻率1/T的倍數(shù)對(duì)應(yīng)的頻率處,它都有尖峰。如果這些尖峰恰巧與線頻率重合,那么1/T就是音調(diào)頻率或者其某個(gè)倍數(shù)的合適候選者。
以另一種方式,一種普通的時(shí)域音調(diào)估計(jì)方法使用相關(guān)類型的方案,對(duì)于以時(shí)間t為中心的信號(hào)區(qū)段和以時(shí)間t-T為中心的信號(hào)區(qū)段,它搜索使互相關(guān)最大的音調(diào)周期T。音調(diào)頻率為T的倒數(shù)。例如Medan等人1991年在IEEE Transactions on Signal Processing 39(1)41-48頁(yè)發(fā)表的“Super Resolution Pitch Determination of Speech Signals”一文中,介紹過(guò)一種此類的方法,這里引用作為參考。
不論是在時(shí)間域還是在頻率域的音調(diào)確定方法,都會(huì)受到不穩(wěn)定和誤差的影響,所以準(zhǔn)確的音調(diào)確定需要進(jìn)行大量的計(jì)算。例如在時(shí)間域分析中,線狀譜中的高頻分量會(huì)在互相關(guān)結(jié)果中增加一個(gè)振蕩項(xiàng)。該分量的頻率很高時(shí),該項(xiàng)隨音調(diào)周期T的估計(jì)結(jié)果快速變化。在這樣一種情況下,即使是T稍微偏離真實(shí)的音調(diào)周期,也會(huì)顯著地降低互相關(guān)結(jié)果的數(shù)值,可能會(huì)導(dǎo)致拒絕一個(gè)正確的估計(jì)結(jié)果。高頻分量也會(huì)在互相關(guān)結(jié)果中增加大量的尖峰,這使得搜索真正的極大值的過(guò)程更復(fù)雜。在頻率域中,對(duì)于候選頻率較大整數(shù)倍的任何頻譜分量,候選音調(diào)頻率估計(jì)結(jié)果中的小誤差也會(huì)導(dǎo)致估計(jì)值中的大偏離。
所以,對(duì)于指定的輸入頻譜,為了避免遺漏最佳候選音調(diào),必須對(duì)所有可能的候選者及其倍數(shù)進(jìn)行具有高分辨率的一種窮舉搜索。往往需要(取決于實(shí)際音調(diào)頻率)搜索采樣后頻譜至1500Hz以上的高頻。同時(shí),在時(shí)間上分析區(qū)間或者說(shuō)時(shí)窗必須足夠長(zhǎng),以便捕捉頻譜中每一個(gè)可能的音調(diào)候選者的至少幾個(gè)周期,從而另外增加了復(fù)雜性。同樣,在時(shí)間域中,必須在寬闊的時(shí)間范圍內(nèi)以高分辨率搜索最優(yōu)的音調(diào)周期T。在每種情況下,搜索都要消耗相當(dāng)多的計(jì)算資源。即使在可能的清音區(qū)間,搜索條件也不能放松,因?yàn)橹挥性谒泻蜻x音調(diào)頻率或周期都已經(jīng)排除之后才能判斷某個(gè)區(qū)間是清音。雖然來(lái)自前面若干幀的音調(diào)值通常用于指導(dǎo)搜索當(dāng)前值,但是搜索也不能只限于以前音調(diào)的鄰域。否則,一個(gè)區(qū)間中的誤差將會(huì)永遠(yuǎn)存在于后續(xù)的區(qū)間中,使?jié)嵋魠^(qū)段可能被誤認(rèn)為是清音。
為了改善音調(diào)確定的準(zhǔn)確性和效率,已經(jīng)提出了多種解決方案。例如,McAulay等人在美國(guó)專利4,885,790中和1986年的IEEETransactions on Acoustics,speech and Signal Processing ASSP-34(4)的744-754頁(yè)的題為“Speech Analysis/Synthesis Based on aSinusoidal Representation”的一篇文章中,介紹了一種方法,用于跟蹤語(yǔ)音信號(hào)的線頻率及用于由這些頻率重現(xiàn)信號(hào)。這些文檔在這里引用作為參考。這些作者對(duì)于要分析的語(yǔ)音波形使用了一種正弦曲線模型,根據(jù)語(yǔ)音信號(hào)中正弦波分量的振幅、頻率和相位合成語(yǔ)音。許多方法都可以用于從線頻率獲得音調(diào)值。在美國(guó)專利5,054,072中,McAulay等人介紹了其方法的改進(jìn),該專利的公開(kāi)文件也在這里引用作為參考。這些改進(jìn)之一是一種音調(diào)自適應(yīng)的信道編碼技術(shù),按照發(fā)言者語(yǔ)音的音調(diào)改變信道間隔。
Hardwick等人在美國(guó)專利5,195,166和5,226,108中,介紹了音調(diào)估計(jì)的一種改進(jìn)的方法,這些專利的公開(kāi)文件在這里引用作為參考。假設(shè)被音調(diào)區(qū)間分開(kāi)的相繼時(shí)間區(qū)段之間的一種誤差測(cè)量結(jié)果,用于估算整數(shù)音調(diào)值的音調(diào)質(zhì)量。準(zhǔn)則被限制為包括相鄰信號(hào)幀,以增強(qiáng)音調(diào)的連續(xù)性。音調(diào)區(qū)域用于減少進(jìn)行初始音調(diào)估計(jì)時(shí)的計(jì)算量。對(duì)于先前發(fā)現(xiàn)的、整數(shù)值形式的音調(diào),一種改進(jìn)技術(shù)用于在達(dá)到1/8樣點(diǎn)的更高分辨率獲得該音調(diào)。
授予Laroche的美國(guó)專利5,870,704介紹了一種方法,用于估計(jì)時(shí)變信號(hào)的時(shí)變頻譜包絡(luò),該專利的公開(kāi)文件在這里引用作為參考。信號(hào)的頻譜中的局部極大值得到識(shí)別。為了遮掩掉虛假的極大值,應(yīng)用了一種遮掩曲線。該遮掩曲線在某個(gè)特定的極大值處具有一個(gè)尖峰,并從該處下降。落在該曲線之下的局部極大值都被去除。按照虛假極大值存在的某種測(cè)度,隨后還要對(duì)該遮掩曲線進(jìn)行調(diào)整。假設(shè)結(jié)果是其中僅僅存在有關(guān)極大值的頻譜。
授予Bartkowiak的美國(guó)專利5,696,873和5,774,836涉及改進(jìn)音調(diào)值確定的互相關(guān)方案,這些專利的公開(kāi)文件在這里引用作為參考。它介紹了兩種方法,以應(yīng)付第一共振峰——聲道的最低諧振頻率——在音調(diào)頻率的某個(gè)整數(shù)倍處產(chǎn)生高能量的情況。因?yàn)檫x取的互相關(guān)區(qū)間等于(或接近)音調(diào)區(qū)間,在很大程度上會(huì)發(fā)生這種問(wèn)題。假設(shè)某個(gè)短的音調(diào)區(qū)間,可能導(dǎo)致在該點(diǎn)上以相關(guān)結(jié)果虛假尖峰的形式證實(shí)該假設(shè)。Bartkowiak提出的方法之一,涉及在濁音區(qū)段的起點(diǎn)處增大時(shí)窗的尺寸。另一種方法從相關(guān)極大值列表中存在還是缺失假設(shè)之音調(diào)值的所有倍數(shù),來(lái)得出結(jié)論。已有介紹的改善音調(diào)估計(jì)的準(zhǔn)確性和效率的其它方法,見(jiàn)例如授予Su的美國(guó)專利5,781,880;授予Ozawa的美國(guó)專利5,806,024;授予Manduchi等人的美國(guó)專利5,794,182;授予Serizawa的美國(guó)專利5,751,900;授予Yamada等人的美國(guó)專利5,452,398;授予Byun等人的美國(guó)專利5,799,271;授予Tanaka等人的美國(guó)專利5,231,692;以及授予Kleijn的美國(guó)專利5,884,253。這些專利的公開(kāi)文件在這里引用作為參考。
發(fā)明內(nèi)容
本發(fā)明的一個(gè)目的是提供改進(jìn)的方法和裝置,用于確定音頻信號(hào),尤其是語(yǔ)音信號(hào)的音調(diào)。
本發(fā)明某些方面進(jìn)一步的一個(gè)目的是,提供一種高效的方法,用于高分辨率的窮舉法音調(diào)確定。因?yàn)槿魏我粽{(diào)質(zhì)量測(cè)量結(jié)果都可能具有非常窄的尖峰,作為音調(diào)頻率值的一個(gè)函數(shù),如果估算該測(cè)量的分辨率不足,可能導(dǎo)致少量尖峰位置的誤估計(jì)。在這種情況下,音調(diào)質(zhì)量測(cè)量將在稍微偏離尖峰處采樣,導(dǎo)致對(duì)尖峰值的過(guò)低估計(jì),而精確估算則會(huì)得出該尖峰的較高值。結(jié)果,可能會(huì)從音調(diào)候選列表中完全丟棄真正的音調(diào)。以搜索音調(diào)整數(shù)值開(kāi)始,然后改進(jìn)音調(diào)值結(jié)果列表的現(xiàn)有技術(shù)方案,都受到這種非常嚴(yán)重缺陷的困擾。因此,只有如同本發(fā)明的優(yōu)選實(shí)施例提供的窮舉法高分辨率音調(diào)頻率估算,才能保證真正的音調(diào)被包括在測(cè)試的音調(diào)值列表中。
在本發(fā)明的優(yōu)選實(shí)施例中,一種語(yǔ)音分析系統(tǒng)通過(guò)同時(shí)分析多個(gè)時(shí)間區(qū)間中信號(hào)的線狀譜,來(lái)確定語(yǔ)音信號(hào)的音調(diào)。從信號(hào)當(dāng)前幀的加窗傅氏變換計(jì)算一種短區(qū)間頻譜,它對(duì)于尋找高頻頻譜分量尤其有用。通過(guò)結(jié)合當(dāng)前幀的加窗傅氏變換與前面一幀或多幀的加窗傅氏變換,尋找對(duì)于更低頻率分量有用的一種或多種更長(zhǎng)區(qū)間的頻譜。以這種方式,使用增加系統(tǒng)計(jì)算負(fù)擔(dān)最小的最優(yōu)分析區(qū)間,取得了寬闊的頻率范圍內(nèi)的音調(diào)估計(jì)。最佳的音調(diào)候選者是從多種頻率范圍中選出的。因此,系統(tǒng)能夠滿足高分辨率和高計(jì)算效率的對(duì)立目標(biāo)。
在本發(fā)明的某些優(yōu)選實(shí)施例中,為了高效地測(cè)量任何具體的候選音調(diào)頻率與被分析的線狀譜相容的程度,計(jì)算了一種效用函數(shù)。對(duì)頻譜中每條有效譜線計(jì)算而得到的影響函數(shù)進(jìn)行疊加,構(gòu)建成該效用函數(shù)。在各自線頻率對(duì)候選音調(diào)頻率的比值中,優(yōu)選情況下影響函數(shù)是周期性的,其音調(diào)頻率周圍的極大值是線頻率的整數(shù)被除數(shù),其間的最小值在優(yōu)選情況下大多數(shù)是零。優(yōu)選情況下影響函數(shù)是分段線性的,因而它們能夠簡(jiǎn)單而高效地由其轉(zhuǎn)折點(diǎn)的數(shù)值來(lái)表示,轉(zhuǎn)折點(diǎn)之間的數(shù)值由插值確定。因此,本發(fā)明的這些實(shí)施例取代在倒譜音調(diào)估計(jì)方法中使用的余弦函數(shù),提供了另一種簡(jiǎn)單得多的周期函數(shù),并使用該函數(shù)的特殊結(jié)構(gòu)來(lái)提高尋找音調(diào)的效率。在本發(fā)明的實(shí)施例中,由振幅本身取代了倒譜方法中使用的振幅的對(duì)數(shù),盡管本質(zhì)上使用振幅的任何函數(shù)都可能在效率上具有相同的收益。
為了快速尋找與譜線相容之候選音調(diào)頻率的全部區(qū)域,把影響函數(shù)相繼應(yīng)用到頻譜中的譜線上,優(yōu)選情況下是以振幅下降的次序。每次迭代之后,都去除不相容的音調(diào)頻率區(qū)間,使得后繼的迭代在越來(lái)越小的候選音調(diào)頻率區(qū)域內(nèi)執(zhí)行。以這種方式,能夠窮舉地估算相容的候選頻率區(qū)間,而不會(huì)造成不適當(dāng)?shù)挠?jì)算負(fù)擔(dān)。在頻譜的高頻區(qū)域——其中準(zhǔn)確的音調(diào)確定需要高分辨率計(jì)算,這種去除尤為重要。
因此,根據(jù)音頻信號(hào)當(dāng)前幀的線狀譜,對(duì)于搜索區(qū)域中每個(gè)候選音調(diào)頻率,使用在線狀譜上計(jì)算的效用函數(shù)來(lái)確定效用值。每個(gè)候選者的效用值均指示“它是正確音調(diào)”的可能性。所以,對(duì)本幀估計(jì)的音調(diào)頻率從效用函數(shù)的極大值中選取,一般把優(yōu)先權(quán)給予最強(qiáng)的極大值。選取估計(jì)的音調(diào)時(shí),優(yōu)選情況下極大值以頻率來(lái)加權(quán),同時(shí)把優(yōu)先權(quán)也給予更高的音調(diào)頻率。優(yōu)選情況下,也使用最終音調(diào)估計(jì)結(jié)果的效用值來(lái)決定當(dāng)前幀是濁音還是清音。
在數(shù)字化語(yǔ)音的低比特率編碼和重建中,本發(fā)明尤其有用,其中對(duì)當(dāng)前幀的音調(diào)和濁音/清音的判斷進(jìn)行編碼并與本幀的調(diào)制特性一起傳送。此類編碼和重建所用優(yōu)選方法的介紹,見(jiàn)美國(guó)專利申請(qǐng)書(shū)09/410,085和09/432,081,它們被委托給本申請(qǐng)書(shū)的代理人,它們的公開(kāi)文件在這里引用作為參考。此外,本文中介紹的方法和系統(tǒng)也可以與語(yǔ)音編碼和重建的其它方法以及其它類型的音頻處理系統(tǒng)中的音調(diào)確定聯(lián)合使用。
所以,依據(jù)本發(fā)明的某個(gè)優(yōu)選實(shí)施例,提供了一種估計(jì)音頻信號(hào)音調(diào)頻率的方法,包括在第一時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第一變換;
在包含該第一時(shí)間區(qū)間的第二時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第二變換;以及響應(yīng)第一和第二變換,估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
優(yōu)選情況下,第一和第二變換包括短時(shí)傅氏變換。更優(yōu)選情況下,第一時(shí)間區(qū)間包括語(yǔ)音信號(hào)的當(dāng)前幀,第二時(shí)間區(qū)間包括當(dāng)前幀和前一幀,計(jì)算第二變換包括將第一變換與在前一幀上計(jì)算的變換相結(jié)合。最理想的情況是,這些變換產(chǎn)生各自的頻譜系數(shù),將第一變換與前一幀上計(jì)算之變換相結(jié)合包括,對(duì)前一幀上計(jì)算之變換產(chǎn)生的系數(shù),應(yīng)用與頻率和幀延續(xù)時(shí)間成比例的相移,并把相移后的系數(shù)加到第一變換產(chǎn)生的系數(shù)上。
此外,估計(jì)音調(diào)頻率也包括分別從第一和第二變換,求取信號(hào)的第一和第二線狀譜,以及根據(jù)線狀譜確定音調(diào)頻率。優(yōu)選情況下,確定音調(diào)頻率包括分別從第一和第二線狀譜,求取第一和第二候選音調(diào)頻率,以及選擇第一和第二候選者之一作為音調(diào)頻率。最理想的情況是,求取第一和第二候選者包括定義可能的音調(diào)頻率的高低區(qū)域,以及尋找高區(qū)域中的第一候選者和低區(qū)域中的第二候選者。
優(yōu)選情況下,音頻信號(hào)包括語(yǔ)音信號(hào),并且包括響應(yīng)估計(jì)的音調(diào)頻率,對(duì)語(yǔ)音信號(hào)的編碼。
依據(jù)本發(fā)明的某個(gè)優(yōu)選實(shí)施例,也提供了一種估計(jì)語(yǔ)音信號(hào)音調(diào)頻率的方法,包括尋找該信號(hào)的線狀譜,該頻譜包括具有各自線振幅和線頻率的譜線;計(jì)算一個(gè)效用函數(shù),它在該頻譜中的線頻率上是周期性的,對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率,該函數(shù)指示該頻譜與候選音調(diào)頻率相容;以及響應(yīng)該效用函數(shù),估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
優(yōu)選情況下,計(jì)算該效用函數(shù)包括計(jì)算至少一個(gè)影響函數(shù),對(duì)于頻譜線之一的頻率對(duì)候選音調(diào)頻率的比值,影響函數(shù)是周期性的。更優(yōu)選情況下,計(jì)算至少一個(gè)影響函數(shù)包括,對(duì)于在比值的整數(shù)值處具有極大值和其間具有極小值的比值,計(jì)算它的一個(gè)函數(shù)。最理想的情況是,計(jì)算該比值的函數(shù)包括計(jì)算分段線性函數(shù)c(f)的數(shù)值,該函數(shù)在圍繞f=0的第一區(qū)間中具有某個(gè)極大值,在圍繞f=1/2的第二區(qū)間中具有某個(gè)極小值,在第一和第二區(qū)間之間的某個(gè)過(guò)渡區(qū)間中具有線性變化的數(shù)值。
此外,計(jì)算至少一個(gè)影響函數(shù)包括對(duì)于頻譜中的多條譜線計(jì)算各自的影響函數(shù),以及計(jì)算效用函數(shù)包括計(jì)算影響函數(shù)的疊加。優(yōu)選情況下,各自的影響函數(shù)包括具有轉(zhuǎn)折點(diǎn)的分段線性函數(shù),計(jì)算疊加包括計(jì)算在轉(zhuǎn)折點(diǎn)上影響函數(shù)值,使得通過(guò)轉(zhuǎn)折點(diǎn)之間的插值來(lái)確定效用函數(shù)。最理想的情況是,計(jì)算各自的影響函數(shù)包括對(duì)于頻譜中的第一和第二譜線,至少相繼計(jì)算第一和第二影響函數(shù),計(jì)算效用函數(shù)包括,計(jì)算包括第一影響函數(shù)的某個(gè)部分效用函數(shù),然后通過(guò)計(jì)算在部分效用函數(shù)的轉(zhuǎn)折點(diǎn)上第二影響函數(shù)值以及在計(jì)算第二影響函數(shù)的轉(zhuǎn)折點(diǎn)上部分效用函數(shù)值,把第二影響函數(shù)加到該部分效用函數(shù)。
在一個(gè)優(yōu)選實(shí)施例中,計(jì)算各自的影響函數(shù)包括在頻譜中的譜線上,迭代地執(zhí)行以下步驟對(duì)于頻譜中的第一條譜線,計(jì)算第一影響函數(shù);響應(yīng)第一影響函數(shù),在與該頻譜不相容的音調(diào)頻率區(qū)域內(nèi),識(shí)別一個(gè)或多個(gè)區(qū)間;定義減小的音調(diào)頻率區(qū)域,其中已經(jīng)去除了一個(gè)或多個(gè)區(qū)間;以及對(duì)于頻譜中的第二條譜線,計(jì)算第二影響函數(shù),同時(shí)實(shí)質(zhì)上將對(duì)音調(diào)頻率的第二影響的計(jì)算限制在減小后區(qū)域之內(nèi)。
優(yōu)選情況下,計(jì)算疊加包括計(jì)算包括第一影響函數(shù)但是不包括第二影響函數(shù)的部分效用函數(shù),識(shí)別一個(gè)或多個(gè)區(qū)間包括去除其中部分效用函數(shù)低于指定的水平的區(qū)間。最理想的情況是,響應(yīng)沒(méi)有包括在部分效用函數(shù)中的譜線的線振幅,確定指定的水平。此外,迭代地執(zhí)行步驟包括以振幅減小的次序?qū)ψV線進(jìn)行迭代。
優(yōu)選情況下,估計(jì)音調(diào)頻率包括選擇效用函數(shù)在該處具有局部極大值的候選音調(diào)頻率。典型情況下,選取的音調(diào)頻率是效用函數(shù)在該處具有局部極大值的多個(gè)頻率之一,選取候選音調(diào)頻率包括因?yàn)闃O大值中的一個(gè)的頻率高于極大值中的另一個(gè)頻率而優(yōu)先選擇它。此外,選取候選音調(diào)頻率包括因?yàn)槟硞€(gè)極大值在頻率上接近語(yǔ)音信號(hào)前一幀的前面估計(jì)的音調(diào)頻率而優(yōu)先選擇它。
在一個(gè)優(yōu)選實(shí)施例中,該方法包括通過(guò)比較局部極大值的數(shù)值和某個(gè)預(yù)定的閾值,來(lái)確定語(yǔ)音信號(hào)是濁音還是清音。
此外,依據(jù)本發(fā)明的某個(gè)優(yōu)選實(shí)施例,也提供了估計(jì)音頻信號(hào)音調(diào)頻率的裝置,包括一種音頻處理器,它適于在第一時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第一變換和在第二時(shí)間區(qū)間——它包含該第一時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第二變換,以及響應(yīng)第一和第二變換,估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
依據(jù)本發(fā)明的某個(gè)優(yōu)選實(shí)施例,進(jìn)一步提供了估計(jì)音頻信號(hào)音調(diào)頻率的裝置,包括一種音頻處理器,它適于尋找該信號(hào)的線狀譜,該頻譜包括具有各自線振幅和線頻率的譜線;適于計(jì)算某個(gè)效用函數(shù),它在該頻譜中的線頻率上是周期性的,對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率,該函數(shù)指示該頻譜與候選音調(diào)頻率相容;以及適于響應(yīng)該周期函數(shù),估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
不僅如此,依據(jù)本發(fā)明的某個(gè)優(yōu)選實(shí)施例,還提供了一種計(jì)算機(jī)軟件產(chǎn)品,包括一種計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì),其中存放著程序指令,當(dāng)接收音頻信號(hào)的計(jì)算機(jī)讀取時(shí),這些指令使計(jì)算機(jī)在第一時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第一變換和在第二時(shí)間區(qū)間——它包含該第一時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第二變換,以及響應(yīng)第一和第二變換,估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
除此以外,依據(jù)本發(fā)明的某個(gè)優(yōu)選實(shí)施例,還提供了一種計(jì)算機(jī)軟件產(chǎn)品,包括一種計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì),其中存放著程序指令,當(dāng)接收音頻信號(hào)的計(jì)算機(jī)讀取時(shí),這些指令使計(jì)算機(jī)尋找該信號(hào)的線狀譜,該頻譜包括具有各自線振幅和線頻率的譜線;使計(jì)算機(jī)計(jì)算某個(gè)效用函數(shù),它在該頻譜中的線頻率上是周期性的,對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率,該函數(shù)指示該頻譜與候選音調(diào)頻率相容;以及使計(jì)算機(jī)響應(yīng)該效用函數(shù),估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
從以下對(duì)本發(fā)明的優(yōu)選實(shí)施例的詳細(xì)說(shuō)明以及附圖,將會(huì)更全面地理解本發(fā)明,其中附圖簡(jiǎn)要說(shuō)明
圖1是一個(gè)語(yǔ)音分析和編碼系統(tǒng)的一個(gè)示意性的圖示說(shuō)明,依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例;圖2是一張流程圖,示意性地說(shuō)明了一種音調(diào)確定和語(yǔ)音編碼方法,依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例;圖3是一張流程圖,示意性地說(shuō)明了對(duì)語(yǔ)音信號(hào)提取線狀譜和尋找候選音調(diào)值的一種方法,依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例;圖4是一張框圖,示意性地說(shuō)明了同時(shí)對(duì)長(zhǎng)短時(shí)間區(qū)間提取線狀譜的一種方法,依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例;圖5是一張流程圖,示意性地說(shuō)明了一種在線狀譜中尋找尖峰的方法,依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例;圖6是一張流程圖,示意性地說(shuō)明了根據(jù)輸入線狀譜估算候選音調(diào)頻率的一種方法,依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例;圖7是一張圖,顯示了依據(jù)圖6的方法估算候選音調(diào)頻率時(shí)使用的影響函數(shù)的一個(gè)周期;圖8是一張圖,顯示了通過(guò)把圖7的影響函數(shù)應(yīng)用到線狀譜的某個(gè)分量時(shí)求取的部分效用函數(shù),依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例;圖9A和圖9B是兩張流程圖,示意性地說(shuō)明了對(duì)語(yǔ)音的一幀從多個(gè)候選音調(diào)頻率中選擇音調(diào)頻率估計(jì)結(jié)果的一種方法,依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例;以及圖10是一張流程圖,示意性地說(shuō)明了一種方法,確定語(yǔ)音的一幀是濁音還是清音,依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。
具體實(shí)施例方式
圖1是一個(gè)語(yǔ)音信號(hào)分析和編碼系統(tǒng)20的一個(gè)示意性的圖示說(shuō)明,依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。該系統(tǒng)包括一種音頻輸入設(shè)備22,比如話筒,它連接到一個(gè)音頻處理器24。此外,輸入到處理器的音頻也可以通過(guò)通信線路提供或者從存儲(chǔ)設(shè)備檢索,或者以模擬形式或者以數(shù)字形式。優(yōu)選情況下,處理器24包括一臺(tái)通用計(jì)算機(jī),配備了執(zhí)行下文介紹之功能的適當(dāng)軟件。向該處理器提供軟件可以采用電子形式,例如,通過(guò)某個(gè)網(wǎng)絡(luò),也可以在有形的介質(zhì)上提供,比如CD-ROM或者非易失性存儲(chǔ)器。此外,處理器24也可以包括一個(gè)數(shù)字信號(hào)處理器(DSP)或者硬件實(shí)現(xiàn)的邏輯電路。
圖2是一張流程圖,示意性地說(shuō)明了使用系統(tǒng)20處理語(yǔ)音信號(hào)的一種方法,依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。在輸入步驟30,一種語(yǔ)音信號(hào)從設(shè)備22或者從另一種來(lái)源輸入并為了進(jìn)一步的處理而數(shù)字化(如果該信號(hào)還不是數(shù)字形式的話)。為了后續(xù)的處理,數(shù)字化的信號(hào)劃分成適當(dāng)延續(xù)時(shí)間的幀,典型情況下是10ms。在音調(diào)識(shí)別步驟32,處理器24對(duì)每一幀提取信號(hào)的近似線狀譜。該頻譜是通過(guò)在多個(gè)時(shí)間區(qū)間同時(shí)分析該信號(hào)而提取的,如下文的介紹。優(yōu)選情況下,對(duì)于每一幀使用兩個(gè)區(qū)間一個(gè)短區(qū)間用于提取高頻音調(diào)值,一個(gè)長(zhǎng)區(qū)間用于提取低頻值。此外,也可以使用眾多的區(qū)間。低頻部分和高頻部分一起覆蓋了可能的音調(diào)值的整個(gè)區(qū)域。根據(jù)提取的頻譜,識(shí)別當(dāng)前幀的候選音調(diào)頻率。
在音調(diào)選擇步驟34,當(dāng)前幀音調(diào)頻率的最佳估計(jì)結(jié)果是從頻譜的所有部分中的候選頻率中選定的。根據(jù)選定的音調(diào),在濁音判斷步驟36,系統(tǒng)24確定當(dāng)前幀實(shí)際上是濁音還是清音。在輸出編碼步驟38,濁音/清音的判斷和選定的音調(diào)頻率用于對(duì)當(dāng)前幀編碼。最理想的情況是,在這個(gè)步驟中使用上述美國(guó)專利申請(qǐng)書(shū)09/410,085和09/432,081中介紹的方法,盡管本質(zhì)上也可以使用本領(lǐng)域中已知的任何其它編碼方法。優(yōu)選情況下,編碼后的輸出隨著濁音和音調(diào)信息,包括聲音流調(diào)制的特性。典型情況下,編碼后的輸出通過(guò)通信連接發(fā)送和/或存放在存儲(chǔ)器26中(圖1)。在任何情況下,提取調(diào)制信息和對(duì)語(yǔ)音信號(hào)編碼所用的方法都超出了本發(fā)明的范疇。本文介紹的音調(diào)確定的方法也可以用于其它音頻處理應(yīng)用中,帶有或者不帶后續(xù)的編碼。
圖3是一張流程圖,示意性地說(shuō)明了音調(diào)識(shí)別步驟32的細(xì)節(jié),依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。在變換步驟40,對(duì)語(yǔ)音信號(hào)的每一幀應(yīng)用一種雙窗短時(shí)傅氏變換(STFT)。典型情況下,語(yǔ)音信號(hào)可能的音調(diào)頻率的區(qū)域是從55至420Hz。優(yōu)選情況下,這個(gè)區(qū)域劃分成兩個(gè)區(qū)域一個(gè)下部區(qū)域從55Hz向上至某個(gè)中頻Fb(典型情況下大約90Hz),一個(gè)上部區(qū)域從Fb上至420Hz。如下文的介紹,對(duì)于每一幀,為了搜索上部頻率區(qū)域定義了一個(gè)短時(shí)窗,為了搜索下部頻率區(qū)域定義了一個(gè)長(zhǎng)時(shí)窗。此外,也可以使用眾多相鄰的時(shí)窗。對(duì)每個(gè)時(shí)窗應(yīng)用STFT,以分別計(jì)算語(yǔ)音信號(hào)的高低頻頻譜。
短時(shí)窗和長(zhǎng)時(shí)窗頻譜的處理在分開(kāi)、并行的途徑上進(jìn)行。在頻譜估計(jì)步驟42和44,從各自的STFT結(jié)果求取高低頻的線狀譜,它們具有以上定義的{(ai,θi)的形式。在候選頻率尋找步驟46和48,這些線狀譜用于尋找高低頻音調(diào)候選值各自的集合。為了在這些音調(diào)候選值中選擇最佳的音調(diào)頻率估計(jì)結(jié)果,把它們送入步驟34(圖2)。下文中參考圖4、圖5和圖6,介紹步驟40至48的細(xì)節(jié)。
圖4是一張框圖,示意性地說(shuō)明了變換步驟40的細(xì)節(jié),依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。加窗單元50把一種加窗函數(shù)——優(yōu)選情況下是把延續(xù)時(shí)間為20ms的業(yè)內(nèi)周知的漢明窗——應(yīng)用到語(yǔ)音信號(hào)的當(dāng)前幀上。變換單元52把一種適當(dāng)?shù)念l率變換應(yīng)用到加窗后的幀,優(yōu)選情況下是一種分辨率為256或512個(gè)頻率點(diǎn)的快速傅氏變換(FFT),取決于采樣率。
優(yōu)選情況下,變換單元52的輸出是送入一個(gè)插值單元54,它用于提高頻譜的分辨率。最理想的情況是,通過(guò)把一個(gè)狄利克雷核D(θ,N)=sin(Nθ/2)sin(θ/2)]]>應(yīng)用到FFT輸出系數(shù)Xd[k]來(lái)執(zhí)行插值,給出插值后的頻譜系數(shù)X(θ)=Σk=0N-11NXd[k]D(θ-2πk/N,N)exp{-j(θ-2πk/N)(N-1)/2}------(2)]]>為了高效的插值,在每個(gè)頻率θ的鄰域,僅僅使用少量的系數(shù)Xd[k]。典型情況下使用16個(gè)系數(shù),以這種方式頻譜的分辨率提高的因數(shù)是2,所以在插值后的頻譜中點(diǎn)數(shù)是L=2N。插值單元54的輸出給出了短時(shí)窗變換,它傳送到步驟42(圖3)。
通過(guò)當(dāng)前幀的短時(shí)窗變換Xs和前一幀的短時(shí)窗變換Ys——它由延遲單元56保存——的結(jié)合,計(jì)算出要傳送到步驟44的長(zhǎng)時(shí)窗變換。結(jié)合之前,來(lái)自前一幀的系數(shù)在乘法器58中乘以一個(gè)相移2πmk/L,其中m是一幀中的樣點(diǎn)數(shù)目。通過(guò)在加法器60中把來(lái)自當(dāng)前幀的短時(shí)窗系數(shù)加上來(lái)自前一幀的短時(shí)窗系數(shù)(帶有適當(dāng)?shù)南嘁?,產(chǎn)生了長(zhǎng)時(shí)窗頻譜X1如下X1(2πk/L)=Xs(2πk/L)+ys(2πk/L)exp(j2πmk/L)(3)式中k是從一個(gè)整數(shù)集中取出的一個(gè)整數(shù),使得頻率2πk/L跨越頻率的整個(gè)區(qū)域。因此,以圖4為例的方法容許對(duì)于多個(gè)疊加的時(shí)窗求取頻譜,而計(jì)算成本比在單一時(shí)窗中執(zhí)行一次STFT運(yùn)算所需的計(jì)算量增加不多。
圖5是一張流程圖,示意性地顯示了線狀譜估計(jì)步驟42和44的細(xì)節(jié),依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。對(duì)步驟40產(chǎn)生的長(zhǎng)短時(shí)窗變換X(θ),都應(yīng)用了這張圖中說(shuō)明的線狀譜估計(jì)方法。步驟42和44的目的是確定當(dāng)前幀絕對(duì)現(xiàn)狀譜的一個(gè)估計(jì)結(jié)果 從X(θ)的局部極大值的位置和|a^i|=|X(θ^i)|,]]>求取尖峰頻率的序列 該估計(jì)結(jié)果是基于假設(shè)在頻率域中,加窗函數(shù)(加窗單元50)的變換的主瓣寬度,相對(duì)于音調(diào)頻率比較小。所以,頻譜中相鄰窗口之間的相互作用也比較小。
線狀譜的估計(jì)開(kāi)始于在尖峰尋找步驟70,在插值后的頻譜(每個(gè)(2)式)中尋找尖峰的近似頻率。典型情況下,執(zhí)行頻率計(jì)算至整數(shù)精度。在插值步驟72,這些尖峰頻率計(jì)算至浮點(diǎn)精度,優(yōu)選情況下是根據(jù)2π/L的整數(shù)倍中的尖峰頻率和在三個(gè)最近的相鄰整數(shù)倍處的頻譜振幅,使用二階插值。為了尋找精確的尖峰位置處的振幅,對(duì)復(fù)振幅值應(yīng)用線性插值,然后取振幅的絕對(duì)值。
在畸變估算步驟74,為了評(píng)估輸入語(yǔ)音信號(hào)中是否存在畸變,對(duì)在前面步驟中發(fā)現(xiàn)的尖峰陣列進(jìn)行處理,如果有畸變,要視圖校正該畸變。優(yōu)選情況下,分析頻率范圍劃分成三個(gè)相等的區(qū)域,計(jì)算區(qū)域中所有振幅的極大值。這些區(qū)域完全覆蓋了該頻率范圍。如果中頻或高頻區(qū)域中的極大值與低頻區(qū)域中的極大值相比太高,就在衰減步驟76衰減中頻和/或高頻區(qū)域中的尖峰值。經(jīng)探索發(fā)現(xiàn),如果中頻區(qū)域極大值高于低頻區(qū)域極大值的65%,或者高頻區(qū)域極大值高于低頻區(qū)域極大值的45%,就應(yīng)當(dāng)應(yīng)用衰減。以這種方式衰減尖峰,使頻譜“恢復(fù)”到更可靠的形狀。粗略地說(shuō),如果語(yǔ)音信號(hào)最初沒(méi)有畸變,步驟74將不會(huì)改變其頻譜。
在尖峰計(jì)數(shù)步驟78,對(duì)步驟72中發(fā)現(xiàn)的尖峰進(jìn)行計(jì)數(shù)。在主尖峰估算步驟80,尖峰的數(shù)目與某個(gè)預(yù)定的極大值數(shù)目——典型情況下設(shè)置為8——進(jìn)行比較。如果發(fā)現(xiàn)的尖峰是8個(gè)或更少,處理過(guò)程直接前進(jìn)到步驟46或48。否則,在排序步驟82,尖峰按照其振幅值的下降次序排序。一旦預(yù)定數(shù)目的最高的尖峰已經(jīng)發(fā)現(xiàn)(典型情況下等于步驟80所用的尖峰的最大數(shù)目),就在閾值設(shè)置步驟84,把閾值設(shè)置為等于最高尖峰組中最低尖峰振幅的某個(gè)特定比例。在虛假尖峰丟棄步驟86,丟棄低于這個(gè)閾值的尖峰。此外,如果在排序步驟82的某個(gè)階段,已排序尖峰值的總和超過(guò)全部已發(fā)現(xiàn)尖峰值總和的某個(gè)預(yù)定比例——典型情況下為95%,就停止排序過(guò)程。然后在步驟86,丟棄所有剩余的、較小的尖峰。這個(gè)步驟的目的是去除小的、虛假的尖峰,它們可能以后在步驟34和36中影響音調(diào)確定或者影響濁音/清音的判斷(圖2)。減少線狀譜尖峰的數(shù)目也使音調(diào)確定過(guò)程的效率更高。
圖6是一張流程圖,示意性地顯示了候選頻率尋找步驟46和48的細(xì)節(jié),依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。這些步驟分別應(yīng)用到步驟44和42輸出的長(zhǎng)短時(shí)窗線狀譜 ,如上所示及所述。在步驟46中,產(chǎn)生其頻率高于某個(gè)特定閾值的音調(diào)候選者,并根據(jù)短分析區(qū)間中產(chǎn)生的線狀譜,使用下面概述的過(guò)程計(jì)算其效用函數(shù)。在步驟48中,長(zhǎng)分析區(qū)間中產(chǎn)生的線狀譜也產(chǎn)生一個(gè)音調(diào)候選列表,并且僅僅對(duì)于其頻率低于該閾值的音調(diào)候選者計(jì)算效用函數(shù)。不論是長(zhǎng)時(shí)窗還是短時(shí)窗,在歸一化步驟90,線狀譜都要?dú)w一化,以產(chǎn)生具有歸一化振幅bi和頻率fi的譜線如下bi=|a^i|Σk=1K|a^k|-------(4)]]>fi=θ^i2πTs-------(5)]]>在兩式中,i都是從1到K,Ts都是采樣間隔。換句話說(shuō),1/Ts是原始語(yǔ)音信號(hào)的采樣頻率,因此fi是以每秒樣點(diǎn)數(shù)表示的譜線頻率。在排序步驟92中,按照其歸一化振幅bi對(duì)譜線排序。
圖7是一張圖,顯示了圖6的方法這個(gè)階段使用的影響函數(shù)120的一個(gè)周期,標(biāo)注為c(f),依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。優(yōu)選情況下,該影響函數(shù)具有以下特征1.c(f+l)=c(f),即該函數(shù)是周期性的,周期為1。
2.0≤c(f)≤1。
3.c(0)=1。
4.c(f)=c(-f)。
5.對(duì)于r≤|f|≤1/2,其中r為小于1/2的一個(gè)參數(shù),c(f)=0。
6.在
中c(f)是分段線性和非增的。
在圖7所示的優(yōu)選實(shí)施例中,該影響函數(shù)是梯形的,具有以下形式 此外,也可以使用另一種周期函數(shù),優(yōu)選情況下是一個(gè)分段線性函數(shù),離原點(diǎn)超過(guò)某個(gè)預(yù)定距離時(shí)其值為0。
圖8是一張圖,顯示了效用函數(shù)U(fp)的某個(gè)分量130,它是對(duì)候選預(yù)定頻率fp使用影響函數(shù)c(f)而產(chǎn)生的,依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。對(duì)于任何給定的音調(diào)頻率,根據(jù)線狀譜{(bi,fi)}產(chǎn)生效用函數(shù)U(fp)如下
U(fp)=Σi=1Kbic(fi/fp)-------(7)]]>那么,對(duì)于單一譜線(bi,fi),這個(gè)函數(shù)的某個(gè)分量Ui(fp)定義為Ui(fp)=bic(fi/fp)-------(8)]]>圖8顯示了一個(gè)這樣的分量,其中fi=700Hz,在從50到400Hz的范圍內(nèi)對(duì)音調(diào)頻率估算該分量。該分量包括多個(gè)瓣132、134、136、138……,每個(gè)瓣都定義了一個(gè)區(qū)域,其中可能產(chǎn)生一個(gè)候選音調(diào)頻率并導(dǎo)致在fi的譜線。
因?yàn)閎i值已經(jīng)歸一化,并且c(f)≤1,對(duì)于任何給定候選音調(diào)頻率,效用函數(shù)將在0和1之間。由于根據(jù)定義在fi中c(fi/fp)是周期性的,周期為fp,所以對(duì)于某個(gè)給定的音調(diào)頻率fp,效用函數(shù)的一個(gè)大值表示,序列{fi}中的大多數(shù)頻率接近音調(diào)頻率的某個(gè)倍數(shù)。因此,通過(guò)對(duì)指定分辨率適當(dāng)?shù)念l率范圍中所有可能的音調(diào)頻率計(jì)算效用函數(shù),并選取效用值大的候選音調(diào)頻率,可以直接了當(dāng)(但是低效)地發(fā)現(xiàn)當(dāng)前幀的音調(diào)頻率。
下文提出一種效率更高的方法。因?yàn)橛绊懞瘮?shù)c(f)是分段線性的,在任何點(diǎn)上Ui(fp)的值都是通過(guò)在函數(shù)的轉(zhuǎn)折點(diǎn)(即一階導(dǎo)數(shù)中的不連續(xù)點(diǎn))上的值來(lái)定義的,比如圖8中所示的點(diǎn)140和142。雖然Ui(fp)本身不是分段線性的,但是在所有區(qū)域中它都能夠近似為一種線性函數(shù)。下面要介紹的方法使用Ui(fp)分量轉(zhuǎn)折點(diǎn)的值來(lái)建立完整的效用函數(shù)U(fp)。每個(gè)Ui分量將其自己的轉(zhuǎn)折點(diǎn)增加到完整函數(shù)中,同時(shí)通過(guò)線性插值來(lái)發(fā)現(xiàn)轉(zhuǎn)折點(diǎn)之間的效用函數(shù)值。
建立完整效用函數(shù)的過(guò)程,使用了通過(guò)依次加進(jìn)每條譜線(bi,fi)的Ui(fp)分量產(chǎn)生的、一系列的部分效用函數(shù)PUiPUi(fp)=Σk=1iUk(fp)-------(9)]]>因?yàn)楹瘮?shù)c(f)不大于1,最初i條譜線已經(jīng)加入部分效用函數(shù)之后,剩余線狀譜值的總和離上限還有Ri=Σk=i+1Kbk-----------(10)]]>那么對(duì)于任何i,完整的效用函數(shù)U(fp)受限于
U(fp)≤PUi(fp)+Ri(11)所以,每次迭代i之后,對(duì)于使PUi(fp)+Ri小于某個(gè)預(yù)定閾值的fp,保證具有同樣小于該閾值的某個(gè)效用值。所以,它們可以不再被視為校正音調(diào)頻率的候選者。通過(guò)使用PUi的轉(zhuǎn)折點(diǎn)值,利用線性插值發(fā)現(xiàn)轉(zhuǎn)折點(diǎn)之間的函數(shù)值,能夠發(fā)現(xiàn)PUi(fp)+Ri低于閾值的整個(gè)區(qū)間,并在每次迭代時(shí)去除,使后續(xù)的搜索效率更高。
現(xiàn)在返回圖6,為了產(chǎn)生部分效用函數(shù)的序列PUi,把影響函數(shù)c(f)迭代地應(yīng)用到歸一化頻譜中的每條譜線(bi,fi)。在分量選擇步驟94,該過(guò)程起始于最大的分量U1(fp)。這個(gè)分量對(duì)應(yīng)于具有最大歸一化振幅b1的排序后的譜線(b1,f1)。在效用函數(shù)生成步驟96,在搜索fp的區(qū)域內(nèi)所有轉(zhuǎn)折點(diǎn)上計(jì)算U1(fp)的值。在這個(gè)階段,部分效用函數(shù)PU1只是等于U1。在這個(gè)階段的后續(xù)迭代中,既在其自己的轉(zhuǎn)折點(diǎn)上又在當(dāng)前對(duì)fp的有效搜索區(qū)間之內(nèi)(即前一次迭代中還沒(méi)有被去除的區(qū)間之內(nèi))部分效用函數(shù)PUi-1(fp)的所有轉(zhuǎn)折點(diǎn)上,確定新的分量Ui(fp)。優(yōu)選情況下,在PUi-1(fp)的轉(zhuǎn)折點(diǎn)上的Ui(fp)值通過(guò)插值來(lái)計(jì)算。在Ui(fp)的轉(zhuǎn)折點(diǎn)上也計(jì)算PUi-1(fp)值。在丟棄步驟98,如果Ui包含的轉(zhuǎn)折點(diǎn)非常接近PUi-1中現(xiàn)有的轉(zhuǎn)折點(diǎn),優(yōu)選情況下這些新的轉(zhuǎn)折點(diǎn)作為多余的點(diǎn)丟棄。最理想的情況是,以這種方式丟棄其頻率與現(xiàn)有轉(zhuǎn)折點(diǎn)差異不大于0.0006*fp2的轉(zhuǎn)折點(diǎn)。然后在加法步驟100中,在所有剩余的轉(zhuǎn)折點(diǎn)上,Ui加到PUi-1上,從而產(chǎn)生。
在每次迭代中,在區(qū)間刪除步驟102估算對(duì)fp的有效搜索區(qū)間。如上所述,其中PUi(fp)+Ri低于某個(gè)預(yù)定閾值的區(qū)間被去除,不再進(jìn)一步考慮。一個(gè)對(duì)這種目的便于使用的閾值是濁音/清音閾值TUV,在步驟36(圖2)它應(yīng)用于選定的音調(diào)頻率,以確定當(dāng)前幀是濁音還是清音。在這一點(diǎn)上使用某個(gè)高閾值會(huì)提高個(gè)計(jì)算過(guò)程的效率,但是有刪除有效候選音調(diào)頻率的風(fēng)險(xiǎn)。這可能會(huì)導(dǎo)致確定當(dāng)前幀是清音,而事實(shí)上它應(yīng)當(dāng)被視為濁音。例如,如果前一幀估計(jì)的音調(diào)頻率的效用值 高,當(dāng)前幀往往應(yīng)當(dāng)判斷為濁音,即使當(dāng)前幀的效用值低。由于這個(gè)原因,為了在步驟102中使用,優(yōu)選情況下定義一種自適應(yīng)探索的閾值Tad如下Tad=max{PUmaxΣk=1ibk-(1-TUV),Tmin}-------(12)]]>式中PUmax為當(dāng)前部分效用函數(shù)PUi的最大值,Tmin為預(yù)定的最小閾值,低于TUV。商 ——永遠(yuǎn)小于等于1——表示部分效用函數(shù)PUi之“質(zhì)量”的一種測(cè)度。如果質(zhì)量高,閾值Tad將接近TUV。如果質(zhì)量差,更低的閾值Tmin防止有效的音調(diào)候選者過(guò)早地從音調(diào)確定過(guò)程中去除。
在終止步驟104,應(yīng)當(dāng)做到最后一條譜線(bi,fi)的Ui分量已經(jīng)估算之后,該過(guò)程就完成了,合成的效用函數(shù)U傳送到音調(diào)選擇步驟34。該函數(shù)的形式為頻率轉(zhuǎn)折點(diǎn)的集合及轉(zhuǎn)折點(diǎn)上的函數(shù)值。否則,在下一個(gè)分量步驟106取下一條譜線,迭代過(guò)程從步驟96繼續(xù)進(jìn)行,直到過(guò)程完成。
總而言之,可見(jiàn)圖6的方法在搜索范圍內(nèi)搜索所有可能的音調(diào)頻率,但是它是以優(yōu)化的效率進(jìn)行的,因?yàn)樵诿看蔚鷷r(shí),都去除了更多的無(wú)效搜索區(qū)間。因此是在依次減小的有效區(qū)間中進(jìn)行搜索。不僅如此,僅僅計(jì)算在特定的轉(zhuǎn)折點(diǎn)上線狀譜的每個(gè)分量對(duì)效用函數(shù)的貢獻(xiàn),而不是在音調(diào)頻率的整個(gè)搜索范圍內(nèi)計(jì)算。
圖9A和圖9B是兩張流程圖,示意性地說(shuō)明了音調(diào)選擇步驟34(圖2)的細(xì)節(jié),依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。最佳候選音調(diào)頻率的選擇是根據(jù)步驟104輸出的效用函數(shù),包括所有發(fā)現(xiàn)的轉(zhuǎn)折點(diǎn)。對(duì)效用函數(shù)的轉(zhuǎn)折點(diǎn)進(jìn)行估算,并選取其中一個(gè)作為最佳音調(diào)候選者。
在極大值尋找步驟150,尋找效用函數(shù)的局部極大值。最佳音調(diào)候選者要從這些局部極大值中選擇。典型情況下,為了避免把音調(diào)頻率的整數(shù)被除數(shù)(對(duì)應(yīng)于音調(diào)周期的整數(shù)倍)誤認(rèn)為是真正的音調(diào),優(yōu)先權(quán)給予高的音調(diào)頻率。所以,在頻率排序步驟152,根據(jù)頻率對(duì)局部極大值{fpi}i=1M排序如下fp1>fp2>···>fpM------(13)]]>
在初始化步驟154,音調(diào)估計(jì)結(jié)果 初始設(shè)置為等于最高的頻率候選者fp1。每個(gè)剩余的候選者都以頻率下降的次序,對(duì)于音調(diào)估計(jì)結(jié)果的當(dāng)前值進(jìn)行估算。
估算的過(guò)程開(kāi)始于下一個(gè)頻率步驟156,對(duì)于候選音調(diào)fp2。在估算步驟158,效用函數(shù)值U(fp2)與 相比較。如果在fp2效用函數(shù)大于 處的效用函數(shù)至少某個(gè)閾值差異T1,或者如果fp2接近 并具有更大的效用函數(shù)值,即使差異不大,那么fp2也被視為是優(yōu)于當(dāng)前的 的音調(diào)頻率估計(jì)結(jié)果。典型情況下,T1=0.1,并且如果1.17fp2>F^0,]]>就認(rèn)為fp2接近 在這種情況下,在候選設(shè)置步驟160, 設(shè)置為新的候選值fp2。對(duì)于所有的局部極大值fpi,依次重復(fù)步驟156至160,直到在最后一個(gè)頻率步驟162達(dá)到最后一個(gè)頻率fpM。
對(duì)于當(dāng)前幀,只要在前一幀中音調(diào)是穩(wěn)定的,一般需要選取接近前一幀音調(diào)的一個(gè)音調(diào)。所以,在前一幀評(píng)估步驟170,確定前一幀中音調(diào)是否穩(wěn)定。優(yōu)選情況下是在前六幀中都滿足一定的連續(xù)準(zhǔn)則,從把該音調(diào)視為穩(wěn)定的。例如相繼幀之間音調(diào)變化小于18%,并且在所有幀中保持效用函數(shù)的大值,可能是需要的。如果是這樣,在最近極大值選擇步驟172中,在{fpi}集合中選擇最接近前一個(gè)音調(diào)頻率的音調(diào)頻率。在對(duì)比步驟174,對(duì)比當(dāng)前音調(diào)頻率估計(jì)結(jié)果的效用函數(shù) 在這種最接近的頻率估算效用函數(shù)U(fpclose)。在最接近頻率設(shè)置步驟176,如果在這兩種頻率處效用函數(shù)的值差異不大于某個(gè)閾值數(shù)量T2,那么就選取與前一個(gè)音調(diào)頻率最接近的頻率fpclose作為當(dāng)前幀音調(diào)頻率的估計(jì)結(jié)果 典型情況下,T2設(shè)置為0.06。否則,在候選頻率設(shè)置步驟178,如果效用函數(shù)的值差異大于T2,仍然選取來(lái)自步驟162的當(dāng)前的音調(diào)頻率的估計(jì)結(jié)果 作為當(dāng)前幀的音調(diào)頻率。如果在步驟170發(fā)現(xiàn)前一幀的音調(diào)不穩(wěn)定,同樣會(huì)選取這個(gè)估計(jì)值。
圖10是一張流程圖,示意性地顯示了濁音判斷步驟36的細(xì)節(jié),依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。在閾值對(duì)比步驟180,該判斷是根據(jù)在估計(jì)的音調(diào)處效用函數(shù) 與上述閾值TUV的比較結(jié)果。典型情況下,TUV=0.75。在濁音設(shè)置步驟188,如果效用函數(shù)高于該閾值,當(dāng)前幀就劃分為濁音。
不過(guò),在語(yǔ)音流過(guò)渡期間,語(yǔ)音信號(hào)的周期結(jié)構(gòu)可能改變,不時(shí)導(dǎo)致效用函數(shù)的低值,即使當(dāng)前幀應(yīng)當(dāng)被視為濁音。所以,當(dāng)前幀的效用函數(shù)低于閾值TUV時(shí),在前一幀檢驗(yàn)步驟182檢驗(yàn)前一幀的效用函數(shù)。如果前一幀的音調(diào)估計(jì)結(jié)果具有高效用值,典型情況下至少0.84,而且在音調(diào)檢驗(yàn)步驟184發(fā)現(xiàn)當(dāng)前幀的音調(diào)接近前一幀的音調(diào),典型情況下差異不大于18%,那么當(dāng)前幀就在步驟188劃分為濁音,而不管其低效用值。否則,在清音設(shè)置步驟186,當(dāng)前幀被劃分為清音。
應(yīng)當(dāng)理解,以上介紹的優(yōu)選實(shí)施例是舉例引證,本發(fā)明不限于上文中已經(jīng)展示和介紹的具體內(nèi)容。相反,本發(fā)明的范圍包括上文中介紹之多種特性的結(jié)合與變形,以及它們的變化和修改,本領(lǐng)域的技術(shù)人員閱讀前面的說(shuō)明之后可以做出這些變化和修改,并且沒(méi)有在現(xiàn)有技術(shù)中公開(kāi)過(guò)。
權(quán)利要求
1.一種估計(jì)音頻信號(hào)音調(diào)頻率的方法,包括在第一時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第一變換;在包含該第一時(shí)間區(qū)間的第二時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第二變換;以及響應(yīng)第一和第二變換,估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
2.根據(jù)權(quán)利要求1的方法,其特征在于,第一和第二變換包括短時(shí)傅氏變換。
3.根據(jù)權(quán)利要求1的方法,其特征在于,第一時(shí)間區(qū)間包括語(yǔ)音信號(hào)的當(dāng)前幀,第二時(shí)間區(qū)間包括當(dāng)前幀和前一幀,并且,計(jì)算第二變換包括將第一變換與在前一幀上計(jì)算的變換結(jié)合起來(lái)。
4.根據(jù)權(quán)利要求3的方法,其特征在于,這些變換產(chǎn)生各自的頻譜系數(shù),并且,將第一變換與前一幀上計(jì)算的變換相結(jié)合包括,對(duì)前一幀上計(jì)算的變換所產(chǎn)生的系數(shù)應(yīng)用相移,并把相移后的系數(shù)加到第一變換所產(chǎn)生的系數(shù)上。
5.根據(jù)權(quán)利要求4的方法,其特征在于,對(duì)于一個(gè)給定的頻率,應(yīng)用到對(duì)應(yīng)系數(shù)上的相移,與頻率和幀延續(xù)時(shí)間成比例。
6.根據(jù)權(quán)利要求1-5中任何一條的方法,其特征在于,估計(jì)音調(diào)頻率包括分別從第一和第二變換,求取信號(hào)的第一和第二線狀譜,以及根據(jù)線狀譜確定音調(diào)頻率。
7.根據(jù)權(quán)利要求6的方法,其特征在于,確定音調(diào)頻率包括分別從第一和第二線狀譜,求取第一和第二候選音調(diào)頻率,以及選擇第一和第二候選者之一作為音調(diào)頻率。
8.根據(jù)權(quán)利要求7的方法,其特征在于,求取第一和第二候選者包括定義可能的音調(diào)頻率的高低區(qū)域,以及尋找高區(qū)域中的第一候選者和低區(qū)域中的第二候選者。
9.根據(jù)權(quán)利要求6的方法,其特征在于,該線狀譜包括具有各自線頻率的譜線,并且,確定音調(diào)頻率包括計(jì)算線頻率上的一個(gè)周期函數(shù),該函數(shù)指示音調(diào)頻率。
10.根據(jù)權(quán)利要求1-5中任何一條的方法,其特征在于,該音頻信號(hào)包括語(yǔ)音信號(hào),并且包括響應(yīng)估計(jì)的音調(diào)頻率,對(duì)語(yǔ)音信號(hào)的編碼。
11.一種估計(jì)語(yǔ)音信號(hào)音調(diào)頻率的方法,包括尋找該信號(hào)的一個(gè)線狀譜,該頻譜包括具有各自線振幅和線頻率的譜線;計(jì)算一個(gè)效用函數(shù),它在該頻譜中的線頻率上是周期性的,對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率,該函數(shù)指示該頻譜與候選音調(diào)頻率相容;以及響應(yīng)該效用函數(shù),估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
12.根據(jù)權(quán)利要求11的方法,其特征在于,計(jì)算該效用函數(shù)包括計(jì)算至少一個(gè)影響函數(shù),對(duì)于頻譜線之一的頻率對(duì)候選音調(diào)頻率的比值,影響函數(shù)是周期性的。
13.根據(jù)權(quán)利要求12的方法,其特征在于,計(jì)算至少一個(gè)影響函數(shù)包括,對(duì)于在比值的整數(shù)值處具有極大值和其間具有極小值的比值,計(jì)算它的一個(gè)函數(shù)。
14.根據(jù)權(quán)利要求13的方法,其特征在于,計(jì)算該比值的函數(shù)包括計(jì)算分段線性函數(shù)c(f)的數(shù)值,該函數(shù)在圍繞f=0的第一區(qū)間中具有一個(gè)極大值,在圍繞f=1/2的第二區(qū)間中具有一個(gè)極小值,在第一和第二區(qū)間之間的一個(gè)過(guò)渡區(qū)間中具有線性變化的數(shù)值。
15.根據(jù)權(quán)利要求12的方法,其特征在于,計(jì)算至少一個(gè)影響函數(shù)包括對(duì)于頻譜中的多條譜線計(jì)算各自的影響函數(shù),并且,計(jì)算效用函數(shù)包括計(jì)算影響函數(shù)的疊加。
16.根據(jù)權(quán)利要求15的方法,其特征在于,各自的影響函數(shù)包括具有轉(zhuǎn)折點(diǎn)的分段線性函數(shù),并且,計(jì)算疊加包括在轉(zhuǎn)折點(diǎn)上計(jì)算影響函數(shù)值,使得通過(guò)轉(zhuǎn)折點(diǎn)之間的插值來(lái)確定效用函數(shù)。
17.根據(jù)權(quán)利要求16的方法,其特征在于,計(jì)算各自的影響函數(shù)包括對(duì)于頻譜中的第一和第二譜線,至少相繼計(jì)算第一和第二影響函數(shù),并且,計(jì)算效用函數(shù)包括,計(jì)算包括第一影響函數(shù)的一個(gè)部分效用函數(shù),然后通過(guò)計(jì)算在部分效用函數(shù)的轉(zhuǎn)折點(diǎn)上第二影響函數(shù)值以及計(jì)算在第二影響函數(shù)的轉(zhuǎn)折點(diǎn)上部分效用函數(shù)值,把第二影響函數(shù)加到該部分效用函數(shù)。
18.根據(jù)權(quán)利要求15的方法,其特征在于,計(jì)算各自的影響函數(shù)包括在頻譜中的譜線上,迭代地執(zhí)行以下步驟對(duì)于頻譜中的第一條譜線,計(jì)算第一影響函數(shù);響應(yīng)第一影響函數(shù),在與該頻譜不相容的音調(diào)頻率區(qū)域內(nèi),識(shí)別一個(gè)或多個(gè)區(qū)間;定義減小的音調(diào)頻率區(qū)域,其中已經(jīng)去除了一個(gè)或多個(gè)區(qū)間;以及對(duì)于頻譜中的第二條譜線,計(jì)算第二影響函數(shù),同時(shí)實(shí)質(zhì)上將對(duì)音調(diào)頻率的第二影響的計(jì)算限制在減小后區(qū)域之內(nèi)。
19.根據(jù)權(quán)利要求18的方法,其特征在于,計(jì)算疊加包括計(jì)算包括第一影響函數(shù)但是不包括第二影響函數(shù)的部分效用函數(shù),并且,識(shí)別一個(gè)或多個(gè)區(qū)間包括去除其中部分效用函數(shù)低于指定的水平的區(qū)間。
20.根據(jù)權(quán)利要求19的方法,其特征在于,響應(yīng)沒(méi)有包括在部分效用函數(shù)中的譜線的線振幅,確定指定的水平。
21.根據(jù)權(quán)利要求18的方法,其特征在于,迭代地執(zhí)行步驟包括以振幅減小的次序?qū)ψV線進(jìn)行迭代。
22.根據(jù)權(quán)利要求11-21中任何一條的方法,其特征在于,估計(jì)音調(diào)頻率包括選擇效用函數(shù)在該處具有局部極大值的候選音調(diào)頻率。
23.根據(jù)權(quán)利要求22的方法,其特征在于,選取的音調(diào)頻率是效用函數(shù)在該處具有局部極大值的多個(gè)頻率之一,并且,選取候選音調(diào)頻率包括因?yàn)闃O大值中的一個(gè)的頻率高于極大值中的另一個(gè)的頻率而優(yōu)先選擇它。
24.根據(jù)權(quán)利要求22的方法,其特征在于,選取的音調(diào)頻率是效用函數(shù)在該處具有局部極大值的多個(gè)頻率之一,并且,選取候選音調(diào)頻率包括因?yàn)橐粋€(gè)極大值在頻率上接近語(yǔ)音信號(hào)前一幀的前面估計(jì)的音調(diào)頻率而優(yōu)先選擇它。
25.根據(jù)權(quán)利要求22的方法,并且包括通過(guò)比較局部極大值的數(shù)值和一個(gè)預(yù)定的閾值,來(lái)確定語(yǔ)音信號(hào)是濁音還是清音。
26.根據(jù)權(quán)利要求11-21中任何一條的方法,其特征在于,該音頻信號(hào)包括語(yǔ)音信號(hào),并且包括響應(yīng)估計(jì)的音調(diào)頻率,對(duì)語(yǔ)音信號(hào)編碼。
27.估計(jì)音頻信號(hào)音調(diào)頻率的裝置,包括一種音頻處理器,它適于在第一時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第一變換和在包含該第一時(shí)間區(qū)間的第二時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第二變換,以及響應(yīng)第一和第二變換,估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
28.根據(jù)權(quán)利要求27的裝置,其特征在于,第一和第二變換包括短時(shí)傅氏變換。
29.根據(jù)權(quán)利要求27的裝置,其特征在于,第一時(shí)間區(qū)間包括語(yǔ)音信號(hào)的當(dāng)前幀,第二時(shí)間區(qū)間包括當(dāng)前幀和前一幀,并且,該處理器適于通過(guò)將第一變換與在前一幀上計(jì)算的變換相結(jié)合計(jì)算第二變換。
30.根據(jù)權(quán)利要求29的裝置,其特征在于,這些變換產(chǎn)生各自的頻譜系數(shù),并且,該處理器適于對(duì)前一幀上計(jì)算之變換產(chǎn)生的系數(shù)應(yīng)用相移,并把相移后的系數(shù)加到第一時(shí)間區(qū)間的變換產(chǎn)生的系數(shù)上。
31.根據(jù)權(quán)利要求30的裝置,其特征在于,對(duì)于一個(gè)給定的頻率,應(yīng)用到對(duì)應(yīng)系數(shù)上的相移,與頻率和幀延續(xù)時(shí)間成比例。
32.根據(jù)權(quán)利要求27-31中任何一條的裝置,其特征在于,該處理器適于分別從第一和第二變換,求取信號(hào)的第一和第二線狀譜,以及根據(jù)線狀譜確定音調(diào)頻率。
33.根據(jù)權(quán)利要求32的裝置,其特征在于,該處理器適于分別從第一和第二線狀譜,求取第一和第二候選音調(diào)頻率,以及選擇第一和第二候選者之一作為音調(diào)頻率。
34.根據(jù)權(quán)利要求33的裝置,其特征在于,定義了可能的音調(diào)頻率的高低區(qū)域,且該處理器適于求取高區(qū)域中的第一候選者和低區(qū)域中的第二候選者。
35.根據(jù)權(quán)利要求32的裝置,其特征在于,該線狀譜包括具有各自線頻率的譜線,并且,該處理器適于產(chǎn)生線頻率上的一個(gè)周期函數(shù),該函數(shù)指示音調(diào)頻率。
36.根據(jù)權(quán)利要求27-31中任何一條的裝置,其特征在于,該音頻信號(hào)包括語(yǔ)音信號(hào),并且,該處理器進(jìn)一步適于響應(yīng)估計(jì)的音調(diào)頻率,對(duì)語(yǔ)音信號(hào)進(jìn)行編碼。
37.估計(jì)音頻信號(hào)音調(diào)頻率的裝置,包括一種音頻處理器,它適于尋找該信號(hào)的線狀譜,該頻譜包括具有各自線振幅和線頻率的譜線;適于計(jì)算一個(gè)效用函數(shù),它在該頻譜中的線頻率上是周期性的,對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率,該函數(shù)指示該頻譜與候選音調(diào)頻率相容;以及適于響應(yīng)該周期函數(shù),估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
38.根據(jù)權(quán)利要求37的裝置,其特征在于,該效用函數(shù)包括至少一個(gè)影響函數(shù),對(duì)于頻譜線之一的頻率對(duì)候選音調(diào)頻率的比值,影響函數(shù)是周期性的。
39.根據(jù)權(quán)利要求38的裝置,其特征在于,該至少一個(gè)影響函數(shù)包括一個(gè)比值的函數(shù),該比值是在比值的整數(shù)值處具有極大值和其間具有極小值的二者的比值。
40.根據(jù)權(quán)利要求39的裝置,其特征在于,該至少一個(gè)影響函數(shù)包括分段線性函數(shù)c(f),該函數(shù)在圍繞f=0的第一區(qū)間中具有一個(gè)極大值,在圍繞f=1/2的第二區(qū)間中具有一個(gè)極小值,在第一和第二區(qū)間之間的一個(gè)過(guò)渡區(qū)間中具有線性變化的數(shù)值。
41.根據(jù)權(quán)利要求37的裝置,其特征在于,該處理器適于對(duì)于頻譜中的多條譜線計(jì)算各自的影響函數(shù),并且適于通過(guò)尋找估計(jì)音調(diào)頻率中使用的影響函數(shù)的疊加,計(jì)算效用函數(shù)。
42.根據(jù)權(quán)利要求41的裝置,其特征在于,這些影響函數(shù)包括具有轉(zhuǎn)折點(diǎn)的分段線性函數(shù),并且,該處理器適于計(jì)算在轉(zhuǎn)折點(diǎn)上影響函數(shù)值,使得通過(guò)在轉(zhuǎn)折點(diǎn)之間進(jìn)行插值來(lái)確定效用函數(shù)。
43.根據(jù)權(quán)利要求42的裝置,其特征在于,這些影響函數(shù)至少包括對(duì)于頻譜中的第一和第二譜線,相繼計(jì)算出的第一和第二影響函數(shù),并且,該處理器適于計(jì)算包括第一影響函數(shù)的一個(gè)部分效用函數(shù),然后通過(guò)計(jì)算在部分效用函數(shù)的轉(zhuǎn)折點(diǎn)上的第二影響函數(shù)值以及計(jì)算在第二影響函數(shù)的轉(zhuǎn)折點(diǎn)上的部分效用函數(shù)值,把第二影響函數(shù)加到該部分效用函數(shù)。
44.根據(jù)權(quán)利要求41的裝置,其特征在于,該處理器適于在頻譜中的譜線上,迭代地執(zhí)行以下步驟對(duì)于頻譜中的第一條譜線,計(jì)算第一影響函數(shù);響應(yīng)第一影響函數(shù),在與該頻譜不相容的音調(diào)頻率區(qū)域內(nèi),識(shí)別一個(gè)或多個(gè)區(qū)間;定義減小的音調(diào)頻率區(qū)域,其中已經(jīng)去除了一個(gè)或多個(gè)區(qū)間;以及對(duì)于頻譜中的第二條譜線,計(jì)算第二影響函數(shù),同時(shí)實(shí)質(zhì)上將對(duì)音調(diào)頻率的第二影響的計(jì)算限制在減小后區(qū)域之內(nèi)。
45.根據(jù)權(quán)利要求44的裝置,其特征在于,該處理器適于計(jì)算包括第一影響函數(shù)但是不包括第二影響函數(shù)的一個(gè)部分效用函數(shù),以及對(duì)于其中部分效用函數(shù)低于指定的水平的區(qū)間,在計(jì)算第二影響函數(shù)中不再考慮。
46.根據(jù)權(quán)利要求45的裝置,其特征在于,響應(yīng)沒(méi)有包括在部分效用函數(shù)中的譜線的線振幅,確定指定的水平。
47.根據(jù)權(quán)利要求44的裝置,其特征在于,該處理器適于以振幅減小的次序?qū)ψV線進(jìn)行迭代。
48.根據(jù)權(quán)利要求37-47中任何一條的裝置,其特征在于,估計(jì)的音調(diào)頻率包括效用函數(shù)在該處具有局部極大值的音調(diào)頻率。
49.根據(jù)權(quán)利要求48的裝置,其特征在于,選取的音調(diào)頻率是效用函數(shù)在該處具有局部極大值的多個(gè)頻率之一,并且,該處理器適于因?yàn)闃O大值中的一個(gè)的頻率高于極大值中的另一個(gè)的頻率而優(yōu)先選擇它作為音調(diào)頻率。
50.根據(jù)權(quán)利要求48的裝置,其特征在于,選取的音調(diào)頻率是該周期函數(shù)在該處具有局部極大值的多個(gè)頻率之一,并且,該處理器適于因?yàn)闃O大值之一在頻率上接近語(yǔ)音信號(hào)前一幀的前面估計(jì)的音調(diào)頻率而優(yōu)先選擇它作為音調(diào)頻率。
51.根據(jù)權(quán)利要求48的裝置,其特征在于,該處理器適于通過(guò)比較局部極大值的一個(gè)數(shù)值和一個(gè)預(yù)定的閾值,來(lái)確定語(yǔ)音信號(hào)是濁音還是清音。
52.根據(jù)權(quán)利要求37-47中任何一條的裝置,其特征在于,該音頻信號(hào)包括語(yǔ)音信號(hào),并且,該處理器進(jìn)一步適于響應(yīng)估計(jì)的音調(diào)頻率,對(duì)語(yǔ)音信號(hào)進(jìn)行編碼。
53.一種計(jì)算機(jī)軟件產(chǎn)品,包括一種計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì),其中存放著程序指令,當(dāng)接收音頻信號(hào)的計(jì)算機(jī)讀取時(shí),這些指令使計(jì)算機(jī)在一個(gè)第一時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第一變換和在包含該第一時(shí)間區(qū)間的第二時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第二變換,以及對(duì)于第一和第二變換,估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
54.根據(jù)權(quán)利要求53的產(chǎn)品,其特征在于,該音頻信號(hào)包括語(yǔ)音信號(hào),并且,該指令進(jìn)一步使計(jì)算機(jī)響應(yīng)估計(jì)的音調(diào)頻率,對(duì)語(yǔ)音信號(hào)進(jìn)行編碼。
55.一種計(jì)算機(jī)軟件產(chǎn)品,包括一種計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì),其中存放著程序指令,當(dāng)接收音頻信號(hào)的計(jì)算機(jī)讀取時(shí),這些指令使計(jì)算機(jī)尋找該信號(hào)的線狀譜,該頻譜包括具有各自線振幅和線頻率的譜線;使計(jì)算機(jī)計(jì)算一個(gè)效用函數(shù),它在該頻譜中的線頻率上是周期性的,對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率,該函數(shù)指示該頻譜與候選音調(diào)頻率相容;以及使計(jì)算機(jī)對(duì)于該效用函數(shù),估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
56.根據(jù)權(quán)利要求55的產(chǎn)品,其特征在于,該音頻信號(hào)包括語(yǔ)音信號(hào),并且,該指令進(jìn)一步使計(jì)算機(jī)響應(yīng)估計(jì)的音調(diào)頻率,對(duì)語(yǔ)音信號(hào)進(jìn)行編碼。
全文摘要
一種估計(jì)音頻信號(hào)音調(diào)頻率的方法,包括在第一時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第一變換,以及在包含該第一時(shí)間區(qū)間的第二時(shí)間區(qū)間,計(jì)算信號(hào)到頻率域的第二變換。根據(jù)第一和第二變換,尋找該信號(hào)的線狀譜,該頻譜包括具有各自線振幅和線頻率的譜線。然后計(jì)算效用函數(shù)(130),它在該頻譜中的線頻率上是周期性的。對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率,該函數(shù)指示該頻譜與候選音調(diào)頻率相容。對(duì)于該效用函數(shù),估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
文檔編號(hào)G10L25/90GK1527994SQ01822099
公開(kāi)日2004年9月8日 申請(qǐng)日期2001年7月12日 優(yōu)先權(quán)日2000年7月14日
發(fā)明者丹·查贊, 丹 查贊, 茲布爾斯基, 梅爾·茲布爾斯基, 里, 隆·胡里 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司