快速頻域音調(diào)估計(jì)的制作方法

文檔序號(hào)：2823868閱讀：337來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：快速頻域音調(diào)估計(jì)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明一般涉及音頻信號(hào)處理的方法和裝置，確切地說(shuō)，是估計(jì)語(yǔ)音信號(hào)音調(diào)的方法。
背景技術(shù)：
語(yǔ)音是通過(guò)在聲道中調(diào)節(jié)氣流而產(chǎn)生的。清音起源于聲道中某處收縮而產(chǎn)生的湍流噪聲，而濁音則是通過(guò)喉中聲帶的周期性振動(dòng)來(lái)激發(fā)的。粗略地說(shuō)，變化的喉部振動(dòng)周期導(dǎo)致了語(yǔ)音的音調(diào)。典型情況下，低比特率的語(yǔ)音編碼方案將調(diào)節(jié)與語(yǔ)音源(濁音或清音)相分離，對(duì)這兩個(gè)要素分開(kāi)編碼。為了使語(yǔ)音能夠恰當(dāng)?shù)刂亟ǎ诰幋a之時(shí)需要準(zhǔn)確地估計(jì)語(yǔ)音中濁音部分的音調(diào)。為了達(dá)到這個(gè)目的，已經(jīng)開(kāi)發(fā)了多種技術(shù)，既包括時(shí)間域的方法，又包括頻率域的方法。Hess在PitchDetermination of Speech Signals(Springer-Verlag，1983)中對(duì)許多這些技術(shù)進(jìn)行了綜述，這里引用作為參考。
周期信號(hào)比如濁音語(yǔ)音的傅氏變換，在頻率域的形式為一系列脈沖或者說(shuō)尖峰。這個(gè)脈沖系列對(duì)應(yīng)于信號(hào)的線狀譜，它能夠表示為一個(gè)序列{(ai，θi)，其中θi為尖峰的頻率，ai為線狀譜各自的復(fù)數(shù)值振幅。為了確定語(yǔ)音信號(hào)中指定的一個(gè)區(qū)段是濁音還是清音，以及該區(qū)段是濁音時(shí)為了計(jì)算音調(diào)，時(shí)域信號(hào)首先乘以一個(gè)有限的光滑時(shí)窗。那么，加窗信號(hào)的傅氏變換為X(θ)=ΣkakW(θ-θk)-----(1)]]>其中W(θ)為時(shí)窗的傅氏變換。
給定任何音調(diào)頻率，對(duì)應(yīng)于該音調(diào)頻率的線狀譜，在該頻率的所有倍數(shù)處都可能包含線狀譜分量。所以有以下事實(shí)在線狀譜中出現(xiàn)的任何頻率都可能是許多不同的候選音調(diào)頻率的一個(gè)倍數(shù)。結(jié)果，對(duì)于變換后信號(hào)中出現(xiàn)的任何尖峰，將會(huì)有一系列候選音調(diào)頻率可以導(dǎo)致這個(gè)特定尖峰，其中每個(gè)候選頻率都是該尖峰頻率的一個(gè)整數(shù)被除數(shù)。無(wú)論是在頻率域中分析頻譜，還是把它變換回時(shí)間域作進(jìn)一步的分析，都存在這種不確定。
典型情況下，頻域音調(diào)估計(jì)是基于對(duì)變換后信號(hào)X(θ)中尖峰的位置和振幅的分析。例如，Martin在題為“Comparison of PitchDetection by Cepstrum and Spectral Comb Analysis”的一篇文章中，介紹了基于將頻譜與原型梳狀譜的“齒”進(jìn)行相關(guān)的一種方法，這篇文章收入1982年的Proceedings of the International Conference onAcoustics，Speech and Signal Processing(ICASSP)，在180-183頁(yè)，這里引用作為參考。音調(diào)頻率由使梳函數(shù)與變換后語(yǔ)音信號(hào)相關(guān)結(jié)果最大的梳頻率給出。
有關(guān)的一類音調(diào)估計(jì)方案是“倒譜”方案，如同例如Hess在上述書(shū)中396-408頁(yè)介紹的。在這種技術(shù)中，對(duì)語(yǔ)音信號(hào)的頻譜應(yīng)用一種對(duì)數(shù)運(yùn)算，然后對(duì)數(shù)譜再變換回時(shí)間域，以產(chǎn)生倒譜信號(hào)。音調(diào)頻率就是時(shí)間域倒譜信號(hào)第一個(gè)尖峰的位置。這嚴(yán)格對(duì)應(yīng)于在周期T上，使線頻率z(i)對(duì)應(yīng)振幅的對(duì)數(shù)與cos(ω(i)T)相關(guān)結(jié)果最大。對(duì)于音調(diào)周期T的每種猜測(cè)，函數(shù)cos(ωT)都是ω的周期函數(shù)。在音調(diào)頻率1/T的倍數(shù)對(duì)應(yīng)的頻率處，它都有尖峰。如果這些尖峰恰巧與線頻率重合，那么1/T就是音調(diào)頻率或者其某個(gè)倍數(shù)的合適候選者。
以另一種方式，一種普通的時(shí)域音調(diào)估計(jì)方法使用相關(guān)類型的方案，對(duì)于以時(shí)間t為中心的信號(hào)區(qū)段和以時(shí)間t-T為中心的信號(hào)區(qū)段，它搜索使互相關(guān)最大的音調(diào)周期T。音調(diào)頻率為T的倒數(shù)。例如Medan等人1991年在IEEE Transactions on Signal Processing 39(1)41-48頁(yè)發(fā)表的“Super Resolution Pitch Determination of Speech Signals”一文中，介紹過(guò)一種此類的方法，這里引用作為參考。
不論是在時(shí)間域還是在頻率域的音調(diào)確定方法，都會(huì)受到不穩(wěn)定和誤差的影響，所以準(zhǔn)確的音調(diào)確定需要進(jìn)行大量的計(jì)算。例如在時(shí)間域分析中，線狀譜中的高頻分量會(huì)在互相關(guān)結(jié)果中增加一個(gè)振蕩項(xiàng)。該分量的頻率很高時(shí)，該項(xiàng)隨音調(diào)周期T的估計(jì)結(jié)果快速變化。在這樣一種情況下，即使是T稍微偏離真實(shí)的音調(diào)周期，也會(huì)顯著地降低互相關(guān)結(jié)果的數(shù)值，可能會(huì)導(dǎo)致拒絕一個(gè)正確的估計(jì)結(jié)果。高頻分量也會(huì)在互相關(guān)結(jié)果中增加大量的尖峰，這使得搜索真正的極大值的過(guò)程更復(fù)雜。在頻率域中，對(duì)于候選頻率較大整數(shù)倍的任何頻譜分量，候選音調(diào)頻率估計(jì)結(jié)果中的小誤差也會(huì)導(dǎo)致估計(jì)值中的大偏離。
所以，對(duì)于指定的輸入頻譜，為了避免遺漏最佳候選音調(diào)，必須對(duì)所有可能的候選者及其倍數(shù)進(jìn)行具有高分辨率的一種窮舉搜索。往往需要(取決于實(shí)際音調(diào)頻率)搜索采樣后頻譜至1500Hz以上的高頻。同時(shí)，在時(shí)間上分析區(qū)間或者說(shuō)時(shí)窗必須足夠長(zhǎng)，以便捕捉頻譜中每一個(gè)可能的音調(diào)候選者的至少幾個(gè)周期，從而另外增加了復(fù)雜性。同樣，在時(shí)間域中，必須在寬闊的時(shí)間范圍內(nèi)以高分辨率搜索最優(yōu)的音調(diào)周期T。在每種情況下，搜索都要消耗相當(dāng)多的計(jì)算資源。即使在可能的清音區(qū)間，搜索條件也不能放松，因?yàn)橹挥性谒泻蜻x音調(diào)頻率或周期都已經(jīng)排除之后才能判斷某個(gè)區(qū)間是清音。雖然來(lái)自前面若干幀的音調(diào)值通常用于指導(dǎo)搜索當(dāng)前值，但是搜索也不能只限于以前音調(diào)的鄰域。否則，一個(gè)區(qū)間中的誤差將會(huì)永遠(yuǎn)存在于后續(xù)的區(qū)間中，使?jié)嵋魠^(qū)段可能被誤認(rèn)為是清音。
為了改善音調(diào)確定的準(zhǔn)確性和效率，已經(jīng)提出了多種解決方案。例如，McAulay等人在美國(guó)專利4,885,790中和1986年的IEEETransactions on Acoustics，speech and Signal Processing ASSP-34(4)的744-754頁(yè)的題為“Speech Analysis/Synthesis Based on aSinusoidal Representation”的一篇文章中，介紹了一種方法，用于跟蹤語(yǔ)音信號(hào)的線頻率及用于由這些頻率重現(xiàn)信號(hào)。這些文檔在這里引用作為參考。這些作者對(duì)于要分析的語(yǔ)音波形使用了一種正弦曲線模型，根據(jù)語(yǔ)音信號(hào)中正弦波分量的振幅、頻率和相位合成語(yǔ)音。許多方法都可以用于從線頻率獲得音調(diào)值。在美國(guó)專利5,054,072中，McAulay等人介紹了其方法的改進(jìn)，該專利的公開(kāi)文件也在這里引用作為參考。這些改進(jìn)之一是一種音調(diào)自適應(yīng)的信道編碼技術(shù)，按照發(fā)言者語(yǔ)音的音調(diào)改變信道間隔。
Hardwick等人在美國(guó)專利5,195,166和5,226,108中，介紹了音調(diào)估計(jì)的一種改進(jìn)的方法，這些專利的公開(kāi)文件在這里引用作為參考。假設(shè)被音調(diào)區(qū)間分開(kāi)的相繼時(shí)間區(qū)段之間的一種誤差測(cè)量結(jié)果，用于估算整數(shù)音調(diào)值的音調(diào)質(zhì)量。準(zhǔn)則被限制為包括相鄰信號(hào)幀，以增強(qiáng)音調(diào)的連續(xù)性。音調(diào)區(qū)域用于減少進(jìn)行初始音調(diào)估計(jì)時(shí)的計(jì)算量。對(duì)于先前發(fā)現(xiàn)的、整數(shù)值形式的音調(diào)，一種改進(jìn)技術(shù)用于在達(dá)到1/8樣點(diǎn)的更高分辨率獲得該音調(diào)。
授予Laroche的美國(guó)專利5,870,704介紹了一種方法，用于估計(jì)時(shí)變信號(hào)的時(shí)變頻譜包絡(luò)，該專利的公開(kāi)文件在這里引用作為參考。信號(hào)的頻譜中的局部極大值得到識(shí)別。為了遮掩掉虛假的極大值，應(yīng)用了一種遮掩曲線。該遮掩曲線在某個(gè)特定的極大值處具有一個(gè)尖峰，并從該處下降。落在該曲線之下的局部極大值都被去除。按照虛假極大值存在的某種測(cè)度，隨后還要對(duì)該遮掩曲線進(jìn)行調(diào)整。假設(shè)結(jié)果是其中僅僅存在有關(guān)極大值的頻譜。
授予Bartkowiak的美國(guó)專利5,696,873和5,774,836涉及改進(jìn)音調(diào)值確定的互相關(guān)方案，這些專利的公開(kāi)文件在這里引用作為參考。它介紹了兩種方法，以應(yīng)付第一共振峰——聲道的最低諧振頻率——在音調(diào)頻率的某個(gè)整數(shù)倍處產(chǎn)生高能量的情況。因?yàn)檫x取的互相關(guān)區(qū)間等于(或接近)音調(diào)區(qū)間，在很大程度上會(huì)發(fā)生這種問(wèn)題。假設(shè)某個(gè)短的音調(diào)區(qū)間，可能導(dǎo)致在該點(diǎn)上以相關(guān)結(jié)果虛假尖峰的形式證實(shí)該假設(shè)。Bartkowiak提出的方法之一，涉及在濁音區(qū)段的起點(diǎn)處增大時(shí)窗的尺寸。另一種方法從相關(guān)極大值列表中存在還是缺失假設(shè)之音調(diào)值的所有倍數(shù)，來(lái)得出結(jié)論。已有介紹的改善音調(diào)估計(jì)的準(zhǔn)確性和效率的其它方法，見(jiàn)例如授予Su的美國(guó)專利5,781,880；授予Ozawa的美國(guó)專利5,806,024；授予Manduchi等人的美國(guó)專利5,794,182；授予Serizawa的美國(guó)專利5,751,900；授予Yamada等人的美國(guó)專利5,452,398；授予Byun等人的美國(guó)專利5,799,271；授予Tanaka等人的美國(guó)專利5,231,692；以及授予Kleijn的美國(guó)專利5,884,253。這些專利的公開(kāi)文件在這里引用作為參考。

發(fā)明內(nèi)容
本發(fā)明的一個(gè)目的是提供改進(jìn)的方法和裝置，用于確定音頻信號(hào)，尤其是語(yǔ)音信號(hào)的音調(diào)。
本發(fā)明某些方面進(jìn)一步的一個(gè)目的是，提供一種高效的方法，用于高分辨率的窮舉法音調(diào)確定。因?yàn)槿魏我粽{(diào)質(zhì)量測(cè)量結(jié)果都可能具有非常窄的尖峰，作為音調(diào)頻率值的一個(gè)函數(shù)，如果估算該測(cè)量的分辨率不足，可能導(dǎo)致少量尖峰位置的誤估計(jì)。在這種情況下，音調(diào)質(zhì)量測(cè)量將在稍微偏離尖峰處采樣，導(dǎo)致對(duì)尖峰值的過(guò)低估計(jì)，而精確估算則會(huì)得出該尖峰的較高值。結(jié)果，可能會(huì)從音調(diào)候選列表中完全丟棄真正的音調(diào)。以搜索音調(diào)整數(shù)值開(kāi)始，然后改進(jìn)音調(diào)值結(jié)果列表的現(xiàn)有技術(shù)方案，都受到這種非常嚴(yán)重缺陷的困擾。因此，只有如同本發(fā)明的優(yōu)選實(shí)施例提供的窮舉法高分辨率音調(diào)頻率估算，才能保證真正的音調(diào)被包括在測(cè)試的音調(diào)值列表中。
在本發(fā)明的優(yōu)選實(shí)施例中，一種語(yǔ)音分析系統(tǒng)通過(guò)同時(shí)分析多個(gè)時(shí)間區(qū)間中信號(hào)的線狀譜，來(lái)確定語(yǔ)音信號(hào)的音調(diào)。從信號(hào)當(dāng)前幀的加窗傅氏變換計(jì)算一種短區(qū)間頻譜，它對(duì)于尋找高頻頻譜分量尤其有用。通過(guò)結(jié)合當(dāng)前幀的加窗傅氏變換與前面一幀或多幀的加窗傅氏變換，尋找對(duì)于更低頻率分量有用的一種或多種更長(zhǎng)區(qū)間的頻譜。以這種方式，使用增加系統(tǒng)計(jì)算負(fù)擔(dān)最小的最優(yōu)分析區(qū)間，取得了寬闊的頻率范圍內(nèi)的音調(diào)估計(jì)。最佳的音調(diào)候選者是從多種頻率范圍中選出的。因此，系統(tǒng)能夠滿足高分辨率和高計(jì)算效率的對(duì)立目標(biāo)。
在本發(fā)明的某些優(yōu)選實(shí)施例中，為了高效地測(cè)量任何具體的候選音調(diào)頻率與被分析的線狀譜相容的程度，計(jì)算了一種效用函數(shù)。對(duì)頻譜中每條有效譜線計(jì)算而得到的影響函數(shù)進(jìn)行疊加，構(gòu)建成該效用函數(shù)。在各自線頻率對(duì)候選音調(diào)頻率的比值中，優(yōu)選情況下影響函數(shù)是周期性的，其音調(diào)頻率周圍的極大值是線頻率的整數(shù)被除數(shù)，其間的最小值在優(yōu)選情況下大多數(shù)是零。優(yōu)選情況下影響函數(shù)是分段線性的，因而它們能夠簡(jiǎn)單而高效地由其轉(zhuǎn)折點(diǎn)的數(shù)值來(lái)表示，轉(zhuǎn)折點(diǎn)之間的數(shù)值由插值確定。因此，本發(fā)明的這些實(shí)施例取代在倒譜音調(diào)估計(jì)方法中使用的余弦函數(shù)，提供了另一種簡(jiǎn)單得多的周期函數(shù)，并使用該函數(shù)的特殊結(jié)構(gòu)來(lái)提高尋找音調(diào)的效率。在本發(fā)明的實(shí)施例中，由振幅本身取代了倒譜方法中使用的振幅的對(duì)數(shù)，盡管本質(zhì)上使用振幅的任何函數(shù)都可能在效率上具有相同的收益。
為了快速尋找與譜線相容之候選音調(diào)頻率的全部區(qū)域，把影響函數(shù)相繼應(yīng)用到頻譜中的譜線上，優(yōu)選情況下是以振幅下降的次序。每次迭代之后，都去除不相容的音調(diào)頻率區(qū)間，使得后繼的迭代在越來(lái)越小的候選音調(diào)頻率區(qū)域內(nèi)執(zhí)行。以這種方式，能夠窮舉地估算相容的候選頻率區(qū)間，而不會(huì)造成不適當(dāng)?shù)挠?jì)算負(fù)擔(dān)。在頻譜的高頻區(qū)域——其中準(zhǔn)確的音調(diào)確定需要高分辨率計(jì)算，這種去除尤為重要。
因此，根據(jù)音頻信號(hào)當(dāng)前幀的線狀譜，對(duì)于搜索區(qū)域中每個(gè)候選音調(diào)頻率，使用在線狀譜上計(jì)算的效用函數(shù)來(lái)確定效用值。每個(gè)候選者的效用值均指示“它是正確音調(diào)”的可能性。所以，對(duì)本幀估計(jì)的音調(diào)頻率從效用函數(shù)的極大值中選取，一般把優(yōu)先權(quán)給予最強(qiáng)的極大值。選取估計(jì)的音調(diào)時(shí)，優(yōu)選情況下極大值以頻率來(lái)加權(quán)，同時(shí)把優(yōu)先權(quán)也給予更高的音調(diào)頻率。優(yōu)選情況下，也使用最終音調(diào)估計(jì)結(jié)果的效用值來(lái)決定當(dāng)前幀是濁音還是清音。
在數(shù)字化語(yǔ)音的低比特率編碼和重建中，本發(fā)明尤其有用，其中對(duì)當(dāng)前幀的音調(diào)和濁音/清音的判斷進(jìn)行編碼并與本幀的調(diào)制特性一起傳送。此類編碼和重建所用優(yōu)選方法的介紹，見(jiàn)美國(guó)專利申請(qǐng)書(shū)09/410,085和09/432,081，它們被委托給本申請(qǐng)書(shū)的代理人，它們的公開(kāi)文件在這里引用作為參考。此外，本文中介紹的方法和系統(tǒng)也可以與語(yǔ)音編碼和重建的其它方法以及其它類型的音頻處理系統(tǒng)中的音調(diào)確定聯(lián)合使用。
所以，依據(jù)本發(fā)明的某個(gè)優(yōu)選實(shí)施例，提供了一種估計(jì)音頻信號(hào)音調(diào)頻率的方法，包括在第一時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第一變換；
在包含該第一時(shí)間區(qū)間的第二時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第二變換；以及響應(yīng)第一和第二變換，估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
優(yōu)選情況下，第一和第二變換包括短時(shí)傅氏變換。更優(yōu)選情況下，第一時(shí)間區(qū)間包括語(yǔ)音信號(hào)的當(dāng)前幀，第二時(shí)間區(qū)間包括當(dāng)前幀和前一幀，計(jì)算第二變換包括將第一變換與在前一幀上計(jì)算的變換相結(jié)合。最理想的情況是，這些變換產(chǎn)生各自的頻譜系數(shù)，將第一變換與前一幀上計(jì)算之變換相結(jié)合包括，對(duì)前一幀上計(jì)算之變換產(chǎn)生的系數(shù)，應(yīng)用與頻率和幀延續(xù)時(shí)間成比例的相移，并把相移后的系數(shù)加到第一變換產(chǎn)生的系數(shù)上。
此外，估計(jì)音調(diào)頻率也包括分別從第一和第二變換，求取信號(hào)的第一和第二線狀譜，以及根據(jù)線狀譜確定音調(diào)頻率。優(yōu)選情況下，確定音調(diào)頻率包括分別從第一和第二線狀譜，求取第一和第二候選音調(diào)頻率，以及選擇第一和第二候選者之一作為音調(diào)頻率。最理想的情況是，求取第一和第二候選者包括定義可能的音調(diào)頻率的高低區(qū)域，以及尋找高區(qū)域中的第一候選者和低區(qū)域中的第二候選者。
優(yōu)選情況下，音頻信號(hào)包括語(yǔ)音信號(hào)，并且包括響應(yīng)估計(jì)的音調(diào)頻率，對(duì)語(yǔ)音信號(hào)的編碼。
依據(jù)本發(fā)明的某個(gè)優(yōu)選實(shí)施例，也提供了一種估計(jì)語(yǔ)音信號(hào)音調(diào)頻率的方法，包括尋找該信號(hào)的線狀譜，該頻譜包括具有各自線振幅和線頻率的譜線；計(jì)算一個(gè)效用函數(shù)，它在該頻譜中的線頻率上是周期性的，對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率，該函數(shù)指示該頻譜與候選音調(diào)頻率相容；以及響應(yīng)該效用函數(shù)，估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
優(yōu)選情況下，計(jì)算該效用函數(shù)包括計(jì)算至少一個(gè)影響函數(shù)，對(duì)于頻譜線之一的頻率對(duì)候選音調(diào)頻率的比值，影響函數(shù)是周期性的。更優(yōu)選情況下，計(jì)算至少一個(gè)影響函數(shù)包括，對(duì)于在比值的整數(shù)值處具有極大值和其間具有極小值的比值，計(jì)算它的一個(gè)函數(shù)。最理想的情況是，計(jì)算該比值的函數(shù)包括計(jì)算分段線性函數(shù)c(f)的數(shù)值，該函數(shù)在圍繞f＝0的第一區(qū)間中具有某個(gè)極大值，在圍繞f＝1/2的第二區(qū)間中具有某個(gè)極小值，在第一和第二區(qū)間之間的某個(gè)過(guò)渡區(qū)間中具有線性變化的數(shù)值。
此外，計(jì)算至少一個(gè)影響函數(shù)包括對(duì)于頻譜中的多條譜線計(jì)算各自的影響函數(shù)，以及計(jì)算效用函數(shù)包括計(jì)算影響函數(shù)的疊加。優(yōu)選情況下，各自的影響函數(shù)包括具有轉(zhuǎn)折點(diǎn)的分段線性函數(shù)，計(jì)算疊加包括計(jì)算在轉(zhuǎn)折點(diǎn)上影響函數(shù)值，使得通過(guò)轉(zhuǎn)折點(diǎn)之間的插值來(lái)確定效用函數(shù)。最理想的情況是，計(jì)算各自的影響函數(shù)包括對(duì)于頻譜中的第一和第二譜線，至少相繼計(jì)算第一和第二影響函數(shù)，計(jì)算效用函數(shù)包括，計(jì)算包括第一影響函數(shù)的某個(gè)部分效用函數(shù)，然后通過(guò)計(jì)算在部分效用函數(shù)的轉(zhuǎn)折點(diǎn)上第二影響函數(shù)值以及在計(jì)算第二影響函數(shù)的轉(zhuǎn)折點(diǎn)上部分效用函數(shù)值，把第二影響函數(shù)加到該部分效用函數(shù)。
在一個(gè)優(yōu)選實(shí)施例中，計(jì)算各自的影響函數(shù)包括在頻譜中的譜線上，迭代地執(zhí)行以下步驟對(duì)于頻譜中的第一條譜線，計(jì)算第一影響函數(shù)；響應(yīng)第一影響函數(shù)，在與該頻譜不相容的音調(diào)頻率區(qū)域內(nèi)，識(shí)別一個(gè)或多個(gè)區(qū)間；定義減小的音調(diào)頻率區(qū)域，其中已經(jīng)去除了一個(gè)或多個(gè)區(qū)間；以及對(duì)于頻譜中的第二條譜線，計(jì)算第二影響函數(shù)，同時(shí)實(shí)質(zhì)上將對(duì)音調(diào)頻率的第二影響的計(jì)算限制在減小后區(qū)域之內(nèi)。
優(yōu)選情況下，計(jì)算疊加包括計(jì)算包括第一影響函數(shù)但是不包括第二影響函數(shù)的部分效用函數(shù)，識(shí)別一個(gè)或多個(gè)區(qū)間包括去除其中部分效用函數(shù)低于指定的水平的區(qū)間。最理想的情況是，響應(yīng)沒(méi)有包括在部分效用函數(shù)中的譜線的線振幅，確定指定的水平。此外，迭代地執(zhí)行步驟包括以振幅減小的次序?qū)ψV線進(jìn)行迭代。
優(yōu)選情況下，估計(jì)音調(diào)頻率包括選擇效用函數(shù)在該處具有局部極大值的候選音調(diào)頻率。典型情況下，選取的音調(diào)頻率是效用函數(shù)在該處具有局部極大值的多個(gè)頻率之一，選取候選音調(diào)頻率包括因?yàn)闃O大值中的一個(gè)的頻率高于極大值中的另一個(gè)頻率而優(yōu)先選擇它。此外，選取候選音調(diào)頻率包括因?yàn)槟硞€(gè)極大值在頻率上接近語(yǔ)音信號(hào)前一幀的前面估計(jì)的音調(diào)頻率而優(yōu)先選擇它。
在一個(gè)優(yōu)選實(shí)施例中，該方法包括通過(guò)比較局部極大值的數(shù)值和某個(gè)預(yù)定的閾值，來(lái)確定語(yǔ)音信號(hào)是濁音還是清音。
此外，依據(jù)本發(fā)明的某個(gè)優(yōu)選實(shí)施例，也提供了估計(jì)音頻信號(hào)音調(diào)頻率的裝置，包括一種音頻處理器，它適于在第一時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第一變換和在第二時(shí)間區(qū)間——它包含該第一時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第二變換，以及響應(yīng)第一和第二變換，估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
依據(jù)本發(fā)明的某個(gè)優(yōu)選實(shí)施例，進(jìn)一步提供了估計(jì)音頻信號(hào)音調(diào)頻率的裝置，包括一種音頻處理器，它適于尋找該信號(hào)的線狀譜，該頻譜包括具有各自線振幅和線頻率的譜線；適于計(jì)算某個(gè)效用函數(shù)，它在該頻譜中的線頻率上是周期性的，對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率，該函數(shù)指示該頻譜與候選音調(diào)頻率相容；以及適于響應(yīng)該周期函數(shù)，估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
不僅如此，依據(jù)本發(fā)明的某個(gè)優(yōu)選實(shí)施例，還提供了一種計(jì)算機(jī)軟件產(chǎn)品，包括一種計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì)，其中存放著程序指令，當(dāng)接收音頻信號(hào)的計(jì)算機(jī)讀取時(shí)，這些指令使計(jì)算機(jī)在第一時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第一變換和在第二時(shí)間區(qū)間——它包含該第一時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第二變換，以及響應(yīng)第一和第二變換，估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
除此以外，依據(jù)本發(fā)明的某個(gè)優(yōu)選實(shí)施例，還提供了一種計(jì)算機(jī)軟件產(chǎn)品，包括一種計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì)，其中存放著程序指令，當(dāng)接收音頻信號(hào)的計(jì)算機(jī)讀取時(shí)，這些指令使計(jì)算機(jī)尋找該信號(hào)的線狀譜，該頻譜包括具有各自線振幅和線頻率的譜線；使計(jì)算機(jī)計(jì)算某個(gè)效用函數(shù)，它在該頻譜中的線頻率上是周期性的，對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率，該函數(shù)指示該頻譜與候選音調(diào)頻率相容；以及使計(jì)算機(jī)響應(yīng)該效用函數(shù)，估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
從以下對(duì)本發(fā)明的優(yōu)選實(shí)施例的詳細(xì)說(shuō)明以及附圖，將會(huì)更全面地理解本發(fā)明，其中附圖簡(jiǎn)要說(shuō)明

圖1是一個(gè)語(yǔ)音分析和編碼系統(tǒng)的一個(gè)示意性的圖示說(shuō)明，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例；圖2是一張流程圖，示意性地說(shuō)明了一種音調(diào)確定和語(yǔ)音編碼方法，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例；圖3是一張流程圖，示意性地說(shuō)明了對(duì)語(yǔ)音信號(hào)提取線狀譜和尋找候選音調(diào)值的一種方法，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例；圖4是一張框圖，示意性地說(shuō)明了同時(shí)對(duì)長(zhǎng)短時(shí)間區(qū)間提取線狀譜的一種方法，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例；圖5是一張流程圖，示意性地說(shuō)明了一種在線狀譜中尋找尖峰的方法，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例；圖6是一張流程圖，示意性地說(shuō)明了根據(jù)輸入線狀譜估算候選音調(diào)頻率的一種方法，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例；圖7是一張圖，顯示了依據(jù)圖6的方法估算候選音調(diào)頻率時(shí)使用的影響函數(shù)的一個(gè)周期；圖8是一張圖，顯示了通過(guò)把圖7的影響函數(shù)應(yīng)用到線狀譜的某個(gè)分量時(shí)求取的部分效用函數(shù)，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例；圖9A和圖9B是兩張流程圖，示意性地說(shuō)明了對(duì)語(yǔ)音的一幀從多個(gè)候選音調(diào)頻率中選擇音調(diào)頻率估計(jì)結(jié)果的一種方法，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例；以及圖10是一張流程圖，示意性地說(shuō)明了一種方法，確定語(yǔ)音的一幀是濁音還是清音，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。
具體實(shí)施例方式
圖1是一個(gè)語(yǔ)音信號(hào)分析和編碼系統(tǒng)20的一個(gè)示意性的圖示說(shuō)明，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。該系統(tǒng)包括一種音頻輸入設(shè)備22，比如話筒，它連接到一個(gè)音頻處理器24。此外，輸入到處理器的音頻也可以通過(guò)通信線路提供或者從存儲(chǔ)設(shè)備檢索，或者以模擬形式或者以數(shù)字形式。優(yōu)選情況下，處理器24包括一臺(tái)通用計(jì)算機(jī)，配備了執(zhí)行下文介紹之功能的適當(dāng)軟件。向該處理器提供軟件可以采用電子形式，例如，通過(guò)某個(gè)網(wǎng)絡(luò)，也可以在有形的介質(zhì)上提供，比如CD-ROM或者非易失性存儲(chǔ)器。此外，處理器24也可以包括一個(gè)數(shù)字信號(hào)處理器(DSP)或者硬件實(shí)現(xiàn)的邏輯電路。
圖2是一張流程圖，示意性地說(shuō)明了使用系統(tǒng)20處理語(yǔ)音信號(hào)的一種方法，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。在輸入步驟30，一種語(yǔ)音信號(hào)從設(shè)備22或者從另一種來(lái)源輸入并為了進(jìn)一步的處理而數(shù)字化(如果該信號(hào)還不是數(shù)字形式的話)。為了后續(xù)的處理，數(shù)字化的信號(hào)劃分成適當(dāng)延續(xù)時(shí)間的幀，典型情況下是10ms。在音調(diào)識(shí)別步驟32，處理器24對(duì)每一幀提取信號(hào)的近似線狀譜。該頻譜是通過(guò)在多個(gè)時(shí)間區(qū)間同時(shí)分析該信號(hào)而提取的，如下文的介紹。優(yōu)選情況下，對(duì)于每一幀使用兩個(gè)區(qū)間一個(gè)短區(qū)間用于提取高頻音調(diào)值，一個(gè)長(zhǎng)區(qū)間用于提取低頻值。此外，也可以使用眾多的區(qū)間。低頻部分和高頻部分一起覆蓋了可能的音調(diào)值的整個(gè)區(qū)域。根據(jù)提取的頻譜，識(shí)別當(dāng)前幀的候選音調(diào)頻率。
在音調(diào)選擇步驟34，當(dāng)前幀音調(diào)頻率的最佳估計(jì)結(jié)果是從頻譜的所有部分中的候選頻率中選定的。根據(jù)選定的音調(diào)，在濁音判斷步驟36，系統(tǒng)24確定當(dāng)前幀實(shí)際上是濁音還是清音。在輸出編碼步驟38，濁音/清音的判斷和選定的音調(diào)頻率用于對(duì)當(dāng)前幀編碼。最理想的情況是，在這個(gè)步驟中使用上述美國(guó)專利申請(qǐng)書(shū)09/410,085和09/432,081中介紹的方法，盡管本質(zhì)上也可以使用本領(lǐng)域中已知的任何其它編碼方法。優(yōu)選情況下，編碼后的輸出隨著濁音和音調(diào)信息，包括聲音流調(diào)制的特性。典型情況下，編碼后的輸出通過(guò)通信連接發(fā)送和/或存放在存儲(chǔ)器26中(圖1)。在任何情況下，提取調(diào)制信息和對(duì)語(yǔ)音信號(hào)編碼所用的方法都超出了本發(fā)明的范疇。本文介紹的音調(diào)確定的方法也可以用于其它音頻處理應(yīng)用中，帶有或者不帶后續(xù)的編碼。
圖3是一張流程圖，示意性地說(shuō)明了音調(diào)識(shí)別步驟32的細(xì)節(jié)，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。在變換步驟40，對(duì)語(yǔ)音信號(hào)的每一幀應(yīng)用一種雙窗短時(shí)傅氏變換(STFT)。典型情況下，語(yǔ)音信號(hào)可能的音調(diào)頻率的區(qū)域是從55至420Hz。優(yōu)選情況下，這個(gè)區(qū)域劃分成兩個(gè)區(qū)域一個(gè)下部區(qū)域從55Hz向上至某個(gè)中頻Fb(典型情況下大約90Hz)，一個(gè)上部區(qū)域從Fb上至420Hz。如下文的介紹，對(duì)于每一幀，為了搜索上部頻率區(qū)域定義了一個(gè)短時(shí)窗，為了搜索下部頻率區(qū)域定義了一個(gè)長(zhǎng)時(shí)窗。此外，也可以使用眾多相鄰的時(shí)窗。對(duì)每個(gè)時(shí)窗應(yīng)用STFT，以分別計(jì)算語(yǔ)音信號(hào)的高低頻頻譜。
短時(shí)窗和長(zhǎng)時(shí)窗頻譜的處理在分開(kāi)、并行的途徑上進(jìn)行。在頻譜估計(jì)步驟42和44，從各自的STFT結(jié)果求取高低頻的線狀譜，它們具有以上定義的{(ai，θi)的形式。在候選頻率尋找步驟46和48，這些線狀譜用于尋找高低頻音調(diào)候選值各自的集合。為了在這些音調(diào)候選值中選擇最佳的音調(diào)頻率估計(jì)結(jié)果，把它們送入步驟34(圖2)。下文中參考圖4、圖5和圖6，介紹步驟40至48的細(xì)節(jié)。
圖4是一張框圖，示意性地說(shuō)明了變換步驟40的細(xì)節(jié)，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。加窗單元50把一種加窗函數(shù)——優(yōu)選情況下是把延續(xù)時(shí)間為20ms的業(yè)內(nèi)周知的漢明窗——應(yīng)用到語(yǔ)音信號(hào)的當(dāng)前幀上。變換單元52把一種適當(dāng)?shù)念l率變換應(yīng)用到加窗后的幀，優(yōu)選情況下是一種分辨率為256或512個(gè)頻率點(diǎn)的快速傅氏變換(FFT)，取決于采樣率。
優(yōu)選情況下，變換單元52的輸出是送入一個(gè)插值單元54，它用于提高頻譜的分辨率。最理想的情況是，通過(guò)把一個(gè)狄利克雷核D(θ,N)=sin(Nθ/2)sin(θ/2)]]>應(yīng)用到FFT輸出系數(shù)Xd[k]來(lái)執(zhí)行插值，給出插值后的頻譜系數(shù)X(θ)=Σk=0N-11NXd[k]D(θ-2πk/N,N)exp{-j(θ-2πk/N)(N-1)/2}------(2)]]>為了高效的插值，在每個(gè)頻率θ的鄰域，僅僅使用少量的系數(shù)Xd[k]。典型情況下使用16個(gè)系數(shù)，以這種方式頻譜的分辨率提高的因數(shù)是2，所以在插值后的頻譜中點(diǎn)數(shù)是L＝2N。插值單元54的輸出給出了短時(shí)窗變換，它傳送到步驟42(圖3)。
通過(guò)當(dāng)前幀的短時(shí)窗變換Xs和前一幀的短時(shí)窗變換Ys——它由延遲單元56保存——的結(jié)合，計(jì)算出要傳送到步驟44的長(zhǎng)時(shí)窗變換。結(jié)合之前，來(lái)自前一幀的系數(shù)在乘法器58中乘以一個(gè)相移2πmk/L，其中m是一幀中的樣點(diǎn)數(shù)目。通過(guò)在加法器60中把來(lái)自當(dāng)前幀的短時(shí)窗系數(shù)加上來(lái)自前一幀的短時(shí)窗系數(shù)(帶有適當(dāng)?shù)南嘁?，產(chǎn)生了長(zhǎng)時(shí)窗頻譜X1如下X1(2πk/L)＝Xs(2πk/L)+ys(2πk/L)exp(j2πmk/L)(3)式中k是從一個(gè)整數(shù)集中取出的一個(gè)整數(shù)，使得頻率2πk/L跨越頻率的整個(gè)區(qū)域。因此，以圖4為例的方法容許對(duì)于多個(gè)疊加的時(shí)窗求取頻譜，而計(jì)算成本比在單一時(shí)窗中執(zhí)行一次STFT運(yùn)算所需的計(jì)算量增加不多。
圖5是一張流程圖，示意性地顯示了線狀譜估計(jì)步驟42和44的細(xì)節(jié)，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。對(duì)步驟40產(chǎn)生的長(zhǎng)短時(shí)窗變換X(θ)，都應(yīng)用了這張圖中說(shuō)明的線狀譜估計(jì)方法。步驟42和44的目的是確定當(dāng)前幀絕對(duì)現(xiàn)狀譜的一個(gè)估計(jì)結(jié)果從X(θ)的局部極大值的位置和|a^i|=|X(θ^i)|,]]>求取尖峰頻率的序列該估計(jì)結(jié)果是基于假設(shè)在頻率域中，加窗函數(shù)(加窗單元50)的變換的主瓣寬度，相對(duì)于音調(diào)頻率比較小。所以，頻譜中相鄰窗口之間的相互作用也比較小。
線狀譜的估計(jì)開(kāi)始于在尖峰尋找步驟70，在插值后的頻譜(每個(gè)(2)式)中尋找尖峰的近似頻率。典型情況下，執(zhí)行頻率計(jì)算至整數(shù)精度。在插值步驟72，這些尖峰頻率計(jì)算至浮點(diǎn)精度，優(yōu)選情況下是根據(jù)2π/L的整數(shù)倍中的尖峰頻率和在三個(gè)最近的相鄰整數(shù)倍處的頻譜振幅，使用二階插值。為了尋找精確的尖峰位置處的振幅，對(duì)復(fù)振幅值應(yīng)用線性插值，然后取振幅的絕對(duì)值。
在畸變估算步驟74，為了評(píng)估輸入語(yǔ)音信號(hào)中是否存在畸變，對(duì)在前面步驟中發(fā)現(xiàn)的尖峰陣列進(jìn)行處理，如果有畸變，要視圖校正該畸變。優(yōu)選情況下，分析頻率范圍劃分成三個(gè)相等的區(qū)域，計(jì)算區(qū)域中所有振幅的極大值。這些區(qū)域完全覆蓋了該頻率范圍。如果中頻或高頻區(qū)域中的極大值與低頻區(qū)域中的極大值相比太高，就在衰減步驟76衰減中頻和/或高頻區(qū)域中的尖峰值。經(jīng)探索發(fā)現(xiàn)，如果中頻區(qū)域極大值高于低頻區(qū)域極大值的65％，或者高頻區(qū)域極大值高于低頻區(qū)域極大值的45％，就應(yīng)當(dāng)應(yīng)用衰減。以這種方式衰減尖峰，使頻譜“恢復(fù)”到更可靠的形狀。粗略地說(shuō)，如果語(yǔ)音信號(hào)最初沒(méi)有畸變，步驟74將不會(huì)改變其頻譜。
在尖峰計(jì)數(shù)步驟78，對(duì)步驟72中發(fā)現(xiàn)的尖峰進(jìn)行計(jì)數(shù)。在主尖峰估算步驟80，尖峰的數(shù)目與某個(gè)預(yù)定的極大值數(shù)目——典型情況下設(shè)置為8——進(jìn)行比較。如果發(fā)現(xiàn)的尖峰是8個(gè)或更少，處理過(guò)程直接前進(jìn)到步驟46或48。否則，在排序步驟82，尖峰按照其振幅值的下降次序排序。一旦預(yù)定數(shù)目的最高的尖峰已經(jīng)發(fā)現(xiàn)(典型情況下等于步驟80所用的尖峰的最大數(shù)目)，就在閾值設(shè)置步驟84，把閾值設(shè)置為等于最高尖峰組中最低尖峰振幅的某個(gè)特定比例。在虛假尖峰丟棄步驟86，丟棄低于這個(gè)閾值的尖峰。此外，如果在排序步驟82的某個(gè)階段，已排序尖峰值的總和超過(guò)全部已發(fā)現(xiàn)尖峰值總和的某個(gè)預(yù)定比例——典型情況下為95％，就停止排序過(guò)程。然后在步驟86，丟棄所有剩余的、較小的尖峰。這個(gè)步驟的目的是去除小的、虛假的尖峰，它們可能以后在步驟34和36中影響音調(diào)確定或者影響濁音/清音的判斷(圖2)。減少線狀譜尖峰的數(shù)目也使音調(diào)確定過(guò)程的效率更高。
圖6是一張流程圖，示意性地顯示了候選頻率尋找步驟46和48的細(xì)節(jié)，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。這些步驟分別應(yīng)用到步驟44和42輸出的長(zhǎng)短時(shí)窗線狀譜，如上所示及所述。在步驟46中，產(chǎn)生其頻率高于某個(gè)特定閾值的音調(diào)候選者，并根據(jù)短分析區(qū)間中產(chǎn)生的線狀譜，使用下面概述的過(guò)程計(jì)算其效用函數(shù)。在步驟48中，長(zhǎng)分析區(qū)間中產(chǎn)生的線狀譜也產(chǎn)生一個(gè)音調(diào)候選列表，并且僅僅對(duì)于其頻率低于該閾值的音調(diào)候選者計(jì)算效用函數(shù)。不論是長(zhǎng)時(shí)窗還是短時(shí)窗，在歸一化步驟90，線狀譜都要?dú)w一化，以產(chǎn)生具有歸一化振幅bi和頻率fi的譜線如下bi=|a^i|Σk=1K|a^k|-------(4)]]>fi=θ^i2πTs-------(5)]]>在兩式中，i都是從1到K，Ts都是采樣間隔。換句話說(shuō)，1/Ts是原始語(yǔ)音信號(hào)的采樣頻率，因此fi是以每秒樣點(diǎn)數(shù)表示的譜線頻率。在排序步驟92中，按照其歸一化振幅bi對(duì)譜線排序。
圖7是一張圖，顯示了圖6的方法這個(gè)階段使用的影響函數(shù)120的一個(gè)周期，標(biāo)注為c(f)，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。優(yōu)選情況下，該影響函數(shù)具有以下特征1.c(f+l)＝c(f)，即該函數(shù)是周期性的，周期為1。
2.0≤c(f)≤1。
3.c(0)＝1。
4.c(f)＝c(-f)。
5.對(duì)于r≤|f|≤1/2，其中r為小于1/2的一個(gè)參數(shù)，c(f)＝0。
6.在
中c(f)是分段線性和非增的。
在圖7所示的優(yōu)選實(shí)施例中，該影響函數(shù)是梯形的，具有以下形式此外，也可以使用另一種周期函數(shù)，優(yōu)選情況下是一個(gè)分段線性函數(shù)，離原點(diǎn)超過(guò)某個(gè)預(yù)定距離時(shí)其值為0。
圖8是一張圖，顯示了效用函數(shù)U(fp)的某個(gè)分量130，它是對(duì)候選預(yù)定頻率fp使用影響函數(shù)c(f)而產(chǎn)生的，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。對(duì)于任何給定的音調(diào)頻率，根據(jù)線狀譜{(bi，fi)}產(chǎn)生效用函數(shù)U(fp)如下
U(fp)=Σi=1Kbic(fi/fp)-------(7)]]>那么，對(duì)于單一譜線(bi，fi)，這個(gè)函數(shù)的某個(gè)分量Ui(fp)定義為Ui(fp)=bic(fi/fp)-------(8)]]>圖8顯示了一個(gè)這樣的分量，其中fi＝700Hz，在從50到400Hz的范圍內(nèi)對(duì)音調(diào)頻率估算該分量。該分量包括多個(gè)瓣132、134、136、138……，每個(gè)瓣都定義了一個(gè)區(qū)域，其中可能產(chǎn)生一個(gè)候選音調(diào)頻率并導(dǎo)致在fi的譜線。
因?yàn)閎i值已經(jīng)歸一化，并且c(f)≤1，對(duì)于任何給定候選音調(diào)頻率，效用函數(shù)將在0和1之間。由于根據(jù)定義在fi中c(fi/fp)是周期性的，周期為fp，所以對(duì)于某個(gè)給定的音調(diào)頻率fp，效用函數(shù)的一個(gè)大值表示，序列{fi}中的大多數(shù)頻率接近音調(diào)頻率的某個(gè)倍數(shù)。因此，通過(guò)對(duì)指定分辨率適當(dāng)?shù)念l率范圍中所有可能的音調(diào)頻率計(jì)算效用函數(shù)，并選取效用值大的候選音調(diào)頻率，可以直接了當(dāng)(但是低效)地發(fā)現(xiàn)當(dāng)前幀的音調(diào)頻率。
下文提出一種效率更高的方法。因?yàn)橛绊懞瘮?shù)c(f)是分段線性的，在任何點(diǎn)上Ui(fp)的值都是通過(guò)在函數(shù)的轉(zhuǎn)折點(diǎn)(即一階導(dǎo)數(shù)中的不連續(xù)點(diǎn))上的值來(lái)定義的，比如圖8中所示的點(diǎn)140和142。雖然Ui(fp)本身不是分段線性的，但是在所有區(qū)域中它都能夠近似為一種線性函數(shù)。下面要介紹的方法使用Ui(fp)分量轉(zhuǎn)折點(diǎn)的值來(lái)建立完整的效用函數(shù)U(fp)。每個(gè)Ui分量將其自己的轉(zhuǎn)折點(diǎn)增加到完整函數(shù)中，同時(shí)通過(guò)線性插值來(lái)發(fā)現(xiàn)轉(zhuǎn)折點(diǎn)之間的效用函數(shù)值。
建立完整效用函數(shù)的過(guò)程，使用了通過(guò)依次加進(jìn)每條譜線(bi，fi)的Ui(fp)分量產(chǎn)生的、一系列的部分效用函數(shù)PUiPUi(fp)=Σk=1iUk(fp)-------(9)]]>因?yàn)楹瘮?shù)c(f)不大于1，最初i條譜線已經(jīng)加入部分效用函數(shù)之后，剩余線狀譜值的總和離上限還有Ri=Σk=i+1Kbk-----------(10)]]>那么對(duì)于任何i，完整的效用函數(shù)U(fp)受限于
U(fp)≤PUi(fp)+Ri(11)所以，每次迭代i之后，對(duì)于使PUi(fp)+Ri小于某個(gè)預(yù)定閾值的fp，保證具有同樣小于該閾值的某個(gè)效用值。所以，它們可以不再被視為校正音調(diào)頻率的候選者。通過(guò)使用PUi的轉(zhuǎn)折點(diǎn)值，利用線性插值發(fā)現(xiàn)轉(zhuǎn)折點(diǎn)之間的函數(shù)值，能夠發(fā)現(xiàn)PUi(fp)+Ri低于閾值的整個(gè)區(qū)間，并在每次迭代時(shí)去除，使后續(xù)的搜索效率更高。
現(xiàn)在返回圖6，為了產(chǎn)生部分效用函數(shù)的序列PUi，把影響函數(shù)c(f)迭代地應(yīng)用到歸一化頻譜中的每條譜線(bi，fi)。在分量選擇步驟94，該過(guò)程起始于最大的分量U1(fp)。這個(gè)分量對(duì)應(yīng)于具有最大歸一化振幅b1的排序后的譜線(b1，f1)。在效用函數(shù)生成步驟96，在搜索fp的區(qū)域內(nèi)所有轉(zhuǎn)折點(diǎn)上計(jì)算U1(fp)的值。在這個(gè)階段，部分效用函數(shù)PU1只是等于U1。在這個(gè)階段的后續(xù)迭代中，既在其自己的轉(zhuǎn)折點(diǎn)上又在當(dāng)前對(duì)fp的有效搜索區(qū)間之內(nèi)(即前一次迭代中還沒(méi)有被去除的區(qū)間之內(nèi))部分效用函數(shù)PUi-1(fp)的所有轉(zhuǎn)折點(diǎn)上，確定新的分量Ui(fp)。優(yōu)選情況下，在PUi-1(fp)的轉(zhuǎn)折點(diǎn)上的Ui(fp)值通過(guò)插值來(lái)計(jì)算。在Ui(fp)的轉(zhuǎn)折點(diǎn)上也計(jì)算PUi-1(fp)值。在丟棄步驟98，如果Ui包含的轉(zhuǎn)折點(diǎn)非常接近PUi-1中現(xiàn)有的轉(zhuǎn)折點(diǎn)，優(yōu)選情況下這些新的轉(zhuǎn)折點(diǎn)作為多余的點(diǎn)丟棄。最理想的情況是，以這種方式丟棄其頻率與現(xiàn)有轉(zhuǎn)折點(diǎn)差異不大于0.0006*fp2的轉(zhuǎn)折點(diǎn)。然后在加法步驟100中，在所有剩余的轉(zhuǎn)折點(diǎn)上，Ui加到PUi-1上，從而產(chǎn)生。
在每次迭代中，在區(qū)間刪除步驟102估算對(duì)fp的有效搜索區(qū)間。如上所述，其中PUi(fp)+Ri低于某個(gè)預(yù)定閾值的區(qū)間被去除，不再進(jìn)一步考慮。一個(gè)對(duì)這種目的便于使用的閾值是濁音/清音閾值TUV，在步驟36(圖2)它應(yīng)用于選定的音調(diào)頻率，以確定當(dāng)前幀是濁音還是清音。在這一點(diǎn)上使用某個(gè)高閾值會(huì)提高個(gè)計(jì)算過(guò)程的效率，但是有刪除有效候選音調(diào)頻率的風(fēng)險(xiǎn)。這可能會(huì)導(dǎo)致確定當(dāng)前幀是清音，而事實(shí)上它應(yīng)當(dāng)被視為濁音。例如，如果前一幀估計(jì)的音調(diào)頻率的效用值高，當(dāng)前幀往往應(yīng)當(dāng)判斷為濁音，即使當(dāng)前幀的效用值低。由于這個(gè)原因，為了在步驟102中使用，優(yōu)選情況下定義一種自適應(yīng)探索的閾值Tad如下Tad=max{PUmaxΣk=1ibk-(1-TUV),Tmin}-------(12)]]>式中PUmax為當(dāng)前部分效用函數(shù)PUi的最大值，Tmin為預(yù)定的最小閾值，低于TUV。商 ——永遠(yuǎn)小于等于1——表示部分效用函數(shù)PUi之“質(zhì)量”的一種測(cè)度。如果質(zhì)量高，閾值Tad將接近TUV。如果質(zhì)量差，更低的閾值Tmin防止有效的音調(diào)候選者過(guò)早地從音調(diào)確定過(guò)程中去除。
在終止步驟104，應(yīng)當(dāng)做到最后一條譜線(bi，fi)的Ui分量已經(jīng)估算之后，該過(guò)程就完成了，合成的效用函數(shù)U傳送到音調(diào)選擇步驟34。該函數(shù)的形式為頻率轉(zhuǎn)折點(diǎn)的集合及轉(zhuǎn)折點(diǎn)上的函數(shù)值。否則，在下一個(gè)分量步驟106取下一條譜線，迭代過(guò)程從步驟96繼續(xù)進(jìn)行，直到過(guò)程完成。
總而言之，可見(jiàn)圖6的方法在搜索范圍內(nèi)搜索所有可能的音調(diào)頻率，但是它是以優(yōu)化的效率進(jìn)行的，因?yàn)樵诿看蔚鷷r(shí)，都去除了更多的無(wú)效搜索區(qū)間。因此是在依次減小的有效區(qū)間中進(jìn)行搜索。不僅如此，僅僅計(jì)算在特定的轉(zhuǎn)折點(diǎn)上線狀譜的每個(gè)分量對(duì)效用函數(shù)的貢獻(xiàn)，而不是在音調(diào)頻率的整個(gè)搜索范圍內(nèi)計(jì)算。
圖9A和圖9B是兩張流程圖，示意性地說(shuō)明了音調(diào)選擇步驟34(圖2)的細(xì)節(jié)，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。最佳候選音調(diào)頻率的選擇是根據(jù)步驟104輸出的效用函數(shù)，包括所有發(fā)現(xiàn)的轉(zhuǎn)折點(diǎn)。對(duì)效用函數(shù)的轉(zhuǎn)折點(diǎn)進(jìn)行估算，并選取其中一個(gè)作為最佳音調(diào)候選者。
在極大值尋找步驟150，尋找效用函數(shù)的局部極大值。最佳音調(diào)候選者要從這些局部極大值中選擇。典型情況下，為了避免把音調(diào)頻率的整數(shù)被除數(shù)(對(duì)應(yīng)于音調(diào)周期的整數(shù)倍)誤認(rèn)為是真正的音調(diào)，優(yōu)先權(quán)給予高的音調(diào)頻率。所以，在頻率排序步驟152，根據(jù)頻率對(duì)局部極大值{fpi}i＝1M排序如下fp1>fp2>···>fpM------(13)]]>
在初始化步驟154，音調(diào)估計(jì)結(jié)果初始設(shè)置為等于最高的頻率候選者fp1。每個(gè)剩余的候選者都以頻率下降的次序，對(duì)于音調(diào)估計(jì)結(jié)果的當(dāng)前值進(jìn)行估算。
估算的過(guò)程開(kāi)始于下一個(gè)頻率步驟156，對(duì)于候選音調(diào)fp2。在估算步驟158，效用函數(shù)值U(fp2)與相比較。如果在fp2效用函數(shù)大于處的效用函數(shù)至少某個(gè)閾值差異T1，或者如果fp2接近并具有更大的效用函數(shù)值，即使差異不大，那么fp2也被視為是優(yōu)于當(dāng)前的的音調(diào)頻率估計(jì)結(jié)果。典型情況下，T1＝0.1，并且如果1.17fp2>F^0,]]>就認(rèn)為fp2接近在這種情況下，在候選設(shè)置步驟160，設(shè)置為新的候選值fp2。對(duì)于所有的局部極大值fpi，依次重復(fù)步驟156至160，直到在最后一個(gè)頻率步驟162達(dá)到最后一個(gè)頻率fpM。
對(duì)于當(dāng)前幀，只要在前一幀中音調(diào)是穩(wěn)定的，一般需要選取接近前一幀音調(diào)的一個(gè)音調(diào)。所以，在前一幀評(píng)估步驟170，確定前一幀中音調(diào)是否穩(wěn)定。優(yōu)選情況下是在前六幀中都滿足一定的連續(xù)準(zhǔn)則，從把該音調(diào)視為穩(wěn)定的。例如相繼幀之間音調(diào)變化小于18％，并且在所有幀中保持效用函數(shù)的大值，可能是需要的。如果是這樣，在最近極大值選擇步驟172中，在{fpi}集合中選擇最接近前一個(gè)音調(diào)頻率的音調(diào)頻率。在對(duì)比步驟174，對(duì)比當(dāng)前音調(diào)頻率估計(jì)結(jié)果的效用函數(shù) 在這種最接近的頻率估算效用函數(shù)U(fpclose)。在最接近頻率設(shè)置步驟176，如果在這兩種頻率處效用函數(shù)的值差異不大于某個(gè)閾值數(shù)量T2，那么就選取與前一個(gè)音調(diào)頻率最接近的頻率fpclose作為當(dāng)前幀音調(diào)頻率的估計(jì)結(jié)果典型情況下，T2設(shè)置為0.06。否則，在候選頻率設(shè)置步驟178，如果效用函數(shù)的值差異大于T2，仍然選取來(lái)自步驟162的當(dāng)前的音調(diào)頻率的估計(jì)結(jié)果作為當(dāng)前幀的音調(diào)頻率。如果在步驟170發(fā)現(xiàn)前一幀的音調(diào)不穩(wěn)定，同樣會(huì)選取這個(gè)估計(jì)值。
圖10是一張流程圖，示意性地顯示了濁音判斷步驟36的細(xì)節(jié)，依據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例。在閾值對(duì)比步驟180，該判斷是根據(jù)在估計(jì)的音調(diào)處效用函數(shù) 與上述閾值TUV的比較結(jié)果。典型情況下，TUV＝0.75。在濁音設(shè)置步驟188，如果效用函數(shù)高于該閾值，當(dāng)前幀就劃分為濁音。
不過(guò)，在語(yǔ)音流過(guò)渡期間，語(yǔ)音信號(hào)的周期結(jié)構(gòu)可能改變，不時(shí)導(dǎo)致效用函數(shù)的低值，即使當(dāng)前幀應(yīng)當(dāng)被視為濁音。所以，當(dāng)前幀的效用函數(shù)低于閾值TUV時(shí)，在前一幀檢驗(yàn)步驟182檢驗(yàn)前一幀的效用函數(shù)。如果前一幀的音調(diào)估計(jì)結(jié)果具有高效用值，典型情況下至少0.84，而且在音調(diào)檢驗(yàn)步驟184發(fā)現(xiàn)當(dāng)前幀的音調(diào)接近前一幀的音調(diào)，典型情況下差異不大于18％，那么當(dāng)前幀就在步驟188劃分為濁音，而不管其低效用值。否則，在清音設(shè)置步驟186，當(dāng)前幀被劃分為清音。
應(yīng)當(dāng)理解，以上介紹的優(yōu)選實(shí)施例是舉例引證，本發(fā)明不限于上文中已經(jīng)展示和介紹的具體內(nèi)容。相反，本發(fā)明的范圍包括上文中介紹之多種特性的結(jié)合與變形，以及它們的變化和修改，本領(lǐng)域的技術(shù)人員閱讀前面的說(shuō)明之后可以做出這些變化和修改，并且沒(méi)有在現(xiàn)有技術(shù)中公開(kāi)過(guò)。
權(quán)利要求
1.一種估計(jì)音頻信號(hào)音調(diào)頻率的方法，包括在第一時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第一變換；在包含該第一時(shí)間區(qū)間的第二時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第二變換；以及響應(yīng)第一和第二變換，估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
2.根據(jù)權(quán)利要求1的方法，其特征在于，第一和第二變換包括短時(shí)傅氏變換。
3.根據(jù)權(quán)利要求1的方法，其特征在于，第一時(shí)間區(qū)間包括語(yǔ)音信號(hào)的當(dāng)前幀，第二時(shí)間區(qū)間包括當(dāng)前幀和前一幀，并且，計(jì)算第二變換包括將第一變換與在前一幀上計(jì)算的變換結(jié)合起來(lái)。
4.根據(jù)權(quán)利要求3的方法，其特征在于，這些變換產(chǎn)生各自的頻譜系數(shù)，并且，將第一變換與前一幀上計(jì)算的變換相結(jié)合包括，對(duì)前一幀上計(jì)算的變換所產(chǎn)生的系數(shù)應(yīng)用相移，并把相移后的系數(shù)加到第一變換所產(chǎn)生的系數(shù)上。
5.根據(jù)權(quán)利要求4的方法，其特征在于，對(duì)于一個(gè)給定的頻率，應(yīng)用到對(duì)應(yīng)系數(shù)上的相移，與頻率和幀延續(xù)時(shí)間成比例。
6.根據(jù)權(quán)利要求1-5中任何一條的方法，其特征在于，估計(jì)音調(diào)頻率包括分別從第一和第二變換，求取信號(hào)的第一和第二線狀譜，以及根據(jù)線狀譜確定音調(diào)頻率。
7.根據(jù)權(quán)利要求6的方法，其特征在于，確定音調(diào)頻率包括分別從第一和第二線狀譜，求取第一和第二候選音調(diào)頻率，以及選擇第一和第二候選者之一作為音調(diào)頻率。
8.根據(jù)權(quán)利要求7的方法，其特征在于，求取第一和第二候選者包括定義可能的音調(diào)頻率的高低區(qū)域，以及尋找高區(qū)域中的第一候選者和低區(qū)域中的第二候選者。
9.根據(jù)權(quán)利要求6的方法，其特征在于，該線狀譜包括具有各自線頻率的譜線，并且，確定音調(diào)頻率包括計(jì)算線頻率上的一個(gè)周期函數(shù)，該函數(shù)指示音調(diào)頻率。
10.根據(jù)權(quán)利要求1-5中任何一條的方法，其特征在于，該音頻信號(hào)包括語(yǔ)音信號(hào)，并且包括響應(yīng)估計(jì)的音調(diào)頻率，對(duì)語(yǔ)音信號(hào)的編碼。
11.一種估計(jì)語(yǔ)音信號(hào)音調(diào)頻率的方法，包括尋找該信號(hào)的一個(gè)線狀譜，該頻譜包括具有各自線振幅和線頻率的譜線；計(jì)算一個(gè)效用函數(shù)，它在該頻譜中的線頻率上是周期性的，對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率，該函數(shù)指示該頻譜與候選音調(diào)頻率相容；以及響應(yīng)該效用函數(shù)，估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
12.根據(jù)權(quán)利要求11的方法，其特征在于，計(jì)算該效用函數(shù)包括計(jì)算至少一個(gè)影響函數(shù)，對(duì)于頻譜線之一的頻率對(duì)候選音調(diào)頻率的比值，影響函數(shù)是周期性的。
13.根據(jù)權(quán)利要求12的方法，其特征在于，計(jì)算至少一個(gè)影響函數(shù)包括，對(duì)于在比值的整數(shù)值處具有極大值和其間具有極小值的比值，計(jì)算它的一個(gè)函數(shù)。
14.根據(jù)權(quán)利要求13的方法，其特征在于，計(jì)算該比值的函數(shù)包括計(jì)算分段線性函數(shù)c(f)的數(shù)值，該函數(shù)在圍繞f＝0的第一區(qū)間中具有一個(gè)極大值，在圍繞f＝1/2的第二區(qū)間中具有一個(gè)極小值，在第一和第二區(qū)間之間的一個(gè)過(guò)渡區(qū)間中具有線性變化的數(shù)值。
15.根據(jù)權(quán)利要求12的方法，其特征在于，計(jì)算至少一個(gè)影響函數(shù)包括對(duì)于頻譜中的多條譜線計(jì)算各自的影響函數(shù)，并且，計(jì)算效用函數(shù)包括計(jì)算影響函數(shù)的疊加。
16.根據(jù)權(quán)利要求15的方法，其特征在于，各自的影響函數(shù)包括具有轉(zhuǎn)折點(diǎn)的分段線性函數(shù)，并且，計(jì)算疊加包括在轉(zhuǎn)折點(diǎn)上計(jì)算影響函數(shù)值，使得通過(guò)轉(zhuǎn)折點(diǎn)之間的插值來(lái)確定效用函數(shù)。
17.根據(jù)權(quán)利要求16的方法，其特征在于，計(jì)算各自的影響函數(shù)包括對(duì)于頻譜中的第一和第二譜線，至少相繼計(jì)算第一和第二影響函數(shù)，并且，計(jì)算效用函數(shù)包括，計(jì)算包括第一影響函數(shù)的一個(gè)部分效用函數(shù)，然后通過(guò)計(jì)算在部分效用函數(shù)的轉(zhuǎn)折點(diǎn)上第二影響函數(shù)值以及計(jì)算在第二影響函數(shù)的轉(zhuǎn)折點(diǎn)上部分效用函數(shù)值，把第二影響函數(shù)加到該部分效用函數(shù)。
18.根據(jù)權(quán)利要求15的方法，其特征在于，計(jì)算各自的影響函數(shù)包括在頻譜中的譜線上，迭代地執(zhí)行以下步驟對(duì)于頻譜中的第一條譜線，計(jì)算第一影響函數(shù)；響應(yīng)第一影響函數(shù)，在與該頻譜不相容的音調(diào)頻率區(qū)域內(nèi)，識(shí)別一個(gè)或多個(gè)區(qū)間；定義減小的音調(diào)頻率區(qū)域，其中已經(jīng)去除了一個(gè)或多個(gè)區(qū)間；以及對(duì)于頻譜中的第二條譜線，計(jì)算第二影響函數(shù)，同時(shí)實(shí)質(zhì)上將對(duì)音調(diào)頻率的第二影響的計(jì)算限制在減小后區(qū)域之內(nèi)。
19.根據(jù)權(quán)利要求18的方法，其特征在于，計(jì)算疊加包括計(jì)算包括第一影響函數(shù)但是不包括第二影響函數(shù)的部分效用函數(shù)，并且，識(shí)別一個(gè)或多個(gè)區(qū)間包括去除其中部分效用函數(shù)低于指定的水平的區(qū)間。
20.根據(jù)權(quán)利要求19的方法，其特征在于，響應(yīng)沒(méi)有包括在部分效用函數(shù)中的譜線的線振幅，確定指定的水平。
21.根據(jù)權(quán)利要求18的方法，其特征在于，迭代地執(zhí)行步驟包括以振幅減小的次序?qū)ψV線進(jìn)行迭代。
22.根據(jù)權(quán)利要求11-21中任何一條的方法，其特征在于，估計(jì)音調(diào)頻率包括選擇效用函數(shù)在該處具有局部極大值的候選音調(diào)頻率。
23.根據(jù)權(quán)利要求22的方法，其特征在于，選取的音調(diào)頻率是效用函數(shù)在該處具有局部極大值的多個(gè)頻率之一，并且，選取候選音調(diào)頻率包括因?yàn)闃O大值中的一個(gè)的頻率高于極大值中的另一個(gè)的頻率而優(yōu)先選擇它。
24.根據(jù)權(quán)利要求22的方法，其特征在于，選取的音調(diào)頻率是效用函數(shù)在該處具有局部極大值的多個(gè)頻率之一，并且，選取候選音調(diào)頻率包括因?yàn)橐粋€(gè)極大值在頻率上接近語(yǔ)音信號(hào)前一幀的前面估計(jì)的音調(diào)頻率而優(yōu)先選擇它。
25.根據(jù)權(quán)利要求22的方法，并且包括通過(guò)比較局部極大值的數(shù)值和一個(gè)預(yù)定的閾值，來(lái)確定語(yǔ)音信號(hào)是濁音還是清音。
26.根據(jù)權(quán)利要求11-21中任何一條的方法，其特征在于，該音頻信號(hào)包括語(yǔ)音信號(hào)，并且包括響應(yīng)估計(jì)的音調(diào)頻率，對(duì)語(yǔ)音信號(hào)編碼。
27.估計(jì)音頻信號(hào)音調(diào)頻率的裝置，包括一種音頻處理器，它適于在第一時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第一變換和在包含該第一時(shí)間區(qū)間的第二時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第二變換，以及響應(yīng)第一和第二變換，估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
28.根據(jù)權(quán)利要求27的裝置，其特征在于，第一和第二變換包括短時(shí)傅氏變換。
29.根據(jù)權(quán)利要求27的裝置，其特征在于，第一時(shí)間區(qū)間包括語(yǔ)音信號(hào)的當(dāng)前幀，第二時(shí)間區(qū)間包括當(dāng)前幀和前一幀，并且，該處理器適于通過(guò)將第一變換與在前一幀上計(jì)算的變換相結(jié)合計(jì)算第二變換。
30.根據(jù)權(quán)利要求29的裝置，其特征在于，這些變換產(chǎn)生各自的頻譜系數(shù)，并且，該處理器適于對(duì)前一幀上計(jì)算之變換產(chǎn)生的系數(shù)應(yīng)用相移，并把相移后的系數(shù)加到第一時(shí)間區(qū)間的變換產(chǎn)生的系數(shù)上。
31.根據(jù)權(quán)利要求30的裝置，其特征在于，對(duì)于一個(gè)給定的頻率，應(yīng)用到對(duì)應(yīng)系數(shù)上的相移，與頻率和幀延續(xù)時(shí)間成比例。
32.根據(jù)權(quán)利要求27-31中任何一條的裝置，其特征在于，該處理器適于分別從第一和第二變換，求取信號(hào)的第一和第二線狀譜，以及根據(jù)線狀譜確定音調(diào)頻率。
33.根據(jù)權(quán)利要求32的裝置，其特征在于，該處理器適于分別從第一和第二線狀譜，求取第一和第二候選音調(diào)頻率，以及選擇第一和第二候選者之一作為音調(diào)頻率。
34.根據(jù)權(quán)利要求33的裝置，其特征在于，定義了可能的音調(diào)頻率的高低區(qū)域，且該處理器適于求取高區(qū)域中的第一候選者和低區(qū)域中的第二候選者。
35.根據(jù)權(quán)利要求32的裝置，其特征在于，該線狀譜包括具有各自線頻率的譜線，并且，該處理器適于產(chǎn)生線頻率上的一個(gè)周期函數(shù)，該函數(shù)指示音調(diào)頻率。
36.根據(jù)權(quán)利要求27-31中任何一條的裝置，其特征在于，該音頻信號(hào)包括語(yǔ)音信號(hào)，并且，該處理器進(jìn)一步適于響應(yīng)估計(jì)的音調(diào)頻率，對(duì)語(yǔ)音信號(hào)進(jìn)行編碼。
37.估計(jì)音頻信號(hào)音調(diào)頻率的裝置，包括一種音頻處理器，它適于尋找該信號(hào)的線狀譜，該頻譜包括具有各自線振幅和線頻率的譜線；適于計(jì)算一個(gè)效用函數(shù)，它在該頻譜中的線頻率上是周期性的，對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率，該函數(shù)指示該頻譜與候選音調(diào)頻率相容；以及適于響應(yīng)該周期函數(shù)，估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
38.根據(jù)權(quán)利要求37的裝置，其特征在于，該效用函數(shù)包括至少一個(gè)影響函數(shù)，對(duì)于頻譜線之一的頻率對(duì)候選音調(diào)頻率的比值，影響函數(shù)是周期性的。
39.根據(jù)權(quán)利要求38的裝置，其特征在于，該至少一個(gè)影響函數(shù)包括一個(gè)比值的函數(shù)，該比值是在比值的整數(shù)值處具有極大值和其間具有極小值的二者的比值。
40.根據(jù)權(quán)利要求39的裝置，其特征在于，該至少一個(gè)影響函數(shù)包括分段線性函數(shù)c(f)，該函數(shù)在圍繞f＝0的第一區(qū)間中具有一個(gè)極大值，在圍繞f＝1/2的第二區(qū)間中具有一個(gè)極小值，在第一和第二區(qū)間之間的一個(gè)過(guò)渡區(qū)間中具有線性變化的數(shù)值。
41.根據(jù)權(quán)利要求37的裝置，其特征在于，該處理器適于對(duì)于頻譜中的多條譜線計(jì)算各自的影響函數(shù)，并且適于通過(guò)尋找估計(jì)音調(diào)頻率中使用的影響函數(shù)的疊加，計(jì)算效用函數(shù)。
42.根據(jù)權(quán)利要求41的裝置，其特征在于，這些影響函數(shù)包括具有轉(zhuǎn)折點(diǎn)的分段線性函數(shù)，并且，該處理器適于計(jì)算在轉(zhuǎn)折點(diǎn)上影響函數(shù)值，使得通過(guò)在轉(zhuǎn)折點(diǎn)之間進(jìn)行插值來(lái)確定效用函數(shù)。
43.根據(jù)權(quán)利要求42的裝置，其特征在于，這些影響函數(shù)至少包括對(duì)于頻譜中的第一和第二譜線，相繼計(jì)算出的第一和第二影響函數(shù)，并且，該處理器適于計(jì)算包括第一影響函數(shù)的一個(gè)部分效用函數(shù)，然后通過(guò)計(jì)算在部分效用函數(shù)的轉(zhuǎn)折點(diǎn)上的第二影響函數(shù)值以及計(jì)算在第二影響函數(shù)的轉(zhuǎn)折點(diǎn)上的部分效用函數(shù)值，把第二影響函數(shù)加到該部分效用函數(shù)。
44.根據(jù)權(quán)利要求41的裝置，其特征在于，該處理器適于在頻譜中的譜線上，迭代地執(zhí)行以下步驟對(duì)于頻譜中的第一條譜線，計(jì)算第一影響函數(shù)；響應(yīng)第一影響函數(shù)，在與該頻譜不相容的音調(diào)頻率區(qū)域內(nèi)，識(shí)別一個(gè)或多個(gè)區(qū)間；定義減小的音調(diào)頻率區(qū)域，其中已經(jīng)去除了一個(gè)或多個(gè)區(qū)間；以及對(duì)于頻譜中的第二條譜線，計(jì)算第二影響函數(shù)，同時(shí)實(shí)質(zhì)上將對(duì)音調(diào)頻率的第二影響的計(jì)算限制在減小后區(qū)域之內(nèi)。
45.根據(jù)權(quán)利要求44的裝置，其特征在于，該處理器適于計(jì)算包括第一影響函數(shù)但是不包括第二影響函數(shù)的一個(gè)部分效用函數(shù)，以及對(duì)于其中部分效用函數(shù)低于指定的水平的區(qū)間，在計(jì)算第二影響函數(shù)中不再考慮。
46.根據(jù)權(quán)利要求45的裝置，其特征在于，響應(yīng)沒(méi)有包括在部分效用函數(shù)中的譜線的線振幅，確定指定的水平。
47.根據(jù)權(quán)利要求44的裝置，其特征在于，該處理器適于以振幅減小的次序?qū)ψV線進(jìn)行迭代。
48.根據(jù)權(quán)利要求37-47中任何一條的裝置，其特征在于，估計(jì)的音調(diào)頻率包括效用函數(shù)在該處具有局部極大值的音調(diào)頻率。
49.根據(jù)權(quán)利要求48的裝置，其特征在于，選取的音調(diào)頻率是效用函數(shù)在該處具有局部極大值的多個(gè)頻率之一，并且，該處理器適于因?yàn)闃O大值中的一個(gè)的頻率高于極大值中的另一個(gè)的頻率而優(yōu)先選擇它作為音調(diào)頻率。
50.根據(jù)權(quán)利要求48的裝置，其特征在于，選取的音調(diào)頻率是該周期函數(shù)在該處具有局部極大值的多個(gè)頻率之一，并且，該處理器適于因?yàn)闃O大值之一在頻率上接近語(yǔ)音信號(hào)前一幀的前面估計(jì)的音調(diào)頻率而優(yōu)先選擇它作為音調(diào)頻率。
51.根據(jù)權(quán)利要求48的裝置，其特征在于，該處理器適于通過(guò)比較局部極大值的一個(gè)數(shù)值和一個(gè)預(yù)定的閾值，來(lái)確定語(yǔ)音信號(hào)是濁音還是清音。
52.根據(jù)權(quán)利要求37-47中任何一條的裝置，其特征在于，該音頻信號(hào)包括語(yǔ)音信號(hào)，并且，該處理器進(jìn)一步適于響應(yīng)估計(jì)的音調(diào)頻率，對(duì)語(yǔ)音信號(hào)進(jìn)行編碼。
53.一種計(jì)算機(jī)軟件產(chǎn)品，包括一種計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì)，其中存放著程序指令，當(dāng)接收音頻信號(hào)的計(jì)算機(jī)讀取時(shí)，這些指令使計(jì)算機(jī)在一個(gè)第一時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第一變換和在包含該第一時(shí)間區(qū)間的第二時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第二變換，以及對(duì)于第一和第二變換，估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
54.根據(jù)權(quán)利要求53的產(chǎn)品，其特征在于，該音頻信號(hào)包括語(yǔ)音信號(hào)，并且，該指令進(jìn)一步使計(jì)算機(jī)響應(yīng)估計(jì)的音調(diào)頻率，對(duì)語(yǔ)音信號(hào)進(jìn)行編碼。
55.一種計(jì)算機(jī)軟件產(chǎn)品，包括一種計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì)，其中存放著程序指令，當(dāng)接收音頻信號(hào)的計(jì)算機(jī)讀取時(shí)，這些指令使計(jì)算機(jī)尋找該信號(hào)的線狀譜，該頻譜包括具有各自線振幅和線頻率的譜線；使計(jì)算機(jī)計(jì)算一個(gè)效用函數(shù)，它在該頻譜中的線頻率上是周期性的，對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率，該函數(shù)指示該頻譜與候選音調(diào)頻率相容；以及使計(jì)算機(jī)對(duì)于該效用函數(shù)，估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
56.根據(jù)權(quán)利要求55的產(chǎn)品，其特征在于，該音頻信號(hào)包括語(yǔ)音信號(hào)，并且，該指令進(jìn)一步使計(jì)算機(jī)響應(yīng)估計(jì)的音調(diào)頻率，對(duì)語(yǔ)音信號(hào)進(jìn)行編碼。
全文摘要
一種估計(jì)音頻信號(hào)音調(diào)頻率的方法，包括在第一時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第一變換，以及在包含該第一時(shí)間區(qū)間的第二時(shí)間區(qū)間，計(jì)算信號(hào)到頻率域的第二變換。根據(jù)第一和第二變換，尋找該信號(hào)的線狀譜，該頻譜包括具有各自線振幅和線頻率的譜線。然后計(jì)算效用函數(shù)(130)，它在該頻譜中的線頻率上是周期性的。對(duì)于指定音調(diào)頻率區(qū)域中每個(gè)候選音調(diào)頻率，該函數(shù)指示該頻譜與候選音調(diào)頻率相容。對(duì)于該效用函數(shù)，估計(jì)語(yǔ)音信號(hào)的音調(diào)頻率。
文檔編號(hào)G10L25/90GK1527994SQ01822099
公開(kāi)日2004年9月8日申請(qǐng)日期2001年7月12日優(yōu)先權(quán)日2000年7月14日
發(fā)明者丹·查贊, 丹查贊, 茲布爾斯基, 梅爾·茲布爾斯基, 里, 隆·胡里申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司

完整全部詳細(xì)技術(shù)資料下載