語音速度轉換裝置以及語音速度轉換方法

文檔序號：2823520閱讀：297來源：國知局

專利名稱：語音速度轉換裝置以及語音速度轉換方法
技術領域：
本發(fā)明涉及語音速度轉換。尤其是本發(fā)明涉及一種語音速度轉換裝置以及一種語音速度轉換方法，其用于針對包含有聲音的信號，在不降低音質(zhì)且不改變音色的情況下改變聲音速度。
背景技術：
語音速度轉換裝置被用于電話系統(tǒng)或者聲音再現(xiàn)系統(tǒng)中。通過在再現(xiàn)所接收的聲音或者所記錄的聲音時改變聲音的速度，使用者可以以對其合適的速度收聽所接收或者所記錄的內(nèi)容。例如，當線路另一端的人說話較快，且接電話的人不能容易地理解其聲音時，則實時地或者在再現(xiàn)時降低語音速度。利用這一結構，接聽者可以很容易地理解語音內(nèi)容。另一方面，通過在再現(xiàn)時提高聲音速度，可以在比實際記錄時間更短的時間內(nèi)聽見所記錄內(nèi)容。
圖1顯示了被應用于諸如電話等的聲音通信系統(tǒng)的語音速度轉換裝置的示例。
在圖1中，電話的接收單元10經(jīng)由數(shù)字線等接收聲音代碼。解碼單元11將聲音代碼解碼成聲音波形信號。包含語音速度轉換裝置的語音速度轉換單元12將聲音波形信號轉換成具有例如更低速度的聲音波形信號。諸如受話器的輸出單元13將接收到的聲音輸出給外部。當解碼單元11將聲音代碼恢復成聲音波形時，在本示例中，語音速度轉換單元12能夠直接轉換通過接收單元10接收到的聲音代碼的速度，對經(jīng)速度轉換的聲音代碼進行解碼，并且將所解碼的聲音輸入輸出單元13。
作為一種語音速度的轉換方法時域諧波換算(time-domainharmonic scaling)是一種公知的方法。根據(jù)時域諧波換算，將待改變速度的聲音波形以基本頻率重復或者將其薄化(thin)，因此能夠調(diào)整速皮。還有通過重復或者薄化波形以轉換語音速度的改進方法。一個示例是把聲音分類成幾種類型，并且在所分類的聲音之間切換速度轉換方法。
圖2顯示了利用聲音波形的傳統(tǒng)語音速度轉換裝置的結構的示例。
在本示例中，聲音分類單元20將輸入聲音波形分類為“濁音(voicedsound)”和“非語音(unvoiced sound)”。當所輸入聲音波形是“濁音”時，音調(diào)(pitch)周期計算單元21計算“濁音”的音調(diào)周期。聲音速度轉換單元22通過基于由聲音速度轉換單元22所計算的音調(diào)周期對“濁音”波形輸入進行重復或者薄化，來調(diào)整聲音速度。
根據(jù)下述專利文獻1，將聲音分類為“元音聲(vowel sound)”、“濁輔音(voiced consonant)”、“清輔音(unvoiced consonant)”以及“無音(silence)”。通過按音調(diào)周期地對聲音波形進行重復或者薄化，來轉換“元音聲”以及“濁輔音”的速度。根據(jù)輔音的特征，不能將“清輔音”擴展或者壓縮，或者可通過重復或刪除波形以獲得預定長度，來進行轉換其速度。另一方面，可通過重復或刪除波形以獲得預定長度，來轉換“無音”的速度。
根據(jù)下述的專利文獻2，將聲音分類為“濁音”、“非語音”以及“無音”。通過按音調(diào)周期地重復或者薄化聲音波形，來轉換“濁音”的速度。不對“非語音”進行處理，并且通過以預定倍率放大或者縮小波形來轉換“無音”的速度。
根據(jù)下述的專利文獻3，將聲音分類為“濁音”、“非語音”以及“無音”。通過按音調(diào)周期地重復或者薄化聲音波形來轉換“濁音”的速度。通過以固定周期(即偽音調(diào))重復或者薄化聲音波形，來轉換“非語音”的速度。通過以預定的放大及縮小比率重復或薄化波形，來轉換“無音”的速度。
圖3顯示了使用聲音代碼的傳統(tǒng)語音速度轉換裝置的結構的一個示例。
在本示例中，基于對所輸入聲音的線性預測分析來預先獲得所輸入聲音的殘差信號和線性預測系數(shù)。音調(diào)周期計算單元30利用殘差信號來計算所輸入信號的音調(diào)周期。發(fā)聲速度轉換單元31輸出基于計算出的音調(diào)周期而重復或者薄化的殘差信號，從而轉換該速度，并且將速度轉換信息傳送至線性預測系數(shù)校正單元32。
線性預測系數(shù)校正單元32對與殘差信號(該信號是基于速度轉換信息而被重復或者薄化的)相對應的線性預測系數(shù)進行校正并且將其輸出。組合單元33利用來自線性預測系數(shù)校正單元32的線性預測系數(shù)對從發(fā)聲速度轉換單元31輸入的殘差信號進行濾波，然后輸出經(jīng)速度轉換的聲音波形。
下述專利文獻4描述了一種進行線性預測分析的方法，以把輸入的聲音分離成線性預測系數(shù)和預測殘差信號，并且通過按音調(diào)周期重復或者薄化含有強音調(diào)的預測殘差信號，防止了由于音調(diào)提取錯誤而導致音調(diào)分析的劣化。當采用線性預測分析時，為了提高音調(diào)分析的精度，通過使用音調(diào)比聲音波形表現(xiàn)得更強的預測殘差，對音調(diào)進行提取。以所提取的音調(diào)周期重復或薄化預測殘差。
下述的專利文獻5描述了一種通過使用聲音代碼填充(fill)“0”來擴展多路徑聲源，或者通過削減(cut)“0”來縮短聲源的速度轉換方法。
(專利文獻1)日本專利公開No.2612868(專利文獻2)日本專利公開No.3327936(專利文獻3)日本專利公開No.3439307(專利文獻4)日本專利申請未審公開No.11-311997(專利文獻5)日本專利公開No.3285472然而，上述傳統(tǒng)技術存在下列問題。
(1)使用聲音波形轉換速度時所產(chǎn)生的問題根據(jù)專利文獻1，在“清輔音”中，將除了那些被區(qū)分為“流音(liquidsound)”、“爆破音和塞擦音(plosive and affrictive sound)”以及“猝發(fā)音(burst)”的區(qū)間以外的區(qū)間的波形重復或者薄化。因此，產(chǎn)生了如下問題由于對波形的重復或薄化而導致出現(xiàn)了最初不存在的周期性，并且使音質(zhì)下降。
根據(jù)專利文獻2，不對“非語音”進行處理。因此，存在如下問題當將“非語音”擴展或壓縮時，其音長與其他區(qū)間的音長之間的平衡被破壞，且音質(zhì)下降。在此情況下，可擴展或壓縮的區(qū)間變小，且不能實現(xiàn)大的擴展或壓縮。根據(jù)專利文獻3，因為按固定周期(即偽音調(diào))對“非語音”進行薄化或重復，則產(chǎn)生出現(xiàn)最初不存在的周期性且使音質(zhì)下降的問題。
(2)使用諸如線性預測分析的聲音代碼來轉換速度時出現(xiàn)的問題根據(jù)專利文獻4，存在如下問題在未特別存在音調(diào)周期的濁音區(qū)間，以不定音調(diào)(即極大或極小的音調(diào)值的變化)在極長或極短區(qū)間中執(zhí)行重復或者薄化。結果，在線性預測代碼(LPC)系數(shù)變化的區(qū)間中，在LPC系數(shù)與預測殘差之間出現(xiàn)不匹配，因此降低了音質(zhì)。
根據(jù)專利文獻5，通過利用聲音代碼填充“0”來擴展多路徑聲源，或者通過削減“0”來進行縮短。此外，還存在的問題是在沒有音調(diào)的非語音區(qū)間無法調(diào)整速度。因此，其音長與其他被擴展或壓縮的區(qū)間的音長之間的平衡被破壞，且使音質(zhì)下降。當填充“0”時，擴展或壓縮區(qū)間減小。從而無法實現(xiàn)大的擴展或壓縮。

發(fā)明內(nèi)容
根據(jù)上述問題，本發(fā)明的目的是提供一種語音速度轉換裝置以及語音速度轉換方法，其用于根據(jù)所輸入聲音的特征，通過在利用聲音波形數(shù)據(jù)和基于線性分析而獲得的聲音代碼的速度調(diào)整方法與利用聲音波形數(shù)據(jù)及聲音代碼中的一個的速度調(diào)整方法之間進行適當切換，來調(diào)整語音速度而不會降低音質(zhì)。
根據(jù)本發(fā)明的一個方面，提供了一種語音速度轉換裝置，其利用聲音波形數(shù)據(jù)和基于線性預測的聲音代碼來調(diào)整語音速度。
根據(jù)本發(fā)明的另一方面，提供了一種語音速度轉換裝置，其包括聲音分類單元，向該單元輸入聲音波形數(shù)據(jù)及基于線性分析的聲音代碼，并且基于輸入信號的特征對輸入信號進行分類；以及速度調(diào)整單元，該單元基于所述分類來選擇利用聲音波形的速度轉換處理和利用聲音代碼的速度轉換處理中的一種或兩種處理，并且利用所選擇的速度轉換方法來改變輸入信號的速度。該速度轉換處理包括基于所述分類對速度轉換等級進行調(diào)整。
根據(jù)本發(fā)明的另一方面，提供了一種語音速度轉換方法，其用于利用聲音波形數(shù)據(jù)以及基于線性預測的聲音代碼來調(diào)整語音速度。
根據(jù)本發(fā)明的另一方面，提供了一種語音速度轉換方法，其包括如下步驟輸入聲音波形數(shù)據(jù)以及基于線性預測的聲音代碼，并且基于輸入信號的特征對該信號進行分類；基于所述分類來選擇利用聲音波形的速度轉換處理以及利用聲音代碼的速度轉換處理中的一種或兩種處理；并且利用所選擇的速度轉換方法來改變輸入信號的速度。所述速度轉換處理包括基于所述分類對速度轉換等級進行調(diào)整。
根據(jù)本發(fā)明，因為聲音波形數(shù)據(jù)和聲音代碼二者都被使用，所以能夠基于聲音特征來選擇性地使用聲音波形數(shù)據(jù)和聲音代碼中的一個或二者。結果，與僅利用聲音波形數(shù)據(jù)和聲音代碼中的一個的傳統(tǒng)實踐所獲得的音質(zhì)相比，顯著地提高了轉換速度后的音質(zhì)。
根據(jù)本發(fā)明，根據(jù)輸入信號的特征對輸入信號進行詳細分類。根據(jù)所述分類，從利用聲音波形數(shù)據(jù)和聲音代碼中的一個的方法以及利用聲音波形數(shù)據(jù)和聲音代碼中的二者的方法中適當選擇調(diào)整語音速度的方法，因此不產(chǎn)生音質(zhì)的劣化。結果，與僅利用聲音波形數(shù)據(jù)和聲音代碼中的一個的傳統(tǒng)實踐所獲得的音質(zhì)相比，顯著提高了轉換速度后的音質(zhì)。如后所述，利用聲音波形適當?shù)剞D換“周期性的”區(qū)間的速度。當由于殘差的重復或刪除導致“非周期性且穩(wěn)定性的”區(qū)間具有不連續(xù)區(qū)間時，可通過使該區(qū)間通過線性預測濾波器來薄化該不連續(xù)性。利用聲音代碼適當轉換“非周期性及穩(wěn)定性的”區(qū)間的速度。
根據(jù)本發(fā)明，當同時使用聲音波形數(shù)據(jù)和聲音代碼時，并且當將加權的速度調(diào)整組合在一起時，可以通過進一步降低音質(zhì)劣化來調(diào)整語音速度。

通過如下參照附圖闡述的說明將使本發(fā)明更清楚地被理解，其中圖1是示出將語音速度轉換裝置應用到聲音通信系統(tǒng)的示例的示意圖；圖2是示出利用聲音波形的傳統(tǒng)語音速度轉換裝置的結構的一個示例的示意圖；圖3是示出利用聲音代碼的傳統(tǒng)語音速度轉換裝置的結構的一個示例的示意圖；圖4是示出顯示根據(jù)本發(fā)明的語音速度轉換裝置的基本結構的示意圖；圖5是示出圖4中所示的速度轉換單元的結構的示例的示意圖；圖6是示出圖5所示速度調(diào)整單元的結構的示意圖；圖7是示出處理流程的一個示例的流程圖；圖8是圖5所示的速度調(diào)整單元的結構的另一示例的示意圖；圖9是示出圖8中所示的處理流程的示例(1)的流程圖；圖10是示出圖8中所示的處理流程的示例(2)的流程圖；圖11是根據(jù)本發(fā)明的一個實施例的處理流程的示意圖；圖12是示出圖11中所示的處理的基本流程的示意圖；圖13是示出由聲音分類單元執(zhí)行的對輸入信號的分類處理的流程的一個示例的流程圖；圖14是示出圖13所示的關于周期性的判斷的一個示例的流程圖；圖15是示出圖13所示的關于穩(wěn)定性的判斷的一個示例的流程圖；圖16是示出圖13所示的關于相似性的判斷的一個示例的流程圖；圖17是示出利用代碼的速度調(diào)整(在壓縮時)的一個示例的流程圖；而圖18是示出利用代碼的速度調(diào)整(在擴展時)的一個示例的流程圖。
具體實施例方式
圖4是出根據(jù)本發(fā)明的語音速度轉換裝置的基本結構的示意圖。
在圖4中，向速度轉換單元40輸入聲音波形和聲音代碼。速度轉換單元40根據(jù)聲音的特征，利用聲音波形以及聲音代碼中的一個或者二者來調(diào)整語音速度，并且輸出經(jīng)速度調(diào)整的聲音。
圖5是圖4所示的速度轉換單元40的結構示例的示意圖。
在圖5中，聲音分類單元41根據(jù)聲音的特征對輸入聲音進行分類。速度調(diào)整單元42根據(jù)聲音分類結果，在利用聲音波形及聲音代碼二者的速度調(diào)整方法和利用聲音波形及聲音代碼中的一個的速度調(diào)整方法中進行適當選擇。速度調(diào)整單元42利用所選擇的方法來調(diào)整速度，并且輸出經(jīng)調(diào)整速度的聲音。聲音分類單元41安裝有中央處理器(CPU)和數(shù)字信號處理器(DSP)，并且由包括只讀存儲器(ROM)、隨機存取存儲器(RAM)以及輸入/輸出(I/O)外圍裝置的常規(guī)CPU電路組成。如下面的結構框圖所示，速度調(diào)整單元42也有類似結構。
圖6是示出圖5所示的速度調(diào)整單元42的結構示例的示意圖。圖7是示出處理流程的一個示例的流程圖。
在本示例中，利用聲音波形數(shù)據(jù)以及通過線形分析操作所獲得的聲音代碼中的一個來調(diào)整語音速度。輸入選擇單元43基于來自聲音分類單元41的聲音分類，選擇聲音波形數(shù)據(jù)以及聲音代碼中的一個，以輸入一幀(步驟S101和S102)。
同樣，基于聲音分類，將后一級互鎖開關44及47轉換到聲音波形速度調(diào)整單元45或者聲音代碼速度調(diào)整單元46(步驟S103)。速度調(diào)整單元45或速度調(diào)整單元46(通過輸入選擇單元43將互鎖開關44及47切換到其處)利用相對應的聲音波形或聲音代碼，來執(zhí)行速度調(diào)整處理(步驟S104或S105)，并且向輸出單元48輸出經(jīng)速度調(diào)整的聲音波形。
因為基于聲音分類對用來速度調(diào)整的聲音波形或者聲音代碼進行了適當選擇，所以與僅使用聲音波形或者聲音代碼來轉換速度時相比，顯著降低了在轉換速度后的音質(zhì)的劣化。
圖8是示出圖5所示的速度調(diào)整單元42的結構的另一示例的示意圖。圖9和10是圖8所示的處理流程的示例的流程圖。
在本例中，通過同時使用由線形預測操作所獲得的聲音波形數(shù)據(jù)和聲音代碼二者，來調(diào)整語音速度。因此，圖7所示的輸入選擇單元43不是必需的。將所輸入的聲音波形以及聲音代碼直接分別地施加給速度調(diào)整單元45和速度調(diào)整單元46。將通過速度調(diào)整單元45對聲音波形進行速度轉換所獲得的聲音波形以及通過速度調(diào)整單元46對聲音代碼進行速度轉換所獲得的聲音波形輸入下一級的輸出生成單元49(步驟S201-S204)。
輸出生成單元49基于來自聲音分類單元41的聲音分類，計算兩個輸入聲音波形的權重(步驟S301和S302)，將加權的兩項聲音波形相加，然后輸出相加后的結果(步驟S403)。作為該方法應用的示例，考慮了從使用聲音波形的速度調(diào)整區(qū)間到使用聲音代碼的速度調(diào)整區(qū)間的切換。
在此情況下，首先，將權重“1”賦予從使用聲音波形的速度調(diào)整單元45輸入的聲音波形，將權重“0”賦予從使用聲音代碼的速度調(diào)整單元46輸出的波形。然后，在預定的區(qū)間切換時間內(nèi)，將來自速度轉換單元45的聲音波形的權重由“1”逐漸降到“0”。另一方面，將來自速度調(diào)整單元46的聲音波形的權重由“0”逐漸增加到“1”。權重可呈線性或者指數(shù)地變化。結果，在本示例中，可以充分地限制由于在聲音波形區(qū)間和聲音代碼區(qū)間之間進行切換時生成的波形不連續(xù)性所造成的噪音。
圖11是根據(jù)本發(fā)明一個實施例的處理流程的示意圖。利用圖5所示的聲音分類單元41和速度調(diào)整單元42所執(zhí)行的操作流程來解釋該操作。
在本示例中，聲音分類單元41首先基于幀是否包含有聲音將聲音分類為“有聲音(voice)”和“非聲音(nonvoice)”(步驟S401至S403)。例如，當所輸入信號的短時間能量持續(xù)預定時間或者更長時，聲音分類單元41判定該幀包含有聲音。接著，對判定為聲音的區(qū)間更詳細地進行分類。在本示例中，將濁音分類為“周期性的”，而非語音(例如環(huán)境噪音)分類為“非周期性的”(步驟S404)。通過考慮電平變化將“有聲音”進一步分類為“周期性且穩(wěn)定的”和“周期性且不穩(wěn)定的”(步驟S405)。
通過考慮電平變化和猝發(fā)音，將非語音可以進一步分類為“非周期性、穩(wěn)定且相似的”和“非周期性、穩(wěn)定且不相似的”(步驟S409和S410)。此外，通過考慮爆破音等將非語音分類為“非周期性且非穩(wěn)定的”(步驟S413)。還可以將類似于上述分類的分類應用于被判定為非語音的區(qū)間。
速度調(diào)整單元42基于上述分類結果，選擇適合各個分類的速度調(diào)整方法，并且將方法切換到所選擇的速度調(diào)整方法。在本示例中，利用聲音波形，對被判定為“有聲音”的區(qū)間中的被分類為“周期性且穩(wěn)定的”區(qū)間的速度進行調(diào)整。將該速度調(diào)整到中間調(diào)整等級(步驟S406)。另一方面，利用聲音波形，對被判定為“有聲音”的區(qū)間中的被分類為“周期性且不穩(wěn)定的”區(qū)間的速度進行調(diào)整。將該速度調(diào)整到較低調(diào)整等級(步驟S407)。
利用聲音代碼，對被判定為“聲音”的區(qū)間中的被分類為“非周期性的”區(qū)間的速度進行調(diào)整。然而，不對被分類為“非周期性、穩(wěn)定且相似的”和“非周期性且不穩(wěn)定的”的區(qū)間的速度進行調(diào)整。利用聲音波形對被判定為“非聲音”區(qū)間的速度進行調(diào)整。將該速度調(diào)整到較高調(diào)整等級。
當聲音分類單元41使用“周期性”、“穩(wěn)定性”以及“相似性”來對聲音進行詳細分類時，本示例中的速度調(diào)整單元42根據(jù)該分類，在“周期性”區(qū)間中利用聲音波形來轉換速度(步驟S404中的“是”之后)。除了不執(zhí)行速度轉換(步驟S411和S413)的情況以外，聲音分類單元41在“非周期性”區(qū)間利用聲音代碼來轉換速度(步驟S408中的“否”之后)。
在周期性區(qū)間中，通過根據(jù)周期對聲音波形進行重復或刪除，可以轉換速度而不明顯劣化音質(zhì)。然而，在周期性區(qū)間中使用聲音代碼時，對所輸入聲音的殘差信號的重復或刪除會影響在線性預測濾波之后的態(tài)，且在預測系數(shù)與殘差信號之間出現(xiàn)不匹配。因此，在周期性區(qū)間利用聲音波形轉換了速度。
另一方面，出于下列原因，在非周期性區(qū)中利用聲音代碼來轉換速度。在“非周期性且穩(wěn)定的”區(qū)間(步驟S409中的“是”之后)，當利用聲音波形調(diào)整速度時，該波形由于波形的重復或刪除而變得不連續(xù)。此外，會出現(xiàn)在最初不存在的周期性，且使聲音劣化。當在該區(qū)間使用聲音代碼時，即使由于殘差的重復或刪除而出現(xiàn)了不連續(xù)性，該不連續(xù)性也會通過最終使該聲音通過線形預測濾波而被薄化?！胺€(wěn)定”區(qū)間在不包括的濾波器的上升下降區(qū)間的頻率特性上變化很小。因此，由于殘差的重復或刪除而導致的對線形預測濾波的狀態(tài)的影響幾乎沒有，從而不容易使音質(zhì)劣化。
出于下列原因，對速度調(diào)整單元42所執(zhí)行的速度調(diào)整的等級進行確定。
在“非聲音”區(qū)間中(步驟S408)，速度調(diào)整單元42搜索在提高速度和降低速度時非聲音區(qū)間的兩端都平滑相連而無間斷的聲音波形部分。速度調(diào)整單元42刪除夾在這些非聲音區(qū)間中間的所有區(qū)間。在此情況下，速度調(diào)整等級變?yōu)椤案摺薄?br> 在“周期性且穩(wěn)定的”區(qū)間中(步驟406)，速度調(diào)整單元42通過在聲音信號的周期性且穩(wěn)定的區(qū)間中利用聲音波形進行重復或者薄化，來調(diào)整速度而不使音質(zhì)劣化。在此情況下，當執(zhí)行重復或薄化的次數(shù)變得極端大時，則出現(xiàn)不自然。因此，將速度調(diào)整等級設為“中”?！爸芷谛郧也环€(wěn)定的”區(qū)間(步驟S407)具有像聲音信號的電平變化的周期性，但能量有所變化。因此，在利用聲音波形進行周期性地重復或薄化時，速度調(diào)整單元42設定速度調(diào)整等級為“低”以減少由于能量變化而導致的聲音劣化。
“非周期性、穩(wěn)定且不相似的”區(qū)間(步驟S112)是具有無關聯(lián)的信號穩(wěn)定延續(xù)的區(qū)間。速度調(diào)整單元42在該區(qū)間中利用聲音代碼來調(diào)整速度。在此情況下，能夠通過隨機生成固定密碼本(codebook)，來調(diào)整速度(即能夠使速度降低)而不生成新的周期性。此外，能夠通過在壓縮(刪除)殘差信號后利用線形預測濾波來生成輸出信號，來限制不連續(xù)性。
另一方面，“非周期性、穩(wěn)定且相似的”區(qū)間(步驟S111)和“非周期性且不穩(wěn)定的”區(qū)間(步驟S113)是信號變化較大的區(qū)間，且聲音容易因為速度調(diào)整而劣化。因此，速度調(diào)整單元42不對該區(qū)間的速度進行調(diào)整。根據(jù)本發(fā)明，聲音分類單元41對輸入聲音進行分類，而速度轉換單元42選擇性地使用速度轉換方法。因此，能夠增大聲音的擴展及壓縮區(qū)間的比例，而并不使音質(zhì)劣化。
下面說明上述實施例的詳細的處理內(nèi)容。
圖12是顯示圖11所示的處理的基本流程的流程圖。
在圖12中，圖4所示速度轉換單元40(即圖5所示的聲音分類單元41和速度調(diào)整單元42)首先輸入輸入信號的一幀(即聲音波形和通過執(zhí)行聲音波形的線性預測轉換所獲得的聲音代碼)(步驟S501)。聲音分類單元41對圖11所示的輸入信號進行分類(步驟S502)，并且速度調(diào)整單元42基于該分類執(zhí)行圖11所示速度轉換處理(步驟S503)。速度轉換單元40持續(xù)上述處理直到輸入幀的序列結束(步驟S504)。
圖13是通過聲音分類單元41執(zhí)行的對輸入信號的分類處理的流程的一個示例的流程圖(圖12中的步驟S502)。
在本示例中，基于關于有聲音和非聲音的判斷、以及關于有/無周期性、有/無穩(wěn)定性以及有/無相似性的判斷，對所輸入信號進行分類。首先，將所輸入信號大致地分類為“有聲音”區(qū)間以及“非聲音”區(qū)間。將被判定為“有聲音”的區(qū)間進一步分類為“周期性的”區(qū)間、“非周期性且穩(wěn)定的”區(qū)間以及“非周期性且不穩(wěn)定的”區(qū)間(見圖11)。
因此，聲音分類單元41輸入聲音波形和聲音代碼的一幀(步驟S601)，并且將所輸入信號分類為包含聲音的有聲音區(qū)間和不包含聲音的非聲音區(qū)間(步驟S602)。接著，聲音分類單元41在被判定為“有聲音”的區(qū)間中判斷有/無周期性、有/無穩(wěn)定性以及有/無相似性(步驟S603到S605)。聲音分類單元41基于判斷結果對輸入信號進行分類(步驟S606)。在本示例中，分類項目并不局于周期性、穩(wěn)定性以及相似性，也可以使用其他分類項目。不需要對未分類項目進行判定。
圖14是圖13所示的關于周期性的判斷(S603)的一個示例的流程圖。
在本示例中，將計算自動相關系數(shù)的通用方法應用于聲音波形。對輸入幀進行抽樣，并且計算自動相關系數(shù)取最大值的頻率(步驟S701至S703)?；谠擃l率與在緊鄰的前一幀中使自動相關系數(shù)取最大值的頻率之間的差異，來判斷周期性(步驟S704)。例如，將預定的閾值與該差異進行比較。當該差異與閾值相等或者比閾值小時，將該區(qū)間判定為“周期性的”(步驟S705)。在其他情況下，將該區(qū)間判定為“非周期性的”。
圖15是圖13所示的關于穩(wěn)定性的判斷的一個示例的流程圖。
在本示例中，使用聲音代碼來計算能量。首先，輸入聲音代碼的一個幀，然后計算線性預測系數(shù)的變化(標準偏差(SD))(步驟S801和S802)。為此，根據(jù)下列公式(1)來計算線性預測系數(shù)的SD。
SD=1nΣi=1n(Ci-Pi)2---(1)]]>其中，n代表線性預測分析次數(shù)，Ci代表當前幀的線性預測系數(shù)(第i次)，而Pi代表前一幀的線性預測系數(shù)(第i次)。
接著，根據(jù)下述公式(2)計算能量(POW)(步驟S803)。
POW=1mΣi=1mAi2---(2)]]>其中，m代表m幀的抽樣數(shù)量，而Ai代表當前幀的振幅(第i個抽樣)。
接著，根據(jù)下述公式(3)計算能量的變化(DP)(步驟S804)。
DP＝POWt-POWt-1(3)其中，POWt代表當前幀的能量，以及POWt-1代表前一幀的能量。
最后，基于上述計算結果判斷穩(wěn)定性(步驟S805)。在本示例中，當SD與預定閾值相等或者比該值小，并且當DP與預定閾值相等或者比該值小時，將該區(qū)間判定為“穩(wěn)定的”。在其他情況下，將該區(qū)間判定為“不穩(wěn)定的”。為判斷下一幀，存儲當前幀的能量以及線性預測系數(shù)(步驟S806)。
圖16是圖13所示的關于相似性判斷(步驟S605)的一個示例的流程圖。
在本示例中，使用與參照圖14所說明的相同的自動相關系數(shù)來判斷相似性。首先，輸入輸入信號的聲音波形的一幀(步驟S901)。其次，計算自動相關系數(shù)，并且計算該自動相關系數(shù)的最大值(步驟S902和S903)。將自動相關系數(shù)的最大值與預定閾值進行比較。當自動相關系數(shù)的最大值等于或者大于預定閾值時，將該區(qū)間判定為“相似的”。否則，將該區(qū)間判定為“不相似的”。
下面說明通過速度調(diào)整單元42執(zhí)行的速度轉換(圖12中的步驟S503)的詳細處理。在圖17和圖18所示的示例中說明了使用聲音代碼執(zhí)行的處理(見圖3)。在進行該處理之前，速度調(diào)整單元42基于通過聲音分類單元41執(zhí)行的分類的結果，在圖11所示的流程(步驟S406、S407、S408、S411、S412以及S413)中選擇一個終端處理。基于時域諧波換算算法等的現(xiàn)有方法，執(zhí)行利用聲音波形的處理(見圖2)。
圖17是示出利用代碼的速度調(diào)整(在壓縮時)的一個示例的流程圖。
在本示例中，速度調(diào)整單元42首先輸入聲音代碼的一幀(步驟S1001)。接著，從前一幀和當前幀，薄化前一幀的殘差信號。結果，根據(jù)這兩個幀的殘差信號生成一個幀的殘差信號(步驟S1002)。同時，從前一幀和當前幀，薄化緊鄰的在先幀的線性預測系數(shù)。因此，根據(jù)這兩個幀的線性預測系數(shù)來生成一個幀的線性預測系數(shù)(步驟S1003)。將所生成的一個幀的殘差信號和所生成的一個幀的線性預測系數(shù)輸入給線性預測濾波器。因此，通過組合生成了由于壓縮而導致速度增大的聲音波形。
圖18是示出利用代碼的速度調(diào)整(在擴展時)的一個示例的流程圖。
在本示例中，速度調(diào)整單元42首先輸入聲音代碼的一個幀(步驟S1101)。在此情況下，利用前一幀的殘差信號以及當前幀的殘差信號來生成一個幀的新的殘差信號。因此，將總和為1的權重系數(shù)乘以前一幀的殘差信號以及當前幀的殘差信號。將加權殘差信號進行相加，以生成新的殘差信號。將所生成的殘差信號插入在前一幀的殘差信號與當前幀的殘差信號之間，由此生成三個幀的殘差信號(步驟S1102)。在編碼系統(tǒng)具有密碼本的情況下，隨機地生成密碼本的索引，從而生成一個幀的新的殘差信號。
接著，對前一幀的線性預測系數(shù)和當前幀的線性預測系數(shù)進行內(nèi)插，以生成新的線性預測系數(shù)。將所生成的線性預測系數(shù)插入在前一幀的線性預測系數(shù)與當前幀的線性預測系數(shù)之間，因此生成三個幀的線性預測系數(shù)(步驟S1103)。在編碼系統(tǒng)具有密碼本的情況下，隨機地生成密碼本的索引，從而生成一個幀的新的殘差信號。最后，將所生成的這三個幀的殘差信號以及所生成的這三個幀的線性預測系數(shù)輸入線性預測濾波器。因此，通過組合生成了通過擴展而導致速度降低的聲音波形。
如上所述，根據(jù)本發(fā)明，因為使用了聲音波形數(shù)據(jù)和聲音代碼二者，所以能夠基于聲音的特征為選擇性地使用信息。與通過僅使用聲音波形數(shù)據(jù)和聲音代碼中的一個的轉換速度所獲得的音質(zhì)相比，能夠提高速度轉換后的音質(zhì)。此外，將所輸入信號分類為幾種聲音?；趯β曇舻姆诸?，能夠通過使用聲音波形數(shù)據(jù)和聲音代碼中的一個或二者的方法來轉換輸入信號的速度，從而降低了音質(zhì)的劣化。與通過僅使用聲音波形數(shù)據(jù)和聲音代碼中的一個的轉換速度所獲得的音質(zhì)相比，能夠提高速度轉換后的音質(zhì)。
權利要求
1.一種語音速度轉換裝置，其基于線性預測，通過使用聲音波形數(shù)據(jù)和聲音代碼，來調(diào)整語音速度。
2.一種語音速度轉換裝置，其包括聲音分類單元，向該單元輸入聲音波形數(shù)據(jù)和基于線性分析的聲音代碼，并且所述聲音分類單元基于輸入信號的特征對所述輸入信號進行分類；以及速度調(diào)整單元，其基于所述分類，選擇利用所述聲音波形的速度轉換處理和利用所述聲音代碼的速度轉換處理中的一種或者兩種處理，并且通過使用所選擇的速度轉換方法來改變所述輸入信號的語音速度。
3.根據(jù)權利要求2所述的語音速度轉換裝置，其中所述速度轉換處理包括基于所述分類對速度轉換等級進行調(diào)整。
4.根據(jù)權利要求2所述的語音速度轉換裝置，其中所述聲音分類單元基于周期性對所述輸入信號進行分類。
5.根據(jù)權利要求2所述的語音速度轉換裝置，其中所述聲音分類單元基于穩(wěn)定性對所述輸入信號進行分類。
6.根據(jù)權利要求2所述的語音速度轉換裝置，其中所述聲音分類單元基于相似性對所述輸入信號進行分類。
7.根據(jù)權利要求2所述的語音速度轉換裝置，其中所述聲音分類單元基于周期性和穩(wěn)定性對所述輸入信號進行分類。
8.根據(jù)權利要求2所述的語音速度轉換裝置，其中所述聲音分類單元基于周期性和相似性對所述輸入信號進行分類。
9.根據(jù)權利要求2所述的語音速度轉換裝置，其中所述聲音分類單元基于所述穩(wěn)定性和相似性對所述輸入信號進行分類。
10.根據(jù)權利要求2所述的語音速度轉換裝置，其中所述聲音分類單元基于周期性、穩(wěn)定性以及相似性對所述輸入信號進行分類。
11.一種用于基于線性預測、利用聲音波形數(shù)據(jù)和聲音代碼來調(diào)整語音速度的語音速度轉換方法。
12.一種語音速度轉換方法，其包括如下步驟輸入聲音波形數(shù)據(jù)和基于線性預測的聲音代碼，并且基于輸入信號的特征對所述輸入信號進行分類；以及基于所述分類，選擇利用所述聲音波形數(shù)據(jù)的速度轉換處理和利用所述聲音代碼的速度轉換處理中的一種或者兩種處理，并且利用所選擇的速度轉換方法來改變所述輸入信號的語音速度。
13.根據(jù)權利要求12所述的語音速度轉換方法，其中所述速度轉換處理包括基于所述分類對速度轉換等級進行調(diào)整。
14.根據(jù)權利要求12所述的語音速度轉換方法，其中所述聲音分類是基于周期性的對所述輸入信號的分類。
15.根據(jù)權利要求12所述的語音速度轉換方法，其中所述聲音分類是基于穩(wěn)定性的對所述輸入信號的分類。
16.根據(jù)權利要求12所述的語音速度轉換方法，其中所述聲音分類是基于相似性的對所述輸入信號的分類。
17.根據(jù)權利要求12所述的語音速度轉換方法，其中所述聲音分類是基于周期性和穩(wěn)定性的對所述輸入信號的分類。
18.根據(jù)權利要求12所述的語音速度轉換方法，其中所述聲音分類是基于周期性和相似性的對所述輸入信號的分類。
19.根據(jù)權利要求12所述的語音速度轉換方法，其中所述聲音分類是基于穩(wěn)定性和相似性的對所述輸入信號的分類。
20.根據(jù)權利要求12所述的語音速度轉換方法，其中所述聲音分類是基于周期性、穩(wěn)定性和相似性的對所述輸入信號的分類。
全文摘要
語音速度轉換裝置以及語音速度轉換方法。本發(fā)明涉及語音速度轉換，并且提供了一種語音速度轉換裝置以及一種語音速度轉換方法，其用于針對包含有聲音的信號，在不使音質(zhì)劣化、不改變特征的情況下改變聲音速度。該語音速度轉換裝置包括聲音分類單元，向該單元輸入聲音波形數(shù)據(jù)以及基于線性預測的聲音代碼，并且該聲音分類單元基于輸入信號的特征對所述輸入信號進行分類；以及，速度調(diào)整單元，該單元基于所述分類，選擇利用聲音波形的速度轉換處理以及利用聲音代碼的速度轉換處理中的一種或者兩種處理，并且利用所選擇的速度轉換方法醚改變所述輸入信號的語音速度。
文檔編號G10L21/00GK1885405SQ200510112850
公開日2006年12月27日申請日期2005年10月14日優(yōu)先權日2005年6月22日
發(fā)明者遠藤香緒里, 大田恭士, 外川太郎申請人:富士通株式會社

完整全部詳細技術資料下載