專利名稱:話音通信中產(chǎn)生舒適噪聲的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
總的來說,本發(fā)明涉及話音通信領(lǐng)域,具體而言,涉及斷續(xù)發(fā)射中舒適噪聲的產(chǎn)生。
背景技術(shù):
在正常的電話對(duì)話中,有時(shí)一個(gè)人說,另一個(gè)人聽。有時(shí)兩個(gè)用戶都不說話。寂靜階段內(nèi)平均話音活動(dòng)會(huì)低于50%。在這些寂靜階段內(nèi),只會(huì)聽到背景噪聲。背景噪聲通常都沒有任何內(nèi)容,不必從發(fā)射方(TX)向接收方(RX)原封不動(dòng)地發(fā)射這些背景噪聲。在移動(dòng)通信中,叫做斷續(xù)發(fā)射(DTX)的程序利用了這一事實(shí)來節(jié)省移動(dòng)設(shè)備的能量。具體而言,這一TX DTX機(jī)制有一個(gè)低功率狀態(tài)(DTX低),在這種狀態(tài)的話音間隙中,大多數(shù)時(shí)間里移動(dòng)臺(tái)(MS)停止向基站(BS)發(fā)射信號(hào),以減少M(fèi)S的功耗,降低空中接口的總干擾電平。
采用DTX的基本問題是說話階段的背景噪聲在停止發(fā)射無線電信號(hào)的時(shí)候消失,導(dǎo)致背景噪聲不連續(xù)。由于DTX切換會(huì)非常迅速,因此,人們發(fā)現(xiàn)這一效應(yīng)會(huì)使接聽電話的人感到非常厭煩。除此以外,如果話音活動(dòng)檢測(cè)器(VAD)偶爾將噪聲當(dāng)作話音信號(hào),就會(huì)在話音合成的時(shí)候重建一部分背景噪聲,而其它部分則保持靜默。背景噪聲突然出現(xiàn)和突然消失不僅使人感到非常厭煩,它還會(huì)使對(duì)話的可理解性降低,特別是當(dāng)噪聲電平很高的時(shí)候,就象在行使的汽車內(nèi)一樣。為了減小這一干擾,在接收方產(chǎn)生類似于發(fā)射方背景噪聲的合成噪聲。這種合成噪聲叫做舒適噪聲(CN),因?yàn)樗沟媒勇牨容^舒服。
為了讓接收方模擬發(fā)射方的背景噪聲,在發(fā)射方估計(jì)舒適噪聲參數(shù),用靜默描述(SID)幀發(fā)射給接收方。這一發(fā)射在過渡到DTX低功率狀態(tài)之前進(jìn)行,以后以MS確定的速率進(jìn)行。TX DTX處理程序決定計(jì)算哪種參數(shù),以及是否產(chǎn)生話音幀或者SID幀。圖1說明TX DTX的工作原理。這一工作是在話音活動(dòng)檢測(cè)器(VAD)的幫助之下進(jìn)行的,它說明當(dāng)前幀中是否有話音信號(hào)。如果檢測(cè)到話音信號(hào),就將VAD算法的輸出打上“真”布爾標(biāo)志,否則打上“假”標(biāo)志。TX DTX還包括話音編碼器和舒適噪聲產(chǎn)生模塊。
TX DTX處理程序的基本工作過程如下。布爾(Boolean)話音(SP)標(biāo)志說明這一幀是話音幀還是SID幀。在說話階段,SP標(biāo)志被置位成“真”,用話音編碼算法產(chǎn)生一個(gè)話音幀。如果在VAD標(biāo)志變成“假”之前,說話階段維持了足夠長(zhǎng)的時(shí)間,就有一個(gè)拖尾階段(見圖2)。這一段時(shí)間被用來計(jì)算平均背景噪聲參數(shù)。在拖尾階段,發(fā)射正常的話音幀給接收方,雖然這一編碼信號(hào)中只有背景噪聲。SP標(biāo)志的值在拖尾階段保持“真”。在拖尾階段以后,舒適噪聲(CN)階段開始。在CN階段,將SP標(biāo)志設(shè)置成“假”,產(chǎn)生SID幀。
在拖尾階段保存每一幀的頻譜S和功率電平E。拖尾階段過去以后,計(jì)算保存參數(shù)Save和Eave的平均值。平均長(zhǎng)度是比拖尾階段長(zhǎng)的一幀。因此,第一個(gè)舒適噪聲參數(shù)就是拖尾階段和它后面第一幀的平均值。
在舒適噪聲階段,每一幀都產(chǎn)生SID幀,但是不發(fā)送它們。TX無線電子系統(tǒng)(RSS)根據(jù)SP標(biāo)志協(xié)調(diào)SID幀的發(fā)射。當(dāng)說話階段結(jié)束的時(shí)候,在第一個(gè)SID幀以后停止發(fā)射。以后,時(shí)不時(shí)地發(fā)射一個(gè)SID幀,以便更新舒適噪聲的估計(jì)。
圖3描述RX DTX的邏輯操作。如果在收到的幀內(nèi)檢測(cè)到了差錯(cuò),就將壞幀顯示(BFI)標(biāo)志設(shè)置為“真”。與發(fā)射方的SP標(biāo)志相似,接收方的SID標(biāo)志被用于描述收到的幀是一個(gè)SID幀還是一個(gè)話音幀。
RX DTX處理程序負(fù)責(zé)整個(gè)RX DTX操作。由它區(qū)分收到的幀是有效幀還是無效幀(分別是BFI=0或者BFI=1),以及收到的幀是一個(gè)SID幀還是一個(gè)話音幀(分別是SID=1或者SID=0)。收到有效幀的時(shí)候,RX DTX處理程序?qū)⑺苯觽魉徒o話音譯碼器。收到有差錯(cuò)的話音幀或者這一幀在說話階段丟失的時(shí)候,話音譯碼器利用最新良好話音幀與話音有關(guān)的參數(shù),與此同時(shí),譯碼器開始逐漸地關(guān)閉輸出信號(hào)。
收到有效SID幀的時(shí)候,產(chǎn)生舒適噪聲,直到收到新的SID幀。這一過程按同樣的方式重復(fù)。但是如果收到的幀被劃分成有效SID幀,就用最后的有效SID。在舒適噪聲階段,譯碼器在從來沒有發(fā)送出去的SID幀之間,接收發(fā)射信道噪聲。為了同步這些幀的信號(hào),用兩個(gè)前面收到的有效SID幀內(nèi)插得到的參數(shù)被用來產(chǎn)生舒適噪聲,用于更新舒適噪聲。RX DTX處理程序忽略CN階段沒有發(fā)送的幀,因?yàn)樗患僭O(shè)為原因是發(fā)射中斷。
利用分析背景噪聲得到的信息來產(chǎn)生舒適噪聲。隨著源不同,背景噪聲具有很不相同的特性。因此,沒有任何一般方法來找到能夠正確地描述所有類型背景噪聲特性的一組參數(shù),并且可以用少量比特一秒鐘發(fā)射幾次。因?yàn)樵捯敉ㄐ胖械脑捯艉铣墒墙⒃谌祟愒捯舢a(chǎn)生系統(tǒng)基礎(chǔ)之上的,因此不能用同樣的方法將話音合成算法用于產(chǎn)生舒適噪聲。除此以外,不象與話音相關(guān)的參數(shù)一樣,SID幀內(nèi)的參數(shù)不是每一幀都要發(fā)射。已經(jīng)知道人類聽覺系統(tǒng)更加集中于信號(hào)的幅度譜,而不是相位響應(yīng)。因此,為了產(chǎn)生舒適噪聲,只發(fā)射與背景噪聲的平均譜和功率有關(guān)的信息就足夠了。因此,用這兩個(gè)參數(shù)產(chǎn)生舒適噪聲。盡管這種舒適噪聲的產(chǎn)生實(shí)際上會(huì)在時(shí)域引入很多失真,但是它與頻域中的背景噪聲相似。這樣就足以減小說話階段和舒適噪聲階段之間過渡階段煩人的現(xiàn)象。工作良好的舒適噪聲的產(chǎn)生具有很好的緩和效果,并且舒適噪聲本身并不會(huì)引起人注意。由于舒適噪聲的產(chǎn)生能夠減小發(fā)射速率,同時(shí)能夠感覺到的差錯(cuò)很少(,因此這一概念得到了廣泛接受。但是,當(dāng)產(chǎn)生的舒適噪聲的特性明顯地偏離真實(shí)背景噪聲特性的時(shí)候,通常就能夠聽到舒適噪聲和真實(shí)背景噪聲之間的過渡。
在現(xiàn)有技術(shù)中,在兩個(gè)最新的SID幀(簡(jiǎn)圖4)之間通過內(nèi)插參數(shù)獲得合成線性預(yù)測(cè)(LP)濾波器和能量系數(shù)。這一內(nèi)插是一幀一幀地進(jìn)行的。在一幀內(nèi),每個(gè)子幀的舒適噪聲密碼本增益都相同。以SID幀的發(fā)射速率從收到的參數(shù)中內(nèi)插出舒適噪聲參數(shù)。每到第k幀發(fā)射SID幀。在第n幀以后發(fā)射的SID幀是第(n+k)幀。在每一幀內(nèi)內(nèi)插CN參數(shù),從而使收到后一個(gè)幀的時(shí)候內(nèi)插得到的參數(shù)從第n個(gè)SID幀變成從第(n+k)個(gè)SID幀得到的參數(shù)。這一內(nèi)插是按照如下公式進(jìn)行的S′(n+i)=S(n)*ik+S(n-k)*(1-ik),---(1)]]>其中的k是內(nèi)插周期,S’(n+1)是第(n+i)幀的頻譜參數(shù)矢量,i=0,…,k-1,S(n)是最后一次刷新的頻譜參數(shù)矢量,S(n-k)是倒數(shù)第二次刷新的頻譜參數(shù)矢量。同樣,收到的能量按如下公式內(nèi)插E′(n+i)=E(n)*ik+E(n-k)*(1-ik),---(2)]]>其中k是內(nèi)插周期,E’(n+i)是第(n+i)幀的接收能量,i=0,…,k-1,E(n)是最新刷新的接收能量,E(n-k)是倒數(shù)第二次刷新的接收能量。通過這種方式,舒適噪聲緩慢、平滑地改變,從一組參數(shù)逐漸變化到另一組參數(shù)。在圖4中畫出這種現(xiàn)有技術(shù)解決方案的一個(gè)框圖。GSM EFR(GSM增強(qiáng)型全速率通信)編解碼器通過在LSF域中發(fā)射合成(LP)濾波器系數(shù)來應(yīng)用這種方法。固定密碼本增益被用于發(fā)射幀的能量。按照等式1和等式2內(nèi)插這兩個(gè)參數(shù),其中k=24。GSM EFR CN產(chǎn)生方法的詳細(xì)介紹可以從數(shù)字蜂窩通信系統(tǒng)(第二加階段),增強(qiáng)型全速率話音業(yè)務(wù)信道的舒適噪聲(ETSI EN 300 728 v8.0.0(2000-07))中找到。
也可以分別用能量抖動(dòng)和頻譜抖動(dòng)塊將隨機(jī)分量插入這些參數(shù)。目的是模擬實(shí)際背景噪聲的頻譜和能量起伏。頻譜抖動(dòng)塊的工作過程如下(見圖5)Save″(i)=Save′(i)+rand(-L,L),i=0,...,M-1, (3)在這種情況下其中的S是一個(gè)LSF矢量,L是一個(gè)恒定值,rand(-L,L)是產(chǎn)生的-L到L之間的一個(gè)隨機(jī)數(shù),Save”(i)是用于舒適噪聲頻譜表示的LSF矢量,Save’(i)是背景噪聲的平均頻譜信息(LSF域),M是合成濾波器(LP)的階數(shù)。同樣,能量抖動(dòng)可以表示為Eave″(i)=Eave′(i)+rand(-L,L),i=0,...,M-1(4)在現(xiàn)有技術(shù)解決方案中,能量抖動(dòng)和頻譜(LP)抖動(dòng)塊以恒定幅度抖動(dòng)。應(yīng)該指出,在這第二個(gè)現(xiàn)有技術(shù)系統(tǒng)的描述中合成(LP)濾波器系數(shù)也在LSF域中表示。但是也可以采用任何其它表示(例如ISP域)。
一些現(xiàn)有技術(shù)系統(tǒng),比如IS-641,在產(chǎn)生舒適噪聲的時(shí)候丟棄了能量抖動(dòng)塊。對(duì)IS-461舒適噪聲產(chǎn)生方法的詳細(xì)介紹可以在TDMA蜂窩/PCS-無線電接口增強(qiáng)型全速率話音編解碼器,修訂版A(TIA/EIAIS-641-A)中找到。
對(duì)于某些類型的背景噪聲,上述現(xiàn)有技術(shù)解決方案工作得很好,但是對(duì)于其它類型的噪聲則不怎么好。對(duì)于穩(wěn)態(tài)背景噪聲(象作為背景噪聲的汽車噪聲或者風(fēng)聲),非抖動(dòng)方法工作得很好,而抖動(dòng)方法則不能工作得這樣好。這是因?yàn)槎秳?dòng)方法將隨機(jī)抖動(dòng)引入了用于產(chǎn)生舒適噪聲的頻譜參數(shù)矢量,雖然背景噪聲實(shí)際上是穩(wěn)態(tài)的。對(duì)于非穩(wěn)態(tài)背景噪聲(街道或者辦公室噪聲),抖動(dòng)方法工作得很好,但是非抖動(dòng)方法則工作得不好。這樣,抖動(dòng)方法更加適合于模擬背景噪聲的非穩(wěn)態(tài)特性,而非抖動(dòng)方法則更加適合于在背景噪聲隨時(shí)間起伏的情況下產(chǎn)生穩(wěn)態(tài)舒適噪聲。利用這兩種方法中的一種來產(chǎn)生舒適噪聲,在許多情況下,合成背景噪聲和真實(shí)背景噪聲之間的過渡都是聽得見的。
需要一種方法和系統(tǒng)來產(chǎn)生舒適噪聲,它能夠減小或者基本上消除合成背景噪聲和真實(shí)背景噪聲之間的過渡能夠被聽見的程度,而不管真實(shí)背景噪聲是穩(wěn)態(tài)的還是非穩(wěn)態(tài)的。WO 0031719描述了一種方法,用來計(jì)算用于改變舒適噪聲參數(shù)的變化信息。具體而言,在譯碼器中計(jì)算變化信息。這一計(jì)算完全可以在譯碼器中進(jìn)行,其中在舒適噪聲階段,變化信息只存在于大約一個(gè)舒適噪聲幀(每個(gè)第24幀)中,由于計(jì)算產(chǎn)生的延遲很長(zhǎng)。還能夠在編碼器和譯碼器之間分配計(jì)算量,但是要求發(fā)射信道有更高的比特率從編碼器向譯碼器發(fā)送信息。提供一種更加簡(jiǎn)單的方法來改變舒適噪聲比較好。
發(fā)明內(nèi)容
本發(fā)明的主要目的是減小或者基本上消除說話階段真實(shí)背景噪聲和非說話階段舒適噪聲之間過渡聽得見的程度。這個(gè)目的是通過在背景噪聲特性的基礎(chǔ)之上提供舒適噪聲來達(dá)到的。
因此,一方面,本發(fā)明是在話音通信的非說話階段產(chǎn)生舒適噪聲的一種方法,其中從發(fā)射方向接收方以幀的形式提供信號(hào)說明有話音輸入,其中的話音輸入有一個(gè)話音分量和一個(gè)非話音分量,非話音分量可以被劃分成穩(wěn)態(tài)的和非穩(wěn)態(tài)的。該方法包括以下步驟確定非話音分量是穩(wěn)態(tài)的還是非穩(wěn)態(tài)的;發(fā)射方提供另一個(gè)信號(hào),它取第一個(gè)值的時(shí)候說明非話音分量是穩(wěn)態(tài)的,取第二個(gè)值的時(shí)候說明非話音分量是非穩(wěn)態(tài)的;和在非說話階段,根據(jù)從發(fā)射方收到的所述另一個(gè)信號(hào),按照這另一個(gè)信號(hào)是取第一個(gè)值還是取第二個(gè)值,在接收方提供舒適噪聲。
根據(jù)本發(fā)明,這些信號(hào)包括從話音輸入的非話音分量估計(jì)出來的頻譜參數(shù)矢量和能量電平,在這個(gè)頻譜參數(shù)矢量和能量電平的基礎(chǔ)之上產(chǎn)生舒適噪聲。如果這另一個(gè)信號(hào)取第二個(gè)值,就將一個(gè)隨機(jī)值插入頻譜參數(shù)矢量的元素和能量電平,用來產(chǎn)生舒適噪聲。
根據(jù)本發(fā)明,確定步驟是在頻譜參數(shù)矢量之間頻譜距離的基礎(chǔ)之上執(zhí)行的。最好是在一個(gè)平均周期內(nèi)將頻譜距離加起來,獲得一個(gè)和,如果這個(gè)和小于預(yù)先確定的值,其中的非話音分量就被劃分成穩(wěn)態(tài)的,如果這個(gè)和大于或者等于這個(gè)預(yù)先確定的值,就將這個(gè)非話音分量劃分成非穩(wěn)態(tài)的。頻譜參數(shù)矢量可以是線性頻譜頻率(LSF)矢量,導(dǎo)抗頻譜頻率(ISF)矢量之類。
根據(jù)本發(fā)明的第二方面,在通信網(wǎng)絡(luò)中的話音通信里產(chǎn)生舒適噪聲的一種系統(tǒng),其中有發(fā)射方提供與話音有關(guān)的參數(shù),說明有話音輸入,還有一個(gè)接收方根據(jù)與話音有關(guān)的參數(shù)重構(gòu)話音輸入,其中的話音通信具有說話階段和非說話階段,話音輸入具有話音分量和非話音分量,非話音分量可以劃分成穩(wěn)態(tài)的和非穩(wěn)態(tài)的,其中在非說話階段提供舒適噪聲。該系統(tǒng)包括位于發(fā)射方的裝置,用于確定非話音分量是穩(wěn)態(tài)的還是非穩(wěn)態(tài)的,用于提供一個(gè)信號(hào),它取第一個(gè)值說明非話音分量是穩(wěn)態(tài)的,取第二個(gè)值說明非話音分量是非穩(wěn)態(tài)的;位于接收方的裝置,根據(jù)這個(gè)信號(hào),只有在信號(hào)取第二個(gè)值的時(shí)候才將隨機(jī)分量插入舒適噪聲。
根據(jù)本發(fā)明的第三個(gè)方面,一個(gè)話音編碼器被用于話音通信,有一個(gè)編碼器用來提供話音參數(shù),說明有話音輸入,還有一個(gè)譯碼器,根據(jù)提供的話音參數(shù),在話音參數(shù)的基礎(chǔ)之上重構(gòu)話音輸入,其中的話音通信具有說話階段和非說話階段,話音輸入具有話音分量和非話音分量,非話音分量能夠被劃分成穩(wěn)態(tài)或者非穩(wěn)態(tài)的,其中編碼器包括一個(gè)頻譜分析模塊,根據(jù)話音輸入,提供頻譜參數(shù)矢量和能量參數(shù),說明話音輸入的非話音分量,和譯碼器包括裝置在非說話階段提供舒適噪聲,根據(jù)頻譜參數(shù)矢量和能量參數(shù)替換非話音分量。話音編碼器包括噪聲檢測(cè)器模塊,在編碼器內(nèi),根據(jù)頻譜參數(shù)矢量和能量參數(shù),確定非話音分量是穩(wěn)態(tài)的還是非穩(wěn)態(tài)的,提供一個(gè)信號(hào),它取第一個(gè)值說明非話音分量是穩(wěn)態(tài)的,取第二個(gè)值則說明非話音分量是非穩(wěn)態(tài)的;和抖動(dòng)模塊,在譯碼器內(nèi),如果非話音分量是非穩(wěn)態(tài)的,就根據(jù)這個(gè)信號(hào),將隨機(jī)分量插入頻譜參數(shù)矢量的元素和能量參數(shù)中,改變舒適噪聲。
通過閱讀以下介紹,同時(shí)參考圖1~7,就會(huì)了解本發(fā)明。
圖1是說明典型發(fā)射方斷續(xù)發(fā)射處理程序的一個(gè)框圖。
圖2是說明話音活動(dòng)檢測(cè)器和布爾話音標(biāo)志之間如何同步的一個(gè)時(shí)序圖。
圖3是說明典型接收方斷續(xù)發(fā)射處理程序的一個(gè)框圖。
圖4是說明現(xiàn)有技術(shù)利用非抖動(dòng)方法的舒適噪聲產(chǎn)生系統(tǒng)的一個(gè)框圖。
圖5是說明現(xiàn)有技術(shù)利用抖動(dòng)方法的舒適噪聲系統(tǒng)的一個(gè)框圖。
圖6是說明本發(fā)明中舒適噪聲產(chǎn)生系統(tǒng)的一個(gè)框圖。
圖7是說明本發(fā)明中舒適噪聲產(chǎn)生方法的一個(gè)流程圖。
具體實(shí)施例方式
在圖6中畫出本發(fā)明中的舒適噪聲產(chǎn)生系統(tǒng)1。如圖所示,系統(tǒng)1包括一個(gè)編碼器10和一個(gè)譯碼器12。在編碼器10中,頻譜分析模塊20被用于從輸入的話音信號(hào)100提取線性預(yù)測(cè)(LP)參數(shù)112。與此同時(shí),能量計(jì)算模塊24被用于從輸入的話音信號(hào)100計(jì)算能量因子122。話音平均模塊22從LP參數(shù)112計(jì)算平均頻譜參數(shù)矢量114。同樣,能量平均模塊26從能量系數(shù)122計(jì)算收到的能量124。本領(lǐng)域中已經(jīng)有了平均參數(shù)的計(jì)算方法,就象數(shù)字蜂窩電信系統(tǒng)(第二加階段),增強(qiáng)型全速率話音業(yè)務(wù)信道的舒適噪聲方面(ETSI EN 300 728v8.0.0(2000-07))所公開的一樣。從發(fā)射方的編碼器10將平均頻譜參數(shù)矢量114和平均接收能量124發(fā)射給接收方的譯碼器12,就象在編碼器10中,根據(jù)本發(fā)明,檢測(cè)器模塊28根據(jù)頻譜參數(shù)矢量114和接收能量124確定背景噪聲是穩(wěn)態(tài)的還是非穩(wěn)態(tài)的。從編碼器10將說明背景噪聲是穩(wěn)態(tài)的還是非穩(wěn)態(tài)的這樣的信息以“穩(wěn)定性標(biāo)志”的形式發(fā)送給譯碼器12??梢杂枚M(jìn)制數(shù)字發(fā)送標(biāo)志130。例如,將背景噪聲劃分成穩(wěn)態(tài)的時(shí)候,就給穩(wěn)定性標(biāo)志置位,給標(biāo)志130一個(gè)值1。否則,就不給穩(wěn)定性標(biāo)志置位,給標(biāo)志130一個(gè)值0。和現(xiàn)有技術(shù)中的譯碼器一樣,如圖4和5所示,頻譜內(nèi)插器30和能量?jī)?nèi)插器36分別按照等式1和等式2在新的幀中從前面的SID幀內(nèi)插S’(n+i)和E’(n+i)。內(nèi)插得到的頻譜參數(shù)矢量S’ave用引用數(shù)字116表示。內(nèi)插得到的接收能量E’ave用引用數(shù)字126表示。如果檢測(cè)器模塊28將背景噪聲劃分成非穩(wěn)態(tài)的,如同標(biāo)志130的值(=0)所說明的一樣,就通過頻譜抖動(dòng)模塊32根據(jù)公式3,將隨機(jī)分量插入頻譜參數(shù)矢量116,能量抖動(dòng)模塊38根據(jù)公式4將隨機(jī)抖動(dòng)插入接收能量126,來模擬實(shí)際背景噪聲頻譜的起伏。抖動(dòng)后的頻譜參數(shù)矢量S”ave用引用數(shù)字118來表示,抖動(dòng)后的接收能量E”ave用引用數(shù)字128表示。但是如果將背景噪聲劃分為穩(wěn)態(tài)的,就給穩(wěn)定性標(biāo)志130置位。抖動(dòng)模塊32和能量抖動(dòng)模塊38被有效地旁路,從而使S”ave=S’ave,E”ave=E’ave。在這種情況下,信號(hào)118與信號(hào)116相同,信號(hào)128與信號(hào)126相同。在這兩種情況下,都將信號(hào)128傳送給比例縮放模塊40。在平均能量E”ave的基礎(chǔ)之上,比例縮放模塊40改變舒適噪聲的能量,從而使譯碼器12給出的舒適噪聲150的能量電平近似等于編碼器10中背景噪聲的能量。如圖6所示,將隨機(jī)噪聲發(fā)生器50用于產(chǎn)生用作激勵(lì)的隨機(jī)白噪聲矢量。用引用數(shù)字140表示白噪聲,經(jīng)過了比例縮放或者改變了的白噪聲用引用數(shù)字142表示。表示輸2100的平均背景噪聲的信號(hào)118或者平均頻譜參數(shù)矢量S”ave,被提供給合成濾波器模塊34。根據(jù)信號(hào)118和比例縮放激勵(lì)142,合成濾波器模塊34提供舒適噪聲150。
可以根據(jù)CN平均周期(1dtx)內(nèi)從每個(gè)頻譜參數(shù)(LSF或者ISF)矢量f(i)到頻譜參數(shù)矢量f(j)的頻譜距離ΔDi,i=0,…,1dtx-1,j=0,…,1dtx-1,i≠j,將背景噪聲劃分為穩(wěn)態(tài)的或者非穩(wěn)態(tài)的。平均周期通常都是8。頻譜距離近似為ΔDi=Σj=0,j≠ilDTX-1ΔRij,---(5)]]>或者,i=0,…,1dtx-1,i≠j,其中ΔRij=Σk=1M(fi(k)-fj(k))2,---(6)]]>fi(k)是幀i的頻譜參數(shù)矢量的第k個(gè)頻譜參數(shù),M是合成濾波器(LP)的階數(shù)。
如果平均周期是8,那么總的頻譜距離就是Ds=Σi=07ΔDi.]]>如果Ds很小,就將穩(wěn)定性標(biāo)志置位(標(biāo)志130的值為1),說明背景噪聲是穩(wěn)態(tài)的。否則,就不給穩(wěn)定性標(biāo)志置位(標(biāo)志130的值是0),說明背景噪聲是非穩(wěn)態(tài)的。最好是將總的頻譜距離Ds與一個(gè)常數(shù)進(jìn)行比較,在定點(diǎn)數(shù)中,它等于67108864,在浮點(diǎn)數(shù)中,它等于5147609。穩(wěn)定性標(biāo)志是否被置位取決于Ds是否小于這個(gè)常數(shù)。
另外,還可以考慮幀之間的功率變化。為此目的,計(jì)算兩個(gè)連續(xù)幀之間的能量比E(i)/E(i+1)。如同在本領(lǐng)域中大家都知道的一樣,按照以下公式計(jì)算標(biāo)志為VAD=0的每一幀的幀能量enlog(i)=12log2(1NΣn=0N-1s2(n))---(7)]]>=log2E(i)]]>其中S(n)是當(dāng)前幀i的高通濾波以后的輸入話音信號(hào)。如果這些能量比中有一個(gè)足夠大,就將穩(wěn)定性標(biāo)志復(fù)位(標(biāo)志130的值變成0),即使前面因?yàn)镈s很小已經(jīng)將它置位。這一點(diǎn)等價(jià)于在對(duì)數(shù)域?qū)⒚恳粠膸芰颗c平均對(duì)數(shù)能量進(jìn)行比較。這樣,如果enlog(i)與平均enlog的絕對(duì)偏差的和很大,就將穩(wěn)定性標(biāo)志復(fù)位,即使前面已經(jīng)因?yàn)镈s很小而將它置位。如果絕對(duì)偏差的和大于定點(diǎn)的180(浮點(diǎn)的1.406),就將穩(wěn)定性標(biāo)志復(fù)位。
將抖動(dòng)插入頻譜參數(shù)矢量的時(shí)候,根據(jù)公式3,與插入較高頻譜分量(LSF或者ISF元素)的抖動(dòng)分量相比,最好是將較少的抖動(dòng)插入較低頻譜分量。這樣就將頻譜抖動(dòng)公式3的插入改成如下形式Save″(i)=Save′(i)+rand(-L(i),L(i)),i=0,...,M-1(8)其中對(duì)于高頻分量,L(i)隨著i增大而增大,M是合成濾波器(LP)的階數(shù)。例如,應(yīng)用于AMR寬帶編解碼器的時(shí)候,L(i)矢量可以取如下值1280032768{128,140,152,164,176,188,200,212,224,236,248,260,272,284,296,0}]]>(參考第三代伙伴計(jì)劃,技術(shù)規(guī)范組業(yè)務(wù)和系統(tǒng)方面,官方話音編解碼器話音處理功能,AMR寬帶話音編解碼器,轉(zhuǎn)錄功能(3G TS 26.190版本0.02)。在這里應(yīng)該指出,ISF域被用于頻譜表示,矢量的第二個(gè)到最后一個(gè)元素(i-M-2)表示最高頻率和矢量的第一個(gè)元素(i=0)(。在LSF域中,矢量的最后一個(gè)元素(i-M-1)表示最高頻率和矢量的第一個(gè)元素(i=0)。
給能量參數(shù)插入抖動(dòng)類似于頻譜抖動(dòng),可以按照公式4計(jì)算出來。在對(duì)數(shù)域中,按照以下方式給能量參數(shù)插入抖動(dòng)enlogmean=enlogmean+rand(-L,L)---(9)]]>圖7是說明本發(fā)明中非說話階段產(chǎn)生舒適噪聲的方法的一個(gè)流程圖。如同流程圖200所示,在步驟202計(jì)算平均頻譜參數(shù)矢量S’ave和平均接收能量E’ave。在步驟204中計(jì)算總頻譜距離Ds。在步驟206中,如果Ds不小于預(yù)定值,(例如定點(diǎn)算術(shù)中的67108864),就不給穩(wěn)定性標(biāo)志置位。因此,在步驟232中將抖動(dòng)插入S’ave和E’ave。如果Ds小于預(yù)定值,就給穩(wěn)定性標(biāo)志置位。跳過步驟232的抖動(dòng)處理,或者S”ave=S’ave并且E”ave=E’ave。也可以在步驟208中測(cè)量幀之間的能量變化。如果能量變化很大,如同步驟230所確定的一樣,就將穩(wěn)定性標(biāo)志復(fù)位,返回步驟232。在步驟234中根據(jù)S”ave和E’ave產(chǎn)生舒適噪聲。
用本發(fā)明的這種方法試驗(yàn)了三種不同類型的背景噪聲。對(duì)于汽車噪聲,95.0%的舒適噪聲幀被劃分成穩(wěn)態(tài)的。對(duì)于辦公室噪聲,36.9%的舒適噪聲幀被劃分成穩(wěn)態(tài)的,對(duì)于街道噪聲,25.8%的舒適噪聲被劃分成穩(wěn)態(tài)的。這個(gè)結(jié)果非常好,因?yàn)榇蠖鄶?shù)汽車噪聲都是穩(wěn)態(tài)背景噪聲,而辦公室噪聲和街道噪聲則大多數(shù)是非穩(wěn)態(tài)類型的背景噪聲。
應(yīng)該指出,本發(fā)明中穩(wěn)定性標(biāo)志的計(jì)算完全是在編碼器中進(jìn)行的。這樣,與只用譯碼器的方法相比,大大地減小了計(jì)算延遲,就象WO 00/31719所公開的一樣。除此以外,本發(fā)明的這一方法只利用一個(gè)比特將信息從編碼器發(fā)送給譯碼器來改變舒適噪聲。相反,如果計(jì)算量分布在編碼器和譯碼器之間,就要求發(fā)射信道有高得多的比特率,就象WO 00/31719所公開的一樣。
雖然參考優(yōu)選實(shí)施方案介紹了本發(fā)明,但是本領(lǐng)域中的技術(shù)人員應(yīng)該明白,前面的內(nèi)容,以及各種其它改變、省略、偏離細(xì)節(jié)都不會(huì)偏離本發(fā)明的范圍。
權(quán)利要求
1. 在具有說話階段和非說話階段的話音通信中產(chǎn)生舒適噪聲(150)的一種方法(200),其中從發(fā)射方向接收方以幀的形式提供說明有話音輸入的信號(hào)(114,124),從而有利于所述話音通信,該話音輸入有一個(gè)話音分量和一個(gè)非話音分量,非話音分量能夠被劃分成穩(wěn)態(tài)和非穩(wěn)態(tài)的,該方法的特征在于按照以下方式確定(204)非話音分量是穩(wěn)態(tài)的還是非穩(wěn)態(tài)的發(fā)射方提供(206)另一個(gè)信號(hào)(130),它取第一個(gè)值就說明非話音分量是穩(wěn)態(tài)的,取第二個(gè)值就說明非話音分量是非穩(wěn)態(tài)的,和按照從發(fā)射方收到的所述另一個(gè)信號(hào),根據(jù)這另一個(gè)信號(hào)(130)是取第一個(gè)值還是取第二個(gè)值,接收方在非說話階段提供(202,232)舒適噪聲(150)。
2.權(quán)利要求1所述的方法,其中的非話音分量的特征在于發(fā)射方的背景噪聲。
3.權(quán)利要求1所述的方法,其特征在于如果所述另一個(gè)信號(hào)取第二個(gè)值,提供的舒適噪聲就具有隨機(jī)分量。
4.權(quán)利要求1所述的方法,其特征在于這些信號(hào)包括從非話音分量的頻譜估計(jì)出來的一個(gè)頻譜參數(shù)矢量(114)和一個(gè)能量電平(124),以及在這個(gè)頻譜參數(shù)矢量(114)和能量電平(124)的基礎(chǔ)之上提供的舒適噪聲(150)。
5.權(quán)利要求4所述的方法,其特征在于如果這另一個(gè)信號(hào)(130)取第二個(gè)值,就在提供舒適噪聲(150)之前將一個(gè)隨機(jī)值插(32)入頻譜參數(shù)矢量(114)的元素。
6.權(quán)利要求4所述的方法,其特征在于如果這另一個(gè)信號(hào)(130)取第二個(gè)值,就在提供舒適噪聲(150)之前,將第一組隨機(jī)值插(32)入頻譜參數(shù)矢量(114)的元素,將第二個(gè)隨機(jī)值插(38)入能量電平(124)。
7.權(quán)利要求1所述的方法,其特征在于這些信號(hào)包括表示非話音分量的多個(gè)頻譜參數(shù)矢量(114),確定步驟(204)是在頻譜參數(shù)矢量(114)中頻譜距離(Ds)的基礎(chǔ)之上進(jìn)行的。
8.權(quán)利要求7所述的方法,其特征在于在一個(gè)平均周期上將頻譜距離(Ds)加起來,其特征還在于如果得到的和小于一個(gè)預(yù)定值,就將非話音分量劃分成穩(wěn)態(tài)的,如果得到的和大于或者等于預(yù)定值,就將非話音分量劃分為非穩(wěn)態(tài)的。
9.權(quán)利要求7所述的方法,其特征在于頻譜參數(shù)矢量(114)是線性頻譜頻率(LSF)矢量。
10.權(quán)利要求7所述的方法,其特征在于頻譜參數(shù)矢量(114)是導(dǎo)抗頻譜頻率(ISF)矢量。
11.權(quán)利要求4所述的方法,其特征還在于如果另一個(gè)信號(hào)取第一個(gè)值,就計(jì)算幀之間能量電平變化的步驟(208),其特征還在于如果能量電平的變化超過一個(gè)預(yù)定值,就改變所述另一個(gè)信號(hào),讓它取第二個(gè)值,提供舒適噪聲(150)以前,將一個(gè)隨機(jī)值矢量插(232)入頻譜參數(shù)矢量(114)。
12.權(quán)利要求4所述的方法,其特征還在于如果另一個(gè)信號(hào)(130)取第一個(gè)值,就計(jì)算幀之間能量電平變化的步驟(208),其特征還在于如果能量電平變化超過一個(gè)預(yù)定值,就將所述另一個(gè)信號(hào)改變?yōu)榈诙€(gè)值,提供舒適噪聲(150)之前,將一個(gè)隨機(jī)值矢量插(232)入頻譜參數(shù)矢量(114)和能量電平(124)。
13.權(quán)利要求4所述的方法,其特征在于所述另一個(gè)信號(hào)(130)包括從發(fā)射方向接收方發(fā)送的一個(gè)標(biāo)志,用于說明非話音分量是穩(wěn)態(tài)的還是非穩(wěn)態(tài)的,其特征還在于所述另一個(gè)信號(hào)(130)取第一個(gè)值的時(shí)候?qū)⑦@個(gè)標(biāo)志置位,當(dāng)所述另一個(gè)信號(hào)取第二個(gè)值的時(shí)候這個(gè)標(biāo)志不置位。
14.權(quán)利要求13所述的方法,其特征在于這個(gè)標(biāo)志不置位的時(shí)候,就在提供舒適噪聲(150)之前,將一個(gè)隨機(jī)值插(232)入頻譜參數(shù)矢量(114)。
15.權(quán)利要求13所述的方法,其特征在于如果所述另一個(gè)信號(hào)取第一個(gè)值,就計(jì)算(208)幀之間能量電平的變化,確定(230)能量電平的變化是否超過預(yù)定值,和如果變化超過預(yù)定值,就給標(biāo)志復(fù)位。
16.權(quán)利要求15所述的方法,其特征在于這個(gè)標(biāo)志沒有被置位的時(shí)候,提供舒適噪聲(150)以前,將一個(gè)隨機(jī)值插(232)入頻譜參數(shù)矢量(114)。
17.權(quán)利要求5所述的方法,其特征在于所述隨機(jī)值的取值范圍是-L到L之間,其中L是一個(gè)預(yù)定值。
18.權(quán)利要求17所述的方法,其特征在于所述預(yù)定值基本上等于100+0.8iHz。
19.權(quán)利要求6所述的方法,其特征在于第二個(gè)隨機(jī)值的范圍在-75到75之間。
20.權(quán)利要求5所述的方法,其特征在于所述隨機(jī)值的范圍在-L到L之間,其中L是隨著表示更高頻率的元素增大的一個(gè)值。
21.權(quán)利要求1所述的方法,其特征在于所述另一個(gè)信號(hào)是一個(gè)二進(jìn)制標(biāo)志,第一個(gè)值是1,第二個(gè)值是0。
22.權(quán)利要求1所述的方法,其特征在于所述另一個(gè)信號(hào)是一個(gè)二進(jìn)制標(biāo)志,第一個(gè)值是0,第二個(gè)值是1。
23.在通信網(wǎng)絡(luò)中的話音通信里產(chǎn)生舒適噪聲(150)的一種方法(200),該通信網(wǎng)絡(luò)有發(fā)射方提供和話音有關(guān)說明有話音輸入(100)的參數(shù)(114,124),還有接收方根據(jù)和話音有關(guān)的參數(shù)(114,124)重構(gòu)話音輸入,其中的話音通信具有說話階段和非說話階段,話音輸入具有話音分量和非話音分量,非話音分量能夠被劃分成穩(wěn)態(tài)的和非穩(wěn)態(tài)的,其中舒適噪聲(150)是在非說話階段提供的,該系統(tǒng)的特征在于位于發(fā)射方的裝置(28),確定非話音分量是穩(wěn)態(tài)的還是非穩(wěn)態(tài)的,提供一個(gè)信號(hào)(130),它取第一個(gè)值的時(shí)候說明非話音分量是穩(wěn)態(tài)的,或者取第二個(gè)值說明非話音分量是非穩(wěn)態(tài)的,和位于接收方的裝置(32,38),根據(jù)所述信號(hào)(130),如果信號(hào)取第二個(gè)值,就將一個(gè)隨機(jī)分量插入舒適噪聲(150)。
24.一種話音編碼器(1),用于話音通信,有一個(gè)編碼器(10),提供話音參數(shù)(114,124)說明有話音輸入(100),還有一個(gè)譯碼器(12),根據(jù)提供的話音參數(shù)(114,124)重構(gòu)話音,其中的話音通信具有說話階段和非說話階段,話音輸入有話音分量和非話音分量,非話音分量能夠被劃分成穩(wěn)態(tài)或者非穩(wěn)態(tài)的,其特征在于編碼器(10)包括頻譜分析模塊(20,24),根據(jù)話音輸入(100),提供話音參數(shù)矢量(114)和能量參數(shù)(124),說明話音輸入的非話音分量,其特征還在于譯碼器(12)包括裝置(30,36)根據(jù)頻譜參數(shù)矢量和能量參數(shù),在非說話階段提供舒適噪聲(150)替換非話音分量,該話音編碼器(1)的特征在于位于編碼器(10)內(nèi)的一個(gè)噪聲檢測(cè)器模塊(28),根據(jù)頻譜參數(shù)矢量(114)和能量參數(shù)(124),確定非話音分量是穩(wěn)態(tài)的還是非穩(wěn)態(tài)的,并且提供一個(gè)信號(hào)(130),它取第一個(gè)值就說明非話音分量是穩(wěn)態(tài)的,取第二個(gè)值就說明非話音分量是非穩(wěn)態(tài)的,以及一個(gè)抖動(dòng)模塊(32,38),位于譯碼器(12)內(nèi),根據(jù)所述信號(hào)(130),將隨機(jī)分量插入頻譜參數(shù)矢量(114)的元素和能量參數(shù)(124)中,只有在非話音分量是非穩(wěn)態(tài)的時(shí)候改變舒適噪聲(150)。
25.在具有說話階段和非說話階段的話音通信中產(chǎn)生舒適噪聲(150)的一種方法(200),其中從發(fā)射方向接收方提供說明有話音輸入的信號(hào)(114,124),從而有利于所述話音通信,該話音輸入有一個(gè)話音分量和一個(gè)非話音分量,非話音分量能夠被劃分成穩(wěn)態(tài)和非穩(wěn)態(tài)的,在非說話階段提供舒適噪聲,該方法的特征在于按照以下方式確定(204)非話音分量是穩(wěn)態(tài)的還是非穩(wěn)態(tài)的發(fā)射方提供(206)另一個(gè)信號(hào)(130),說明所述確定結(jié)果,和按照從發(fā)射方收到的所述另一個(gè)信號(hào)(130),根據(jù)這另一個(gè)信號(hào)(130),如果非話音分量是非穩(wěn)態(tài)的,接收方改變(232)舒適噪聲。
全文摘要
在話音通信中的非說話階段提供舒適噪聲(150)的一種方法(200)和系統(tǒng)(1)。根據(jù)話音輸入中的背景噪聲是穩(wěn)態(tài)的還是非穩(wěn)態(tài)的產(chǎn)生舒適噪聲。如果背景噪聲是非穩(wěn)態(tài)的,就用一個(gè)抖動(dòng)過程在舒適噪聲中插入(32,38,232)一個(gè)隨機(jī)分量。如果背景噪聲是穩(wěn)態(tài)的,就不使用這個(gè)抖動(dòng)過程。
文檔編號(hào)H04M1/60GK1513168SQ01822203
公開日2004年7月14日 申請(qǐng)日期2001年11月26日 優(yōu)先權(quán)日2000年11月27日
發(fā)明者J·羅托拉-普基拉, H·米科拉, J·韋尼奧, J 羅托拉-普基拉, 嵐, 評(píng) 申請(qǐng)人:諾基亞有限公司