多譯碼模式信號分類的制作方法
【專利摘要】提供改進(jìn)的音頻分類用于編碼應(yīng)用。執(zhí)行初始分類,隨后進(jìn)行較精細(xì)分類,以產(chǎn)生比先前可用者具有較高準(zhǔn)確度及較低復(fù)雜性的語音分類及音樂分類。逐幀地將音頻分類為語音或音樂。如果所述幀被所述初始分類分類為音樂,則所述幀經(jīng)歷第二、較精細(xì)分類以確認(rèn)所述幀為音樂而非語音(例如,其調(diào)性及/或結(jié)構(gòu)可能未被所述初始分類分類為語音的語音)。取決于實施方案,一或多個參數(shù)可用于所述較精細(xì)分類中。實例參數(shù)包含發(fā)聲、經(jīng)修改相關(guān)、信號動作,及長期音調(diào)增益。
【專利說明】多譯碼模式信號分類
[0001]相關(guān)申請案的交叉參考
[0002]本申請案根據(jù)35U.S.C.§ 119 (e)的權(quán)益主張2012年I月13日申請的第61/586,374號臨時專利申請案的優(yōu)先權(quán)。此臨時專利申請案的全文特此以引用的方式明確地并入本文中。
【背景技術(shù)】
[0003]話音(也稱為語音)及音樂通過數(shù)字技術(shù)的發(fā)射已變得廣為普及,且并入到廣泛范圍的裝置中,所述裝置包含無線通信裝置、個人數(shù)字助理(PDA)、膝上型計算機(jī)、桌上型計算機(jī)、移動及/或衛(wèi)星無線電電話,等等。示范性領(lǐng)域為無線通信。無線通信的領(lǐng)域具有許多應(yīng)用,包含例如無繩電話、尋呼、無線本地回路、無線電話(例如蜂窩式及PCS電話系統(tǒng))、移動因特網(wǎng)協(xié)議(IP)電話,及衛(wèi)星通信系統(tǒng)。
[0004]在電信網(wǎng)路中,信息以經(jīng)編碼形式在發(fā)射通信裝置與接收通信裝置之間傳送。發(fā)射通信裝置將例如話音信號及/或音樂信號等原始信息編碼成經(jīng)編碼信息且將其發(fā)送到接收通信裝置。接收通信裝置解碼所接收經(jīng)編碼信息以重新創(chuàng)建原始信息。編碼及解碼是使用編解碼器執(zhí)行。話音信號及/或音樂信號的編碼在位于發(fā)射通信裝置中的編解碼器中執(zhí)行,且解碼在位于接收通信裝置中的編解碼器中執(zhí)行。
[0005]在現(xiàn)代編解碼器中,包含多個譯碼模式以處置不同類型的輸入源,例如語音、音樂及混合內(nèi)容。為獲得最優(yōu)性能,應(yīng)選擇及使用用于輸入信號的每一幀的最優(yōu)譯碼模式。準(zhǔn)確分類對于選擇最有效譯碼方案及實現(xiàn)最低數(shù)據(jù)速率是必要的。
[0006]此分類可以開環(huán)方式進(jìn)行以減小復(fù)雜性。在此情況下,最優(yōu)模式分類應(yīng)考慮到各種譯碼模式的主要特征。一些模式(例如語音譯碼模式,如代數(shù)碼激勵線性預(yù)測(ACELP))含有自適應(yīng)碼本(ACB),其采用過去與當(dāng)前幀之間的相關(guān)。一些其它模式(例如用于音樂/音頻的經(jīng)修改離散余弦變換(MDCT)譯碼模式)可能不含有此種特征。因此,確保與先前幀具有高相關(guān)的輸入幀被分類為具有ACB或包含其它幀間相關(guān)建模技術(shù)的模式是重要的。
[0007]先前解決方案已使用閉環(huán)模式?jīng)Q策(例如,AMR-WB+, USAC)或各種類型的開環(huán)決策(例如,AMR-WB+, EVRC-WB),但這些解決方案要么復(fù)雜,要么其執(zhí)行容易犯錯。
【發(fā)明內(nèi)容】
[0008]提供改進(jìn)的音頻分類用于編碼應(yīng)用。執(zhí)行初始分類,隨后進(jìn)行較精細(xì)分類,以產(chǎn)生比先前可用者具有較高準(zhǔn)確度及較低復(fù)雜性的語音分類及音樂分類。
[0009]逐部分(例如,逐幀)地將音頻分類為語音或音樂。如果所述幀被所述初始分類分類為音樂,則所述幀經(jīng)歷第二、較精細(xì)分類以確認(rèn)所述幀為音樂而非語音(例如,其調(diào)性及/或結(jié)構(gòu)可能未被所述初始分類分類為語音的語音)。
[0010]取決于實施方案,一或多個參數(shù)可用于所述較精細(xì)分類中。實例參數(shù)包含濁化、經(jīng)修改相關(guān)、信號動作,及長期音調(diào)增益。這些參數(shù)僅為實例,且不打算為限制性的。
[0011]提供此概述是為了以簡化形式介紹下文中在詳細(xì)描述中進(jìn)一步描述的概念選擇。此概述無意識別所主張標(biāo)的物的關(guān)鍵特征或本質(zhì)特征,也無意用于限制所主張標(biāo)的物的范圍。
【專利附圖】
【附圖說明】
[0012]當(dāng)結(jié)合附圖閱讀時,可更好地理解先前概述以及說明性實施例的以下詳細(xì)描述。為說明實施例的目的,在圖式中展示實施例的實例構(gòu)造;然而,實施例并不限于所揭示的特定方法及手段。圖中:
[0013]圖1A是說明其中源裝置將經(jīng)編碼位流發(fā)射到接收裝置的實例系統(tǒng)的框圖;
[0014]圖1B是可如本文中所描述而使用的兩個裝置的框圖;
[0015]圖2是多譯碼模式信號分類及編碼器系統(tǒng)的實施方案的框圖;
[0016]圖3是用于對音頻進(jìn)行分類的方法的實施方案的操作流程;
[0017]圖4是實例移動臺的圖;以及
[0018]圖5展示示范性計算環(huán)境。
【具體實施方式】
[0019]所揭示實施例提供用于在具有例如語音及音樂等各種類型音頻的環(huán)境中對多種譯碼模式的分類技術(shù)。音頻幀的類型可得以可靠且準(zhǔn)確地識別以用于以最有效的方式進(jìn)行編碼。盡管本文中的實例及描述涉及音頻幀,但音頻信號的更一般部分涵蓋在內(nèi)且可根據(jù)本文中描述的實施方案加以使用。
[0020]圖1A是說明其中源裝置12a將經(jīng)編碼位流經(jīng)由通信鏈路15發(fā)射到接收裝置14a的實例系統(tǒng)10的框圖。所述位流可表示為一或多個包。源裝置12a及接收裝置14a兩者皆可為數(shù)字裝置。明確地說,源裝置12a可根據(jù)3GPP2 EVRC-B標(biāo)準(zhǔn)或使用將數(shù)據(jù)編碼為包以用于語音壓縮的類似標(biāo)準(zhǔn)來編碼數(shù)據(jù)。系統(tǒng)10的裝置12a、14a中的一者或兩者可實施編碼模式(基于不同譯碼模型)及編碼速率的選擇以用于音頻(例如,語音及/或音樂)壓縮(如下文更詳細(xì)地描述),以便改進(jìn)音頻編碼過程。相對于圖4描述可包括源裝置或接收裝置的實例移動臺。
[0021]通信鏈路15可包括無線鏈路、物理傳輸線、光纖、分組網(wǎng)絡(luò)(例如局域網(wǎng)、廣域網(wǎng)或全球網(wǎng)絡(luò)(例如因特網(wǎng)、公共交換電話網(wǎng)絡(luò)(PSTN)),或能夠傳送數(shù)據(jù)的任何其它通信鏈路。通信鏈路15可耦合到存儲媒體。因此,通信鏈路15表示用于將經(jīng)壓縮語音數(shù)據(jù)從源裝置12a傳輸?shù)浇邮昭b置14a的任何適當(dāng)通信媒體或可能不同網(wǎng)路及鏈路的集合。
[0022]源裝置12a可包含俘獲聲音的一或多個麥克風(fēng)16。連續(xù)聲音發(fā)送到數(shù)字化器18。數(shù)字化器18以離散間隔對聲音進(jìn)行取樣并量化(數(shù)字化)語音。經(jīng)數(shù)字化語音可存儲在存儲器20中及/或發(fā)送到編碼器22,在編碼器22處,經(jīng)數(shù)字化語音樣本可被編碼(常常在20ms中貞上)ο
[0023]更明確地說,編碼器將傳入語音信號劃分成時間塊或分析幀或部分。每一時間段(或幀)的持續(xù)時間通常選擇為足夠短,使得可預(yù)期信號的頻譜包絡(luò)保持相對固定。舉例來說,一個典型幀長度為二十毫秒(20ms),其對應(yīng)于八千赫茲(SkHz)典型取樣率下的160個樣本,但可使用對于特定應(yīng)用認(rèn)為適當(dāng)?shù)娜魏螏L度或取樣率。
[0024]在編碼器22中執(zhí)行的編碼過程產(chǎn)生待發(fā)送到發(fā)射器24的一或多個包,其可經(jīng)由通信鏈路15傳輸?shù)浇邮昭b置14a。舉例來說,編碼器分析傳入幀以提取某些相關(guān)參數(shù),且接著將所述參數(shù)量化為二進(jìn)制表示,即量化為一組位或二進(jìn)制數(shù)據(jù)包。數(shù)據(jù)包經(jīng)由通信信道(即,有線及/或無線網(wǎng)絡(luò)連接)傳輸?shù)浇邮掌骷敖獯a器。解碼器處理所述數(shù)據(jù)包,對其進(jìn)行解量化以產(chǎn)生參數(shù),且使用經(jīng)解量化的參數(shù)重新合成音頻幀。
[0025]舉例來說,編碼器22可包含執(zhí)行可編程軟件模塊以控制編碼技術(shù)的各種硬件、軟件或固件或一或多個數(shù)字信號處理器(DSP),如本文中所描述??商峁┫嚓P(guān)聯(lián)存儲器及邏輯電路以支持DSP控制編碼技術(shù)。如將描述,如果編碼模式及速率可在編碼之前及/或期間(取決于是否已確定且正在編碼語音幀或音樂幀)改變,則編碼器22可更穩(wěn)健地執(zhí)行。
[0026]接收裝置14a可采取能夠接收及解碼音頻數(shù)據(jù)的任何數(shù)字音頻裝置的形式。舉例來說,接收裝置14a可包含接收器26以例如經(jīng)由中間鏈路、路由器、其它網(wǎng)絡(luò)設(shè)備等等從發(fā)射器24接收包。接收裝置14a還可包含用于解碼一或多個包的解碼器28及允許用戶在通過語音解碼器28解碼所述包之后聽到重建構(gòu)的音頻的一或多個揚聲器30。
[0027]在一些情況下,源裝置12b及接收裝置14b可各自包含如圖1B中所示的用于編碼及解碼數(shù)字音頻數(shù)據(jù)的語音編碼器/解碼器(編解碼器)32。明確地說,源裝置12b及接收裝置14b兩者皆可包含發(fā)射器及接收器以及存儲器及揚聲器。本文中涵蓋的編碼技術(shù)中的許多者是在包含用于壓縮語音及/或音樂的編碼器的數(shù)字音頻裝置的上下文中描述。
[0028]然而,應(yīng)理解,編碼器可形成編解碼器32的部分。在所述情況下,編解碼器可實施在以下各者內(nèi):硬件、軟件、固件、DSP、微處理器、通用處理器、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)、離散硬件組件,或其各種組合。此外,所屬領(lǐng)域的技術(shù)人員應(yīng)理解,可用DSP、ASIC、離散門邏輯、固件或任何常規(guī)可編程軟件模塊及微處理器來實施譯碼器。軟件模塊可駐留在RAM存儲器、快閃存儲器、寄存器或此項技術(shù)中所知的任何其它形式的可寫入存儲媒體中?;蛘撸魏纬R?guī)處理器、控制器或狀態(tài)機(jī)可替代微處理器。相對于圖5描述實例計算裝置。
[0029]圖2是多譯碼模式信號分類及編碼器系統(tǒng)200的實施方案的框圖。在一實施方案中,系統(tǒng)200可與例如相對于圖1A及IB描述的源裝置或接收裝置等裝置一起使用。舉例來說,系統(tǒng)200可結(jié)合源裝置12a的編碼器22而操作。
[0030]多譯碼模式信號分類及編碼器系統(tǒng)200包括初始分類器210 (還稱為第一分類器)及精細(xì)分類器220 (還稱為第二分類器)。系統(tǒng)200還包括可經(jīng)選擇(例如,由用戶)以啟用或停用精細(xì)分類器220及其相關(guān)聯(lián)較精細(xì)分類功能性的精細(xì)分類器選擇開關(guān)230。
[0031]各種類型的譯碼器包括在系統(tǒng)200內(nèi),例如語音譯碼器及音樂譯碼器。在一實施方案中,可響應(yīng)于初始分類器210的分類而提供及使用稱為“譯碼模式1”240(例如,碼激勵線性預(yù)測(CELP)型譯碼器,或語音譯碼模式)的第一譯碼模式。可響應(yīng)于精細(xì)分類器220的分類而提供及使用稱為“譯碼模式2” 260 (例如,CELP/變換混合譯碼器,或第二語音譯碼模式)的第二譯碼模式。
[0032]可響應(yīng)于初始分類器210及/或精細(xì)分類器220的分類而提供及使用稱為“譯碼模式3” 250 (例如,變換譯碼器,或音樂譯碼模式)的第三譯碼模式。這些類型的譯碼模式及譯碼器眾所周知,且為了簡潔而省略進(jìn)一步描述。針對譯碼模式1、2及3描述的實例譯碼模式及譯碼器僅為實例,且不打算為限制性的??墒褂萌魏魏线m語音譯碼模式及/或譯碼器以及音樂譯碼模式及/或譯碼器。3喇叭聲或典型辦公室中的電話鈴聲)的存
中貞為語音幀,則將所述幀提供到譯碼模式:實施方案中,可使用任何已知⑶I?型譯碼.210確定幀為音樂幀,則在340確定是否的用戶經(jīng)由裝置上的分別對應(yīng)于“啟用”及分類為加強(qiáng)第一分類的決策的第二輪分類。理音頻數(shù)據(jù)的較精細(xì)分類。
扭分類,則在350將幀提供到譯碼模式3《而,如果如在340所確定啟用了較精細(xì)分行額外的較精細(xì)分類。較精細(xì)分類用以進(jìn)
、幀為寬頻帶噪聲式的,其為某些類型音樂如果在360處的較精細(xì)分類導(dǎo)致幀被識別編碼為音樂幀。使用任何值。信號相關(guān)范圍從O (對應(yīng)于隨機(jī)噪聲)到I (對應(yīng)于高度結(jié)構(gòu)化的聲音)。
[0044]在一些實施方案中,長期音調(diào)增益可與第三閾值THR3進(jìn)行比較。如果長期音調(diào)增益大于THR3,則確定所述幀為語音幀。THR3的實例值為0.5,但可取決于實施方案而使用任何值。長期音調(diào)增益為過去激勵與當(dāng)前預(yù)測殘差之間的歸一化交叉相關(guān)。長期音調(diào)增益范圍從O (指示過去幀中的誤差不適合表示當(dāng)前幀)到I (指示使用過去幀中的殘余誤差可完全表示當(dāng)前巾貞)。
[0045]在一些實施方案中,可確定當(dāng)前幀的調(diào)性,且將其與閾值THR4進(jìn)行比較。可使用頻譜平度測量或頻譜峰值與平均值比率測量來測量信號的調(diào)性。如果頻頻不含任何突出的局部峰值,則頻譜平度測量將傾向于接近于I。另一方面,如果頻頻展現(xiàn)具有局部峰值的強(qiáng)傾斜,則頻譜平度測量將接近于O。如果調(diào)性大于THR4,則確定幀為語音幀。THR4的實例值為0.75,但可取決于實施方案而使用任何值。
[0046]此外或替代地,在一些實施方案中,可確定是否存在任何信號動作。如果不存在信號動作(即,幀是安靜的),則確定不存在有用信號來編碼,且可將其編碼為語音幀。
[0047]在一些實施方案中,如果不滿足對于在360處確定巾貞為語音巾貞的所有條件,則確定中貞為音樂中貞。
[0048]本文中描述的比較及閾值不打算為限制性的,因為可取決于實施方案而使用任何一或多個比較及/或閾值。還可取決于實施方案而使用額外及/或替代比較及閾值。
[0049]因此,在一實施方案中,如果幀最初被分類(通過初始分類器210)為語音,則其傳遞到CELP譯碼器。然而,如果幀被分類為音樂,則驗證是否啟用了較精細(xì)分類??墒褂猛獠坑脩艨丶⒂幂^精細(xì)分類。如果未啟用較精細(xì)分類,則最初被分類為音樂的幀被路由到變換譯碼器用于編碼。如果啟用了較精細(xì)分類,則使用某些準(zhǔn)則(例如,濁化、經(jīng)修改相關(guān)、信號動作、長期音調(diào)增益,等)的邏輯組合來在變換譯碼器與CELP/變換譯碼器的混合之間進(jìn)行選擇。THR1、THR2、THR3及THR4為可通過實驗確定且取決于例如取樣率及信號類型的閾值。
[0050]在一實施方案中,防止強(qiáng)調(diào)性信號在MDCT模式(其缺乏自適應(yīng)碼本)中,且確切地說,將其提供到利用自適應(yīng)碼本的線性預(yù)測譯碼(LPC)模式。
[0051]本文中描述的譯碼器及分類器的組件可實施為電子硬件、計算機(jī)軟件,或兩者的組合。這些組件在本文中在其功能性方面加以描述。將所述功能性實施為硬件還是軟件將取決于外加于總體系統(tǒng)的特定應(yīng)用及設(shè)計約束。所屬領(lǐng)域的技術(shù)人員將認(rèn)識到硬件與軟件在這些情況下的可互換性,及如何針對每一特定應(yīng)用最好地實施所描述功能性。
[0052]如本文中所使用,術(shù)語“確定”(及其語法變體)在極廣泛的含義上使用。術(shù)語“確定”涵蓋許多種類的動作,且因此“確定”可包含推算、計算、處理、導(dǎo)出、調(diào)查、查找(例如,在表格、數(shù)據(jù)庫或另一數(shù)據(jù)結(jié)構(gòu)中查找)、查實等。而且,“確定”可包含接收(例如,接收信息)、存取(例如,在存儲器中存取數(shù)據(jù))等等。而且,“確定”可包含解析、選擇、挑選、建立
坐坐寸寸ο
[0053]術(shù)語“信號處理”(及其語法變體)可指對信號的處理及解譯。所關(guān)注信號可包含聲音、圖像及許多其它者。對此些信號的處理可包含存儲及重建構(gòu)、信息與噪聲的分離、壓縮,及特征提取。術(shù)語“數(shù)字信號處理”可指以數(shù)字表示對信號的研究及這些信號的處理方法。數(shù)字信號處理是例如移動臺、非移動臺及因特網(wǎng)等許多通信技術(shù)的要素。可使用專用計算機(jī)執(zhí)行用于數(shù)字信號處理的算法,其可利用專用微處理器調(diào)用的數(shù)字信號處理器(有時縮寫為DSP)。
[0054]除非另外指出,否則對具有特定特征的設(shè)備的操作的任何揭示內(nèi)容還明確地希望揭示具有類似特征的方法(且反之亦然),且對根據(jù)特定配置的設(shè)備的操作的任何揭示內(nèi)容還明確地希望揭示根據(jù)類似配置的方法(且反之亦然)。
[0055]圖4展示無線通信系統(tǒng)中的實例移動臺400的設(shè)計的框圖。移動臺400可為蜂窩式電話、終端、手持機(jī)、PDA、無線調(diào)制調(diào)解器、無繩電話,等。無線通信系統(tǒng)可為CDMA系統(tǒng)、GSM系統(tǒng),等。
[0056]移動臺400能夠經(jīng)由接收路徑及發(fā)射路徑提供雙向通信。在接收路徑上,由天線412接收由基站發(fā)射的信號,且將其提供給接收器(RCVR) 414。接收器414調(diào)節(jié)并數(shù)字化所接收的信號,且將樣本提供給數(shù)字區(qū)段420以供進(jìn)一步處理。在發(fā)射路徑上,發(fā)射器(TMTR)416接收將要從數(shù)字區(qū)段420發(fā)射的數(shù)據(jù),處理并調(diào)節(jié)所述數(shù)據(jù),且產(chǎn)生經(jīng)調(diào)制信號,所述經(jīng)調(diào)制信號經(jīng)由天線412發(fā)射到基站。接收器414及發(fā)射器416可為可支持CDMA、GSM等的收發(fā)器的部分。
[0057]數(shù)字區(qū)段420包含各種處理、接口及存儲器單元,例如,調(diào)制解調(diào)器處理器422、精簡指令集計算機(jī)/數(shù)字信號處理器(RISC/DSP) 424、控制器/處理器426、內(nèi)部存儲器428、廣義音頻編碼器432、廣義音頻解碼器434、圖形/顯示處理器436及外部總線接口(EBI)438。調(diào)制解調(diào)器處理器422可執(zhí)行用于數(shù)據(jù)發(fā)射及接收的處理,例如,編碼、調(diào)制、解調(diào)及解碼。RISC/DSP424可執(zhí)行用于無線裝置400的通用及專用處理??刂破?處理器426可指導(dǎo)數(shù)字區(qū)段420內(nèi)的各種處理及接口單元的操作。內(nèi)部存儲器428可存儲數(shù)字區(qū)段420內(nèi)的各種單元的數(shù)據(jù)及/或指令。
[0058]廣義音頻編碼器432可執(zhí)行對來自音頻源442、麥克風(fēng)443等的輸入信號的編碼。廣義音頻解碼器434可執(zhí)行對經(jīng)譯碼音頻數(shù)據(jù)的解碼,且可將輸出信號提供到揚聲器/頭戴送受話器444。圖形/顯示處理器436可對可呈現(xiàn)給顯示單元446的圖形、視頻、圖像及文本執(zhí)行處理。EBI438可促進(jìn)數(shù)據(jù)在數(shù)字區(qū)段420與主存儲器448之間的傳送。
[0059]可使用一或多個處理器、DSP、微處理器、RISC等來實施數(shù)字區(qū)段420。還可將數(shù)字區(qū)段420制造在一或多個專用集成電路(ASIC)及/或某一其它類型的集成電路(IC)上。
[0060]圖5展示其中可實施實例實施方案及方面的示范性計算環(huán)境。所述計算系統(tǒng)環(huán)境僅為適當(dāng)計算環(huán)境的一個實例,且并不旨在暗示關(guān)于使用范圍或功能性的任何限制。
[0061]可使用例如程序模塊等由計算機(jī)執(zhí)行的計算機(jī)可執(zhí)行指令。一般來說,程序模塊包含執(zhí)行特定任務(wù)或?qū)嵤┨囟ǔ橄髷?shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等。在任務(wù)由經(jīng)由通信網(wǎng)絡(luò)或其它數(shù)據(jù)發(fā)射媒體鏈接的遠(yuǎn)程處理裝置執(zhí)行的情況下,可使用分布式計算環(huán)境。在分布式計算環(huán)境中程序模塊及其它數(shù)據(jù)可位于包含存儲器存儲裝置的本地及遠(yuǎn)程計算機(jī)存儲媒體兩者中。
[0062]參考圖5,用于實施本文中描述的方面的示范性系統(tǒng)包含計算裝置,例如計算裝置500。在其最基本配置中,計算裝置500通常包含至少一個處理單元502及存儲器504。取決于計算裝置的確切配置及類型,存儲器504可為易失性的(例如隨機(jī)存取存儲器(RAM))、非易失性的(例如只讀存儲器(ROM)、快閃存儲器,等),或兩者的某一組合。此最基本配置在圖5中用虛線506說明。I置通信的通信連接512。計算裝置500還話音輸入裝置、觸摸輸入裝置,等。還可包聽有這些裝置在此項技術(shù)中是熟知的,且此
示各種類型的裝置,例如無線或有線電話、6線通信卡、?0八、外部或內(nèi)部調(diào)制調(diào)解可具有各種名稱,例如存取終端存取動電話、移動物、遠(yuǎn)程臺、遠(yuǎn)程終端、遠(yuǎn)程單、非移動裝置、端點,等。本文中描述的任及硬件、軟件、固件,或其組合。
I。舉例來說,可以硬件、固件、軟件或其組-步了解,在本文中結(jié)合揭示內(nèi)容而描述的奄為電子硬件、計算機(jī)軟件,或兩者的組合。I關(guān)于其功能性而描述了各種說明性組件、:還是軟件取決于特定應(yīng)用及施加于整個系-特定應(yīng)用以不同方式實施所描述功能性,[0070]對于固件及/或軟件實施方案,所述技術(shù)可體現(xiàn)為計算機(jī)可讀媒體上的指令,所述計算機(jī)可讀媒體例如是RAM、ROM、非易失性RAM、可編程ROM、EEPR0M、快閃存儲器、光盤(CD)、磁性或光學(xué)數(shù)據(jù)存儲裝置,等等。所述指令可由一或多個處理器執(zhí)行且可使所述處理器執(zhí)行本文中所描述的功能性的某些方面。
[0071]如果實施于軟件中,則可將功能作為計算機(jī)可讀媒體上的一或多個指令或碼而加以存儲或傳輸。計算機(jī)可讀媒體包含計算機(jī)存儲媒體與包含促進(jìn)計算機(jī)程序從一處傳遞到另一處的任何媒體的通信媒體兩者。存儲媒體可為可由通用或?qū)S糜嬎銠C(jī)存取的任何可用媒體。舉例來說(且并非限制),此些計算機(jī)可讀媒體可包括RAM、ROM、EEPROM、CD-ROM或其它光盤存儲裝置、磁盤存儲裝置或其它磁性存儲裝置,或可用于承載或存儲呈指令或數(shù)據(jù)結(jié)構(gòu)的形式的所要程序代碼裝置且可由通用或?qū)S糜嬎銠C(jī)或者通用或?qū)S锰幚砥鞔嫒〉娜魏纹渌襟w。而且,可恰當(dāng)?shù)貙⑷魏芜B接稱作計算機(jī)可讀媒體。舉例來說,如果使用同軸電纜、光纖電纜、雙絞線、數(shù)字訂戶線(DSL)或例如紅外線、無線電及微波的無線技術(shù)從網(wǎng)站、服務(wù)器或其它遠(yuǎn)程源傳輸軟件,則同軸電纜、光纖電纜、雙絞線、DSL或例如紅外線、無線電及微波的無線技術(shù)包含于媒體的定義中。用于本文中時,磁盤及光盤包含CD、激光光盤、光學(xué)光盤、數(shù)字多功能盤(DVD)、軟盤及藍(lán)光光盤,其中磁盤通常以磁性方式再現(xiàn)數(shù)據(jù),而光盤通過激光以光學(xué)方式再現(xiàn)數(shù)據(jù)。上文的組合也應(yīng)包含在計算機(jī)可讀媒體的范圍內(nèi)。
[0072]軟件模塊可駐留在RAM存儲器、閃存存儲器、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬盤、可移除磁盤、CD-R0M,或此項技術(shù)中已知的任何其它形式的存儲媒體中。示范性存儲媒體耦合到處理器,使得處理器可從存儲媒體讀取信息并將信息寫入到存儲媒體。在替代方案中,存儲媒體可與處理器成一體式。處理器及存儲媒體可駐留于ASIC中。ASIC可駐留于使用者終端中。在替代例中,處理器及存儲媒體可作為離散組件駐留于用戶終端中。
[0073]本發(fā)明的先前描述經(jīng)提供以使所屬領(lǐng)域的技術(shù)人員能夠制造或使用本發(fā)明。所屬領(lǐng)域的技術(shù)人員將容易了解對本發(fā)明的各種修改,且本文中界定的一般原理可應(yīng)用于其它變化而不背離本發(fā)明的精神或范圍。因此,本發(fā)明并非希望限于本文中所描述的實例,而是應(yīng)被賦予與本文中所揭示的原理和新穎特征一致的最廣泛范圍。
[0074]盡管示范性實施方案可提及在一或多個獨立計算機(jī)系統(tǒng)的上下文中利用當(dāng)前揭示的標(biāo)的物的方面,但標(biāo)的物不限于此,而是可結(jié)合例如網(wǎng)絡(luò)或分布式計算環(huán)境等任何計算環(huán)境加以實施。又另外,當(dāng)前揭示的標(biāo)的物的方面可在多個處理芯片或裝置中或跨越多個處理芯片或裝置而實施,且可跨越多個裝置類似地實現(xiàn)存儲。此些裝置可包含例如PC、網(wǎng)絡(luò)服務(wù)器及手持式裝置。
[0075]盡管已用結(jié)構(gòu)特征及/或方法動作特有的語言描述了標(biāo)的物,但應(yīng)理解,所附權(quán)利要求書中所界定的標(biāo)的物不一定限于上文所描述的特定特征或動作。相反,上文所描述的特定特征及動作是作為實施權(quán)利要求書的實例形式而揭示。
【權(quán)利要求】
1.一種方法,其包括: 在第一分類器處接收音頻信號的一部分; 在所述第一分類器處將所述音頻信號的所述部分分類為語音或音樂; 如果所述部分被所述第一分類器分類為語音,則使用第一譯碼模式編碼所述語音;以及 如果所述部分被所述第一分類器分類為音樂,則: 將所述部分提供到第二分類器; 在所述第二分類器處將所述部分分類為語音或音樂; 如果所述部分在所述第二分類器處被分類為語音,則使用第二譯碼模式編碼所述部分;以及 如果所述部分在所述第二分類器處被分類為音樂,則使用第三譯碼模式編碼所述部分。
2.根據(jù)權(quán)利要求1所述的方法,其中所述音頻信號的所述部分為幀。
3.根據(jù)權(quán)利要求1所述的方法,其中所述第一譯碼模式包括第一語音譯碼器,所述第二譯碼模式包括第二語音譯碼器,且所述第三譯碼模式包括音樂譯碼器。
4.根據(jù)權(quán)利要求3所述的方法,其中所述第一語音譯碼器為碼激勵線性預(yù)測CELP型譯碼器,所述第二語音譯碼器為CELP/變換混合譯碼器,且所述音樂譯碼器為變換譯碼器。
5.根據(jù)權(quán)利要求1所述的方法,其進(jìn)一步包括確定在將所述部分提供到第二分類器之前是否啟用了所述第二分類器,且如果所述第二分類器未被啟用,則用所述第三譯碼模式編碼所述部分。
6.根據(jù)權(quán)利要求1所述的方法,其中在所述第二分類器處將所述部分分類為語音或音樂包括比較所述部分的多個特征與一或多個閾值以分類所述部分是具有音樂的特性還是濁音語音的特性。
7.根據(jù)權(quán)利要求6所述的方法,其中音樂的所述特性包括音樂的寬頻帶噪聲式特性,且濁音語音的所述特性包括濁音語音的調(diào)性特性或濁音語音的準(zhǔn)固定特性中的至少一者。
8.根據(jù)權(quán)利要求1所述的方法,其中在所述第二分類器處將所述部分分類為語音或音樂包括以下各者中的至少一者:比較所述部分的濁化與第一閾值、比較經(jīng)修改相關(guān)與第二閾值,或比較長期音調(diào)增益與第三閾值。
9.根據(jù)權(quán)利要求8所述的方法,其中所述濁化的范圍從對應(yīng)于與語音無相關(guān)的O到對應(yīng)于與語音的高相關(guān)的I;其中所述經(jīng)修改相關(guān)的范圍從對應(yīng)于隨機(jī)噪聲的O到對應(yīng)于高度結(jié)構(gòu)化聲音的I;其中所述長期音調(diào)增益為過去激勵與當(dāng)前預(yù)測殘差之間的歸一化交叉相關(guān);且其中所述長期音調(diào)增益的范圍從指示過去部分中的誤差不適合表示當(dāng)前部分的O到指示使用所述過去部分中的殘余誤差可完全表示所述當(dāng)前部分的I。
10.根據(jù)權(quán)利要求1所述的方法,其中在所述第二分類器處將所述部分分類為語音或音樂包括確定在所述部分中是否存在任何信號動作,以及如果不存在信號動作,則確定不存在有用信號來編碼,且將所述部分編碼為語音。
11.一種設(shè)備,其包括: 用于在第一分類器處接收音頻信號的一部分的裝置; 用于在所述第一分類器處將所述音頻信號的所述部分分類為語音或音樂的裝置;用于在所述部分被所述第一分類器分類為語音的情況下使用第一譯碼模式編碼所述語音的裝置; 用于在所述部分被所述第一分類器分類為音樂時在所述第二分類器處將所述部分分類為語音或音樂的裝置; 用于在所述部分在所述第二分類器處被分類為語音的情況下使用第二譯碼模式編碼所述部分的裝置;以及 用于在所述部分在所述第二分類器處被分類為音樂的情況下使用第三譯碼模式編碼所述部分的裝置。
12.根據(jù)權(quán)利要求11所述的設(shè)備,其中所述音頻信號的所述部分為幀。
13.根據(jù)權(quán)利要求11所述的設(shè)備,其中所述第一譯碼模式包括第一語音譯碼器,所述第二譯碼模式包括第二語音譯碼器,且所述第三譯碼模式包括音樂譯碼器。
14.根據(jù)權(quán)利要求13所述的設(shè)備,其中所述第一語音譯碼器為碼激勵線性預(yù)測CELP型譯碼器,所述第二語音譯碼器為CELP/變換混合譯碼器,且所述音樂譯碼器為變換譯碼器。
15.根據(jù)權(quán)利要求11所述的設(shè)備,其進(jìn)一步包括用于確定在將所述部分提供到第二分類器之前是否啟用了所述第二分類器,且如果所述第二分類器未被啟用,則用所述第三譯碼模式編碼所述部分的裝置。
16.根據(jù)權(quán)利要求11所述的設(shè)備,其中所述用于在所述第二分類器處將所述部分分類為語音或音樂的裝置包括用于比較所述部分的多個特征與一或多個閾值以分類所述部分是具有音樂的特性還是濁音語音的特性的裝置。
17.根據(jù)權(quán)利要求16所述的設(shè)備,其中音樂的所述特性包括音樂的寬頻帶噪聲式特性,且濁音語音的所述特性包括濁音語音的調(diào)性特性或濁音語音的準(zhǔn)固定特性中的至少一者。
18.根據(jù)權(quán)利要求11所述的設(shè)備,其中所述用于在所述第二分類器處將所述部分分類為語音或音樂的裝置包括以下各者中的至少一者:用于比較所述部分的濁化與第一閾值的裝置、用于比較經(jīng)修改相關(guān)與第二閾值的裝置,及用于比較長期音調(diào)增益與第三閾值的裝置。
19.根據(jù)權(quán)利要求18所述的設(shè)備,其中所述濁化的范圍從對應(yīng)于與語音無相關(guān)的O到對應(yīng)于與語音的高相關(guān)的I ;其中所述經(jīng)修改相關(guān)的范圍從對應(yīng)于隨機(jī)噪聲的O到對應(yīng)于高度結(jié)構(gòu)化聲音的I;其中所述長期音調(diào)增益為過去激勵與當(dāng)前預(yù)測殘差之間的歸一化交叉相關(guān);且其中所述長期音調(diào)增益的范圍從指示過去部分中的誤差不適合表示當(dāng)前部分的O到指示使用所述過去部分中的殘余誤差可完全表示所述當(dāng)前部分的I。
20.根據(jù)權(quán)利要求11所述的設(shè)備,其中所述用于在所述第二分類器處將所述部分分類為語音或音樂的裝置包括用于確定在所述部分中是否存在任何信號動作,以及如果不存在信號動作,則確定不存在有用信號來編碼且將所述部分編碼為語音的裝置。
21.一種包括計算機(jī)可讀指令的非暫時性計算機(jī)可讀媒體,所述計算機(jī)可讀指令用于致使處理器: 在第一分類器處接收音頻信號的一部分; 在所述第一分類器處將所述音頻信號的所述部分分類為語音或音樂; 如果所述部分被所述第一分類器分類為語音,則使用第一譯碼模式編碼所述語音;以及 如果所述部分被所述第一分類器分類為音樂,則: 將所述部分提供到第二分類器; 在所述第二分類器處將所述部分分類為語音或音樂; 如果所述部分在所述第二分類器處被分類為語音,則使用第二譯碼模式編碼所述部分;以及 如果所述部分在所述第二分類器處被分類為音樂,則使用第三譯碼模式編碼所述部分。
22.根據(jù)權(quán)利要求21所述的計算機(jī)可讀媒體,其中所述音頻信號的所述部分為幀。
23.根據(jù)權(quán)利要求21所述的計算機(jī)可讀媒體,其中所述第一譯碼模式包括第一語音譯碼器,所述第二譯碼模式包括第二語音譯碼器,且所述第三譯碼模式包括音樂譯碼器。
24.根據(jù)權(quán)利要求23所述的計算機(jī)可讀媒體,其中所述第一語音譯碼器為碼激勵線性預(yù)測CELP型譯碼器,所述第二語音譯碼器為CELP/變換混合譯碼器,且所述音樂譯碼器為變換譯碼器。
25.根據(jù)權(quán)利要求21所述的計算機(jī)可讀媒體,其進(jìn)一步包括用于致使所述處理器確定在將所述部分提供到第二分類器之前是否啟用了所述第二分類器,且如果所述第二分類器未被啟用,則用所述第三譯碼模式編碼所述部分的指令。
26.根據(jù)權(quán)利要求21所述的計算機(jī)可讀媒體,其中在所述第二分類器處將所述部分分類為語音或音樂包括比較所述部分的多個特征與一或多個閾值以分類所述部分是具有音樂的特性還是濁音語音的特性。
27.根據(jù)權(quán)利要求26所述的計算機(jī)可讀媒體,其中音樂的所述特性包括音樂的寬頻帶噪聲式特性,且濁音語音的所述特性包括濁音語音的調(diào)性特性或濁音語音的準(zhǔn)固定特性中的至少一者。
28.根據(jù)權(quán)利要求21所述的計算機(jī)可讀媒體,其中在所述第二分類器處將所述部分分類為語音或音樂包括以下各者中的至少一者:比較所述部分的濁化與第一閾值、比較經(jīng)修改相關(guān)與第二閾值,或比較長期音調(diào)增益與第三閾值。
29.根據(jù)權(quán)利要求28所述的計算機(jī)可讀媒體,其中所述濁化的范圍從對應(yīng)于與語音無相關(guān)的O到對應(yīng)于與語音的高相關(guān)的I ;其中所述經(jīng)修改相關(guān)的范圍從對應(yīng)于隨機(jī)噪聲的O到對應(yīng)于高度結(jié)構(gòu)化聲音的I ;其中所述長期音調(diào)增益為過去激勵與當(dāng)前預(yù)測殘差之間的歸一化交叉相關(guān);且其中所述長期音調(diào)增益的范圍從指示過去部分中的誤差不適合表示當(dāng)前部分的O到指示使用所述過去部分中的殘余誤差可完全表示所述當(dāng)前部分的I。
30.根據(jù)權(quán)利要求21所述的計算機(jī)可讀媒體,其中在所述第二分類器處將所述部分分類為語音或音樂包括確定在所述部分中是否存在任何信號動作,以及如果不存在信號動作,則確定不存在有用信號來編碼,且將所述部分編碼為語音。
31.一種處理器,其經(jīng)配置以: 在第一分類器處接收音頻信號的一部分; 在所述第一分類器處將所述音頻信號的所述部分分類為語音或音樂; 如果所述部分被所述第一分類器分類為語音,則使用第一譯碼模式編碼所述語音;以及如果所述部分被所述第一分類器分類為音樂,則: 將所述部分提供到第二分類器; 在所述第二分類器處將所述部分分類為語音或音樂; 如果所述部分在所述第二分類器處被分類為語音,則使用第二譯碼模式編碼所述部分;以及 如果所述部分在所述第二分類器處被分類為音樂,則使用第三譯碼模式編碼所述部分。
32.根據(jù)權(quán)利要求31所述的處理器,其中所述音頻信號的所述部分為幀。
33.根據(jù)權(quán)利要求31所述的處理器,其中所述第一譯碼模式包括第一語音譯碼器,所述第二譯碼模式包括第二語音譯碼器,且所述第三譯碼模式包括音樂譯碼器。
34.根據(jù)權(quán)利要求33所述的處理器,其中所述第一語音譯碼器為碼激勵線性預(yù)測CELP型譯碼器,所述第二語音譯碼器為CELP/變換混合譯碼器,且所述音樂譯碼器為變換譯碼器。
35.根據(jù)權(quán)利要求31所述的處理器,進(jìn)一步其中所述處理器進(jìn)一步經(jīng)配置以確定在將所述部分提供到第二分類器之前 是否啟用了所述第二分類器,且如果所述第二分類器未被啟用,則用所述第三譯碼模式編碼所述部分。
36.根據(jù)權(quán)利要求31所述的處理器,其中在所述第二分類器處將所述部分分類為語音或音樂包括比較所述部分的多個特征與一或多個閾值以分類所述部分是具有音樂的特性還是濁音語音的特性。
37.根據(jù)權(quán)利要求36所述的處理器,其中音樂的所述特性包括音樂的寬頻帶噪聲式特性,且濁音語音的所述特性包括濁音語音的調(diào)性特性或濁音語音的準(zhǔn)固定特性中的至少一者。
38.根據(jù)權(quán)利要求31所述的處理器,其中在所述第二分類器處將所述部分分類為語音或音樂包括以下各者中的至少一者:比較所述部分的濁化與第一閾值、比較經(jīng)修改相關(guān)與第二閾值,或比較長期音調(diào)增益與第三閾值。
39.根據(jù)權(quán)利要求38所述的處理器,其中所述濁化的范圍從對應(yīng)于與語音無相關(guān)的O到對應(yīng)于與語音的高相關(guān)的I ;其中所述經(jīng)修改相關(guān)的范圍從對應(yīng)于隨機(jī)噪聲的O到對應(yīng)于高度結(jié)構(gòu)化聲音的I ;其中所述長期音調(diào)增益為過去激勵與當(dāng)前預(yù)測殘差之間的歸一化交叉相關(guān);且其中所述長期音調(diào)增益的范圍從指示過去部分中的誤差不適合表示當(dāng)前部分的O到指示使用所述過去部分中的殘余誤差可完全表示所述當(dāng)前部分的I。
40.根據(jù)權(quán)利要求31所述的處理器,其中在所述第二分類器處將所述部分分類為語音或音樂包括確定在所述部分中是否存在任何信號動作,以及如果不存在信號動作,則確定不存在有用信號來編碼,且將所述部分編碼為語音。
41.一種系統(tǒng),其包括: 第一分類器,其接收音頻信號的一部分,將所述音頻信號的所述部分分類為語音或音樂,如果所述部分被分類為語音,則使用第一譯碼模式編碼所述語音,且如果所述部分被分類為音樂,則將所述部分提供到第二分類器;以及 所述第二分類器,如果所述部分被所述第一分類器分類為音樂,則將所述部分分類為語音或音樂,如果所述部分在所述第二分類器處被分類為語音,則使用第二譯碼模式編碼所述部分;且如果所述部分在所述第二分類器處被分類為音樂,則使用第三譯碼模式編碼所述部分。
42.根據(jù)權(quán)利要求41所述的系統(tǒng),其中所述音頻信號的所述部分為幀。
43.根據(jù)權(quán)利要求41所述的系統(tǒng),其中所述第一譯碼模式包括第一語音譯碼器,所述第二譯碼模式包括第二語音譯碼器,且所述第三譯碼模式包括音樂譯碼器。
44.根據(jù)權(quán)利要求43所述的系統(tǒng),其中所述第一語音譯碼器為碼激勵線性預(yù)測CELP型譯碼器,所述第二語音譯碼器為CELP/變換混合譯碼器,且所述音樂譯碼器為變換譯碼器。
45.根據(jù)權(quán)利要求41所述的系統(tǒng),其進(jìn)一步包括確定在將所述部分提供到第二分類器之前是否啟用了所述第二分類器,且如果所述第二分類器未被啟用,則用所述第三譯碼模式編碼所述部分。
46.根據(jù)權(quán)利要求41所述的系統(tǒng),其中在所述第二分類器處將所述部分分類為語音或音樂包括比較所述部分的多個特征與一或多個閾值以分類所述部分是具有音樂的特性還是濁音語音的特性。
47.根據(jù)權(quán)利要求46所述的系統(tǒng),其中音樂的所述特性包括音樂的寬頻帶噪聲式特性,且濁音語音的所述特性包括濁音語音的調(diào)性特性或濁音語音的準(zhǔn)固定特性中的至少一者。
48.根據(jù)權(quán)利要求41所述的系統(tǒng),其中在所述第二分類器處將所述部分分類為語音或音樂包括以下各者中的至少一者:比較所述部分的濁化與第一閾值、比較經(jīng)修改相關(guān)與第二閾值,或比較長期音調(diào)增益與第三閾值。
49.根據(jù)權(quán)利要求48所述的系統(tǒng),其中所述濁化的范圍從對應(yīng)于與語音無相關(guān)的O到對應(yīng)于與語音的高相關(guān)的I ;其中所述經(jīng)修改相關(guān)的范圍從對應(yīng)于隨機(jī)噪聲的O到對應(yīng)于高度結(jié)構(gòu)化聲音的I ;其中所述長期音調(diào)增益為過去激勵與當(dāng)前預(yù)測殘差之間的歸一化交叉相關(guān);且其中所述長期音調(diào)增益的范圍從指示過去部分中的誤差不適合表示當(dāng)前部分的O到指示使用所述過去部分中的殘余誤差可完全表示所述當(dāng)前部分的I。
50.根據(jù)權(quán)利要求41所述的系統(tǒng),其中在所述第二分類器處將所述部分分類為語音或音樂包括確定在所述部分中是否存在任何信號動作,以及如果不存在信號動作,則確定不存在有用信號來編碼,且將所述部分編碼為語音。
【文檔編號】G10L19/20GK104040626SQ201280066779
【公開日】2014年9月10日 申請日期:2012年12月21日 優(yōu)先權(quán)日:2012年1月13日
【發(fā)明者】芬卡特拉曼·斯里尼瓦沙·阿提, 伊?!ち_伯特·杜尼 申請人:高通股份有限公司