丟包掩蔽裝置和方法以及音頻處理系統(tǒng)的制作方法

文檔序號：2826070閱讀：376來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

丟包掩蔽裝置和方法以及音頻處理系統(tǒng)的制作方法
【專利摘要】本申請涉及丟包掩蔽裝置和方法以及音頻處理系統(tǒng)。根據(jù)一種實施方式，提供了丟包掩蔽裝置，用于掩蔽音頻包流中的包丟失，每個音頻包包括傳輸格式的至少一個音頻幀，音頻幀包括至少一個單聲道分量和至少一個空間分量。該丟包掩蔽裝置可以包括：第一掩蔽單元，用于針對丟失包中的丟失幀生成至少一個單聲道分量；以及第二掩蔽單元，用于針對所述丟失幀生成所述至少一個空間分量。根據(jù)該實施方式，在針對多通道空間或聲場編碼音頻信號的丟包掩蔽中可以盡可能避免空間畸變比如不正確的角度和發(fā)散度。
【專利說明】丟包掩蔽裝置和方法以及音頻處理系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本申請總體上涉及音頻信號處理。本申請的實施方式涉及在包(分組)交換網(wǎng)絡(luò)上的音頻傳輸過程中，由空間音頻包(分組)的丟失產(chǎn)生的畸變的掩蔽。更具體地，本申請的實施方式涉及丟包掩蔽裝置、丟包掩蔽方法以及包括該丟包掩蔽裝置的音頻處理系統(tǒng)。

【背景技術(shù)】
[0002] 語音通信可能面對各種的質(zhì)量問題。例如，如果語音通信是在包交換網(wǎng)絡(luò)中進行的，由于在網(wǎng)絡(luò)中出現(xiàn)的延遲抖動或由于信道條件差比如（比如信號減弱或者WIFI干擾)，可能會丟失一些包。丟失的包產(chǎn)生喀噠聲或砰砰聲或者其他畸變，這顯著地降低了在接收器側(cè)所感知的語音質(zhì)量。為了應(yīng)對包丟失的負(fù)面影響，已經(jīng)提出過丟包掩蔽（PLC)算法，也公知為消失巾貞掩蔽（frame erasure concealment)算法。這樣的算法通常在接收器側(cè)工作，生成合成音頻信號以覆蓋接收的比特流中的失去的數(shù)據(jù)(消失部分)。這些算法主要是針對時域或頻域中的單聲道信號提出的?；谘诒问窃诮獯a之前還是解碼之后進行，可以將單聲道PLC分為編碼域、解碼域或混合域方法。對多通道信號直接應(yīng)用單聲道PLC可能導(dǎo)致不希望有的畸變。例如，解碼域PLC可以在對每個聲道解碼之后對每個聲道單獨執(zhí)行。這樣的方法的一個缺點是：由于缺乏對跨聲道相關(guān)性的考慮，所以可以觀察到空間上失真的畸變以及不穩(wěn)定的信號強度?？臻g畸變比如不正確的角度和發(fā)散度可能顯著地降低空間或聲場編碼音頻的感知質(zhì)量。因此，需要有針對多通道空間音頻信號的PLC算法。

【發(fā)明內(nèi)容】

[0003] 根據(jù)本申請的實施方式，提供了一種用于掩蔽音頻包流中的包丟失的丟包掩蔽裝置，每個音頻包包括傳輸格式的至少一個音頻幀，該至少一個音頻幀包括至少一個單聲道分量和至少一個空間分量，該丟包掩蔽裝置包括：第一掩蔽單元，用于針對丟失包中的丟失幀生成至少一個單聲道分量；以及第二掩蔽單元，用于針對所述丟失幀生成至少一個空間分量。
[0004] 上述丟包掩蔽裝置可以應(yīng)用于中間裝置比如服務(wù)器，例如音頻會議混合服務(wù)器，或由終端用戶使用的通信終端。
[0005] 本申請還提供了一種音頻處理系統(tǒng)，該系統(tǒng)包括包含上述丟包掩蔽裝置的服務(wù)器和/或包含上述丟包掩蔽裝置的通信終端。
[0006] 本申請的另一種實施方式提供了一種用于掩蔽音頻包流中的包丟失的丟包掩蔽方法，每個音頻包包括傳輸格式的至少一個音頻幀，該至少一個音頻幀包括至少一個單聲道分量和至少一個空間分量。該丟包掩蔽方法包括：針對丟失包中的丟失幀生成至少一個單聲道分量；以及/或者針對所述丟失幀生成至少一個空間分量。
[0007] 本申請還提供了一種其上記錄有計算機程序指令的計算機可讀介質(zhì)，當(dāng)該指令由處理器執(zhí)行時，使所述處理器能夠執(zhí)行上述丟包掩蔽方法。

【專利附圖】

【附圖說明】
[0008] 在附圖中以示例而非限制的方式來說明本發(fā)明，其中相似的附圖標(biāo)記指代相似的兀件，在附圖中：
[0009] 圖1是示意性地示出了可以應(yīng)用本申請的實施方式的示例性語音通信系統(tǒng)的圖；
[0010] 圖2是示意性地示出了可以應(yīng)用本申請的實施方式的另一種示例性語音通信系統(tǒng)的圖；
[0011] 圖3是示出了根據(jù)本申請的一種實施方式的丟包掩蔽裝置的圖；
[0012] 圖4是示出了圖3中的丟包掩蔽裝置的特定示例的圖；
[0013] 圖5是示出了根據(jù)圖3的實施方式的變型的圖3中的第一掩蔽單元400的圖；
[0014] 圖6是示出了圖5中的丟包掩蔽裝置的變型的特定示例的圖；
[0015] 圖7是示出了根據(jù)圖3的實施方式的另一種變型的圖3中的第一掩蔽單元400的圖；
[0016] 圖8是示出了圖7所示的變型的原理的圖；
[0017] 圖9A是示出了根據(jù)圖3中的實施方式的又一種變型的圖3中的第一掩蔽單元400 的圖；
[0018] 圖9B是示出了根據(jù)圖3中的實施方式的又一種變型的圖3中的第一掩蔽單元400 的圖；
[0019] 圖10是示出了圖9A中的丟包掩蔽裝置的變型的特定示例的圖；
[0020] 圖11是示出了根據(jù)本申請的另一種實施方式的通信終端中的第二變換器的圖；
[0021] 圖12至圖14是示出了根據(jù)本申請的實施方式的丟包掩蔽裝置的應(yīng)用的圖；
[0022] 圖15是示出了用于實施本申請的實施方式的示例性系統(tǒng)的框圖；
[0023] 圖16至圖21是示出了根據(jù)本申請的實施方式及其一些變型的丟包掩蔽方法中的單聲道分量的掩蔽的流程圖；
[0024] 圖22不出了不例聲場編碼系統(tǒng)的框圖；
[0025] 圖23a不出了不例聲場編碼器的框圖；
[0026] 圖23b不出了不例聲場解碼器的框圖；
[0027] 圖24a示出了用于對聲場信號進行編碼的示例方法的流程圖；以及
[0028] 圖24b示出了用于對聲場信號進行解碼的示例方法的流程圖。

【具體實施方式】
[0029] 下面參照附圖描述本發(fā)明的實施方式。應(yīng)當(dāng)指出，為了簡潔，在附圖和描述中省略了與本領(lǐng)域的技術(shù)人員公知的但是對于理解本申請而言并非必需的部件和處理有關(guān)的表示和描述。
[0030] 本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解，本發(fā)明的各個方面可以實施為系統(tǒng)、設(shè)備(例如移動電話、便攜式媒體播放器、個人計算機、服務(wù)器、電視機機頂盒或數(shù)字錄像機或者任意其他媒體播放器)、方法或者計算機程序產(chǎn)品。因此，本發(fā)明的各個方面可以采用硬件的實施方式的形式、軟件的實施方式(包括固件、駐留軟件、微代碼等）的形式或者軟件方面與硬件方面相結(jié)合的實施方式的形式，在本文中其可以總體上被稱為"電路"、"模塊"或"系統(tǒng)"。此夕卜，本發(fā)明的各個方面可以采用包括在一個或更多個計算機可讀介質(zhì)中的計算機程序產(chǎn)品的形式，其中，計算機可讀介質(zhì)上包括有計算機可讀程序代碼。
[0031] 可以利用一個或更多個計算機可讀介質(zhì)的任意組合。計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)可以是例如但不限于電子、磁、光學(xué)、電磁、紅外或半導(dǎo)體系統(tǒng)、裝置或設(shè)備、或者以上的任意適當(dāng)?shù)慕M合。計算機可讀存儲介質(zhì)的更具體的示例(非窮舉性的列舉）可以包括：具有一條或更多條導(dǎo)線的電氣連接、便攜式計算機軟盤、硬盤、隨機存取存儲器（RAM)、只讀存儲器（ROM)、可擦除可編程只讀存儲器（EPROM或閃存)、光纖、便攜式光盤只讀存儲器（CD-ROM)、光學(xué)存儲設(shè)備、磁性存儲設(shè)備或者以上的任意適當(dāng)組合。在本文獻的上下文中，計算機可讀存儲介質(zhì)可以是能夠包含或者存儲用于由指令執(zhí)行系統(tǒng)、裝置或設(shè)備來使用或者與其結(jié)合使用的程序的任意有形的介質(zhì)。
[0032] 計算機可讀信號介質(zhì)可以包括其中包括有計算機可讀程序代碼的傳播的數(shù)據(jù)信號，該數(shù)據(jù)信號為基帶信號或者作為載波的一部分。這樣的傳播的信號可以采用各種形式，包括但不限于電磁信號或光學(xué)信號或者其任意適當(dāng)?shù)慕M合。
[0033] 計算機可讀信號介質(zhì)可以為不是計算機可讀存儲介質(zhì)并且可以傳遞、傳播或傳輸用于由指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用或者與其結(jié)合使用的程序的任意計算機可讀介質(zhì)。 [0034] 包括在計算機可讀介質(zhì)上的程序代碼可以使用任意適當(dāng)?shù)慕橘|(zhì)發(fā)送，介質(zhì)包括但不限于無線、有線線路、光纖光纜、射頻（RF)等或者以上的任意適當(dāng)?shù)慕M合。
[0035] 用于執(zhí)行本發(fā)明的各個方面的操作的計算機程序代碼可以用一種或更多種編程語目的任意組合來編寫，編程語目包括面向?qū)ο蟮木幊陶Z目比如Java、Smalltalk、C++等以及傳統(tǒng)的過程編程語言比如"C"編程語言或類似的編程語言。程序代碼可以在用戶的計算機上作為單獨軟件包整體執(zhí)行，或者部分在用戶的計算機上執(zhí)行且部分在遠(yuǎn)程計算機上執(zhí)行，或者整體在遠(yuǎn)程計算機或服務(wù)器上執(zhí)行。在后一種情形中，遠(yuǎn)程計算機可以通過包括局域網(wǎng)（LAN)或廣域網(wǎng)（WAN)的任意類型的網(wǎng)絡(luò)連接至用戶的計算機，或者可以連接到外部計算機(例如通過使用因特網(wǎng)服務(wù)提供商的因特網(wǎng)）。
[0036] 下面參照根據(jù)本發(fā)明的實施方式的方法、裝置(系統(tǒng)）和計算機程序產(chǎn)品的流程圖和/或框圖來描述本發(fā)明的各個方面。應(yīng)當(dāng)理解，流程圖和/或框圖的每個塊以及流程圖和/或框圖中的塊的組合可以用計算機程序指令來實現(xiàn)。這些計算機程序指令可以被提供給通用計算機、專用計算機或其他可編程數(shù)據(jù)處理裝置的處理器，以形成機器，使得通過計算機或其他可編程數(shù)據(jù)處理裝置的處理器來執(zhí)行的指令形成用于實現(xiàn)流程圖和/或框圖的塊或多個塊中所指定的功能/行為的裝置。
[0037] 這些計算機程序指令還可以存儲在如下計算機可讀介質(zhì)中：該計算機可讀介質(zhì)可以引導(dǎo)計算機、其他可編程數(shù)據(jù)處理裝置或其他設(shè)備以特定的方式工作，以使得存儲在計算機可讀介質(zhì)中的指令產(chǎn)生制品，該制品包括實現(xiàn)流程圖和/或框圖的塊或多個塊中所指定的功能/行為的指令。
[0038] 計算機程序指令還可以加載到計算機、其他可編程數(shù)據(jù)處理裝置或其他設(shè)備上，以使得在計算機、其他可編程裝置或其他設(shè)備上執(zhí)行一系列運算步驟，從而產(chǎn)生計算機實現(xiàn)的處理，以使得在計算機或其他可編程裝置上執(zhí)行的指令提供用于實現(xiàn)流程圖和/或框圖的塊或多個塊中所指定的功能/行為的處理。
[0039] 整體解決方案
[0040] 圖1是示意性地示出了可以應(yīng)用本申請的實施方式的示例語音通信系統(tǒng)的圖。
[0041] 如圖1所示，用戶A操作通信終端A，用戶B操作通信終端B。在語音通信會話中，用戶A和用戶B通過他們的通信終端A和B相互交談。通信終端A和B通過數(shù)據(jù)鏈路10 耦接。數(shù)據(jù)鏈路10可以實施為點對點連接或通信網(wǎng)絡(luò)。在用戶A和用戶B的任一側(cè)，對從另一側(cè)傳輸?shù)囊纛l包進行包丟失檢測（未示出）。如果檢測到包丟失，則可以執(zhí)行丟包掩蔽 (PLC)來掩蔽包丟失以使得所再現(xiàn)的音頻信號聽起來更加完整并且具有較少的由包丟失引起的畸變。
[0042] 圖2是示意性地示出了可以應(yīng)用本申請的實施方式的另一種示例語音通信系統(tǒng) 的圖。在該示例中，可以在用戶之間進行語音會議。
[0043] 如圖2所示，用戶A操作通信終端A，用戶B操作通信終端B，用戶C操作通信終端 C。在語音會議會話中，用戶A、用戶B和用戶C通過他們的通信終端A、B和C彼此交談。圖 2所示的通信終端與圖1所示的通信終端的功能相同。但是，通信終端A、B和C通過公共數(shù)據(jù)鏈路20或單獨的數(shù)據(jù)鏈路20耦接至服務(wù)器。數(shù)據(jù)鏈路20可以實施為點對點連接或通信網(wǎng)絡(luò)。在用戶A、用戶B和用戶C中任一側(cè)，對從另一側(cè)或另外兩側(cè)傳輸?shù)囊纛l包進行包丟失檢測(未示出）。如果檢測到包丟失，則可以執(zhí)行丟包掩蔽（PLC)來掩蔽包丟失以使得所再現(xiàn)的音頻信號聽起來更加完整并且具有較少的由包丟失引起的畸變。
[0044] 包丟失可以出現(xiàn)在從發(fā)起通信終端到服務(wù)器再到目的通信終端的路徑上的任何位置。因此，可替代地或者附加地，包丟失檢測(未示出)和PLC還可以在服務(wù)器中進行。為了在服務(wù)器中進行包丟失檢測和PLC，可以對服務(wù)器所接收的包進行解包（未示出）。然后，在PLC之后，可以對進行了丟包被掩蔽的音頻信號再次進行打包(未示出）以將其傳輸至目的通信終端。如果有兩個用戶同時進行交談(這可以使用語音活動檢測（VAD)技術(shù)來判斷)，在將這兩個用戶的話音信號傳輸至目的通信終端以前，需要在混合器800中完成混合操作以將兩個話音信號流混合成一個話音信號流。這可以在PLC之后但是在打包操作之前完成。
[0045] 盡管在圖1B中示出了三個通信終端，但是在該系統(tǒng)中也可以合理地耦接有更多個通信終端。
[0046] 本申請嘗試通過分別對通過向聲場信號應(yīng)用適當(dāng)?shù)淖儞Q技術(shù)獲得的單聲道分量和空間分量應(yīng)用不同的掩蔽方法，來解決聲場信號的包丟失問題。具體地，本申請涉及當(dāng)包丟失發(fā)生時在空間音頻傳輸中構(gòu)建人工信號。
[0047] 如圖3所示，在一種實施方式中，為了掩蔽音頻包流中的包丟失而提供了一種丟包掩蔽（PLC)裝置，每個音頻包包括傳輸格式的至少一個音頻幀，該音頻幀包括至少一個單聲道分量和至少一個空間分量。PLC裝置可以包括用于針對丟失包中的丟失幀生成至少一個單聲道分量的第一掩蔽單兀400、和用于針對該丟失巾貞生成至少一個空間分量的第二掩蔽單元600。所生成的至少一個單聲道分量和所生成的至少一個空間分量組成用于替換該丟失幀的生成幀。
[0048] 如在現(xiàn)有技術(shù)中已知的，為了滿足傳輸?shù)男枰?，音頻流已經(jīng)被變換和存儲為幀結(jié) 構(gòu)(可以稱其為"傳輸格式")，并且已經(jīng)在發(fā)起通信終端中被打包成音頻包，然后由服務(wù)器或目的通信終端中的接收器1〇〇接收。為了執(zhí)行PLC，可以設(shè)置第一解包單元200用于將每個音頻包解包為包括至少一個單聲道分量和至少一個空間分量的至少一個幀，并且可以設(shè)置包丟失檢測器300用于檢測流中的包丟失?？梢詫⒒蚩梢圆粚鼇G失檢測器300視為 PLC裝置的一部分。發(fā)起通信終端可以采用任何技術(shù)來將音頻流變換成任何合適的傳輸格式。
[0049] 傳輸格式的一個示例可以采用自適應(yīng)變換比如自適應(yīng)正交變換來獲得，該自適應(yīng) 變換可以生成多個單聲道分量和空間分量。例如，音頻幀可以是基于參數(shù)化特征分解編碼的參數(shù)化特征信號，至少一個單聲道分量可以包括至少一個特征通道分量（比如至少主要特征通道分量)，并且該至少一個空間分量包括至少一個空間參數(shù)。再例如，音頻幀可以通過主成分分析（PCA)被分解，并且該至少一個單聲道分量可以包括至少一個基于主成分的信號，該至少一個空間分量包括至少一個空間參數(shù)。
[0050] 從而，在發(fā)起通信終端中可以包括用于將輸入音頻信號變換成參數(shù)化特征信號的變換器。取決于輸入音頻信號的格式(該格式可以稱為"輸入格式")，可以用不同的技術(shù)來實現(xiàn)該變換器。
[0051] 例如，輸入首頻/[目號可以是1?保真度立體聲響復(fù)制（Ambisonic) B格式彳目號，并且對應(yīng)的變換器可以對B格式信號執(zhí)行自適應(yīng)變換，比如KLT變換(卡洛南-洛伊 (Karhunen-LoSve)變換)，以獲得包括特征通道分量(其還可以稱為旋轉(zhuǎn)音頻信號）和空間參數(shù)的參數(shù)化特征信號。通常，可以將LRS (左、右和環(huán)繞）信號或其他人工上混合信號轉(zhuǎn) 換成一階高保真度立體聲響復(fù)制格式（B格式)，即WXY聲場信號(其還可以是WXYZ聲場信號，但是在使用LRS捕獲的語音通信中，僅考慮水平WXY)，并且自適應(yīng)變換可以按信息重要性降低的順序?qū)⒙晥鲂盘柕乃?個通道W、X和Y聯(lián)合編碼為一組新的特征通道分量(旋轉(zhuǎn)音頻信號)Em (m=l，2,3)(即，E1、E2和E3,數(shù)字m可以更大或更小)。如果特征信號的數(shù) 量為3,則通常通過3 X 3變換矩陣（比如協(xié)方差矩陣)進行的該變換可以由作為邊信息發(fā)送的3個空間邊參數(shù)（d，(p和Θ )的集合來描述，以使得解碼器能夠應(yīng)用逆變換來重建原始聲場信號。注意，如果在傳輸中出現(xiàn)包丟失，則無論是特征通道分量(旋轉(zhuǎn)音頻信號)還是空間邊參數(shù)都不能由解碼器獲得。
[0052] 可替代地，可以將LRS信號直接變換成參數(shù)化特征信號。
[0053] 可以將上述編碼結(jié)構(gòu)稱為自適應(yīng)變換編碼。但是，如上所提到的，可以使用包括 KLT在內(nèi)的任何自適應(yīng)變換，或使用任何其他方案來執(zhí)行該編碼，包括從LRS信號到參數(shù)化特征信號的直接變換。本申請?zhí)峁┝藢⑤斎胍纛l信號變換成參數(shù)化特征信號的特定算法的示例。詳情請參見本申請中的"音頻信號的正自適應(yīng)變換和逆自適應(yīng)變換"部分。
[0054] 在上面所討論的自適應(yīng)變換編碼中，如果帶寬充足，則將所有的El、E2和E3編碼在幀中并且打包在包流中，這稱為離散編碼。否則，如果帶寬有限，則可以考慮替代方法，鑒于E1是原始聲場的感知上有意義/優(yōu)化的單聲道表示，可以通過偽去相關(guān)信號的計算來重建E2和E3。在實際的實施方式中，E1和E1的去相關(guān)版本的加權(quán)組合是優(yōu)選的，而去相關(guān) 版本可以僅是E1的延遲拷貝，并且可以基于E1和E2的頻帶能量比以及E1和E3的頻帶能量比來計算加權(quán)因子。可以將該方法稱為預(yù)測編碼。詳情請參見本申請中的"音頻信號的正自適應(yīng)變換和逆自適應(yīng)變換"部分。
[0055] 這樣，在輸入音頻流中，每個幀包括單聲道分量的一組頻域系數(shù)(針對E1、E2和E3 的)，和可以稱為空間分量或空間參數(shù)的量化邊參數(shù)。如果應(yīng)用預(yù)測編碼，則邊參數(shù)還可以包括預(yù)測參數(shù)。當(dāng)發(fā)生包丟失時，在離散編碼中，Em (m=l，2, 3)和空間參數(shù)兩者都在傳輸過程中丟失；而在預(yù)測編碼中，丟失包導(dǎo)致了預(yù)測參數(shù)、空間參數(shù)和El的丟失。
[0056] 第一解包單元200的操作是發(fā)起通信終端中的打包單元的逆操作，此處省略其詳細(xì)描述。
[0057] 在包丟失檢測器300中，可以采用任何現(xiàn)有的技術(shù)來檢測包丟失。通常的方法是檢測由解包單元200從所接收的包中解包的包/幀的序列號，序列號的不連續(xù)表示所缺失的序列號的包/幀的丟失。序列號一般是VoIP包格式比如實時傳輸協(xié)議（RTP)格式中的強制字段。注意，目前包一般包括一個幀(一般為20ms)，但是包也可以包括多于一個幀，或者一個幀可以跨越若干個包。如果包丟失，則包中的所有幀都丟失。如果幀丟失，則一定是一個或更多個丟失包的結(jié)果。因此通常基于幀來實施丟包掩蔽，即，PLC用于恢復(fù)由于丟失包引起的丟失幀。因此，在本申請的上下文中，包丟失一般等同于幀丟失并且解決方案一般是針對幀來描述，除非必須提到包，例如，用于強調(diào)丟失包中的丟失幀的數(shù)量。因此，在權(quán)利要求中，"每個音頻包包括至少一個音頻幀"這樣的用語應(yīng)當(dāng)被解釋為覆蓋一個幀跨越多個包的情形。相應(yīng)地，"丟失包中的丟失幀"這樣的用語應(yīng)當(dāng)被解釋為覆蓋由于至少一個丟失包導(dǎo)致的跨多個包的幀的至少部分丟失這樣的情形。
[0058] 在本申請中，提出了對單聲道分量和空間分量實施獨立的丟包掩蔽操作，因此分別設(shè)置第一掩蔽單元400和第二掩蔽單元600。第一掩蔽單元400可以被配置成通過復(fù)制相鄰幀中的對應(yīng)單聲道分量來針對所述丟失幀生成至少一個單聲道分量。
[0059] 在本申請的上下文中，"相鄰幀"意味著當(dāng)前幀(可以是丟失幀）之前或之后的幀，可以是直接相鄰，或在中間插有其他(一個或更多個）幀。即，為了恢復(fù)丟失幀，可以使用未來幀或歷史幀，并且一般可以使用直接相鄰的未來或歷史幀?？梢詫⒅苯酉噜彽臍v史幀稱為"上一幀"。在一種變型中，當(dāng)復(fù)制對應(yīng)的單聲道分量時，可以使用衰減因子。
[0060] 當(dāng)丟失了至少兩個連續(xù)的幀時，第一掩蔽單元400可以被配置成針對較前或較后的丟失幀分別復(fù)制(一個或更多個）歷史幀或(一個或更多個）未來幀。即，第一掩蔽單元可以在有或沒有衰減因子的情況下通過復(fù)制相鄰歷史幀中的對應(yīng)的單聲道分量來生成至少一個較早丟失幀的至少一個單聲道分量，并且在有或沒有衰減因子的情況下通過復(fù)制相鄰未來幀中的對應(yīng)的單聲道分量來生成至少一個較晚丟失幀的至少一個單聲道分量。
[0061] 第二掩蔽單元600可以被配置成：通過平滑相鄰幀的至少一個空間分量的值，或通過復(fù)制上一幀中對應(yīng)的空間分量來針對所述丟失幀生成至少一個空間分量。
[0062] 在可以允許或容忍延遲的一些情形中，還可以使用未來幀來幫助確定丟失幀的空間分量。例如，可以使用內(nèi)插算法。即，第二掩蔽單元600可以被配置成：基于至少一個相鄰歷史幀和至少一個相鄰未來幀中的對應(yīng)的空間分量的值通過內(nèi)插算法來針對所述丟失中貞生成至少一個空間分量。
[0063] 當(dāng)至少兩個包或至少兩個幀丟失時，可以基于內(nèi)插算法來確定所有丟失幀的空間分量。
[0064] 前已提及存在各種可能的輸入格式和傳輸格式。圖4示出了使用參數(shù)化特征信號作為傳輸格式的示例。如圖4所示，音頻信號被編碼為參數(shù)特征信號并作為參數(shù)特征信號傳輸，參數(shù)特征信號包括作為單聲道分量的特征通道分量和作為空間分量的空間參數(shù)(關(guān) 于編碼側(cè)的細(xì)節(jié)，請參見"音頻信號的正自適應(yīng)變換和逆自適應(yīng)變換"部分)。具體地，在該示例中，有三個特征通道分量Em (m=l，2, 3)和對應(yīng)的空間參數(shù)，比如發(fā)散度d (E1的方向性)、方位角f (El的水平方向)和θ (在三維空間中E2和E3圍繞El的旋轉(zhuǎn))。對于正常傳輸?shù)陌?，特征通道分量和空間參數(shù)都正常地傳輸(在包內(nèi)）；而對于丟失包/幀，特征通道分量和空間參數(shù)兩者都丟失，因而要執(zhí)行PLC以生成新的特征通道分量和空間參數(shù)來替代丟失包/幀的特征通道分量和空間參數(shù)。如果是在目的通信終端中，正常傳輸?shù)幕蛏傻奶?征通道分量和空間參數(shù)可以直接再現(xiàn)（比如再現(xiàn)為雙聲道聲音）或首先變換成適當(dāng)?shù)闹虚g 輸出格式，中間輸出格式可以進行進一步的變換或直接再現(xiàn)。類似于輸入格式，中間輸出格式可以是任何可用的格式，比如高保真度立體聲響復(fù)制B格式（WXY或WXYZ聲場信號)、LRS 或其他格式。中間輸出格式的音頻信號可以直接再現(xiàn)，或是可以進行進一步的變換以適應(yīng) 再現(xiàn)設(shè)備。例如，可以通過逆自適應(yīng)變換比如逆KLT (參見本公開中的"音頻信號的正自適應(yīng)變換和逆自適應(yīng)變換"部分）將參數(shù)化特征信號變換成WXY聲場信號，如果需要雙聲道重放則進一步變換成雙聲道聲音信號。相應(yīng)地，本申請的所述丟包掩蔽裝置可以包括第二逆變換器，用以對音頻包(可能經(jīng)過了 PLC)執(zhí)行逆自適應(yīng)變換，以獲得逆變換的聲場信號。
[0065] 在圖4中，第一掩蔽單元400 (圖3)可以使用傳統(tǒng)的單聲道PLC，比如前面所提到的有或沒有衰減因子的情況下的復(fù)制，示出如下：
[0066]

【權(quán)利要求】
1. 一種用于掩蔽音頻包流中的包丟失的丟包掩蔽裝置，每個音頻包包括傳輸格式的至少一個音頻巾貞，所述至少一個音頻巾貞包括至少一個單聲道分量和至少一個空間分量，所述丟包掩蔽裝置包括：第一掩蔽單元，用于針對丟失包中的丟失幀生成所述至少一個單聲道分量；以及第二掩蔽單元，用于針對所述丟失幀生成所述至少一個空間分量。
2. 根據(jù)權(quán)利要求1所述的丟包掩蔽裝置，其中，所述第一掩蔽單元被配置成：通過在有或沒有衰減因子的情況下復(fù)制相鄰幀中對應(yīng)的單聲道分量，來針對所述丟失幀生成所述至少一個單聲道分量。
3. 根據(jù)權(quán)利要求1所述的丟包掩蔽裝置，其中所述第一掩蔽單元包括：第一變換器，用于將所述丟失幀之前的至少一個歷史幀中的所述至少一個單聲道分量變換成時域信號；時域掩蔽單元，用于針對所述時域信號掩蔽所述包丟失，產(chǎn)生丟包被掩蔽的時域信號；以及第一逆變換器，用于將所述丟包被掩蔽的時域信號變換成所述至少一個單聲道分量的格式，產(chǎn)生與所述丟失幀中的所述至少一個單聲道分量對應(yīng)的生成的單聲道分量。
4. 根據(jù)權(quán)利要求1至3中的任一項所述的丟包掩蔽裝置，其中每個音頻幀還包括至少一個預(yù)測參數(shù)，所述至少一個預(yù)測參數(shù)用來基于所述幀中的所述至少一個單聲道分量來預(yù) 測所述幀的至少一個其他單聲道分量；以及所述第一掩蔽單元包括：主掩蔽單元，用于針對所述丟失幀生成所述至少一個單聲道分量，以及第三掩蔽單元，用于針對所述丟失幀生成所述至少一個預(yù)測參數(shù)。
5. 根據(jù)權(quán)利要求4所述的丟包掩蔽裝置，還包括：預(yù)測解碼器，用于基于所生成的一個單聲道分量，使用所生成的至少一個預(yù)測參數(shù)，來針對所述丟失幀預(yù)測所述至少一個其他單聲道分量。
6. 根據(jù)權(quán)利要求1至3中的任一項所述的丟包掩蔽裝置，其中每個音頻幀包括至少兩個單聲道分量并且所述第一掩蔽單元包括：主掩蔽單元，用于針對所述丟失幀生成所述至少兩個單聲道分量之一，預(yù)測參數(shù)計算器，用于使用歷史幀針對所述丟失幀計算至少一個預(yù)測參數(shù)，以及預(yù)測解碼器，用于基于所生成的一個單聲道分量，使用所生成的至少一個預(yù)測參數(shù)，來針對所述丟失幀預(yù)測所述至少兩個單聲道分量中的至少一個其他單聲道分量。
7. 根據(jù)權(quán)利要求6所述的丟包掩蔽裝置，其中所述第一掩蔽單元還包括：第三掩蔽單元，如果在所述丟失幀的上一幀中包括至少一個預(yù)測參數(shù)，或是針對所述上一幀生成/計算了至少一個預(yù)測參數(shù)，則所述第三掩蔽單元基于所述上一幀的所述至少一個預(yù)測參數(shù)來針對所述丟失幀生成所述至少一個預(yù)測參數(shù)，并且其中所述預(yù)測參數(shù)計算器被配置成：如果所述丟失幀的上一幀中沒有包含預(yù)測參數(shù)并且針對所述上一幀沒有生成/計算預(yù)測參數(shù)，則使用前一幀針對所述丟失幀計算所述至少一個預(yù)測參數(shù)，以及所述預(yù)測解碼器被配置成：使用所計算或生成的至少一個預(yù)測參數(shù)，根據(jù)所生成的一個單聲道分量，來針對所述丟失幀預(yù)測所述至少兩個單聲道分量的所述至少一個其他單聲道分量。
8. 根據(jù)權(quán)利要求6所述的丟包掩蔽裝置，其中所述主掩蔽單元還被配置成生成所述至少一個其他單聲道分量，并且所述第一掩蔽單元還包括調(diào)整單元，用于使用由所述主掩蔽單元生成的所述至少一個其他單聲道分量來調(diào)整由所述預(yù)測解碼器預(yù)測的所述至少一個其他單聲道分量。
9. 根據(jù)權(quán)利要求7所述的丟包掩蔽裝置，其中所述第三掩蔽單元被配置成以下述方式來針對所述丟失幀生成所述至少一個預(yù)測參數(shù)：在有或沒有衰減因子的情況下復(fù)制所述上一幀中的對應(yīng)的預(yù)測參數(shù)，對相鄰幀的對應(yīng)的預(yù)測參數(shù)的值進行平滑，或使用歷史幀和未來幀中對應(yīng)的預(yù)測參數(shù)的值進行內(nèi)插針對所述丟失幀生成。
10. 根據(jù)權(quán)利要求6所述的丟包掩蔽裝置，其中所述預(yù)測參數(shù)計算器被配置成：基于所述丟失幀的上一幀中與針對所述丟失幀所生成的一個單聲道分量對應(yīng)的單聲道分量和所述上一幀中與針對所述丟失幀要被預(yù)測的單聲道分量對應(yīng)的單聲道分量，來計算針對所述丟失幀的所述至少一個預(yù)測參數(shù)。
11. 根據(jù)權(quán)利要求10所述的丟包掩蔽裝置，其中所述預(yù)測參數(shù)計算器被配置成：針對所述丟失幀計算所述至少一個預(yù)測參數(shù)，以使得所述上一幀中與針對所述丟失幀要被預(yù)測的單聲道分量對應(yīng)的單聲道分量與該對應(yīng)的單聲道分量的相關(guān)分量之間的預(yù)測殘差的均方誤差減小。
12. 根據(jù)權(quán)利要求10所述的丟包掩蔽裝置，其中所述至少一個預(yù)測參數(shù)包括能量調(diào)整增益，并且所述預(yù)測參數(shù)計算器被配置成：基于所述丟失幀的上一幀中與針對所述丟失幀所生成的一個單聲道分量對應(yīng)的單聲道分量來確定去相關(guān)信號；確定所述去相關(guān)信號的能量的第二指標(biāo)和所述丟失幀的上一幀中與針對所述丟失幀所生成的一個單聲道分量對應(yīng)的單聲道分量的能量的第一指標(biāo)；以及如果所述第二指標(biāo)大于所述第一指標(biāo)，則基于所述去相關(guān)信號來確定所述能量調(diào)整增
13. 根據(jù)權(quán)利要求1所述的丟包掩蔽裝置，其中所述第二掩蔽單元被配置成：通過對相鄰幀的所述至少一個空間分量的值進行平滑來針對所述丟失幀生成所述至少一個空間分量。
14. 根據(jù)權(quán)利要求1所述的丟包掩蔽裝置，其中所述第二掩蔽單元被配置成：基于至少一個相鄰歷史幀和至少一個相鄰未來幀中對應(yīng)的空間分量的值，通過內(nèi)插算法來針對所述丟失幀生成所述至少一個空間分量。
15. 根據(jù)權(quán)利要求1到14之一所述的丟包掩蔽裝置，其中，所述第一掩蔽單元被配置為用第一掩蔽方法針對所述丟失幀生成所述至少一個單聲道分量，所述第二掩蔽單元被配置為用第二掩蔽方法針對所述丟失幀生成所述至少一個空間分量，其中所述第一掩蔽方法與所述第二掩蔽方法不同。
16. 根據(jù)權(quán)利要求1到15之一所述的丟包掩蔽裝置，還包括第二逆變換器，用于對音頻包進行逆自適應(yīng)變換，以獲得逆變換的聲場信號。
17. 根據(jù)權(quán)利要求16所述的丟包掩蔽裝置，其中，所述逆自適應(yīng)變換包括逆卡洛南-洛伊變換。
18. -種用于掩蔽音頻包流中的包丟失的丟包掩蔽方法，每個音頻包包括傳輸格式的至少一個音頻幀，所述至少一個音頻幀包括至少一個單聲道分量和至少一個空間分量，所述丟包掩蔽方法包括：針對丟失包中的丟失幀生成所述至少一個單聲道分量；以及針對所述丟失幀生成所述至少一個空間分量。
19. 根據(jù)權(quán)利要求18所述的丟包掩蔽方法，其中生成所述至少一個單聲道分量包括：通過在有或沒有衰減因子的情況下復(fù)制相鄰幀中對應(yīng)的單聲道分量來針對所述丟失幀生成所述至少一個單聲道分量。
20. 根據(jù)權(quán)利要求18所述的丟包掩蔽方法，其中生成所述至少一個單聲道分量包括：將所述丟失幀之前的至少一個歷史幀中的所述至少一個單聲道分量變換成時域信號；針對所述時域信號掩蔽所述包丟失，產(chǎn)生丟包被掩蔽的時域信號；以及將所述丟包被掩蔽的時域信號變換成所述至少一個單聲道分量的格式，產(chǎn)生與所述丟失幀中的所述至少一個單聲道分量對應(yīng)的生成的單聲道分量。
21. 根據(jù)權(quán)利要求18至20中任一項所述的丟包掩蔽方法，其中每個音頻幀還包括至少一個預(yù)測參數(shù)，所述預(yù)測參數(shù)用來基于所述幀中的所述至少一個單聲道分量來預(yù)測所述幀的至少一個其他單聲道分量，以及生成所述至少一個單聲道分量包括：針對所述丟失幀生成所述至少一個單聲道分量，以及針對所述丟失幀生成所述至少一個預(yù)測參數(shù)。
22. 根據(jù)權(quán)利要求21所述的丟包掩蔽方法，還包括：基于所生成的一個單聲道分量，使用所生成的至少一個預(yù)測參數(shù)，來針對所述丟失幀預(yù)測所述至少一個其他單聲道分量。
23. 根據(jù)權(quán)利要求18到20中任一項所述的丟包掩蔽方法，其中每個音頻幀包括至少兩個單聲道分量，并且生成所述至少一個單聲道分量包括：針對所述丟失幀生成所述至少兩個單聲道分量之一，使用歷史幀來針對所述丟失幀計算至少一個預(yù)測參數(shù)，以及基于所生成的一個單聲道分量，使用所生成的至少一個預(yù)測參數(shù)，來針對所述丟失幀預(yù)測所述至少兩個單聲道分量中的至少一個其他單聲道分量。
24. 根據(jù)權(quán)利要求23所述的丟包掩蔽方法，其中生成所述至少一個單聲道分量還包括：如果在所述丟失幀的上一幀中包括至少一個預(yù)測參數(shù)，或針對所述上一幀已經(jīng)生成/ 計算了至少一個預(yù)測參數(shù)，則基于所述上一幀的所述至少一個預(yù)測參數(shù)來針對所述丟失幀生成所述至少一個預(yù)測參數(shù)，并且其中，所述計算操作包括：當(dāng)在所述丟失幀的上一幀中沒有包含預(yù)測參數(shù)并且針對所述上一幀沒有生成/計算預(yù)測參數(shù)，則使用前一幀針對所述丟失幀計算所述至少一個預(yù)測參數(shù)，以及所述預(yù)測操作包括：使用所計算或生成的至少一個預(yù)測參數(shù)，根據(jù)所生成的一個單聲道分量，來針對所述丟失幀預(yù)測所述至少兩個單聲道分量中的所述至少一個其他單聲道分量。
25. 根據(jù)權(quán)利要求23所述的丟包掩蔽方法，還包括：生成所述至少一個其他單聲道分量，以及使用所生成的所述至少一個其他單聲道分量來調(diào)整由所述預(yù)測操作預(yù)測的所述至少一個其他單聲道分量。
26. 根據(jù)權(quán)利要求24所述的丟包掩蔽方法，其中生成所述至少一個預(yù)測參數(shù)包括以下述方式來針對所述丟失幀生成所述至少一個預(yù)測參數(shù)：在有或沒有衰減因子的情況下復(fù)制所述上一幀中的對應(yīng)的預(yù)測參數(shù)，對相鄰幀的對應(yīng)的預(yù)測參數(shù)的值進行平滑，或使用歷史幀和未來幀中對應(yīng)的預(yù)測參數(shù)的值進行內(nèi)插針對所述丟失幀生成。
27. 根據(jù)權(quán)利要求23所述的丟包掩蔽方法，其中所述計算包括：基于所述丟失幀的上一幀中與針對所述丟失幀所生成的一個單聲道分量對應(yīng)的單聲道分量和所述上一幀中的與針對所述丟失幀要被預(yù)測的所述單聲道分量對應(yīng)的單聲道分量，來計算針對所述丟失幀的所述至少一個預(yù)測參數(shù)。
28. 根據(jù)權(quán)利要求27所述的丟包掩蔽方法，其中所述計算操作包括：針對所述丟失幀計算所述至少一個預(yù)測參數(shù)，以使得所述上一幀中與針對所述丟失幀要被預(yù)測的單聲道分量對應(yīng)的單聲道分量與該對應(yīng)的單聲道分量的相關(guān)分量之間的預(yù)測殘差的均方誤差減小。
29. 根據(jù)權(quán)利要求27所述的丟包掩蔽方法，其中所述至少一個預(yù)測參數(shù)包括能量調(diào)整增益，并且所述計算操作包括：基于所述丟失幀的上一幀中與針對所述丟失幀所生成的一個單聲道分量對應(yīng)的單聲道分量來確定去相關(guān)信號；確定所述去相關(guān)信號的能量的第二指標(biāo)和所述丟失幀的上一幀中與針對所述丟失幀所生成的一個單聲道分量對應(yīng)的單聲道分量的能量的第一指標(biāo)；以及如果所述第二指標(biāo)大于所述第一指標(biāo)，則基于所述去相關(guān)信號來確定所述能量調(diào)整增
30. 根據(jù)權(quán)利要求18所述的丟包掩蔽方法，其中生成所述至少一個空間分量包括：通過對相鄰幀的所述至少一個空間分量的值進行平滑來針對所述丟失幀生成所述至少一個空間分量。
31. 根據(jù)權(quán)利要求18所述的丟包掩蔽方法，其中生成所述至少一個空間分量包括：基于至少一個相鄰歷史幀和至少一個相鄰未來幀中對應(yīng)的空間分量的值通過內(nèi)插算法來針對所述丟失幀生成所述至少一個空間分量。
32. 根據(jù)權(quán)利要求18到31之一所述的丟包掩蔽方法，其中，用第一掩蔽方法針對所述丟失幀生成所述至少一個單聲道分量，用第二掩蔽方法針對所述丟失幀生成所述至少一個空間分量，其中所述第一掩蔽方法與所述第二掩蔽方法不同。
33. 根據(jù)權(quán)利要求18到32之一所述的丟包掩蔽方法，還包括對音頻包進行逆自適應(yīng)變換，以獲得逆變換的聲場信號。
34. 根據(jù)權(quán)利要求33所述的丟包掩蔽方法，其中，所述逆自適應(yīng)變換包括逆卡洛南-洛伊變換。
35. -種音頻處理系統(tǒng)，包括：包含根據(jù)權(quán)利要求1至17中任一項所述的丟包掩蔽裝置的服務(wù)器，和/或包含根據(jù)權(quán)利要求1至17中任一項所述的丟包掩蔽裝置的通信終端。
36. 根據(jù)權(quán)利要求35所述的音頻處理系統(tǒng)，還包括含有第二變換器的通信終端，該第二變換器用于對輸入音頻信號執(zhí)行自適應(yīng)變換，以提取所述至少一個單聲道分量和所述至少一個空間分量。
37. 根據(jù)權(quán)利要求36所述的音頻處理系統(tǒng)，其中，所述自適應(yīng)變換包括卡洛南-洛伊變換。
38. 根據(jù)權(quán)利要求36所述的音頻處理系統(tǒng)，其中所述第二變換器還包括：自適應(yīng)變換器，用于將所述輸入音頻信號的每一幀分解為所述至少一個單聲道分量，所述至少一個單聲道分量通過變換矩陣與所述輸入音頻信號的所述幀相關(guān)聯(lián)；平滑單元，用于平滑所述變換矩陣中每一個元素的值，得到當(dāng)前幀的平滑后的變換矩陣；以及空間分量提取器，用于從所述平滑后的變換矩陣得到所述至少一個空間分量。
【文檔編號】G10L19/02GK104282309SQ201310282083
【公開日】2015年1月14日申請日期:2013年7月5日優(yōu)先權(quán)日:2013年7月5日
【發(fā)明者】黃申, 孫學(xué)京, 海科·普爾哈根申請人:杜比實驗室特許公司, 杜比國際公司

完整全部詳細(xì)技術(shù)資料下載