專利名稱:具有高效、容錯(cuò)、激勵(lì)向量編碼的聲碼器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信系統(tǒng),尤其涉及語(yǔ)音編碼。
聲碼器(vocoder)用于編碼語(yǔ)音信號(hào),以使得通信信道上傳輸?shù)膸捵钚?。為了使給定譜段范圍內(nèi)有效信道數(shù)目最多,使每個(gè)通信信道的帶寬最小,這是非常重要的。許多所熟知的聲碼器是碼激勵(lì)線性預(yù)測(cè)(CELP)聲碼器。當(dāng)前的CELP聲碼器使用對(duì)位差錯(cuò)敏感的低效編碼方案,該聲碼器把固定密碼本作為一系列脈沖提供到濾波器激勵(lì)上。浪費(fèi)寶貴的帶寬并且對(duì)位差錯(cuò)敏感的編碼方案在易出差錯(cuò)的通信信道如無(wú)線通信信道中是尤其不希望的。
編碼過程包括把一系列激勵(lì)脈沖或者激勵(lì)向量表示為當(dāng)作固定索引引用的一系列位。該固定索引在接收器上被聲碼器使用,以重新產(chǎn)生激勵(lì)脈沖,脈沖接著用于激勵(lì)語(yǔ)音模型并因此重新產(chǎn)生語(yǔ)音?,F(xiàn)有的聲碼器使用每脈沖3-1/2個(gè)或更多的位來(lái)表示這些脈沖。另外,現(xiàn)有的聲碼器對(duì)于導(dǎo)致差錯(cuò)的通信信道是敏感的,因?yàn)閱蝹€(gè)位差錯(cuò)會(huì)產(chǎn)生高達(dá)兩個(gè)脈沖的差錯(cuò)。
圖1表示了將被固定索引表示的一系列脈沖。在該實(shí)施例中有十個(gè)脈沖,每個(gè)脈沖可以是正的或負(fù)的。該固定索引指定了四十個(gè)可能預(yù)定位置中的十個(gè)被脈沖和每個(gè)脈沖的符號(hào)所占據(jù)。低效編碼方案由圖2中的表來(lái)表示。對(duì)于脈沖有40個(gè)可能的位置,然而,該表指出了每個(gè)脈沖限于八個(gè)位置中的一個(gè)。其結(jié)果是,聲碼器局限于使用由一系列脈沖組成的激勵(lì)向量,這些脈沖按照表中規(guī)定的可能組合。圖2表示了一個(gè)固定索引表,其中兩個(gè)脈沖與表中的每一行相聯(lián)系。在第一行中,I0和I5脈沖中每一個(gè)被限制到八個(gè)位置即位置0、5、10、15、20、25、30和35的一個(gè)。相似地,其余的每一行指定了被指定給與該行相關(guān)的脈沖對(duì)中的每一個(gè)脈沖的可能位置。應(yīng)該注意為每個(gè)脈沖指定八個(gè)位置中的一個(gè)需要每個(gè)脈沖的三個(gè)位。另外,對(duì)每個(gè)脈沖要指定一個(gè)符號(hào)。在現(xiàn)有技術(shù)系統(tǒng)中,有一個(gè)位用于指定每一行中每個(gè)脈沖對(duì)中第一個(gè)脈沖的符號(hào)。每個(gè)脈沖對(duì)中第二個(gè)脈沖的符號(hào)由該脈沖的位置來(lái)指定。如果第二個(gè)脈沖的位置比第一個(gè)脈沖的位置小,第二個(gè)脈沖的符號(hào)與第一個(gè)脈沖的符號(hào)是相反的,否則脈沖的符號(hào)是相同的。其結(jié)果是,就十個(gè)脈沖而言,三十五個(gè)位用于指定其位置和符號(hào)(每個(gè)脈沖3.5位)。應(yīng)該注意在該系統(tǒng)中,如果出現(xiàn)單個(gè)位差錯(cuò),它不僅會(huì)影響與該差錯(cuò)相聯(lián)系的脈沖的位置或符號(hào),而且它也會(huì)影響脈沖對(duì)中第二個(gè)脈沖的符號(hào)。
本發(fā)明提供了CELP聲碼器,能夠以一種對(duì)單個(gè)位差錯(cuò)敏感度較小的方式高效地對(duì)激勵(lì)向量編碼。組成激勵(lì)向量的每個(gè)脈沖被限于到四個(gè)預(yù)定位置中的一個(gè)。其結(jié)果是,僅需三個(gè)位(位置兩個(gè)位及符號(hào)一個(gè)位)來(lái)對(duì)每個(gè)脈沖編碼以及,另外,單個(gè)位差錯(cuò)僅在一個(gè)脈沖中產(chǎn)生。
圖1表示了一系列脈沖;圖2是一個(gè)表示低效編碼方案的固定索引表;圖3是典型聲碼器的框圖;圖4表示了聲碼器10的編碼器14的主要功能;圖5是聲碼器10的解碼器20的功能框圖;圖6是一個(gè)為10個(gè)脈沖激勵(lì)向量指定有效脈沖位置的固定索引表;圖7是為5個(gè)脈沖激勵(lì)向量指定有效脈沖位置的固定索引表;以及圖8是為3個(gè)脈沖激勵(lì)向量指定有效脈沖位置的固定索引表;圖3畫出了一個(gè)典型聲碼器的框圖。聲碼器10通過輸入12接收數(shù)字化的語(yǔ)音。數(shù)字化的語(yǔ)音是模擬信號(hào),它已經(jīng)通過一個(gè)模數(shù)轉(zhuǎn)換器,并分解成幀,典型地,每幀為20毫秒量級(jí)。輸入12的信號(hào)傳遞到編碼器部分14,其對(duì)語(yǔ)音信號(hào)編碼以降低傳輸語(yǔ)音信號(hào)的帶寬。在輸出端16得到編碼的語(yǔ)音。在通信信道的另一端,類似聲碼器的解碼部分接收編碼的語(yǔ)音。通信信道另一端的解碼器與聲碼器10的解碼部分相同或類似。輸入端18通過聲碼器10接收編碼語(yǔ)音,并傳遞到解碼器部分20。解碼器部分20使用從傳輸聲碼器接收到的編碼信號(hào),在輸出端22處產(chǎn)生數(shù)字化的語(yǔ)音。
在通信技術(shù)中,聲碼器眾所周知。比如,1993年,由Kluwer AcademicPublishers出版的,Bishnu S.Atal,Vladimir Cuperman,以及AllenGersho主編的“語(yǔ)音音頻編碼在無(wú)線及網(wǎng)絡(luò)中的應(yīng)用”一書中描述了聲碼器。聲碼器隨處可以得到,研制的公司如加州圣地亞哥的QualComm公司,以及新澤西Murray Hill的朗訊公司。
圖4表示了聲碼器10中編碼器14的主要功能。在輸入端12接收數(shù)字化語(yǔ)音信號(hào),并傳遞到線性預(yù)測(cè)編碼器40。線性預(yù)測(cè)編碼器40對(duì)輸入的語(yǔ)音每幀執(zhí)行一次線性預(yù)測(cè)分析。線性預(yù)測(cè)分析在此技術(shù)中眾所周知,其在輸入語(yǔ)音信號(hào)基礎(chǔ)上產(chǎn)生語(yǔ)音束的線性預(yù)測(cè)合成模型。描述此模型的線性預(yù)測(cè)參數(shù)或系數(shù)作為編碼語(yǔ)音信號(hào)的一部分通過輸出16傳輸。編碼器40使用此模型產(chǎn)生殘留語(yǔ)音信號(hào),其表示模型用于復(fù)原輸入語(yǔ)音信號(hào)的激勵(lì)。在輸出端42得到殘留語(yǔ)音信號(hào)。輸出端42的殘留語(yǔ)音信號(hào)提供到開環(huán)音調(diào)搜索單元50的輸入端48、自適應(yīng)碼本單元72輸入端,以及固定碼本單元82上。
脈沖響應(yīng)單元60接收來(lái)自編碼器40的線性預(yù)測(cè)參數(shù),并生成在編碼器40中產(chǎn)生的模型的脈沖響應(yīng)。該脈沖響應(yīng)用于自適應(yīng)和固定碼本單元。
開環(huán)音調(diào)搜索單元50使用編碼器40的殘留語(yǔ)音信號(hào)來(lái)模擬其音調(diào)并提供音調(diào),或者是現(xiàn)在通常所稱的在輸出端52上的音調(diào)階段或音調(diào)延遲信號(hào)。輸出端52音調(diào)延遲信號(hào)和輸出端64的脈沖響應(yīng)信號(hào)被自適應(yīng)碼本單元72的輸入端70接收。自適應(yīng)碼本72產(chǎn)生音調(diào)增益輸出和音調(diào)索引輸出,這成為聲碼器10的編碼語(yǔ)音輸出端16的一部分。自適應(yīng)碼本72的輸出端74也給固定碼本單元82的輸入端80提供音調(diào)增益和音調(diào)索引信號(hào)。另外,自適應(yīng)碼本72給輸入端80提供激勵(lì)信號(hào)和自適應(yīng)碼本目標(biāo)信號(hào)。
自適應(yīng)碼本72利用輸入端12的數(shù)字化語(yǔ)音信號(hào)和線性預(yù)測(cè)編碼器40產(chǎn)生的殘留語(yǔ)音信號(hào)產(chǎn)生其輸出。自適應(yīng)碼本72使用數(shù)字化語(yǔ)音信號(hào)和線性預(yù)測(cè)編碼器40的殘留語(yǔ)音信號(hào)來(lái)形成自適應(yīng)碼本目標(biāo)信號(hào)。自適應(yīng)碼本目標(biāo)信號(hào)用作對(duì)固定碼本82的輸入、以及對(duì)產(chǎn)生自適應(yīng)碼本單元72的音調(diào)增益、音調(diào)索引和激勵(lì)輸出的計(jì)算的輸入。另外,自適應(yīng)碼本目標(biāo)信號(hào)、開環(huán)音調(diào)搜索單元50的音調(diào)延遲信號(hào)、以及脈沖響應(yīng)單元60的脈沖響應(yīng)用于產(chǎn)生音調(diào)索引、音調(diào)增益和激勵(lì)信號(hào),它們被傳送到固定碼本單元82上。這些信號(hào)的計(jì)算方法在聲碼器技術(shù)中非常常見。
固定碼本82利用從輸入端80接收到的輸入來(lái)產(chǎn)生固定增益輸出和固定索引輸出,它們被用作輸出端16編碼語(yǔ)音的一部分。固定碼本單元試圖模擬線性預(yù)測(cè)編碼器40的殘留語(yǔ)音信號(hào)的隨機(jī)部分。固定碼本搜索的目標(biāo)通過確定固定碼本差錯(cuò)或者當(dāng)前自適應(yīng)碼本目標(biāo)信號(hào)和線性預(yù)測(cè)編碼器40的殘留語(yǔ)音信號(hào)之間的差異產(chǎn)生。固定碼本差錯(cuò)在現(xiàn)有技術(shù)中眾所周知并在電信標(biāo)準(zhǔn)中被描述為加權(quán)語(yǔ)音信號(hào)和加權(quán)合成語(yǔ)音信號(hào)之間的均方差。這些標(biāo)準(zhǔn)由不同的組織發(fā)布,象國(guó)際電信協(xié)會(huì)、歐洲電信標(biāo)準(zhǔn)協(xié)會(huì)、以及電信行業(yè)協(xié)會(huì)。固定碼本搜索產(chǎn)生固定增益和固定索引,它們使得固定碼本差錯(cuò)或者均方差最小。固定索引描述了一個(gè)激勵(lì)脈沖集。固定索引通過搜索使固定碼本差錯(cuò)最小化的激勵(lì)脈沖集來(lái)獲得;然而,對(duì)激勵(lì)脈沖集的搜索局限于由固定碼本的固定索引表定義的有效激勵(lì)脈沖集。固定索引表限制了每個(gè)脈沖占有的可能位置的數(shù)目。利用自適應(yīng)碼本單元72的輸出計(jì)算固定增益和固定索引信號(hào)的方法在聲碼器技術(shù)中是常見的。
圖5表示了聲碼器10的解碼器20的功能框圖。編碼語(yǔ)音信號(hào)在編碼器20的輸入端18上接收。編碼語(yǔ)音信號(hào)由解碼器100接收。解碼器100產(chǎn)生固定和自適應(yīng)代碼向量,各自響應(yīng)固定索引和音調(diào)索引信號(hào)。這些代碼向量連同音調(diào)增益和固定增益信號(hào)被傳送到單元110的增益構(gòu)造部分。音調(diào)增益信號(hào)用于測(cè)量利用音調(diào)索引信號(hào)產(chǎn)生的自適應(yīng)向量,以及固定增益信號(hào)用于測(cè)量利用固定索引信號(hào)得到的固定向量。解碼器100把線性預(yù)測(cè)代碼參數(shù)傳送到濾波器或者單元110的模型合成部分。然后單元110利用所測(cè)量的向量來(lái)激勵(lì)濾波器,該濾波器通過線性預(yù)測(cè)編碼器40產(chǎn)生的線性預(yù)測(cè)系數(shù)合成,并且產(chǎn)生表示最初由輸入端12所收到的數(shù)字化語(yǔ)音的輸出信號(hào)。任選的,后置濾波器120可用于形成在輸入端20產(chǎn)生的數(shù)字化語(yǔ)音信號(hào)譜段。
回到圖3,固定碼本82的一個(gè)輸出是固定索引。固定索引每幀產(chǎn)生四次(每子幀一次),即對(duì)于系統(tǒng)每5毫秒使用20個(gè)毫秒幀。固定索引規(guī)定了激勵(lì)向量或者一系列激勵(lì)脈沖,其中固定索引的各位描述了脈沖的位置和符號(hào)。如上所述,這些激勵(lì)脈沖用作對(duì)接收編碼器中語(yǔ)音模型的輸入。
圖6描述了固定索引表,用于指定組成有效激勵(lì)向量的激勵(lì)脈沖的可能的預(yù)定位置。每個(gè)脈沖被限于四個(gè)預(yù)定位置中的一個(gè),因此只需要兩個(gè)位來(lái)指定位置。第三個(gè)位用于指定符號(hào)。例如,如果指定十個(gè)脈沖,表格中包括每個(gè)具有四個(gè)可能位置的十行。在該例中,脈沖I0可能占據(jù)位置0、10、20或30。類似地,其它脈沖中的每個(gè)可占據(jù)在其所在行中指定的可能位置中的一個(gè)。在該例中,僅需要30個(gè)位來(lái)指定10個(gè)脈沖的位置和符號(hào)(3個(gè)位/脈沖),因?yàn)槊總€(gè)脈沖的兩個(gè)位指定位置并且每個(gè)脈沖的一個(gè)位指定符號(hào)。
圖7描述了固定索引表,用于指定五個(gè)脈沖的可能的預(yù)定位置,其中每個(gè)脈沖可只占據(jù)四個(gè)位置中的一個(gè)。
圖8描述了固定索引表,其指定了三個(gè)脈沖激勵(lì)向量中脈沖的可能的預(yù)定位置,其中由最后兩行中的一行指定的激勵(lì)脈沖限于三個(gè)可能的預(yù)定位置。也可能使用一個(gè)固定索引表,其限制一個(gè)或多個(gè)激勵(lì)脈沖到兩個(gè)可能的預(yù)定位置。圖6、7和8中的方案可適用于具有任何脈沖數(shù)目的激勵(lì)向量,并且每個(gè)脈沖占據(jù)的可能的預(yù)定位置的數(shù)目可限于四個(gè)或更少。
功能框圖可以通過不同的方式實(shí)現(xiàn)。每個(gè)框圖可以使用多個(gè)微處理器或者微計(jì)算機(jī)單獨(dú)實(shí)現(xiàn),或者它們可以通過使用單個(gè)微處理器或微計(jì)算機(jī)來(lái)實(shí)現(xiàn)。利用可編程的數(shù)字信號(hào)處理設(shè)備或者來(lái)自前述的制造商或其它半導(dǎo)體制造商的專門設(shè)備來(lái)實(shí)現(xiàn)功能框圖的全部或每個(gè),這也是可能的。
權(quán)利要求
1.對(duì)激勵(lì)向量編碼的一種方法,包括以下步驟從多個(gè)有效激勵(lì)脈沖集中選擇被選激勵(lì)脈沖集,每個(gè)激勵(lì)脈沖集具有多個(gè)激勵(lì)脈沖;限制多個(gè)有效的激勵(lì)脈沖集到諸集合,其中每個(gè)激勵(lì)脈沖限于最多四個(gè)預(yù)定位置中的一個(gè);以及產(chǎn)生描述被選激勵(lì)脈沖集的輸出。
2.根據(jù)權(quán)利要求1的方法,其中限制步驟包括限制多個(gè)有效的激勵(lì)脈沖集到諸集合,其中每個(gè)激勵(lì)脈沖限于四個(gè)預(yù)定位置中的一個(gè)。
3.根據(jù)權(quán)利要求1的方法,其中限制步驟包括限制多個(gè)有效的激勵(lì)脈沖集到諸集合,其中第一激勵(lì)脈沖限于最多四個(gè)預(yù)定位置中的一個(gè)、以及第二激勵(lì)脈沖限于最多三個(gè)預(yù)定位置中的一個(gè)。
4.根據(jù)權(quán)利要求1的方法,其中限制步驟包括限制多個(gè)有效的激勵(lì)脈沖集到諸集合,其中第一激勵(lì)脈沖限于四個(gè)預(yù)定位置中的一個(gè)、以及第二激勵(lì)脈沖限于三個(gè)預(yù)定位置中的一個(gè)。
5.根據(jù)權(quán)利要求1的方法,其中產(chǎn)生輸出的步驟包括產(chǎn)生用最多兩個(gè)位來(lái)描述被選激勵(lì)脈沖集中每個(gè)激勵(lì)脈沖的位置的輸出。
6.根據(jù)權(quán)利要求5的方法,其中產(chǎn)生輸出的步驟包括產(chǎn)生用一個(gè)位來(lái)描述被選激勵(lì)脈沖集中每個(gè)激勵(lì)脈沖的符號(hào)的輸出。
7.根據(jù)權(quán)利要求1的方法,其中選擇步驟包括選擇具有十個(gè)脈沖的被選激勵(lì)脈沖集。
8.根據(jù)權(quán)利要求1的方法,其中選擇步驟包括選擇具有五個(gè)脈沖的被選激勵(lì)脈沖集。
9.根據(jù)權(quán)利要求1的方法,其中選擇步驟包括選擇具有四個(gè)脈沖的被選激勵(lì)脈沖集。
10.根據(jù)權(quán)利要求1的方法,其中選擇步驟包括選擇具有三個(gè)脈沖的被選激勵(lì)脈沖集。
11.一種對(duì)激勵(lì)向量編碼的方法,包括以下步驟通過搜索多個(gè)有效的激勵(lì)脈沖集尋找使固定碼本差錯(cuò)最小的被選激勵(lì)脈沖集,每個(gè)激勵(lì)脈沖集具有多個(gè)激勵(lì)脈沖;限制多個(gè)有效的激勵(lì)脈沖集到諸集合,其中每個(gè)激勵(lì)脈沖被限于最多四個(gè)預(yù)定位置中的一個(gè);以及產(chǎn)生描述被選激勵(lì)脈沖集的輸出。
12.根據(jù)權(quán)利要求11的方法,其中限制步驟包括限制多個(gè)有效的激勵(lì)脈沖集到諸集合,其中每個(gè)激勵(lì)脈沖限于四個(gè)預(yù)定位置中的一個(gè)。
13.根據(jù)權(quán)利要求11的方法,其中限制步驟包括限制多個(gè)有效的激勵(lì)脈沖集到諸集合,其中第一激勵(lì)脈沖限于最多四個(gè)預(yù)定位置中的一個(gè)、以及第二激勵(lì)脈沖限于最多三個(gè)預(yù)定位置中的一個(gè)。
14.根據(jù)權(quán)利要求11的方法,其中限制步驟包括限制多個(gè)有效的激勵(lì)脈沖集到諸集合,其中第一激勵(lì)脈沖限于四個(gè)預(yù)定位置中的一個(gè)、以及第二激勵(lì)脈沖限于三個(gè)預(yù)定位置中的一個(gè)。
15.根據(jù)權(quán)利要求11的方法,其中產(chǎn)生輸出的步驟包括產(chǎn)生用最多兩個(gè)位來(lái)描述被選激勵(lì)脈沖集中每個(gè)激勵(lì)脈沖的位置的輸出。
16.根據(jù)權(quán)利要求15的方法,其中產(chǎn)生輸出的步驟包括產(chǎn)生用一個(gè)位來(lái)描述被選激勵(lì)脈沖集中每個(gè)激勵(lì)脈沖的符號(hào)的輸出。
17.根據(jù)權(quán)利要求11的方法,其中選擇步驟包括選擇具有十個(gè)脈沖的被選激勵(lì)脈沖集。
18.根據(jù)權(quán)利要求11的方法,其中選擇步驟包括選擇具有五個(gè)脈沖的被選激勵(lì)脈沖集。
19.根據(jù)權(quán)利要求11的方法,其中選擇步驟包括選擇具有四個(gè)脈沖的被選激勵(lì)脈沖集。
20.根據(jù)權(quán)利要求11的方法,其中選擇步驟包括選擇具有三個(gè)脈沖的被選激勵(lì)脈沖集。
全文摘要
CELP聲碼器以一種對(duì)單個(gè)位差錯(cuò)敏感性較低的方式高效地對(duì)激勵(lì)向量編碼。組成激勵(lì)向量的每個(gè)脈沖被限于四個(gè)預(yù)定位置中的一個(gè)。因此,僅需要三個(gè)位對(duì)每個(gè)脈沖編碼(位置兩個(gè)以及符合一個(gè))并且,此外,單個(gè)位差錯(cuò)僅在一個(gè)脈沖中產(chǎn)生一個(gè)差錯(cuò)。
文檔編號(hào)G10L19/12GK1239796SQ99101060
公開日1999年12月29日 申請(qǐng)日期1999年1月12日 優(yōu)先權(quán)日1998年1月13日
發(fā)明者米切爾·D·特納 申請(qǐng)人:朗迅科技公司