語(yǔ)音信號(hào)壓縮設(shè)備、語(yǔ)音信號(hào)壓縮方法和程序的制作方法

文檔序號(hào)：2834557閱讀：267來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語(yǔ)音信號(hào)壓縮設(shè)備、語(yǔ)音信號(hào)壓縮方法和程序的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語(yǔ)音信號(hào)壓縮設(shè)備、語(yǔ)音信號(hào)壓縮方法和程序。
背景技術(shù)：
本發(fā)明涉及一種語(yǔ)音信號(hào)壓縮設(shè)備、語(yǔ)音信號(hào)壓縮技術(shù)和程序。
近來，用于將文本數(shù)據(jù)和其他類似的數(shù)據(jù)轉(zhuǎn)化為語(yǔ)音的語(yǔ)音合成方法已經(jīng)應(yīng)用在例如汽車導(dǎo)航領(lǐng)域中。
在語(yǔ)音合成中，例如，需要識(shí)別包含在文本數(shù)據(jù)中的詞語(yǔ)、短語(yǔ)和短語(yǔ)中的演變關(guān)系，并且根據(jù)所識(shí)別出的詞語(yǔ)、短語(yǔ)和演變關(guān)系識(shí)別讀取句子的方式。隨后，根據(jù)由所識(shí)別出的讀取方式表示的音標(biāo)順序決定組成語(yǔ)音的音素的波形、持續(xù)時(shí)間和間距(pitch)(基頻)型態(tài)。接著，根據(jù)該決定的結(jié)果決定表示包括日文漢字和假名的整個(gè)句子的語(yǔ)音波形，并且輸出具有該決定的波形的語(yǔ)音。
在前文提及的語(yǔ)音合成方法中，在一語(yǔ)音字典(speech dictionary)中搜索以識(shí)別語(yǔ)音波形，該語(yǔ)音字典已經(jīng)積累了表示語(yǔ)音波形或者語(yǔ)音頻譜分布的語(yǔ)音數(shù)據(jù)。為了使合成的語(yǔ)音自然逼真，在該語(yǔ)音字典中需要積累大量的語(yǔ)音數(shù)據(jù)。
另外，當(dāng)在需要縮小尺寸的設(shè)備上應(yīng)用該方法的時(shí)候，例如汽車導(dǎo)航設(shè)備，通常需要縮小存儲(chǔ)設(shè)備的尺寸，該存儲(chǔ)設(shè)備用于存儲(chǔ)由該設(shè)備使用的語(yǔ)音字典。當(dāng)縮小了存儲(chǔ)設(shè)備的尺寸時(shí)，不可避免地會(huì)減小存儲(chǔ)容量。
因此，為了使包含有足夠數(shù)量的語(yǔ)音數(shù)據(jù)的語(yǔ)音字典能夠存儲(chǔ)在具有小存儲(chǔ)容量的存儲(chǔ)設(shè)備中，已經(jīng)使用了語(yǔ)音數(shù)據(jù)的數(shù)據(jù)壓縮(方法)，以減小語(yǔ)音數(shù)據(jù)的數(shù)據(jù)容量。(參見，例如，國(guó)際專利申請(qǐng)的國(guó)家公布No.2000-502539)發(fā)明內(nèi)容盡管，當(dāng)應(yīng)用熵編碼(entropy coding)方法對(duì)表示由人發(fā)出的語(yǔ)音的語(yǔ)音數(shù)據(jù)進(jìn)行壓縮的時(shí)候——該熵編碼方法是一種根據(jù)數(shù)據(jù)的規(guī)律性壓縮數(shù)據(jù)的方法(特別是，算術(shù)編碼，霍夫曼編碼和其他類似的編碼方法)——由于作為一個(gè)整體，語(yǔ)音數(shù)據(jù)不需要具有清晰的周期性，因而壓縮效率低下。
即，如圖11(A)所示，例如，人發(fā)出的語(yǔ)音的波形由顯示具有各種時(shí)長(zhǎng)的規(guī)律性的區(qū)間和不具有清晰的規(guī)律性的區(qū)間組成。也很難從這樣的波形的頻譜分布中找到清晰的規(guī)律性。因此，如果對(duì)表示由人發(fā)出的語(yǔ)音的全部語(yǔ)音數(shù)據(jù)進(jìn)行熵編碼，則壓縮效率是很低的。
此外，如圖11(B)所示，例如，當(dāng)在時(shí)間長(zhǎng)度的規(guī)則時(shí)間間隔處對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行分割的時(shí)候，通常分割時(shí)點(diǎn)(圖11(B)中標(biāo)記為“T1”的時(shí)點(diǎn))與兩個(gè)相鄰音素(圖11(B)中標(biāo)記為“T0”的時(shí)點(diǎn))之間的分界線不一致。因此，很難找到對(duì)于所有單獨(dú)分割的部分通用的規(guī)律性(例如，圖11(B)中標(biāo)記為“P1”和“P2”的部分)，并且因此，這些部分的每一個(gè)的壓縮效率也是低下的。
此外，間距波動(dòng)也是一個(gè)問題。間距容易被人的情緒或意識(shí)所影響。間距在某種程度上可以被視為恒定的周期，但是實(shí)際上，會(huì)發(fā)生微小的波動(dòng)。因此，當(dāng)同一個(gè)講話者發(fā)出相應(yīng)于多個(gè)間距的同一詞語(yǔ)(音素)時(shí)，間距長(zhǎng)度通常不是恒定的。因此，表示一個(gè)音素的波形通常不會(huì)顯示出精確的規(guī)律性，并且因此使用熵編碼壓縮的效率通常是較低的。
本發(fā)明是在考慮了上述情況后完成的，并且它的目標(biāo)是提供一種語(yǔ)音信號(hào)壓縮設(shè)備、語(yǔ)音信號(hào)壓縮方法和程序，用以能夠?qū)崿F(xiàn)對(duì)于表示語(yǔ)音的數(shù)據(jù)的數(shù)據(jù)容量的高效壓縮。
為了實(shí)現(xiàn)上述目的，根據(jù)本發(fā)明第一方面的語(yǔ)音信號(hào)壓縮設(shè)備，其特征在于包括依音素劃分的裝置，用于獲取語(yǔ)音信號(hào)，該語(yǔ)音信號(hào)表示了將要壓縮的語(yǔ)音波形，并將所述語(yǔ)音信號(hào)劃分為表示各單獨(dú)音素波形的各部分；濾波器，用于對(duì)劃分的語(yǔ)音信號(hào)進(jìn)行濾波以提取間距信號(hào)；相位調(diào)整裝置，用于根據(jù)所述濾波器提取的間距信號(hào)將語(yǔ)音信號(hào)分割為各部分，并對(duì)每一個(gè)部分，根據(jù)與間距信號(hào)的相關(guān)性關(guān)系對(duì)相位進(jìn)行調(diào)整；采樣裝置，用于對(duì)由所述相位調(diào)整裝置調(diào)整過相位的每個(gè)區(qū)間，根據(jù)所述相位確定采樣長(zhǎng)度，并根據(jù)所述采樣長(zhǎng)度進(jìn)行采樣，以生成采樣信號(hào)；語(yǔ)音信號(hào)處理裝置，用于根據(jù)相位調(diào)整裝置調(diào)整的結(jié)果和采樣長(zhǎng)度的值，將所述采樣信號(hào)處理成為間距波形信號(hào)；子帶數(shù)據(jù)生成裝置，用于根據(jù)所述間距波形信號(hào)生成子帶數(shù)據(jù)，所述子帶數(shù)據(jù)表示了每個(gè)音素的頻譜分布隨時(shí)間的變化；以及依音素壓縮的裝置，用于根據(jù)針對(duì)由所述子帶數(shù)據(jù)表示的音素而設(shè)定的預(yù)定條件進(jìn)行所述子帶數(shù)據(jù)的數(shù)據(jù)壓縮。
依音素壓縮的裝置可以由以下各部分構(gòu)成可重寫地儲(chǔ)存表的裝置，用于可重寫地存儲(chǔ)表，所述表設(shè)定了要對(duì)表示各個(gè)音素的所述子帶數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮的條件；以及，進(jìn)行所述子帶數(shù)據(jù)的數(shù)據(jù)壓縮的裝置，用于根據(jù)所述表所設(shè)定的條件，對(duì)表示每個(gè)音素的所述子帶數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮。
依音素壓縮的裝置可以通過對(duì)數(shù)據(jù)進(jìn)行非線性量子化處理，對(duì)表示每個(gè)音素的所述子帶數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮，以達(dá)到滿足針對(duì)所述音素而設(shè)定的條件的壓縮比率。
可以為子帶數(shù)據(jù)的每個(gè)頻譜成分設(shè)定優(yōu)先級(jí)；以及以用高分辨率對(duì)具有高優(yōu)先級(jí)的頻譜成分進(jìn)行量子化處理的方式，通過對(duì)子帶數(shù)據(jù)的每個(gè)頻譜成分進(jìn)行量子化，所述依音素壓縮的裝置執(zhí)行對(duì)子帶數(shù)據(jù)的數(shù)據(jù)壓縮。
依音素壓縮的裝置可以通過改變子帶數(shù)據(jù)對(duì)子帶數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮，以顯示在刪除了預(yù)定頻譜成分之后的頻譜分布。
根據(jù)本發(fā)明的第二方面的語(yǔ)音信號(hào)壓縮設(shè)備，其特征在于包括語(yǔ)音信號(hào)處理裝置，用于獲取表示語(yǔ)音波形的語(yǔ)音信號(hào)，并且通過使由分割語(yǔ)音信號(hào)所獲得的多個(gè)區(qū)間的相位實(shí)質(zhì)上均等，將所述語(yǔ)音信號(hào)處理成為間距波形信號(hào)，所述多個(gè)區(qū)間中的每一個(gè)都相應(yīng)于該語(yǔ)音的單位間距；子帶數(shù)據(jù)生成裝置，用于根據(jù)所述間距波形信號(hào)生成所述子帶數(shù)據(jù)，所述子帶數(shù)據(jù)表示每個(gè)音素的頻譜分布隨時(shí)間的變化；以及依音素壓縮的裝置，用于根據(jù)針對(duì)由該部分所表示的音素而設(shè)定的預(yù)定的條件，對(duì)表示所述子帶數(shù)據(jù)的單獨(dú)音素的每一部分進(jìn)行數(shù)據(jù)壓縮。
根據(jù)本發(fā)明的第三方面的語(yǔ)音信號(hào)壓縮設(shè)備，其特征在于包括獲得表示語(yǔ)音波形或者表示語(yǔ)音頻譜分布隨時(shí)間的變化的信號(hào)的裝置；以及，根據(jù)針對(duì)由所述部分所表示的音素而設(shè)定的預(yù)定的條件，對(duì)表示所述獲得信號(hào)的單獨(dú)音素的每個(gè)部分進(jìn)行數(shù)據(jù)壓縮的裝置。
根據(jù)本發(fā)明的第四方面的語(yǔ)音信號(hào)壓縮方法，其特征在于包括獲取表示語(yǔ)音波形或語(yǔ)音頻譜分布隨時(shí)間的變化的信號(hào)；以及根據(jù)針對(duì)由所述部分所表示的音素而設(shè)定的預(yù)定的條件，對(duì)表示所述獲取信號(hào)的單獨(dú)音素的每個(gè)部分進(jìn)行數(shù)據(jù)壓縮。
根據(jù)本發(fā)明的第五方面的程序，其特征在于該程序使計(jì)算機(jī)具有如下功能獲取表示語(yǔ)音波形或表示語(yǔ)音頻譜分布隨時(shí)間變化的信號(hào)；以及根據(jù)針對(duì)由所述部分所表示的音素而設(shè)定的預(yù)定的條件，對(duì)表示所述獲取信號(hào)的單獨(dú)音素的每個(gè)部分進(jìn)行數(shù)據(jù)壓縮。

圖1示出了根據(jù)本發(fā)明的第一實(shí)施例的語(yǔ)音數(shù)據(jù)壓縮器的配置的框圖；圖2(A)示出了優(yōu)先級(jí)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)的圖表，以及圖2(B)以曲線圖的形式示出了優(yōu)先級(jí)數(shù)據(jù)；圖3示出了壓縮比率數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)的圖表；圖4示出了圖1中語(yǔ)音數(shù)據(jù)壓縮器的操作流程的前半部分的圖表；圖5示出了圖1中語(yǔ)音數(shù)據(jù)壓縮器的操作流程的后半部分的圖表；圖6示出了音素標(biāo)記數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)的圖表；圖7(A)和(B)示出了相移前語(yǔ)音數(shù)據(jù)波形的圖表，以及圖7(C)示出了相移后語(yǔ)音數(shù)據(jù)波形的圖表；圖8(A)是示出了圖1或圖9中的間距波形數(shù)據(jù)劃分器對(duì)圖11(A)中的波形進(jìn)行分割的時(shí)點(diǎn)的圖表，圖8(B)是示出了圖1或圖9中的間距波形數(shù)據(jù)劃分器對(duì)圖11(B)中的波形進(jìn)行分割的時(shí)點(diǎn)的圖表；圖9是示出了根據(jù)本發(fā)明的第二實(shí)施例的語(yǔ)音數(shù)據(jù)壓縮器的配置的框圖；圖10是示出了圖9中的間距波形提取部分的配置的框圖；以及圖11(A)示出了人發(fā)出的語(yǔ)音波形的例子的圖表，以及圖11(B)是用于說明現(xiàn)有技術(shù)中分割波形的時(shí)點(diǎn)的圖表。
具體實(shí)施例方式
現(xiàn)在將參考附圖描述本發(fā)明的各實(shí)施例。
(第一實(shí)施例)圖1示出了根據(jù)本發(fā)明的第一實(shí)施例的語(yǔ)音數(shù)據(jù)壓縮器的配置。如圖所示，該語(yǔ)音數(shù)據(jù)壓縮器配置有用于讀取記錄在記錄介質(zhì)上(例如，軟盤，CD-R(光盤刻錄機(jī))或其他介質(zhì))的數(shù)據(jù)的記錄介質(zhì)驅(qū)動(dòng)器SMD(軟盤驅(qū)動(dòng)器和CD-ROM驅(qū)動(dòng)器和類似的驅(qū)動(dòng)器)和連接到該記錄介質(zhì)驅(qū)動(dòng)器SMD的計(jì)算機(jī)C1。
如圖中所示，計(jì)算機(jī)C1由以下部分組成由CPU(中央處理單元)、DSP(數(shù)字信號(hào)處理器)或其他類似的設(shè)備構(gòu)成的處理器，由RAM(隨機(jī)存儲(chǔ)存儲(chǔ)器)或其他類似的存儲(chǔ)器構(gòu)成的易失性存儲(chǔ)器，由硬盤或其他類似的存儲(chǔ)器構(gòu)成的非易失性存儲(chǔ)器，以及由鍵盤或其他類似的輸入設(shè)備構(gòu)成的輸入部分，由液晶顯示器或其他類似的顯示器構(gòu)成的顯示部分，由USB(通用串行總線)接口電路或其他接口電路構(gòu)成的串行通訊控制部分，用于控制與外界的串行通訊，以及其他類似的配置。在計(jì)算機(jī)C1中，預(yù)先存儲(chǔ)了語(yǔ)音數(shù)據(jù)壓縮程序。通過運(yùn)行該語(yǔ)音數(shù)據(jù)壓縮程序，完成將在下文中描述的各操作過程。
在計(jì)算機(jī)C1中，以根據(jù)操作者的操作可以重新寫入的方式存儲(chǔ)壓縮表。壓縮表包括優(yōu)先級(jí)數(shù)據(jù)和壓縮比率數(shù)據(jù)。
該優(yōu)先級(jí)數(shù)據(jù)是用于為語(yǔ)音數(shù)據(jù)的每個(gè)頻譜成分設(shè)定量子化分辨率(quantization resolution)高低(height)的數(shù)據(jù)，其中該語(yǔ)音數(shù)據(jù)要由計(jì)算機(jī)C1根據(jù)語(yǔ)音數(shù)據(jù)壓縮程序進(jìn)行處理。
特別地，優(yōu)先級(jí)數(shù)據(jù)僅需要具有圖2(A)中示出的數(shù)據(jù)結(jié)構(gòu)。可選地，例如它可以由示出在圖2(B)中的曲線圖所顯示的數(shù)據(jù)組成。
示出在圖2(A)或2(B)中的優(yōu)先級(jí)數(shù)據(jù)包括各頻譜成分的頻率和為相互關(guān)聯(lián)的各頻譜成分所設(shè)定的優(yōu)先級(jí)。如在下文的描述，執(zhí)行語(yǔ)音數(shù)據(jù)壓縮程序的計(jì)算機(jī)C1以較高分辨率(具有較大比特?cái)?shù))對(duì)具有較小優(yōu)先級(jí)數(shù)值的頻譜部分進(jìn)行量子化。
作為各音素中每個(gè)音素的相對(duì)值，壓縮比率數(shù)據(jù)是設(shè)定下文描述的子帶數(shù)據(jù)(sub-band)的目標(biāo)壓縮比率的數(shù)據(jù)，該子帶數(shù)據(jù)由計(jì)算機(jī)C1通過下文描述的操作過程生成。特別地，例如，壓縮比率數(shù)據(jù)僅需要具有圖3中示出的數(shù)據(jù)結(jié)構(gòu)。
示出于圖3的壓縮比率數(shù)據(jù)包括標(biāo)記音素的符號(hào)和彼此相關(guān)聯(lián)的音素的相對(duì)壓縮比率的目標(biāo)值。即，例如，在圖3中示出的壓縮比率數(shù)據(jù)中，將音素“a”的相對(duì)壓縮比率的目標(biāo)值設(shè)定為“1.00”，而音素“ch”的相對(duì)壓縮比率的目標(biāo)值設(shè)定為“0.12”。這意味著表示音素“ch”的子帶數(shù)據(jù)的壓縮比率被設(shè)定為是表示音素“a”的子帶數(shù)據(jù)的壓縮比率的0.12倍。因此，根據(jù)示出于圖3的壓縮比率數(shù)據(jù)，例如，如果表示音素“a”的子帶數(shù)據(jù)的壓縮比率為0.5(即，壓縮后的子帶數(shù)據(jù)的數(shù)據(jù)量是壓縮前數(shù)據(jù)量的50％)，用它來進(jìn)行處理，那么應(yīng)當(dāng)進(jìn)行這樣的處理表示音素“ch”的子帶數(shù)據(jù)的壓縮比率為0.06。
壓縮表可以進(jìn)一步包括表示應(yīng)該從語(yǔ)音數(shù)據(jù)中刪除的頻譜成分的數(shù)據(jù)，該語(yǔ)音數(shù)據(jù)是根據(jù)語(yǔ)音數(shù)據(jù)壓縮程序要由計(jì)算機(jī)C1進(jìn)行處理的(在下文中稱為刪除的頻帶數(shù)據(jù))。
(第一實(shí)施例操作)接著，將參考圖4和圖5描述該語(yǔ)音數(shù)據(jù)壓縮器的操作。圖4和圖5示出了圖1中語(yǔ)音數(shù)據(jù)壓縮器的操作流程。
當(dāng)用戶在記錄介質(zhì)驅(qū)動(dòng)器SMD中放置了記錄介質(zhì)(在該記錄介質(zhì)上記錄了后文將描述的表示語(yǔ)音波形和音素標(biāo)記數(shù)據(jù)的語(yǔ)音數(shù)據(jù))并且命令計(jì)算機(jī)C1激活語(yǔ)音數(shù)據(jù)壓縮程序時(shí)，計(jì)算機(jī)C1啟動(dòng)語(yǔ)音數(shù)據(jù)壓縮程序的操作。計(jì)算機(jī)C1首先通過記錄介質(zhì)驅(qū)動(dòng)器SMD從該記錄介質(zhì)上讀取語(yǔ)音數(shù)據(jù)(圖4，步驟S1)。
假定該語(yǔ)音數(shù)據(jù)具有例如PCM(脈沖編碼調(diào)制)調(diào)制的數(shù)字信號(hào)的形式，并且表示已經(jīng)對(duì)語(yǔ)音進(jìn)行了如下的采樣處理以相對(duì)于語(yǔ)音間距來說足夠短的恒定周期進(jìn)行采樣。
同時(shí)，音素標(biāo)記數(shù)據(jù)示出了由該音素?cái)?shù)據(jù)表示的波形的哪個(gè)部分代表哪一個(gè)音素，并且該音素標(biāo)記數(shù)據(jù)具有例如圖6所示的數(shù)據(jù)結(jié)構(gòu)。
例如，圖6中的音素標(biāo)記數(shù)據(jù)顯示了以下各部分一部分是表示靜音的情況，對(duì)應(yīng)于從語(yǔ)音數(shù)據(jù)所表示的波形開始0.20秒的部分；從0.20秒后一直到0.31秒的部分表示了音素“t”的波形(限于本例，接下來的音素是“a”)；從0.31秒后一直到0.39秒的部分表示了音素“a”(限于本例，之前的音素是“t”并且接下來的音素是“k”)；其他部分類似。
回到對(duì)操作的描述，計(jì)算機(jī)C1隨即將從記錄介質(zhì)讀取的語(yǔ)音數(shù)據(jù)分為各個(gè)部分，每個(gè)部分表示了一個(gè)音素(步驟S2)。通過解釋在步驟S1處讀取的音素標(biāo)記數(shù)據(jù)，計(jì)算機(jī)C1可以識(shí)別出表示音素的每個(gè)部分。
接下來，計(jì)算機(jī)C1通過對(duì)每個(gè)語(yǔ)音數(shù)據(jù)進(jìn)行濾波而生成濾波后的語(yǔ)音數(shù)據(jù)(間距信號(hào))，其中所述的每個(gè)語(yǔ)音數(shù)據(jù)是通過為各個(gè)音素劃分語(yǔ)音數(shù)據(jù)而獲得的(步驟S3)。假定間距信號(hào)是以數(shù)字化形式的數(shù)據(jù)所組成的，這種數(shù)字化的形式具有與語(yǔ)音數(shù)據(jù)的采樣間隔大致相同的采樣間隔。
當(dāng)間距信號(hào)的瞬時(shí)值是0的時(shí)候(過零時(shí)刻)，通過基于后文描述的間距長(zhǎng)度和時(shí)間進(jìn)行反饋處理，計(jì)算機(jī)C1決定所要進(jìn)行的濾波的特性以生成間距信號(hào)。
即，計(jì)算機(jī)C1對(duì)每個(gè)語(yǔ)音數(shù)據(jù)進(jìn)行，例如，倒譜分析(cepstrumanalysis)或者基于自相關(guān)函數(shù)的分析，以識(shí)別出由該語(yǔ)音數(shù)據(jù)所表示的語(yǔ)音的基頻，并且計(jì)算機(jī)C1確定該基頻的倒數(shù)的絕對(duì)值(即，間距長(zhǎng)度)(步驟S4)。(可選地，計(jì)算機(jī)C1可以通過同時(shí)進(jìn)行倒譜分析和基于自相關(guān)函數(shù)的分析識(shí)別出兩個(gè)基頻，以將這兩個(gè)基頻的倒數(shù)的絕對(duì)值的平均值確定為間距長(zhǎng)度。)特別地，在倒譜分析中進(jìn)行下述操作首先，將語(yǔ)音數(shù)據(jù)的強(qiáng)度轉(zhuǎn)化為大體等于原始值的對(duì)數(shù)的值(該對(duì)數(shù)的底數(shù)是任意的)；然后，借助快速傅立葉變換的方法(或者其他任何用于生成表示進(jìn)行離散變量的傅立葉變換結(jié)果的數(shù)據(jù)的方法)確定已被轉(zhuǎn)化了值的語(yǔ)音數(shù)據(jù)的頻譜(即，倒譜)；以及隨后，在提供了最大倒譜值的頻率中的最小值被確定為基頻。
此時(shí)，具體說，在基于自相關(guān)函數(shù)的分析中進(jìn)行下述操作首先，利用讀取的語(yǔ)音數(shù)據(jù)來確定由公式1的右邊所表示的自相關(guān)函數(shù)r(1)；然后，從對(duì)自相關(guān)函數(shù)r(1)進(jìn)行傅立葉變換而獲得的函數(shù)的最大值提供的頻率中，將超過預(yù)定下限的最小值確定為基頻(周期圖)。
r(1)=1NΣt=0N-1-1{x(t+1)·x(t)}]]>(其中，語(yǔ)音數(shù)據(jù)的采樣總數(shù)由N表示；以及從語(yǔ)音數(shù)據(jù)的起始處的第α次采樣的值由X(α)表示)計(jì)算機(jī)C1確定當(dāng)間距信號(hào)的過零點(diǎn)來臨時(shí)的時(shí)點(diǎn)(步驟S5)。計(jì)算機(jī)C1隨后判斷間距長(zhǎng)度和間距信號(hào)的過零時(shí)長(zhǎng)(period)是否彼此相差了預(yù)定的量(步驟S6)。如果判斷不是相差了預(yù)定的量，則以使用過零時(shí)長(zhǎng)的倒數(shù)作為中心頻率(center frequency)的帶通濾波器的特性進(jìn)行上文提及的濾波(步驟S7)。相反，如果確定它們彼此相差了預(yù)定的量或者更多，則以使用間距長(zhǎng)度的倒數(shù)作為中心頻率的帶通濾波器的特性進(jìn)行上文提及的濾波(步驟S8)。無論哪一種情況，都希望用于濾波的通頻帶寬度是這樣設(shè)定的該通頻帶的上限總是在由語(yǔ)音數(shù)據(jù)表示的語(yǔ)音基頻的兩倍以內(nèi)。
接下來，在生成的間距信號(hào)的單位時(shí)長(zhǎng)(例如，一個(gè)周期)的邊界來臨時(shí)(具體說，在各間距信號(hào)過零的時(shí)點(diǎn))，計(jì)算機(jī)C1對(duì)從記錄介質(zhì)上讀取的語(yǔ)音數(shù)據(jù)進(jìn)行分割(步驟S9)。然后，對(duì)于由分割后所獲得的各個(gè)區(qū)間，確定在該區(qū)間中各種變化的語(yǔ)音數(shù)據(jù)相位與該區(qū)間中的間距信號(hào)之間的相關(guān)性，并且具有最高相關(guān)性的語(yǔ)音數(shù)據(jù)的相位被確定為該區(qū)間中的語(yǔ)音數(shù)據(jù)的相位(步驟10)。隨后，移動(dòng)語(yǔ)音數(shù)據(jù)的各個(gè)區(qū)間的相位以使得各個(gè)區(qū)間實(shí)質(zhì)上處于同相位。
具體說，對(duì)于每個(gè)區(qū)間，計(jì)算機(jī)C1通過各種變化的表示相位的值(值是0或更大的整數(shù))確定例如由公式2的右邊表示的cor值。提供了cor為最大值時(shí)的值作為Ψ值，將該值確定為在區(qū)間中表示語(yǔ)音數(shù)據(jù)的相位的值。結(jié)果，為區(qū)間確定了與間距信號(hào)具有最高相關(guān)性的相位值。計(jì)算機(jī)C1隨即將語(yǔ)音數(shù)據(jù)的相位在區(qū)間中移動(dòng)(-Ψ)。
(此處，一個(gè)區(qū)間中的采樣數(shù)由n表示；在該區(qū)間中從語(yǔ)音數(shù)據(jù)起始處第β次采樣的值由f(β)表示；在該區(qū)間中從間距信號(hào)起始處第γ次采樣的值由g(γ)表示)圖7(C)示出了一個(gè)波形的例子，該波形是由如上描述的移動(dòng)語(yǔ)音數(shù)據(jù)相位而獲得的數(shù)據(jù)所表示的。在圖7(A)中示出的在相移前語(yǔ)音數(shù)據(jù)的波形中，由于圖7(B)中示出的間距波動(dòng)的影響，由“#1”和“#2”表示的兩個(gè)區(qū)間具有不同的相位。經(jīng)對(duì)比，在相移之后的語(yǔ)音數(shù)據(jù)所表示的波形的兩個(gè)區(qū)間#1和區(qū)間#2的相位彼此相對(duì)應(yīng)，這是由于間距波動(dòng)的影響被消除的緣故，如圖7(C)中所示。如圖7(A)中所示，各區(qū)間的起始點(diǎn)處的數(shù)值接近于0。
一個(gè)區(qū)間的時(shí)間長(zhǎng)度最好基本對(duì)應(yīng)于一個(gè)間距。當(dāng)區(qū)間稍長(zhǎng)時(shí)，將會(huì)導(dǎo)致在該區(qū)間內(nèi)采樣數(shù)增加的問題，并且，由此，間距波形數(shù)據(jù)的數(shù)據(jù)量增加了，或者導(dǎo)致采樣變長(zhǎng)、以及由間距波形數(shù)據(jù)所表示的語(yǔ)音不準(zhǔn)確了。
接下來，計(jì)算機(jī)C1對(duì)相移后的語(yǔ)音數(shù)據(jù)進(jìn)行拉格朗日插值(步驟S12)。即，使用拉格朗日插值法在語(yǔ)音數(shù)據(jù)移相的采樣中間生成表示插值數(shù)值的數(shù)據(jù)。插值之后的語(yǔ)音數(shù)據(jù)是由相移后的語(yǔ)音數(shù)據(jù)和拉格朗日插值數(shù)據(jù)構(gòu)成的。
接著，在插值后，計(jì)算機(jī)C1對(duì)語(yǔ)音數(shù)據(jù)的每個(gè)區(qū)間再次進(jìn)行采樣(重采樣)。還生成了關(guān)于采樣數(shù)的信息，該信息表示了每個(gè)區(qū)間的原始采樣數(shù)的數(shù)據(jù)(步驟S13)。假定計(jì)算機(jī)C1以這樣的方式進(jìn)行重采樣間距波形數(shù)據(jù)的每個(gè)區(qū)間的采樣數(shù)彼此幾乎相同，并且在相同的區(qū)間內(nèi)以規(guī)則的間隔進(jìn)行重采樣。
如果從記錄介質(zhì)讀取的語(yǔ)音數(shù)據(jù)的采樣間隔是已知的，那么關(guān)于采樣數(shù)的信息起到了表示與語(yǔ)音數(shù)據(jù)的單位間距相應(yīng)的區(qū)間的原始時(shí)間長(zhǎng)度信息的作用。
接下來，對(duì)于已經(jīng)在步驟S13使各區(qū)間的時(shí)間長(zhǎng)度相等化的每個(gè)語(yǔ)音數(shù)據(jù)，如果每個(gè)都相應(yīng)于一個(gè)間距的各個(gè)區(qū)間彼此之間存在有高于預(yù)定級(jí)別的相關(guān)性，則計(jì)算機(jī)C1確定這些區(qū)間之間的組合，(步驟S14)。隨后，對(duì)于每個(gè)如此確定的合并，屬于相同組合的每個(gè)區(qū)間的數(shù)據(jù)被這些區(qū)間中的一個(gè)的數(shù)據(jù)所取代，以使這些區(qū)間的波形均等(步驟S15)例如通過在兩個(gè)區(qū)間(其中的每一個(gè)都相應(yīng)于一個(gè)間距)的波形之間確定一個(gè)相關(guān)性系數(shù)并基于每個(gè)確定的相關(guān)性系數(shù)的值，可以確定各個(gè)區(qū)間(其中的每一個(gè)都相應(yīng)于一個(gè)間距)中的相關(guān)程度?？蛇x地，它可以通過以下方式確定通過每個(gè)都相應(yīng)于一個(gè)間距的兩個(gè)區(qū)間中的差，并基于所確定的差的有效值或平均值來確定。接下來，計(jì)算機(jī)C1利用一直進(jìn)行處理直到步驟S15的間距波形數(shù)據(jù)生成子帶數(shù)據(jù)，該子帶數(shù)據(jù)表示了由每個(gè)音素的間距波形數(shù)據(jù)表示的語(yǔ)音的頻譜隨時(shí)間的變化(步驟S16)。具體說，例如，可以通過進(jìn)行如DCT(離散余弦變換)的正交變換，為該間距波形數(shù)據(jù)生成子帶數(shù)據(jù)。
接下來，如果存儲(chǔ)在計(jì)算機(jī)C1的壓縮表中包括了刪除的頻帶數(shù)據(jù)，則計(jì)算機(jī)C1以下列方式將一直到步驟S15所生成的子帶數(shù)據(jù)改變成由刪除頻帶表所設(shè)定的頻譜成分的強(qiáng)度為0(步驟S17)。
接下來，計(jì)算機(jī)C1對(duì)每個(gè)子帶數(shù)據(jù)進(jìn)行非線性量子化，以進(jìn)行子帶數(shù)據(jù)的數(shù)據(jù)壓縮(步驟S18)。即，對(duì)每個(gè)頻率成分的瞬時(shí)值進(jìn)行非線性壓縮而獲得一個(gè)值，通過對(duì)該值進(jìn)行量子化而生成(通過量子化而獲得的值)相應(yīng)的子帶數(shù)據(jù)，其中所述的每個(gè)頻率成分的瞬時(shí)值(具體說，例如，通過將瞬時(shí)值代入到向上凸起的函數(shù)[convex function]而獲得的值)是由已進(jìn)行的一直到步驟S16(或到步驟S17)所處理的各個(gè)子帶數(shù)據(jù)所表示的。
在步驟S18，計(jì)算機(jī)C1確定壓縮特性(非線性量子化之前的子帶數(shù)據(jù)的內(nèi)容和非線性量子化之后的子帶數(shù)據(jù)的內(nèi)容之間的相應(yīng)關(guān)系)，以使得子帶數(shù)據(jù)的壓縮比率是這樣的一個(gè)值它是由壓縮比率數(shù)據(jù)為由子帶數(shù)據(jù)所表示的音素而設(shè)定的相對(duì)目標(biāo)值和預(yù)定總體目標(biāo)值的乘積來確定的。計(jì)算機(jī)C1可以預(yù)先存儲(chǔ)上述提及的總體目標(biāo)值或者可以根據(jù)操作者的操作而獲取它。
通過例如以下的方式可以確定壓縮特性根據(jù)非線性量子化之前的子帶數(shù)據(jù)和非線性量子化之后的子帶數(shù)據(jù)確定子帶數(shù)據(jù)的壓縮比率，以及隨后根據(jù)所確定的壓縮比率進(jìn)行反饋處理或者其他類似的處理。
即，例如，判斷為表示某些音素的子帶數(shù)據(jù)而確定的壓縮比率是否大于該音素的壓縮比率的相對(duì)目標(biāo)值和總體目標(biāo)值的乘積。如果該確定的壓縮比率大于這個(gè)乘積，則確定壓縮特性以使得壓縮比率低于當(dāng)前的比率。相反，如果判斷出該確定的壓縮比率等于或小于該乘積，那么確定壓縮特性以使得壓縮比率高于當(dāng)前的比率。
在步驟S18，計(jì)算機(jī)C1量子化包含在子帶數(shù)據(jù)中的各頻譜成分，以使得具有較小優(yōu)先級(jí)數(shù)值的頻譜成分具有較高的分辨率，該優(yōu)先級(jí)的較低數(shù)值由存儲(chǔ)在計(jì)算機(jī)C1的優(yōu)先級(jí)數(shù)據(jù)示出。
作為一直進(jìn)行到步驟S14的處理結(jié)果，從記錄介質(zhì)上讀取的語(yǔ)音數(shù)據(jù)已經(jīng)被轉(zhuǎn)換為子帶數(shù)據(jù)，該子帶數(shù)據(jù)表示了由語(yǔ)音數(shù)據(jù)所表示的組成語(yǔ)音的每個(gè)音素的頻譜分布的非線性量子化的結(jié)果。計(jì)算機(jī)C1對(duì)子帶數(shù)據(jù)進(jìn)行熵編碼(具體說，例如算術(shù)編碼，霍夫曼編碼，以及其他類似的編碼方式)，并且通過它自身的串行通訊控制部分(步驟S19)，將熵編碼后的子帶數(shù)據(jù)和在步驟S13生成的有關(guān)采樣數(shù)的信息輸出到外部。
通過前述步驟S16的處理，作為對(duì)具有如圖11(A)中示出的波形的原始語(yǔ)音數(shù)據(jù)進(jìn)行的劃分結(jié)果而獲得的每個(gè)語(yǔ)音數(shù)據(jù)是，例如，通過在時(shí)點(diǎn)“t1”到“t9”對(duì)原始語(yǔ)音數(shù)據(jù)進(jìn)行劃分而獲得的每個(gè)語(yǔ)音數(shù)據(jù)，只要在音素標(biāo)記數(shù)據(jù)的內(nèi)容中沒有錯(cuò)誤，如圖8(A)中所示，這些時(shí)點(diǎn)是不同音素間的分界線(或者是語(yǔ)音的結(jié)尾)。
如果具有圖11(B)中示出的波形的語(yǔ)音數(shù)據(jù)通過步驟S16的處理被劃分為多個(gè)部分，只要在音位標(biāo)記數(shù)據(jù)內(nèi)容中沒有錯(cuò)誤，就會(huì)正確地選擇了兩個(gè)相鄰音素的分界線“T0”作為如圖8(B)中示出的分割時(shí)點(diǎn)，而非圖11(B)中顯示的分割的方法。因而，就可能在通過這個(gè)處理獲得的每個(gè)部分的波形中防止多個(gè)音素的波形的混雜(例如，圖8(B)中標(biāo)記為“P3”或“P4”部分的波形)。
經(jīng)劃分的語(yǔ)音數(shù)據(jù)被處理成間距波形數(shù)據(jù)，并且隨即轉(zhuǎn)換為子帶數(shù)據(jù)。該間距波形數(shù)據(jù)是區(qū)間時(shí)長(zhǎng)已被標(biāo)準(zhǔn)化并且間距波動(dòng)影響已被消除了的語(yǔ)音數(shù)據(jù)，所述區(qū)間中的每一個(gè)都對(duì)應(yīng)于單位間距。因此，利用間距波形數(shù)據(jù)生成的每個(gè)子帶數(shù)據(jù)都精確地表示了由原始語(yǔ)音數(shù)據(jù)表示的每個(gè)音素的頻譜分布隨時(shí)間的變化。
由于劃分的音素?cái)?shù)據(jù)、間距波形數(shù)據(jù)和子帶數(shù)據(jù)具有前文描述的特性，因此對(duì)特定頻譜成分的刪除操作、或者對(duì)于每個(gè)音素和每個(gè)頻譜成分用不同的壓縮特性進(jìn)行非線性量子化的處理都可以精確地執(zhí)行。此外，非線性量子化子帶數(shù)據(jù)的熵編碼操作也可以高效地執(zhí)行。因此，能夠不損失原始語(yǔ)音數(shù)據(jù)的語(yǔ)音質(zhì)量而高效地進(jìn)行數(shù)據(jù)壓縮。
非線性量子化處理或者頻譜成分的刪除是根據(jù)示出在壓縮表中的對(duì)每個(gè)音素或者每個(gè)頻率的條件而進(jìn)行的。因而，通過變化地對(duì)壓縮表的內(nèi)容進(jìn)行重寫，能夠以適合音素特性或者適合人類聲學(xué)感受的頻帶特性的方式進(jìn)行精確且恰當(dāng)?shù)臄?shù)據(jù)壓縮。
例如，摩擦音具有這樣的特性即使它被顯著地扭曲了，對(duì)比其他種類的音素，它還是很難在聲學(xué)上辨認(rèn)出異常情況。因而，對(duì)比其他種類的音素，摩擦音的高壓縮(具有小的壓縮率數(shù)值)是沒有問題的。至于具有與正弦波相近的波形的音素，例如元音聲，即使除了正弦波以外的頻譜成分被刪除或者以低于正弦波的頻譜成分的分辨率進(jìn)行量子化，語(yǔ)音質(zhì)量也不會(huì)大幅下降。
對(duì)于低于十幾赫茲人難于聽到的成分和高于數(shù)十千赫茲的成分，即使該成分以低于其他成分的分辨率進(jìn)行量子化或者被刪除，也不會(huì)導(dǎo)致語(yǔ)音質(zhì)量在聲學(xué)上有更多的下降。
通過變化地對(duì)壓縮表的內(nèi)容進(jìn)行重寫，能夠?qū)缍鄠€(gè)講話者發(fā)出的語(yǔ)音以適合于每個(gè)講話者語(yǔ)音特點(diǎn)的方式進(jìn)行精確且恰當(dāng)?shù)臄?shù)據(jù)壓縮。
由于間距波形數(shù)據(jù)的每個(gè)區(qū)間的原始時(shí)長(zhǎng)可以利用關(guān)于采樣數(shù)的信息來確定，因此，通過對(duì)壓縮的語(yǔ)音數(shù)據(jù)進(jìn)行IDCT(反離散余弦變換)，以獲取表示語(yǔ)音波形的數(shù)據(jù)，并且隨后將該數(shù)據(jù)的每個(gè)區(qū)間的時(shí)長(zhǎng)恢復(fù)為原始語(yǔ)音數(shù)據(jù)，從而能夠很容易地恢復(fù)原始語(yǔ)音數(shù)據(jù)。
該語(yǔ)音數(shù)據(jù)壓縮器的配置不僅限于前文描述的配置。
例如，計(jì)算機(jī)C1可以通過串行通訊控制部分獲取串行地從外部傳送來的語(yǔ)音數(shù)據(jù)或者音素標(biāo)記數(shù)據(jù)。語(yǔ)音數(shù)據(jù)或者音素標(biāo)記數(shù)據(jù)可以通過通訊線路，例如電話線、專線和衛(wèi)星通訊線路(satellite line)從外部獲得。在這種情況下，計(jì)算機(jī)C1只需要配置例如調(diào)制解調(diào)器、DSU(數(shù)據(jù)服務(wù)單元)和其他類似功能的裝置。如果語(yǔ)音或者音素標(biāo)記數(shù)據(jù)是從除了記錄介質(zhì)驅(qū)動(dòng)器SMD以外的任何地方獲取的，則計(jì)算機(jī)C1無需配置記錄介質(zhì)驅(qū)動(dòng)器SMD。語(yǔ)音數(shù)據(jù)和音素標(biāo)記數(shù)據(jù)可以通過不同的途徑分別獲得。
計(jì)算機(jī)C1可以通過通訊線路或者其他類似的設(shè)備從外部獲取并存儲(chǔ)壓縮表?？蛇x地，也可以將記錄有壓縮表的記錄介質(zhì)放在記錄介質(zhì)驅(qū)動(dòng)器SMD中，并且操作計(jì)算機(jī)C1的輸入部分，使得計(jì)算機(jī)C1通過記錄介質(zhì)驅(qū)動(dòng)器SMD對(duì)記錄在記錄介質(zhì)上的壓縮表進(jìn)行讀取或存儲(chǔ)。壓縮表并不需要一定包含有優(yōu)先級(jí)數(shù)據(jù)。
計(jì)算機(jī)C1可以配置有語(yǔ)音收集器，它由下述部分組成麥克風(fēng)、AF放大器、采樣器、A/D(模-數(shù))轉(zhuǎn)換器、PCM編碼器或者其他部件。語(yǔ)音收集器通過如下步驟獲取語(yǔ)音數(shù)據(jù)通過對(duì)語(yǔ)音收集器的麥克風(fēng)采集的表示語(yǔ)音的語(yǔ)音信號(hào)進(jìn)行放大；對(duì)該語(yǔ)音信號(hào)進(jìn)行采樣和A/D轉(zhuǎn)換；以及隨后對(duì)已進(jìn)行采樣的語(yǔ)音信號(hào)進(jìn)行PCM調(diào)制。由計(jì)算機(jī)C1獲取的語(yǔ)音數(shù)據(jù)不需要一定是PCM信號(hào)。
計(jì)算機(jī)C1可以通過記錄介質(zhì)驅(qū)動(dòng)器SMD，將壓縮的語(yǔ)音數(shù)據(jù)或者關(guān)于采樣數(shù)的信息寫入到放在記錄介質(zhì)驅(qū)動(dòng)器SMD中的記錄介質(zhì)上，或者可以將其寫入到由硬盤或者其他類似設(shè)備構(gòu)成的外部存儲(chǔ)設(shè)備上。在這種情況下，計(jì)算機(jī)C1只需要配置記錄介質(zhì)驅(qū)動(dòng)器和諸如硬盤控制器的控制電路。
計(jì)算機(jī)C1可以通過串行通訊控制部分輸出數(shù)據(jù)，該數(shù)據(jù)表示步驟S18是用哪種分辨率對(duì)子帶數(shù)據(jù)的每個(gè)頻譜成分進(jìn)行量子化處理的，或者計(jì)算機(jī)C1可以通過記錄介質(zhì)驅(qū)動(dòng)器SMD將該數(shù)據(jù)寫入到放在記錄介質(zhì)驅(qū)動(dòng)器SMD中的記錄介質(zhì)上。將原始語(yǔ)音數(shù)據(jù)劃分為表示各單獨(dú)音素的各部分的方法可以是任何方法。例如，可以預(yù)先將原始語(yǔ)音數(shù)據(jù)劃分為音素，或者可以在原始語(yǔ)音數(shù)據(jù)被處理為間距波形數(shù)據(jù)后再進(jìn)行劃分?？蛇x地，可以在轉(zhuǎn)換為子帶數(shù)據(jù)之后進(jìn)行劃分。此外，還能夠?qū)φZ(yǔ)音數(shù)據(jù)、間距波形數(shù)據(jù)或者子帶數(shù)據(jù)進(jìn)行分析，以識(shí)別出表示每個(gè)音素的區(qū)間，并且剪切所識(shí)別出的區(qū)間。
計(jì)算機(jī)C1可以跳過S16和S17的處理。在這種情況下，通過對(duì)在步驟S18處表示各單獨(dú)音素的間距波形數(shù)據(jù)的每個(gè)部分進(jìn)行非線性量子化處理，可以進(jìn)行間距波形數(shù)據(jù)的數(shù)據(jù)壓縮。隨后，在步驟S19處，可以對(duì)壓縮后的間距波形數(shù)據(jù)進(jìn)行熵編碼并輸出，以取代壓縮后的子帶數(shù)據(jù)。
此外，計(jì)算機(jī)C1可以不進(jìn)行倒譜分析或基于自相關(guān)函數(shù)的分析中的任意一個(gè)。在這種情況下，由倒譜分析和基于自相關(guān)函數(shù)的分析的任意一個(gè)所確定的基頻的倒數(shù)即可被直接作為間距長(zhǎng)度。
此外，計(jì)算機(jī)C1在語(yǔ)音數(shù)據(jù)的每個(gè)區(qū)間中移動(dòng)語(yǔ)音數(shù)據(jù)相位的量不需要一定是(-Ψ)。例如，伴隨對(duì)于所有區(qū)間共用的表示了初始相位的實(shí)數(shù)δ，對(duì)于每個(gè)區(qū)間，計(jì)算機(jī)C1可以將語(yǔ)音數(shù)據(jù)的相位移動(dòng)(-Ψ+δ)。計(jì)算機(jī)C1分割語(yǔ)音數(shù)據(jù)的語(yǔ)音數(shù)據(jù)的位置不需要一定是在間距信號(hào)的過零時(shí)點(diǎn)處。例如，該位置可以位于間距信號(hào)是除了0以外的預(yù)定值時(shí)的時(shí)點(diǎn)。
然而，如果假定初始相位α為0，并且在間距信號(hào)的過零時(shí)點(diǎn)處分割語(yǔ)音數(shù)據(jù)，則每個(gè)區(qū)間的起始點(diǎn)的值接近于0，并且因此，由于將語(yǔ)音數(shù)據(jù)分割為各區(qū)間而使包含在每個(gè)區(qū)間內(nèi)的噪聲的數(shù)量將會(huì)減少。
壓縮比率數(shù)據(jù)可以是這樣的數(shù)據(jù)其中表示每個(gè)音素的子帶數(shù)據(jù)的壓縮比率被設(shè)定為絕對(duì)值而不是相對(duì)值(例如，如前文所述的，用總體目標(biāo)值乘以一個(gè)系數(shù))。
計(jì)算機(jī)C1不需要是一個(gè)專用系統(tǒng)。它可以是個(gè)人電腦或其他類似的設(shè)備。語(yǔ)音數(shù)據(jù)壓縮程序可以從存儲(chǔ)有該語(yǔ)音數(shù)據(jù)壓縮程序的介質(zhì)(CD-ROM，MO，軟盤或其他類似設(shè)備)上安裝到計(jì)算機(jī)C1上。可選地，間距波形提取程序可以加載到通訊線路的公告牌系統(tǒng)(BBS)并且通過該通訊線路遞送。還能夠用表示該語(yǔ)音數(shù)據(jù)壓縮程序的信號(hào)對(duì)載波進(jìn)行調(diào)制，并且發(fā)送所獲得的調(diào)制后的波形。隨后接收到調(diào)制后波性的設(shè)備對(duì)其進(jìn)行解調(diào)，以恢復(fù)語(yǔ)音數(shù)據(jù)壓縮程序。
通過在類似于其他應(yīng)用程序的操作系統(tǒng)的控制下被激活并由計(jì)算機(jī)C1執(zhí)行，語(yǔ)音數(shù)據(jù)壓縮程序可以進(jìn)行上述的處理。如果操作系統(tǒng)參與了上述處理的一部分，則用于控制該處理的部分可以從存儲(chǔ)在記錄介質(zhì)上的語(yǔ)音壓縮程序中去除。
(第二實(shí)施例)接下來，將描述本發(fā)明的第二實(shí)施例。
圖9示出了根據(jù)本發(fā)明第二實(shí)施例的語(yǔ)音數(shù)據(jù)壓縮器的配置。如圖所示，該語(yǔ)音數(shù)據(jù)壓縮器由以下部分構(gòu)成語(yǔ)音輸入部分1、語(yǔ)音數(shù)據(jù)劃分部分2、間距波形提取部分3、相似波形檢測(cè)部分4、波形均等化部分5、正交變換部分6、壓縮表存儲(chǔ)部分7、頻帶控制部分8、非線性量子化部分9、熵編碼部分10和比特流形成部分11。
語(yǔ)音輸入部分1配置有，例如，記錄介質(zhì)驅(qū)動(dòng)器或者類似于第一實(shí)施例中的記錄介質(zhì)驅(qū)動(dòng)器SMD的設(shè)備。
語(yǔ)音輸入部分1，例如，通過從記錄數(shù)據(jù)的記錄介質(zhì)上讀取數(shù)據(jù)，獲取表示語(yǔ)音波形的語(yǔ)音數(shù)據(jù)和前文提及的音素標(biāo)記數(shù)據(jù)，并且將這些數(shù)據(jù)提供給語(yǔ)音數(shù)據(jù)劃分部分2。假設(shè)語(yǔ)音數(shù)據(jù)是PCM調(diào)制的數(shù)字信號(hào)的格式，并且該語(yǔ)音數(shù)據(jù)表示已經(jīng)用相對(duì)于語(yǔ)音間距足夠短的恒定周期進(jìn)行了采樣的語(yǔ)音。
語(yǔ)音數(shù)據(jù)劃分部分2，間距波形提取部分3、相似波形檢測(cè)部分4、波形均等化部分5、正交變換部分6、頻帶控制部分8、非線性量子化部分9和熵編碼部分10都由諸如DSP和CPU的處理器構(gòu)成。
間距波形提取部分3、相似波形檢測(cè)部分4、波形均等化部分5、正交變換部分6、頻帶控部分8、非線性量子化部分9和熵編碼部分10的部分功能或者全部功能可以由單獨(dú)的處理器實(shí)現(xiàn)。
當(dāng)從語(yǔ)音輸入部分1提供了語(yǔ)音數(shù)據(jù)和音素標(biāo)記數(shù)據(jù)時(shí)，語(yǔ)音數(shù)據(jù)劃分部分2將提供的語(yǔ)音數(shù)據(jù)劃分成各部分，每個(gè)部分代表了每個(gè)音素，這些音素構(gòu)成了由語(yǔ)音數(shù)據(jù)表示的語(yǔ)音，并且將該語(yǔ)音數(shù)據(jù)提供給間距波形提取部分3。語(yǔ)音數(shù)據(jù)劃分部分2基于從語(yǔ)音輸入部分1提供的音素標(biāo)記數(shù)據(jù)的內(nèi)容來確定表示各音素的每個(gè)部分。
間距波形提取部分3進(jìn)一步將由語(yǔ)音數(shù)據(jù)劃分部分2提供的每個(gè)語(yǔ)音數(shù)據(jù)劃分為各區(qū)間，每個(gè)區(qū)間相應(yīng)于由語(yǔ)音數(shù)據(jù)表示的語(yǔ)音的單位間距(例如，一個(gè)間距)。隨后，通過對(duì)這些區(qū)間進(jìn)行移相并重采樣，間距波形提取部分3使這些區(qū)間的相位和時(shí)長(zhǎng)相等，以此使它們大體相同。這些區(qū)間的相位和時(shí)長(zhǎng)已經(jīng)相等的語(yǔ)音數(shù)據(jù)(間距波形數(shù)據(jù))隨即被提供給相似波形檢測(cè)部分4和波形均等化部分5。
間距波形提取部分3生成關(guān)于采樣數(shù)的信息并將它提供給熵編碼部分10，該信息表示了語(yǔ)音數(shù)據(jù)的每個(gè)部分的原始采樣數(shù)量。
例如，如圖10所示，間距波形提取部分3功能性由以下部分構(gòu)成倒譜分析部分301、自相關(guān)性分析部分302、權(quán)重計(jì)算部分303、BPF(帶通濾波器)系數(shù)計(jì)算部分304、帶通濾波器305、過零分析部分306、波形相關(guān)性分析部分307、相位調(diào)整部分308、插值部分309和間距長(zhǎng)度調(diào)整部分310。
倒譜分析部分301、自相關(guān)性分析部分302、權(quán)重計(jì)算部分303、BPF(帶通濾波器)系數(shù)計(jì)算部分304、帶通濾波器305、過零分析部分306、波形相關(guān)性分析部分307、相位調(diào)整部分308、插值部分309和間距長(zhǎng)度調(diào)整部分310的全部或部分功能都可以由單獨(dú)的處理器完成。
間距波形提取部分3利用倒譜分析和基于自相關(guān)函數(shù)的分析一起確定間距長(zhǎng)度。
即，倒譜分析部分301首先對(duì)由語(yǔ)音數(shù)據(jù)劃分部分2提供的語(yǔ)音數(shù)據(jù)進(jìn)行倒譜分析，以確定語(yǔ)音數(shù)據(jù)表示的語(yǔ)音的基頻，生成表示已確定了基頻的數(shù)據(jù)，并且將它提供給權(quán)重計(jì)算部分303。具體說，當(dāng)語(yǔ)音數(shù)據(jù)劃分部分2提供了語(yǔ)音數(shù)據(jù)的時(shí)候，倒譜分析部分301將語(yǔ)音數(shù)據(jù)的強(qiáng)度轉(zhuǎn)換成實(shí)質(zhì)上等于原始值的對(duì)數(shù)(該對(duì)數(shù)的底數(shù)為任意數(shù))的數(shù)值。
隨后，倒譜分析部分301通過快速傅立葉變換的方法(或者其他任何方法，用于生成表示進(jìn)行離散變量的傅立葉變換結(jié)果的數(shù)據(jù))確定已被轉(zhuǎn)換了值的語(yǔ)音數(shù)據(jù)的頻譜(即倒譜)。
隨后，提供了最大倒譜值的各頻率中的最小值被確定為基頻，生成表示該確定基頻的數(shù)據(jù)并將它提供給權(quán)重計(jì)算部分303。
同時(shí)，當(dāng)語(yǔ)音數(shù)據(jù)劃分部分2提供了語(yǔ)音數(shù)據(jù)的時(shí)候，自相關(guān)性分析部分302根據(jù)語(yǔ)音數(shù)據(jù)波形的自相關(guān)函數(shù)確定了由語(yǔ)音數(shù)據(jù)表示的語(yǔ)音的基頻，生成表示該確定基頻的數(shù)據(jù)并將該數(shù)據(jù)發(fā)送給權(quán)重計(jì)算部分303。
具體說，當(dāng)語(yǔ)音數(shù)據(jù)劃分部分2提供了語(yǔ)音數(shù)據(jù)的時(shí)候，自相關(guān)性分析部分302首先確定前文描述的自相關(guān)函數(shù)r(1)。隨后，從對(duì)確定的自相關(guān)函數(shù)r(1)進(jìn)行了傅立葉變換的結(jié)果中獲得的周期圖的最大值所提供的頻率中，將超過預(yù)定下限的最小值確定為基頻，生成表示確定基頻的數(shù)據(jù)并且將該數(shù)據(jù)提供給權(quán)重計(jì)算部分303。
當(dāng)兩個(gè)表示基頻的數(shù)據(jù)全都被提供的時(shí)候(一個(gè)來自倒譜分析部分301而一個(gè)來自自相關(guān)性分析部分302)，權(quán)重計(jì)算部分303確定由這兩個(gè)數(shù)據(jù)所表示的基頻的倒數(shù)的絕對(duì)值的平均值。隨后，生成表示該確定值的數(shù)據(jù)(即，平均間距長(zhǎng)度)，并且將其提供給BPF系數(shù)計(jì)算部分304。
當(dāng)權(quán)重計(jì)算部分303提供了表示平均間距長(zhǎng)度的數(shù)據(jù)而且過零分析部分306提供了下文將描述的過零信號(hào)的時(shí)候，BPF系數(shù)計(jì)算部分304根據(jù)所提供的數(shù)據(jù)和過零信號(hào)判斷平均間距長(zhǎng)度、間距信號(hào)和過零時(shí)長(zhǎng)是否彼此相差一個(gè)預(yù)定的量或者更大。如果判斷為否，則對(duì)帶通濾波器305的頻率特性進(jìn)行控制，以將過零時(shí)長(zhǎng)的倒數(shù)設(shè)定為中心頻率(帶通濾波器305的通帶的中心頻率)。相反，如果判斷它們相差了預(yù)定的量或更大，則對(duì)帶通濾波器305的頻率特性進(jìn)行控制，以將平均間距長(zhǎng)度的倒數(shù)設(shè)定為中心頻率。
帶通濾波器305執(zhí)行FIR(有限脈沖響應(yīng))類型濾波器的功能，其中心頻率是可變的。
具體說，帶通濾波器305根據(jù)BPF系數(shù)計(jì)算部分304的控制，將它自身的中心頻率設(shè)置為某一值。隨后，帶通濾波器305對(duì)從語(yǔ)音數(shù)據(jù)劃分部分2提供的語(yǔ)音數(shù)據(jù)進(jìn)行濾波，并且將濾波后的語(yǔ)音數(shù)據(jù)(間距信號(hào))提供給過零分析部分306和波形相關(guān)性分析部分307。間距信號(hào)由數(shù)字形式的數(shù)據(jù)構(gòu)成，具有與語(yǔ)音數(shù)據(jù)的采樣間隔大體上相同的采樣間隔。希望帶通濾波器305具有這樣的帶寬帶通濾波器305的通頻帶的上限總是在由語(yǔ)音數(shù)據(jù)所表示的語(yǔ)音的基頻的兩倍以內(nèi)。
當(dāng)帶通濾波器305提供的間距信號(hào)的瞬時(shí)值為0的時(shí)刻到來時(shí)，過零分析部分306確定這個(gè)時(shí)點(diǎn)，并且將這個(gè)表示該確定的時(shí)點(diǎn)的信號(hào)提供給BPF系數(shù)計(jì)算部分304。按這種方法，確定語(yǔ)音數(shù)據(jù)的間距長(zhǎng)度。
然而，當(dāng)間距信號(hào)的瞬時(shí)值是除了0以外的預(yù)定值的時(shí)刻到來時(shí)，過零分析部分306也可以確定這個(gè)時(shí)點(diǎn)，并且用表示該確定時(shí)點(diǎn)的信號(hào)取代過零信號(hào)提供給BPF系數(shù)計(jì)算部分304。
當(dāng)語(yǔ)音數(shù)據(jù)劃分部分2提供了語(yǔ)音數(shù)據(jù)并且?guī)V波器305提供了間距信號(hào)的時(shí)候，波形相關(guān)性分析部分307在間距信號(hào)的單位周期(例如一個(gè)周期)的邊界來臨的時(shí)點(diǎn)處分割語(yǔ)音數(shù)據(jù)。隨后，對(duì)于通過分割獲得的各個(gè)部分，在區(qū)間中語(yǔ)音數(shù)據(jù)的各種變化的相位和區(qū)間中的間距信號(hào)之間確定相關(guān)性，并且具有最高相關(guān)性的語(yǔ)音數(shù)據(jù)的相位被確定為該區(qū)間內(nèi)語(yǔ)音數(shù)據(jù)的相位。按這個(gè)方法，確定每個(gè)區(qū)間的語(yǔ)音數(shù)據(jù)的相位。
具體說，例如，波形相關(guān)性分析部分307為每個(gè)區(qū)間確定前文所述的值Ψ，生成表示值Ψ的數(shù)據(jù)，并且將該數(shù)據(jù)提供給相位調(diào)整部分308作為表示區(qū)間內(nèi)語(yǔ)音數(shù)據(jù)相位的相位數(shù)據(jù)。一個(gè)區(qū)間的時(shí)長(zhǎng)希望與一個(gè)間距基本上相對(duì)應(yīng)。
當(dāng)數(shù)據(jù)劃分部分2提供了語(yǔ)音數(shù)據(jù)并且波形相關(guān)性分析部分307提供了表示語(yǔ)音數(shù)據(jù)的每個(gè)區(qū)間的相位Ψ的數(shù)據(jù)的時(shí)候，相位調(diào)整部分308通過將每個(gè)區(qū)間的語(yǔ)音數(shù)據(jù)的相位移動(dòng)(-Ψ)來均等化各區(qū)間的相位。隨后，經(jīng)過相移的數(shù)據(jù)被提供給插值部分309。
插值部分309對(duì)相位調(diào)整部分308提供的語(yǔ)音數(shù)據(jù)(經(jīng)過相移的語(yǔ)音數(shù)據(jù))進(jìn)行拉格朗日插值，并將其提供給間距長(zhǎng)度調(diào)整部分310。
當(dāng)插值部分309提供了已經(jīng)過拉格朗日插值處理的語(yǔ)音數(shù)據(jù)的時(shí)候，間距長(zhǎng)度調(diào)整部分310對(duì)所提供的語(yǔ)音數(shù)據(jù)的每個(gè)區(qū)間進(jìn)行重采樣以均等化各區(qū)間的時(shí)長(zhǎng)，以使得它們大體上相同。隨后，各區(qū)間時(shí)長(zhǎng)已經(jīng)均等化過的語(yǔ)音數(shù)據(jù)(即，間距波形數(shù)據(jù))被提供給相似波形檢測(cè)部分4和波形均等化部分5。
間距長(zhǎng)度調(diào)整部分310生成關(guān)于采樣數(shù)的信息，該采樣數(shù)表示了語(yǔ)音數(shù)據(jù)的每個(gè)區(qū)間的原始采樣數(shù)(當(dāng)從語(yǔ)音數(shù)據(jù)劃分部分2提供給間距長(zhǎng)度調(diào)整部分310時(shí)，該語(yǔ)音數(shù)據(jù)的每個(gè)區(qū)間的采樣數(shù))并且將該信息提供給熵編碼部分10。
當(dāng)間距波形提取部分3提供了各區(qū)間時(shí)長(zhǎng)已被均等化過的每個(gè)語(yǔ)音數(shù)據(jù)(即，間距波形數(shù)據(jù))的時(shí)候，相似波形檢測(cè)部分4確定各區(qū)間之間的組合，這些區(qū)間中的每一個(gè)都相應(yīng)于一個(gè)間距并且顯示了彼此間高于預(yù)定級(jí)別的高相關(guān)性，如果有任何這樣的區(qū)間存在。隨后，將該確定的組合通知到波形均等化部分5。
例如，通過在兩個(gè)區(qū)間(其中的每個(gè)都相應(yīng)于一個(gè)間距)的波形中確定一個(gè)相關(guān)性系數(shù)并根據(jù)該確定的相關(guān)性系數(shù)的值，可以確定各區(qū)間(其中的每個(gè)都相應(yīng)于一個(gè)間距)之間的相關(guān)度。可選地，可以通過確定兩個(gè)區(qū)間(每個(gè)都相應(yīng)于一個(gè)間距)之間的差值并根據(jù)該差值的平均值或者實(shí)際值來確定相關(guān)性。當(dāng)間距波形提取部分3提供了間距波形數(shù)據(jù)、并由波形檢測(cè)部分4通知了各區(qū)間之間的組合(這些區(qū)間中的每一個(gè)都相應(yīng)于一個(gè)間距并且顯示了彼此間高于預(yù)定級(jí)別的高相關(guān)性)，波形均等化部分5對(duì)所提供的間距波形數(shù)據(jù)中的由相似波形檢測(cè)部分4通知的屬于該組合的各區(qū)間中的波形進(jìn)行均等化。即，對(duì)于各個(gè)通知的組合，屬于同一組合的各區(qū)間的數(shù)據(jù)由這些區(qū)間中的任意一個(gè)的數(shù)據(jù)所替代。隨后，將波形已被均等化的間距波形數(shù)據(jù)提供給正交變換部分6。
正交變換部分6對(duì)波形均等化部分5提供的間距波形數(shù)據(jù)進(jìn)行諸如DCT的正交變換，以生成前文所述的子帶數(shù)據(jù)。隨后，將生成的子帶數(shù)據(jù)提供給頻帶控制部分8。
壓縮表存儲(chǔ)部分7由諸如RAM的易失性存儲(chǔ)器或者諸如EEPROM(電可擦除的/可編程只讀存儲(chǔ)器)、硬盤設(shè)備和閃存器的非易失性存儲(chǔ)器等構(gòu)成。
壓縮表存儲(chǔ)部分7根據(jù)操作者的操作，可重寫地存儲(chǔ)前文提及的壓縮表，并且使得存儲(chǔ)在壓縮表存儲(chǔ)部分7中的壓縮表的至少一部分能由頻帶控制部分8或者非線性量子化部分9讀取，以響應(yīng)來自頻帶控制部分8和非線性量子化部分9的訪問。
頻帶控制部分8訪問壓縮表存儲(chǔ)部分7以判斷存儲(chǔ)在壓縮表存儲(chǔ)部分7中的壓縮表中是否包含有刪除的頻帶數(shù)據(jù)。如果判斷不包含該類數(shù)據(jù)，則將由正交變換部分6提供的子帶數(shù)據(jù)直接提供給非線性量子化部分9。相反地，如果判斷包含有刪除的頻帶數(shù)據(jù)，則讀取刪除的頻帶數(shù)據(jù)，改變由正交變換部分6提供的子帶數(shù)據(jù)，以使得由該刪除的頻帶數(shù)據(jù)所表示的頻譜成分的強(qiáng)度為0，并且隨后將該子帶數(shù)據(jù)提供給非線性量子化部分9。
當(dāng)頻帶控制部分8提供了子帶數(shù)據(jù)的時(shí)候，非線性量子化部分9生成相應(yīng)于由量子化一個(gè)值獲得的子帶數(shù)據(jù)，該值是通過非線性地壓縮該子帶數(shù)據(jù)所表示的每個(gè)頻率成分的瞬時(shí)值而獲得的，并且將生成的子帶數(shù)據(jù)(非線性量子化過的子帶數(shù)據(jù))提供給熵編碼部分10。
非線性量子化部分9根據(jù)存儲(chǔ)在壓縮表存儲(chǔ)部分7中的壓縮表設(shè)定的條件非線性地量子化子帶數(shù)據(jù)。即，非線性量子化部分9根據(jù)壓縮特性進(jìn)行非線性量子化，以使得子帶數(shù)據(jù)的壓縮比率成為由預(yù)定的總體目標(biāo)值和相對(duì)目標(biāo)值的乘積所決定的數(shù)值，該相對(duì)目標(biāo)值是由包含在壓縮表中的壓縮比率數(shù)據(jù)為子帶數(shù)據(jù)表示的音素而設(shè)定的。非線性量子化部分9以具有較小優(yōu)先級(jí)數(shù)值的頻譜成分用高分辨率進(jìn)行量子化的方式對(duì)包含在子帶數(shù)據(jù)中的每個(gè)頻譜成分進(jìn)行量子化，該優(yōu)先級(jí)數(shù)據(jù)是在包含于壓縮表中的優(yōu)先級(jí)數(shù)據(jù)所設(shè)定的。
總體目標(biāo)值可以預(yù)先存儲(chǔ)在壓縮表存儲(chǔ)部分或者可由非線性量子化部分9根據(jù)操作者的操作而獲得。
熵編碼部分10將由非線性量子化部分9提供的非線性量子化過的子帶數(shù)據(jù)和由間距波形提取部分3提供的關(guān)于采樣數(shù)的信息轉(zhuǎn)化為熵編碼(例如，算術(shù)編碼或者霍夫曼編碼)，并且將它們彼此相關(guān)地提供給比特流形成部分11。
比特流形成部分11由用于控制與外界進(jìn)行串行通訊、符合諸如USB標(biāo)準(zhǔn)的串行接口電路和諸如CPU的處理器構(gòu)成。比特流形成部分11生成并輸出由熵編碼部分10提供的表示了經(jīng)熵編碼的子帶數(shù)據(jù)(壓縮的語(yǔ)音數(shù)據(jù))和經(jīng)熵編碼的關(guān)于采樣數(shù)的信息的比特流。
在圖9中由語(yǔ)音數(shù)據(jù)壓縮器輸出的經(jīng)壓縮的語(yǔ)音數(shù)據(jù)表示了每個(gè)音素的頻譜分布的非線性量子化的結(jié)果，這些音素構(gòu)成了由語(yǔ)音數(shù)據(jù)所表示的語(yǔ)音。這些經(jīng)壓縮的語(yǔ)音數(shù)據(jù)也是基于間距波形數(shù)據(jù)而生成的，該間距波形數(shù)據(jù)中各區(qū)間(每個(gè)都相應(yīng)于單位間距)的時(shí)長(zhǎng)已被標(biāo)準(zhǔn)化并且間距波動(dòng)的影響已被消除。因此，語(yǔ)音的每個(gè)頻率成分的強(qiáng)度隨時(shí)間的變化可以被精確地表示出。
該語(yǔ)音數(shù)據(jù)壓縮器的語(yǔ)音數(shù)據(jù)劃分部分2還在示于圖8中的t1到t19的時(shí)刻對(duì)具有如圖11(A)所示波形的語(yǔ)音數(shù)據(jù)進(jìn)行分割，只要音素標(biāo)記數(shù)據(jù)的內(nèi)容中沒有錯(cuò)誤。在語(yǔ)音數(shù)據(jù)具有示于圖11(B)中的波形的情況下，只要音素標(biāo)記數(shù)據(jù)的內(nèi)容中沒有錯(cuò)誤，如圖8(B)所示，正確地選擇在兩個(gè)相鄰音素之間的分界線T0處作為分割時(shí)點(diǎn)。因此，能夠在要由語(yǔ)音數(shù)據(jù)劃分部分2進(jìn)行處理而獲得的每個(gè)部分的波形中防止多個(gè)音素的波形被混雜在一起。
因此，該語(yǔ)音壓縮器也能精確地完成對(duì)特定頻譜成分的刪除，或者對(duì)每個(gè)音素或每個(gè)頻譜成分以不同的壓縮特性精確地完成非線性量子化處理。此外，還可以高效地對(duì)經(jīng)非線性量子化的子帶數(shù)據(jù)進(jìn)行熵編碼。因此，能夠以無損于原始語(yǔ)音數(shù)據(jù)的語(yǔ)音質(zhì)量的方式高效地完成數(shù)據(jù)壓縮。
在該語(yǔ)音數(shù)據(jù)壓縮器中，還可以通過對(duì)存儲(chǔ)在壓縮表存儲(chǔ)部分7中的壓縮表的內(nèi)容進(jìn)行變化地重寫，能夠以適合音素特性或者適合人類聲學(xué)感受的頻帶特性的方式實(shí)現(xiàn)精確且恰當(dāng)?shù)臄?shù)據(jù)壓縮，在多個(gè)講話者發(fā)出的語(yǔ)音的時(shí)候，也能夠完成適合每個(gè)講話者的語(yǔ)音特性的數(shù)據(jù)壓縮。
由于間距波形數(shù)據(jù)每個(gè)區(qū)間的原始時(shí)長(zhǎng)可以利用關(guān)于采樣數(shù)的信息來確定，所以能夠通過以下操作很容易地復(fù)原原始語(yǔ)音數(shù)據(jù)通過對(duì)壓縮后的語(yǔ)音數(shù)據(jù)進(jìn)行IDCT變換，以獲得表示了語(yǔ)音波形的數(shù)據(jù)，并且隨后將該數(shù)據(jù)的每個(gè)區(qū)間的時(shí)長(zhǎng)恢復(fù)為原始語(yǔ)音數(shù)據(jù)中的時(shí)長(zhǎng)。
語(yǔ)音數(shù)據(jù)壓縮器的配置并不限于前文描述的配置。
例如，語(yǔ)音輸入部分1可以通過通訊線路(諸如電話線、專線和衛(wèi)星通訊線路或者任何其他的串行傳輸線路)從外界獲得語(yǔ)音數(shù)據(jù)或者音素標(biāo)記數(shù)據(jù)。在這種情況下，語(yǔ)音輸入部分1僅需要配置調(diào)制解調(diào)器和DSU、或者由串行接口電路構(gòu)成的任何其他的通訊控制部分。此外，語(yǔ)音輸入部分1可以通過不同的途徑分別獲得語(yǔ)音數(shù)據(jù)和音素標(biāo)記數(shù)據(jù)。
語(yǔ)音輸入部分1可以配置有由麥克風(fēng)、AF放大器、采樣器、A/D轉(zhuǎn)換器、PCM編碼器或者其他部件構(gòu)成的語(yǔ)音收集器。語(yǔ)音收集器可以通過如下步驟獲取語(yǔ)音數(shù)據(jù)放大通過語(yǔ)音收集器的麥克風(fēng)采集的表示語(yǔ)音的語(yǔ)音信號(hào)；對(duì)該語(yǔ)音信號(hào)進(jìn)行采樣和A/D轉(zhuǎn)換；以及隨后對(duì)已進(jìn)行采樣的語(yǔ)音信號(hào)進(jìn)行PCM調(diào)制。語(yǔ)音數(shù)據(jù)輸入部分1所要獲取的語(yǔ)音數(shù)據(jù)不需要一定是PCM信號(hào)。
語(yǔ)音數(shù)據(jù)劃分部分2將原始語(yǔ)音數(shù)據(jù)劃分為表示各單獨(dú)音素的各部分的方法可以是任何的方法。因此，例如，可以預(yù)先將原始語(yǔ)音數(shù)據(jù)劃分為各音素?？蛇x地，能夠?qū)⒂砷g距波形提取部分3生成的間距波形數(shù)據(jù)劃分為表示各單獨(dú)音素的各部分，并且將它們提供給相似波形檢測(cè)部分4和波形均等化部分5。還能夠?qū)⒂烧蛔儞Q部分6生成的子帶數(shù)據(jù)劃分為表示各單獨(dú)音素的各部分，并將它們提供給頻帶控制部分8。此外，還能夠?qū)φZ(yǔ)音數(shù)據(jù)、間距波形數(shù)據(jù)或者子帶數(shù)據(jù)進(jìn)行分析，以確定表示每個(gè)音素的區(qū)間，并剪切所確定的區(qū)間。
波形均等化部分5可以將波形已被均等化過的間距波形數(shù)據(jù)提供給非線性量子化部分9，并且非線性量子化部分9可以對(duì)表示了每個(gè)音素的間距波形數(shù)據(jù)的每個(gè)部分進(jìn)行非線性量子化處理，并將其提供給熵編碼部分10。在這種情況下，熵編碼部分10可以對(duì)經(jīng)過非線性量子化后的間距波形數(shù)據(jù)和有關(guān)采樣數(shù)的信息進(jìn)行熵編碼，并將它們相互關(guān)聯(lián)地提供給比特流形成部分11。比特流形成部分11將經(jīng)過了熵編碼的間距波形數(shù)據(jù)作為壓縮后的語(yǔ)音數(shù)據(jù)。
間距波形提取部分3可以不配置倒譜分析部分301(或者自相關(guān)性分析部分302)。在這種情況下，權(quán)重計(jì)算部分303可以將由倒譜分析部分301(或者自相關(guān)性分析部分302)所確定的基頻的倒數(shù)直接作為平均間距長(zhǎng)度。
過零分析部分306可以將帶通濾波器305所提供的間距信號(hào)作為過零信號(hào)直接提供給BPF系數(shù)計(jì)算部分304。
壓縮表存儲(chǔ)部分7可以通過通訊線路或者其他類似的設(shè)備從外部獲得壓縮表并存儲(chǔ)它。在這種情況下，壓縮表存儲(chǔ)部分7只需要配置有調(diào)制解調(diào)器和DSU，或者配置有串行接口電路的任何其他通訊控制部分。
可選地，壓縮表存儲(chǔ)部分7可以從記錄有壓縮表的存儲(chǔ)介質(zhì)上讀取壓縮表并存儲(chǔ)它。在這種情況下，壓縮表存儲(chǔ)部分7只需要配置有記錄介質(zhì)驅(qū)動(dòng)器。
壓縮比率數(shù)據(jù)是這樣的數(shù)據(jù)它將表示每個(gè)音素的子帶數(shù)據(jù)的壓縮比率設(shè)定為絕對(duì)值而非相對(duì)值。壓縮表不需要一定包含有優(yōu)先級(jí)數(shù)據(jù)。
比特流形成部分11可以通過通訊線路或其他類似的設(shè)備將壓縮后的語(yǔ)音數(shù)據(jù)或者關(guān)于采樣數(shù)的信息輸出到外部。如果通過通訊線路輸出數(shù)據(jù)，比特流形成部分11只需要提供例如調(diào)制解調(diào)器、DSU和具有類似功能的設(shè)備構(gòu)成的通訊控制部分。
比特流形成部分11可以配置有記錄介質(zhì)驅(qū)動(dòng)器。在這種情況下，比特流形成部分11可以將壓縮后的語(yǔ)音數(shù)據(jù)或者關(guān)于采樣數(shù)的信息寫入到放在記錄介質(zhì)驅(qū)動(dòng)器中的記錄介質(zhì)的存儲(chǔ)區(qū)域中。
非線性量子化部分9可以生成表示以怎樣的分辨率對(duì)子帶數(shù)據(jù)的每個(gè)頻譜成分已進(jìn)行了量子化處理的數(shù)據(jù)。該數(shù)據(jù)可以被，例如，比特流形成部分11所獲取，以便將數(shù)據(jù)以比特流的形式向外界輸出或者寫入到記錄介質(zhì)的存儲(chǔ)區(qū)域。
單個(gè)的串行接口電路或者記錄介質(zhì)驅(qū)動(dòng)器可以承擔(dān)語(yǔ)音輸入部分1、壓縮表存儲(chǔ)部分7、比特流形成部分11的通訊控制部分或者記錄介質(zhì)驅(qū)動(dòng)器的功能。
工業(yè)實(shí)用性如前文所述，根據(jù)本發(fā)明，已實(shí)現(xiàn)了語(yǔ)音信號(hào)壓縮設(shè)備、語(yǔ)音信號(hào)壓縮方法和程序，從而能夠高效地壓縮表示語(yǔ)音數(shù)據(jù)的數(shù)據(jù)容量。
權(quán)利要求
1.一種語(yǔ)音信號(hào)壓縮設(shè)備，包括依音素劃分的裝置，用于獲取語(yǔ)音信號(hào)，該語(yǔ)音信號(hào)表示了將要壓縮的語(yǔ)音波形，并將所述語(yǔ)音信號(hào)劃分為表示各單獨(dú)音素波形的各部分；濾波器，用于對(duì)劃分的語(yǔ)音信號(hào)進(jìn)行濾波以提取間距信號(hào)；相位調(diào)整裝置，用于根據(jù)所述濾波器提取的間距信號(hào)將語(yǔ)音信號(hào)分割為各部分，并對(duì)每一個(gè)部分，根據(jù)與間距信號(hào)的相關(guān)性關(guān)系對(duì)相位進(jìn)行調(diào)整；采樣裝置，用于對(duì)由所述相位調(diào)整裝置調(diào)整過相位的每個(gè)區(qū)間，根據(jù)所述相位確定采樣長(zhǎng)度，并根據(jù)所述采樣長(zhǎng)度進(jìn)行采樣，以生成采樣信號(hào)；語(yǔ)音信號(hào)處理裝置，用于根據(jù)相位調(diào)整裝置調(diào)整的結(jié)果和采樣長(zhǎng)度的值，將所述采樣信號(hào)處理成為間距波形信號(hào)；子帶數(shù)據(jù)生成裝置，用于根據(jù)所述間距波形信號(hào)生成子帶數(shù)據(jù)，所述子帶數(shù)據(jù)表示了每個(gè)音素的頻譜分布隨時(shí)間的變化；以及依音素壓縮的裝置，用于根據(jù)針對(duì)由所述子帶數(shù)據(jù)表示的音素而設(shè)定的預(yù)定條件進(jìn)行所述子帶數(shù)據(jù)的數(shù)據(jù)壓縮。
2.如權(quán)利要求1的語(yǔ)音信號(hào)壓縮設(shè)備，其中依音素的壓縮裝置由以下各部分構(gòu)成可重寫地儲(chǔ)存表的裝置，用于可重寫地存儲(chǔ)表，所述表設(shè)定了要對(duì)表示各個(gè)音素的所述子帶數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮的條件；以及進(jìn)行所述子帶數(shù)據(jù)的數(shù)據(jù)壓縮的裝置，用于根據(jù)所述表所設(shè)定的條件，對(duì)表示每個(gè)音素的所述子帶數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮。
3.如權(quán)利要求1或2的語(yǔ)音信號(hào)壓縮設(shè)備，其中依音素壓縮的裝置通過對(duì)數(shù)據(jù)進(jìn)行非線性量子化處理，對(duì)表示每個(gè)音素的所述子帶數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮，以達(dá)到滿足針對(duì)所述音素而設(shè)定的條件的壓縮比率。
4.如權(quán)利要求1或2或3的語(yǔ)音信號(hào)壓縮設(shè)備，其中為子帶數(shù)據(jù)的每個(gè)頻譜成分設(shè)定優(yōu)先級(jí)；以及以用高分辨率對(duì)具有高優(yōu)先級(jí)的頻譜成分進(jìn)行量子化處理的方式，通過對(duì)子帶數(shù)據(jù)的每個(gè)頻譜成分進(jìn)行量子化，所述依音素壓縮的裝置執(zhí)行對(duì)子帶數(shù)據(jù)的數(shù)據(jù)壓縮。
5.如權(quán)利要求1-4中任何一個(gè)的語(yǔ)音信號(hào)壓縮設(shè)備，其中所述依音素壓縮的裝置通過改變子帶數(shù)據(jù)對(duì)子帶數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮，以顯示在刪除了預(yù)定頻譜成分之后的頻譜分布。
6.一種語(yǔ)音信號(hào)壓縮設(shè)備，包括語(yǔ)音信號(hào)處理裝置，用于獲取表示語(yǔ)音波形的語(yǔ)音信號(hào)，并且通過使由分割語(yǔ)音信號(hào)所獲得的多個(gè)區(qū)間的相位實(shí)質(zhì)上均等，將所述語(yǔ)音信號(hào)處理成為間距波形信號(hào)，所述多個(gè)區(qū)間中的每一個(gè)都相應(yīng)于該語(yǔ)音的單位間距；子帶數(shù)據(jù)生成裝置，用于根據(jù)所述間距波形信號(hào)生成所述子帶數(shù)據(jù)，所述子帶數(shù)據(jù)表示每個(gè)音素的頻譜分布隨時(shí)間的變化；以及依音素壓縮的裝置，用于根據(jù)針對(duì)由該部分所表示的音素而設(shè)定的預(yù)定的條件，對(duì)表示所述子帶數(shù)據(jù)的單獨(dú)音素的每一部分進(jìn)行數(shù)據(jù)壓縮。
7.一種語(yǔ)音信號(hào)壓縮設(shè)備，包括獲得表示語(yǔ)音波形或者表示語(yǔ)音頻譜分布隨時(shí)間的變化的信號(hào)的裝置；以及根據(jù)針對(duì)由所述部分所表示的音素而設(shè)定的預(yù)定的條件，對(duì)表示所述獲得信號(hào)的單獨(dú)音素的每個(gè)部分進(jìn)行數(shù)據(jù)壓縮的裝置。
8.一種語(yǔ)音信號(hào)壓縮方法，其中獲取表示語(yǔ)音波形或語(yǔ)音頻譜分布隨時(shí)間的變化的信號(hào)；以及根據(jù)針對(duì)由所述部分所表示的音素而設(shè)定的預(yù)定的條件，對(duì)表示所述獲取信號(hào)的單獨(dú)音素的每個(gè)部分進(jìn)行數(shù)據(jù)壓縮。
9.一種使計(jì)算機(jī)起到如下作用的程序能夠獲取表示語(yǔ)音波形或表示語(yǔ)音頻譜分布隨時(shí)間變化的信號(hào)；以及能夠根據(jù)針對(duì)由所述部分所表示的音素而設(shè)定的預(yù)定的條件，對(duì)表示所述獲取信號(hào)的單獨(dú)音素的每個(gè)部分進(jìn)行數(shù)據(jù)壓縮。
全文摘要
本發(fā)明提供了一種用于去除必然混雜在語(yǔ)音中的噪聲的語(yǔ)音信號(hào)噪聲去除設(shè)備和具有類似功能的設(shè)備。間距分析部分(2)決定語(yǔ)音間距成分各頻率的修正后的移動(dòng)平均值，該語(yǔ)音是由語(yǔ)音輸入部分(1)獲得的原始語(yǔ)音信號(hào)所表示的?？勺?yōu)V波器(3)通過從原始語(yǔ)音信號(hào)成分中去除由間距分析部分(2)所確定的修正后的移動(dòng)平均值及其附近之外的成分，以提取該間距成分。絕對(duì)值檢測(cè)部分(4)確定該間距成分的絕對(duì)值，并且低通濾波器(5)對(duì)表示所獲得的絕對(duì)值的信號(hào)進(jìn)行濾波以生成增益調(diào)整信號(hào)。隨后，通過由增益調(diào)整信號(hào)的值所確定的增益，由增益調(diào)整部分(7)對(duì)由延遲部分(6)調(diào)整了時(shí)點(diǎn)的原始語(yǔ)音數(shù)據(jù)進(jìn)行放大或減弱并輸出。
文檔編號(hào)G10L13/06GK1768375SQ20048000866
公開日2006年5月3日申請(qǐng)日期2004年3月26日優(yōu)先權(quán)日2003年3月28日
發(fā)明者佐藤寧申請(qǐng)人:株式會(huì)社建伍

完整全部詳細(xì)技術(shù)資料下載