專(zhuān)利名稱(chēng):聲音判斷裝置及聲音判斷方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種檢測(cè)輸入信號(hào)的聲音區(qū)間的聲音判斷裝置及聲音判斷方法。
背景技術(shù):
在作為收錄聲音而生成的信號(hào)的輸入信號(hào)中,存在含有聲音的聲音區(qū)間、及因會(huì)話間隙、喘息等而不含有聲音的非聲音區(qū)間。例如在聲音識(shí)別裝置中,通過(guò)確定聲音區(qū)間和非聲音區(qū)間,來(lái)實(shí)現(xiàn)聲音識(shí)別率的提高、及聲音識(shí)別處理的高效化。并且,在利用了移動(dòng)電話、無(wú)線設(shè)備等的移動(dòng)體通信中,通過(guò)在聲音區(qū)間和非聲音區(qū)間切換輸入信號(hào)的編碼處理, 可保持音質(zhì)的同時(shí),提高壓縮率、傳送效率。在該移動(dòng)體通信中,因要求實(shí)時(shí)性,所以希望抑制聲音區(qū)間的判斷處理造成的聲音的延遲。作為抑制這種延遲的聲音區(qū)間的判斷處理,例如提出了以下方案通過(guò)表示輸入信號(hào)的幀的頻率分布的平坦程度的數(shù)值是否為閾值以上,來(lái)檢測(cè)聲音區(qū)間(例如專(zhuān)利文獻(xiàn) 1),或?qū)斎胄盘?hào)的幀使用倒頻譜法,導(dǎo)出作為表示含有最多泛音成分的基波的信息的諧波信息,通過(guò)該諧波信息、及表示該幀的能量是否為閾值以上的功率信息是否分別具有聲音的特征,來(lái)檢測(cè)出聲音區(qū)間(例如專(zhuān)利文獻(xiàn)2)。專(zhuān)利文獻(xiàn)1 特開(kāi)2004-272052號(hào)公報(bào)專(zhuān)利文獻(xiàn)2 特開(kāi)2009-294537號(hào)公報(bào)
發(fā)明內(nèi)容
但是,上述專(zhuān)利文獻(xiàn)1、2等現(xiàn)有的聲音區(qū)間的檢測(cè)技術(shù)在噪聲較小的環(huán)境下有效,但當(dāng)噪聲變大時(shí),輸入信號(hào)的幀的頻率分布的平坦性(峰值的頻率)、音高(Pitch)等聲音性質(zhì)埋沒(méi)于噪聲中,易產(chǎn)生聲音區(qū)間的誤測(cè)。并且,倒頻譜法需要進(jìn)行二次傅立葉變換,頻率區(qū)域上的處理負(fù)荷較高,耗電變大。因此,特別在移動(dòng)體通信這樣以蓄電池驅(qū)動(dòng)為前提的情況下,當(dāng)使用倒頻譜法時(shí),為對(duì)應(yīng)耗電,需要增大蓄電池的容量,會(huì)導(dǎo)致高成本化、大型化。因此,本發(fā)明鑒于該課題,其目的在于提供一種無(wú)論噪聲等級(jí)大小均可測(cè)出輸入信號(hào)的聲音區(qū)間的、聲音判斷裝置及聲音判斷方法。為解決上述課題,本發(fā)明的聲音判斷裝置的特征在于具有幀化部,以具有預(yù)先確定的時(shí)長(zhǎng)的幀單位截取輸入信號(hào),生成幀化輸入信號(hào);頻譜生成部,將上述幀化輸入信號(hào)從時(shí)間區(qū)域變換為頻率區(qū)域,生成集中了每個(gè)頻率的頻譜的頻譜圖;峰值檢測(cè)部,判斷上述頻譜圖的各頻譜與多個(gè)分割頻帶中含有頻譜的分割頻帶中的各頻帶能量之間的能量比是否超過(guò)預(yù)先確定的第1閾值,其中上述多個(gè)分割頻帶是通過(guò)預(yù)先確定的帶寬分割的頻帶;聲音判斷部,根據(jù)上述峰值檢測(cè)部的判斷結(jié)果,判斷上述幀化輸入信號(hào)是否是聲音;頻率平均部,導(dǎo)出上述頻譜圖的各分割頻帶中的頻譜的頻率方向的平均能量;以及時(shí)間平均部,按照每個(gè)上述分割頻帶,分別導(dǎo)出上述各頻帶能量,即上述平均能量的時(shí)間方向的平均。聲音判斷部,也可以在能量比超過(guò)第1閾值的頻譜為預(yù)先確定的個(gè)數(shù)以上時(shí),判斷幀化輸入信號(hào)是聲音。時(shí)間平均部,也可以基于將包括能量比超過(guò)第1閾值的頻譜的分割頻帶的平均能量、或包括能量比超過(guò)第1閾值的頻譜的幀化輸入信號(hào)的所有分割頻帶的平均能量乘以1 以下的調(diào)整值而得到的能量,按照每個(gè)分割頻帶,導(dǎo)出各頻帶能量。頻率平均部,也可以排除能量比超過(guò)第1閾值的頻譜、或排除能量比超過(guò)第1閾值的頻譜及與頻譜相鄰的頻譜,導(dǎo)出平均能量。時(shí)間平均部,也可以將包括能量比超過(guò)第1閾值的頻譜的分割頻帶的平均能量、 或包括能量比超過(guò)第1閾值的頻譜的幀化輸入信號(hào)的所有分割頻帶的平均能量,不反映到時(shí)間方向的平均中。也可以設(shè)置用于判斷是否將平均能量反映到時(shí)間方向的平均中的、與第1閾值不同的第2閾值,時(shí)間平均部,將包括能量比超過(guò)第2閾值的頻譜的分割頻帶的平均能量、或包括能量比超過(guò)第2閾值的頻譜的幀化輸入信號(hào)的所有分割頻帶的平均能量,不反映到時(shí)間方向的平均中。頻譜生成部也可以至少生成200Hz到700Hz的頻譜圖。預(yù)先確定的帶寬也可以是IOOHz到150Hz的帶寬。為解決上述課題,本發(fā)明的聲音判斷方法的特征在于,以具有預(yù)先確定的時(shí)長(zhǎng)的幀單位截取輸入信號(hào),生成幀化輸入信號(hào),將幀化輸入信號(hào)從時(shí)間區(qū)域變換為頻率區(qū)域,生成集中了每個(gè)頻率的頻譜的頻譜圖,在頻譜圖的各頻譜與多個(gè)分割頻帶中含有頻譜的分割頻帶中的各頻帶能量之間的能量比超過(guò)了預(yù)先確定的第1閾值時(shí),判斷上述幀化輸入信號(hào)是聲音,其中上述多個(gè)分割頻帶通過(guò)預(yù)先確定的帶寬分割的頻帶,導(dǎo)出頻譜圖的各分割頻帶中的頻譜的頻率方向的平均能量,按照每個(gè)分割頻帶,分別導(dǎo)出各頻帶能量,即平均能量的時(shí)間方向的平均。如上所述,在本發(fā)明中,無(wú)論噪聲等級(jí)大小均可測(cè)出輸入信號(hào)的聲音區(qū)間。
圖1是表示聲音的時(shí)間波形圖。圖2是聲音的共振峰顯示圖。圖3是表示噪聲較多的環(huán)境下的聲音的時(shí)間波形圖。圖4是噪聲較多的環(huán)境下的聲音的共振峰的顯示圖。圖5是表示聲音判斷裝置的概要功能的功能框圖。圖6是表示聲音判斷方法的處理流程的流程圖。
具體實(shí)施例方式以下參照附圖詳細(xì)說(shuō)明本發(fā)明的優(yōu)選實(shí)施方式。該實(shí)施方式所示的尺寸、材料、及其他具體數(shù)值等,僅是為了易于理解發(fā)明的示例,除特別聲明外,不用于限定本發(fā)明。此外, 在本說(shuō)明書(shū)及附圖中,對(duì)實(shí)質(zhì)上具有相同的功能、構(gòu)成的要素,通過(guò)附加相同的標(biāo)記省略重復(fù)說(shuō)明,并省略和本發(fā)明沒(méi)有直接關(guān)系的要素的圖示。在現(xiàn)有的聲音區(qū)間的檢測(cè)技術(shù)中,對(duì)于聲音,當(dāng)作為收錄聲音的對(duì)象的范圍內(nèi)的噪聲的周?chē)肼?雜音)變大時(shí),難以檢測(cè)出聲音特性,存在誤測(cè)出聲音區(qū)間的情況。例如,在交通量大的十字路口、作業(yè)中的施工現(xiàn)場(chǎng)、及生產(chǎn)中的工廠等中,使用移動(dòng)電話、無(wú)線設(shè)備等移動(dòng)體通信設(shè)備進(jìn)行對(duì)話時(shí),會(huì)無(wú)法正確進(jìn)行聲音區(qū)間的判斷。因此,在聲音編碼處理中,會(huì)將聲音區(qū)間誤判為非聲音區(qū)間,過(guò)度壓縮聲音區(qū)間的輸入信號(hào)的信息,或?qū)⒎锹曇魠^(qū)間誤判為聲音區(qū)間,無(wú)法進(jìn)行有效的編碼,導(dǎo)致音質(zhì)惡化,對(duì)對(duì)話造成障礙。并且,在不使用編碼電路時(shí),在具有噪聲取消等功能的移動(dòng)體通信設(shè)備中,當(dāng)產(chǎn)生是否是聲音的誤判時(shí), 會(huì)無(wú)法正常取消噪聲,接聽(tīng)者變得非常難以聽(tīng)到。圖1是表示聲音的時(shí)間波形圖,圖2是圖1所示的聲音的共振峰顯示圖。并且,圖 3是表示噪聲較多的環(huán)境下的聲音的時(shí)間波形圖,圖4是圖3所示的聲音的共振峰顯示圖。 圖1、3中的縱軸表示能量(dB),橫軸表示時(shí)間(s),圖2、4中的縱軸表示頻率(Hz)、橫軸表示時(shí)間(s)。圖1的時(shí)間軸和圖2的時(shí)間軸對(duì)應(yīng),圖3的時(shí)間軸和圖4的時(shí)間軸對(duì)應(yīng)。將圖1所示的僅有聲音的時(shí)間波形如圖2所示表示為共振峰顯示圖時(shí),易于觀察到作為聲音特征的條紋花紋。但如圖3所示,當(dāng)周?chē)脑肼暭尤氲铰曇舻那闆r下,該時(shí)間波形如圖4所示進(jìn)行共振峰顯示時(shí),作為聲音特征的條紋花紋的濃淡規(guī)則被破壞,難以識(shí)別條紋花紋。因此,在周?chē)肼曒^大的情況下,即使使用倒頻譜法、或僅檢測(cè)出頻譜峰值的現(xiàn)有的聲音區(qū)間的檢測(cè)技術(shù),聲音特征也會(huì)埋沒(méi)于周?chē)肼曋校嬖跓o(wú)法測(cè)出聲音區(qū)間的情況。并且,在移動(dòng)體通信中,要求抑制聲音區(qū)間的判斷處理造成的延遲。因此,為了易于測(cè)出聲音特征的、將頻率解析結(jié)果在數(shù)幀上加算的時(shí)間方向的重疊加算處理;或解析范圍大的處理,例如利用了對(duì)音節(jié)、文節(jié)的圖形識(shí)別的處理;及時(shí)間區(qū)域的樣本需要較長(zhǎng)時(shí)間的利用了白相關(guān)的處理等,會(huì)導(dǎo)致延遲,不適于應(yīng)用。進(jìn)一步,在移動(dòng)體通信這種以蓄電池驅(qū)動(dòng)為前提的系統(tǒng)中,要求低耗電。尤其是在數(shù)字無(wú)線中,要求延遲較少、低處理負(fù)荷、抑制能量高等級(jí)的噪聲。但在,倒頻譜法的處理負(fù)荷較大,耗電較多,導(dǎo)致高成本化、大型化。因此,在本實(shí)施方式中,詳述無(wú)論噪聲等級(jí)均可檢測(cè)輸入信號(hào)的聲音區(qū)間的聲音判斷裝置,接著說(shuō)明使用了該聲音判斷裝置的聲音判斷方法。(聲音判斷裝置100)圖5是用于說(shuō)明聲音判斷裝置100的概要構(gòu)成的功能框圖。聲音判斷裝置100包括幀化部120、頻譜生成部122、頻帶分割部124、頻率平均部126、保持部128、時(shí)間平均部 130、峰值檢測(cè)部132、聲音判斷部134。幀化部120將收音裝置200收錄聲音并變換為數(shù)字信號(hào)的輸入信號(hào),以具有預(yù)先確定的時(shí)長(zhǎng)的幀單位(預(yù)定樣本數(shù)長(zhǎng))依次截取,生成幀單位的輸入信號(hào)(以下簡(jiǎn)稱(chēng)為“幀化輸入信號(hào)”)。并且,當(dāng)從收音裝置200輸入的輸入信號(hào)是模擬信號(hào)時(shí),也可在幀化部120 的前段配置AD變換器并變換為數(shù)字信號(hào)。并且,幀化部120依次將生成的幀化輸入信號(hào)發(fā)送到頻譜生成部122。頻譜生成部122進(jìn)行從幀化部120接收的幀化輸入信號(hào)的頻率分析,將時(shí)間區(qū)域的幀化輸入信號(hào)變換為頻率區(qū)域的幀化輸入信號(hào),生成集中了頻譜的頻譜圖。頻譜圖是,在預(yù)定的頻帶中,頻率和該頻率中的能量建立了對(duì)應(yīng)的、集中了每個(gè)頻率的頻譜的圖形。這里使用的頻率變換法不限定特定的方法,但為了識(shí)別聲音的頻譜需要必要的頻率分辨能力,因此可使用分辨能力較高的FFT (Fast Fourier Transform 快速傅立葉變換)或DCT (Discrete Cosine Transform 離散余弦變換)等直交變換法。在本實(shí)施方式中,頻譜生成部122至少生成200Hz到700Hz的頻譜圖。作為下述聲音判斷部134判斷聲音區(qū)間時(shí)所檢測(cè)的對(duì)象的、表示聲音特征的頻譜 (以下稱(chēng)為共振峰)中,通常包括從相當(dāng)于主音的第1共振峰開(kāi)始、到作為其泛音部分的第η共振峰(η是自然數(shù))為止的多個(gè)。其中,第1共振峰或第2共振峰大多存在于小于 200Hz的頻帶中。但在該頻帶中,以較高的能量含有低頻噪聲成分,因此共振峰易埋沒(méi)。并且,700Hz以上的共振峰中,共振峰本身的能量較低,還是易埋沒(méi)到噪聲成分中。因此,通過(guò)將難于埋沒(méi)到噪聲成分的200Hz到700Hz的頻譜圖用于聲音區(qū)間的判斷,可縮小判斷對(duì)象、 有效地進(jìn)行聲音區(qū)間的判斷。頻帶分割部124以適當(dāng)?shù)念l帶單位對(duì)聲音檢測(cè)特征性的頻譜,因此將頻譜圖的各頻譜分割為多個(gè)分割頻帶,該多個(gè)分割頻帶是以預(yù)先確定的帶寬分割的頻帶。在本實(shí)施方式中,預(yù)先確定的帶寬是IOOHz到150Hz的帶寬。聲音的第1共振峰以約IOOHz到150Hz左右的頻率檢測(cè),其他共振峰是其泛音成分,因此以是其倍數(shù)的頻率檢測(cè)。因此通過(guò)使分割頻帶為IOOHz到150Hz的帶寬,在聲音區(qū)間中,各自的分割頻帶中大致含有一個(gè)個(gè)的共振峰,在各分割頻帶中可適當(dāng)?shù)剡M(jìn)行聲音區(qū)間的判斷。這樣一來(lái),當(dāng)增大分割頻帶的帶寬時(shí),在一個(gè)分割頻帶中可能含有多個(gè)聲音的能量峰值,作為聲音特征,峰值應(yīng)在多個(gè)頻帶中檢測(cè)出,但會(huì)匯總到一個(gè)被測(cè)出,導(dǎo)致聲音區(qū)間的判斷精度下降。相反,即使減小分割頻帶的帶寬,聲音區(qū)間的判斷精度也不提高,僅處理負(fù)荷增大。頻率平均部126求出每個(gè)分割頻帶的平均能量。在本實(shí)施方式中,頻率平均部126 按照每個(gè)分割頻帶,平均分割頻帶中的所有頻譜的能量,但為了減輕運(yùn)算負(fù)荷也可替代頻譜的能量,而使用頻譜的最大或平均振幅值(絕對(duì)值)。保持部128 由 RAM (Random Access Memory 隨機(jī)存取存儲(chǔ)器)、 EEPROM(ElectricalIy Erasable and Programmable Read Only Memory 電可擦除可編程只讀存儲(chǔ)器)、閃存等存儲(chǔ)介質(zhì)構(gòu)成,以過(guò)去的預(yù)先確定的個(gè)數(shù)(在本實(shí)施方式中是N)的幀來(lái)保持各頻帶的平均能量。時(shí)間平均部130按照每個(gè)分割頻帶導(dǎo)出各頻帶能量,各頻帶能量是通過(guò)頻率平均部126導(dǎo)出的平均能量的時(shí)間方向的多個(gè)幀中的平均。即,各頻帶能量是每個(gè)分割頻帶的平均能量的時(shí)間方向的多個(gè)幀中的平均值。在本實(shí)施方式中,各頻帶能量視作噪聲等級(jí),即每個(gè)頻帶的噪聲的能量的水平。通過(guò)使各頻帶能量為平均能量的時(shí)間方向的平均,可抑制劇烈的變動(dòng),在時(shí)間方向上可平滑化。具體而言,時(shí)間平均部130進(jìn)行以下數(shù)式1所示的計(jì)笪弁。(數(shù)式1)
W—* £ · \
H《* …、 Ζ )Lavr = > ...........................................................
Λ,……(數(shù)式1)Eavr 平均能量的N幀間的平均值E(i)每幀的平均能量并且,時(shí)間平均部130可對(duì)之前的幀的各分割頻帶的平均能量,使用加權(quán)系數(shù)和時(shí)間常數(shù),進(jìn)行基于平均化的處理,求出各頻帶能量的代用值。此時(shí),時(shí)間平均部130進(jìn)行以下數(shù)式2、3所示的計(jì)算。
(數(shù)式 2)
權(quán)利要求
1.一種聲音判斷裝置,其特征在于,具有幀化部,以具有預(yù)先確定的時(shí)長(zhǎng)的幀單位截取輸入信號(hào),生成幀化輸入信號(hào);頻譜生成部,將上述幀化輸入信號(hào)從時(shí)間區(qū)域變換為頻率區(qū)域,生成集中了每個(gè)頻率的頻譜的頻譜圖;峰值檢測(cè)部,判斷上述頻譜圖的各頻譜與多個(gè)分割頻帶中含有上述頻譜的分割頻帶中的各頻帶能量之間的能量比是否超過(guò)預(yù)先確定的第1閾值,其中上述多個(gè)分割頻帶是通過(guò)預(yù)先確定的帶寬分割的頻帶;聲音判斷部,根據(jù)上述峰值檢測(cè)部的判斷結(jié)果,判斷上述幀化輸入信號(hào)是否是聲音;頻率平均部,導(dǎo)出上述頻譜圖的各分割頻帶中的頻譜的頻率方向的平均能量;以及時(shí)間平均部,按照每個(gè)上述分割頻帶,分別導(dǎo)出上述各頻帶能量,即上述平均能量的時(shí)間方向的平均。
2.根據(jù)權(quán)利要求1所述的聲音判斷裝置,其特征在于,上述聲音判斷部在上述能量比超過(guò)上述第1閾值的頻譜為預(yù)先確定的個(gè)數(shù)以上時(shí),判斷上述幀化輸入信號(hào)是聲音。
3.根據(jù)權(quán)利要求1或2所述的聲音判斷裝置,其特征在于,上述時(shí)間平均部,基于將包括上述能量比超過(guò)上述第1閾值的頻譜的上述分割頻帶的平均能量、或包括上述能量比超過(guò)上述第1閾值的頻譜的幀化輸入信號(hào)的所有分割頻帶的平均能量乘以1以下的調(diào)整值而得到的能量,按照每個(gè)上述分割頻帶,導(dǎo)出各頻帶能量。
4.根據(jù)權(quán)利要求1或2所述的聲音判斷裝置,其特征在于,上述頻率平均部,排除上述能量比超過(guò)上述第1閾值的頻譜、或排除上述能量比超過(guò)上述第1閾值的頻譜以及與上述頻譜相鄰的頻譜,導(dǎo)出平均能量。
5.根據(jù)權(quán)利要求1或2所述的聲音判斷裝置,其特征在于,上述時(shí)間平均部,將包括上述能量比超過(guò)上述第1閾值的頻譜的上述分割頻帶的平均能量、或包括上述能量比超過(guò)上述第1閾值的頻譜的幀化輸入信號(hào)的所有分割頻帶的平均能量,不反映到上述時(shí)間方向的平均中。
6.根據(jù)權(quán)利要求1至5的任意一項(xiàng)所述的聲音判斷裝置,其特征在于,設(shè)置用于判斷是否將上述平均能量反映到上述時(shí)間方向的平均中的、與上述第1閾值不同的第2閾值,上述時(shí)間平均部,將包括上述能量比超過(guò)上述第2閾值的頻譜的上述分割頻帶的平均能量、或包括上述能量比超過(guò)上述第2閾值的頻譜的幀化輸入信號(hào)的所有分割頻帶的平均能量,不反映到上述時(shí)間方向的平均中。
7.根據(jù)權(quán)利要求1至6的任意一項(xiàng)所述的聲音判斷裝置,其特征在于,上述頻譜生成部至少生成200Hz到700Hz的頻譜圖。
8.根據(jù)權(quán)利要求1至7的任意一項(xiàng)所述的聲音判斷裝置,其特征在于,上述預(yù)先確定的帶寬是IOOHz到150Hz的帶寬。
9.一種聲音判斷方法,其特征在于,以具有預(yù)先確定的時(shí)長(zhǎng)的幀單位截取輸入信號(hào),生成幀化輸入信號(hào),將上述幀化輸入信號(hào)從時(shí)間區(qū)域變換為頻率區(qū)域,生成集中了每個(gè)頻率的頻譜的頻譜圖,在上述頻譜圖的各頻譜與多個(gè)分割頻帶中含有上述頻譜的分割頻帶中的各頻帶能量之間的能量比超過(guò)了預(yù)先確定的第1閾值時(shí),判斷上述幀化輸入信號(hào)是聲音,其中上述多個(gè)分割頻帶通過(guò)預(yù)先確定的帶寬分割的頻帶,導(dǎo)出上述頻譜圖的各分割頻帶中的頻譜的頻率方向的平均能量, 按照每個(gè)上述分割頻帶,分別導(dǎo)出上述各頻帶能量,即上述平均能量的時(shí)間方向的平均。
全文摘要
本發(fā)明提供聲音判斷裝置及聲音判斷方法,無(wú)論噪聲等級(jí)大小均測(cè)出輸入信號(hào)的聲音區(qū)間。聲音判斷裝置(100)具有幀化部(120),以幀單位截取輸入信號(hào),生成幀化輸入信號(hào);頻譜生成部(122),變換幀化輸入信號(hào),生成集中了每個(gè)頻率的頻譜的頻譜圖;峰值檢測(cè)部(132),判斷頻譜圖的各頻譜與分割頻帶中含有頻譜的分割頻帶中的各頻帶能量的能量比是否超過(guò)第1閾值;聲音判斷部134,根據(jù)判斷結(jié)果,判斷幀化輸入信號(hào)是否是聲音;頻率平均部126,導(dǎo)出頻譜圖的各分割頻帶中的頻譜的頻率方向的平均能量;時(shí)間平均部130,按照每個(gè)分割頻帶,導(dǎo)出各頻帶能量,即平均能量的時(shí)間方向的平均。
文檔編號(hào)G10L11/00GK102479504SQ20111037531
公開(kāi)日2012年5月30日 申請(qǐng)日期2011年11月23日 優(yōu)先權(quán)日2010年11月24日
發(fā)明者山邊孝朗 申請(qǐng)人:Jvc建伍株式會(huì)社