聲音處理裝置、聲音處理方法和程序的制作方法
【專(zhuān)利摘要】提供了一種聲音處理裝置、聲音處理方法和程序。該聲音處理裝置包括:背景噪聲估計(jì)單元,被配置成估計(jì)輸入信號(hào)的背景噪聲;噪聲抑制單元,被配置成基于通過(guò)估計(jì)背景噪聲而獲得的結(jié)果,來(lái)抑制輸入信號(hào)的背景噪聲;特征量計(jì)算單元,被配置成基于抑制了背景噪聲的輸入信號(hào)而計(jì)算特征量;以及輔音檢測(cè)單元,被配置成基于特征量從輸入信號(hào)檢測(cè)輔音。
【專(zhuān)利說(shuō)明】聲音處理裝置、聲音處理方法和程序
[0001]對(duì)相關(guān)申請(qǐng)的交叉引用
[0002]該申請(qǐng)要求2012年12月20日提交的日本優(yōu)先權(quán)專(zhuān)利申請(qǐng)JP2012-277662的權(quán)益,其全部?jī)?nèi)容通過(guò)引用合并于此。
【技術(shù)領(lǐng)域】
[0003]本技術(shù)涉及一種聲音處理裝置、聲音處理方法和程序。更具體地,本技術(shù)涉及一種能夠以更高準(zhǔn)確度檢測(cè)輔音的聲音處理裝置、聲音處理方法和程序。
【背景技術(shù)】
[0004]近年來(lái),隨著老齡化社會(huì)的發(fā)展,越來(lái)越多的人正遭受年齡相關(guān)的聽(tīng)力損失。在年齡相關(guān)的聽(tīng)力損失中,在高頻帶的聽(tīng)覺(jué)靈敏度趨于劣化,因此存在聽(tīng)見(jiàn)話音尤其是輔音變得困難的許多示例。
[0005]因此,作為使得較容易聽(tīng)見(jiàn)輔音的技術(shù),存在通過(guò)使用均衡器而增強(qiáng)存在輸入信號(hào)的輔音的頻帶的技術(shù)。然而,在該技術(shù)中,通常在與輸入信號(hào)的類(lèi)型無(wú)關(guān)的情況下執(zhí)行該頻帶的增強(qiáng),因此,盡管增強(qiáng)了輔音,但是除輔音之外的聲音的質(zhì)量被改變,從而變得難以聽(tīng)見(jiàn)該聲音。
[0006]此外,隨著便攜式電話的發(fā)展,變得能夠在任何時(shí)間任何地點(diǎn)使用便攜式電話進(jìn)行對(duì)話。然而,這也意味著揚(yáng)聲器更可能處于有噪聲的環(huán)境中。聲音信號(hào)的輔音部分與其元音部分相比具有相對(duì)少的功率。因此,由于輔音部分被埋沒(méi)在噪聲中的事實(shí)而降低了聲音的清晰度,因此出現(xiàn)難以聽(tīng)見(jiàn)對(duì)話語(yǔ)音的情形。特別地,對(duì)于具有年齡相關(guān)聽(tīng)力損失的人,已知聽(tīng)見(jiàn)聲音的容易性受到背景噪聲的幅度的影響,因此期望一種用于使得甚至在有噪聲的環(huán)境中也較容易地聽(tīng)見(jiàn)聲音的技術(shù)。
[0007]例如,如果噪聲較大,則存在用于通過(guò)使用噪聲抑制技術(shù)減小噪聲來(lái)相對(duì)增加聲音的SN比(信噪比)的技術(shù)。然而,在該技術(shù)中,隨著SN比的增加,聲音本身的質(zhì)量通常將被改變,并且語(yǔ)音清晰度或可懂度趨于劣化。另外,當(dāng)說(shuō)話者從開(kāi)始以模糊的語(yǔ)音咕噥時(shí),噪聲抑制技術(shù)是無(wú)用的。
[0008]鑒于以上情形,需要提供一種檢測(cè)和增強(qiáng)輔音的技術(shù),并且已提出了用于檢測(cè)和增強(qiáng)輔音的技術(shù)。
[0009]作為這樣的技術(shù)的一個(gè)示例,提出了通過(guò)利用多個(gè)時(shí)間幀提取多個(gè)幀信號(hào)以及通過(guò)計(jì)算和比較幀信號(hào)的平均功率來(lái)檢測(cè)和增強(qiáng)輔音的技術(shù)(例如,參考日本未審查專(zhuān)利申請(qǐng)公布第2010-091897號(hào)和日本專(zhuān)利第04876245號(hào))。
【發(fā)明內(nèi)容】
[0010]在日本未審查專(zhuān)利申請(qǐng)公布第2010-091897號(hào)和日本專(zhuān)利第04876245號(hào)所公開(kāi)的技術(shù)中,音節(jié)的輔音區(qū)間或長(zhǎng)度是先前定義的,并且僅對(duì)應(yīng)于該定義的幀被視為輔音。然而,實(shí)際的聲音不一定遵從該定義。特別地,其定義根據(jù)語(yǔ)言而變化,因此算法的語(yǔ)言依賴(lài)性將變高。
[0011]此外,僅通過(guò)幀信號(hào)的功率的比較來(lái)執(zhí)行輔音的檢測(cè),因此如果功率由于背景噪聲而改變,則可能難以正確地檢測(cè)輔音。
[0012]如上所述,在檢測(cè)輔音的上述方法中,對(duì)于在輔音的背景中存在噪聲的信號(hào),難以以高準(zhǔn)確度檢測(cè)輔音。
[0013]本技術(shù)的實(shí)施例是鑒于這樣的情形而做出的。期望以較高準(zhǔn)確度檢測(cè)輔音。
[0014]根據(jù)本公開(kāi)的實(shí)施例,提供了一種聲音處理裝置,該聲音處理裝置包括:背景噪聲估計(jì)單元,被配置成估計(jì)輸入信號(hào)的背景噪聲;噪聲抑制單元,被配置成基于通過(guò)估計(jì)背景噪聲而獲得的結(jié)果,來(lái)抑制輸入信號(hào)的背景噪聲;特征量計(jì)算單元,被配置成基于抑制了背景噪聲的輸入信號(hào)而計(jì)算特征量;以及輔音檢測(cè)單元,被配置成基于特征量來(lái)從輸入信號(hào)檢測(cè)輔音。
[0015]背景噪聲估計(jì)單元可在頻域中估計(jì)背景噪聲。噪聲抑制單元可通過(guò)抑制從輸入信號(hào)獲得的輸入譜中包括的背景噪聲而獲得噪聲抑制譜。特征量計(jì)算單元可基于噪聲抑制譜而計(jì)算特征量。
[0016]背景噪聲估計(jì)單元可通過(guò)獲得先前輸入譜的平均值而估計(jì)背景噪聲。
[0017]聲音處理裝置還可包括輔音增強(qiáng)單元,該輔音增強(qiáng)單元被配置成針對(duì)這樣的頻率增強(qiáng)所述輸入譜:在該頻率處,噪聲抑制譜的值大于通過(guò)將背景噪聲譜乘以常數(shù)所獲得的值,該背景噪聲譜是通過(guò)對(duì)背景噪聲的估計(jì)而獲得的。
[0018]輔音增強(qiáng)單元可以以預(yù)定增強(qiáng)量來(lái)增強(qiáng)輸入譜。
[0019]聲音處理裝置還可包括輔音增強(qiáng)水平計(jì)算單元,被配置成基于輸入信號(hào)的當(dāng)前功率與輸入信號(hào)的先前元音部分的功率的平均值之比而計(jì)算增強(qiáng)量。輔音增強(qiáng)單元可以以該增強(qiáng)量來(lái)增強(qiáng)輸入譜。
[0020]可關(guān)于頻率方向執(zhí)行增強(qiáng)量的內(nèi)插。
[0021]噪聲抑制單元可通過(guò)使用譜減法而獲得噪聲抑制譜。
[0022]輸入信號(hào)的音調(diào)強(qiáng)度也可用作特征量。輔音檢測(cè)單元可基于作為特征量的音調(diào)強(qiáng)度和根據(jù)噪聲抑制譜算出的特征量而從輸入信號(hào)檢測(cè)輔音。
[0023]音調(diào)強(qiáng)度可由在音調(diào)頻率的位置和該音調(diào)頻率的諧波頻率的位置生成噪聲抑制譜的峰的程度來(lái)表示。
[0024]音調(diào)強(qiáng)度可以是輸入信號(hào)的自相關(guān)系數(shù)值。
[0025]特征量計(jì)算單元可將噪聲抑制譜的頻帶劃分為多個(gè)子帶,并且基于子帶中的噪聲抑制譜的代表值而計(jì)算特征量。
[0026]噪聲抑制譜可以是功率譜。
[0027]噪聲抑制譜可以是幅度譜。
[0028]代表值可以是子帶中的噪聲抑制譜的平均值。
[0029]代表值可以是子帶中的噪聲抑制譜的最大值。
[0030]特征量計(jì)算單元可計(jì)算噪聲抑制譜中的子帶的代表值之間的時(shí)間差分值作為特征量。
[0031]根據(jù)本公開(kāi)的實(shí)施例,提供了一種聲音處理方法,該聲音處理方法包括:估計(jì)輸入信號(hào)的背景噪聲;基于通過(guò)估計(jì)背景噪聲而獲得的結(jié)果,來(lái)抑制輸入信號(hào)的背景噪聲;基于抑制了背景噪聲的輸入信號(hào)而計(jì)算特征量;以及基于特征量從輸入信號(hào)檢測(cè)輔音。
[0032]根據(jù)本公開(kāi)的實(shí)施例,提供了一種用于使得計(jì)算機(jī)執(zhí)行如下處理的程序:估計(jì)輸入信號(hào)的背景噪聲;基于通過(guò)估計(jì)背景噪聲而獲得的結(jié)果,來(lái)抑制輸入信號(hào)的背景噪聲;基于抑制了背景噪聲的輸入信號(hào)而計(jì)算特征量;以及基于特征量從輸入信號(hào)檢測(cè)輔音。
[0033]根據(jù)本公開(kāi)的一個(gè)或更多個(gè)實(shí)施例,可以以高準(zhǔn)確度檢測(cè)輔音。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0034]圖1是示出輔音增強(qiáng)裝置的示例性配置的圖;
[0035]圖2是用于說(shuō)明時(shí)間頻率變換的圖;
[0036]圖3是用于說(shuō)明背景噪聲的估計(jì)的圖;
[0037]圖4是用于說(shuō)明噪聲抑制譜的計(jì)算的圖;
[0038]圖5是用于說(shuō)明特征量的計(jì)算的圖;
[0039]圖6是用于說(shuō)明輸入譜的增強(qiáng)的圖;
[0040]圖7是示出通過(guò)增強(qiáng)輸入信號(hào)而獲得的結(jié)果的示例的圖;
[0041]圖8是用于說(shuō)明輔音增強(qiáng)處理的流程圖;
[0042]圖9是用于說(shuō)明輔音檢測(cè)處理的流程圖;
[0043]圖10是用于說(shuō)明增強(qiáng)量計(jì)算處理的流程圖;
[0044]圖11是示出輔音增強(qiáng)裝置的另一示例性配置的圖;
[0045]圖12是示出輔音增強(qiáng)裝置的另一示例性配置的圖;
[0046]圖13是示出輔音增強(qiáng)裝置的另一示例性配置的圖;
[0047]圖14是示出輔音檢測(cè)裝置的示例性配置的圖;
[0048]圖15是示出輔音檢測(cè)裝置的另一示例性配置的圖;以及
[0049]圖16是示出計(jì)算機(jī)的示例性配置的圖。
【具體實(shí)施方式】
[0050]在下文中,將參照附圖詳細(xì)描述本技術(shù)的優(yōu)選實(shí)施例。注意,在該說(shuō)明書(shū)和附圖中,具有基本上相同的功能和結(jié)構(gòu)的結(jié)構(gòu)元件以相同的附圖標(biāo)記來(lái)表示,并且省略對(duì)這些結(jié)構(gòu)元件的重復(fù)說(shuō)明。
[0051]〈第一實(shí)施例〉
[0052]<輔音增強(qiáng)裝置的示例性配置>
[0053]本技術(shù)的實(shí)施例可以被配置成通過(guò)基于具有抑制后的背景噪聲的信號(hào)檢測(cè)輔音,甚至在背景中存在噪聲時(shí)仍以高準(zhǔn)確度檢測(cè)輔音。另外,本技術(shù)的實(shí)施例允許通過(guò)基于輸入信號(hào)、估計(jì)的背景噪聲和噪聲抑制后的信號(hào)的水平來(lái)確定增強(qiáng)量而在考慮噪聲的情況下適當(dāng)?shù)貓?zhí)行輔音的增強(qiáng)。
[0054]圖1是示出根據(jù)應(yīng)用本技術(shù)的輔音增強(qiáng)裝置的實(shí)施例的示例性配置的圖。
[0055]輔音增強(qiáng)裝置11接收作為聲音信號(hào)的輸入信號(hào),從輸入信號(hào)檢測(cè)輔音部分,基于通過(guò)檢測(cè)獲得的結(jié)果而增強(qiáng)輔音,并且輸出所得到的聲音信號(hào)作為輸出信號(hào)。
[0056]輔音增強(qiáng)裝置11包括時(shí)間頻率變換單元21、背景噪聲估計(jì)單元22、噪聲抑制譜計(jì)算單元23、音調(diào)強(qiáng)度計(jì)算單元24、特征量計(jì)算單元25、輔音檢測(cè)單元26、輔音增強(qiáng)水平計(jì)算單元27、輔音增強(qiáng)單元28和頻率時(shí)間變換單元29。
[0057]時(shí)間頻率變換單元21對(duì)所提供的輸入信號(hào)執(zhí)行時(shí)間頻率變換,并且將所得到的輸入譜提供到背景噪聲估計(jì)單元22、噪聲抑制譜計(jì)算單元23、輔音增強(qiáng)水平計(jì)算單元27和輔音增強(qiáng)單元28。
[0058]背景噪聲估計(jì)單元22基于從時(shí)間頻率變換單元21提供的輸入譜而估計(jì)背景噪聲,并且將所得到的背景噪聲譜提供到噪聲抑制譜計(jì)算單元23和輔音增強(qiáng)水平計(jì)算單元27。
[0059]背景噪聲是輸入信號(hào)的聲音當(dāng)中的與說(shuō)話者的話音等不同的噪聲分量(諸如環(huán)境聲音)。另外,背景噪聲譜是背景噪聲的譜。
[0060]噪聲抑制譜計(jì)算單元23基于從時(shí)間頻率變換單元21提供的輸入譜和從背景噪聲估計(jì)單元22提供的背景噪聲譜而抑制包括在輸入譜中的背景噪聲分量,并且獲得噪聲抑制譜。噪聲抑制譜計(jì)算單元23將所得到的噪聲抑制譜提供到音調(diào)強(qiáng)度計(jì)算單元24、特征量計(jì)算單元25和輔音增強(qiáng)水平計(jì)算單元27。
[0061]音調(diào)強(qiáng)度計(jì)算單元24基于從噪聲抑制譜計(jì)算單元23提供的噪聲抑制譜而計(jì)算輸入信號(hào)的音調(diào)強(qiáng)度,并且將算出的音調(diào)強(qiáng)度提供到特征量計(jì)算單元25和輔音檢測(cè)單元26。另外,在以下,將描述從噪聲抑制譜獲得音調(diào)強(qiáng)度的情況。然而,可從噪聲抑制之前的譜或作為時(shí)域中的信號(hào)的輸入信號(hào)來(lái)獲得音調(diào)強(qiáng)度。
[0062]特征量計(jì)算單元25基于從噪聲抑制譜計(jì)算單元23提供的噪聲抑制譜,或者基于噪聲抑制譜和從音調(diào)強(qiáng)度計(jì)算單元24提供的音調(diào)強(qiáng)度,而計(jì)算特征量。特征量計(jì)算單元25然后將算出的特征量提供到輔音檢測(cè)單元26。特征量計(jì)算單元25算出的特征量用于從輸入信號(hào)檢測(cè)輔音。
[0063]輔音檢測(cè)單元26基于從音調(diào)強(qiáng)度計(jì)算單元24提供的音調(diào)強(qiáng)度和從特征量計(jì)算單元25提供的特征量而檢測(cè)輸入信號(hào)的輔音區(qū)間,并且將檢測(cè)結(jié)果提供到輔音增強(qiáng)水平計(jì)算單元27。
[0064]更具體地,在檢測(cè)輔音區(qū)間時(shí),指定要處理的輸入信號(hào)的幀是輔音的幀、元音的幀還是其它幀(即,既不是輔音也不是元音的幀)。在以下描述中,輔音的幀將被特別地稱(chēng)為輔音幀,并且元音的幀將被特別地稱(chēng)為元音幀。
[0065]輔音增強(qiáng)水平計(jì)算單元27基于來(lái)自時(shí)間頻率變換單元21的輸入譜、來(lái)自背景噪聲估計(jì)單元22的背景噪聲譜、來(lái)自噪聲抑制譜計(jì)算單元23的噪聲抑制譜和來(lái)自輔音檢測(cè)單元26的檢測(cè)結(jié)果而計(jì)算增強(qiáng)量。換言之,計(jì)算通過(guò)輔音檢測(cè)為輔音幀的幀的增強(qiáng)量,然后將算出的增強(qiáng)量從輔音增強(qiáng)水平計(jì)算單元27提供到輔音增強(qiáng)單元28。
[0066]輔音增強(qiáng)單元28通過(guò)將從時(shí)間頻率變換單元21提供的輸入譜乘以從輔音增強(qiáng)水平計(jì)算單元27提供的增強(qiáng)量而增強(qiáng)輸入譜的輔音部分,并且將輔音部分被增強(qiáng)的輸入譜提供到頻率時(shí)間變換單元29。
[0067]頻率時(shí)間變換單元29對(duì)從輔音增強(qiáng)單元28提供的輸入譜執(zhí)行頻率時(shí)間變換,并且輸出所得到的輸出時(shí)間波形作為輸出信號(hào)。
[0068]<輸入譜的計(jì)算>
[0069]接下來(lái),現(xiàn)在將描述由構(gòu)成圖1所示的輔音增強(qiáng)裝置11的各個(gè)單元執(zhí)行的處理。
[0070]現(xiàn)在將描述由被配置成將輸入信號(hào)變換為輸入譜的時(shí)間頻率變換單元21執(zhí)行的處理。
[0071]作為示例,假設(shè)具有以圖2中的箭頭All指示的波形的輸入信號(hào)被提供到時(shí)間頻率變換單元21。另外,在以箭頭All指示的輸入信號(hào)中,水平方向表示時(shí)間,并且垂直方向表不幅度。
[0072]當(dāng)以箭頭All指示的輸入信號(hào)被提供到時(shí)間頻率變換單元21時(shí),時(shí)間頻率變換單元21允許構(gòu)成輸入信號(hào)的多個(gè)預(yù)定連續(xù)樣本合并為幀。在該示例中,輸入信號(hào)的區(qū)間Lll至L19中的每個(gè)對(duì)應(yīng)于單個(gè)幀。
[0073]此外,時(shí)間頻率變換單元21針對(duì)輸入信號(hào)的每個(gè)幀使用窗(S卩,具有以箭頭A12指示的形狀的窗函數(shù))執(zhí)行加窗。這里,在以箭頭A12指示的窗函數(shù)中,垂直方向表示窗函數(shù)的值,并且水平方向表示時(shí)間(即,要與窗函數(shù)的值相乘的輸入信號(hào)的樣本位置)。
[0074]另外,可使用正弦窗來(lái)執(zhí)行加窗,或者可使用漢寧窗、漢明窗等來(lái)執(zhí)行加窗。然而,加窗需要與執(zhí)行將頻率信號(hào)變換回時(shí)間信號(hào)的逆變換的時(shí)間匹配。
[0075]當(dāng)通過(guò)將構(gòu)成輸入信號(hào)的幀的每個(gè)樣本乘以窗函數(shù)來(lái)執(zhí)行加窗時(shí),時(shí)間頻率變換單元21對(duì)所得到的信號(hào)執(zhí)行零填充。例如,如果使用以箭頭A12指示的窗函數(shù)對(duì)輸入信號(hào)的區(qū)間Lll執(zhí)行加窗并且對(duì)所得到的信號(hào)執(zhí)行零填充,則獲得以箭頭A13指示的信號(hào)。
[0076]在以箭頭A13指示的信號(hào)中,垂直方向表示幅度,并且水平方向表示時(shí)間。在以箭頭A13指示的信號(hào)中,區(qū)間L31是執(zhí)行零填充的部分,并且該部分中的信號(hào)的幅度變?yōu)榱?。另外,為了增加后?jí)的時(shí)間頻率變換的頻率分辨率,零填充之后的信號(hào)的長(zhǎng)度可以例如是窗的長(zhǎng)度的兩倍、四倍或更多倍。
[0077]此外,在執(zhí)行零填充之后,時(shí)間頻率變換單元21對(duì)通過(guò)零填充所獲得的信號(hào)執(zhí)行諸如離散傅立葉變換的時(shí)間頻率變換,并且將時(shí)間信號(hào)變換為作為頻率信號(hào)的輸入譜。例如,如果對(duì)以箭頭A13指示的信號(hào)執(zhí)行離散傅立葉變換,則獲得以箭頭A14指示的輸入譜。另外,在以箭頭A14指示的輸入譜中,水平方向表示頻率,并且垂直方向表示功率或幅度。
[0078]以此方式,從輸入信號(hào)的幀獲得的輸入譜可以是功率譜,或者可以是幅度譜或?qū)?shù)幅值譜。另外,用于獲得輸入譜的時(shí)間頻率變換的示例包括但不限于離散傅立葉變換、離散余弦變換等。
[0079]另外,在圖2的示例中,為了增加頻率分辨率,通過(guò)由于零填充的過(guò)采樣而使得頻率變換的長(zhǎng)度比窗的長(zhǎng)度長(zhǎng),但是不一定要執(zhí)行零填充。
[0080]上述處理允許針對(duì)輸入信號(hào)的每個(gè)幀獲得輸入譜。
[0081]〈背景噪聲的估計(jì)〉
[0082]隨后,將給出要由背景噪聲估計(jì)單元22執(zhí)行的背景噪聲估計(jì)的描述。
[0083]例如,如圖3所示,在時(shí)間頻率變換單元21中,假設(shè)分別以箭頭22至26指示的輸入譜x(t-l,f)至x(t-5,f)分別是從構(gòu)成以箭頭A21指示的輸入信號(hào)的五個(gè)幀F(xiàn)(t-l)至F(t-5)獲得的。在圖3中,在以箭頭A21指示的輸入信號(hào)中,垂直方向表示幅度,并且水平方向表示時(shí)間。另外,在對(duì)應(yīng)于每個(gè)幀的輸入譜X(t,f)中,t表示時(shí)間索引,并且f表示頻率。
[0084]背景噪聲估計(jì)單元22獲得由時(shí)間頻率變換單元21獲得的輸入譜X(t_l,f)至X(t-5, f)中的每個(gè)的平均值,并且將所獲得的輸入譜的平均值設(shè)置為背景噪聲譜N (t,f)。在圖3的示例中,以箭頭A27指示的譜表示通過(guò)計(jì)算輸入譜X(t-l,f)至X(t-5,f)的平均值而獲得的背景噪聲譜N(t,f)。
[0085]以此方式,在背景噪聲估計(jì)單元22中,通過(guò)將輸入信號(hào)的預(yù)定數(shù)量的先前幀的輸入譜的平均值設(shè)置為背景噪聲來(lái)執(zhí)行背景噪聲的估計(jì)。一般地,對(duì)于相對(duì)長(zhǎng)的時(shí)段,通過(guò)取聲音信號(hào)的每個(gè)幀的譜的平均值,知道該平均值基本上變?yōu)樵肼曌V。
[0086]例如,在先前M個(gè)幀的輸入譜的平均值被設(shè)置為背景噪聲譜的情況下,背景噪聲譜估計(jì)單元22通過(guò)計(jì)算以下等式(I)來(lái)計(jì)算時(shí)間索引被設(shè)置為t的幀的背景噪聲譜N(t, f)。
【權(quán)利要求】
1.一種聲音處理裝置,包括: 背景噪聲估計(jì)單元,被配置成估計(jì)輸入信號(hào)的背景噪聲; 噪聲抑制單元,被配置成基于通過(guò)估計(jì)所述背景噪聲而獲得的結(jié)果,來(lái)抑制所述輸入信號(hào)的背景噪聲; 特征量計(jì)算單元,被配置成基于抑制了所述背景噪聲的所述輸入信號(hào)而計(jì)算特征量;以及 輔音檢測(cè)單元,被配置成基于所述特征量來(lái)從所述輸入信號(hào)檢測(cè)輔音。
2.根據(jù)權(quán)利要求1所述的聲音處理裝置, 其中,所述背景噪聲估計(jì)單元在頻域中估計(jì)所述背景噪聲, 其中,所述噪聲抑制單元通過(guò)抑制從所述輸入信號(hào)獲得的輸入譜中包括的背景噪聲而獲得噪聲抑制譜,以及 其中,所述特征量計(jì)算單元基于所述噪聲抑制譜而計(jì)算所述特征量。
3.根據(jù)權(quán)利要求2所述的聲音處理裝置,其中,所述背景噪聲估計(jì)單元通過(guò)獲得先前輸入譜的平均值而估計(jì)所述背景噪聲。
4.根據(jù)權(quán)利要求3所述的聲音處理裝置,還包括: 輔音增強(qiáng)單元,被配置成針對(duì)這樣的頻率增強(qiáng)所述輸入譜:在該頻率處,所述噪聲抑制譜的值大于通過(guò)將背景噪聲譜乘以常`數(shù)所獲得的值,所述背景噪聲譜是通過(guò)對(duì)所述背景噪聲的估計(jì)而獲得的。
5.根據(jù)權(quán)利要求4所述的聲音處理裝置,其中,所述輔音增強(qiáng)單元以預(yù)定增強(qiáng)量增強(qiáng)所述輸入譜。
6.根據(jù)權(quán)利要求4所述的聲音處理裝置,還包括: 輔音增強(qiáng)水平計(jì)算單元,被配置成基于所述輸入信號(hào)的當(dāng)前功率與所述輸入信號(hào)的先前元音部分的功率的平均值之比而計(jì)算增強(qiáng)量, 其中,所述輔音增強(qiáng)單元以所述增強(qiáng)量增強(qiáng)所述輸入譜。
7.根據(jù)權(quán)利要求6所述的聲音處理裝置,其中,關(guān)于頻率方向執(zhí)行所述增強(qiáng)量的內(nèi)插。
8.根據(jù)權(quán)利要求2所述的聲音處理裝置,其中,所述噪聲抑制單元通過(guò)使用譜減法而獲得所述噪聲抑制譜。
9.根據(jù)權(quán)利要求2所述的聲音處理裝置,其中,所述輸入信號(hào)的音調(diào)強(qiáng)度也用作特征量,以及 其中,所述輔音檢測(cè)單元基于作為所述特征量的音調(diào)強(qiáng)度和根據(jù)所述噪聲抑制譜算出的特征量而從所述輸入信號(hào)檢測(cè)輔音。
10.根據(jù)權(quán)利要求9所述的聲音處理裝置,其中,所述音調(diào)強(qiáng)度由在音調(diào)頻率的位置和所述音調(diào)頻率的諧波頻率的位置生成所述噪聲抑制譜的峰的程度來(lái)表示。
11.根據(jù)權(quán)利要求9所述的聲音處理裝置,其中,所述音調(diào)強(qiáng)度是所述輸入信號(hào)的自相關(guān)系數(shù)值。
12.根據(jù)權(quán)利要求2所述的聲音處理裝置,其中,所述特征量計(jì)算單元將所述噪聲抑制譜的頻帶劃分為多個(gè)子帶,并且基于所述子帶中的所述噪聲抑制譜的代表值而計(jì)算所述特征量。
13.根據(jù)權(quán)利要求12所述的聲音處理裝置,其中,所述噪聲抑制譜是功率譜。
14.根據(jù)權(quán)利要求12所述的聲音處理裝置,其中,所述噪聲抑制譜是幅度譜。
15.根據(jù)權(quán)利要求12所述的聲音處理裝置,其中,所述代表值是所述子帶中的所述噪聲抑制譜的平均值。
16.根據(jù)權(quán)利要求12所述的聲音處理裝置,其中,所述代表值是所述子帶中的所述噪聲抑制譜的最大值。
17.根據(jù)權(quán)利要求12所述的聲音處理裝置,其中,所述特征量計(jì)算單元計(jì)算所述噪聲抑制譜中的所述子帶的代表值之間的時(shí)間差分值作為所述特征量。
18.—種聲音處理方法,包括: 估計(jì)輸入信號(hào)的背景噪聲; 基于通過(guò)估計(jì)所述背景噪聲而獲得的結(jié)果,來(lái)抑制所述輸入信號(hào)的背景噪聲; 基于抑制了所述背景噪聲的所述輸入信號(hào)而計(jì)算特征量;以及 基于所述特征量從所述輸入信號(hào)檢測(cè)輔音。
19.一種用于使得計(jì)算機(jī)執(zhí)行以下處理的程序: 估計(jì)輸入信號(hào)的背景噪聲; 基于通過(guò)估計(jì)所述背景噪聲而獲得的結(jié)果,來(lái)抑制所述輸入信號(hào)的背景噪聲; 基于抑制了所述背景噪聲的所述輸入信號(hào)而計(jì)算特征量;以及 基于所述特征量從所述輸入信號(hào)檢 測(cè)輔音。
【文檔編號(hào)】G10L21/02GK103886865SQ201310684752
【公開(kāi)日】2014年6月25日 申請(qǐng)日期:2013年12月13日 優(yōu)先權(quán)日:2012年12月20日
【發(fā)明者】東山惠祐 申請(qǐng)人:索尼公司