噪聲檢測裝置、噪聲檢測方法和程序的制作方法
【專利摘要】本發(fā)明提供了一種噪聲檢測裝置、噪聲檢測方法和程序,該噪聲檢測裝置包括幅度特征量計算器、頻率特征量計算器、特征變化計算器、區(qū)間指定單元、特征量集合生成單元和噪聲判定單元。
【專利說明】噪聲檢測裝置、噪聲檢測方法和程序
[0001]對相關(guān)申請的交叉引用
[0002]本申請要求2012年12月21日提交的日本優(yōu)先權(quán)專利申請JP2012-279013的權(quán)益,其全部內(nèi)容通過引用合并于此。
【技術(shù)領(lǐng)域】
[0003]本技術(shù)涉及一種噪聲檢測裝置、噪聲檢測方法和程序,并且更具體地,涉及能夠在不增加裝置的處理負(fù)荷的情況下檢測各種突然噪聲的噪聲檢測裝置、噪聲檢測方法和程序。
【背景技術(shù)】
[0004]諸如IC記錄器、智能電話和視頻攝像裝置的記錄器通過嵌入在這些IC記錄器中的小型麥克風(fēng)來記錄周圍的語音。
[0005]當(dāng)這樣的記錄器執(zhí)行記錄時,在用戶通過使用操作按鈕等操作記錄器時發(fā)生的操作聲音、在與記錄器分離的位置發(fā)生的鍵盤操作聲音等被作為噪聲而并入所記錄的語音中。
[0006]因此,提出了用于檢測和減小在記錄的同時被并入為噪聲的特殊噪聲(諸如在分離的位置發(fā)生的鍵盤操作聲音)的技術(shù)(例如,參見日本未審查專利申請公布2012-027186)。
[0007]在日本未審查專利申請公布2012-027186的噪聲檢測方法中,檢測目標(biāo)主要是在與記錄器分離的位置發(fā)生的鍵盤操作聲音。
[0008]一般地,鍵盤操作聲音作為具有相對長持續(xù)時間的一組脈沖式噪聲信號出現(xiàn)在所記錄的語音信號上。因此,可以通過將閾值與具有相對長持續(xù)時間的脈沖式噪聲信號的幅值(信號水平)進(jìn)行比較或者將閾值與語音信號很少具有的高頻帶分量進(jìn)行比較而容易地檢測由操作聲音引起的噪聲。
[0009]提出了用于判定輸入信號是語音(例如,會話)還是非語音的技術(shù)(例如,參見日本未審查專利申請公布2009-251134)。例如,使用日本未審查專利申請公布2009-251134的技術(shù)而判定為非語音的幀可以被識別為噪聲。
【發(fā)明內(nèi)容】
[0010]然而,由記錄器記錄的噪聲不僅包括具有與脈沖信號的頻率特征相似的頻率特征的信號(諸如鍵盤操作聲音),而且包括許多具有特殊頻率特征的突然噪聲,諸如許多人的大笑聲和摩擦聲音。這樣的噪聲不易由例如日本未審查專利申請公布2012-027186的現(xiàn)有技術(shù)檢測到。
[0011]另外,記錄器所記錄的大部分突然噪聲(例如,拖延的鼓掌、咳嗽和噴嚏)具有不穩(wěn)定的持續(xù)時間,因此具有很分散的值并且很少可以被預(yù)測。因此,也難以通過使用衰減特征量的檢測方法來檢測噪聲,該檢測方法是根據(jù)日本未審查專利申請公布2012-027186的技術(shù)的噪聲檢測方法。
[0012]此外,在如在日本未審查專利申請公布2012-027186的技術(shù)中的、使用衰減特征量的檢測方法中,在相當(dāng)長的時間范圍中分析信號,因此存在引起與該時間范圍對應(yīng)的延遲的問題。
[0013]日本未審查專利申請公布2009-251134的技術(shù)是僅判斷輸入信號是否為語音的方法,而不旨在檢測噪聲。例如,即使在使用日本未審查專利申請公布2009-251134的技術(shù)檢測到噪聲時,也可能難以判斷噪聲是否為突然噪聲。
[0014]另外,在日本未審查專利申請公布2009-251134所公開的方法中,可認(rèn)為計算是復(fù)雜的。例如,安裝在移動裝置上可能是困難的。
[0015]期望在裝置的處理負(fù)荷沒有增加的情況下檢測各種突然噪聲。
[0016]根據(jù)本技術(shù)的實施例,提供了一種噪聲檢測裝置,包括:幅度特征量計算器,其計算語音的輸入信號的預(yù)定幀的波形中的幅度特征量;頻率特征量計算器,其計算所述預(yù)定幀的波形中的頻率特征量;特征變化計算器,其基于保持在保持單元中的所述幅度特征量和所述頻率特征量當(dāng)中的一個特征量而計算特征變化,所述特征變化是在時間上相鄰的兩個幀之間的該特征量的變化,所述保持單元用于保持多個幀的幅度特征量和頻率特征量;區(qū)間指定單元,其將所述特征變化與先前設(shè)置的閾值進(jìn)行比較,以指定時間上連續(xù)的幀的一定區(qū)間,在該區(qū)間中,保持在所述保持單元中的幅度特征量和頻率特征量要經(jīng)受加權(quán)平均;特征量集合生成單元,其生成與所指定的區(qū)間的幀中的每個幀相對應(yīng)的幅度特征量和頻率特征量的各個加權(quán)平均值的集合,作為特征量集合;以及噪聲判定單元,其基于所述特征量集合來判定所述輸入信號的最新幀是否為包括作為突然噪聲的非平穩(wěn)噪聲的幀。
[0017]所述幅度特征量計算器或所述頻率特征量計算器可以計算多種類型的幅度特征量或多種類型的頻率特征量當(dāng)中的至少兩種類型的特征量。還可以設(shè)置特征量選擇單元,所述特征量選擇單元基于所述預(yù)定幀的輸入信號的過零率、所述預(yù)定幀的輸入信號的多個樣本值的平均值或所述預(yù)定幀的輸入信號的多個樣本值的均方根值,來選擇所述多種類型的幅度特征量當(dāng)中要由所述幅度特征量計算器計算的幅度特征量或所述多種類型的頻率特征量當(dāng)中要由所述頻率特征量計算器計算的頻率特征量。
[0018]所述特征量選擇單元可以基于所述預(yù)定幀的輸入信號的過零率而判定所述預(yù)定幀的輸入信號是更接近元音還是更接近輔音,并且根據(jù)判定結(jié)果來選擇所述多種類型的幅度特征量當(dāng)中要由所述幅度特征量計算器計算的幅度特征量以及所述多種類型的頻率特征量當(dāng)中要由所述頻率特征量計算器計算的頻率特征量。
[0019]所述幅度特征量計算器可以計算以下中的至少一個作為所述幅度特征量:所述預(yù)定幀的多個樣本值的峰值、所述預(yù)定幀的多個樣本值的平均值、以及所述預(yù)定幀的多個樣本值的均方根值。所述頻率特征量計算器可以計算以下中的至少一個作為所述頻率特征量:所述預(yù)定幀的輸入信號的過零率、所述預(yù)定幀的輸入信號中的特定頻率分量的聲壓與所有頻率分量的聲壓的比率、所述預(yù)定幀的輸入信號中的特定頻率分量的聲壓與不同于該特定頻率分量的頻率分量的聲壓的比率、以及通過對所述預(yù)定幀的輸入信號的傅立葉變換而獲得的頻譜當(dāng)中的一個或更多個特定值。
[0020]所述噪聲判定單元可以計算包括在所述特征量集合中的幅度特征量的加權(quán)平均值與先前設(shè)置的第一值的比率以及包括在所述特征量集合中的頻率特征量的加權(quán)平均值與先前設(shè)置的第二值的比率,基于算出的比率來計算噪聲可能性,并且將所述噪聲可能性與先前設(shè)置的閾值進(jìn)行比較,以判定所述輸入信號的最新幀是否為包括所述非平穩(wěn)噪聲的幀。
[0021]所述噪聲判定單元可以基于特征向量空間中的先前學(xué)習(xí)的識別模型,根據(jù)與所述特征量集合相對應(yīng)的特征向量來計算用于表示判定當(dāng)前幀為非平穩(wěn)噪聲幀的確定度的噪聲可能性,并且將所述噪聲可能性與先前設(shè)置的閾值進(jìn)行比較,以判定所述輸入信號的最新幀是否為包括所述非平穩(wěn)噪聲的幀,其中所述特征向量空間使用所述特征量集合中所包括的幅度特征量的加權(quán)平均值和頻率特征量的加權(quán)平均值中的一部分或全部。
[0022]所述噪聲檢測裝置還可以包括:頻率特征校正器,其對提供所述輸入信號的信號輸入裝置的頻率特征進(jìn)行校正。
[0023]所述噪聲檢測裝置還可以包括:平穩(wěn)噪聲去除單元,其從所述輸入信號去除平穩(wěn)噪聲,所述平穩(wěn)噪聲是與所述非平穩(wěn)噪聲不同的噪聲。
[0024]根據(jù)本技術(shù)的實施例,提供了一種噪聲檢測方法,包括:通過幅度特征量計算器來計算語音的輸入信號的預(yù)定幀的波形中的幅度特征量;通過頻率特征量計算器來計算所述預(yù)定幀的波形中的頻率特征量;通過特征變化計算器來基于保持在保持單元中的所述幅度特征量和所述頻率特征量當(dāng)中的一個特征量而計算特征變化,所述特征變化是在時間上相鄰的兩個幀之間的該特征量的變化,所述保持單元用于保持多個幀的幅度特征量和頻率特征量;通過區(qū)間指定單元來將所述特征變化與先前設(shè)置的閾值進(jìn)行比較,以指定時間上連續(xù)的幀的一定區(qū)間,在該區(qū)間中,保持在所述保持單元中的幅度特征量和頻率特征量要經(jīng)受加權(quán)平均;通過特征量集合生成單元來生成與所指定的區(qū)間的幀中的每個幀相對應(yīng)的幅度特征量和頻率特征量的各個加權(quán)平均值的集合,作為特征量集合;以及通過噪聲判定單元來基于所述特征量集合來判定所述輸入信號的最新幀是否為包括作為突然噪聲的非平穩(wěn)噪聲的中貞。
[0025]根據(jù)本技術(shù)的實施例,提供了一種使得計算機(jī)用作噪聲檢測裝置的程序,所述噪聲檢測裝置包括:幅度特征量計算器,其計算語音的輸入信號的預(yù)定幀的波形中的幅度特征量;頻率特征量計算器,其計算所述預(yù)定幀的波形中的頻率特征量;特征變化計算器,其基于保持在保持單元中的所述幅度特征量和所述頻率特征量當(dāng)中的一個特征量而計算特征變化,所述特征變化是在時間上相鄰的兩個幀之間的該特征量的變化,所述保持單元用于保持多個幀的幅度特征量和頻率特征量;區(qū)間指定單元,其將所述特征變化與先前設(shè)置的閾值進(jìn)行比較,以指定時間上連續(xù)的幀的一定區(qū)間,在該區(qū)間中,保持在所述保持單元中的幅度特征量和頻率特征量要經(jīng)受加權(quán)平均;特征量集合生成單元,其生成與所指定的區(qū)間的幀中的每個幀相對應(yīng)的幅度特征量和頻率特征量的各個加權(quán)平均值的集合,作為特征量集合;以及噪聲判定單元,其基于所述特征量集合來判定所述輸入信號的最新幀是否為包括作為突然噪聲的非平穩(wěn)噪聲的幀。
[0026]在本技術(shù)的實施例中,計算語音的輸入信號的預(yù)定幀的波形中的幅度特征量;計算預(yù)定幀的波形中的頻率特征量;基于保持在保持單元中的幅度特征量和頻率特征量當(dāng)中的任一個特征量而計算特征變化,該特征變化是時間上相鄰的兩個幀之間的該特征量的變化,該保持單元用于保持多個幀的幅度特征量和頻率特征量;將特征變化與先前設(shè)置的閾值進(jìn)行比較,以指定時間上連續(xù)的幀的一定區(qū)間,在該區(qū)間中,保持在保持單元中的幅度特征量和頻率特征量要經(jīng)受加權(quán)平均;作為特征量集合,生成與所指定的區(qū)間的幀中的每個幀相對應(yīng)的幅度特征量和頻率特征量的各個加權(quán)平均的集合;并且基于特征量集合來判定輸入信號的最新幀是否為包括作為突然噪聲的非平穩(wěn)噪聲的幀。
[0027]根據(jù)本技術(shù)的實施例,可以在裝置的處理負(fù)荷沒有增加的情況下檢測各種突然噪聲。
【專利附圖】
【附圖說明】
[0028]圖1是示出根據(jù)本技術(shù)的實施例的噪聲檢測裝置的配置示例的框圖;
[0029]圖2是示出信號輸入單元的頻率特征曲線與頻率特征的線性平均之間的關(guān)系的圖;
[0030]圖3是示出圖1的幀集成單元的配置的詳細(xì)示例的框圖;
[0031]圖4是示出下述各項的圖:輸入信號的波形、顯示出幅度特征量的變化的波形、以及顯示出特征變化的變化的波形;
[0032]圖5是用于描述圖1的噪聲檢測裝置的噪聲檢測處理的示例的流程圖;
[0033]圖6是用于描述圖5的集成處理的詳細(xì)示例的流程圖;
[0034]圖7是示出根據(jù)應(yīng)用本技術(shù)的噪聲檢測裝置的另一實施例的配置示例的框圖;
[0035]圖8是示出圖7的特征量選擇單元的配置的詳細(xì)示例的框圖;
[0036]圖9是示出咳嗽與元音之間以及咳嗽與輔音之間的頻率特征的比較的示例的圖;
[0037]圖10是示出語音信號的過零率的分布示例的圖;
[0038]圖11是示出根據(jù)應(yīng)用本技術(shù)的噪聲檢測裝置的又一實施例的配置示例的框圖;以及
[0039]圖12是示出個人計算機(jī)的配置示例的框圖。
【具體實施方式】
[0040]在下文中,將參照附圖詳細(xì)描述本技術(shù)的優(yōu)選實施例。注意,在本說明書和附圖中,具有基本上相同的功能和結(jié)構(gòu)的結(jié)構(gòu)元件以相同的附圖標(biāo)記來表示,并且省略對這些結(jié)構(gòu)元件的重復(fù)說明。
[0041]圖1是示出根據(jù)本技術(shù)的實施例的噪聲檢測裝置的配置示例的框圖。圖1所示的噪聲檢測裝置100被配置成檢測包括在周圍語音中的突然噪聲(也稱為非平穩(wěn)噪聲)。這里,突然噪聲是諸如拖延的鼓掌、咳嗽和噴嚏的聲音。
[0042]如圖1所示,噪聲檢測裝置100包括頻率特征校正器101、平穩(wěn)噪聲減小單元102、幅度特征量計算器104、頻率特征量計算器105、巾貞集成單元106、可能性計算器107和噪聲檢測器108。
[0043]另外,信號輸入單元51和信號處理器52連接到噪聲檢測裝置100。
[0044]信號輸入單兀51包括:聲音收集麥克風(fēng),其收集周圍語音;放大器,其以從主控制器給出的放大系數(shù)對從麥克風(fēng)輸入的語音信號進(jìn)行放大;以及AD轉(zhuǎn)換器(模數(shù)轉(zhuǎn)換器),其將從放大器提供的模擬信號轉(zhuǎn)換成數(shù)字信號。
[0045]近年來,放大器和AD轉(zhuǎn)換器(可包括DA轉(zhuǎn)換器)彼此集成地形成的模塊已得到了廣泛使用,并且這樣的模塊可設(shè)置在信號輸入單元51中。另外,信號輸入單元51可用于從記錄介質(zhì)(例如,硬盤、CD、半導(dǎo)體存儲器等)直接讀取數(shù)字語音信號。
[0046]頻率特征校正器101例如包括用于內(nèi)插信號輸入單元51的特有頻率特征Fid (η)的濾波器。即,為了防止從信號輸入單元51提供的數(shù)字信號被信號輸入單元51的特有頻率特征影響,上述濾波器從輸入信號去除信號輸入單元51的特有頻率特征的影響。稍后將詳細(xì)描述頻率特征校正器101的處理。
[0047]頻率特征校正器101將已被去除了信號輸入單元51的特有頻率特征的影響的信號提供到平穩(wěn)噪聲減小單元。
[0048]在平穩(wěn)噪聲減小單兀102中,計算平穩(wěn)噪聲的水平。這里,平穩(wěn)噪聲表不下述噪聲:在該噪聲中,包括在數(shù)字信號中的頻率特征和幅度特征在長時間區(qū)間中不變。平穩(wěn)噪聲的示例包括噪聲檢測裝置100、信號輸入單元51或信號處理器52的驅(qū)動聲音以及會議室中
的空調(diào)聲音。
[0049]在平穩(wěn)噪聲減小單元102中,從輸入信號去除具有所計算的水平的平穩(wěn)噪聲分量,然后將該平穩(wěn)噪聲分量提供到幅度特征量計算器104和頻率特征量計算器105。例如,可采用常用的噪聲減小方法或其它方法來減小平穩(wěn)噪聲。
[0050]在幅度特征量計算器104中,根據(jù)從平穩(wěn)噪聲減小單元102提供的輸入信號來計算一個或多個幅度特征量,并且將這一個或多個幅度特征量提供到幀集成單元106。稍后將詳細(xì)描述幅度特征量。
[0051]在頻率特征量計算器105中,根據(jù)從平穩(wěn)噪聲減小單元102提供的輸入信號來計算一個或多個頻率特征量,并且將這一個或多個頻率特征量提供到幀集成單元106。稍后將詳細(xì)描述頻率特征量。
[0052]在幀集成單元106中,針對預(yù)定數(shù)量的幀來收集針對每個幀所計算的、且分別從幅度特征量計算器104和頻率特征量計算器105提供的幅度特征量和頻率特征量,并且將這些幅度特征量和頻率特征量集成為一個特征量集合F_pack。稍后將詳細(xì)描述集成方法。特征量集合F_pack被提供到可能性計算器107。
[0053]可能性計算器107計算預(yù)設(shè)閾值與包括在幀集成單元106所集成的特征量集合F_pack中的每個特征量的比率。另外,可能性計算器107基于算出的比率來估計特征量集合F_pack的每個特征量的噪聲可能性,并且計算所估計的每個特征量的噪聲可能性的加權(quán)平均值作為輸入信號的噪聲可能性。算出的噪聲可能性被提供到噪聲檢測器108。稍后將詳細(xì)描述計算噪聲可能性的方法。
[0054]噪聲檢測器108將從可能性計算器107提供的輸入信號的噪聲可能性與預(yù)設(shè)閾值進(jìn)行比較,并且判定輸入信號是否為非平穩(wěn)噪聲。噪聲檢測器108的判定結(jié)果被作為噪聲檢測裝置100獲得的最終檢測結(jié)果而輸出到信號處理器52。
[0055]信號處理器52使用從噪聲檢測器108輸出的檢測結(jié)果來執(zhí)行信號處理。另外,信號處理器52包括用于在必要時記錄語音信號的記錄單元,以將語音信號記錄在諸如硬盤、CD或半導(dǎo)體存儲器的記錄介質(zhì)中。
[0056]具體地,在信號處理器52中,例如,使用從噪聲檢測器108輸出的檢測結(jié)果來計算僅適合于輸入信號的語音部分的記錄靈敏度。例如,計算適合于記錄下述語音的記錄靈敏度:該語音從包括噪聲的周圍語音中排除了噪聲。
[0057]另外,在信號處理器52中,使用從噪聲檢測器108輸出的檢測結(jié)果來執(zhí)行自適應(yīng)處理。例如,在信號處理器52中,使用檢測結(jié)果執(zhí)行噪聲減小處理。
[0058]或者,在信號處理器52中,可使用檢測結(jié)果來得知噪聲類型(咳嗽、噴嚏、笑聲等),并且可根據(jù)噪聲類型來估計輸入信號的記錄環(huán)境以反饋信息。例如,當(dāng)噪聲類型是咳嗽時,可反饋表示記錄環(huán)境中的人處于差的健康狀態(tài)的信息,當(dāng)噪聲類型是噴嚏時,可反饋表示該位置的空氣不干凈的信息。當(dāng)噪聲類型是笑聲時,可反饋表示做出了滑稽評論的信息。
[0059]接下來,將詳細(xì)描述頻率特征校正器101的處理。頻率特征校正器101從信號輸入單兀51獲取與幀η對應(yīng)的輸入信號S(η)。這里,輸入信號S(η)被定義為如表達(dá)式(I)所示。[0060]S (n) =sig (L.n+i),(?=Ρ..υ...(I)
[0061]在表達(dá)式(I)中,L是作為A/D轉(zhuǎn)換中的采樣結(jié)果而獲得的樣本值,并且表示包括在一個幀中的樣本值的數(shù)量。通過表達(dá)式(I)獲得包括在第η幀中的樣本值集合。
[0062]頻率特征校正器101基于已通過先前測量獲得的、信號輸入單元51的特有頻率特征Fid(n)而生成用于校正特有頻率特征Fid(η)的濾波器Hid,并且通過濾波器Hid對輸入信號S(n)進(jìn)行處理以執(zhí)行從輸入信號S(η)去除特有頻率特征Fid(η)的校正。
[0063]圖2是示出表示信號輸入單元51的特有頻率特征的頻率特征曲線與作為理想頻率特征的頻率特征的線性平均之間的關(guān)系的圖,其中水平軸表示聲壓并且垂直軸表示頻率。如圖2所示,頻率特征曲線與頻率特征的線性平均分別在3kHz、7kHz、llkHz和15kHz的頻率附近相差_6dB、+lldB、+8dB和-15dB。在該情況下,通過在3kHz、7kHz、IlkHz和15kHz的頻率附近分別生成用于以+6dB、-l ldB、-8dB和+15dB進(jìn)行校正的Hid,可以執(zhí)行從輸入信號S(n)去除特有頻率特征Fid(η)的校正。
[0064]在例如圖2所提取的3kHz、7kHzUlkHz和15kHz的頻率附近,聲壓與頻率特征的線性平均相隔最多,并且這些頻率被選擇作為要校正的頻率。
[0065]或者,頻率特征校正器101可生成與信號輸入單元51的特有頻率特征Fid(η)對應(yīng)的映射表,并且在稍后要描述的幅度特征量的計算和頻率特征量的計算時將該映射表提供到幅度特征量計算器104和頻率特征量計算器105。例如,表示在3kHz、7kHzUlkHz和15kHz的頻率附近分別施加+6dB、-1ldB, -8dB和+15dB的聲壓的信息被轉(zhuǎn)換到映射表中,并且被提供到幅度特征量計算器104和頻率特征量計算器105。
[0066]在平穩(wěn)噪聲減小單元102中,也可以以與頻率特征校正器101中相同的方式來創(chuàng)建映射表以減小平穩(wěn)噪聲。
[0067]接下來,將詳細(xì)描述幅度特征量。
[0068]幅度特征量計算器104分析輸入信號S (η)的幅度特征,以計算表示幀η的幅度特征的幅度特征量。這里,E1 (n)、E2 (η)和^(11)被計算作為幀η的幅度特征量。
[0069]E1 (η)是表示包括在幀η中的L個樣本值的峰值的幅度特征量,并且通過表達(dá)式
(2)來計算。
「00701 Ei (n) = pk(n) = max |sig(L.n+i) 1...(2)
1<i<L
[0071 ] E2 (n)是表示包括在幀η中的L個樣本值的平均值的幅度特征量,并且通過表達(dá)式(3 )來計算。
【權(quán)利要求】
1.一種噪聲檢測裝置,包括: 幅度特征量計算器,其計算語音的輸入信號的預(yù)定幀的波形中的幅度特征量; 頻率特征量計算器,其計算所述預(yù)定幀的波形中的頻率特征量; 特征變化計算器,其基于保持在保持單元中的所述幅度特征量和所述頻率特征量當(dāng)中的一個特征量而計算特征變化,所述特征變化是在時間上相鄰的兩個幀之間的該特征量的變化,所述保持單元用于保持多個幀的幅度特征量和頻率特征量; 區(qū)間指定單元,其將所述特征變化與先前設(shè)置的閾值進(jìn)行比較,以指定時間上連續(xù)的幀的下述區(qū)間:在該區(qū)間中,保持在所述保持單元中的幅度特征量和頻率特征量要經(jīng)受加權(quán)平均; 特征量集合生成單元,其生成與所指定的區(qū)間的幀中的每個幀相對應(yīng)的幅度特征量和頻率特征量的各個加權(quán)平均值的集合,作為特征量集合;以及 噪聲判定單元,其基于所述特征量集合來判定所述輸入信號的最新幀是否為包括作為`突然噪聲的非平穩(wěn)噪聲的幀。
2.根據(jù)權(quán)利要求1所述的噪聲檢測裝置, 其中,所述幅度特征量計算器或所述頻率特征量計算器計算多種類型的幅度特征量或多種類型的頻率特征量當(dāng)中的至少兩種類型的特征量,以及 其中,還設(shè)置了特征量選擇單元,所述特征量選擇單元基于所述預(yù)定幀的輸入信號的過零率、所述預(yù)定幀的輸入信號的多個樣本值的平均值或所述預(yù)定幀的輸入信號的多個樣本值的均方根值,來選擇所述多種類型的幅度特征量當(dāng)中要由所述幅度特征量計算器計算的幅度特征量或所述多種類型的頻率特征量當(dāng)中要由所述頻率特征量計算器計算的頻率特征量。
3.根據(jù)權(quán)利要求2所述的噪聲檢測裝置, 其中,所述特征量選擇單元基于所述預(yù)定幀的輸入信號的過零率而判定所述預(yù)定幀的輸入信號是更接近元音還是更接近輔音,并且根據(jù)判定結(jié)果來選擇所述多種類型的幅度特征量當(dāng)中要由所述幅度特征量計算器計算的幅度特征量以及所述多種類型的頻率特征量當(dāng)中要由所述頻率特征量計算器計算的頻率特征量。
4.根據(jù)權(quán)利要求1所述的噪聲檢測裝置, 其中,所述幅度特征量計算器計算以下中的至少一個作為所述幅度特征量:所述預(yù)定幀的多個樣本值的峰值、所述預(yù)定幀的多個樣本值的平均值、以及所述預(yù)定幀的多個樣本值的均方根值,以及 其中,所述頻率特征量計算器計算以下中的至少一個作為所述頻率特征量:所述預(yù)定幀的輸入信號的過零率、所述預(yù)定幀的輸入信號中的特定頻率分量的聲壓與所有頻率分量的聲壓的比率、所述預(yù)定幀的輸入信號中的特定頻率分量的聲壓與不同于該特定頻率分量的頻率分量的聲壓的比率、以及通過對所述預(yù)定幀的輸入信號的傅立葉變換而獲得的頻譜當(dāng)中的一個或更多個特定值。
5.根據(jù)權(quán)利要求1所述的噪聲檢測裝置, 其中,所述噪聲判定單元計算包括在所述特征量集合中的幅度特征量的加權(quán)平均值與先前設(shè)置的第一值的比率以及包括在所述特征量集合中的頻率特征量的加權(quán)平均值與先前設(shè)置的第二值的比率,基于算出的比率來計算噪聲可能性,并且將所述噪聲可能性與先前設(shè)置的閾值進(jìn)行比較,以判定所述輸入信號的最新幀是否為包括所述非平穩(wěn)噪聲的幀。
6.根據(jù)權(quán)利要求1所述的噪聲檢測裝置, 其中,所述噪聲判定單元基于特征向量空間中的先前學(xué)習(xí)的識別模型,根據(jù)與所述特征量集合相對應(yīng)的特征向量來計算用于表示判定當(dāng)前幀為非平穩(wěn)噪聲幀的確定度的噪聲可能性,并且將所述噪聲可能性與先前設(shè)置的閾值進(jìn)行比較,以判定所述輸入信號的最新幀是否為包括所述非平穩(wěn)噪聲的幀,其中所述特征向量空間使用所述特征量集合中所包括的幅度特征量的加權(quán)平均值和頻率特征量的加權(quán)平均值中的一部分或全部。
7.根據(jù)權(quán)利要求1所述的噪聲檢測裝置,還包括:頻率特征校正器,其對提供所述輸入信號的信號輸入裝置的頻率特征進(jìn)行校正。
8.根據(jù)權(quán)利要求1所述的噪聲檢測裝置,還包括: 平穩(wěn)噪聲去除單元,其從所述輸入信號去除平穩(wěn)噪聲,所述平穩(wěn)噪聲是與所述非平穩(wěn)噪聲不同的噪聲。
9.一種噪聲檢測方法,包括: 通過幅度特征量計算器來計算語音的輸入信號的預(yù)定幀的波形中的幅度特征量; 通過頻率特征量計算器來計算所述預(yù)定幀的波形中的頻率特征量; 通過特征變化計算器來基于保持在保持單元中的所述幅度特征量和所述頻率特征量當(dāng)中的一個特征量而計算特征變化,所述特征變化是在時間上相鄰的兩個幀之間的該特征量的變化,所述保持單 元用于保持多個幀的幅度特征量和頻率特征量; 通過區(qū)間指定單元來將所述特征變化與先前設(shè)置的閾值進(jìn)行比較,以指定時間上連續(xù)的幀的下述區(qū)間:在該區(qū)間中,保持在所述保持單元中的幅度特征量和頻率特征量要經(jīng)受加權(quán)平均; 通過特征量集合生成單元來生成與所指定的區(qū)間的幀中的每個幀相對應(yīng)的幅度特征量和頻率特征量的各個加權(quán)平均值的集合,作為特征量集合;以及 通過噪聲判定單元來基于所述特征量集合來判定所述輸入信號的最新幀是否為包括作為突然噪聲的非平穩(wěn)噪聲的幀。
10.一種使得計算機(jī)用作噪聲檢測裝置的程序,所述噪聲檢測裝置包括: 幅度特征量計算器,其計算語音的輸入信號的預(yù)定幀的波形中的幅度特征量; 頻率特征量計算器,其計算所述預(yù)定幀的波形中的頻率特征量; 特征變化計算器,其基于保持在保持單元中的所述幅度特征量和所述頻率特征量當(dāng)中的一個特征量而計算特征變化,所述特征變化是在時間上相鄰的兩個幀之間的該特征量的變化,所述保持單元用于保持多個幀的幅度特征量和頻率特征量; 區(qū)間指定單元,其將所述特征變化與先前設(shè)置的閾值進(jìn)行比較,以指定時間上連續(xù)的幀的下述區(qū)間:在該區(qū)間中,保持在所述保持單元中的幅度特征量和頻率特征量要經(jīng)受加權(quán)平均; 特征量集合生成單元,其生成與所指定的區(qū)間的幀中的每個幀相對應(yīng)的幅度特征量和頻率特征量的各個加權(quán)平均值的集合,作為特征量集合;以及 噪聲判定單元,其基于所述特征量集合來判定所述輸入信號的最新幀是否為包括作為突然噪聲的非平穩(wěn)噪聲的幀。
【文檔編號】G10L25/78GK103886870SQ201310683438
【公開日】2014年6月25日 申請日期:2013年12月13日 優(yōu)先權(quán)日:2012年12月21日
【發(fā)明者】史潤宇, 本間弘幸, 山本優(yōu)樹, 知念徹 申請人:索尼公司