專利名稱:聲音判定方法和聲音判定裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及聲音判定方法和聲音判定裝置,其根據(jù)由多個(gè)聲音接收器從 多個(gè)聲源接收到的聲信號來判定是否存在特定的聲信號,尤其涉及用于識別 來自距聲音接收器最近的聲源的聲信號的聲音判定方法和聲音判定裝置。
背景技術(shù):
隨著目前計(jì)算機(jī)技術(shù)的發(fā)展,即使對于需要大量操作處理的聲信號處理 來說,以實(shí)際的處理速度來執(zhí)行處理過程變得可能。由此期望使用多個(gè)麥克 風(fēng)的多信道聲信號處理功能變得可用。上述應(yīng)用的一個(gè)例子是噪聲抑制技 術(shù)。在噪聲抑制技術(shù)中,識別來自目標(biāo)聲源例如最近聲源的聲音,并且通過 如下操作,例如利用入射角或根據(jù)該入射角判定的到達(dá)每一個(gè)麥克風(fēng)的聲音到達(dá)時(shí)間差作為變量的延遲-和波束形成(delay-sum beamforming)方法或零 點(diǎn)波束形成(nullbeamforming)方法,加強(qiáng)來自識別聲源的聲音,并且通過 抑制來自除了識別聲源之外的聲源的聲音,來加強(qiáng)目標(biāo)聲音并抑制其它聲 音。此外,當(dāng)作為目標(biāo)的附近聲源移動時(shí),通常利用以入射角作為變量的延 遲-和波束形成方法得到能量分布,并且根據(jù)能量分布,估計(jì)位于具有最大能 量的角度處的聲源,從而加強(qiáng)來自該角度的聲音,并抑制來自不同于該角度 的其它角度的聲音。此外,當(dāng)聲音不是連續(xù)地從該附近目標(biāo)聲源發(fā)出時(shí),通常將所估測的環(huán) 境噪聲的能量與當(dāng)前能量之間的比率或差值用于檢測從該附近目標(biāo)聲源發(fā) 出聲音的時(shí)間間隔。此外,在美國專利No.6,243,322中,揭示了一種方法,其使用通過利用 入射角作為變量的延遲-和處理(用于延遲-和波束形成)得到的能量分布的 峰值與其它角度處的值之間的比率,來判定入射聲音是來自附近目標(biāo)聲源還 是來自遠(yuǎn)距離的聲源。發(fā)明內(nèi)容然而,在存在噪聲例如環(huán)境噪聲或非穩(wěn)態(tài)噪聲的環(huán)境下,通過利用入射 角作為變量的延遲-和處理(用于延遲-和波束形成)得到的能量分布存在以 下問題出現(xiàn)多個(gè)峰或峰變寬,從而變得難以識別附近目標(biāo)聲源。此外,當(dāng)來自附近目標(biāo)聲源的聲音不是以恒定強(qiáng)度連續(xù)發(fā)出時(shí),由于環(huán) 境噪聲的緣故,能量分布峰變得不清楚,從而存在這樣的問題,即檢測來自 該目標(biāo)聲源的聲音被發(fā)出的時(shí)間間隔變得更加困難。此外,在美國專利No.6,243,322所揭示的方法中,使用所有頻帶,包括 具有差S/N比的頻帶,因此在喧嘩的環(huán)境中,存在以下問題,即來自附近聲 源的聲音所在角度的峰變得不清楚,從而難以精確地判定來自該附近聲源的 聲音??紤]到上述問題,本發(fā)明的主要目的是提供 一種聲音判定方法和一種 聲音判定裝置,其中該方法通過計(jì)算由多個(gè)麥克風(fēng)接收的聲信號的相位差 譜,即使在喧嘩的環(huán)境中也能夠容易識別來自目標(biāo)聲源的聲音的出現(xiàn)間隔, 并且在所計(jì)算出的相位差等于或小于特定閾值時(shí),判定包括來自作為識別目 標(biāo)的最近聲源的聲信號;該聲音判定裝置用于實(shí)施該聲音判定方法。此外,本發(fā)明的另一個(gè)目的是提供一種聲音判定方法和其裝置,其在S/N 比等于或小于預(yù)定閾值時(shí),通過判定不包括來自目標(biāo)聲源的聲信號,提高了 識別來自目標(biāo)聲源的聲音出現(xiàn)間隔的精確性。此外,本發(fā)明的另一個(gè)目的是提供一種聲音判定方法和其裝置,其通過 根據(jù)諸如S/N比、環(huán)境噪聲、濾波器特性、聲音特性等因素將用于判定的頻 率分類,改善了判定來自目標(biāo)聲源的聲音出現(xiàn)間隔的精確性。本發(fā)明第一方案的聲音判定方法是使用聲音判定裝置的聲音判定方法, 其根據(jù)由多個(gè)聲音接收裝置從多個(gè)聲源接收到的模擬聲信號,來判定是否存 在指定聲信號,其中該聲音判定裝置將由各個(gè)聲音接收裝置接收到的各個(gè)聲 信號轉(zhuǎn)換成數(shù)字信號;將被轉(zhuǎn)換成數(shù)字信號的各個(gè)聲信號轉(zhuǎn)換成頻率軸上的 信號;計(jì)算被轉(zhuǎn)換成頻率軸上的信號的各個(gè)聲信號之間在每一個(gè)頻率處的相 位差;當(dāng)所計(jì)算的相位差等于或小于預(yù)定閾值時(shí),判定包括由所述聲音接收 裝置從最近聲源接收到的聲信號;并根據(jù)該判定結(jié)果執(zhí)行輸出。本發(fā)明第二方案的聲音判定裝置是這樣一種聲音判定裝置,其根據(jù)由多個(gè)聲音接收裝置從多個(gè)聲源接收的模擬聲信號,來判定是否存在特定的聲信 號,并包括用于將由所述各個(gè)聲音接收裝置接收到的各個(gè)聲信號轉(zhuǎn)換成數(shù) 字信號的裝置;用于將被轉(zhuǎn)換成數(shù)字信號的各個(gè)聲信號轉(zhuǎn)換成頻率軸上的信 號的裝置;用于計(jì)算相位差的裝置,該相位差為被轉(zhuǎn)換成頻率軸上的信號的 各個(gè)聲信號之間在每一個(gè)頻率處的相位分量的差值;在所計(jì)算出的相位差等 于或小于預(yù)定閾值時(shí),用于判定包括指定目標(biāo)聲信號的判定裝置;以及用于 根據(jù)該判定結(jié)果執(zhí)行輸出的裝置。本發(fā)明第三方案的聲音判定裝置是這樣一種聲音判定裝置,其根據(jù)由多 個(gè)聲音接收裝置從多個(gè)聲源接收到的模擬聲信號,來判定是否存在由聲音接 收裝置從最近聲源接收的聲信號,并包括用于將由各個(gè)聲音接收裝置接收 到的各個(gè)聲信號轉(zhuǎn)換成數(shù)字信號的裝置;用于根據(jù)被轉(zhuǎn)換成數(shù)字信號的各個(gè) 聲信號來產(chǎn)生具有預(yù)定時(shí)間長度的幀(frame)的裝置;用于在所產(chǎn)生的幀單 元中將所述各個(gè)聲信號轉(zhuǎn)換成頻率軸上的信號的裝置;用于計(jì)算相位差的裝 置,該相位差為被轉(zhuǎn)換成頻率軸上的信號的各個(gè)聲信號之間在每一個(gè)頻率處 的相位分量的差值;在所計(jì)算出的相位差等于或大于第一閾值時(shí)的頻率的百 分比或個(gè)數(shù)等于或小于第二閾值時(shí),用于判定在所產(chǎn)生的幀中包括來自最近 聲源的聲信號。本發(fā)明第四方案的聲音判定裝置是第二或第三方案的聲音判定裝置,并 進(jìn)一步包括用于基于被轉(zhuǎn)換成頻率軸上信號的所述聲信號的振幅分量來計(jì) 算信噪比的裝置;其中在所計(jì)算出的信噪比等于或小于預(yù)定閾值時(shí),不論相 位差為何,該判定裝置判定不包括指定目標(biāo)聲信號。本發(fā)明第五方案的聲音判定裝置是第二至第四方案中的任一方案的聲 音判定裝置,其中多個(gè)聲音接收裝置被構(gòu)建為使得所述多個(gè)聲音接收裝置之 間的相對位置能夠改變;并進(jìn)一步包括用于基于多個(gè)聲音接收裝置之間的距 離來計(jì)算由該判定裝置在判定中要使用的閾值。本發(fā)明第六方案的聲音判定裝置是第二至第五方案中的任一方案的聲 音判定裝置,并進(jìn)一步包括選擇裝置,該選擇裝置用于根據(jù)每一個(gè)頻率處的 信噪比來選擇由該判定裝置在判定中要使用的頻率,其中所述信噪比基于被 轉(zhuǎn)換成頻率軸上的信號的聲信號的振幅分量得到。本發(fā)明第七方案的聲音判定裝置是第六方案的聲音判定裝置,并進(jìn)一步包括在該判定裝置根據(jù)相位差等于或大于第一閾值時(shí)的頻率的個(gè)數(shù)執(zhí)行判 定時(shí),用于根據(jù)由該選擇裝置選擇的頻率個(gè)數(shù)來計(jì)算第二閾值的裝置。本發(fā)明第八方案的聲音判定裝置是第二至第七方案中的任一方案的聲 音判定裝置,并進(jìn)一步包括抗混疊濾波器,其在聲信號被轉(zhuǎn)換為數(shù)字信號之 前過濾聲信號,以防止出現(xiàn)混疊錯(cuò)誤;其中該判定裝置從待用于判定的頻率中消除比基于抗混疊濾波器特性得到的預(yù)定頻率高的頻率。本發(fā)明第九方案的聲音判定裝置是第二至第八方案中的任一方案的聲 音判定裝置,并進(jìn)一步包括這樣一種裝置,其用于在指定聲信號為語音時(shí), 檢測被轉(zhuǎn)換成頻率軸上的信號的聲信號的振幅分量具有局部最小值時(shí)的頻率,或是基于振幅分量得到的信噪比具有局部最小值時(shí)的頻率;其中該判定 裝置從用于判定的頻率中消除所檢測到的頻率。本發(fā)明第十方案的聲音判定裝置是第二至第九方案中的任一方案的聲 音判定裝置,其中當(dāng)指定聲信號為語音時(shí),該判定裝置從待用于判定的頻率 中消除語音基頻(音質(zhì))不存在時(shí)的頻率。在第一、第二和第三方案中,例如麥克風(fēng)的多個(gè)聲音接收裝置將所接收 到的各個(gè)聲信號轉(zhuǎn)換成頻率軸上的信號,計(jì)算所述各個(gè)聲信號的相位差,并 在所計(jì)算出的相位差等于或小于預(yù)定閾值時(shí),判定包括來自最近目標(biāo)聲源的 聲信號。對于來自該最近目標(biāo)聲源的聲信號,難以使其混合進(jìn)反射聲音或衍 射聲音中,并且其相位差的變化較小,所以當(dāng)大部分相位差等于或小于該預(yù) 定閾值時(shí),可以判定來自該目標(biāo)聲源的聲信號被包括。此外,由于諸如環(huán)境 噪聲的遠(yuǎn)距離噪聲的相位差較大,因此即使在喧嘩的環(huán)境下,仍能夠容易識 別來自該目標(biāo)聲源的聲信號的出現(xiàn)間隔。當(dāng)接收來自多個(gè)聲源的聲信號時(shí), 一般而言,聲源與聲音接收裝置之間 的距離越長,反射聲音(其在到達(dá)該聲音接收裝置之前從例如墻壁的物體反 射)和衍射聲音(其在到達(dá)該聲音接收裝置之前被衍射)越容易與從該聲源 直接到達(dá)該聲音接收裝置的直接聲音混合。與直接聲音相比,反射聲音和衍 射聲音在到達(dá)之前行進(jìn)的路徑較長,因此當(dāng)混合有反射聲音和衍射聲音的聲 信號被轉(zhuǎn)換成頻率軸上信號時(shí),由于所述路徑的原因信號以不同的入射角到 達(dá),所以相位差譜的值不穩(wěn)定并且變化較大。此外,當(dāng)該目標(biāo)聲源是最近聲 源時(shí),反射聲音和衍射聲音難以與來自最近聲源的聲信號相混合,所以該相位差譜變成具有很小變化的直線。因此,在本發(fā)明中,利用上述結(jié)構(gòu),能夠 判定在相位差等于或小于該預(yù)定閾值時(shí),來自該目標(biāo)聲源的聲信號被包括, 并且由于來自例如環(huán)境噪聲的遠(yuǎn)距離噪聲的相位差較大,所以即使在喧嘩環(huán) 境下也能夠容易識別來自該目標(biāo)聲源的聲信號,從而能夠抑制噪聲。在第四方案中,在信噪比(S/N比)等于或小于該預(yù)定閾值時(shí),不管相 位差如何,都判定不包括來自該目標(biāo)聲源的聲信號。例如,即使在環(huán)境噪聲 的相位差偶然正確時(shí),仍能夠避免判定錯(cuò)誤,從而能夠提高識別該聲信號的 精確性。在第五方案中,當(dāng)能夠改變所述聲音接收裝置之間的相對位置時(shí),該閾 值動態(tài)地改變。通過計(jì)算該閾值并根據(jù)所述聲音接收裝置之間的距離來動態(tài) 地改變所計(jì)算出的閾值的設(shè)定,即使在結(jié)構(gòu)被構(gòu)建為使得聲音接收裝置之間 的相對位置可以改變時(shí),仍能夠不斷最佳化該閾值并提高識別來自該目標(biāo)聲 源的聲信號的精確性。在第六方案中,在消除具有低信噪比的頻帶之后,執(zhí)行判定過程。通過 消除具有低信噪比的頻帶,能夠提高識別來自目標(biāo)聲源的聲信號的精確性。在第七方案中,當(dāng)根據(jù)相位差等于或大于該第一閾值時(shí)的頻率的個(gè)數(shù)來 執(zhí)行判定時(shí),基于由第六方案中的選擇裝置選擇的頻率個(gè)數(shù),來計(jì)算第二閾 值。該第二閾值不是常數(shù),而是基于所選擇的頻率個(gè)數(shù)而改變的變量。在第八方案中,當(dāng)用于防止在被轉(zhuǎn)換成數(shù)字信號的聲信號中發(fā)生混疊錯(cuò)誤的抗混疊濾波器的結(jié)果呈現(xiàn)為該相位差譜上的失真時(shí),例如以8000 Hz的 采樣頻率執(zhí)行取樣時(shí),通過消除3300 Hz或更大的頻帶來執(zhí)行判定。在第九方案中,當(dāng)識別作為嗓音的聲信號時(shí),考慮對于振幅分量具有局 部最小值和對于相位差變得容易被干擾的頻率處的語音特性,從判定過程中 除去這些頻率。這使得能夠提高識別來自目標(biāo)聲源的聲信號的精確性。在第十方案中,當(dāng)識別作為語音的聲信號時(shí),在消去等于或小于基頻的 頻帶之后執(zhí)行聲音判定過程,其中根據(jù)語音的頻率特性可知在該基頻處不存 在語音頻譜。這使得能夠提高識別來自目標(biāo)聲源的聲信號的精確性。通過附圖和以下的詳細(xì)描述,將更充分明白本發(fā)明的上述和進(jìn)一步的目 的和特征。
圖1是顯示第一個(gè)實(shí)施例的聲音判定方法的實(shí)例示圖; 圖2是顯示第一個(gè)實(shí)施例的聲音判定裝置的硬件結(jié)構(gòu)的框圖; 圖3是顯示第一個(gè)實(shí)施例的聲音判定裝置的功能實(shí)例框圖; 圖4是顯示通過第一個(gè)實(shí)施例的聲音判定裝置執(zhí)行的聲音判定過程 的實(shí)例的流程圖;圖5是顯示通過第一個(gè)實(shí)施例的聲音判定裝置執(zhí)行的S/N比計(jì)算過 程的實(shí)例的流程圖;圖6是顯示在通過第一個(gè)實(shí)施例的聲音判定裝置執(zhí)行的聲音判定過 程中頻率與相位差之間關(guān)系的實(shí)例坐標(biāo)圖;圖7是顯示在通過第一個(gè)實(shí)施例的聲音判定裝置執(zhí)行的聲音判定過 程中頻率與S/N比之間關(guān)系的實(shí)例坐標(biāo)圖;圖8是顯示在通過第一個(gè)實(shí)施例的聲音判定裝置執(zhí)行的聲音判定過 程中頻率與相位差之間關(guān)系的實(shí)例坐標(biāo)圖;圖9A、圖9B是顯示在第二個(gè)實(shí)施例的聲音判定方法中聲音特性的 實(shí)例坐標(biāo)圖;圖IO是顯示通過第二個(gè)實(shí)施例的聲音判定裝置執(zhí)行的局部最小值檢 測過程的實(shí)例的流程圖;圖11是顯示在第二個(gè)實(shí)施例的聲音判定方法中語音(voice)的基頻 特性的坐標(biāo)圖;圖12是顯示通過第三個(gè)實(shí)施例的聲音判定裝置執(zhí)行的第一閾值計(jì)算 過程的實(shí)例的流程圖。
具體實(shí)施方式
根據(jù)附圖以下將描述本發(fā)明的優(yōu)選實(shí)施例。在以下描述的實(shí)施例中, 作為處理目標(biāo)的聲信號主要是人的講話聲音(語音)。 第一個(gè)實(shí)施例圖1是顯示本發(fā)明第一個(gè)實(shí)施例的聲音判定方法的實(shí)例示圖。在圖1 中,附圖標(biāo)記1是應(yīng)用到手機(jī)的聲音判定裝置,聲音判定裝置1由用戶 攜帶并接收用戶發(fā)出的語音作為聲信號。此外,除了該用戶的語音之外,聲音判定裝置1還接收各種環(huán)境噪聲,例如他人的語音、機(jī)器噪聲、音 樂聲等。因此,聲音判定裝置1通過執(zhí)行以下處理來抑制噪聲從多個(gè) 聲源接收到的各種聲信號中識別目標(biāo)聲信號,然后加強(qiáng)所識別出的聲信 號,并抑制其它的聲信號。聲音判定裝置1的目標(biāo)聲信號是來自最接近 聲音判定裝置1的聲源的聲信號,或者換句話說是該用戶的語音。圖2是顯示第一個(gè)實(shí)施例的聲音判定裝置1的硬件結(jié)構(gòu)的實(shí)例框圖。 聲音判定裝置l包括控制單元IO,例如CPU,其控制整個(gè)裝置;存儲單元11,例如ROM、 RAM,其存儲數(shù)據(jù),例如類似計(jì)算機(jī)程序的程序 和各種設(shè)定值;以及通信單元12,例如天線和其附件(通信接口)。此外,聲音判定裝置l包括多個(gè)聲音接收單元13,例如接收聲信號的麥克風(fēng);聲音輸出單元14,例如揚(yáng)聲器;以及聲音轉(zhuǎn)換單元15,其執(zhí)行與 聲音接收單元13和聲音輸出單元14相關(guān)的聲信號的轉(zhuǎn)換處理。由聲音 轉(zhuǎn)換單元15執(zhí)行的轉(zhuǎn)換處理是將從聲音輸出單元14輸出的數(shù)字信號轉(zhuǎn) 換為模擬信號的處理,以及將從聲音接收單元13接收到的聲信號從模擬 信號轉(zhuǎn)換成數(shù)字信號的處理。此外,聲音判定裝置1包括操作單元16, 其接收操作控制,例如通過鍵盤輸入的字母數(shù)字文本或各種命令;以及 顯示單元17,例如顯示各種信息的液晶顯示器。此外,通過由控制單元 IO執(zhí)行包括在計(jì)算機(jī)程序100中的各種步驟,手機(jī)操作為該聲音判定裝 置1。圖3是顯示第一個(gè)實(shí)施例的聲音判定裝置1的功能元件的實(shí)例的框 圖。聲音判定裝置1包括多個(gè)聲音接收單元13;抗混疊濾波器(anti-aliasing filter) 150,其起到LPF (Low Pass Filter,低通濾波器) 的作用,用于在將模擬聲信號轉(zhuǎn)換成數(shù)字信號時(shí)防止發(fā)生混疊錯(cuò)誤;以 及A/D轉(zhuǎn)換單元151,其執(zhí)行模擬聲信號到數(shù)字信號的A/D轉(zhuǎn)換。抗混 疊濾波器150和A/D轉(zhuǎn)換單元151是在聲音轉(zhuǎn)換單元15中實(shí)現(xiàn)的功能元 件。也可以將抗混疊濾波器150和A/D轉(zhuǎn)換單元151安裝在外部拾音裝 置中,而不包括在聲音判定裝置1中作為聲音轉(zhuǎn)換單元15。此外,聲音判定裝置1包括幀產(chǎn)生單元110,其成為處理單元根 據(jù)數(shù)字信號產(chǎn)生具有預(yù)定時(shí)間長度的幀;FFT轉(zhuǎn)換單元lll,其利用FFT(快速傅里葉變換)處理將聲信號轉(zhuǎn)換為頻率軸上信號;相位差計(jì)算單元112,其計(jì)算通過多個(gè)聲音接收單元13接收到的聲信號之間的相位差;S/N比計(jì)算單元113,其計(jì)算聲信號的S/N比;選擇單元114,其選擇預(yù) 期用于處理的頻率;計(jì)數(shù)單元115,其計(jì)數(shù)具有大相位差的頻率;聲音判 定單元116,其識別來自最近目標(biāo)聲源的聲信號;以及聲信號處理單元117,其根據(jù)所識別出的聲信號執(zhí)行諸如噪聲抑制處理。幀產(chǎn)生單元110、 FFT轉(zhuǎn)換單元lll、相位差計(jì)算單元112、選擇單元114、計(jì)數(shù)單元115、 聲音判定單元116和聲信號處理單元117是通過執(zhí)行存儲在存儲器單元 11上的各種計(jì)算機(jī)程序而實(shí)現(xiàn)的軟件功能元件,然而,它們也可以通過 使用諸如各種處理芯片的專用硬件來實(shí)現(xiàn)。接下來,將說明由第一個(gè)實(shí)施例的聲音判定裝置1執(zhí)行的處理過程。 在以下說明中,將聲音判定裝置1說明成包括兩個(gè)聲音接收單元13。然 而,聲音接收單元13并不限于兩個(gè),可以設(shè)置三個(gè)或更多個(gè)聲音接收單 元13。圖4是顯示通過第一個(gè)實(shí)施例的聲音判定裝置1執(zhí)行的聲音判定 過程的實(shí)例的流程圖。根據(jù)來自執(zhí)行計(jì)算機(jī)程序100的控制單元10的控 制命令,聲音判定裝置1經(jīng)由多個(gè)聲音接收單元13接收聲信號,如步驟 S101,然后通過抗混疊濾波器150 (其是LPF)過濾所述信號,在頻率 8000 Hz處對接收為模擬信號的聲信號進(jìn)行采樣,并將所述信號轉(zhuǎn)換成數(shù) 字信號,如步驟S102。此外,在步驟S103,根據(jù)幀產(chǎn)生單元110基于來自控制單元10的 控制命令執(zhí)行的過程,聲音判定裝置1根據(jù)已被轉(zhuǎn)換成數(shù)字信號的所述 聲信號產(chǎn)生具有預(yù)定時(shí)間長度的幀,如步驟S103。在步驟S103中,將 聲信號放入到大約20 ms至40 ms預(yù)定時(shí)間長度的幀單元中。每一個(gè)幀具 有約10 ms至20 ms的溢出(overrun)。此外,語音識別領(lǐng)域中的典型 幀處理(例如使用窗口的開窗口處理)起到Hamming窗口或Harming窗 口的作用,并且對每一個(gè)幀執(zhí)行預(yù)加重濾波處理。對以此方式產(chǎn)生的每 一個(gè)幀執(zhí)行以下處理。在步驟S104,通過FFT轉(zhuǎn)換單元111根據(jù)來自控制單元10的控制 命令執(zhí)行的處理,聲音判定裝置1執(zhí)行幀單元中聲信號的FFT處理,并 將所述聲信號轉(zhuǎn)換成相位譜和振幅譜,其中所述相位譜和振幅譜是頻率 軸上信號,如步驟S104,然后根據(jù)已被轉(zhuǎn)換成頻率軸上信號的幀單元中聲信號的振幅分量,開始S/N計(jì)算過程以計(jì)算該S/N比(信噪比),如 步驟S105,并且經(jīng)由通過相位差計(jì)算單元112執(zhí)行的處理,計(jì)算各個(gè)聲 信號的相位譜之間的差值作為相位差,如步驟S106。在步驟S014中, 例如對256個(gè)聲信號樣本執(zhí)行FFT,并且計(jì)算128個(gè)頻率的相位譜值之 間的差值作為相位差。在步驟S105中開始的S/N比計(jì)算過程與步驟S106 的過程同時(shí)被執(zhí)行或稍后被執(zhí)行。隨后將詳細(xì)說明S/N比計(jì)算過程。此外,基于來自控制單元IO的控制命令,經(jīng)由該選擇單元114執(zhí)行 的處理,聲音判定裝置1從所有頻率中選擇預(yù)期用于處理的頻率,如步 驟S107。在步驟S107中,選擇這樣的頻率在所述頻率處容易檢測到 來自最近目標(biāo)聲源的聲信號,以及在所述頻率處難以接收到諸如環(huán)境噪 聲的外部干擾引起的不利影響。更具體地,除去這樣的頻帶,在所述頻 率處相位差容易受到抗混疊濾波器150的電磁感應(yīng)的干擾。取決于A/D 轉(zhuǎn)換單元151的特性,要被除去的頻帶不同,然而,通常在高頻3300至 3500 kHz或更高的頻率處相位差變得容易受到干擾,因此將高于3300 Hz 的頻率從用于處理的目標(biāo)頻率中排除。此外,獲得通過S/N比計(jì)算過程 計(jì)算出的每個(gè)頻率的S/N比,并以獲得的最低S/N比的順序,將預(yù)定數(shù) 量的頻率或小于等于預(yù)設(shè)閾值的頻率從用于處理的目標(biāo)頻率中排除。還 可以獲得對每一個(gè)幀計(jì)算的S/N比,并且代替判定要消除的頻率,而是 將S/N比變低處的頻率預(yù)先設(shè)定為要除去的頻率。根據(jù)步驟S107的處理, 預(yù)期用于處理的頻率個(gè)數(shù)縮減到例如100個(gè)?;趤碜栽摽刂茊卧狪O的控制命令,經(jīng)由聲音判定單元116執(zhí)行的 處理,聲音判定裝置1獲得通過S/N比計(jì)算過程計(jì)算出的S/N比,如步 驟S108,并判定所獲得的S/N比是否等于或大于預(yù)設(shè)的Oth閾值,如步 驟S109??梢詫⒗? dB的值用作Oth閾值。在步驟S109中,當(dāng)S/N 比等于或大于Oth閾值時(shí),可以判定存在包括來自最近聲源的預(yù)期聲信號 的可能性,并且當(dāng)S/N比小于Oth閾值時(shí),可以判定不包括預(yù)期聲信號。在步驟S109中,當(dāng)判定S/N比等于或大于Oth閾值時(shí)(步驟S109 為是),基于來自控制單元IO的控制命令,經(jīng)由通過計(jì)數(shù)單元115執(zhí)行 的處理,聲音判定裝置1對在步驟S107中選擇的相位差的絕對值等于或 大于預(yù)設(shè)的第一閾值的頻率進(jìn)行計(jì)數(shù),如步驟SllO。基于來自控制單元10的控制命令,經(jīng)由聲音判定單元116執(zhí)行的處理,聲音判定裝置1根 據(jù)計(jì)數(shù)結(jié)果計(jì)算大于第一閾值的所選擇的頻率的百分比,如步驟Sll,,并判定所計(jì)算出的百分比是否等于或小于預(yù)設(shè)的第二閾值,如步驟S112。 將例如7i/2弧度的值用作第一閾值,將例如3%的值用作第二閾值。在選 擇100個(gè)頻率的情形下,判定是否存在3個(gè)或更少具有71/2弧度或更大弧 度相位差的頻率。在步驟S112中,當(dāng)所計(jì)算出的百分比小于預(yù)設(shè)的第二閾值時(shí)(步驟 S112為是),根據(jù)來自該控制單元IO的控制命令,經(jīng)由該聲音判定單元 116執(zhí)行的過程,聲音判定裝置1判定由于直接聲音具有較小的相位差而 在幀中包括來自最近聲源的聲信號,如步驟S113。此外,聲信號處理單 元117根據(jù)步驟S113的判定結(jié)果來執(zhí)行各種聲信號處理和聲音輸出處 理。在步驟S109中,當(dāng)判定S/N比小于Oth閾值時(shí)(步驟S109為否), 或在步驟S112中,當(dāng)判定所計(jì)算出的百分比大于預(yù)設(shè)的第二閾值時(shí)(步 驟S112為否),基于來自控制單元10的控制命令,經(jīng)由聲音判定單元 116執(zhí)行的處理,聲音判定裝置1判定幀中不包括來自最近聲源的聲信 號,在步驟S114。此外,聲信號處理單元117根據(jù)步驟S113的判定結(jié) 果執(zhí)行各種聲信號處理和聲音輸出處理。聲音判定裝置1重復(fù)執(zhí)行上述 的一系列過程,直到通過聲音接收單元13接收聲信號的過程結(jié)束。在上述聲音判定過程的實(shí)例中,在步驟S111中,聲音判定裝置l根 據(jù)計(jì)數(shù)結(jié)果計(jì)算等于或大于第一閾值的所選頻率的百分比,在步驟S112 中將所計(jì)算出的百分比與表示預(yù)設(shè)百分比的第二閾值進(jìn)行比較,然而, 在步驟S112中還可以將在步驟S110中計(jì)算出的等于或大于第一閾值的 頻率個(gè)數(shù)與作為第二閾值的值進(jìn)行比較。當(dāng)將頻率個(gè)數(shù)作為第二閾值時(shí), 該第二閾值不是常數(shù),而變成基于在步驟S107中所選擇的頻率而改變的例如,作為參考值,當(dāng)在步驟S107中選擇的頻率數(shù)個(gè)數(shù)是128時(shí), 設(shè)定第二閾值以使其變成5個(gè)頻率。以此作為條件,那么在步驟S107中, 當(dāng)在128個(gè)頻率中減去28個(gè)而使頻率個(gè)數(shù)縮減到100個(gè)時(shí),則如以下公 式1所示,第二閾值變成4。5X 100/128=3.906 — 4 公式1 同樣,在相同條件下,在步驟S107中,當(dāng)從所述128個(gè)頻率中減去 56個(gè)頻率時(shí),頻率個(gè)數(shù)縮減到72個(gè),則如以下公式2所示,第二閾值變 成3。5X72/128=2.813 — 3 公式2當(dāng)以此方式將頻率個(gè)數(shù)用作第二閾值時(shí),則在步驟S107中選擇頻率 之后,基于所選擇的頻率個(gè)數(shù)執(zhí)行處理以計(jì)算第二閾值。圖5是顯示通過第一個(gè)實(shí)施例的聲音判定裝置1執(zhí)行的S/N比計(jì)算 過程的實(shí)例的流程圖。在利用圖4描述的聲音判定過程(如步驟S105) 中執(zhí)行該S/N比計(jì)算過程?;趤碜钥刂茊卧?0的控制命令,經(jīng)由S/N 計(jì)算單元113執(zhí)行的處理,聲音判定裝置1計(jì)算幀樣本(其為S/N比計(jì) 算目標(biāo))的振幅值的平方和,作為幀冪(framepower),如步驟S201, 然后讀取預(yù)設(shè)的背景噪聲水平,如步驟S202,并計(jì)算該幀的S/N比(信 噪比),其是計(jì)算得到的幀冪和所讀取的背景噪聲水平的比,如步驟S203。 當(dāng)需要基于每一個(gè)頻率的S/N比,經(jīng)由選擇單元114執(zhí)行的處理來確定 要被消除的頻率時(shí),則不僅僅要計(jì)算整個(gè)頻帶的S/N比,也要計(jì)算每一 個(gè)頻率的S/N比。表示每一個(gè)頻率的背景噪聲水平的背景噪聲譜用于將 每一個(gè)頻率的S/N比計(jì)算成幀的振幅譜與背景噪聲譜的比。此外,基于來自控制單元10的控制命令,經(jīng)由S/N比計(jì)算單元113 執(zhí)行的處理,聲音判定裝置1比較幀冪和背景噪聲水平,并判定幀冪與 背景噪聲水平之間的差值是否等于或小于預(yù)定的第三閾值,如步驟S204, 當(dāng)判定為等于或小于該第三閾值時(shí)(步驟S204為是),利用該幀冪的值 更新該背景噪聲水平的值,如步驟S205。在步驟S204中,當(dāng)幀冪與背 景噪聲水平之間的差值等于或小于該第三閾值時(shí),則認(rèn)為該幀冪與背景 噪聲水平之間的差值歸因于背景噪聲水平的變化,所以在步驟S205,利 用最新的幀冪更新該背景噪聲水平。在步驟205,將背景噪聲水平的值更 新為通過以恒定比組合背景噪聲水平和幀冪而計(jì)算出的值。例如,更新 值被認(rèn)為是原始背景噪聲水平的0.9倍的值與目前幀冪的0.1倍的值之 和。在步驟S204,當(dāng)判定幀冪與背景噪聲水平之間的差值大于該第三閾值時(shí)(步驟S204為否),不執(zhí)行步驟S205的更新過程。換句話說,當(dāng) 幀冪和背景噪聲水平之間的差值大于該第三閾值時(shí),則認(rèn)為幀冪和背景 噪聲水平之間的差值歸因于接收了不同于環(huán)境噪聲的聲信號。通過采用 在諸如語音識別、VAD (語音激活檢測)、麥克風(fēng)陣列處理等的領(lǐng)域中 使用的各種方法,可以估測背景噪聲水平。聲音判定裝置1重復(fù)執(zhí)行上 述的一系列過程,直到通過所述聲音接收單元13接收聲信號的過程結(jié)束。 圖6是顯示在由第一個(gè)實(shí)施例的聲音判定裝置1執(zhí)行的聲音判定過 程中頻率與相位差之間關(guān)系的實(shí)例坐標(biāo)圖。圖6是示出通過所述聲音判 定過程計(jì)算的每一個(gè)頻率的相位差的坐標(biāo)圖,并示出沿著水平軸顯示的 頻率和沿著垂直軸顯示的相位差之間的關(guān)系。圖中顯示的頻率范圍是0 至4000 Hz,相位差范圍是-兀至lJ+?;《取4送?,在圖6中,顯示為+eth和-eth的值是在聲音判定過程的說明中所說明的第一閾值。在聲音判定過程的說明中,判定相位差的絕對值是否等于或大于該第一閾值,由于 相位差值可以是負(fù)值,因此也將該第一閾值設(shè)為正值和負(fù)值。由所述聲音接收單元13從附近聲源接收到的聲信號主要是直接聲音,所以相位差較小并且很少會有間斷的相位干擾,然而,包括非穩(wěn)態(tài)噪聲的環(huán)境噪聲 從不同的遠(yuǎn)距離聲源和以不同路徑(例如反射聲音和折射聲音)到達(dá)所述聲音接收單元13,所以相位差變大并且間斷的相位干擾增加。在圖6 的高頻端,相位差較大,并且觀測到間斷的相位差,然而這是由于抗混 疊濾波器150的影響造成的。在圖6所示的例子中,在聲音判定過程中, 通過選擇單元114的處理來消除等于或大于3300 Hz的頻帶,并且由于 僅存在相位差的絕對值等于或大于該第一閾值的一個(gè)頻率,因此判定來 自最近聲源的聲信號由于是直接聲音而被包括。圖7是顯示在通過第一個(gè)實(shí)施例的聲音判定裝置1執(zhí)行的聲音判定 過程中的頻率與S/N比之間關(guān)系的實(shí)例坐標(biāo)圖。圖7為顯示在S/N比計(jì) 算過程中計(jì)算出的每一個(gè)頻率的S/N比的坐標(biāo)圖,并示出沿著水平軸的 頻率和沿著垂直軸的S/N比。在坐標(biāo)圖中顯示的頻率范圍是0至4000 Hz, S/N比的范圍是O至100 dB。在聲音判定過程中,在選擇單元114的處 理中通過除去具有低S/N比(其由圖7的圓形標(biāo)記表示)的頻帶,來執(zhí) 行聲信號的判定。圖8是顯示在通過第一個(gè)實(shí)施例的聲音判定裝置1執(zhí)行的聲音判定 過程中的頻率與相位差之間關(guān)系的實(shí)例坐標(biāo)圖。圖8中所示的坐標(biāo)圖中的符號表示方法與圖6相同。在圖8中,在聲音判定過程中,以虛線圓 (round dot)表示所選擇的相位差的絕對值等于或大于第一閾值eth的頻 率,并判定由虛線圓表示的頻率的百分比或頻率個(gè)數(shù)是否等于或小于第 二閾值。例如,當(dāng)將第二閾值設(shè)定為3個(gè)頻率時(shí),則在圖8所示的例子 中,判定不包括來自最近聲源的聲信號。在第一個(gè)實(shí)施例中,說明了該聲音判定裝置是手機(jī)的情形,然而, 本發(fā)明并不限于此,該聲音判定裝置可以是包括聲音接收單元的通用計(jì) 算機(jī),該聲音接收單元不是必須放置并牢固于該聲音判定裝置內(nèi),該聲 音接收單元可以是各種形式,例如通過有線或無線連接方式連接的外部 麥克風(fēng)。此外,在第一個(gè)實(shí)施例中,說明當(dāng)S/N比較低時(shí)不執(zhí)行隨后的聲音 判定的情形,然而,本發(fā)明并不限于此,并且各種形式都是可能的,例 如不管S/N比如何,根據(jù)相位差為每一個(gè)幀判定是否包括來自最近聲源 的聲信號。第二個(gè)實(shí)施例第二個(gè)實(shí)施例是將第一個(gè)實(shí)施例中來自聲源的預(yù)期聲信號限制為人 的語音的一種實(shí)施方式。第二個(gè)實(shí)施例的聲音判定方法以及聲音判定裝 置的結(jié)構(gòu)和功能與第一個(gè)實(shí)施例相同,所以通過參考第一個(gè)實(shí)施例可以 發(fā)現(xiàn)關(guān)于它們的說明,因此在此省略了對它們的詳細(xì)說明。在以下的說 明中,對于相同的元件采用與第一實(shí)施例相同的附圖標(biāo)記。在第二個(gè)實(shí) 施例中,將依據(jù)語音特性的進(jìn)一步選擇條件添加到在第一個(gè)實(shí)施例的聲 音判定過程中由選擇單元114所作的選擇中。圖9A、圖9B是顯示在第 二個(gè)實(shí)施例的聲音判定方法中使用的語音特性的實(shí)例坐標(biāo)圖。圖9A、圖 9B示出了女性語音的特性,其中圖9A顯示基于頻率轉(zhuǎn)換處理的每一個(gè) 頻率的振幅譜值,其中沿著水平軸顯示的是頻率,沿著垂直軸顯示的是 振幅譜,并示出了頻率與振幅譜之間關(guān)系的坐標(biāo)圖。在該坐標(biāo)圖中顯示 的頻率范圍是0至4000 Hz。圖9B顯示在聲音判定過程中計(jì)算出的每一 個(gè)頻率的相位差,其中沿著水平軸顯示的是頻率,沿著垂直軸的顯示是相位差,并示出了頻率與相位差之間關(guān)系的坐標(biāo)圖。該坐標(biāo)圖中所顯示的頻率范圍是0至4000Hz,相位差范圍是-7i至+7r弧度。通過比較圖9A 和圖9B可以清楚看到,在振幅譜具有局部最小值的頻率處,相位差變得 較大。當(dāng)使用S/N比的值代替振幅譜時(shí)得到相同的結(jié)果。因此,當(dāng)聲音 判定裝置1經(jīng)由選擇單元114選擇頻率時(shí),通過消除S/N比或振幅譜具 有局部最小值處的頻率,可以提高判定的精確性。圖IO是顯示通過第二個(gè)實(shí)施例的聲音判定裝置l執(zhí)行的局部最小值 檢測過程的實(shí)例流程圖。如以上利用圖9A、圖9B所說明的檢測局部最 小值的過程,根據(jù)來自執(zhí)行計(jì)算機(jī)程序100的控制單元10的控制命令, 聲音判定裝置1檢測這樣的頻率,在所述頻率處已轉(zhuǎn)換成頻率軸上信號 的聲信號的S/N比或振幅譜具有局部最小值,如步驟S301,并將所檢測 到的局部最小值的頻率信息和這些頻率的附近頻帶存儲為要被消除的頻 率,如步驟S302??梢詫⑼ㄟ^S/N比計(jì)算過程計(jì)算出的值用作聲信號的 S/N比的值和振幅譜。步驟S301中的檢測過程是將用于判定的預(yù)期頻率 的S/N比與之前和之后頻率的S/N比進(jìn)行比較,并且當(dāng)S/N比小于之前 和之后頻率的S/N比時(shí),將該頻率檢測成S/N比具有局部最小值處的頻 率。通過將包含目標(biāo)頻率的附近頻率的S/N比的平均值作為該目標(biāo)頻率 的S/N比,能夠消除微小的變化并以良好的精確性檢測局部最小值。此 外,根據(jù)之前和之后的S/N比的變化可以檢測該局部最小值。圖11是顯示在第二個(gè)實(shí)施例的聲音判定方法中語音的基頻特性的 坐標(biāo)圖。圖11是顯示女性和男性語音的基頻分布圖(例如,參考"Digital Voice Processing" , Sadaoki Furui, Tokai University Press, 1985年9月, 第18頁),其中沿著水平軸顯示的是頻率,沿著垂直軸顯示的是出現(xiàn)頻 率。該基頻表示語音譜的下限,所以在低于此基頻的頻率處不存在語音 譜部分。從圖ll所示的嗓音的頻率分布可以清楚看到,大部分嗓音被包 括在大于80 Hz的頻帶中。因此,當(dāng)聲音判定裝置1通過選擇單元114 選擇頻率時(shí),通過消除例如80 Hz或更小的頻率,能夠提高判定的精確 性。如利用圖9A、圖9B、圖10和圖11所說明的,當(dāng)將來自目標(biāo)聲源 的聲音限制為人的語音時(shí),在聲音判定過程中,作為經(jīng)由選擇單元114從所有頻率中選擇用于處理的預(yù)期頻率的頻率選擇方法,聲音判定裝置1 將在局部最小值檢測過程中檢測并存儲的頻率作為要被消除的頻率予以 消除,并消除不存在基頻的低頻帶的頻率。通過如此操作,可以提高判 定的精確性。第三個(gè)實(shí)施例第三個(gè)實(shí)施例是使第一個(gè)實(shí)施例的聲音接收單元的相對位置可以改 變的一種實(shí)施方式。第三個(gè)實(shí)施例的聲音判定方法以及聲音判定裝置的 結(jié)構(gòu)和功能與第一個(gè)實(shí)施例相同,因此通過參考第一個(gè)實(shí)施例可以發(fā)現(xiàn) 關(guān)于它們的說明,所以在此省略了對它們的詳細(xì)說明。然而,例如在諸 如通過有線連接方式使外部麥克風(fēng)連接至聲音判定裝置的情況下,可以 改變各個(gè)聲音接收單元的相對位置。在以下說明中,對于相同的元件采 用與第一個(gè)實(shí)施例相同的附圖標(biāo)記。在聲速為V(m/s)、聲音接收單元13之間的距離(寬度)為W(m)和 采樣頻率為F(Hz)的情形下,優(yōu)選地,通過以下尼奎斯特頻率(Nyquist frequency)的公式3給出第一閾值0th (弧度)與至所述聲音接收單元13 的入射角(p (弧度)之間的關(guān)系。eth二W'sincp'F'2兀/2V 公式3例如,當(dāng)從狀態(tài)V=340 m/s、 W=0.025 m、 F=8000 Hz、 0也=1/2?;?度變?yōu)閃=0.030 m時(shí),通過將第一閾值eth也變成根據(jù)以下公式4計(jì)算 出的值,能夠優(yōu)化該第一閾值。eth=(0.03x0.85x8000x27i)/(340x2)=3/57t 公式4當(dāng)采樣頻率是8000Hz和聲速是340 m/s時(shí),優(yōu)選地,聲音接收單元 13之間的距離的上限值是340/8000=0.0425 m=4.25 cm,并且當(dāng)距離大于 此上限值時(shí),由于旁瓣(siddobe)而產(chǎn)生不利的效果。此外,根據(jù)測試 發(fā)現(xiàn)下限值優(yōu)選是1.6cm,并且當(dāng)距離小于此下限值時(shí),變得難以獲得精 確的相位差,從而由于誤差而引起結(jié)果變大。圖12是顯示通過本發(fā)明第三個(gè)實(shí)施例的聲音判定裝置1執(zhí)行的第一 閾值計(jì)算過程的實(shí)例的流程圖。根據(jù)來自執(zhí)行計(jì)算機(jī)程序100的控制單 元10的控制命令,聲音判定裝置1接收所述聲音接收單元13之間的寬 度(距離)值,如步驟S401,然后根據(jù)接收到的距離計(jì)算第一閾值,如1步驟S402,并將所計(jì)算出的第一閾值存儲為設(shè)定值,如步驟S403。在步 驟S401中接收到的距離可以是手動輸入的值,或者可以是自動檢測到的 值?;谝陨鲜龇绞皆O(shè)定的第一閾值,執(zhí)行各種處理例如聲音判定處理。
權(quán)利要求
1、一種聲音判定方法,其使用聲音判定裝置,該聲音判定裝置用于判定由多個(gè)聲音接收單元從多個(gè)聲源接收到的模擬聲信號中是否包括指定的聲信號,所述聲音判定方法包括以下步驟由所述多個(gè)聲音接收單元從所述多個(gè)聲源接收模擬聲信號;將由各個(gè)聲音接收單元接收到的各個(gè)模擬聲信號轉(zhuǎn)換成數(shù)字信號;將被轉(zhuǎn)換成數(shù)字信號的各個(gè)聲信號轉(zhuǎn)換成頻率軸上的信號;計(jì)算被轉(zhuǎn)換成頻率軸上的信號的各個(gè)聲信號之間在每一個(gè)頻率處的相位差;當(dāng)所計(jì)算出的相位差等于或小于預(yù)定閾值時(shí),判定包括由聲音接收單元從最近聲源接收到的模擬聲信號;以及根據(jù)上述判定結(jié)果執(zhí)行輸出。
2、 一種聲音判定裝置,其判定由多個(gè)聲音接收單元從多個(gè)聲源接收到 的模擬聲信號中是否包括指定聲信號,所述聲音判定裝置包括多個(gè)聲音接收單元,其從多個(gè)聲源接收模擬聲信號; 第一轉(zhuǎn)換單元,其將由各個(gè)聲音接收單元接收到的各個(gè)模擬聲信號轉(zhuǎn)換 成數(shù)字信號;第二轉(zhuǎn)換單元,其將被轉(zhuǎn)換成數(shù)字信號的各個(gè)聲信號轉(zhuǎn)換成頻率軸上的 信號;相位差計(jì)算單元,其計(jì)算相位差,該相位差為被轉(zhuǎn)換成頻率軸上的信號 的所述各個(gè)聲信號之間在每一個(gè)頻率處的相位分量的差值;判定單元,當(dāng)所計(jì)算出的相位差等于或小于預(yù)定閾值時(shí),所述判定單元 判定包括指定目標(biāo)聲信號;以及輸出單元,其基于上述判定結(jié)果執(zhí)行輸出。
3、 一種聲音判定裝置,其判定由多個(gè)聲音接收單元從多個(gè)聲源接收到 的模擬聲信號中是否包括由一聲音接收單元從最近聲源接收到的聲信號,所 述聲音判定裝置包括多個(gè)聲音接收單元,其從多個(gè)聲源接收模擬聲信號;第一轉(zhuǎn)換單元,其將由各個(gè)聲音接收單元接收到的各個(gè)模擬聲信號轉(zhuǎn)換成數(shù)字信號;幀產(chǎn)生單元,其根據(jù)被轉(zhuǎn)換成數(shù)字信號的各個(gè)聲信號產(chǎn)生具有預(yù)定時(shí)間長度的幀;第二轉(zhuǎn)換單元,其將所產(chǎn)生的幀單元中的所述各個(gè)聲信號轉(zhuǎn)換成頻率軸上的信號;相位差計(jì)算單元,其計(jì)算相位差,該相位差為被轉(zhuǎn)換成頻率軸上的信號 的所述各個(gè)聲信號之間在每一個(gè)頻率處的相位分量的差值;以及判定單元,當(dāng)所計(jì)算出的相位差等于或大于第一閾值時(shí)的頻率的百分比 或個(gè)數(shù)等于或小于第二閾值時(shí),所述判定單元判定在所產(chǎn)生的幀中包括來自 最近聲源的聲信號。
4、 如權(quán)利要求2或3所述的聲音判定裝置,還包括S/N比計(jì)算單元,其根據(jù)被轉(zhuǎn)換成頻率軸上的信號的聲信號的振幅分量 計(jì)算信噪比;其中當(dāng)所計(jì)算出的信噪比等于或小于預(yù)定閾值時(shí),不管所述相位差為何,所 述判定單元判定不包括所述指定目標(biāo)聲信號。
5、 如權(quán)利要求2或3所述的聲音判定裝置,其中將所述多個(gè)聲音接收單元構(gòu)建成使得所述多個(gè)聲音接收單元之間的相 對位置可被改變;以及所述聲音判定裝置還包括閾值計(jì)算單元,其根據(jù)所述多個(gè)聲音接收單元之間的距離,來計(jì)算由所 述判定單元在判定中要使用的閾值。
6、 如權(quán)利要求2或3所述的聲音判定裝置,還包括選擇單元,其根據(jù)每一個(gè)頻率處的信噪比來選擇由所述判定單元在判定 中要使用的頻率,其中所述信噪比基于被轉(zhuǎn)換成頻率軸上的信號的所述聲信 號的振幅分量獲得。
7、 如權(quán)利要求6所述的聲音判定裝置,還包括-第二閾值計(jì)算單元,當(dāng)所述判定單元根據(jù)所述相位差等于或大于所述第 一閾值時(shí)的頻率的個(gè)數(shù)來執(zhí)行判定時(shí),所述第二閾值計(jì)算單元根據(jù)由所述選 擇單元選擇的頻率個(gè)數(shù)計(jì)算所述第二閾值。
8、 如權(quán)利要求2或3所述的聲音判定裝置,還包括 抗混疊濾波器,其在聲信號轉(zhuǎn)換為數(shù)字信號之前過濾所述聲信號,以防止混疊錯(cuò)誤;其中所述判定單元從待用于判定的頻率中消除比基于所述抗混疊濾波器的 特性得到的預(yù)定頻率高的頻率。
9、 如權(quán)利要求2或3所述的聲音判定裝置,還包括檢測單元,當(dāng)指定聲信號為語音時(shí),所述檢測單元檢測被轉(zhuǎn)換成頻率軸 上的信號的所述聲信號的振幅分量具有局部最小值時(shí)的頻率,或者檢測基于 所述振幅分量得到的所述信噪比具有局部最小值時(shí)的頻率;其中所述判定單元從待用于判定的頻率中消除所檢測到的頻率。
10、 如權(quán)利要求2或3所述的聲音判定裝置,其中當(dāng)指定聲信號為語音時(shí),所述判定單元從待用于判定的頻率中消除不存 在語音基頻時(shí)的頻率。
全文摘要
本發(fā)明提供一種聲音判定方法和聲音判定裝置。該聲音判定裝置通過多個(gè)聲音接收單元接收聲信號,并產(chǎn)生具有預(yù)定時(shí)間長度的幀。該聲音判定裝置在幀單元中對所述聲信號執(zhí)行FFT,并將所述聲信號轉(zhuǎn)換成為頻率軸上的信號的相位譜和振幅譜,然后將各個(gè)聲信號之間在每一個(gè)頻率處的差值計(jì)算成相位差,并選擇作為處理目標(biāo)的頻率。該聲音判定裝置計(jì)算在所選擇的頻率的相位差的絕對值等于或大于第一閾值時(shí)的頻率的百分比,并在所計(jì)算出的百分比等于或小于第二閾值時(shí),判定在該幀內(nèi)包括來自最近聲源的聲信號。
文檔編號G01S11/14GK101236250SQ20071019604
公開日2008年8月6日 申請日期2007年11月30日 優(yōu)先權(quán)日2007年1月30日
發(fā)明者早川昭二 申請人:富士通株式會社