專利名稱:校正相差的聲音處理裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種將多個(gè)聲音接收單元接收的聲音轉(zhuǎn)換為處理過(guò)的聲音 信號(hào)的聲音處理裝置。更進(jìn)一步,本發(fā)明涉及一種校正所述聲音信號(hào)之間的 相差的聲音處理裝置、方法以及存儲(chǔ)計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
已經(jīng)對(duì)使用多個(gè)麥克風(fēng)的、用于例如識(shí)別聲音來(lái)源方向的各種聲音處理 裝置進(jìn)行了研究并投入實(shí)際使用。下面將描述這些裝置中的一種。圖11是
示出聲音處理裝置外形的透視圖。在圖11中,內(nèi)置有聲音處理裝置1000的 手機(jī)外殼的形狀是長(zhǎng)方體,使用手機(jī)的聲音處理裝置1000具有外殼(casing) 1001。用于接收講話者發(fā)出的語(yǔ)音的第一麥克風(fēng)1002安置在外殼1001的前 面。此外,第二麥克風(fēng)1003安置在外殼1001的底部。
從各個(gè)方向接收聲音并且對(duì)與第一麥克風(fēng)1002和第二麥克風(fēng)1003接收 的聲音之間的時(shí)差對(duì)應(yīng)的相差進(jìn)行處理,聲音處理裝置1000基于相差識(shí)別 聲音傳來(lái)的方向。然后,聲音處理裝置1000通過(guò)執(zhí)行處理而實(shí)現(xiàn)期望的方 向性特征,所述處理例如是根據(jù)聲音傳來(lái)的方向來(lái)抑制由第一麥克風(fēng)1002 接收的聲音。
如圖11所示的聲音處理裝置1000要求麥克風(fēng)具有相同的特征,例如, 相同的靈敏度。圖12是示出聲音處理裝置1000的方向性測(cè)量結(jié)果的雷達(dá)圖。 圖12的雷達(dá)圖示出,在聲音處理裝置1000的第一麥克風(fēng)1002接收到的聲 音在聲音傳來(lái)的每個(gè)方向被抑制之后的聲音的信號(hào)功率(dB)。這里,圖 12中使用了指示方向的方位角(azimuth),也即,當(dāng)聲音從在聲音處理裝 置1000中設(shè)置的第一麥克風(fēng)1002所在的外殼1001的前面?zhèn)鱽?lái)時(shí),方位角 定義為0°。當(dāng)聲音來(lái)自右面時(shí),方位角定義為90。,當(dāng)聲音來(lái)自后面時(shí),方 位角定義為180°,以及當(dāng)聲音來(lái)自左面時(shí),方位角定義為270。。在圖12中 每個(gè)方向以環(huán)繞雷達(dá)圖的"度數(shù)(degree)"來(lái)顯示,其中實(shí)線指示在第一
麥克風(fēng)1002的靈敏度和第二麥克風(fēng)1003的靈敏度相同時(shí)每個(gè)方向中信號(hào)功 率的狀態(tài)1;虛線指示在第一麥克風(fēng)1002的靈敏度高于第二麥克風(fēng)1003的 靈敏度時(shí)信號(hào)功率的狀態(tài)2;交替的長(zhǎng)短點(diǎn)劃線指示在第二麥克風(fēng)1003的靈 敏度高于第一麥克風(fēng)1002的靈敏度時(shí)信號(hào)功率的狀態(tài)3。當(dāng)期望的是第一麥 克風(fēng)1002的靈敏度和第二麥克風(fēng)1003的靈敏度相同情況下的狀態(tài)1的方向 性時(shí),在狀態(tài)2和狀態(tài)3的90°、 270°和180。方向上的方向性彼此有很大不 同。也即,根據(jù)麥克風(fēng)的靈敏度,方向性變化的尺度很大。
麥克風(fēng)之間個(gè)體的差別影響著聲音處理裝置的特征,如圖12所示。但 是,通常生產(chǎn)的麥克風(fēng)在預(yù)定規(guī)格內(nèi)會(huì)具有個(gè)體的不同,例如靈敏度差別。 為了調(diào)整麥克風(fēng)以使它們的特征相同,提出了解決該問(wèn)題的方法,例如,日 本公開(kāi)專利申請(qǐng)No. 2002-99297和2004-343700,其中使用在與多個(gè)麥克風(fēng) 相同距離的位置處產(chǎn)生的訓(xùn)練(teacher)信號(hào)。
發(fā)明內(nèi)容
但是,所提出的方法應(yīng)該應(yīng)用到在聲音處理裝置中設(shè)置的每對(duì)麥克風(fēng) 中。也即,為每個(gè)聲音處理裝置設(shè)置每對(duì)麥克風(fēng)。因此增加了生產(chǎn)聲音處理 裝置的費(fèi)用。此外,封裝之后,所提出的方法難以應(yīng)對(duì)特征的改變,例如隨 著產(chǎn)品壽命而產(chǎn)生的磨損,因此麥克風(fēng)的特征將彼此不同。
因此,本發(fā)明的一個(gè)目標(biāo)是以低生產(chǎn)成本提供一種裝置,能夠校正包含 在裝置中的多個(gè)麥克風(fēng)的靈敏度變化,以及能夠校正隨產(chǎn)品壽命而產(chǎn)生的磨 損所引起的特征改變。
根據(jù)本發(fā)明的實(shí)施例,提供能夠從多個(gè)麥克風(fēng)接收伴隨時(shí)間的聲音信號(hào) 的裝置,將時(shí)域中的聲音信號(hào)的每一個(gè)轉(zhuǎn)換(transform)為頻域中每個(gè)對(duì)應(yīng) 的信號(hào),并且導(dǎo)出頻域中兩個(gè)信號(hào)的頻譜比(spectral ratio),以及基于所述 頻譜比來(lái)導(dǎo)出用于校正兩個(gè)信號(hào)之間相差的相位校正值。在該實(shí)施例中,多 個(gè)信號(hào)是兩個(gè)或更多個(gè),且麥克風(fēng)可以包括在該裝置中。
因此,本發(fā)明的聲音處理裝置和方法能夠校正包含在該裝置中的多個(gè)麥 克風(fēng)的靈敏度變化,以及能夠校正隨產(chǎn)品壽命而產(chǎn)生的磨損所引起的特征改 變。
圖1是示出根據(jù)第一實(shí)施例的聲音處理裝置的示例性外形的透視圖; 圖2是示出根據(jù)第一實(shí)施例的聲音處理裝置的示例性硬件配置的方 框圖3是示出根據(jù)第一實(shí)施例的聲音處理裝置的示例性功能的功能性 方框圖4示出了由于麥克風(fēng)之間的靈敏度差別引起的聲音波形之間的差
別;
圖5是示出麥克風(fēng)等效電路的電路圖6示出了基于運(yùn)動(dòng)方程式的輸出電壓的變化;
圖7是示出由根據(jù)第一實(shí)施例的聲音處理裝置執(zhí)行的示例性處理的 操作(operation)圖8A和圖8B是示出使用根據(jù)第一實(shí)施例的聲音處理裝置校正靈敏 度差別的示例性結(jié)果的雷達(dá)圖9是示出根據(jù)本發(fā)明第二實(shí)施例的聲音處理裝置的示例性功能的 功能性方框圖IO是示出由根據(jù)第二實(shí)施例的聲音處理裝置執(zhí)行的示例性處理的 操作圖11示出了傳統(tǒng)聲音處理裝置的示例性外形的透視圖;以及
圖12示出了如圖11所示的聲音處理裝置的方向性(directivity)的
測(cè)量結(jié)果的雷達(dá)圖。
具體實(shí)施例方式
以下將參考附圖來(lái)詳細(xì)描述本發(fā)明的實(shí)施例。 第一實(shí)施例
圖1是示出根據(jù)本發(fā)明第一實(shí)施例的聲音處理裝置1的示例性外形的透 視圖。在圖1中,附圖標(biāo)記l表示聲音處理裝置l,其具有長(zhǎng)方體外殼IO, 本發(fā)明的聲音處理裝置l使用計(jì)算機(jī),例如用于手機(jī)中的計(jì)算機(jī),其也設(shè)置 于外殼10中。聲音處理裝置1包含在長(zhǎng)方體外殼10中。使用麥克風(fēng)(例如 電容式麥克風(fēng))的第一聲音接收單元14a被設(shè)置在外殼10的前面,用于接
收講話者發(fā)出的聲音。此外,第二聲音接收單元14b (例如電容式麥克風(fēng)) 設(shè)置在外殼10的底部。第二聲音接收單元14b優(yōu)選的是與第一聲音接收單 元14a相同種類的麥克風(fēng)。聲音從各個(gè)方向到達(dá)聲音處理裝置1,并且聲音 處理裝置1基于相差來(lái)判定聲音傳來(lái)的方向,所述相差對(duì)應(yīng)于聲音到達(dá)第一 和第二聲音接收單元14a和14b之間的時(shí)差。根據(jù)聲音傳來(lái)的方向,通過(guò)執(zhí) 行例如抑制由第一聲音接收單元14a接收的聲音的處理,聲音處理裝置1實(shí) 現(xiàn)期望的方向性(directivity)。在以下描述中,當(dāng)不需要對(duì)第一聲音接收單 元14a和第二聲音接收單元14b進(jìn)行區(qū)分時(shí),將這些單元都稱為聲音接收單 元14。
圖2是示出根據(jù)本發(fā)明第一實(shí)施例的聲音處理裝置1的示例性硬件 配置的方框圖。在圖2中,聲音處理裝置1包括可用于例如手機(jī)等設(shè)備 中的計(jì)算機(jī)。聲音處理裝置l包括控制整個(gè)裝置的控制單元11 (例如 CPU,中央處理單元);用于存儲(chǔ)程序(例如計(jì)算機(jī)程序100)和數(shù)據(jù)的 存儲(chǔ)單元12 (例如ROM和RAM),所述數(shù)據(jù)可以是各種設(shè)定值;以及 通信單元13,其優(yōu)選地包括作為通信接口的天線以及連接到它的多個(gè)設(shè) 備。聲音處理裝置1進(jìn)一步包括聲音接收單元14 (例如麥克風(fēng)),用 以接收外部聲音并將所述外部聲音轉(zhuǎn)換為模擬聲音信號(hào);輸出聲音的聲 音輸出單元15,例如揚(yáng)聲器;以及對(duì)聲音信號(hào)進(jìn)行轉(zhuǎn)換的聲音轉(zhuǎn)換單元 16。此外,聲音處理裝置l包括操作單元17,其接受例如文字?jǐn)?shù)字字 符以及各種命令的輸入鍵的操作,以及顯示單元18 (例如液晶顯示器), 用以顯示各種類型的信息。這里,聲音處理裝置1包括兩個(gè)聲音接收單 元14a和14b。但是,本發(fā)明不限于此,還可以具有三個(gè)或更多個(gè)聲音接 收單元14。通過(guò)執(zhí)行包含在控制單元11中的計(jì)算機(jī)程序100中的各種處 理,計(jì)算機(jī)(例如手機(jī))操作為本實(shí)施例的聲音處理裝置1。
圖3是示出根據(jù)第一實(shí)施例的聲音處理裝置1的示例性功能的功能性方 框圖。聲音處理裝置1包括接收模擬聲音的第一聲音接收單元14a和第 二聲音接收單元14b;將模擬聲音信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的A/D轉(zhuǎn)換器161; 以及作為L(zhǎng)PF (低通濾波器)的抗混疊濾波器160,其在將模擬信號(hào)轉(zhuǎn)換 為數(shù)字信號(hào)期間防止發(fā)生混疊錯(cuò)誤。第一聲音接收單元14a和第二聲音 接收單元14b都包括用于放大模擬聲音信號(hào)的放大器(未示出)??够?疊濾波器160和A/D轉(zhuǎn)換器161是在聲音轉(zhuǎn)換單元16中執(zhí)行的功能。除 了可以包括在聲音處理裝置1的聲音轉(zhuǎn)換單元16中,抗混疊濾波器160 和A/D轉(zhuǎn)換器161可以與聲音接收單元14 一起在外部聲音捕獲設(shè)備中實(shí) 現(xiàn)。
聲音處理裝置1還包括幀產(chǎn)生單元120,其產(chǎn)生具有預(yù)定時(shí)間長(zhǎng)度 的幀,作為聲音信號(hào)的處理單元;FFT (快速傅立葉變換)執(zhí)行單元121, 其通過(guò)FFT處理將聲音信號(hào)轉(zhuǎn)換為頻域信號(hào);計(jì)算單元122,其計(jì)算被 轉(zhuǎn)換到頻域的聲音信號(hào)的功率譜比;導(dǎo)出(deriving)單元123,其基于 頻譜比導(dǎo)出由第二聲音接收單元14b接收的聲音的聲音信號(hào)的相位校正 值;校正單元124,其基于校正值而校正由第二聲音接收單元14b接收的 聲音的聲音信號(hào)的相位;以及聲音處理單元125,其執(zhí)行例如對(duì)第一聲音 接收單元14a接收的聲音進(jìn)行抑制的處理。這里,幀產(chǎn)生單元120、 FFT 執(zhí)行單元121、計(jì)算單元122、導(dǎo)出單元123、校正單元124以及聲音處 理單元125都可以是作為軟件的功能,所述軟件通過(guò)執(zhí)行存儲(chǔ)單元12中 的各種計(jì)算機(jī)程序而實(shí)現(xiàn)。但是,這些功能也可以通過(guò)使用專用硬件例 如集成電路的各種處理芯片而實(shí)現(xiàn)。
接著,將描述根據(jù)第一實(shí)施例的聲音處理裝置1的操作。在聲音處 理單元125基于由第一聲音接收單元14a和第二聲音接收單元14b接收 的聲音來(lái)執(zhí)行上述處理之前,聲音處理裝置1執(zhí)行相位校正,以便減少 個(gè)別差別,例如第一聲音接收單元14a和第二聲音接收單元14b之間的 靈敏度差別。首先,將描述第一聲音接收單元14a和第二聲音接收單元 14b之間的靈敏度差別施加(exerted on)到相位上的影響。
即使從相同的聲音源接收聲音,具有不同靈敏度的相同類型麥克風(fēng) 中的每個(gè)麥克風(fēng)輸出波形不同的信號(hào)。為展示這一點(diǎn),從多個(gè)麥克風(fēng)輸 出的脈沖響應(yīng)的每個(gè)都顯示在圖4中,其中用于本實(shí)施例的一對(duì)相同類 型的麥克風(fēng)彼此具有不同的靈敏度,并且每個(gè)麥克風(fēng)的輸入(incident) 聲音是脈沖。圖4的水平軸代表采樣值,垂直軸代表輸出信號(hào)的振幅值, 其中采樣值指示了麥克風(fēng)在96kHz周期采樣的輸出信號(hào)形式的采樣階數(shù) (order)。當(dāng)在96 kHz周期采樣輸出信號(hào)時(shí),采樣值100對(duì)應(yīng)于約1.04 ms。實(shí)線表示從具有較高靈敏度的麥克風(fēng)輸出的波形,虛線表示從具有
較低靈敏度的麥克風(fēng)輸出的波形。當(dāng)與從低靈敏度麥克風(fēng)輸出的波形比 較時(shí),從高靈敏度麥克風(fēng)輸出的波形在振幅上變化大而在時(shí)間上變化慢。 然而,也就是說(shuō),與具有較高靈敏度的麥克風(fēng)輸出的信號(hào)波形相比,從
具有較低靈敏度的麥克風(fēng)輸出的信號(hào)波形在相位上前移(advance)。
為了確認(rèn)圖4中的結(jié)果,進(jìn)行下面的理論考慮。參考麥克風(fēng)電路系 統(tǒng)的等效機(jī)械電路(mechanical circuit),將描述靈敏度差別和相位前移 之間的關(guān)系。首先,用于聲音接收單元14的電容式麥克風(fēng)的等效電路可 被顯示為圖5中的圖表,其中相對(duì)于輸出終端Toutl和Tout2,具有電容 值C的電容器與具有電阻值R的電阻器并聯(lián)。 一旦電容式麥克風(fēng)由外界 聲音壓力振動(dòng)之后,輸出終端Toutl和Tout2之間出現(xiàn)的輸出電壓的變化 等效于具有在電阻R作用下的彈性系數(shù)k (=1/C)的阻尼振蕩。這里, 假定圖5的等效電路能夠表示為示出運(yùn)動(dòng)方程式的下述方程式(1)。 i + 2i i + w2 =o,o = VI7^) 方程式(1)
其中x是輸出電壓,R是電阻,co是角頻率,k是虛擬彈簧的彈性系數(shù), 以及m是該虛擬彈簧的重量(weight)。
對(duì)方程式(1)求解x得到以下方程式(2)。
;c = ," + ^e"^) 方程式(2)
其中A和B是常數(shù)。
方程式(2)能夠變形為下述方程式(3)。
x =e_wsin( ;2-力) 方程式(3)
圖6示出了由求解運(yùn)動(dòng)方程式(1)得到的方程式(3)表示的作為 輸出電壓x隨時(shí)間的變化。實(shí)線顯示的是在電阻R的值較小的情況下理 論上x(chóng)隨時(shí)間的變化,其中R=0.04且"2=0.026,虛線表示的是在R的 值較大情況下隨時(shí)間的變化,其中11=0.05且"2=0.026。方程式(3)和 圖6顯示了由虛線表示的輸出電壓的變化的最大振幅小于實(shí)線表示的, 最大振幅由術(shù)語(yǔ)e^表示。更進(jìn)一步,虛線表示的整個(gè)波形比實(shí)線的波形 前移,也即,虛線表示的波形比實(shí)線表示的波形在相位上前移。假定來(lái) 自麥克風(fēng)的輸出電壓的振幅越大,麥克風(fēng)的靈敏度越大,相對(duì)于從具有 較高靈敏度的麥克風(fēng)輸出的聲音信號(hào),較低靈敏度麥克風(fēng)的聲音信號(hào)會(huì) 導(dǎo)致相位的前移。該結(jié)果與圖4中脈沖響應(yīng)的實(shí)驗(yàn)結(jié)果相一致。假定高
電阻R情況下的輸出電壓x具有更大振幅和前移的相位。在假定輸出電
壓x的振幅對(duì)應(yīng)于麥克風(fēng)靈敏度的情況下,當(dāng)使用具有不同靈敏度的多
個(gè)麥克風(fēng)時(shí),相比于由具有較高靈敏度的麥克風(fēng)捕獲的聲音信號(hào)的相位,
由具有較低靈敏度的麥克風(fēng)捕獲的聲音信號(hào)的相位會(huì)前移。這與圖4中 脈沖響應(yīng)的實(shí)驗(yàn)結(jié)果相一致。
麥克風(fēng)之間的靈敏度差別可以通過(guò)上述的聲音信號(hào)的振幅來(lái)識(shí)別。 由于靈敏度差別影響相位,因此本發(fā)明的聲音處理裝置1基于相應(yīng)于振 幅的功率譜的值來(lái)校正相位,從而減少聲音接收單元14之間的靈敏度差 別的影響。
參考圖7的操作圖,將描述由根據(jù)第一實(shí)施例的聲音處理裝置1執(zhí) 行的示例性的一個(gè)處理。在操作S101中,從相應(yīng)的聲音接收單元14輸 出的每一個(gè)模擬聲音信號(hào)通過(guò)抗混疊濾波器160濾波,然后分別由A/D 轉(zhuǎn)換器161轉(zhuǎn)換為數(shù)字信號(hào),這些處理都是由控制單元11控制的。
基于控制單元11的控制下,聲音處理裝置1通過(guò)幀產(chǎn)生單元120將 每一個(gè)數(shù)字化的聲音信號(hào)分為多個(gè)幀,每個(gè)幀具有預(yù)定的時(shí)間長(zhǎng)度,其 中每個(gè)幀用作為一個(gè)待處理的單元。預(yù)定時(shí)間長(zhǎng)度例如是,約20到40 的范圍,如S102所示。此外,在幀處理期間,每個(gè)幀可以以例如約10 到20 ms的范圍進(jìn)行移動(dòng)。
基于控制單元11的控制下,在由FFT執(zhí)行單元121執(zhí)行的處理中, 聲音處理裝置1通過(guò)FFT (快速傅立葉變化)處理將以幀為單位的聲音 信號(hào)轉(zhuǎn)換為用作頻域信號(hào)的頻譜,如S103所示。在操作S103中,將聲 音信號(hào)轉(zhuǎn)換為相位譜和振幅譜。在以下處理中將使用功率譜,其是振幅 譜的平方。但是,在下述處理中也可以使用振幅譜來(lái)代替功率譜。
聲音處理裝置1計(jì)算功率譜的功率譜比。 一個(gè)功率譜是基于由第二 聲音接收單元14b接收的聲音。另一個(gè)功率譜是基于由第一聲音接收單 元14a接收的聲音?;诳刂茊卧猯l的控制,所述功率譜在由計(jì)算單元 122執(zhí)行的處理中獲得,如S104所示。在操作S104中,利用下述方程 式(4)計(jì)算出為每個(gè)頻率設(shè)置(set)的每個(gè)功率譜的所述比率(ratio)。
mtio=S2(co)/Sl((D) 方程式(4)
其中,co是角頻率,Sl(co)是基于來(lái)自第一聲音接收單元14a的聲音
信號(hào)的功率譜,以及S2(co)是基于來(lái)自第二聲音接收單元14b的聲音信號(hào)
的功率譜。
基于控制單元11的控制下,在由導(dǎo)出單元123執(zhí)行的處理中,基于 方程式(4)中示出的功率譜比,聲音處理裝置1計(jì)算第二聲音接收單元 14b的頻域中的聲音信號(hào)相對(duì)于第一聲音接收單元14a的頻域中的聲音 信號(hào)的相位校正值,如S105所示。在操作S105中,使用下述方程式(5) 計(jì)算校正值。
Pcomp(co)-[aF(S"co)/S2((o"]co + (3 方程式(5)
其中,Pcomp(co)是相位校正值,ot和P是常數(shù),以及F(S"co)/S2(coW是作
為變量的S"O)/S2(C0)的函數(shù)。
下面描述如何確定方程式(5)中的常數(shù)a和P。首先,用于調(diào)整 (adjustment)的單元包括兩組麥克風(fēng),也即,設(shè)定具有最高靈敏度的麥 克風(fēng)組和具有最低靈敏度的麥克風(fēng)組。此外,在用作聲音接收單元14的 相同種類(類型)的那些麥克風(fēng)中,還準(zhǔn)備了具有相同或?qū)嵸|(zhì)上相同靈 敏度的麥克風(fēng)組。隨后,在與每組麥克風(fēng)中每個(gè)麥克風(fēng)相等距離的位置 再現(xiàn)(reproduce)白噪聲,并且確定每組麥克風(fēng)的相差譜,即從每個(gè)麥 克風(fēng)輸出的信號(hào)的每個(gè)相位譜之間的差別((A(w)-^(w))。最后,常數(shù)a 和卩以這樣的方式確定,即使得具有不同靈敏度的麥克風(fēng)組的相差譜適合于 (fit)具有相同或?qū)嵸|(zhì)相同靈敏度的麥克風(fēng)組。確定的常數(shù)a和p的每個(gè) 數(shù)據(jù)存儲(chǔ)于聲音處理裝置1的存儲(chǔ)單元12中。操作S105中的處理可以 使用與用于調(diào)整的那些麥克風(fēng)(如聲音接收單元14)相同類型的麥克風(fēng) 來(lái)執(zhí)行。例如,方程式(5)中的函數(shù)F從諸如常用對(duì)數(shù)、自然對(duì)數(shù)等對(duì) 數(shù)函數(shù)、以及從適當(dāng)?shù)腟型(sigmoid)函數(shù)中選出。
基于控制單元11的控制下,在由校正單元124執(zhí)行的處理中,聲音 處理裝置1將在操作S105中計(jì)算出的相位校正值加到第二聲音接收單元 14b的頻域中的聲音信號(hào)的相位上,從而校正第二聲音接收單元14b的聲 音信號(hào),如S106所示。在操作S106中,使用下述方程式(6)校正所述 聲音信號(hào)。
<formula>formula see original document page 11</formula>(6)
其中^(w)是基于由第二聲音接收單元14b接收的聲音的相位譜,
是經(jīng)校正的相位譜。
基于控制單元11的控制下,聲音處理裝置1執(zhí)行各種聲音處理,例
如在聲音處理單元125執(zhí)行的處理中,基于第一聲音接收單元Ma的聲 音信號(hào)以及第二聲音接收單元14b的相位被校正的聲音信號(hào),來(lái)抑制由 第一聲音接收單元14a接收的聲音,如S107所示。
在操作S105中使用的方程式(5)能夠根據(jù)聲音處理裝置1的形狀 和/或聲音處理的細(xì)節(jié)而適應(yīng)性改變。例如,下述的方程式(7)能夠用于 取代方程式(5)。
<formula>formula see original document page 12</formula>方程式(7)
方程式(5)適用于校正當(dāng)?shù)谝宦曇艚邮諉卧?4a和第二聲音接收單
元14b如圖1所示在聲音處理裝置1中垂直安排時(shí)的正常操作下的相位 譜。另一方面,方程式(7)適用于校正在第一聲音接收單元14a和第二 聲音接收單元14b是水平安排在聲音處理裝置1的前面時(shí)的相位譜。艮口, 期望根據(jù)適當(dāng)?shù)奈恢脕?lái)調(diào)查需所使用的方程式。
上述對(duì)校正的解釋是針對(duì)根據(jù)第二聲音接收單元14b的聲音信號(hào)的 相位。此外,也可以通過(guò)將方程式(5)和(7)中的函數(shù)F中的S2(o))/S,(co) 換成S"co)/S2(co),來(lái)校正第一聲音接收單元14a的聲音信號(hào)的相位???選擇地,對(duì)于相同的對(duì)象(object),下述方程式(8)可用于替換方程 式(6)以校正第一聲音接收單元14a的聲音信號(hào)的相位。
<formula>formula see original document page 12</formula>方程式(8)
其中^(w)是基于由第一聲音接收單元14a接收的聲音的相位譜, 是校正后的相位譜。
接下來(lái),將描述使用聲音處理裝置l校正靈敏度差別的結(jié)果。圖8A 和圖8B是示出使用聲音處理裝置1校正靈敏度差別的示例性結(jié)果的雷達(dá) 圖。通過(guò)基于由第一聲音接收單元14a和第二聲音接收單元14b接收的 各自聲音之間的相差來(lái)識(shí)別聲音傳來(lái)的方向,以及通過(guò)根據(jù)在聲音處理 單元125中執(zhí)行的聲音處理中聲音傳來(lái)的方向,來(lái)執(zhí)行例如對(duì)由第一聲 音接收單元14a接收的聲音進(jìn)行抑制的處理,圖8A和圖8B示出達(dá)到的 方向性。圖8A和圖8B示出的雷達(dá)圖中的方向性是由信號(hào)功率(dB)指 示的,所述信號(hào)功率是對(duì)由第一聲音接收單元14a從聲音傳來(lái)的每個(gè)方向接收的聲音執(zhí)行聲音處理之后的信號(hào)功率。這里,當(dāng)聲音從外殼io的
前面(在此第一聲音接收單元14a設(shè)置在聲音處理裝置1中)傳來(lái)時(shí), 方位角定義為0°,當(dāng)聲音來(lái)自右面時(shí)方位角定義為90°,當(dāng)聲音來(lái)自后 面時(shí)方位角定義為180°,當(dāng)聲音來(lái)自左面時(shí)方位角定義為270°。圖8A 示出當(dāng)?shù)谝宦曇艚邮諉卧?4a和第二聲音接收單元14b之間的靈敏度差 別未校正時(shí)的方向性。實(shí)線指示第一聲音接收單元14a和第二聲音接收 單元14b的靈敏度相同時(shí)的狀態(tài)l;虛線指示第一聲音接收單元14a的靈 敏度高于第二聲音接收單元14b的靈敏度時(shí)的狀態(tài)2;交替的長(zhǎng)短點(diǎn)劃線 指示第二聲音接收單元14b的靈敏度高于第一聲音接收單元和14a的靈 敏度時(shí)的狀態(tài)3。圖8B示出由本發(fā)明的聲音處理裝置1校正靈敏度差別 時(shí)的方向性。實(shí)線指示第一聲音接收單元14a和第二聲音接收單元14b 的靈敏度相同時(shí)的狀態(tài)1;虛線指示第一聲音接收單元14a的靈敏度高于 第二聲音接收單元14b的靈敏度時(shí)的狀態(tài)2;交替的長(zhǎng)短點(diǎn)劃線指示第二 聲音接收單元14b的靈敏度高于第一聲音接收單元和14a的靈敏度時(shí)的 狀態(tài)3。
如圖8A所示,相比第一聲音接收單元14a的靈敏度和第二聲音接收 單元14b的靈敏度相同的狀態(tài)l,側(cè)面和后面的方向性在第一聲音接收單 元14a的靈敏度和第二聲音接收單元14b的靈敏度彼此不同的狀態(tài)2和3 下改變。相反,如圖8B所示,由于在狀態(tài)2和3中靈敏度差別的影響消 除或減小,因此在所有方向上,狀態(tài)2和3中的方向性相似于狀態(tài)1中 的方向性。
在第一實(shí)施例中,聲音處理裝置包括兩個(gè)聲音接收單元。但是,本 發(fā)明不限于此,并且聲音處理裝置能夠具有三個(gè)或更多聲音接收單元。 當(dāng)聲音處理裝置包括三個(gè)或更多聲音接收單元時(shí),通過(guò)將多個(gè)聲音接收 單元之一的聲音信號(hào)定義為參考信號(hào),并通過(guò)執(zhí)行功率譜比的計(jì)算、相 位校正值的計(jì)算以及對(duì)其它聲音接收單元的聲音信號(hào)的相位校正,能夠 減小靈敏度差別。
第二實(shí)施例
例如,在第二實(shí)施例中,考慮到減小處理負(fù)載以及防止聲音質(zhì)量的 突然變化,改變根據(jù)第一實(shí)施例的聲音處理裝置。由于根據(jù)第二實(shí)施例
的聲音處理裝置的外形和示例性硬件配置與根據(jù)第一實(shí)施例的那些相 同,因此,參考根據(jù)第一實(shí)施例的相應(yīng)部分并且將對(duì)它們的描述省略。 在以下描述中,相同附圖標(biāo)記用于與第一實(shí)施例中實(shí)質(zhì)相同的組件。
圖9是示出根據(jù)第二實(shí)施例的聲音處理裝置1的示例功能的功能性 方框圖。本發(fā)明的聲音處理裝置1包括第一聲音接收單元14a、第二聲音 接收單元14b、抗混疊濾波器160以及執(zhí)行模擬-數(shù)字轉(zhuǎn)換的A/D轉(zhuǎn)換器 161。第一聲音接收單元14a和第二聲音接收單元14b包括用以放大模擬 聲音信號(hào)的放大器(未示出)。
聲音處理裝置1還包括幀產(chǎn)生單元120、 FFT執(zhí)行單元121、用于計(jì) 算功率譜比的計(jì)算單元122、用于計(jì)算相位校正值的導(dǎo)出單元123、校正 單元124以及聲音處理單元125。此外,聲音處理裝置1包括用以選擇頻 率的頻率選擇單元126以及平滑單元(smoothing unit) 127,所述頻率用 于由計(jì)算單元122執(zhí)行的對(duì)功率譜比的計(jì)算,所述平滑單元127平滑由 導(dǎo)出單元123計(jì)算的校正值隨時(shí)間的變化。幀產(chǎn)生單元120、 FFT執(zhí)行單 元121、計(jì)算單元122、導(dǎo)出單元123、校正單元124、聲音處理單元125、 頻率選擇單元126以及平滑單元127都可以是作為通過(guò)執(zhí)行存儲(chǔ)單元12 中的各種計(jì)算機(jī)程序而實(shí)現(xiàn)的軟件的功能。但是,這些功能也可以通過(guò) 使用專用硬件例如集成電路的各種處理芯片而實(shí)現(xiàn)。
接下來(lái),將描述根據(jù)第二實(shí)施例的聲音處理裝置1執(zhí)行的處理。圖 IO示出了由根據(jù)第二實(shí)施例的聲音處理裝置1執(zhí)行的示例性處理的操作 圖?;谟上鄳?yīng)的聲音接收單元14接收的聲音,通過(guò)用于執(zhí)行計(jì)算機(jī)程 序100的控制單元11的控制,聲音處理裝置1產(chǎn)生模擬聲音信號(hào),如S200 所示,使用抗混疊濾波器160濾波所述信號(hào),并且使用A/D轉(zhuǎn)換器161 將所述信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)。
在基于控制單元11的控制由幀產(chǎn)生單元120執(zhí)行的處理中,聲音處 理裝置1將來(lái)自被轉(zhuǎn)換為數(shù)字信號(hào)的每一個(gè)聲音信號(hào)的每個(gè)聲音信號(hào)分 為具有預(yù)定時(shí)間長(zhǎng)度的多個(gè)幀,所述幀用作為處理單元,如S202所示, 并且在基于控制單元11的控制由FFT執(zhí)行單元121執(zhí)行的處理中,聲音 處理裝置1通過(guò)FFT處理將以幀為單位的聲音信號(hào)轉(zhuǎn)換為用作頻域信號(hào) 的頻譜,如S203所示。在基于控制單元11的控制由頻率選擇單元126執(zhí)行的處理中,聲音 處理裝置1在從例如1000到3000Hz的頻率范圍中選擇SNRs(信號(hào)噪聲 比)高于或等于預(yù)定值的頻率,該頻率范圍不受抗混疊濾波器160的影 響,如S204所示。
在基于控制單元11的控制由計(jì)算單元122執(zhí)行的處理中,聲音處理 裝置1計(jì)算在操作S204中選擇的頻率的功率譜比,如S205所示,計(jì)算 功率譜比的平均值,如S206所示,并且在基于控制單元11的控制由導(dǎo) 出單元123執(zhí)行的處理中,聲音處理裝置1基于功率譜比的平均值,計(jì) 算第二聲音接收單元14b的頻域聲音信號(hào)相對(duì)于第一聲音接收單元14a 的頻域聲音信號(hào)的相位校正值,如S207所示。操作S205到S207的處理 是由下述方程式(9)或(10)表示的。<formula>formula see original document page 15</formula>方程式(9)
其中Pcomp是相位校正值,ot和p是常數(shù),N是選擇的頻率的數(shù)量, F()是函數(shù),Sl(co)是基于第一聲音接收單元14a的聲音信號(hào)的功率譜, 以及S2(co)是基于第二聲音接收單元14b的聲音信號(hào)的功率譜。
<formula>formula see original document page 15</formula> 方程式(io)
其中Pcomp是相位校正值,oc和p是常數(shù),N是選擇的頻率的數(shù)量, F()是函數(shù),Sl(co)是基于第一聲音接收單元14a的聲音信號(hào)的功率譜, 以及S2(co)是基于第二聲音接收單元14b的聲音信號(hào)的功率譜。
方程式(9)和(10)表示的相位校正值是基于在選定頻率的功率譜 比的平均值而計(jì)算的代表值,并且不依靠選擇頻率來(lái)改變。在第二實(shí)施 例中,由于校正值是基于在N個(gè)選定頻率的頻譜而計(jì)算的,所以可以減 少處理負(fù)載(processing load)。由于隨后處理與校正值的時(shí)間性變化(time change)有關(guān),因此將索引相位校正值Pcomp作為校正值Pcomp(t),其 是時(shí)間(幀)t的函數(shù)。
在基于控制單元11的控制由平滑單元127執(zhí)行的處理中,聲音處理 裝置1平滑校正值隨時(shí)間的變化(temporal variation),如S208所示。 在操作S208中,使用下述方程式(11)執(zhí)行平滑處理。
<formula>formula see original document page 16</formula> 方程式(11)
其中^是從o到i的常數(shù)。
在操作S208中,使用方程式(11)所示的一個(gè)先前校正值Pcomp(t-l) 來(lái)平滑時(shí)間性變化(time change)。因此,能夠再現(xiàn)自然的聲音,同時(shí) 防止校正值的突然變化。這里,常數(shù)Y可以是例如0.9。更進(jìn)一步,當(dāng)選 定頻率的數(shù)量低于預(yù)定值時(shí),例如是5,可以暫時(shí)將常數(shù)Y設(shè)定為1,從 而停止對(duì)校正值的更新。這樣,由于不使用具有在SNR低時(shí)所獲得的低 精確度的校正值,因此能夠提高可靠性。此外,為了防止由例如噪聲引 起的不期望的過(guò)度校正,需要為校正值設(shè)置上限和下限。能夠使用 sigmoid函數(shù)來(lái)代替使用方程式(ll),從而平滑校正值的時(shí)間性變化(time change)。
基于控制單元11的控制下,在由校正單元124執(zhí)行的處理中,聲音 處理裝置1將操作S208中計(jì)算的相位校正值加到第二聲音接收單元14b 的頻域聲音信號(hào)的相位,以校正第二聲音接收單元14b的聲音信號(hào),如 S209所示。在操作S209中,使用在整個(gè)頻率范圍上的特定(specific) 校正值校正聲音信號(hào)。
基于控制單元11的控制下,在由聲音處理單元125執(zhí)行的處理中, 聲音處理裝置1執(zhí)行各種聲音處理,例如基于第一聲音接收單元14a的 聲音信號(hào)以及第二聲音接收單元14b的相位被校正的聲音信號(hào),來(lái)抑制 由第一聲音接收單元14a接收的聲音,如S210所示。
第一和第二實(shí)施例僅是本發(fā)明眾多實(shí)施例中的部分??梢岳斫獾氖怯布?和軟件的配置可以設(shè)置成適當(dāng)?shù)呐渲茫⑶铱梢越Y(jié)合與上述基本處理不同的 各種處理。
權(quán)利要求
1. 一種聲音處理裝置,用于處理接收到的聲音,該裝置包括多個(gè)聲音接收單元,所述多個(gè)聲音接收單元的每一個(gè)聲音接收單元輸出與接收到的聲音對(duì)應(yīng)的聲音信號(hào);轉(zhuǎn)換單元,用于將時(shí)域中的聲音信號(hào)轉(zhuǎn)換為頻域中的轉(zhuǎn)換后信號(hào);計(jì)算單元,用于獲得兩個(gè)所述轉(zhuǎn)換后信號(hào)之間的頻譜比;導(dǎo)出單元,用于基于所述頻譜比導(dǎo)出相位校正值,基于與兩個(gè)所述轉(zhuǎn)換后信號(hào)中的一個(gè)轉(zhuǎn)換后信號(hào)對(duì)應(yīng)的一個(gè)聲音信號(hào),以對(duì)應(yīng)于兩個(gè)所述轉(zhuǎn)換后信號(hào)中另一個(gè)轉(zhuǎn)換后信號(hào)的另一個(gè)聲音信號(hào)為基礎(chǔ),所述相位校正值能夠校正所述另一個(gè)聲音信號(hào)的相位;以及校正單元,用于校正所述聲音信號(hào)的相位。
2. 如權(quán)利要求1所述的聲音處理裝置,其中所述計(jì)算單元能夠獲得兩個(gè) 所述轉(zhuǎn)換后信號(hào)之間的功率譜比。
3. 如權(quán)利要求2所述的聲音處理裝置,其中用下面的方程式的形式表示 所述相位校正值其中"是角頻率,Pcomp(o)是所述相位校正值,Si(")是兩個(gè)所述轉(zhuǎn)換 后信號(hào)中一個(gè)轉(zhuǎn)換后信號(hào)的功率譜,S2(")是兩個(gè)所述轉(zhuǎn)換后信號(hào)中另一個(gè) 轉(zhuǎn)換后信號(hào)的功率譜,Ot和P是常數(shù),以及F《S2((0)/SKC0》是S2(C0)/S"(D)的函數(shù)。
4. 如權(quán)利要求2所述的聲音處理裝置,其中用下面的方程式的形式表示所述相位校正值Pcomp(co) = [aF(S"co)/S2(co川co + p其中"是角頻率,Pcomp(co)是所述相位校正值,S"co)是兩個(gè)所述轉(zhuǎn)換 后信號(hào)中一個(gè)轉(zhuǎn)換后信號(hào)的功率譜,S2(")是兩個(gè)所述轉(zhuǎn)換后信號(hào)中的另一個(gè)轉(zhuǎn)換后信號(hào)的功率譜,a和(3是常數(shù),以及F^(co)/S2((o》是S"co)/S2(co)的函數(shù)。
5. 如權(quán)利要求3所述的聲音處理裝置,其中所述函數(shù)是對(duì)數(shù)函數(shù),并且 所述校正單元執(zhí)行加法運(yùn)算,將所述相位校正值加到兩個(gè)所述轉(zhuǎn)換后信號(hào)中 另一個(gè)轉(zhuǎn)換后信號(hào)的相位上。
6. 如權(quán)利要求4所述的聲音處理裝置,其中所述函數(shù)是對(duì)數(shù)函數(shù),并且 所述校正單元執(zhí)行加法運(yùn)算,將所述相位校正值加到兩個(gè)所述轉(zhuǎn)換后信號(hào)中 另一個(gè)轉(zhuǎn)換后信號(hào)的相位上。
7. 如權(quán)利要求1所述的聲音處理裝置,其中所述計(jì)算單元能夠獲得兩個(gè) 所述轉(zhuǎn)換后信號(hào)的振幅譜之間的比率。
8. 如權(quán)利要求1所述的聲音處理裝置,進(jìn)一步包括平滑單元,用于平滑所述相位校正值隨時(shí)間的變化,其中基于由所述平 滑單元平滑后的所述相位校正值,所述校正單元校正所述聲音信號(hào)的相位。
9. 一種校正接收到的聲音信號(hào)之間相差的方法,該方法包括如下操作-分別將時(shí)域中的每個(gè)聲音信號(hào)轉(zhuǎn)換為頻域中的轉(zhuǎn)換后信號(hào),每個(gè)所述聲音信號(hào)對(duì)應(yīng)于各自的接收到的聲音信號(hào);執(zhí)行計(jì)算以獲得兩個(gè)所述轉(zhuǎn)換后信號(hào)之間的頻譜比;通過(guò)使用所述頻譜比導(dǎo)出相位校正值,所述相位校正值基于兩個(gè)所述轉(zhuǎn) 換后信號(hào)中一個(gè)轉(zhuǎn)換后信號(hào)導(dǎo)出;以及校正兩個(gè)所述轉(zhuǎn)換后信號(hào)中另 一個(gè)轉(zhuǎn)換后信號(hào)的相位。
全文摘要
本發(fā)明公開(kāi)一種校正相差的聲音處理裝置和方法,該聲音處理裝置處理接收的聲音。包括在該裝置中的多個(gè)聲音接收單元,分別輸出對(duì)應(yīng)于接收的信號(hào)的聲音信號(hào),然后將時(shí)域中的聲音信號(hào)轉(zhuǎn)換為頻域中的分別的轉(zhuǎn)換后信號(hào),以及計(jì)算兩個(gè)轉(zhuǎn)換后信號(hào)之間的頻譜比,以導(dǎo)出用以校正聲音信號(hào)的相位的相位校正值。因此,本發(fā)明的聲音處理裝置和方法能夠校正包含在該裝置中的多個(gè)麥克風(fēng)的靈敏度變化,以及能夠校正隨產(chǎn)品壽命而產(chǎn)生的磨損所引起的特征改變。
文檔編號(hào)H04R1/40GK101378607SQ200810212648
公開(kāi)日2009年3月4日 申請(qǐng)日期2008年8月27日 優(yōu)先權(quán)日2007年8月27日
發(fā)明者早川昭二 申請(qǐng)人:富士通株式會(huì)社