專利名稱:聲源方向檢測裝置和方法以及聲源方向檢測相機的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通過分析例如在會議期間由講話者發(fā)出的聲音來檢測該講
話者的方向的聲源方向(sound source direction)檢測裝置、聲源方向檢測 方法和聲源方向檢測相機。
背景技術(shù):
存在在所謂的視頻會議期間用于鏈接例如在遠程位置處的講話者的視 頻會議系統(tǒng)。利用這一類系統(tǒng)進行操作,參與視頻會議的人們的談話和姿 勢被實時地在所鏈接的遠程位置之間交換。這樣的一種視頻會議系統(tǒng)通常 由下述組件構(gòu)成用于收集從正在進行中的會議發(fā)出的聲音的麥克風(fēng)、用 于對參與者成像的相機、并入到相機中以便收集周圍聲音的聲源檢測麥克 風(fēng)、以及用于基于由聲源檢測麥克風(fēng)收集的周圍聲音來檢測聲源(即,講
話者)的方向的聲源方向檢測部分。視頻會議系統(tǒng)還包括驅(qū)動部分,其
將相機對準(zhǔn)于聲源方向檢測部分所檢測到的講話者的方向;以及將由相機 成像的視頻幀和由檢測麥克風(fēng)收集的音頻幀轉(zhuǎn)換為合適的發(fā)送格式之后將 轉(zhuǎn)換后的數(shù)據(jù)發(fā)送到在相對的遠程位置處設(shè)立的另一個會議系統(tǒng)的裝置。
聲源方向檢測部分通過分析講話者的語音來檢測講話者相對于相機的 方向。當(dāng)講話者的方向被檢測到時,驅(qū)動部分相應(yīng)地將相機對準(zhǔn)講話者并 開始對該講話者成像。不同方法已被提出并被用于確定講話者的方向(在 下文中稱為聲源方向)。以下參考圖12A到12C來概述的是通常如何使用 兩個麥克風(fēng)來確定聲源方向。
圖12A示出了如何相對聲源來布置兩個麥克風(fēng)。通常使用兩個麥克風(fēng) 來檢測聲源方向。第一麥克風(fēng)101a與第二麥克風(fēng)102a相距距離D。當(dāng)針 對鏈接第一麥克風(fēng)101a和第二麥克風(fēng)102a的線段的中點繪制垂直線時, 在一方的垂直線和另一方的箭頭101b和102b之間形成了角度0。角度0
處的箭頭表示聲源100的方向。假設(shè)從第一麥克風(fēng)101a或第二麥克風(fēng) 102a到聲源100的距離比第一麥克風(fēng)101a和第二麥克風(fēng)102a之間的距離 D長的足夠多。因此,指示出來自聲源IOO且進入第一和第二麥克風(fēng)101a 和102a的聲音的方向的箭頭101b和102b被視為相互平行。
在這種情況下,在一方的第一麥克風(fēng)101a和另一方的由從第二麥克風(fēng) 102a向箭頭101b引出的垂直線與箭頭101b形成的交叉點之間具有距離 L。距離L與兩個麥克風(fēng)在接收來自聲源100的聲波時在它們之間的時間 差相對應(yīng)。換而言之,將距離L[m]除以聲速[m/s]得到兩點之間的時間 差,§卩,與由聲源生成的聲波同相的波表面到達第二麥克風(fēng)102a之時和該 聲表面到達第一麥克風(fēng)101a之時之間的時間差。于是從兩個麥克風(fēng)之間的 距離D和根據(jù)所述時間差計算得到的距離L中獲得sin0的值。在計算得到 sin0的值的情況下,相機被相應(yīng)地對準(zhǔn)于聲源方向A。
圖12B在復(fù)平面上示出了由第一和第二麥克風(fēng)101a和102a檢測到的 聲音。如圖12B所示,在以下兩個矢量之間存在相位差0:表示第一麥克 風(fēng)101a所檢測到的聲音的矢量B,和表示第二麥克風(fēng)102a所檢測到的聲 音的矢量C。該相位差0可歸因于以下事實第一麥克風(fēng)101a和聲源100 之間的距離與第二麥克風(fēng)102a和聲源IOO之間的距離不同,而聲波來自同 一聲源??紤]相位差0的影響使得可以獲得兩點之間的時間差,g口,給定 頻率分量的聲波到達第一麥克風(fēng)101a之時和相同頻率分量的聲波到達第二 麥克風(fēng)102a之時之間的時間差。這樣獲得的時間差又能夠計算sin0的 值,藉此來檢測聲源方向。
首先按預(yù)定單位時間間隔來收集聲音,并例如通過快速傅立葉變換 (FFT)來分解成構(gòu)成用于估計聲源方向的矢量的頻率分量。因而獲得了 第一麥克風(fēng)101a和第二麥克風(fēng)102a之間的相位差0。在復(fù)平面上可見的 矢量的長度表示所涉及的頻率分量的聲功率水平。理想情況下,第一麥克 風(fēng)101a所檢測到的聲源方向應(yīng)當(dāng)與第二麥克風(fēng)102a所檢測到的聲源方向 一致,該方向即圖12B所示的矢量B的方向。例如,如果聲源位于正前方 (即,從第一麥克風(fēng)101a到聲源100的距離等于從第二麥克風(fēng)102a到聲 源100的距離時),則相位差為零。如果聲源位于斜前方(即,從第一麥
克風(fēng)101a到聲源100的距離與從第二麥克風(fēng)102a到聲源100的距離不等 時),則發(fā)生相位差。即,在復(fù)平面上的多個矢量揭示了相位差的存在。
圖12C示出了通過在相對于面對第一和第二麥克風(fēng)101a和102a的正 前方(即,針對鏈接第一麥克風(fēng)101a和第二麥克風(fēng)102a的線段的垂直線 的方向)的±90度的方向上進行分析而獲得的典型柱狀圖。在圖12C所示 的柱狀圖中,橫軸表示sin0的值,縱軸表示相加功率水平(additional power level)。因為人的語音包含各種頻率,所以針對所涉及的各個頻率 來計算功率水平。在所涉及的每個角度處,所獲得的功率水平被添加到柱 狀圖。結(jié)果指向聲源方向的角度。
因為將在這里解釋的原因,sin0的值包括l sin6 |>l。顯然包括| sin0|《 1。通常,使用以下表達式(1)來得到sin0的值
sin0 = 1/fx6/2 r的時間差x聲速
麥克風(fēng)之間的距離 ...(l) 其中,f!Hz]表示頻率,0表示相位差
如果基于時間差、聲速和麥克風(fēng)之間的距離來確定sin0的值,并且如 果聲波到達第二麥克風(fēng)102a早于到達第一麥克風(fēng)101a,則時間差取正 值。如果聲波到達第二麥克風(fēng)102a晚于到達第一麥克風(fēng)101a,則時間差 變?yōu)樨?fù)值。因此siM的值可以是正的或負(fù)的。如果在以上的表達式(1) 中,分子大于分母,則sin0的值可以小于-1或者大于1。在lsin01〉1時出 現(xiàn)的值源于錯誤或者聲波衍射。由于這些原因,在lsin01〉1時顯示的柱狀 圖也需要考慮。
在通過多個麥克風(fēng)來收集聲音的情況下,針對所涉及的各個頻率估計 得到的角度被添加到如上所述的柱狀圖。隨后,功率水平為最高的角度被 檢測為聲音方向。
日本專利早期公開No. Hei 7-336790公開了一種麥克風(fēng)系統(tǒng),該麥克 風(fēng)系統(tǒng)收集多個聲音信號,并找到它們之間的時間延遲以及所收集的信號 中的最高功率水平。時間延遲和最高功率水平在收集聲音時被用于從一個 聲音信號切換到另一個聲音信號。
日本專利早期公開No. 2004-12151公開了一種聲音方向估計裝置,其
具有用于防止在估計聲源位于被反射的聲音和被同時輸入的噪聲中的哪里 時的精度惡化的配置。
日本專利早期公開No. 2006-194700公開了用于最小化聲音方向中的 由反射導(dǎo)致的那些錯誤的技術(shù)。
發(fā)明內(nèi)容
在被實現(xiàn)時,目前為止所提出的技術(shù)會導(dǎo)致錯誤地檢測講話者所處的 位置。錯誤檢測聲源方向的主要原因被視為是在聲源100周圍發(fā)生的噪聲 分量的影響。以下將參考圖13A和13B來論述在聲源100周圍生成的噪聲 的影響。
圖13A是伴隨聲音的噪聲的影響的示意性圖示。如圖13A所示,噪聲 具有特定功率水平(N),噪聲分量在復(fù)平面上按預(yù)定間隔旋轉(zhuǎn)。具有比 噪聲高的功率水平P的聲音被分解為頻率分量,這些頻率分量又被用于求 取聲源方向。此時,從正確的聲源方向偏離最大量N的方向被檢測作為視 在(apparent)且錯誤的聲源方向。當(dāng)視在聲源方向被檢測到時,創(chuàng)建得 到變形的柱狀圖,該變形柱狀圖指示了附有預(yù)定頻率范圍內(nèi)的相加功率水 平的頻率分量。
圖13B是所涉及的每個頻率分量均附有相加功率水平的典型柱狀圖表 示。在這個示例中,給出最大柱狀圖值的相加值111指示出sin0的值處于 "-0.6"的方向上。但是,事實上,正確的聲源方向A是圖12C所示的相 加值110 (sin0 = O.3)的方向。即,功率水平可能在特定頻率范圍內(nèi)被在 錯誤的方向上相加,其結(jié)果是操作中的相機可能從講話者偏離。
本發(fā)明的實施例是鑒于上述情況而作出的,并且提供了可靠地檢測聲 源(即,講話者)的方向的配置。
在根據(jù)本發(fā)明一個實施例來執(zhí)行本發(fā)明時,提供了一種聲源方向檢測 方法,該方法包括以下步驟按預(yù)定單位時間間隔,將由多個麥克風(fēng)通過 收集來自聲源的聲音而形成的音頻幀分解為頻率分量;確定在聲源周圍發(fā) 生的噪聲的影響,作為誤差范圍;基于在誤差范圍確定步驟中確定的誤差 范圍,針對在頻率分解步驟中分解得到的頻率分量來分散所確定的功率水
平;將分散后的功率水平相加;以及將相加得到的功率水平的最高點所處 的相位檢測為聲源的方向。根據(jù)本發(fā)明另一個實施例,提供了一種聲源方向檢測方法,該方法包 括以下步驟按預(yù)定的單位時間間隔,將由多個麥克風(fēng)通過收集來自聲源 的聲音而形成的第一音頻幀分解為頻率分量;將針對分解得到的每個頻率 分量來確定的功率水平相加;基于相加得到的功率水平的最高點所處的相 位,來檢測聲源的方向;對相加得到的功率水平進行平滑;存儲經(jīng)平滑的 功率水平;以及將得自第一音頻幀的經(jīng)平滑的功率水平與針對第二音頻幀 中的每個頻率分量來確定的功率水平相加,其中,第二音頻幀由所述多個 麥克風(fēng)通過從第一音頻幀開始繼續(xù)收集聲音而形成。在如上所述地具體化并實現(xiàn)本發(fā)明的實施例的情況下,無論是否在聲 源(即,講話者)周圍發(fā)生噪聲,都可以可靠地檢測該聲源的方向。此外,通過使用連續(xù)的音頻幀,可以比之前更加可靠地檢測講話者的 方向。根據(jù)上述本發(fā)明的實施例,聲源(講話者)的方向被可靠地檢測到, 以使得操作中的相機可以相應(yīng)地被指向所檢測到的方向。從而防止相機對 準(zhǔn)與講話者的方向不一致的方向。當(dāng)從連續(xù)音頻幀中可靠地檢測到講話者的方向時,相機被指向正確檢 測到的方向。這種配置還防止了相機指向錯誤方向。
在閱讀以下描述和所附附圖之后,本發(fā)明的實施例的其它目的和優(yōu)點 將變得清楚可見,在附圖中圖1是示出如何配置作為本發(fā)明第一實施例的視頻會議系統(tǒng)的外視圖;圖2是示出作為第一實施例的視頻會議系統(tǒng)通常如何設(shè)置的示意圖; 圖3是示出作為第一實施例的視頻會議系統(tǒng)的典型內(nèi)部結(jié)構(gòu)的框圖; 圖4是構(gòu)成由第一實施例執(zhí)行的聲源方向檢測處理的步驟的流程圖; 圖5A和5B是示出由第一實施例顯示的典型柱狀圖的圖形表示;
圖6A和6B是示出關(guān)于第一實施例在高頻范圍內(nèi)具有最小的相位影響 的典型柱狀圖的圖形表示;圖7是示出被實現(xiàn)為本發(fā)明第二實施例的視頻會議系統(tǒng)的典型內(nèi)部結(jié)構(gòu)的框圖;圖8A和8B是示出通常逐幀地計算和顯示的典型柱狀圖的圖形表示; 圖9是構(gòu)成由第二實施例執(zhí)行的聲源方向檢測處理的步驟的流程圖; 圖IOA到IOD是示出由第二實施例顯示的典型柱狀圖的圖形表示;圖IIA和IIB是示出關(guān)于第二實施例的反射聲音的影響的示意圖;圖12A到12C是示出用于檢測聲源方向的常見處理的示意圖;以及 圖13A和13B是示出使用傳統(tǒng)設(shè)置的柱狀圖來檢測聲源方向的常見處 理的圖形表示。
具體實施方式
以下將參考圖1到圖6B來描述本發(fā)明的第一優(yōu)選實施例。第一實施 例被示例性地實現(xiàn)為視頻會議系統(tǒng)10,視頻會議系統(tǒng)10能夠發(fā)送和接收 在遠程位置之間的實時的圖像和聲音。圖1是示出第一實施例的視頻會議系統(tǒng)10通常如何被配置的外視 圖。用于對講話者成像的相機1在其外殼的底部包含用于收集聲音以檢測 它們的源的第一麥克風(fēng)la和第二麥克風(fēng)lb。第一和第二麥克風(fēng)la和lb 相隔預(yù)定距離(例如,大約10厘米)。第一和第二麥克風(fēng)la和lb將所收 集的聲音轉(zhuǎn)換為音頻幀,該音頻幀被發(fā)送給控制設(shè)備2。第一和第二麥克 風(fēng)la和lb所收集的聲音不被用于記錄講話者的談話,而僅僅被用于檢測 聲源。相機的外殼被固定安裝以使得第一和第二麥克風(fēng)la和lb在它們的 方位上是固定的。相機1配備有驅(qū)動部分ld,該驅(qū)動部分ld能夠搖頭(panning)和俯 仰擺動(tilting)。驅(qū)動部分ld包括用于對講話者成像的鏡頭部分lc。鏡 頭部分lc包含未示出的變焦控制機構(gòu)和聚焦控制機構(gòu)。當(dāng)視頻會議系統(tǒng) IO檢測講話者的方向時,驅(qū)動部分ld將鏡頭部分lc指向講話者,并調(diào)整 該部分的角度。驅(qū)動部分ld通過分析鏡頭部分lc所拍攝的圖像來識別講 話者的臉部,并執(zhí)行變焦控制以便將講話者的臉部置于屏幕中間。相機l與控制設(shè)備2相連接,控制設(shè)備2控制系統(tǒng)的各個組件。在操作時,相機1將所捕捉的光學(xué)圖像轉(zhuǎn)換為電信號,這些電信號構(gòu)成了被發(fā)送給控制設(shè)備2的視頻幀。能夠收集所有方向的聲音的不定向麥克風(fēng)3收 集音頻幀并將它們發(fā)送給控制設(shè)備2。控制設(shè)備2與顯示設(shè)備4相連接, 顯示設(shè)備4結(jié)合了用于輸出聲音的揚聲器并且其設(shè)有用于顯示圖像的液晶 顯示器。顯示設(shè)備4顯示在遠程位置處的相對方的會議室的示圖,并通過 揚聲器來輸出每個講話者的談話??刂圃O(shè)備2根據(jù)MPEG- 4 (運動圖像專家組第4階段)標(biāo)準(zhǔn)來壓縮相 機1所獲得的視頻幀和不定向麥克風(fēng)3所獲得的音頻幀,并將壓縮后的幀 分割成UDP (用戶數(shù)據(jù)報協(xié)議)分組。為了安全通信,在發(fā)送之前對這些 分組進行加密。所述加密例如使用AES (高級加密標(biāo)準(zhǔn),它是對稱密鑰密 碼術(shù)的一個版本)來進行。通常使用SDP (會話描述協(xié)議)或RTP (實時 傳送協(xié)議)作為實現(xiàn)實時通信建立的傳輸協(xié)議??刂圃O(shè)備2通過路由器5 以多播方式向相對方發(fā)送分組。經(jīng)由諸如因特網(wǎng)之類的網(wǎng)絡(luò)在所涉及的各 個位置之間收發(fā)數(shù)據(jù)。在從相對方接收到分組之后,控制設(shè)備2使得顯示設(shè)備4顯示相對方 的圖像并輸出它們的語音。此外,顯示設(shè)備4還可以將其屏幕分割成多個 部分以同時顯示講話者lla到lld。以這種方式,在虛擬地消除在遠程位 置之間的距離的情況下,這些遠程位置所涉及的各方可以舉行會議。以下將參考圖2來說明視頻會議系統(tǒng)10的典型設(shè)置。圖2給出了會議 室13的鳥瞰圖。在會議室13的中間是桌子12,在桌子12上布置了不定 向麥克風(fēng)3。四個人lla到lld坐在桌子12的周圍,在相對側(cè)各自有兩個 人以進行會議。顯示設(shè)備4被按下述方式來布置為接近會議室的一面墻 該方式使得顯示設(shè)備4不會遮擋相機1的視線并且可以被會議室13中的每 個人lla到lld看到。在操作時,顯示設(shè)備4顯示正在連接的相對方的圖 像,并輸出他們的語音。用于對各個人lla至U lld成像的相機1被設(shè)置在會議室13的一個角 落。當(dāng)這些人中的一個開始講話時,相機1檢測講話者的方向并通過搖
頭、俯仰和變焦操作來對那個人成像。相機1可以在約為120度的搖頭范 圍內(nèi)適當(dāng)?shù)貙γ總€講話者成像。以下將參考圖3來描述視頻會議系統(tǒng)10的典型內(nèi)部結(jié)構(gòu)。相機1配備 有鏡頭部分lc。圖像光通過鏡頭部分lc輸入以在CCD (電荷耦合器件) 成像部分If的成像區(qū)域上形成圖像。用于在變焦和聚焦操作中控制鏡頭部 分lc的相機驅(qū)動部分le使用由控制設(shè)備2提供的控制信號來驅(qū)動鏡頭部 分lc。相機1通過成像所獲得的模擬視頻信號被饋送給控制部分16,控制 部分16被并入在控制設(shè)備2中并且其控制其它組成部分??刂撇糠?6通 過適當(dāng)?shù)臄?shù)字化處理將模擬形式的視頻幀轉(zhuǎn)換為數(shù)字形式的視頻幀。第一和第二麥克風(fēng)la和lb所收集的模擬信號的音頻幀也被提供給控 制部分16??刂撇糠?6又通過合適的數(shù)字化處理將模擬形式的音頻幀轉(zhuǎn) 換為數(shù)字形式的音頻幀??刂圃O(shè)備2設(shè)有用于檢測聲源方向的聲源方向檢測裝置20。聲源方向 檢測裝置20包括頻率分解部分21,用于將控制部分16所提供的數(shù)字音 頻信號分解成多個頻率;誤差范圍確定部分22,用于確定可應(yīng)用于噪聲的 誤差范圍;功率水平分散部分23,用于基于所確定的誤差范圍對每個頻率 分散功率水平;功率水平相加部分24,用于將分散后的功率水平分布(功 率水平值)相加;以及聲源方向檢測部分25,用于基于在預(yù)定頻率范圍內(nèi) 被相加的功率水平分布來檢測聲源方向。頻率分解部分21從數(shù)字音頻信號中提取多個頻率分量。將要提取的 頻率分量的頻率值落在例如200Hz到4kHz的可聽范圍內(nèi)。頻率分量的解 析度依據(jù)FFT設(shè)置而不同。誤差范圍確定部分22確定由在聲源周圍出現(xiàn) 的噪聲導(dǎo)致的相位誤差范圍。示例性地,這樣的噪聲源自空調(diào)機。如果這 樣確定了相位誤差范圍,則功率水平分散部分23在該誤差范圍內(nèi)分散功 率水平。功率水平相加部分24將分散后的功率水平相加。在稍后將論述 的圖5A和5B的柱狀圖中示例性地指示了這樣相加得到的功率水平?;谟晒β仕较嗉硬糠?4相加得到的功率水平,聲源方向檢測部 分25通過找出相加得到的功率水平中的最高者所處的相位來檢測聲源方 向。這時,聲源方向檢測部分25參考相位表26,相位表26列出了與相位0相關(guān)聯(lián)的相位差0。聲源方向檢測部分25根據(jù)由有效相位差0確定的時間差來檢測sin0的值。所檢測到的sin0的值隨后被從聲源方向檢測部分 25發(fā)送到控制部分16。給定來自聲源方向檢測部分25的sin0的值,控制 部分16使得驅(qū)動部分ld將鏡頭部分lc對準(zhǔn)講話者的方向。以下將參考圖4來說明用于估計聲源方向的典型處理。在圖4的步驟 Sl中,第一和第二麥克風(fēng)la和lb收集來自聲源的聲音,將所收集的聲源 形成音頻幀,并將音頻幀發(fā)送到控制設(shè)備2??刂圃O(shè)備2所接收的音頻幀 被轉(zhuǎn)換為數(shù)字信號,該數(shù)字信號被轉(zhuǎn)發(fā)到頻率分解部分21。在步驟S2中,頻率分解部分21將音頻幀分解成多個頻率分量。此 時,頻率分解部分21通過對音頻幀進行快速傅立葉變換來將聲音分解成 頻率分量。在步驟S3中,誤差范圍確定部分22確定由噪聲導(dǎo)致的誤差范圍。所 確定的聲源方向在噪聲的影響之下可能偏移。通過在誤差范圍內(nèi)按正態(tài)分 布分散功率水平來規(guī)避這個瓶頸。這使得可以最小化偏移的聲源方向?qū)ο?加后的功率水平的不利影響。在步驟S4中,功率水平相加部分24進行檢驗以判定給定頻率分量是 否落在預(yù)定頻率范圍內(nèi)。示例性地,進行檢驗以查看感興趣的頻率分量是 否被包括在200Hz到4kHz的范圍內(nèi)。頻率值最初被設(shè)置為200Hz并在之 后以幾十Hz的單位來遞增,并且在每個頻率范圍內(nèi)獲得的功率水平被相 加。如果發(fā)現(xiàn)頻率分量落在預(yù)定頻率范圍內(nèi),則功率水平分散部分23前 進到步驟S5,并在預(yù)定誤差范圍內(nèi)按正態(tài)分布來分散功率水平。在步驟 S6中,功率水平相加部分24將經(jīng)功率水平分散部分23分散的功率水平分 布相加??刂齐S后返回到步驟S4,對另一個頻率分量進行校驗,并且將得 自新的頻率分量的分散后的功率水平分布相加。當(dāng)分散在預(yù)定頻率范圍內(nèi)的所有功率水平分布都已經(jīng)被相加時,到達 步驟S7。在步驟S7中,聲源方向檢測部分25根據(jù)相加得到的功率水平的 最高點所位于的sin0的值求得相位,并根據(jù)這樣獲得的相位來檢測聲源方 向。
現(xiàn)在將參考圖5A和5B來說明通過參考圖4描述的處理來顯示的典型 柱狀圖。圖5A是示出通過相加某些頻率處的功率水平分布而獲得的柱狀 圖的圖形表示。所收集的聲音被分解成多個頻率分量。針對每個頻率分量 確定的功率水平在誤差范圍32內(nèi)按正態(tài)分布分散。其結(jié)果是,分散后的 功率水平的最高者被加到sin0 = O.3的估計值。在這個示例中,分散后的 功率水平被與中心位于Sin0 = 0.3的sin0的五個值相加。圖5B是示出通過將預(yù)定頻率范圍內(nèi)的分散后的功率水平分布相加而 獲得的柱狀圖的圖形表示。聲源方向檢測部分25將具有最高相加功率水 平的sin0的值視為估計方向33的表示,推測聲源位于該估計方向33上。 這使得可以正確地檢測過去被錯誤估計的聲源方向,如圖5B所示。以下將參考圖6A和6B來說明當(dāng)高頻聲音被相加時所顯示的典型柱狀 圖。因為除聲源方向的正確候選之外,sin0的位置隨頻率而變化,所以可 以通過將柱狀圖相加來選擇精確的聲源方向。過去,在涉及高頻的情況 下,存在完全不同的方向被錯誤地估計為聲源方向的情況。相反,本實施 例的聲源方向檢測裝置20即使在高頻的情況下也能夠正確地檢測聲源方 向。以下將描述第一實施例是如何能夠進行聲源方向的正確檢測的。圖6A是與高頻處的聲功率水平相加的普通柱狀圖的圖形表示。假設(shè) 聲源的正確方向位于sin0 = 0.3。從圖6A中可見,從3kHz聲波獲得的功 率水平35和從4kHz聲波獲得的功率水平36在與sin0 = 0.3處的方向相反 的方向上被分散并被相加。這是因為在高頻處(sin6l一0 = f (0,頻率)和 sin0—1 = f (0 + 2兀,頻率))存在多個0候選。在其它方向上相加得到的值的 影響因而可能導(dǎo)致對聲源的錯誤檢測。當(dāng)如上所述在相加之前對功率水平進行分散時,即使在低頻處,檢測 到的聲源方向也變得或多或少是正確的。因而從低頻開始相加柱狀圖。如 果發(fā)現(xiàn)在高頻處存在多個候選,則改變在該點處要被相加的值。圖6B示出了由第一實施例的聲源方向檢測裝置20在高頻處將聲功率 水平向其相加的典型柱狀圖。從圖6B也可見,從3kHz聲波獲得的功率水 平35和從4kHz聲波獲得的功率水平36被分散在各個方向且在各個方向 被相加。與前一示例的不同之處在于,頻率分量越高,則要被相加的值被
加權(quán)為變得更大。如果sin0_l表示將由第一麥克風(fēng)la相加的針對最高達 3kHz的頻率的功率水平,并且sin0_2表示將由第二麥克風(fēng)lb相加的針對 也是最高達3kHz的頻率的功率水平,則以下表達式(2)和(3)被用于 找到要被相加的功率水平sin0 1 = ^- m0-1),.。。、孝-A0…(2)sine 2 = ^- ,,ne—2) 。、x(p —…(3)_— 闊(sine一1)+to卜闊(sine—2)因而根據(jù)siW的值來加權(quán)要被相加的功率水平,并且相應(yīng)地檢測到正 確的聲源方向。根據(jù)上述第一實施例的聲源方向檢測裝置20,通過最小化由麥克風(fēng)與 目標(biāo)聲音一起收集的噪聲的不利影響可以檢測到聲源的正確方向。對聲源 方向的精確檢測使得可以對當(dāng)前的講話者進行正確成像。在以上描述中,聲源方向檢測裝置20被示出為配備有用于確定在單 位時間內(nèi)在聲音中包括的噪聲的影響作為誤差范圍的誤差范圍確定部分 22??商娲?,誤差范圍一旦被確定就可以存儲在適當(dāng)?shù)拇鎯ζ髋渲弥羞_ 預(yù)定時間段(例如,3秒)。在這種情況下,控制從頻率分解部分21傳送 到功率水平分散部分23。替代處理允許適當(dāng)?shù)赜嬎阏`差范圍,這是因為噪 聲的影響在延長的時間段內(nèi)保持不變。附加的益處在于,因為少了一個要 執(zhí)行的處理步驟,所以提高了處理速度。以下參考圖7描述的是被實現(xiàn)為本發(fā)明第二實施例的聲源方向檢測裝 置40的典型內(nèi)部結(jié)構(gòu)。包括聲源方向檢測裝置40的視頻會議系統(tǒng)50被按 與上述第一實施例的視頻會議系統(tǒng)10相同的方式來配置和建立,因而將 不再對其進行詳細(xì)描述。在圖7的標(biāo)號中,己結(jié)合第一實施例在圖3中使 用的那些標(biāo)號指示相似或相應(yīng)部分。聲源方向檢測裝置40包括頻率分解部分21,用于將數(shù)字音頻信號 分解成多個頻率;功率水平相加部分41,用于將分散后的功率水平相加; 以及聲源方向檢測部分25,用于基于相加得到的功率水平分布的相加值來 檢測聲源方向。聲源方向檢測裝置40還包括相加功率水平平滑部分 42,用于使用預(yù)定公式來平滑每音頻幀(或者在下文中簡稱為幀)的由功 率水平相加部分4相加得到的值;以及經(jīng)平滑相加功率水平存儲部分43,用于存儲經(jīng)平滑的相加功率水平的值。功率水平相加部分41將從經(jīng)平滑 相加功率水平存儲部分43提取的經(jīng)平滑的相加值與分解得到的頻率分量 的相加功率水平相加。這樣相加得到的功率水平被示出在稍后將論述的圖 IOA到IOD的柱狀圖之一中?;谟晒β仕较嗉硬糠?1相加得到的功率水平,聲源方向檢測部 分25將相加得到的功率水平的最高點所處的相位視為聲源方向。此時, 聲源方向檢測部分25參考相位表26,相位表26列出了與sin0相關(guān)聯(lián)的相 位差0。聲源方向檢測部分25根據(jù)利用有效的相位差0確定的時間差來檢 測sin0的值。檢測到的sin0的值隨后被從聲源方向檢測部分25發(fā)送到控 制部分16。給定來自聲源方向檢測部分25的sin0的值的情況下,控制部 分16使得驅(qū)動部分ld將鏡頭部分lc對準(zhǔn)講話者的方向。以下參考圖8A和8B描述的是基于按時間連續(xù)獲得的相同頻率分量的 那些幀(即,第一幀和第二幀)來顯示的柱狀圖。圖8A示出了第一幀的 典型柱狀圖,圖8B指示了第二幀的典型柱狀圖。過去,按預(yù)定單位時間 收集的聲音被分解為每幀頻率分量,并被與每幀功率水平相加。換而言 之,與第一幀相加得到的功率水平在再次與第二幀相加之前被復(fù)位。在這 種情況下,即使在幀為時間連續(xù)的情況下,柱狀圖也可能因幀的不同而不 同,并且估計得到的聲源方向也可能相應(yīng)地分散。這個瓶頸通過本實施例 的配置來規(guī)避。以下參考圖9描述的是由第二實施例的聲源方向檢測裝置40執(zhí)行的 用于估計聲源方向的典型處理。聲源方向檢測裝置40獲得時間連續(xù)音頻 幀(例如,在隨后描述中的第一和第二幀)的每個的相加功率水平,并將 這樣獲得的功率水平相加。該處理使得可以在根據(jù)第二幀來檢測聲源方向 之前保持根據(jù)第一幀檢測得到的聲源方向的影響不變,同時在根據(jù)第二幀 檢測聲源方向時考慮到余留的影響。在圖9的步驟Sll中,第一和第二麥克風(fēng)la和lb收集聲音,將所收 集的聲源形成音頻幀,并將音頻幀發(fā)送到控制設(shè)備2。控制設(shè)備2所接收 的音頻幀(即,第一幀)被轉(zhuǎn)換為數(shù)字信號,該數(shù)字信號被轉(zhuǎn)發(fā)到頻率分
解部分21。在步驟S12中,頻率分解部分21將音頻幀分解為多個頻率分量。此 時,頻率分解部分21通過對音頻幀進行快速傅立葉變換來將聲音分解為頻率分量。在步驟S13中,功率水平相加部分24進行檢驗以判定給定頻率分量 是否落在預(yù)定頻率范圍內(nèi)。示例性地,進行檢驗以查看感興趣的頻率分量 是否被包括在200Hz到4kHz的范圍內(nèi)。頻率值最初被設(shè)置為200Hz,并 在之后以幾十Hz為單位遞增,并且在各個頻率范圍內(nèi)獲得的功率水平被 相加。如果發(fā)現(xiàn)頻率分量落在預(yù)定頻率范圍內(nèi),則到達步驟S14。在步驟 S14中,功率水平相加部分41將從該頻率分量得到的功率水平分布相加。 控制隨后返回到步驟S13,對另一個頻率分量進行檢驗,并且將從該新頻 率分量獲得的功率水平分布相加。在步驟S15中,功率水平相加部分41將從經(jīng)平滑相加功率水平存儲 部分43提取的經(jīng)平滑的第一幀的功率水平與由多個麥克風(fēng)通過從第一幀 開始繼續(xù)收集聲音而生成的功率水平,按針對當(dāng)前第二幀的每個頻率分量 確定的方式相加。當(dāng)分散在預(yù)定頻率范圍內(nèi)的所有功率水平分布都已被相加時,到達步 驟S16。在步驟S16中,聲源方向檢測部分25根據(jù)相加得到的功率水平的 最高點所位于的sin0的值求得相位,并根據(jù)這樣獲得的相位來檢測聲源方 向。在步驟S17中,相加功率水平平滑部分42使用預(yù)定公式針對每個相 位來平滑功率水平分布。這個步驟將失真的柱狀圖形成為平滑形狀。在步驟S18中,經(jīng)平滑相加功率水平存儲部分43存儲針對經(jīng)平滑的 幀確定的功率水平分布的值。針對經(jīng)平滑的幀確定的功率水平分布的值在 步驟S15中被相加。以下參考圖IOA到IOD描述的是與由第二實施例的聲源方向檢測裝置 40針對第一和第二幀確定的功率水平分布相加的典型柱狀圖。圖IOA示出 了第一幀的典型柱狀圖。即使在相同頻率分量處,也因幀的不同而隨時間 顯示不同的柱狀圖。這里假設(shè)函數(shù)hist (l,x)表示針對第一幀在sin0 = x
處的相加值。圖10B示出了在空間方向(sin0)上經(jīng)平滑的第一幀的典型柱狀圖。 相加功率水平平滑部分42使用以下表達式(4)對圖IOA的柱狀圖的相加 得到的功率水平進行平滑hist—smooth(l, x) = 0.25 x hist(l, xl) + 0.5 x hist(l, x) + 0.25 x hist(l, x + 1)…(4)其中,hist—smooth(l, x)是表示經(jīng)平滑的功率水平分布的函數(shù)。圖IOC示出了第二幀的典型柱狀圖。對于第二幀,在sin0^x處的相 加值用函數(shù)hist一add(2, x)表示。第二幀是根據(jù)在第一幀之后收集的聲音來 創(chuàng)建的。第一和第二幀是按時間連續(xù)方式創(chuàng)建的音頻幀。應(yīng)當(dāng)注意,第一 和第二幀可以在時間上相互部分重疊,或者不可以部分重疊。圖10D示出了通過將第一幀的柱狀圖與第二幀的柱狀圖相加而獲得的 典型柱狀圖。在這種情況下,函數(shù)hist—smooth(l, x)和hist一add(2, x)被相 加,每個函數(shù)被通過使用以下表達式(5)來加權(quán)以置信系數(shù)"c" (0 Sl),以增加聲源方向的精確度置信系數(shù)C (0到1)hist(l, x) = c x hist—add(l, x) + (1 - c) x hist一smooth(O, x)…(5)其結(jié)果是,獲得了表示第二幀的經(jīng)平滑的柱狀圖。置信系數(shù)"c"是 指示與先前的柱狀圖相比在感興趣的幀中可以具有多少置信度的值。艮口,置信系數(shù)"c"越高,則該幀就越可能是可以用以正確地檢測講話者的方向的聲音分量。例如,先前的柱狀圖可能包含由并入在顯示設(shè)備4中的揚 聲器輸出的聲音的影響。講話者所發(fā)出的每個句子的初始音節(jié)的音量變得越來越大,從而表示 高置信度。相反,講話者所發(fā)出的句子的尾部音節(jié)的音量變?yōu)橹饾u降低, 從而表示低置信度。在這種情況下,高置信度與高置信系數(shù)"c"相匹 配,而低置信度與低置信系數(shù)"c"相匹配,藉此來適當(dāng)?shù)貦z測講話者的 方向。第二實施例的視頻會議系統(tǒng)50能夠通過去除從墻壁和其它障礙物反 射的聲音的影響來檢測講話者的方向。以下將參考圖IIA和IIB來說明從
墻壁等反射的聲音。圖IIA示出了直接收集來自聲源的聲音的一個示例。在這種情況下, 已知的是,麥克風(fēng)之間的功率比為與到聲源的距離的平方成反比。例如,假設(shè)第一和第二麥克風(fēng)la和lb相隔IO厘米,并且從第二麥克風(fēng)lb到聲 源(即,講話者)的距離Ll是1米。在這種情況下,如果第一麥克風(fēng)la 和聲源之間的距離L2近似為1. l米,貝IJL1與L2之比為1比1.1 (L1:L2 =1 : 1.1)。如果第一麥克風(fēng)la的功率水平用Pl表示,第二麥克風(fēng)lb的 功率水平用P2表示,則P1與P2之比為1比(1/1.21)。艮卩,第一麥克風(fēng) la與第二麥克風(fēng)lb的功率比接近1比1。圖11B示出了在聲音收集時直接聲音和從墻壁反射的聲音被混合的一 個示例。在反射聲音的影響之下,第一麥克風(fēng)la與第二麥克風(fēng)lb的功率 比不再為1:1。在這種情況下,功率比在某些頻率處可能極大地不同。這 可能需要降低加到柱狀圖的功率水平的比例。結(jié)果是降低了反射聲音對柱 狀圖的不利影響。這繼而防止了對聲源方向的錯誤檢測。上述第二實施例的聲源方向檢測裝置40能夠根據(jù)連續(xù)的音頻幀來檢 測聲源方向。在檢測處理中,聲源方向檢測裝置40存儲先前獲得的經(jīng)歷 過柱狀圖計算的音頻幀的功率水平,提取所存儲的功率水平,并將所提取 的值與新近獲得的音頻幀的功率水平相加。連續(xù)使用關(guān)于先前檢測到的聲 源方向的信息有助于增加對聲源方向的當(dāng)前檢測的精確度。如果第一麥克風(fēng)la和第二麥克風(fēng)lb之間的功率水平之差在給定頻率 范圍內(nèi)很顯著,則將要與柱狀圖相加的功率水平的比例可以相應(yīng)地降低。 這種措施考慮了以下因素在僅涉及直接聲音的情況下,麥克風(fēng)之間的功 率水平之差與從各個麥克風(fēng)到聲源的距離的平方成反比。在也涉及反射聲 音的情況下,多個聲音收集麥克風(fēng)之間的功率水平之差往往變?yōu)楹艽?,這 是因為混合聲音的相位同時彼此加強和抵消。由于這些原因,在因為混合 存在直接聲音和反射聲音而通常會錯誤地檢測聲源方向的一般設(shè)置中,第 二實施例的聲源方向檢測裝置40將反射聲音的不利影響最小化以精確地、、在i:禾口卩第二實施例的以上描述中,控制設(shè)備被示出為配備有聲源方 向檢測裝置??商娲?,可以直接將聲源方向檢測裝置安裝在相機中。這 種替代結(jié)構(gòu)使得相機可以獨自檢測聲源方向并將其自身對準(zhǔn)講話者的方 向。作為另一個替代實現(xiàn)方式,可以將聲源方向檢測裝置建立在控制設(shè)備 的外部。作為又一個替代實現(xiàn)方式,構(gòu)成聲源方向檢測裝置的組件可以使 用軟件程序來實現(xiàn)。在這種情況下,可以通過從合適的網(wǎng)站下載更新程序 來容易地提高該裝置的功能性。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)了解,在所附權(quán)利要求或其等同物的范圍內(nèi),依 據(jù)設(shè)計要求和其它因素可以進行各種修改、組合、子組合和變更。本發(fā)明包含與在2007年9月27日向日本專利局提交的日本專利申請 JP 2007-252734相關(guān)的主題,該申請的全部內(nèi)容通過引用而結(jié)合于此。
權(quán)利要求
1. 一種聲源方向檢測裝置,包括多個麥克風(fēng),被配置為收集來自聲源的聲音以形成音頻幀;頻率分解部分,被配置為將所述音頻幀分解為頻率分量;誤差范圍確定部分,被配置為確定與所述聲音一起收集的噪聲的影響,作為相對相位的誤差范圍;功率水平分散部分,被配置為基于由所述誤差范圍確定部分確定的所述誤差范圍,針對由所述頻率分解部分分解得到的每個頻率分量來分散所述聲音的功率水平;功率水平相加部分,被配置為將經(jīng)所述功率水平分散部分分散的功率水平相加;以及聲源方向檢測部分,被配置為基于由所述功率水平相加部分相加得到的功率水平的最高點所處的相位,來檢測所述聲源的方向。
2. —種聲源方向檢測方法,包括以下步驟按預(yù)定單位時間間隔,將由多個麥克風(fēng)通過收集來自聲源的聲音而形成的音頻幀分解為頻率分量;確定在所述聲源周圍發(fā)生的噪聲的影響,作為誤差范圍; 基于在所述誤差范圍確定步驟中確定的所述誤差范圍,針對在所述頻率分解步驟中分解得到的頻率分量來分散所確定的功率水平; 將分散后的功率水平相加;以及將相加得到的功率水平的最高點所處的相位檢測為所述聲源的方向。
3. —種聲源方向檢測相機,包括多個麥克風(fēng),被配置為收集來自聲源的聲音以形成音頻幀; 頻率分解部分,被配置為按預(yù)定單位時間間隔將所述音頻幀分解為頻 率分量;誤差范圍確定部分,被配置為確定在所述聲源周圍發(fā)生的噪聲的影響;功率水平分散部分,被配置為基于由所述誤差范圍確定部分確定的所述誤差范圍,針對由所述頻率分解部分分解得到的頻率分量來分散所確定的功率水平;功率水平相加部分,被配置為將經(jīng)所述功率水平分散部分分散的功率水平相加;以及聲源方向檢測部分,被配置為將由所述功率水平相加部分相加得到的 功率水平的最高點所處的相位檢測為所述聲源的方向。
4. 一種聲源方向檢測裝置,包括多個麥克風(fēng),被配置為收集來自聲源的聲音以形成第一音頻幀; 頻率分解部分,被配置為將所述第一音頻幀分解為頻率分量; 功率水平相加部分,被配置為將針對由所述頻率分解部分分解得到的 每個頻率分量來確定的功率水平相加;聲源方向檢測部分,被配置為基于由所述功率水平相加部分相加得到 的功率水平的最高點所處的相位,檢測所述聲源的方向;相加功率水平平滑部分,被配置為對由所述功率水平相加部分相加得 到的功率水平進行平滑;以及經(jīng)平滑相加功率水平存儲部分,被配置為存儲經(jīng)平滑的功率水平;其中,所述功率水平相加部分將得自所述第一音頻幀且從所述經(jīng)平滑 相加功率水平存儲部分提取的所述功率水平與針對第二音頻幀中的每個頻 率分量來確定的功率水平相加,其中,所述第二音頻幀由所述多個麥克風(fēng) 通過從所述第一音頻幀開始繼續(xù)收集聲音而形成。
5. 如權(quán)利要求4所述的聲源方向檢測裝置,其中,所述功率水平相加部分將針對從所述第一音頻幀和所述第二音頻幀分解得到的頻率分量來 確定的相加功率水平乘以置信系數(shù),以使得所述聲源的方向更加精確。
6. 如權(quán)利要求5所述的聲源方向檢測裝置,其中,所述功率水平相 加部分針對由所述多個麥克風(fēng)收集的聲音,對相對于具有低音頻功率比的 頻率分量而言具有高音頻功率比的頻率分量追加低功率水平。
7. —種聲源方向檢測方法,包括以下步驟按預(yù)定的單位時間間隔,將由多個麥克風(fēng)通過收集來自聲源的聲音而 形成的第一音頻幀分解為頻率分量; 將針對分解得到的每個頻率分量來確定的功率水平相加; 基于相加得到的功率水平的最高點所處的相位,檢測所述聲源的方向;對所述相加得到的功率水平進行平滑; 存儲經(jīng)平滑的功率水平;以及將得自所述第一音頻幀的所述經(jīng)平滑的功率水平與針對第二音頻幀中 的每個頻率分量來確定的功率水平相加,其中,所述第二音頻幀由所述多 個麥克風(fēng)通過從所述第一音頻幀開始繼續(xù)收集聲音而形成。
8. —種聲源方向檢測相機,包括多個麥克風(fēng),被配置為收集來自聲源的聲音以形成第一音頻幀; 頻率分解部分,被配置為按預(yù)定單位時間間隔,將所述第一音頻幀分 解為頻率分量;功率水平相加部分,被配置為將針對由所述頻率分解部分分解得到的 每個頻率分量來確定的功率水平相加;聲源方向檢測部分,被配置為基于由所述功率水平相加部分相加得到 的功率水平的最高點所處的相位,來檢測所述聲源的方向;相加功率水平平滑部分,被配置為對由所述功率水平相加部分相加得 到的功率水平進行平滑;以及經(jīng)平滑相加功率水平存儲部分,被配置為存儲經(jīng)平滑的功率水平;其中,所述功率水平相加部分將得自所述第一音頻幀且從所述經(jīng)平滑 相加功率水平存儲部分提取的所述功率水平與針對第二音頻幀中的每個頻 率分量來確定的功率水平相加,其中,所述第二音頻幀由所述多個麥克風(fēng) 通過從所述第一音頻幀開始繼續(xù)收集聲音而形成。
全文摘要
本發(fā)明提供了聲源方向檢測裝置和方法以及聲源方向檢測相機。這里公開的聲源方向檢測裝置包括多個麥克風(fēng),被配置為收集來自聲源的聲音以形成音頻幀;頻率分解部分,被配置為將音頻幀分解為頻率分量;誤差范圍確定部分,被配置為確定與聲音一起收集的噪聲的影響,作為相對相位的誤差范圍;功率水平分散部分,被配置為基于由誤差范圍確定部分確定的誤差范圍,針對由頻率分解部分分解得到的每個頻率分量來分散所述聲音的功率水平;功率水平相加部分,被配置為將經(jīng)功率水平分散部分分散的功率水平相加;以及聲源方向檢測部分,被配置為基于由功率水平相加部分相加得到的功率水平的最高點所處的相位,來檢測聲源的方向。
文檔編號G01S3/00GK101398475SQ20081016714
公開日2009年4月1日 申請日期2008年9月26日 優(yōu)先權(quán)日2007年9月27日
發(fā)明者小玉康廣, 川口貴義, 櫻庭洋平 申請人:索尼株式會社