亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

使用相位譜的聲音源定位的制作方法

文檔序號:6165935閱讀:396來源:國知局
使用相位譜的聲音源定位的制作方法
【專利摘要】放置在移動機(jī)器人上的話筒陣列提供多個信道的音頻信號。接收到的音頻信號集被稱作音頻段,音頻段被分成多個幀。對來自每對話筒的信號的幀執(zhí)行相位分析。如果兩個話筒在該幀期間都處于活動狀態(tài),為這樣的每對話筒生成候選角度。結(jié)果是該幀的候選角度列表。處理該列表以選擇該幀的最終候選角度。隨著時間跟蹤候選角度的列表以協(xié)助為音頻段選擇最終候選角度的過程。
【專利說明】使用相位譜的聲音源定位
[0001]背景
[0002]在數(shù)個應(yīng)用中使用捕捉由聲音源生成的聲學(xué)能量的話筒來確定該聲音源的位置是有幫助的。
[0003]一種確定該位置的方式是搜索空間以查找最大能量區(qū)域。該方法通常對諸如噪聲和混響之類的干擾不具有魯棒性。
[0004]另一種確定該位置的方式是確定到達(dá)不同話筒的時間差。來自聲音源的聲波將在不同時間到達(dá)在不同位置處的不同傳感器。一種常用的測量這種差異的方法涉及通過尋找互相關(guān)函數(shù)的峰值來測量由一對話筒接收到的信號的相位差。該方法對諸如噪聲和混響之類的干擾不具有魯棒性。
[0005]概述
[0006]提供本概述是為了以簡化的形式介紹將在以下詳細(xì)描述中進(jìn)一步描述的選擇的概念。本概述并不旨在標(biāo)識所要求保護(hù)主題的關(guān)鍵特征或必要特征,也不旨在用于限制所要求保護(hù)主題的范圍。
[0007]放置在移動機(jī)器人上的話筒陣列提供多個信道的音頻信號。接收到的音頻信號集被稱作音頻段,音頻段被劃分成多個幀。對來自每對話筒的信號的幀執(zhí)行相位分析。如果兩個話筒在該幀期間都處于活動狀態(tài),為這樣的每對話筒生成候選角度。結(jié)果是該幀的候選角度的列表。處理該列表以選擇該幀的最終候選角度。隨著時間跟蹤候選角度的列表以協(xié)助為那個音頻段選擇最終候選角度的過程。
[0008]響應(yīng)于所跟蹤的角度,由移動機(jī)器人來執(zhí)行各種操作。例如,移動機(jī)器人可以基于所感測到的聲音的位置來運(yùn)動。機(jī)器人可以例如通過面向說話者并朝向該說話者運(yùn)動來對人類說話者作出響應(yīng)。對機(jī)器人的這種重新定位有助于從話筒陣列獲取更佳的音頻信號,這可以改善其它音頻處理操作。位置信息也可以被輸入到面部檢測處理器,因?yàn)樵撐恢眯畔⒛軌蛱峁┤祟惷娌课恢玫挠欣€索。
[0009]因此,在一方面,將來自多對話筒的信號接收到存儲器中。處理來自這些話筒的信號以標(biāo)識這些信號何時為活動的并且計(jì)算這些信號的頻譜數(shù)據(jù)。對于每對活動信號,使用頻譜數(shù)據(jù)為該對活動信號確定候選角度。從針對多對話筒的候選角度中選擇角度。在一個實(shí)施例中,將每個信號作為多個幀來存儲,并且在每個幀的基礎(chǔ)上進(jìn)行處理。
[0010]在多個幀上存儲候選角度歷史,并且用來自當(dāng)前幀的候選角度更新該歷史。例如,從該歷史中選出的角度可以是其所具有的相位失真小于或等于所有條目的最小相位失真的那個角度。從該歷史中選出的角度可以是其所具有的角度近似于幀的最高排名候選角度的那個角度。從該歷史中選出的角度可以是其所具有的在場分?jǐn)?shù)大于或等于該歷史中的各角度的最大在場分?jǐn)?shù)的那個角度。
[0011]在以下描述中,對附圖進(jìn)行了參考,附圖構(gòu)成了實(shí)施方式的一部分且在其中作為示例示出了本發(fā)明技術(shù)的具體示例實(shí)現(xiàn)。可以理解,可以使用其它實(shí)施例并且可以做出結(jié)構(gòu)上的改變而不背離本發(fā)明的范圍。
[0012]附圖簡述[0013]圖1是聲音源定位在移動機(jī)器人上的應(yīng)用的示意圖。
[0014]圖2是示出如何從兩個話筒計(jì)算出聲波的角度的示意圖。
[0015]圖3是示出聲音源定位的示例實(shí)現(xiàn)的數(shù)據(jù)流程圖。
[0016]圖4是圖3中的各部分的更為詳細(xì)的數(shù)據(jù)流程圖。
[0017]圖5是角度跟蹤列表的示例數(shù)據(jù)結(jié)構(gòu)的框圖。
[0018]圖6是描述聲音源定位的示例實(shí)現(xiàn)的流程圖。
[0019]圖7是在其中可以實(shí)現(xiàn)這樣的系統(tǒng)的示例計(jì)算設(shè)備的框圖。
[0020]詳細(xì)描述
[0021]以下章節(jié)提供了其中可以實(shí)現(xiàn)聲音源定位的示例操作環(huán)境。
[0022]參考圖1,移動機(jī)器人100包括話筒陣列102。
[0023]盡管圖1指定為移動機(jī)器人,然而可以使用能夠支撐話筒陣列102從而保持各話筒間的已知空間關(guān)系的任何對象。對移動機(jī)器人使用聲音源定位僅僅是其中可以使用該技術(shù)的一個示例應(yīng)用。話筒陣列可以被一個或多個靜止對象而非移動對象支撐。然而,諸如機(jī)器人之類的移動對象可以響應(yīng)于所確定的聲音源的位置而運(yùn)動。
[0024]盡管圖1中示出了 6個話筒,然而話筒的數(shù)目和配置不限于圖1中的配置。只要陣列包括多對話筒并且該陣列中的每對話筒之間存在已知的空間關(guān)系,可以使用任何配置和數(shù)目的話筒。本發(fā)明不限于所使用的話筒的種類。為了避免歸一化來自多個話筒的信號,每對話筒中的兩個話筒類型相同。
[0025]在一個應(yīng)用中,聲音源可以是人類說話者104。人類說話者在說話時發(fā)出聲音106??梢詸z測其它聲音源,然而在此應(yīng)用中機(jī)器人可以被設(shè)計(jì)成與人類說話者交互,并且確定人類說話者的位置可以用作該交互中的輔助。
[0026]在給定該上下文的情況下,現(xiàn)將結(jié)合附圖2-5更加詳細(xì)地描述聲音源定位的示例實(shí)現(xiàn)。
[0027]在圖2中,現(xiàn)在將描述如何確定聲音源200的位置。聲音源200生成聲波202。該聲波按已知速度(例如,在通常環(huán)境中為340米每秒)行進(jìn)。如202a、202b和202c處所指示的,該聲波朝向話筒204a和204b行進(jìn),并在不同時間到達(dá)話筒204a和204b。話筒204a和204b是信道對的示例(本文中被標(biāo)記為“<ca,cb>”)。在給定信道對<ca,cb>的情況下,存在表示穿過原點(diǎn)218的基準(zhǔn)線210和穿過兩個話筒的線212之間的夾角的全局角
度@<?:3>(^>基準(zhǔn)線210和原點(diǎn)218對于話筒陣列中的所有信道對都是相同的。諸如在

O
214所示出的信道對距離|d〈ca,cb>|表示兩個話筒之間的幾何距離。聲音源定位涉及計(jì)算穿過聲波源和原點(diǎn)218的線與垂直于基準(zhǔn)線210的線之間的角度216(( Θ,<ca,cb?)0在下面更詳細(xì)地描述如何導(dǎo)出該角度。
[0028]現(xiàn)在參考圖3,現(xiàn)在將描述一個描述聲音源定位的示例實(shí)現(xiàn)的數(shù)據(jù)流程圖。該實(shí)現(xiàn)接收來自話筒陣列(未示出)的輸入音頻信號300。每個話筒提供音頻信號,諸如以每秒S個樣本的采樣速率采樣的K位數(shù)字音頻信號。合適的K值是16且合適的S值是16kHz。由此,8個話筒的話筒陣列提供8信道輸入音頻信號。在幀的基礎(chǔ)上處理輸入音頻信號,其中一幀包含128個樣本。在第i幀處第c信道的輸入音頻信號被表示為X。,i (η),其中η=0,1,…N-1 (N=128),c=0,1,處理輸入信號X。,i (η)以產(chǎn)生第i幀的聲音到達(dá)角度Θ it)[0029]處理器302接收輸入音頻信號300并對這些信號執(zhí)行各種操作以使這些信號作好供分析的準(zhǔn)備。
[0030]這樣的預(yù)處理可包括DC移除濾波器。這種DC移除濾波器被用來抑制不想要的極低頻率的分量以供隨后處理。這種濾波器的一個示例實(shí)現(xiàn)是一階有限脈沖響應(yīng)(FIR)濾波器并且輸入信號被逐信道(channel-by-channel)地處理。濾波器的輸出被計(jì)算為
[0031]
【權(quán)利要求】
1.一種計(jì)算機(jī)實(shí)現(xiàn)的過程,包括: 將來自多對話筒的信號接收到存儲器中; 處理來自所述話筒的信號以標(biāo)識所述信號何時為活動的; 計(jì)算所述信號的頻譜數(shù)據(jù); 對于每對活動信號,使用所述頻譜數(shù)據(jù)來確定該對活動信號的候選角度;以及 從針對多對話筒的候選角度中選擇角度。
2.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的過程,其特征在于,其中接收信號包括將每一信號作為多個幀來接收,并且其中處理、計(jì)算、確定和選擇是在每一幀的基礎(chǔ)上執(zhí)行的。
3.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的過程,其特征在于,從所述候選角度中選擇角度包括使用有關(guān)先前候選角度的信息來選擇角度。
4.如權(quán)利要求3所述的計(jì)算機(jī)實(shí)現(xiàn)的過程,其特征在于,選擇進(jìn)一步包括: 在多個幀上跟蹤候選角度的歷史;以及 用來自當(dāng)前幀的候選角度更新所述歷史。
5.一種計(jì)算機(jī)器,包括: 存儲器; 用于將來自多對話筒的信號接收到所述存儲器中的輸入; 處理單元,其被配制成處理來自所述話筒的信號以標(biāo)識所述信號何時為活動的以及計(jì)算所述信號的頻譜數(shù)據(jù); 其中所述處理單元還被配置成對于每對活動信號使用所述頻譜數(shù)據(jù)為該對活動信號確定候選角度以及從針對多對話筒的候選角度中選擇角度。
6.如權(quán)利要求5所述的計(jì)算機(jī)器,其特征在于,所述輸入將每一信號作為多個幀來接收并存儲,并且其中所述處理單元被配置成在每一幀的基礎(chǔ)上處理所述信號。
7.如權(quán)利要求5所述的計(jì)算機(jī)器,其特征在于,所述存儲器還在多個幀上存儲候選角度的歷史,并且所述處理單元被配置成用來自當(dāng)前幀的候選角度更新所述歷史。
8.如權(quán)利要求7述的計(jì)算機(jī)器,其特征在于,從所述歷史選擇的角度具有小于或等于所有條目的最小相位失真的相位失真。
9.如權(quán)利要求8述的計(jì)算機(jī)器,其特征在于,從所述歷史選擇的角度具有近似于所述幀的最高排名候選角度的角度。
10.一種制品,包括: 計(jì)算機(jī)存儲介質(zhì); 存儲在所述計(jì)算機(jī)存儲介質(zhì)上的計(jì)算機(jī)程序指令,當(dāng)所述計(jì)算機(jī)程序指令被處理設(shè)備處理時,指令所述處理設(shè)備執(zhí)行包括以下的過程: 將來自多對話筒的信號接收到存儲器中; 處理來自所述話筒的信號以標(biāo)識所述信號何時為活動的; 計(jì)算所述信號的頻譜數(shù)據(jù); 對于每對活動信號,使用所述頻譜數(shù)據(jù)確定該對活動信號的候選角度;以及 從針對多對話筒的候選角度中選擇角度。
【文檔編號】G01S3/80GK103688187SQ201280034621
【公開日】2014年3月26日 申請日期:2012年7月10日 優(yōu)先權(quán)日:2011年7月14日
【發(fā)明者】S·瑞古納薩恩, K·科什達(dá), H·N·基科日 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1