一種基于聲學(xué)矢量傳感器和雙譜變換的魯棒單語者聲源doa估計(jì)方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及一種基于聲學(xué)矢量傳感器和雙譜變換的魯棒單語者聲源D0A估計(jì)方 法,屬于人機(jī)語音交互技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 空間語者聲源到達(dá)方向(Direction of Arrival,D0A)估計(jì)是智能機(jī)器人人機(jī)交 互的關(guān)鍵技術(shù),具有重大的應(yīng)用價(jià)值,一直是陣列信號處理領(lǐng)域的研究熱點(diǎn)。在實(shí)際復(fù)雜聲 學(xué)環(huán)境中,麥克風(fēng)在采集語音信號時(shí),不可避免地會受到來自周圍環(huán)境噪聲、傳輸媒介噪 聲、通信設(shè)備內(nèi)部電噪聲和房間混響等因素干擾,因此獲取的語音質(zhì)量下降,導(dǎo)致D0A估計(jì) 性能下降?;趥鹘y(tǒng)麥克風(fēng)陣列的D0A技術(shù)存在麥克風(fēng)陣列孔徑大、有空域混疊以及運(yùn)算復(fù) 雜度高等局限,限制了該類技術(shù)在小型移動設(shè)備(機(jī)器人)上的應(yīng)用。
[0003] 本發(fā)明采用了一種新型麥克風(fēng)--聲學(xué)矢量傳感器(Acoustic Vector Sensor, AVS)作為音頻信號采集器。與常用的ECM麥克風(fēng)相比,AVS在結(jié)構(gòu)上具有其特殊性:一顆AVS 由1個(gè)全向壓力傳感器和2到3個(gè)正交放置的壓力梯度傳感器構(gòu)成。它的空間結(jié)構(gòu)緊湊,僅有 lcm3左右大小,理論上,AVS是同位陣列,各個(gè)傳感器接收到的音頻信號在時(shí)間上對齊,且各 通道接收信號存在固定的三角函數(shù)關(guān)系。AVS小體積的特殊優(yōu)點(diǎn),有可能成為服務(wù)機(jī)器人聽 覺感知技術(shù)的有效解決方案。
[0004] 本發(fā)明利用AVS采集的音頻信號,提出了一種新的魯棒單語者聲源D0A估計(jì)算法。 AVS輸出的信號模型可表不為:
[0005] xu(k) =uss(k)*hs(k)+urr(k)*hr(k)+n u(k) (1)
[0006] xv(k) =vss(k)*hs(k)+vrr(k)*hr(k)+n v(k) (2)
[0007] xw(k) =wss(k)*hs(k)+wrr(k)*hr(k)+n w(k) (3)
[0008] x〇(k) = s(k)*hs(k)+r(k)*hr(k)+n〇(k) (4)
[0009] 其中xu(t),xv(t),xw(t)和x〇(t)分別是AVS的u-,v_,w-和o-通道的輸出信號,n u (t),nv(t),nw(t)和n〇(t)分別是在u-,v-,w-和o-通道的零均值高斯加性噪聲,s(k)和r(k) 分別是待定位的語者聲源信號和非語音干擾信號,h4Ph r分別是語音和干擾的房間沖擊響 應(yīng)。us,vs和ws分別可表示為u s = sin9scos Φ S,vs = sin9ssin Φ s,以及ws = cos9s,被稱為語者 聲源信號在x,y和z軸上的方向余弦。類似的,ur,v r和wr分別可表示干擾信號在x,y和z軸上 的方向余弦。本發(fā)明基于上述定義,提出了一種基于聲學(xué)矢量傳感器和雙譜變換的魯棒單 語者聲源D0A估計(jì)方法。實(shí)驗(yàn)結(jié)果表明,本發(fā)明可有效抑制非語音干擾,背景噪聲和空間混 響對D0A估計(jì)的影響。
【發(fā)明內(nèi)容】
[0010] 本發(fā)明的目的是面向智能機(jī)器人人機(jī)語音交互技術(shù),發(fā)明一種對聲學(xué)環(huán)境變化不 敏感、體積小的高精度魯棒空間語音聲源D0A估計(jì)方法。
[0011] -種基于聲學(xué)矢量傳感器和雙譜變換的魯棒單語者聲源D0A估計(jì)方法,其核心思 想是:計(jì)算在雙譜上u-通道信號、V-通道信號和w-通道信號與〇-通道信號間的數(shù)據(jù)比值 (Bispectrum Inter-Sensor Data Ratio,BISDR)。通過迭代估計(jì)先驗(yàn)雙譜信干比,計(jì)算一 個(gè)雙譜掩膜譜。在此基礎(chǔ)上,利用計(jì)算的雙譜掩膜譜在BISDR上提取高信干比頻率點(diǎn)。利用 核密度估計(jì)方法對提取的高信干比頻率點(diǎn)進(jìn)行聚類,并獲得語音聲源的D0A估計(jì)。
[0012] -種基于聲學(xué)矢量傳感器和雙譜變換的魯棒單語者聲源D0A估計(jì)方法,其步驟是:
[0013] (a)采用單個(gè)聲學(xué)矢量傳感器,即Acoustic Vector Sensor(AVS),采集四通道語 音信號,通過模數(shù)轉(zhuǎn)換器獲得四通道數(shù)字信號輸出,包括〇-通道信號、u-通道信號、v-通道 信號和w-通道信號;分別計(jì)算每一通道數(shù)字信號的雙譜變換,獲得四通道雙譜數(shù)據(jù);
[0014] (b)計(jì)算傳感器之間的雙譜數(shù)據(jù)比值,即分別計(jì)算出u-通道雙譜信號、V-通道雙譜 信號和w-通道雙譜信號與〇-通道雙譜信號的比值,簡寫為BISDR值(Bispectrum Inter-Sensor Data Ratio),分別表示為Iu〇( Ω1; Ω2),Ι?( Ω1; Ω2),Ι?( Ω1; Ω2),用BISDR值構(gòu)成 3父1的81501?數(shù)據(jù)矢量1(〇1,〇2);
[0015] (c)通過迭代估計(jì)先驗(yàn)雙譜信干比,計(jì)算得到一個(gè)雙譜掩膜譜;
[0016] (d)通過掩膜方式將雙譜掩膜譜與BISDR數(shù)據(jù)矢量1( Ω1; Ω2)相乘,提取具有高信 干比的BISDR數(shù)據(jù)矢量I (?^ΩΑ
[0017] (e)利用核密度估計(jì)方法,即Kernel Density Estimation(KDE),對./(Ωι,??2)進(jìn)行 聚類,并利用聚類結(jié)果計(jì)算所對應(yīng)的語者聲源到達(dá)方向,即Direction of Arrival(DOA)。
[0018] 本發(fā)明的有益效果在于:1)本發(fā)明所述的方法能夠?qū)崿F(xiàn)魯棒的高精度單語者聲源 D0A估計(jì)。仿真實(shí)驗(yàn)和實(shí)測實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了本發(fā)明在不同的干擾噪聲種類、強(qiáng)度和房間混響 條件下,都能獲得高精度的D0A估計(jì)。2)本發(fā)明所述的方法易于在移動或便攜設(shè)備上應(yīng)用。 本發(fā)明采用AVS采集語音信號,該傳感器僅有l(wèi)cm 3大小,易于在小型設(shè)備上集成系統(tǒng);同時(shí) 算法復(fù)雜度低,易于實(shí)時(shí)運(yùn)行在運(yùn)算能力有限的嵌入式平臺上。
【附圖說明】
[0019] 圖1.AVS結(jié)構(gòu)圖
[0020] 圖2.0s = 6〇°,Φ#[0°,180°]的 100次D0A估計(jì)實(shí)驗(yàn)結(jié)果
[0021]圖3.不同信干比和干擾噪聲下的D0A估計(jì)RMSE(a)高斯白噪聲(b)短波信道噪聲 (c)粉紅噪聲(d)工廠噪聲(0s = 6〇°,Φ3 = 45°)
[0022] 圖4.不同混響條件下的D0A估計(jì)RMSE(9s = 60°,<i>s = 45°)
[0023] 圖5.實(shí)驗(yàn)設(shè)備
【具體實(shí)施方式】
[0024]下面結(jié)合附圖和【具體實(shí)施方式】對本發(fā)明作進(jìn)一步詳細(xì)描述。
[0025]假設(shè)空間中只有一個(gè)語者聲源,本發(fā)明采用8kHz采樣率對AVS四通道輸出信號 ((1)-(4))求得雙譜數(shù)據(jù),表示如下:
[0026]
[0027]
[0028]
[0029]
[0030]