基于聽覺仿生中耳蝸基底膜的聲源定位方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識(shí)別領(lǐng)域,特別是一種具有人耳聽覺特性的聲源定位方法。
【背景技術(shù)】
[0002] 人與人之間最主要、最方便、最快捷的信息交換就是語言。語言中傳播信息的載體 就是聲音信號(hào),其在生活中無處不在。聲音信號(hào)中的響度、頻譜以及音高等特征都可以反映 出聲音信號(hào)的方向、位置等特征。因此世界各國都在對(duì)聲音信號(hào)做了大量的研究,也付出了 巨大的努力。使得語音交互技術(shù)慢慢成熟與各方面理論日趨完善。在聲音信號(hào)的研究里,聲 源定位技術(shù)的研究是及其重要的一個(gè)方面。"雞尾酒會(huì)效應(yīng)"充分展示了人耳聽覺系統(tǒng)的語 音分離與定位功能,并且讓研究人員對(duì)噪聲環(huán)境下聲源定位技術(shù)的研究產(chǎn)生了興趣。在聽 覺生理學(xué)、人工智能和語音識(shí)別技術(shù)的不斷發(fā)展下,研究學(xué)者也更加關(guān)注聲源定位技術(shù)。
[0003] 如今,聲源定位技術(shù)已經(jīng)廣泛地運(yùn)用到生活中了,比如:在智能機(jī)器人中,讓機(jī)器 人能更好對(duì)聲源進(jìn)行實(shí)時(shí)定位,提高智能機(jī)器人的人-機(jī)交互和語音識(shí)別能力;在視頻電話 會(huì)議中攝像頭能夠很快的對(duì)準(zhǔn)講話人的位置,其是通過麥克風(fēng)接收聲音信號(hào),利用這聲源 定位技術(shù)對(duì)信號(hào)進(jìn)行分析和處理,獲得聲源方位,從而引導(dǎo)相應(yīng)的攝像頭,使其指向當(dāng)前說 話人的方向。
[0004] 伴隨著科技不斷地進(jìn)步,研究者對(duì)于說話人的定位技術(shù)也不斷地更新著,主要可 以分為聲源定位技術(shù)、電磁波定位技術(shù)、激光定位技術(shù)和視頻定位技術(shù)。經(jīng)過幾十年的發(fā)展 與研究,如今的視頻定位技術(shù)已經(jīng)是非常成熟,其可以實(shí)現(xiàn)目標(biāo)的定位與跟蹤等功能。然而 聲源定位技術(shù)卻更加吸引研究者的重視,這主要?dú)w功于聲源定位技術(shù)有著其獨(dú)特的優(yōu)勢(shì)。
[0005] 第一,隱蔽性。聲源定位技術(shù)僅僅利用麥克風(fēng)來接收聲音信號(hào),而不必向外界發(fā)送 任何東西,這一點(diǎn)使得聲源定位技術(shù)在不改變周圍環(huán)境下輕松地得到外界目標(biāo)聲音的信 息,而自己本身的位置卻很難被外界所發(fā)現(xiàn)。正是聲源定位技術(shù)的隱蔽性,使得很多潛水艇 在作戰(zhàn)中不會(huì)輕易打開聲吶等設(shè)備,卻會(huì)使用聲源定位技術(shù)來追蹤目標(biāo)的位置。
[0006] 第二,實(shí)用性。聲音是屬于聲波,聲波在傳輸中不會(huì)受到電磁場(chǎng)、光線強(qiáng)弱等的干 擾與限制。光線強(qiáng)度弱的情況下對(duì)于視頻定位技術(shù)影響很大,存在障礙物的環(huán)境下對(duì)電磁 波有一定的干擾。例如:在深海中由于光線很弱,視頻定位技術(shù)就不能使用,而激光與電磁 波在深海中能量的衰減很快導(dǎo)致穿透距離很短。這種情況下聲源定位技術(shù)卻不會(huì)受限制于 深海環(huán)境中,可以很好的實(shí)現(xiàn)目標(biāo)聲源的定位。
[0007] 第三,易實(shí)現(xiàn)。聲源定位技術(shù)相比于其他幾種定位技術(shù),在成本上與設(shè)備上的要求 就低很多了,使得聲源定位技術(shù)在生活中容易得到應(yīng)用。
[0008] 因?yàn)槁曉炊ㄎ患夹g(shù)的發(fā)展有著巨大的潛力,所以研究人員不斷的深入研究、探索 聲源定位技術(shù)。聲源定位的實(shí)現(xiàn)條件也比較容易,使其能運(yùn)用在各個(gè)領(lǐng)域,包括軍事方面、 語音分離方面等。目前,研究學(xué)者已經(jīng)給出了多種聲源定位技術(shù)的系統(tǒng)。從最初的基于麥克 風(fēng)陣列信號(hào)的聲源定位系統(tǒng),到如今的基于過零點(diǎn)聲源定位系統(tǒng)與人耳聽覺系統(tǒng)的聲源定 位系統(tǒng)。經(jīng)過幾十年的發(fā)展,基于麥克風(fēng)陣列的聲源定位系統(tǒng)已經(jīng)非常完善,但是它的結(jié)構(gòu) 太大,需要的麥克風(fēng)也非常的多,計(jì)算量又大又復(fù)雜。學(xué)者在大量的實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn):基于 麥克風(fēng)定位技術(shù)的準(zhǔn)確度還是無法與人耳的準(zhǔn)確度相媲美。最近幾年,越來越多的學(xué)者在 研究基于人耳聽覺的聲源定位技術(shù),本文也將研究在噪聲環(huán)境下基于聽覺仿生的聲源定 位。
【發(fā)明內(nèi)容】
[0009] 針對(duì)以下現(xiàn)有的不足,提出了一種提高定位精度、良好的抗噪性和魯棒性的基于 聽覺仿生中耳蝸基底膜的聲源定位方法。。本發(fā)明的技術(shù)方案如下:一種基于聽覺仿生中耳 蝸基底膜的聲源定位方法,其包括以下步驟:
[0010] 1)采用雙麥克風(fēng)模擬人耳聽覺系統(tǒng)獲取含噪聲的語音信號(hào);
[0011] 2)對(duì)步驟1)得到的含噪聲的語音信號(hào),采用基于人耳聽覺中的耳蝸基底膜模型進(jìn) 行頻率分解、通過上橄欖核模型進(jìn)行語音特征提取、采用膜上的內(nèi)毛細(xì)胞模型進(jìn)行信號(hào)轉(zhuǎn) 換以及內(nèi)毛細(xì)胞上的神經(jīng)纖維模型進(jìn)行細(xì)胞重合,去除噪聲信號(hào);
[0012] 3)步驟2)去處噪聲信號(hào)的聲源信號(hào)通過能量的關(guān)系式求解出聲源位置,完成定 位。
[0013] 進(jìn)一步的,所述步驟2)采用基于人耳聽覺中的耳蝸基底膜模型進(jìn)行頻率分解具體 為;采用具有人耳聽覺特性的Ga_atone伽馬通濾波器組對(duì)語音信號(hào)進(jìn)行頻率分解。
[0014] 進(jìn)一步的,所述Gammatone伽馬通濾波器組頻率的選擇范圍從20Hz-4KHz分別對(duì) 左、右耳混疊信號(hào)按時(shí)間幀進(jìn)行頻率分解;耳蝸基底膜模型將語音信號(hào)按照濾波器個(gè)數(shù)進(jìn) 行傳遞。
[0015] 進(jìn)一步的,所述步驟2)通過上橄欖核模型進(jìn)行語音信息提取具體為;
[0016] 耳蝸基底膜處理語音信號(hào)后分成多個(gè)通道傳遞給上橄欖復(fù)合體進(jìn)行語音信號(hào)的 ITD雙耳時(shí)間差和ILD雙耳水平差定位信息的提取,ITD的計(jì)算公式如下:
[0018] 式中:
[0019]
_左耳和右耳的語音信號(hào)的互相關(guān),可由下式計(jì)算:
[0021] 式中:
[0022] --左耳和右耳語音信號(hào)互功率譜 [0023] ILD的計(jì)算公式如下:
[0026] 式中:
[0027] 4(、奴--左耳和右耳的ILD值;Ω i--子帶i的頻率范圍(ΙΚΗζ~4KHz)Wi (ω )--濾波器權(quán)重;s( ω )--聲源功率譜。
[0028] 進(jìn)一步的,當(dāng)信號(hào)為20Hz到1000Hz低頻語音信號(hào)時(shí),重合神經(jīng)元模型只有來自上 橄欖內(nèi)側(cè)的語音特征輸入;1000Hz到4KHz語音信號(hào)時(shí),上橄欖外側(cè)和上橄欖內(nèi)側(cè)的語音特 征都輸入重合神經(jīng)元;高于4KHz語音信號(hào)時(shí),重合神經(jīng)元只有上橄欖外側(cè)語音特征的輸入。
[0029] 進(jìn)一步的,所述步驟2)采用膜上的內(nèi)毛細(xì)胞模型進(jìn)行信號(hào)轉(zhuǎn)換的步驟具體為;采 用內(nèi)毛細(xì)胞模型對(duì)聲音信號(hào)進(jìn)行半波整流,并且將基底膜上的機(jī)械振動(dòng)信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的 生物電信號(hào),并將生物電信號(hào)傳遞給聽覺神經(jīng)纖維;
[0030] 進(jìn)一步的,所述內(nèi)毛細(xì)胞模型主要由5個(gè)標(biāo)準(zhǔn)量構(gòu)成,其分別是:再生庫中神經(jīng)遞 質(zhì)的量、間隙中神經(jīng)遞質(zhì)的量、內(nèi)毛細(xì)胞中神經(jīng)遞質(zhì)的量、細(xì)胞膜的滲透性以及神經(jīng)細(xì)胞脈 沖輸出的概率。
[0031] 本發(fā)明的優(yōu)點(diǎn)及有益效果如下:
[0032] 針對(duì)傳統(tǒng)聲源定位系統(tǒng)抗噪性能、差精準(zhǔn)度低的問題,提出了基于聽覺仿生中耳 蝸基底膜的聲源定位方法,并詳細(xì)闡述了整個(gè)模型的構(gòu)建過程,包括基于人耳聽覺特性的 耳蝸基底膜分頻濾波、基底膜上內(nèi)毛細(xì)胞信號(hào)分離重合的轉(zhuǎn)換、時(shí)間差能量差計(jì)算聲源定 位的過程?;诼犛X仿生中耳蝸基底膜的聲源定位方法的定位精度遠(yuǎn)高于傳統(tǒng)的聲源定位 的精度,而且基于聽覺仿生中耳蝸基底膜的聲源定位方法具有良好的抗噪性和魯棒性。
【附圖說明】
[0033] 圖1是本發(fā)明提供優(yōu)選實(shí)施例基于聽覺仿生中耳蝸基底膜的聲源定位流程圖; [0034] 圖2為Gammatone濾波器組多頻率分解圖;
[0035]圖3為內(nèi)毛細(xì)胞模型圖;
[0036]圖4神經(jīng)發(fā)放模型的基本電路圖 [0037]圖5為聲源方位坐標(biāo)系。
【具體實(shí)施方式】
[0038] 以下結(jié)合附圖,對(duì)本發(fā)明作進(jìn)一步說明:
[0039] 如圖1所示,針對(duì)噪聲環(huán)境下傳統(tǒng)聲源定位不能得到高信噪比的聲源信號(hào)帶來的 定位精度不高的問題,本文結(jié)合人耳聽覺特性,提出一種基于人耳的聽覺選擇能力即"雞尾 酒會(huì)效應(yīng)"的選擇噪聲中聲源的過程。含噪聲的聲源信號(hào)經(jīng)過耳蝸基底膜模型進(jìn)行頻譜分 析,在經(jīng)過耳蝸基底膜上的內(nèi)毛細(xì)胞模型進(jìn)行信號(hào)轉(zhuǎn)換以及內(nèi)毛細(xì)胞上的神經(jīng)纖維進(jìn)行細(xì) 胞重合,再通過上橄欖核模型進(jìn)行語音信息提取,最終進(jìn)行聲源的定位。
[0040] 如圖1所示,為本發(fā)明提出的基于聽覺仿生中耳蝸基底膜的聲源定位方法系統(tǒng)框 圖,基于聽覺仿生中耳蝸基底膜的聲源定位方法包括基于人耳聽覺特性中耳蝸基底膜的濾 波、內(nèi)毛細(xì)胞以及其上的神經(jīng)纖維的分離重合。經(jīng)過耳蝸基底膜模型進(jìn)行頻譜分析,在經(jīng)過 耳蝸基底膜上的內(nèi)毛細(xì)胞模型進(jìn)行信號(hào)轉(zhuǎn)換以及內(nèi)毛細(xì)胞上的神經(jīng)纖維進(jìn)行細(xì)胞重合,再 通過上橄欖核模型進(jìn)行語音信息提取,最終進(jìn)行聲源的定位。
[0041] 如圖2所示,為本發(fā)明中Gammato