句子或這些的任何組合。
[0024] 然后,將聲音輸入窗口 101傳遞通過一組處理階段103,其操作來將此聲音窗口 101轉(zhuǎn)換成音頻頻譜105。這些處理階段103可以基于聽覺系統(tǒng)(如人類聽覺系統(tǒng))的早 期處理階段。通過舉例的方式,而非通過限制的方式,處理階段103可以由模仿聽覺系統(tǒng)中 的從基膜到耳蝸核的過程的耳蝸濾波、內(nèi)毛細(xì)胞以及橫向抑制階段組成。所述耳蝸濾波可 以使用具有沿對數(shù)頻率軸均勻分布的中心頻率的一組128個重疊的恒定Q值非對稱帶通濾 波器來實(shí)施。這些濾波器可以通過適當(dāng)配置的電子硬件來實(shí)施,所述電子硬件可能是為特 定目的而制造的。替代地,所述濾波器可以在被編程具有實(shí)施所述濾波器的功能的軟件的 通用計算機(jī)上實(shí)施。對于分析,可以使用具有l(wèi)〇ms移位的20ms音頻幀,這造成每個音頻幀 由128維矢量來表示。
[0025] -旦聲音輸入窗口 101已被轉(zhuǎn)換成聽覺頻譜105,便通過提取多尺度特征117來分 析所述頻譜105,如在107處所指示,所述提取是通過模仿中樞聽覺系統(tǒng)中的信息處理階段 來進(jìn)行的。聽覺注意力可以通過各種各樣的聲學(xué)特征(如強(qiáng)度(或能量)、頻率、時間、音 高、音色、FM方向或斜率(此處稱為"取向")等)來捕捉或自發(fā)地指向所述聲學(xué)特征。這 些特征可以被選擇并實(shí)施來模仿初級聽覺皮層中的接收域。
[0026] 通過舉例的方式,而非通過限制的方式,可以被包括在所述模型中來涵蓋前 述特征的四個特征是強(qiáng)度(I)、頻率對比(F)、時間對比(T)以及取向(〇0),其中0 = {45°,135° }。所述強(qiáng)度特征捕捉與所述信號的強(qiáng)度或能量有關(guān)的信號特性。所述頻率 對比特征捕捉與所述信號的頻譜(頻率)變化有關(guān)的信號特性。所述時間對比特征捕捉與 所述信號中的時間變化有關(guān)的信號特性。取向?yàn)V波器對于所述信號中的移動波紋敏感。
[0027] 每個特征可以使用二維頻譜時間接收濾波器109、111、113、115來提取,所述濾波 器模仿初級聽覺皮層中的某些接收域。圖1B至圖1F分別示出接收濾波器(RF)109、111、 113、115的實(shí)施例。被模擬用于特征提取的接收濾波器(RF) 109、111、113、115中的每一個 用對應(yīng)于正在提取的特征的灰度圖像進(jìn)行示出。激發(fā)相110和抑制相112分別用白色和黑 色進(jìn)行展示。
[0028] 這些濾波器109、111、113、115中的每一個能夠檢測并捕捉信號特性的某些變化。 例如,圖1B中所示出的強(qiáng)度濾波器109可以被配置來模仿聽覺皮層中的僅具有選擇性用于 特定區(qū)域的激發(fā)相的接收域,使得其檢測并捕捉聲音輸入窗口的持續(xù)時間內(nèi)的強(qiáng)度/能量 的變化。類似地,圖1C中所描繪的頻率對比濾波器111可以被配置來對應(yīng)于初級聽覺皮層 中的具有激發(fā)相和同時對稱抑制邊頻帶的接收域。圖1D中所示出的時間對比濾波器113 可以被配置來對應(yīng)于具有抑制相和后續(xù)激發(fā)相的接收域。
[0029] 可以認(rèn)為,聽覺頻譜類似于視覺中的場景圖像并且這些特征中的一些被調(diào)整到不 同的局部有向邊;即,頻率對比特征被調(diào)整到局部水平有向邊,這可以有益于檢測并捕捉共 振峰及其變化。換句話說,圖1C中所展示的頻率對比濾波器111檢測并捕捉聲音窗口的持 續(xù)時間內(nèi)的頻譜變化。圖1D中所展示的時間對比濾波器113檢測并捕捉時間域中的變化。 取向?yàn)V波器115'和115"模仿對移動波紋的聽覺神經(jīng)元響應(yīng)的動態(tài)。如圖1E所展示,取向 濾波器115'可以被配置成具有擁有45°取向的激發(fā)相和抑制相來檢測并捕捉何時紋波正 在向上移動。類似地,如圖1F所展示,取向?yàn)V波器115"可以被配置成具有擁有135°取向 的激發(fā)相和抑制相來檢測并捕捉何時紋波正在向下移動。重要的一點(diǎn)是,在所述模型中,所 述特征對比是經(jīng)計算得到的而非絕對的特征強(qiáng)度,這對于變化點(diǎn)/邊界檢測和分割是至關(guān) 重要的。
[0030] 用于產(chǎn)生頻率對比111、時間對比113以及取向特征115的RF可以使用具有不同 角度的二維Gabor濾波器來實(shí)施。用于頻率對比和時間對比特征的濾波器可以分別被理解 為水平取向?yàn)V波器和垂直取向?yàn)V波器,并且可以用具有0°和90°取向的二維Gabor濾波 器來實(shí)施。類似地,取向特征可以使用具有{45°,135° }取向的二維Gabor濾波器來提 取。用于產(chǎn)生強(qiáng)度特征109的RF是使用二維高斯核來實(shí)施。
[0031] 特征提取107是使用多尺度平臺來完成。用于產(chǎn)生給定數(shù)據(jù)組的尺度空間表示的 動機(jī)源于物體在不同尺度上由不同結(jié)構(gòu)組成的基本觀察。對于分析一組未知數(shù)據(jù)的系統(tǒng) 來說,沒有辦法先驗(yàn)地知道什么尺度對于描述與所述數(shù)據(jù)相關(guān)聯(lián)的引起關(guān)注的結(jié)構(gòu)是適當(dāng) 的。因此,唯一合理的途徑是考慮多個尺度上的描述以便捕捉可能發(fā)生的未知尺度變更。在 本發(fā)明的實(shí)施方案中,多尺度特征117可以使用二進(jìn)金字塔來獲得(S卩,以二為因子來濾波 和抽取輸入頻譜,并且重復(fù)此過程)。因而,創(chuàng)建了 8個尺度(如果窗口持續(xù)時間大于1. 28 秒,否則有較少尺度),從而得到了范圍從1:1 (尺度1)至1:128 (尺度8)的大小縮減因子。
[0032] 在獲得多尺度特征117之后,使用那些多尺度特征117生成特征圖121,如在119 處所指示。這是通過計算"中心-周邊"差異來完成的,其涉及將"中心"(精細(xì))尺度與"周 邊"(較粗糙)尺度進(jìn)行比較。所述中心-周邊操作模仿局部皮層抑制性質(zhì)并且檢測局部時 間和空間不連續(xù)性。其是通過"中心"精細(xì)尺度(c)與"周邊"較粗糙尺度(s)之間的跨尺度 減法(0)來模擬的,從而得到了特征圖M(c,S):M(c,S) = |M(c) 0M(s)|,MG{I,F(xiàn),T,0e}。 兩種尺度之間的跨尺度減法是通過內(nèi)插到較精細(xì)尺度和逐點(diǎn)減法來計算的。通過舉例的方 式,而非通過限制的方式,可以使用c= {2,3,4},s=c+S,其中SG{3,4},當(dāng)以八個尺 度提取特征時,這形成了總共30個特征圖。
[0033] 接下來,如在123處所指示,從I、F、T、0e的每個特征圖121中提取出"聽覺要點(diǎn)" 矢量125,使得聽覺要點(diǎn)矢量125的總和以低分辨率覆蓋整個輸入聲音窗口 101。為了針對 給定特征圖121確定聽覺要點(diǎn)矢量125,首先將特征圖121劃分為m乘n網(wǎng)格的子區(qū)域,并 且可以計算每個子區(qū)域的統(tǒng)計數(shù)據(jù),如最大值、最小值、平均值、標(biāo)準(zhǔn)偏差等。通過舉例的方 式,而非通過限制的方式,可以計算每個子區(qū)域的平均值來捕捉所述圖的整體性質(zhì)。對于具 有高度h和寬度w的特征圖%,所述聽覺要點(diǎn)矢量的計算可以寫為:
[0034]
其中
[0035] k= {0,…,n_l},1 = {0,…,m_l} 〇
[0036] 聽覺要點(diǎn)矢量提取123的其中m= 4、n= 5的一個實(shí)施例在圖1中展示,其中展 示了 20維聽覺要點(diǎn)矢量125來代表特征圖。提供m和n的這些特定值是為了舉例的緣故, 而非作為對本發(fā)明的任何實(shí)施方案的限制。
[0037] 在從每個特征圖121提取聽覺要點(diǎn)矢量125之后,所述聽覺要點(diǎn)矢量被放大并組 合來創(chuàng)建累積要點(diǎn)矢量127。累積要點(diǎn)矢量127可以另外經(jīng)受維數(shù)縮減129技術(shù)來減少維 數(shù)和冗余,以便使得音節(jié)/元音/音素邊界檢測更為實(shí)用。通過舉例的方式而非通過限制 的方式,主分量分析(PCA)可以用于維數(shù)縮減129。維數(shù)縮減129的結(jié)果是最終特征,在本 文中稱為聽覺要點(diǎn)特征127',其以較少維數(shù)傳達(dá)累積要點(diǎn)矢量127中的信息。PCA常常用 作圖案識別的主要技術(shù)。如通常所理解的,PCA在數(shù)學(xué)上被定義為將數(shù)據(jù)變換到新的坐標(biāo)系 中的正交線性變換,使得所述數(shù)據(jù)的任何投影的最大方差位于第一坐標(biāo)上(稱為第一主分 量),第二大方差位于第二坐標(biāo)上,以此類推。PCA可以在被編程具有適當(dāng)配置的軟件的計 算機(jī)上實(shí)施??梢酝ㄟ^PCA實(shí)施維數(shù)縮減的市售軟件的實(shí)例包括美國馬薩諸塞州納提克的 MathWorks公司的Matlab或在新西蘭的懷卡托大學(xué)開發(fā)的Weka機(jī)器學(xué)習(xí)軟件。替代地,其 它線性和非線性維數(shù)縮減技術(shù)(如因子分析、內(nèi)核PCA、線性判別分析(LDA)等)可以用來 實(shí)施維數(shù)縮減129。
[0038] 最后,在已經(jīng)確定表征輸入聲音窗口 101的聽覺要點(diǎn)特征127'之后,可以從所述 聽覺要點(diǎn)特征中檢測音素邊界、元音邊界、音節(jié)核或音節(jié)邊界。為了對給定輸入聲音窗口執(zhí) 行此類檢測,可以使用機(jī)器學(xué)習(xí)算法131 (如神經(jīng)網(wǎng)絡(luò)、最近鄰分類器、決策樹等)來發(fā)現(xiàn)累 積要點(diǎn)矢量127與所述音素邊界、元音邊界、音節(jié)核或音節(jié)邊界之間的映射。通過舉例的方 式而非通過限制的方式,神經(jīng)網(wǎng)絡(luò)可以用作機(jī)器學(xué)習(xí)算法131,因?yàn)槠渚哂辛己玫纳飳W(xué)依 據(jù)。在這種情況下,在給出與其相關(guān)聯(lián)的累積要點(diǎn)矢量的情況下,神經(jīng)網(wǎng)絡(luò)131可以識別輸 入聲音內(nèi)的音素邊界、元音邊界、音節(jié)核或音節(jié)邊界。
[0039] 如本文所使用的,術(shù)語"神經(jīng)網(wǎng)絡(luò)"指代互連的天然或人工神經(jīng)元群組,其使用用 于基于聯(lián)結(jié)方法來計算的信息處理的計算/數(shù)學(xué)模型。神經(jīng)網(wǎng)絡(luò)是基于流動通過網(wǎng)絡(luò)的外 部或內(nèi)部信息而改變結(jié)構(gòu)的自適應(yīng)系統(tǒng)。其用來實(shí)施非線性統(tǒng)計數(shù)據(jù)建模,并且可以用來 為輸入與輸出之間的復(fù)雜關(guān)系建模。在本發(fā)明的實(shí)施方案中,神經(jīng)網(wǎng)絡(luò)可以用于學(xué)習(xí)由累 積聽覺要點(diǎn)矢量127或聽覺要點(diǎn)特征127'所表示的聽覺要點(diǎn)特征群組與一個或多個音素 邊界、元音邊界、音節(jié)核或音節(jié)邊界之間的映射。通過舉例的方式,而非通過限制的