[0053] 通過舉例的方式,PPE307可以是具有相關(guān)聯(lián)高速緩存的64位PowerPC處理器單 元(PPU)。PPE307可以包括任選的矢量多媒體擴展單元。每個SPE311包括協(xié)同處理器單 元(SPU)和局部存儲裝置(LS)。在一些實施方式中,所述局部存儲裝置可以具有(例如) 約256千字節(jié)的存儲器容量用于程序和數(shù)據(jù)。SPU是沒有PPU那么復雜的計算單元,因為其 通常不執(zhí)行系統(tǒng)管理功能。SPU可以具有單指令多數(shù)據(jù)(SHffi)能力,并且通常處理數(shù)據(jù)并 啟始任何所需的數(shù)據(jù)傳送(服從于由PPE所設定的存取屬性)以便執(zhí)行其被分派的任務。 SPE311允許所述系統(tǒng)實施需要較高計算單元密度的應用程序,并且可以有效地使用所提 供的指令集。由PPE307管理大量SPE311允許在寬范圍的應用程序上具有具成本效益的 處理。通過舉例的方式,單元處理器可以由被稱為單元寬帶引擎架構(gòu)(CBEA)的架構(gòu)表征。 在順應CBEA的架構(gòu)中,多個PPE可以被組合成PPE群組,并且多個SPE可以被組合成SPE群 組。為了舉例的目的,所述單元處理器被描繪為僅具有擁有單一SPE和單一PPE的單一SPE 群組和單一PPE群組。替代地,單元處理器可以包括多個功率處理器元件群組(PPE群組) 和多個協(xié)同處理器元件群組(SPE群組)。順應CBEA的處理器(例如)在可以在http:// www-306.ibm.com/chips/techlib/techlib.nsf/techdocs/lAEEE1270EA277638725706000 E61BA/$fi1e/CBEA_0l_pub.pdf在線獲得的CellBroadbandEngineArchitecture中講行 詳細描述,所述文獻以引用的方式并入本文中。
[0054] 根據(jù)另一實施方案,用于使用聽覺注意力線索進行音素/音節(jié)/元音邊界檢測的 指令可以被存儲在計算機可讀存儲介質(zhì)中。通過舉例的方式,而非通過限制的方式,圖4示 出了根據(jù)本發(fā)明的一個實施方案的非臨時性計算機可讀存儲介質(zhì)400的一個實施例。存儲 介質(zhì)400包含以可以由計算機處理裝置檢索、解釋并執(zhí)行的格式存儲的計算機可讀指令。 通過舉例的方式,而非通過限制的方式,計算機可讀存儲介質(zhì)400可以是計算機可讀存儲 器(如隨機存取存儲器(RAM)或只讀存儲器(R0M))、用于固定磁盤驅(qū)動器(例如,硬盤驅(qū)動 器)的計算機可讀存儲磁盤,或可裝卸磁盤驅(qū)動器。此外,計算機可讀存儲介質(zhì)400可以是 閃速存儲器裝置、計算機可讀磁帶、CD-ROM、DVD-ROM、藍光、HD-DVD、UMD或其它光學存儲介 質(zhì)。
[0055] 存儲介質(zhì)400包含被配置來使用聽覺注意力線索在語音中進行音節(jié)/元音/音素 邊界檢測的音節(jié)/元音/音素邊界檢測指令401。音節(jié)/元音/音素邊界檢測指令401可 以被配置來根據(jù)上文關(guān)于圖1所描述的方法進行音節(jié)/元音/音素邊界檢測。具體來說, 音節(jié)/元音/音素邊界檢測指令401可以任選地包括接收輸入聲音指令403,所述接收輸入 聲音指令用來接收有待對其執(zhí)行音節(jié)/元音/音素邊界檢測的聲音輸入窗口。所述聲音輸 入窗口可以按計算機可讀形式從錄音或從在運行時由麥克風或麥克風陣列所現(xiàn)場捕捉的 聲音來獲得。音節(jié)/元音/音素邊界檢測指令401可以進一步包括確定聽覺頻譜指令405, 其使用如上文所描述的耳蝸濾波、內(nèi)毛細胞以及橫向抑制處理階段來確定所述聲音輸入窗 口的聽覺頻譜。
[0056] 音節(jié)/元音/音素邊界檢測指令401還可以包括提取多尺度特征指令407,其在被 執(zhí)行時提取與聽覺頻譜相關(guān)聯(lián)的多尺度特征。這些多尺度特征可以包括如上文所描述的強 度、頻率對比、時間對比以及取向。這可以進一步引發(fā)生成特征圖指令409的執(zhí)行,所述生 成特征圖指令在被執(zhí)行時生成用于如上文所描述的所提取出的每個多尺度特征的對應特 征圖。此時,音節(jié)/元音/音素邊界檢測指令401可以實施提取聽覺要點矢量指令411,其 在被執(zhí)行時提取用于每個特征圖的多參數(shù)聽覺要點矢量。
[0057] 音節(jié)/元音/音素邊界檢測指令401可以另外包括獲得累積要點矢量指令413,其 在被執(zhí)行時將所有聽覺要點矢量放大并組合成單一累積要點矢量。累積要點矢量指令413 還可以被配置來在被執(zhí)行時實施主分量分析(PCA)以除去冗余并減少所述累積要點矢量 的維數(shù)。音節(jié)/元音/音素邊界檢測指令401可以進一步包括檢測音節(jié)/元音/音素邊界 指令415,其在被執(zhí)行時將所述累積要點矢量映射到其對應的音素邊界、元音邊界、音節(jié)核 或音節(jié)邊界。
[0058] 實驗和結(jié)果
[0059] 進行了許多音節(jié)分割實驗來測試根據(jù)本發(fā)明的一個實施方案的音節(jié)邊界檢測與 現(xiàn)有技術(shù)的音節(jié)檢測技術(shù)。在所述音節(jié)分割實驗中使用了HMIT數(shù)據(jù)集。所述HMIT語料 庫沒有音節(jié)標注。來自NIST的音節(jié)化軟件tsyllb2用于使用其音素轉(zhuǎn)錄來使單詞音節(jié)化。 然后,使用每個音節(jié)的由HMIT所提供的音素級時序信息和音素序列來自動提取用于音節(jié) 的時序信息。在所述實驗中使用了官方HMIT訓練和測試分解。測試集包含1344個話語, 其中包含約17190個音節(jié)。
[0060] 在所述實驗中,使用了 3層式神經(jīng)網(wǎng)絡用于學習聽覺要點特征與音節(jié)邊界之間的 映射。所述神經(jīng)網(wǎng)絡具有D個輸入、(D+N)/2個隱藏節(jié)點以及N個輸出節(jié)點,其中D是在PCA 維數(shù)縮減(此時95%的方差被保留)之后的聽覺要點矢量的長度,并且N是類別的數(shù)量,在 這些特定實驗中其是二;即,邊界與非邊界。使用以當前幀為中心的窗口每50ms對所述聽 覺要點特征進行估算來捕捉上下文。
[0061] 在英語中,多音節(jié)單詞的確切音節(jié)邊界可能是模糊的;即,很難決定哪些輔音屬于 第一音節(jié)或第二音節(jié)。因此,所述實驗被這樣進行使得目標是為了估算音節(jié)核的末尾,在此 處通常存在元音至輔音的過渡??梢允褂孟嗤姆椒z測兩個邊界,即,音節(jié)核的開頭和末 尾;然而,此處,只有音節(jié)核的末尾被假定為有待檢測的目標,使得每個音節(jié)只存在一次檢 測,這對于估算每話語/秒的音節(jié)數(shù)量是有用的。因此,在下面的討論中,為了方便起見,術(shù) 語"音節(jié)邊界"將用來指代音節(jié)核的末尾。
[0062] 音節(jié)邊界檢測允許50ms的誤差容限。例如,如果在130ms處存在邊界,那么在訓 練期間,對應于100ms和150ms處的幀的聽覺要點特征都被標記為邊界。類似地,在評估期 間,在50ms內(nèi)檢測到的邊界被接受為正確的。
[0063] 在所述實驗中,通過將持續(xù)時間從0. 2s(其是平均音節(jié)持續(xù)時間)變化到0. 4s來 分析鄰近左端上下文和右端上下文對性能的影響以研究窗口持續(xù)時間W的作用。所選的網(wǎng) 格大小確定了時間和頻譜分辨率。針對聽覺要點提取對不同網(wǎng)格大小進行了測試以用于改 變時間和頻譜分辨率。結(jié)果發(fā)現(xiàn),4乘10的網(wǎng)格大小是足夠的,并且在具有合理的特征維數(shù) 的音節(jié)邊界檢測中表現(xiàn)良好。此外,結(jié)果發(fā)現(xiàn),提高頻譜分辨率可以進一步改進結(jié)果;同時 也增加了復雜性。
[0064] 對于不同窗口持續(xù)時間的幀級音節(jié)邊界檢測性能連同聽覺要點維數(shù)D-起被呈 現(xiàn)在以下表I中。增加窗口持續(xù)時間改進了音節(jié)邊界檢測性能,從而表明上下文信息有助 于邊界檢測。所實現(xiàn)的最好性能是在W= 0. 4s時在幀級處的85. 32 %音節(jié)邊界檢測準確 度。在以下表I中報告的結(jié)果是原始神經(jīng)網(wǎng)絡輸出分數(shù)。的確,實際的幀級準確度更高,因 為對于每個音節(jié)邊界檢測其中一個幀是足夠的;即,如果參考音節(jié)邊界是在130ms處,那么 神經(jīng)網(wǎng)絡預計邊界在100ms和150ms處的兩個幀,否則懲罰沒有檢測到的幀作為刪除錯誤。
[0065] 表I
[0066]
[0067] 本發(fā)明的實施方案相對于現(xiàn)有技術(shù)表現(xiàn)出某些差異和優(yōu)勢。具體來說,與采用短 期聲學特征(如臨界頻帶中的能量、線性預測編碼頻譜、基于子頻帶的相關(guān)性、音高、清濁 等)的現(xiàn)有技術(shù)不同,本發(fā)明的實施方案使用聽覺注意力線索用于音節(jié)分割。傳統(tǒng)方法需 要參數(shù)調(diào)整,這使其特定于某個數(shù)據(jù)和設置。相反,在本發(fā)明的實施方案中,所述模型不需 要參數(shù)調(diào)整。
[0068] 此外,本發(fā)明的實施方案這樣獲得幀級結(jié)果使得對于每個幀都存在當前幀是音節(jié) 邊界的可能性。相反,現(xiàn)有技術(shù)旨在檢測音節(jié)核周圍的峰;例如,從核的開頭之前約50ms到 核的末尾之后約50ms;因而允許了較大的誤差容限。本發(fā)明的實施方案可以按幀級獲得更 詳細的信息。本發(fā)明的實施方案還可以提供關(guān)于片段中的音節(jié)數(shù)量的信息,例如,每秒或每 次話語的音節(jié)數(shù)量,其可以用于估算語速。所述估算的語速可以用來改進其它口頭語言處 理應用程序,如通過基于所述語速選擇適當?shù)穆晫W模型或者尋找語音的情感片段等來改進 語首識別性能。
[0069] 為了與其它方法相比較,還進行了音節(jié)核檢測實驗并且也獲得了音節(jié)級結(jié)果。首 先,訓練神經(jīng)網(wǎng)絡,使得對應于音節(jié)核的中間的幀被標記為有待檢測的目標。然后,使用軟 決定,使得所述神經(jīng)網(wǎng)絡概率分數(shù)用來創(chuàng)建作為時間的函數(shù)的一維曲線。然后,在所述曲線 上進行峰值搜索以定位被算作檢測到的音節(jié)核的局部最大值。如在其它方法中所做的那 樣,如果需要的話,在音節(jié)核周圍容忍50ms的誤差。所得結(jié)果連同來自文獻中的以下參考 的現(xiàn)有技術(shù)結(jié)果一起被呈現(xiàn)在表II中:
[0070]"RobustSpeechRateEstimationforSpontaneous