Speech",DagenWang 和ShrikanthS.Narayanan,IEEETRANSACTIONSONAUDIO,SPEECH,ANDLANGUAGE PROCESSING,第15卷,第8號(hào),2007年11月,第2190至2201頁(yè),其以引用的方式并入本文 中。
[0071]"Speechrhythmguidedsyllablenucleidetection",Y.Zhang和J.Glass, ProceedingsoftheIEEEInternationalConferenceonAcoustics,Speech,andSignal Processing,第3797至3800頁(yè),臺(tái)灣臺(tái)北,2009年4月,其以引用的方式并入本文中。
[0072] 可以參考在以下表II中的F分?jǐn)?shù)用于比較,因?yàn)槠渌椒ň?xì)調(diào)整了其參數(shù)來 獲得最佳的查準(zhǔn)度和最佳的精確度,這兩者不能在給定時(shí)間同時(shí)獲得,而F分?jǐn)?shù)(其等于
在給定時(shí)間考慮精確度和查準(zhǔn)度兩者。
[0073]表II
[0074]
[0075] 來自以上表II的結(jié)果顯示根據(jù)本發(fā)明的實(shí)施方案的音節(jié)檢測(cè)結(jié)果與現(xiàn)有技術(shù)在 音節(jié)核檢測(cè)方面表現(xiàn)一樣好或比其更好。
[0076] 雖然上文是對(duì)本發(fā)明的優(yōu)選實(shí)施方案的完整描述,但可能的是使用各種替代方 案、修改以及等同物。因此,本發(fā)明的范圍不應(yīng)參考上文的描述來確定,而是應(yīng)參考所附的 權(quán)利要求連同其等同物的全部范圍來確定。本文所描述的任何特征(無論優(yōu)選與否)都可 以與本文所描述的任何其它特征(無論優(yōu)選與否)相組合。在所附的權(quán)利要求中,除非另有 明確陳述,否則不定冠詞"一個(gè)(種)"指代跟在所述冠詞之后的項(xiàng)目的一個(gè)或多個(gè)的數(shù)量。 在所附的權(quán)利要求中,除非另有說明,否則詞"或"應(yīng)被理解為非排他性或。所附的權(quán)利要 求不應(yīng)被理解為包括裝置加功能限制,除非在給定的權(quán)利要求中使用短語(yǔ)"用于......的 裝置"明確地接受這樣的限制。
【主權(quán)項(xiàng)】
1. 一種方法,其包括: 從關(guān)于聲音輸入窗口的聽覺頻譜中提取一個(gè)或多個(gè)多尺度特征,其中每個(gè)多尺度特征 使用單獨(dú)的二維頻譜時(shí)間接收濾波器提?。? 生成對(duì)應(yīng)于所述一個(gè)或多個(gè)多尺度特征的一個(gè)或多個(gè)特征圖; 從所述一個(gè)或多個(gè)特征圖中的每個(gè)提取聽覺要點(diǎn)矢量; 通過放大從所述一個(gè)或多個(gè)特征圖所提取的每個(gè)聽覺要點(diǎn)矢量來獲得累積要點(diǎn)矢 量; 通過將所述累積要點(diǎn)矢量映射到一個(gè)或多個(gè)音節(jié)或元音或音素邊界來檢測(cè)所述聲音 輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界;以及 使用所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界,確定每單位時(shí)間的音 節(jié)數(shù)量或每次話語(yǔ)的音節(jié)數(shù)量。2. 如權(quán)利要求1所述的方法,進(jìn)一步包括使用檢測(cè)到的音節(jié)或元音或音素邊界來從已 識(shí)別的元音或音節(jié)或音素中提取詞匯或語(yǔ)法意義。3. 如權(quán)利要求2所述的方法,進(jìn)一步包括顯示或存儲(chǔ)所述詞匯或語(yǔ)法意義。4. 如權(quán)利要求1所述的方法,進(jìn)一步包括從所確定的每單位時(shí)間的音節(jié)數(shù)量或每次話 語(yǔ)的音節(jié)數(shù)量來估算語(yǔ)速。5. 如權(quán)利要求1所述的方法,進(jìn)一步包括從所確定的每單位時(shí)間的音節(jié)數(shù)量或每次話 語(yǔ)的音節(jié)數(shù)量來估算語(yǔ)速,并且使用所估算出的語(yǔ)速來改進(jìn)其它口頭語(yǔ)言處理應(yīng)用。6. 如權(quán)利要求1所述的方法,進(jìn)一步包括從所確定的每單位時(shí)間的音節(jié)數(shù)量或每次話 語(yǔ)的音節(jié)數(shù)量來估算語(yǔ)速,并且通過基于所估算出的語(yǔ)速選擇適當(dāng)?shù)穆晫W(xué)模型,來使用所 估算出的語(yǔ)速改進(jìn)語(yǔ)音識(shí)別性能。7. 如權(quán)利要求1所述的方法,進(jìn)一步包括從所確定的每單位時(shí)間的音節(jié)數(shù)量或每次話 語(yǔ)的音節(jié)數(shù)量來估算語(yǔ)速,并且使用所估算出的語(yǔ)速來尋找在包括聲音輸入窗口的信號(hào)之 內(nèi)的語(yǔ)音的一段或多段情感片段。8. 如權(quán)利要求1所述的方法,其中,檢測(cè)所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元 音或音素邊界包括生成二進(jìn)制決定或概率分?jǐn)?shù)來在給出所述累積要點(diǎn)矢量中的一個(gè)或多 個(gè)聽覺注意力特征的情況下確定當(dāng)前幀是否包含邊界。9. 如權(quán)利要求1所述的方法,進(jìn)一步包括確定聽覺頻譜,其中,確定所述聽覺頻譜涉及 使所述聲音輸入窗口穿過模仿聽覺系統(tǒng)的基膜與耳蝸核之間的傳輸?shù)亩仦V波階段、內(nèi)毛 細(xì)胞階段以及橫向抑制階段。10. 如權(quán)利要求9所述的方法,其中所述耳蝸濾波階段使用一組128個(gè)重疊恒定Q值非 對(duì)稱帶通濾波器來實(shí)施。11. 如權(quán)利要求1所述的方法,其中,關(guān)于所述聲音輸入窗口的所述聽覺頻譜中的所述 多尺度特征的之一表征與所述聽覺頻譜相關(guān)聯(lián)的強(qiáng)度。12. 如權(quán)利要求11所述的方法,其中,關(guān)于所述聲音輸入窗口的所述聽覺頻譜中的所 述多尺度特征的之一表征與所述聽覺頻譜相關(guān)聯(lián)的頻率對(duì)比。13. 如權(quán)利要求12所述的方法,其中,關(guān)于所述聲音輸入窗口的所述聽覺頻譜中的所 述多尺度特征的之一表征與所述聽覺頻譜相關(guān)聯(lián)的時(shí)間對(duì)比。14. 如權(quán)利要求13所述的方法,其中,關(guān)于所述聲音輸入窗口的所述聽覺頻譜中的所 述多尺度特征的之一表征與所述聽覺頻譜相關(guān)聯(lián)的取向。15. 如權(quán)利要求1所述的方法,其中,使用二進(jìn)金字塔來獲得關(guān)于所述聲音輸入窗口的 所述聽覺頻譜中的所述多尺度特征的所述一個(gè)或多個(gè)多尺度特征。16. 如權(quán)利要求1所述的方法,其中,所述一個(gè)或多個(gè)特征圖中的每個(gè)特征圖通過計(jì)算 同那個(gè)特定多尺度特征相關(guān)聯(lián)的一個(gè)或多個(gè)中心尺度與同那個(gè)特定多尺度特征相關(guān)聯(lián)的 一個(gè)或多個(gè)周邊尺度之間的差來獲得。17. 如權(quán)利要求1所述的方法,其中,每個(gè)聽覺要點(diǎn)矢量通過將其對(duì)應(yīng)特征圖劃分成m 乘n網(wǎng)格的子區(qū)域并且計(jì)算每個(gè)子區(qū)域的統(tǒng)計(jì)數(shù)據(jù)來確定。18. 如權(quán)利要求1所述的方法,其中,與要點(diǎn)矢量組合來使用另外的語(yǔ)音特征,以形成 用于維數(shù)縮減的較大輸入矢量。19. 如權(quán)利要求18所述的方法,其中,所述另外的語(yǔ)音特征包括基于幀的能量、基于幀 的最大振幅、基于幀的過零率、基于幀的音素概率、作為具有音高振動(dòng)的話音信號(hào)的基于幀 的概率或由每個(gè)FFT頻段所計(jì)算的基于幀的頻譜變化率。20. 如權(quán)利要求1所述的方法,其中,獲得累積要點(diǎn)矢量包括使用維數(shù)縮減方法來除去 冗余或降低所述累積要點(diǎn)矢量的維數(shù)。21. -種設(shè)備,包括: 處理器; 存儲(chǔ)器;以及 包含在所述存儲(chǔ)器中并且可由所述處理器執(zhí)行的計(jì)算機(jī)編碼指令,其中所述計(jì)算機(jī)編 碼指令被配置來實(shí)施用于音節(jié)/元音/音素邊界檢測(cè)的方法,所述方法包括: 從關(guān)于聲音輸入窗口的聽覺頻譜中提取一個(gè)或多個(gè)多尺度特征,其中每個(gè)多尺度特征 使用單獨(dú)的二維頻譜時(shí)間接收濾波器提取; 生成對(duì)應(yīng)于所述一個(gè)或多個(gè)多尺度特征的一個(gè)或多個(gè)特征圖; 從所述一個(gè)或多個(gè)特征圖中的每個(gè)提取聽覺要點(diǎn)矢量; 通過放大從所述一個(gè)或多個(gè)特征圖所提取的每個(gè)聽覺要點(diǎn)矢量來獲得累積要點(diǎn)矢 量; 通過將所述累積要點(diǎn)矢量映射到一個(gè)或多個(gè)音節(jié)或元音或音素邊界來檢測(cè)所述聲音 輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界;以及 使用所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界,確定每單位時(shí)間的音 節(jié)數(shù)量或每次話語(yǔ)的音節(jié)數(shù)量。22. -種計(jì)算機(jī)程序產(chǎn)品,包括: 非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其具有包含在其中的計(jì)算機(jī)可讀程序代碼,所述計(jì)算 機(jī)程序代碼具有: 配置成當(dāng)執(zhí)行時(shí)從關(guān)于聲音輸入窗口的聽覺頻譜中提取一個(gè)或多個(gè)多尺度特征的計(jì) 算機(jī)程序代碼,其中每個(gè)多尺度特征使用單獨(dú)的二維頻譜時(shí)間接收濾波器提?。? 配置成當(dāng)執(zhí)行時(shí)生成對(duì)應(yīng)于所述一個(gè)或多個(gè)多尺度特征的一個(gè)或多個(gè)特征圖的計(jì)算 機(jī)程序代碼; 配置成當(dāng)執(zhí)行時(shí)從所述一個(gè)或多個(gè)特征圖中的每個(gè)提取聽覺要點(diǎn)矢量的計(jì)算機(jī)程序 代碼; 配置成當(dāng)執(zhí)行時(shí)通過放大從所述一個(gè)或多個(gè)特征圖所提取的每個(gè)聽覺要點(diǎn)矢量來獲 得累積要點(diǎn)矢量的計(jì)算機(jī)程序代碼; 配置成當(dāng)執(zhí)行時(shí)通過將所述累積要點(diǎn)矢量映射到一個(gè)或多個(gè)音節(jié)或元音或音素邊界 來檢測(cè)所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界的計(jì)算機(jī)程序代碼;以及 配置成當(dāng)執(zhí)行時(shí)使用所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界,確定 每單位時(shí)間的音節(jié)數(shù)量或每次話語(yǔ)的音節(jié)數(shù)量的計(jì)算機(jī)程序代碼。
【專利摘要】提供檢測(cè)語(yǔ)音音節(jié)/元音/音素邊界方法和設(shè)備。該方法包括:從關(guān)于聲音輸入窗口的聽覺頻譜中提取一個(gè)或多個(gè)多尺度特征,其中每個(gè)多尺度特征使用單獨(dú)的二維頻譜時(shí)間接收濾波器提?。簧蓪?duì)應(yīng)于所述一個(gè)或多個(gè)多尺度特征的一個(gè)或多個(gè)特征圖;從所述一個(gè)或多個(gè)特征圖中的每個(gè)提取聽覺要點(diǎn)矢量;通過放大從所述一個(gè)或多個(gè)特征圖所提取的每個(gè)聽覺要點(diǎn)矢量來獲得累積要點(diǎn)矢量;通過將所述累積要點(diǎn)矢量映射到一個(gè)或多個(gè)音節(jié)或元音或音素邊界來檢測(cè)所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界;以及使用所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界,確定每單位時(shí)間的音節(jié)數(shù)量或每次話語(yǔ)的音節(jié)數(shù)量。
【IPC分類】G10L25/03, G10L15/16, G10L15/24, G10L15/04, G10L15/34
【公開號(hào)】CN105023573
【申請(qǐng)?zhí)枴緾N201510346155
【發(fā)明人】O.卡琳里, 陳如新
【申請(qǐng)人】索尼電腦娛樂公司
【公開日】2015年11月4日
【申請(qǐng)日】2011年11月2日
【公告號(hào)】CN103503060A, CN103503060B, EP2695160A1, EP2695160A4, US8756061, US20120253812, US20150073794, WO2012134541A1