使用聽覺注意力線索的語(yǔ)音音節(jié)/元音/音素邊界檢測(cè)的制作方法_5

文檔序號(hào)：9305370閱讀：來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>使用聽覺注意力線索的語(yǔ)音音節(jié)/元音/音素邊界檢測(cè)的制作方法

Speech"，DagenWang 和ShrikanthS.Narayanan，IEEETRANSACTIONSONAUDIO,SPEECH,ANDLANGUAGE PROCESSING，第15卷，第8號(hào)，2007年11月，第2190至2201頁(yè)，其以引用的方式并入本文中。
[0071]"Speechrhythmguidedsyllablenucleidetection"，Y.Zhang和J.Glass， ProceedingsoftheIEEEInternationalConferenceonAcoustics,Speech,andSignal Processing，第3797至3800頁(yè)，臺(tái)灣臺(tái)北，2009年4月，其以引用的方式并入本文中。
[0072] 可以參考在以下表II中的F分?jǐn)?shù)用于比較，因?yàn)槠渌椒ň?xì)調(diào)整了其參數(shù)來獲得最佳的查準(zhǔn)度和最佳的精確度，這兩者不能在給定時(shí)間同時(shí)獲得，而F分?jǐn)?shù)（其等于
在給定時(shí)間考慮精確度和查準(zhǔn)度兩者。
[0073]表II
[0074]
[0075] 來自以上表II的結(jié)果顯示根據(jù)本發(fā)明的實(shí)施方案的音節(jié)檢測(cè)結(jié)果與現(xiàn)有技術(shù)在音節(jié)核檢測(cè)方面表現(xiàn)一樣好或比其更好。
[0076] 雖然上文是對(duì)本發(fā)明的優(yōu)選實(shí)施方案的完整描述，但可能的是使用各種替代方案、修改以及等同物。因此，本發(fā)明的范圍不應(yīng)參考上文的描述來確定，而是應(yīng)參考所附的權(quán)利要求連同其等同物的全部范圍來確定。本文所描述的任何特征（無論優(yōu)選與否）都可以與本文所描述的任何其它特征（無論優(yōu)選與否）相組合。在所附的權(quán)利要求中，除非另有明確陳述，否則不定冠詞"一個(gè)（種）"指代跟在所述冠詞之后的項(xiàng)目的一個(gè)或多個(gè)的數(shù)量。在所附的權(quán)利要求中，除非另有說明，否則詞"或"應(yīng)被理解為非排他性或。所附的權(quán)利要求不應(yīng)被理解為包括裝置加功能限制，除非在給定的權(quán)利要求中使用短語(yǔ)"用于......的裝置"明確地接受這樣的限制。
【主權(quán)項(xiàng)】
1. 一種方法，其包括：從關(guān)于聲音輸入窗口的聽覺頻譜中提取一個(gè)或多個(gè)多尺度特征，其中每個(gè)多尺度特征使用單獨(dú)的二維頻譜時(shí)間接收濾波器提?。? 生成對(duì)應(yīng)于所述一個(gè)或多個(gè)多尺度特征的一個(gè)或多個(gè)特征圖；從所述一個(gè)或多個(gè)特征圖中的每個(gè)提取聽覺要點(diǎn)矢量；通過放大從所述一個(gè)或多個(gè)特征圖所提取的每個(gè)聽覺要點(diǎn)矢量來獲得累積要點(diǎn)矢量；通過將所述累積要點(diǎn)矢量映射到一個(gè)或多個(gè)音節(jié)或元音或音素邊界來檢測(cè)所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界；以及使用所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界，確定每單位時(shí)間的音節(jié)數(shù)量或每次話語(yǔ)的音節(jié)數(shù)量。2. 如權(quán)利要求1所述的方法，進(jìn)一步包括使用檢測(cè)到的音節(jié)或元音或音素邊界來從已識(shí)別的元音或音節(jié)或音素中提取詞匯或語(yǔ)法意義。3. 如權(quán)利要求2所述的方法，進(jìn)一步包括顯示或存儲(chǔ)所述詞匯或語(yǔ)法意義。4. 如權(quán)利要求1所述的方法，進(jìn)一步包括從所確定的每單位時(shí)間的音節(jié)數(shù)量或每次話語(yǔ)的音節(jié)數(shù)量來估算語(yǔ)速。5. 如權(quán)利要求1所述的方法，進(jìn)一步包括從所確定的每單位時(shí)間的音節(jié)數(shù)量或每次話語(yǔ)的音節(jié)數(shù)量來估算語(yǔ)速，并且使用所估算出的語(yǔ)速來改進(jìn)其它口頭語(yǔ)言處理應(yīng)用。6. 如權(quán)利要求1所述的方法，進(jìn)一步包括從所確定的每單位時(shí)間的音節(jié)數(shù)量或每次話語(yǔ)的音節(jié)數(shù)量來估算語(yǔ)速，并且通過基于所估算出的語(yǔ)速選擇適當(dāng)?shù)穆晫W(xué)模型，來使用所估算出的語(yǔ)速改進(jìn)語(yǔ)音識(shí)別性能。7. 如權(quán)利要求1所述的方法，進(jìn)一步包括從所確定的每單位時(shí)間的音節(jié)數(shù)量或每次話語(yǔ)的音節(jié)數(shù)量來估算語(yǔ)速，并且使用所估算出的語(yǔ)速來尋找在包括聲音輸入窗口的信號(hào)之內(nèi)的語(yǔ)音的一段或多段情感片段。8. 如權(quán)利要求1所述的方法，其中，檢測(cè)所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界包括生成二進(jìn)制決定或概率分?jǐn)?shù)來在給出所述累積要點(diǎn)矢量中的一個(gè)或多個(gè)聽覺注意力特征的情況下確定當(dāng)前幀是否包含邊界。9. 如權(quán)利要求1所述的方法，進(jìn)一步包括確定聽覺頻譜，其中，確定所述聽覺頻譜涉及使所述聲音輸入窗口穿過模仿聽覺系統(tǒng)的基膜與耳蝸核之間的傳輸?shù)亩仦V波階段、內(nèi)毛細(xì)胞階段以及橫向抑制階段。10. 如權(quán)利要求9所述的方法，其中所述耳蝸濾波階段使用一組128個(gè)重疊恒定Q值非對(duì)稱帶通濾波器來實(shí)施。11. 如權(quán)利要求1所述的方法，其中，關(guān)于所述聲音輸入窗口的所述聽覺頻譜中的所述多尺度特征的之一表征與所述聽覺頻譜相關(guān)聯(lián)的強(qiáng)度。12. 如權(quán)利要求11所述的方法，其中，關(guān)于所述聲音輸入窗口的所述聽覺頻譜中的所述多尺度特征的之一表征與所述聽覺頻譜相關(guān)聯(lián)的頻率對(duì)比。13. 如權(quán)利要求12所述的方法，其中，關(guān)于所述聲音輸入窗口的所述聽覺頻譜中的所述多尺度特征的之一表征與所述聽覺頻譜相關(guān)聯(lián)的時(shí)間對(duì)比。14. 如權(quán)利要求13所述的方法，其中，關(guān)于所述聲音輸入窗口的所述聽覺頻譜中的所述多尺度特征的之一表征與所述聽覺頻譜相關(guān)聯(lián)的取向。15. 如權(quán)利要求1所述的方法，其中，使用二進(jìn)金字塔來獲得關(guān)于所述聲音輸入窗口的所述聽覺頻譜中的所述多尺度特征的所述一個(gè)或多個(gè)多尺度特征。16. 如權(quán)利要求1所述的方法，其中，所述一個(gè)或多個(gè)特征圖中的每個(gè)特征圖通過計(jì)算同那個(gè)特定多尺度特征相關(guān)聯(lián)的一個(gè)或多個(gè)中心尺度與同那個(gè)特定多尺度特征相關(guān)聯(lián)的一個(gè)或多個(gè)周邊尺度之間的差來獲得。17. 如權(quán)利要求1所述的方法，其中，每個(gè)聽覺要點(diǎn)矢量通過將其對(duì)應(yīng)特征圖劃分成m 乘n網(wǎng)格的子區(qū)域并且計(jì)算每個(gè)子區(qū)域的統(tǒng)計(jì)數(shù)據(jù)來確定。18. 如權(quán)利要求1所述的方法，其中，與要點(diǎn)矢量組合來使用另外的語(yǔ)音特征，以形成用于維數(shù)縮減的較大輸入矢量。19. 如權(quán)利要求18所述的方法，其中，所述另外的語(yǔ)音特征包括基于幀的能量、基于幀的最大振幅、基于幀的過零率、基于幀的音素概率、作為具有音高振動(dòng)的話音信號(hào)的基于幀的概率或由每個(gè)FFT頻段所計(jì)算的基于幀的頻譜變化率。20. 如權(quán)利要求1所述的方法，其中，獲得累積要點(diǎn)矢量包括使用維數(shù)縮減方法來除去冗余或降低所述累積要點(diǎn)矢量的維數(shù)。21. -種設(shè)備，包括：處理器；存儲(chǔ)器；以及包含在所述存儲(chǔ)器中并且可由所述處理器執(zhí)行的計(jì)算機(jī)編碼指令，其中所述計(jì)算機(jī)編碼指令被配置來實(shí)施用于音節(jié)/元音/音素邊界檢測(cè)的方法，所述方法包括：從關(guān)于聲音輸入窗口的聽覺頻譜中提取一個(gè)或多個(gè)多尺度特征，其中每個(gè)多尺度特征使用單獨(dú)的二維頻譜時(shí)間接收濾波器提取；生成對(duì)應(yīng)于所述一個(gè)或多個(gè)多尺度特征的一個(gè)或多個(gè)特征圖；從所述一個(gè)或多個(gè)特征圖中的每個(gè)提取聽覺要點(diǎn)矢量；通過放大從所述一個(gè)或多個(gè)特征圖所提取的每個(gè)聽覺要點(diǎn)矢量來獲得累積要點(diǎn)矢量；通過將所述累積要點(diǎn)矢量映射到一個(gè)或多個(gè)音節(jié)或元音或音素邊界來檢測(cè)所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界；以及使用所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界，確定每單位時(shí)間的音節(jié)數(shù)量或每次話語(yǔ)的音節(jié)數(shù)量。22. -種計(jì)算機(jī)程序產(chǎn)品，包括：非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其具有包含在其中的計(jì)算機(jī)可讀程序代碼，所述計(jì)算機(jī)程序代碼具有：配置成當(dāng)執(zhí)行時(shí)從關(guān)于聲音輸入窗口的聽覺頻譜中提取一個(gè)或多個(gè)多尺度特征的計(jì) 算機(jī)程序代碼，其中每個(gè)多尺度特征使用單獨(dú)的二維頻譜時(shí)間接收濾波器提?。? 配置成當(dāng)執(zhí)行時(shí)生成對(duì)應(yīng)于所述一個(gè)或多個(gè)多尺度特征的一個(gè)或多個(gè)特征圖的計(jì)算機(jī)程序代碼；配置成當(dāng)執(zhí)行時(shí)從所述一個(gè)或多個(gè)特征圖中的每個(gè)提取聽覺要點(diǎn)矢量的計(jì)算機(jī)程序代碼；配置成當(dāng)執(zhí)行時(shí)通過放大從所述一個(gè)或多個(gè)特征圖所提取的每個(gè)聽覺要點(diǎn)矢量來獲得累積要點(diǎn)矢量的計(jì)算機(jī)程序代碼；配置成當(dāng)執(zhí)行時(shí)通過將所述累積要點(diǎn)矢量映射到一個(gè)或多個(gè)音節(jié)或元音或音素邊界來檢測(cè)所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界的計(jì)算機(jī)程序代碼；以及配置成當(dāng)執(zhí)行時(shí)使用所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界，確定每單位時(shí)間的音節(jié)數(shù)量或每次話語(yǔ)的音節(jié)數(shù)量的計(jì)算機(jī)程序代碼。
【專利摘要】提供檢測(cè)語(yǔ)音音節(jié)/元音/音素邊界方法和設(shè)備。該方法包括：從關(guān)于聲音輸入窗口的聽覺頻譜中提取一個(gè)或多個(gè)多尺度特征，其中每個(gè)多尺度特征使用單獨(dú)的二維頻譜時(shí)間接收濾波器提?。簧蓪?duì)應(yīng)于所述一個(gè)或多個(gè)多尺度特征的一個(gè)或多個(gè)特征圖；從所述一個(gè)或多個(gè)特征圖中的每個(gè)提取聽覺要點(diǎn)矢量；通過放大從所述一個(gè)或多個(gè)特征圖所提取的每個(gè)聽覺要點(diǎn)矢量來獲得累積要點(diǎn)矢量；通過將所述累積要點(diǎn)矢量映射到一個(gè)或多個(gè)音節(jié)或元音或音素邊界來檢測(cè)所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界；以及使用所述聲音輸入窗口中的一個(gè)或多個(gè)音節(jié)或元音或音素邊界，確定每單位時(shí)間的音節(jié)數(shù)量或每次話語(yǔ)的音節(jié)數(shù)量。
【IPC分類】G10L25/03, G10L15/16, G10L15/24, G10L15/04, G10L15/34
【公開號(hào)】CN105023573
【申請(qǐng)?zhí)枴緾N201510346155
【發(fā)明人】O.卡琳里, 陳如新
【申請(qǐng)人】索尼電腦娛樂公司
【公開日】2015年11月4日
【申請(qǐng)日】2011年11月2日
【公告號(hào)】CN103503060A, CN103503060B, EP2695160A1, EP2695160A4, US8756061, US20120253812, US20150073794, WO2012134541A1

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第5頁(yè)1 2 3 4 5

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

元音音素相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

使用聽覺注意力線索的語(yǔ)音音節(jié)/元音/音素邊界檢測(cè)的制作方法_5