使用聽覺注意力線索的語音音節(jié)/元音/音素邊界檢測的制作方法

文檔序號：9305370閱讀：817來源：國知局

使用聽覺注意力線索的語音音節(jié)/元音/音素邊界檢測的制作方法
【專利說明】
[0001] 交叉參考
[0002] 本申請是申請日為2011年11月2日、2013年9月30日提交到中國專利局、發(fā)明名稱為"使用聽覺注意力線索的語音音節(jié)/元音/音素邊界檢測"、中國申請?zhí)枮?201180069832. 3的國際發(fā)明申請PCT/US2011/059004的分案申請。
技術(shù)領(lǐng)域
[0003] 本發(fā)明的實施方案與口頭語言處理有關(guān)，并且更具體地說，與在有或沒有其它傳統(tǒng)語音特征的情況下使用聽覺注意力線索對音素、元音或音節(jié)邊界進行檢測有關(guān)。
【背景技術(shù)】
[0004] 語音識別系統(tǒng)已經(jīng)成為一種用于計算機系統(tǒng)的常見輸入形式。典型的語音識別系統(tǒng)捕捉可聽信號并進行分析以獲得人類語音的可識別分量。將語音分割成多個單元（如音素、音節(jié)或元音）提供了關(guān)于語音的音位和節(jié)奏方面的信息。音素（phoneme)(有時被稱為音素（phone))通常被視為語音的最小的有意義的音位片段。音素包括元音和輔音。術(shù)語 "音節(jié)"用來描述由單獨的元音或者之前或之后有輔音的元音組成的語音片段。通常，元音構(gòu)成音節(jié)核。因此，音素、元音以及音節(jié)邊界的檢測在語音識別和自然語言理解中起著重要的作用。在許多口頭語言處理應用程序中，確定樣本語音信號內(nèi)音節(jié)在何處開始和結(jié)束是有用的。由于口語音節(jié)通常包括元音部分作為音節(jié)核并且可能包括或可能不包括輔音部分，因此對于音節(jié)邊界檢測的重要關(guān)鍵是音節(jié)內(nèi)的元音和/或元音邊界的檢測。音素邊界可以在有或沒有聽覺注意力線索的情況下通過使用較傳統(tǒng)的特征（如能量、話音概率、過零、不同F(xiàn)FT頻段下的頻譜變化率、倒譜、差分倒譜以及差分-差分倒譜、基于幀的音素概率、通過分析唇部的視頻圖像得到的唇部運動）在檢測元音或音節(jié)邊界之后進行檢測。
[0005] 研究人員已經(jīng)發(fā)現(xiàn)了表明音節(jié)是人類語音感知的最重要的要素之一的支持論據(jù)。將語音分割成多個音節(jié)單元提供了關(guān)于語速、節(jié)奏、韻律以及語音識別和語音合成的洞察。音節(jié)包含響度的中央峰（音節(jié)核），其通常是元音，以及圍繞此中央峰群集的輔音。文獻中的大部分作品集中于音節(jié)核檢測，因為與精確的音節(jié)邊界相比，可以更可靠且更容易地定位音節(jié)核。對于音節(jié)核檢測，大部分現(xiàn)有方法依賴于從所提取的短時間聲學特征估算一維連續(xù)曲線并且在所述曲線上進行峰值搜索來定位音節(jié)核。一些用于定位音節(jié)核的聲學特征包括在選定臨界頻帶中的能量、線性預測編碼頻譜、基于子頻帶的相關(guān)性、音高、清濁等。此領(lǐng)域中的現(xiàn)有技術(shù)作品的一些實例包括：
[0006] "RobustSpeechRateEstimationforSpontaneousSpeech"，DagenWang 和ShrikanthS.Narayanan，IEEETRANSACTIONSONAUDIO,SPEECH,ANDLANGUAGE PROCESSING，第 15 卷，第 8 號，2007 年 11 月，第 2190 至 2201 頁。
[0007] "SegmentationofSpeechintoSyllable-likeunits'，，T.Nagaraian等， EUROSPEECH2003 -日內(nèi)瓦，第 2893 至 2896 頁。
[0008] "Speechrhythmguidedsyllablenucleidetection"，Y.Zhang和J.Glass， ProceedingsoftheIEEEInternationalConferenceonAcoustics,Speech,andSignal Processing，第3797至3800頁，臺灣臺北，2009年4月。
[0009] 通常，這些傳統(tǒng)方法需要調(diào)整許多參數(shù)，這是不希望的，因為它使得很難將這些方法用于不同的設(shè)定或條件；即，新數(shù)據(jù)、新條件，如說話風格、噪聲條件等。此外，所述傳統(tǒng)方法通常集中于含糊的音節(jié)核檢測。
[0010] 正是在這種背景下出現(xiàn)了本發(fā)明的實施方案。

【發(fā)明內(nèi)容】

[0011] 為了解決上述技術(shù)問題。本發(fā)明提供一種方法，其包括：從關(guān)于聲音輸入窗口的聽覺頻譜中提取一個或多個多尺度特征，其中每個多尺度特征使用單獨的二維頻譜時間接收濾波器提取；生成對應于所述一個或多個多尺度特征的一個或多個特征圖；從所述一個或多個特征圖中的每個提取聽覺要點矢量；通過放大從所述一個或多個特征圖所提取的每個聽覺要點矢量來獲得累積要點矢量；通過將所述累積要點矢量映射到一個或多個音節(jié)或元音或音素邊界來檢測所述聲音輸入窗口中的一個或多個音節(jié)或元音或音素邊界；以及使用所述聲音輸入窗口中的一個或多個音節(jié)或元音或音素邊界，確定每單位時間的音節(jié)數(shù)量或每次話語的音節(jié)數(shù)量。
[0012] 為了解決上述技術(shù)問題。本發(fā)明提供一種設(shè)備，包括：處理器；存儲器；以及包含在所述存儲器中并且可由所述處理器執(zhí)行的計算機編碼指令，其中所述計算機編碼指令被配置來實施用于音節(jié)/元音/音素邊界檢測的方法，所述方法包括：從關(guān)于聲音輸入窗口的聽覺頻譜中提取一個或多個多尺度特征，其中每個多尺度特征使用單獨的二維頻譜時間接收濾波器提?。簧蓪谒鲆粋€或多個多尺度特征的一個或多個特征圖；從所述一個或多個特征圖中的每個提取聽覺要點矢量；通過放大從所述一個或多個特征圖所提取的每個聽覺要點矢量來獲得累積要點矢量；通過將所述累積要點矢量映射到一個或多個音節(jié)或元音或音素邊界來檢測所述聲音輸入窗口中的一個或多個音節(jié)或元音或音素邊界；以及使用所述聲音輸入窗口中的一個或多個音節(jié)或元音或音素邊界，確定每單位時間的音節(jié)數(shù)量或每次話語的音節(jié)數(shù)量。
[0013] 為了解決上述技術(shù)問題。本發(fā)明提供一種計算機程序產(chǎn)品，包括：非臨時性計算機可讀存儲介質(zhì)，其具有包含在其中的計算機可讀程序代碼，所述計算機程序代碼具有：配置成當執(zhí)行時從關(guān)于聲音輸入窗口的聽覺頻譜中提取一個或多個多尺度特征的計算機程序代碼，其中每個多尺度特征使用單獨的二維頻譜時間接收濾波器提??；配置成當執(zhí)行時生成對應于所述一個或多個多尺度特征的一個或多個特征圖的計算機程序代碼；配置成當執(zhí) 行時從所述一個或多個特征圖中的每個提取聽覺要點矢量的計算機程序代碼；配置成當執(zhí) 行時通過放大從所述一個或多個特征圖所提取的每個聽覺要點矢量來獲得累積要點矢量的計算機程序代碼；配置成當執(zhí)行時通過將所述累積要點矢量映射到一個或多個音節(jié)或元音或音素邊界來檢測所述聲音輸入窗口中的一個或多個音節(jié)或元音或音素邊界的計算機程序代碼；以及配置成當執(zhí)行時使用所述聲音輸入窗口中的一個或多個音節(jié)或元音或音素邊界，確定每單位時間的音節(jié)數(shù)量或每次話語的音節(jié)數(shù)量的計算機程序代碼。
【附圖說明】
[0014] 通過結(jié)合附圖參考以下詳細描述，可以容易地理解本發(fā)明的實施方案。
[0015] 圖1A是示出根據(jù)本發(fā)明的一個實施方案的用于在語音中進行音節(jié)/元音/音素邊界檢測的方法的流程圖。
[0016]圖1B至圖1F是示出可以在本發(fā)明的多個實施方案中使用的頻譜時間接收濾波器的多個實施例的示意圖。
[0017] 圖1G是示出根據(jù)本發(fā)明的一個實施方案的用于通過使用傳統(tǒng)語音特征和累積要點矢量的組合來在語音中進行音節(jié)/元音/音素邊界檢測的方法的流程圖。
[0018] 圖2是示出根據(jù)本發(fā)明的一個實施方案的用于在語音中進行音節(jié)/元音/音素邊界檢測的設(shè)備的方框圖。
[0019] 圖3是示出根據(jù)本發(fā)明的一個實施方案的用于在語音中進行音節(jié)/元音/音素邊界檢測的設(shè)備的單元處理器實施方式的實施例的方框圖。
[0020] 圖4示出了根據(jù)本發(fā)明的一個實施方案的具有用于在語音識別中實施音節(jié)/元音 /音素邊界檢測的指令的非臨時性計算機可讀存儲介質(zhì)的實施例。
【具體實施方式】
[0021] 本發(fā)明的實施方案涉及使用聽覺注意力線索來在語音中進行音節(jié)/元音/音素邊界檢測的口頭語言處理方法和設(shè)備。不同于集中于含糊的音節(jié)核檢測的傳統(tǒng)方法，本發(fā)明的實施方案可以獲得更詳細的幀級音節(jié)/元音/音素邊界信息。與傳統(tǒng)方法不同，根據(jù)本發(fā)明的實施方案的方法和系統(tǒng)使用聽覺注意力線索來在語音中進行音素邊界、元音邊界和 /或音節(jié)邊界檢測。所述注意力特征是生物學所啟發(fā)的并且通過使用二維頻譜時間濾波器來捕捉聲音中的信號特性變化，因而成功地在語音中檢測元音和/或音節(jié)。此外，所述聽覺注意力特征可以與傳統(tǒng)語音特征相結(jié)合用于音素/元音/音節(jié)邊界檢測。
[0022] 圖1A是示出根據(jù)本發(fā)明的一個實施方案的用于使用聽覺注意力線索在語音中進行音節(jié)/元音/音素邊界檢測的方法的流程圖。聽覺注意力模型是生物學所啟發(fā)的并且模仿人類聽覺系統(tǒng)中的處理階段。其被設(shè)計來確定何時何地聲音信號吸引人類注意力。
[0023] 最初，接收聲音輸入窗口 101。通過舉例的方式，而非通過限制的方式，此聲音輸入窗口 101可以使用麥克風在某個有限的持續(xù)時間的時間窗口內(nèi)來捕捉，所述麥克風起作用來將表征特定聲音輸入窗口 101的聲波轉(zhuǎn)換成電信號以供進一步處理。聲音輸入窗口 101 可以是個人的語音的任何片段。通過舉例的方式，而非通過限制的方式，聲音輸入窗口 101 可以包含單一音節(jié)、單詞、

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3 4 5

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：O.卡琳里;陳如新;
技術(shù)所有人：索尼電腦娛樂公司;
我是此專利的發(fā)明人

上一篇：一種實現(xiàn)合成語音增強的方法及系統(tǒng)的制作方法
上一篇：一種含噪語音端點魯棒檢測方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

元音音素相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

使用聽覺注意力線索的語音音節(jié)/元音/音素邊界檢測的制作方法