亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

嵌入式平臺(tái)大詞匯量語(yǔ)音命令詞的識(shí)別方法

文檔序號(hào):2822486閱讀:308來(lái)源:國(guó)知局
專利名稱:嵌入式平臺(tái)大詞匯量語(yǔ)音命令詞的識(shí)別方法
技術(shù)領(lǐng)域
本發(fā)明屬于語(yǔ)音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種嵌入式平臺(tái)大詞匯量語(yǔ)音命令詞的
識(shí)別方法。
背景技術(shù)
語(yǔ)音識(shí)別技術(shù)是指使用機(jī)器從一段語(yǔ)音信號(hào)中識(shí)別出語(yǔ)音的具體內(nèi)容,廣泛地應(yīng) 用于各種人機(jī)交互系統(tǒng)。隨著語(yǔ)音技術(shù),特別是語(yǔ)音識(shí)別技術(shù)的飛速發(fā)展,語(yǔ)音識(shí)別的應(yīng)用 已經(jīng)越來(lái)越普遍,尤其是一些簡(jiǎn)單的命令詞識(shí)別系統(tǒng)更是因?yàn)槠渥R(shí)別率高,性能穩(wěn)定,人機(jī) 交互便捷等有利條件而獲得了越來(lái)越大的應(yīng)用和市場(chǎng)前景。比如聲控服務(wù)機(jī)器人、語(yǔ)音識(shí) 別玩具、電話轉(zhuǎn)接系統(tǒng)、簡(jiǎn)易旅游服務(wù)導(dǎo)航系統(tǒng)等。 近些年,國(guó)外一些語(yǔ)音技術(shù)和半導(dǎo)體公司都投入大量人力和物力開(kāi)發(fā)語(yǔ)音識(shí)別專
用芯片,并對(duì)自己的語(yǔ)音識(shí)別算法進(jìn)行專利保護(hù)。這些專用芯片的語(yǔ)音識(shí)別算法過(guò)程通常
如圖1所示,輸入的語(yǔ)音信號(hào)首先經(jīng)過(guò)A/D進(jìn)行采樣,頻譜整形加窗預(yù)加重處理,提高高
頻成分,進(jìn)行實(shí)時(shí)特征參數(shù)提取,提取的參數(shù)為Mel頻標(biāo)倒譜系數(shù)(MFCC, Mel Frequency
C印strum Coefficient),同時(shí)進(jìn)行語(yǔ)音識(shí)別模型訓(xùn)練和語(yǔ)音識(shí)別模板匹配。 傳統(tǒng)的基于PC計(jì)算機(jī)上大詞匯量語(yǔ)音命令詞識(shí)別系統(tǒng)如圖2所示,采用完全樹(shù)狀
解碼網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,雖然可以減少剪枝路徑數(shù)量,但是網(wǎng)絡(luò)結(jié)構(gòu)的實(shí)現(xiàn)上需要大量
的鏈表和指針,造成存儲(chǔ)量空間迅速增長(zhǎng);當(dāng)識(shí)別任務(wù)是中小詞表語(yǔ)音識(shí)別系統(tǒng)時(shí),一般都
采用并行的解碼網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示。這種識(shí)別網(wǎng)絡(luò)實(shí)現(xiàn)容易,比較適合中小詞表的嵌入
式識(shí)別系統(tǒng)。在解碼識(shí)別策略方面, 一般采用一階段的最優(yōu)維特比束搜索剪枝方法。 然而,由于嵌入式系統(tǒng)存儲(chǔ)器資源和CPU計(jì)算資源都很有限,這種傳統(tǒng)的方法不
適應(yīng)于嵌入式平臺(tái)上語(yǔ)音命令詞識(shí)別的實(shí)現(xiàn),當(dāng)識(shí)別任務(wù)到達(dá)萬(wàn)級(jí)詞匯量甚至幾十萬(wàn)時(shí),
上述介紹的傳統(tǒng)語(yǔ)音網(wǎng)絡(luò)建模和剪枝方法根本無(wú)法承受龐大的詞表所帶來(lái)的存儲(chǔ)和計(jì)算
資源的負(fù)擔(dān)。

發(fā)明內(nèi)容
針對(duì)上述背景技術(shù)中提出的使用傳統(tǒng)語(yǔ)音命令詞識(shí)別的方法,不適于嵌入式平臺(tái)
的問(wèn)題,本發(fā)明提出了一種嵌入式平臺(tái)大詞匯量語(yǔ)音命令詞的識(shí)別方法。 本發(fā)明的技術(shù)方案是,一種嵌入式平臺(tái)大詞匯量語(yǔ)音命令詞的識(shí)別方法,包括步
驟語(yǔ)音信號(hào)的預(yù)處理和語(yǔ)音識(shí)別參數(shù)的提取、建立語(yǔ)音聲學(xué)模型并進(jìn)行語(yǔ)音模型訓(xùn)練、構(gòu)
建樹(shù)形識(shí)別網(wǎng)絡(luò)、應(yīng)用快速識(shí)別搜索算法,其特征在于,所述語(yǔ)音聲學(xué)模型,采用基于聲母
右相關(guān)的詞內(nèi)雙音子模型; 所述構(gòu)建樹(shù)形識(shí)別網(wǎng)絡(luò)具體是,構(gòu)建基于相同父音節(jié)的樹(shù)形識(shí)別網(wǎng)絡(luò),合并有相 同父音節(jié)的結(jié)點(diǎn); 所述快速識(shí)別搜索算法,根據(jù)所述基于相同父音節(jié)的樹(shù)形識(shí)別網(wǎng)絡(luò),采用動(dòng)態(tài)調(diào) 整窗寬的狀態(tài)級(jí)剪枝策略以及幀同步詞級(jí)剪枝策略。
3
所述動(dòng)態(tài)調(diào)整窗寬的狀態(tài)級(jí)剪枝策略采用公式Br = max(-n ^+B磁,BMIN}調(diào)整 窗寬;其中,其中n是幀序號(hào),fa是窗寬調(diào)整因子,B皿,B,和Bf分別代表窗寬的上限、下限 以及實(shí)際所用的窗寬。 所述幀同步詞級(jí)剪枝策略采用公式Wr = max(-fi (n-N》+Wi, WMIN} , i = 1,2, 3,...控制詞級(jí)剪枝速度,其中n是幀序號(hào),WMIN和Wr分別是詞級(jí)剪枝的下界和實(shí)際剪枝后 的候選詞條數(shù)量,K是剪枝速度發(fā)生改變的幀序號(hào),&是詞級(jí)剪枝的速度因子。
本發(fā)明的有益效果是,通過(guò)改進(jìn)傳統(tǒng)的嵌入式語(yǔ)音識(shí)別方法,到達(dá)內(nèi)存和CPU資 源的高效利用的目的;在保證高識(shí)別率的基礎(chǔ)上,既減少了識(shí)別系統(tǒng)所需要的存儲(chǔ)空間,又 大幅的縮減了 CPU的計(jì)算資源需求,提高了大詞匯量語(yǔ)音命令詞識(shí)別的速度。


圖1是常用的語(yǔ)音識(shí)別的過(guò)程示意圖; 圖2是PC計(jì)算機(jī)上采用的完全樹(shù)狀的解碼網(wǎng)絡(luò)示意圖; 圖3是傳統(tǒng)的嵌入式平臺(tái)并行解碼網(wǎng)絡(luò)示意圖; 圖4是本發(fā)明中使用的基于相同父音節(jié)的樹(shù)形結(jié)構(gòu)識(shí)別網(wǎng)絡(luò)示意圖;
圖5是本發(fā)明中使用的幀同步詞級(jí)剪枝策略的示意圖。
具體實(shí)施例方式
下面結(jié)合附圖,對(duì)優(yōu)選實(shí)施例作詳細(xì)說(shuō)明。應(yīng)該強(qiáng)調(diào)的是,下述說(shuō)明僅僅是示例性 的,而不是為了限制本發(fā)明的范圍及其應(yīng)用。 本發(fā)明中,語(yǔ)音信號(hào)的預(yù)處理和語(yǔ)音識(shí)別參數(shù)的提取采用現(xiàn)有技術(shù)。語(yǔ)音信息預(yù) 處理主要是進(jìn)行A/D轉(zhuǎn)換和增益放大,同時(shí)進(jìn)行頻譜整形及分幀加窗處理,保證分幀語(yǔ)音 的準(zhǔn)平穩(wěn)性。識(shí)別參數(shù)的提取主要是對(duì)分幀語(yǔ)音的特征進(jìn)行提取。提取的語(yǔ)音特征包括 MFCC倒譜系數(shù)、能量以及它們的一階衍生特征。 對(duì)語(yǔ)音聲學(xué)模型進(jìn)行分析,構(gòu)建基于聲母右相關(guān)的詞內(nèi)雙音子模型,即Biphone 模型。傳統(tǒng)的Triphone模型源自西方語(yǔ)言的語(yǔ)音聲學(xué)模型分析,雖然也適合漢語(yǔ),但是該 模型規(guī)模太大,不適于嵌入式系統(tǒng)。本發(fā)明在深入分析了漢語(yǔ)發(fā)音規(guī)則后,建立了的基于聲 母右相關(guān)的詞內(nèi)雙音子模型。 漢語(yǔ)的發(fā)音規(guī)則是絕大多數(shù)漢語(yǔ)文字的發(fā)音都是單音節(jié),即一個(gè)漢字的發(fā)音由 一個(gè)聲母加上一個(gè)韻母或韻母組合組成,或者是一個(gè)韻母單獨(dú)構(gòu)成。例如,"清華"的"清" 由一個(gè)聲母"q"加上一個(gè)韻母"ing"組成。"英雄"的"雄"由一個(gè)聲母"x"加上一個(gè)韻母 組合"i"和"ong"組成。"歐"由一個(gè)韻母"ou"組成。根據(jù)漢語(yǔ)的這一發(fā)音規(guī)則,構(gòu)建基于 聲母右相關(guān)的詞內(nèi)雙音子模型,該模型只考慮漢字的聲母右邊所連的音的影響,不再考慮 聲母左邊所連接的音的影響。比如,在"清華","q+ing+h+ua"中,建"h"的雙音子模型時(shí), 只考慮"ua"對(duì)"h"的影B向,而不考慮"ing"對(duì)"h"的影響;建"q"時(shí)只考慮"ing"對(duì)"q" 的影響,而不考慮"q"前面的音對(duì)它的影響。由于Biphone模型只考慮聲母右邊所連的音 的影響,因此該模型的規(guī)模要遠(yuǎn)遠(yuǎn)小于傳統(tǒng)的Triphone模型。 對(duì)建立的Biphone模型進(jìn)行大詞匯量訓(xùn)練。訓(xùn)練的方法與傳統(tǒng)的Triphone模型 訓(xùn)練方法一樣。這樣,原嵌入式平臺(tái)的識(shí)別算法如果使用Triphone模型的話,也可以兼容Biphone模型。 構(gòu)建樹(shù)形識(shí)別網(wǎng)絡(luò)。傳統(tǒng)的嵌入式平臺(tái)一般采用實(shí)現(xiàn)簡(jiǎn)單的并行解碼網(wǎng)絡(luò),如圖 3所示。該網(wǎng)絡(luò)存在著相同音節(jié)重復(fù)存儲(chǔ)和重復(fù)匹配方面的浪費(fèi),但是在詞表只有幾百或 者幾千時(shí),這種重復(fù)的現(xiàn)象發(fā)生幾率較低,所以資源的浪費(fèi)并不顯著。由于在漢語(yǔ)中,多音 字現(xiàn)象是相當(dāng)普遍的,漢語(yǔ)一共有418個(gè)無(wú)調(diào)音節(jié),所以當(dāng)詞表變大,達(dá)到上萬(wàn)甚至幾十萬(wàn) 時(shí),詞條間大部分音節(jié)都是重復(fù)的,這既存在著重復(fù)存儲(chǔ)方面的浪費(fèi),還存在著在識(shí)別解碼 中音節(jié)重復(fù)匹配帶來(lái)的計(jì)算資源的浪費(fèi)。 計(jì)算機(jī)上通常使用連續(xù)語(yǔ)音識(shí)別的完全樹(shù)狀解碼網(wǎng)絡(luò),如圖2所示。這種網(wǎng)絡(luò)可 以在很大程度上避免音節(jié)重復(fù)匹配帶來(lái)的計(jì)算資源浪費(fèi)。但是由于這種復(fù)雜的解碼網(wǎng)絡(luò)在 具體實(shí)現(xiàn)方面需要大量的鏈表和指針,所以存儲(chǔ)量方面的降低不是很顯著,不太適合存儲(chǔ) 資源同樣有限的嵌入式系統(tǒng)。 基于以上的考慮,為了到達(dá)計(jì)算時(shí)間和存儲(chǔ)空間的雙贏,本發(fā)明構(gòu)建一種基于相
同父音節(jié)的樹(shù)狀識(shí)別網(wǎng)絡(luò),其構(gòu)建方法是將有相同父音節(jié)結(jié)點(diǎn)的部分進(jìn)行合并。圖4是基
于相同父音節(jié)的樹(shù)狀識(shí)別網(wǎng)絡(luò)示意圖。圖4中,"上海交通大學(xué)"和"上海郵管所"中,"交"
與"郵"的相同父音節(jié)是"上海(shanghai)";"上海交通大學(xué)"和"上海交管所"中,"通"與
"管"的相同父音節(jié)是"上海交(shang hai jiao)"。將有相同父音節(jié)結(jié)點(diǎn)的部分進(jìn)行合并,
就是將"上海交通大學(xué)"和"上海郵管所"中,"交"與"郵"的相同父音節(jié)"上海(shang hai)"
合并,以及將"上海交通大學(xué)"和"上海交管所"中的"上海交(shang hai jiao)"合并。這
種網(wǎng)絡(luò)的實(shí)現(xiàn)不需要大量的鏈表或者指針,而只需要一張簡(jiǎn)單的索引表便可以實(shí)現(xiàn)。這樣
既克服了大量音節(jié)結(jié)點(diǎn)重復(fù)匹配造成的計(jì)算時(shí)間的浪費(fèi),又節(jié)省了存儲(chǔ)空間。 在構(gòu)建識(shí)別網(wǎng)絡(luò)后,改進(jìn)快速識(shí)別搜索算法。根據(jù)上述基于相同父音節(jié)的樹(shù)形識(shí)
別網(wǎng)絡(luò),采用動(dòng)態(tài)調(diào)整窗寬的狀態(tài)級(jí)剪枝策略以及幀同步詞級(jí)剪枝策略。 傳統(tǒng)的固定窗寬的viterbi束搜索解碼,窗寬的選擇很大程度上決定著識(shí)別的速
度和識(shí)別準(zhǔn)確率, 一般窗寬越大識(shí)別時(shí)間越長(zhǎng),識(shí)別準(zhǔn)確率越高;相反,窗寬越窄識(shí)別時(shí)間
越短,但是識(shí)別準(zhǔn)確率也會(huì)隨之下降;基于實(shí)驗(yàn)證明,隨著搜索的進(jìn)行,有效路徑會(huì)越來(lái)越
明確,有效路徑和無(wú)效路徑之間的差異也會(huì)變大,候選有效路徑數(shù)會(huì)越來(lái)越少。在整個(gè)搜索
過(guò)程中始終保持一個(gè)恒定的窗寬大小其實(shí)是沒(méi)有必要的,這會(huì)帶來(lái)時(shí)間上的浪費(fèi)。 基于以上考慮,為了進(jìn)一步節(jié)省網(wǎng)絡(luò)解碼時(shí)間,本發(fā)明提出了一種在狀態(tài)級(jí)動(dòng)態(tài)
調(diào)整窗寬的剪枝策略,隨著維特比搜索的進(jìn)行,窗寬會(huì)變得越來(lái)越窄,這里采用簡(jiǎn)單但有效
的線性公式來(lái)調(diào)整窗框大小 其中n是幀序號(hào),fa是窗寬調(diào)整因子,BMX, B,,和Bf分別代表窗寬的上限、下限以 及實(shí)際所用的窗寬。 當(dāng)識(shí)別詞表很大時(shí),識(shí)別網(wǎng)絡(luò)搜索占據(jù)了系統(tǒng)總識(shí)別時(shí)間的大部分,所以如果能 在保證高識(shí)別率的情況下很好的控制候選詞條數(shù)量,那就能很大程度上的減少識(shí)別時(shí)間的 開(kāi)銷(xiāo)。為此,本發(fā)明提出了一種幀同步詞級(jí)剪枝策略,隨著搜索的進(jìn)行,詞條之間的差異逐 漸顯現(xiàn),以此可以逐步將一些可能性較小的詞條進(jìn)行剪枝。 考慮到如圖4所示的搜索網(wǎng)絡(luò)結(jié)構(gòu),漢語(yǔ)一共有418個(gè)無(wú)調(diào)的音節(jié),在搜索的剛開(kāi) 始搜索空間的分支度可以認(rèn)為是418(只有418棵音節(jié)樹(shù)),隨著搜索網(wǎng)絡(luò)的擴(kuò)展,整個(gè)空間的分支度會(huì)越來(lái)越大,不確定性也越來(lái)越大?;谒阉骶W(wǎng)絡(luò)分支度的考慮,本發(fā)明采用了如圖5所示的分段線性的詞級(jí)剪枝速度來(lái)近似分支度的非線性變化。當(dāng)剛開(kāi)始分支度比較小時(shí),采用比較陡峭的線性函數(shù)進(jìn)行快速的詞級(jí)剪枝;隨著網(wǎng)絡(luò)分支度的不斷增加,采用比較平滑的線性函數(shù)來(lái)放慢詞級(jí)剪枝速度。分段線性的詞級(jí)剪枝公式如下
<formula>formula see original document page 6</formula> 其中n是幀序號(hào),WMIN和Wr分別是詞級(jí)剪枝的下界和實(shí)際剪枝后的候選詞條數(shù)量,K是剪枝速度發(fā)生改變的幀序號(hào),&是詞級(jí)剪枝的速度因子。 本發(fā)明以一個(gè)車(chē)載GPS導(dǎo)航系統(tǒng)為嵌入式平臺(tái)進(jìn)行實(shí)驗(yàn),其識(shí)別任務(wù)是上海地名,共包括165, 176個(gè)上海地名。實(shí)驗(yàn)表明,在存儲(chǔ)量方面,采用傳統(tǒng)的嵌入式語(yǔ)音識(shí)別方法,需要16. 07MB空間;而本發(fā)明需要9.09MB空間,存儲(chǔ)量上節(jié)省43.43X。在CPU計(jì)算資源方面,在相同實(shí)驗(yàn)平臺(tái)的條件下,本發(fā)明的識(shí)別時(shí)間是原來(lái)方法的1/6,節(jié)省了 82. 72% ;同時(shí)一選識(shí)別率到達(dá)了 91%,前十選識(shí)別率超過(guò)了 97. 5%,能夠保持和傳統(tǒng)方法相當(dāng)?shù)淖R(shí)別精度。適合應(yīng)用于大詞匯量語(yǔ)音命令詞識(shí)別的嵌入式實(shí)現(xiàn)。 以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
一種嵌入式平臺(tái)大詞匯量語(yǔ)音命令詞的識(shí)別方法,包括步驟語(yǔ)音信號(hào)的預(yù)處理和語(yǔ)音識(shí)別參數(shù)的提取、建立語(yǔ)音聲學(xué)模型并進(jìn)行語(yǔ)音模型訓(xùn)練、構(gòu)建樹(shù)形識(shí)別網(wǎng)絡(luò)、應(yīng)用快速識(shí)別搜索算法,其特征在于,所述語(yǔ)音聲學(xué)模型,采用基于聲母右相關(guān)的詞內(nèi)雙音子模型;所述構(gòu)建樹(shù)形識(shí)別網(wǎng)絡(luò)具體是,構(gòu)建基于相同父音節(jié)的樹(shù)形識(shí)別網(wǎng)絡(luò),合并有相同父音節(jié)的結(jié)點(diǎn);所述快速識(shí)別搜索算法,根據(jù)所述基于相同父音節(jié)的樹(shù)形識(shí)別網(wǎng)絡(luò),采用動(dòng)態(tài)調(diào)整窗寬的狀態(tài)級(jí)剪枝策略以及幀同步詞級(jí)剪枝策略。
2. 根據(jù)權(quán)利要求1所述的一種嵌入式平臺(tái)大詞匯量語(yǔ)音命令詞的識(shí)別方法,其特征在 于,所述動(dòng)態(tài)調(diào)整窗寬的狀態(tài)級(jí)剪枝策略采用公式A = max(-n fa+BM, BMIN}調(diào)整窗寬; 其中,其中n是幀序號(hào),fa是窗寬調(diào)整因子,BMX, B,,和Br分別代表窗寬的上限、下限以及 實(shí)際所用的窗寬。
3. 根據(jù)權(quán)利要求1所述的一種嵌入式平臺(tái)大詞匯量語(yǔ)音命令詞的識(shí)別方法,其特征在 于,所述幀同步詞級(jí)剪枝策略采用公式Wr = max(-fi (n-N》+Wi, WMIN} , i = 1, 2, 3,...控 制詞級(jí)剪枝速度,其中n是幀序號(hào),WMIN和Wr分別是詞級(jí)剪枝的下界和實(shí)際剪枝后的候選詞 條數(shù)量,K是剪枝速度發(fā)生改變的幀序號(hào),&是詞級(jí)剪枝的速度因子。
全文摘要
本發(fā)明公開(kāi)了語(yǔ)音識(shí)別技術(shù)領(lǐng)域中的一種嵌入式平臺(tái)大詞匯量語(yǔ)音命令詞的識(shí)別方法。包括下列步驟語(yǔ)音信號(hào)的預(yù)處理和語(yǔ)音識(shí)別參數(shù)的提取、建立語(yǔ)音聲學(xué)模型并進(jìn)行語(yǔ)音模型訓(xùn)練、構(gòu)建樹(shù)形識(shí)別網(wǎng)絡(luò)、應(yīng)用快速識(shí)別搜索算法;其中,語(yǔ)音聲學(xué)模型,采用基于聲母右相關(guān)的詞內(nèi)雙音子模型;構(gòu)建樹(shù)形識(shí)別網(wǎng)絡(luò)具體是,構(gòu)建基于相同父音節(jié)的樹(shù)形識(shí)別網(wǎng)絡(luò),合并有相同父音節(jié)的結(jié)點(diǎn);快速識(shí)別搜索算法,根據(jù)所述基于相同父音節(jié)的樹(shù)形識(shí)別網(wǎng)絡(luò),采用動(dòng)態(tài)調(diào)整窗寬的狀態(tài)級(jí)剪枝策略以及幀同步詞級(jí)剪枝策略。本發(fā)明對(duì)傳統(tǒng)的嵌入式語(yǔ)音識(shí)別方法進(jìn)行了改進(jìn),實(shí)現(xiàn)了內(nèi)存和CPU資源的高效利用,提高了大詞匯量語(yǔ)音命令詞識(shí)別的速度。
文檔編號(hào)G10L15/12GK101751924SQ20091024240
公開(kāi)日2010年6月23日 申請(qǐng)日期2009年12月10日 優(yōu)先權(quán)日2009年12月10日
發(fā)明者劉加, 錢(qián)彥旻 申請(qǐng)人:清華大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1