本發(fā)明屬于語音信號處理領域,尤其涉及一種提高聲紋識別速度的方法及系統(tǒng)。
背景技術:
家用服務機器人是當今前沿高技術研究最活躍的領域之一,它可以完成有益于人類的服務工作,如提供家務、娛樂休閑、教育、安全監(jiān)控等服務,擁有廣泛的潛在客戶群體與市場,現(xiàn)有的家用服務機器人廣泛采用語音識別技術實現(xiàn)人機交互,讓機器人能夠聽懂人類語音,以執(zhí)行相應動作,然而,現(xiàn)有的機器人尚無法準確識別說話人身份,無法滿足用戶個性化的需求。隨著計算機技術和數(shù)字信號處理理論的發(fā)展出現(xiàn)的聲紋識別技術,通過從說話人的一段語音中,提取出反映該說話人生理、心理的語音特征參數(shù),通過對語音特征參數(shù)進行分析建模與模式匹配,來實現(xiàn)辨認或確認未知說話人身份的目的。然而,現(xiàn)有的聲紋識別系統(tǒng)往往是針對一特定的應用場景進行設計,當系統(tǒng)的應用場景發(fā)生改變時,自適應能力不強,無法實現(xiàn)人機自由交流,且在模式匹配時,每次都需從數(shù)據(jù)庫加載聲音模型,降低了聲紋識別的速度,這是本領域技術人員所不期望看到的。
技術實現(xiàn)要素:
為解決以上技術問題,提供一種提高聲紋識別速度的方法及系統(tǒng),解決現(xiàn)有識別方法的缺陷。
具體技術方案如下:
一種提高聲紋識別速度的方法,其中,應用于家用機器人,具體工作步驟包括:
s1:采集語音信號;
s2:對所述語音信號進行預處理;
s3:自所述預處理后的語音信號中提取語音特征參數(shù),所述語音特征參數(shù)包括線性預測得到的第一類特征參數(shù)及模擬人耳對聲音頻率的感知特性而提取的第二類特征參數(shù);
s4:為每一個家庭成員建立一個碼本存儲在語音數(shù)據(jù)庫中作為所述家庭成員的語音模板,所述家庭成員的所有碼本構成一聲學模型;
s5:預先根據(jù)使用頻率將所述聲學模型區(qū)分為第一聲學模型和第二聲學模型,其中,所述第一聲學模型的使用頻率大于所述第二聲學模型,并在通電時將所述第一聲學模型加載至緩存中;
s6:依據(jù)所述第一聲學模型和第二聲學模型對待測語音信號進行模式匹配,獲取識別結(jié)果。
上述的提高聲紋識別速度的方法,所述步驟s2中,所述預處理的步驟依次包括:
步驟s21,對所述預處理后的語音信號進行采樣和量化以獲得數(shù)字語音信號;
步驟s22,所述數(shù)字語音信號通過一濾波器組以提升所述數(shù)字信號的高頻成分;
步驟s23,對步驟s22得到的語音信號進行分幀與加窗,獲得加窗后的語音信號。
上述的提高聲紋識別速度的方法,所述步驟s3中提取所述第一類特征參數(shù)為線性預測系數(shù),提取步驟如下:
步驟s31a,定義短時語音信號和誤差信號;
步驟s32a,計算所述短時語音信號和所述誤差信號的誤差平方和;
步驟s33a,對所述誤差平方和求導數(shù),并求解方程組獲得所述第一類特征參數(shù)。
上述的提高聲紋識別速度的方法,所述步驟s3中提取所述第二類特征參數(shù)的步驟包括:
步驟s31b,對所述預處理后的語音信號進行傅里葉變換得到線性頻譜;
步驟s32b,對所述線性頻譜通過一三角形帶通濾波器組得到相應的梅爾頻譜;
步驟s33b,計算所述梅爾頻譜的對數(shù)頻譜;
步驟s34b,對所述對數(shù)頻譜進行離散余弦變換得到第二類特征參數(shù)。
上述的提高聲紋識別速度的方法,所述步驟s4的具體步驟如下:
步驟s41,自所述語音信號中提取n個特征矢量,通過聚類法對所述特征矢量進行歸類得到m個碼本;
步驟s42,得到每個類對應的碼本矢量;
步驟s43,建立每一個家庭成員的碼本矢量的集合構成聲學模型。
上述的提高聲紋識別速度的方法,所述步驟s6具體如下,
步驟s61,將待識別的語音信號依次與所述第一聲學模型和第二聲學模型作相似性匹配,并根據(jù)加權歐式距離測度進行判斷;
步驟s62,選取適當?shù)木嚯x度量作為門限值;
步驟s63,滿足門限值范圍內(nèi)的結(jié)果作為識別結(jié)果。
還提供,一種提高聲紋識別速度的系統(tǒng),包括
語音輸入模塊,用于捕獲語音信號;
預處理模塊,與所述語音輸入模塊連接,用于對所述語音信號進行預處理;
第一特征參數(shù)提取模塊,與所述預處理模塊連接,用于獲取所述語音信號中的第一特征參數(shù);
第二特征參數(shù)提取模塊,與所述預處理模塊連接,用于獲取所述語音信號中的第二特征參數(shù);
訓練模塊,與所述第一特征參數(shù)提取模塊和所述第二特征參數(shù)提取模塊連接,用于建立每個家庭成員的語音模板,所述家庭成員的所有碼本構成一聲學模型;
分類處理模塊,與所述訓練模塊連接,預先根據(jù)使用頻率將所述聲學模型區(qū)分為第一聲學模型和第二聲學模型,其中,所述第一聲學模型的使用頻率大于所述第二聲學模型,并在通電時將所述第一聲學模型加載至緩存中;
模板匹配模塊,與所述分類處理模塊連接,依據(jù)所述第一聲學模型和第二聲學模型對待測語音信號進行模式匹配,獲取識別結(jié)果。
有益效果:以上技術方案可以自適應地實現(xiàn)聲紋識別,并有效提高了聲紋識別的速度,應對不同應用場景下的人機交流,有利于提升用戶體驗。
附圖說明
圖1為本發(fā)明的方法流程圖;
圖2為本發(fā)明的步驟2的方法流程圖;
圖3為本發(fā)明的系統(tǒng)結(jié)構示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
需要說明的是,在不沖突的情況下,本發(fā)明中的實施例及實施例中的特征可以相互組合。
下面結(jié)合附圖和具體實施例對本發(fā)明作進一步說明,但不作為本發(fā)明的限定。
參照圖1,一種提高聲紋識別速度的方法,其中,應用于家用機器人,具體工作步驟包括:
s1:采集語音信號;
s2:對語音信號進行預處理;
s3:自預處理后的語音信號中提取語音特征參數(shù),語音特征參數(shù)包括線性預測得到的第一類特征參數(shù)及模擬人耳對聲音頻率的感知特性而提取的第二類特征參數(shù);
s4:為每一個家庭成員建立一個碼本存儲在語音數(shù)據(jù)庫中作為家庭成員的語音模板,家庭成員的所有碼本構成一聲學模型;
s5:預先根據(jù)使用頻率將聲學模型區(qū)分為第一聲學模型(常用)和第二聲學模型(不常用),其中,第一聲學模型的使用頻率大于第二聲學模型,并在通電時將第一聲學模型加載至緩存中,將第二聲學模型仍然存儲在語音數(shù)據(jù)庫中;
s6:依據(jù)第一聲學模型和第二聲學模型對待測語音信號進行模式匹配,獲取識別結(jié)果。
每個人由于發(fā)音器官的生理差異會導致發(fā)音方式和說話習慣各不相同,本發(fā)明結(jié)合線性預測得到的第一類特征參數(shù)及模擬人耳對聲音頻率的感知特性而提取的第二類特征參數(shù),獲得聲學模型,以改善現(xiàn)有的聲紋識別效果,提升用戶體驗。
上述的提高聲紋識別速度的方法,參照圖2,步驟s2中,預處理的步驟依次包括:
步驟s21,對預處理后的語音信號進行采樣和量化以獲得數(shù)字語音信號;
步驟s22,數(shù)字語音信號通過一濾波器組以提升數(shù)字信號的高頻成分;
步驟s23,對步驟s22得到的語音信號進行分幀與加窗,獲得加窗后的語音信號。
上述的提高聲紋識別速度的方法,步驟s3中提取第一類特征參數(shù)可以為線性預測系數(shù),其提取步驟如下:
步驟s31a,定義短時語音信號和誤差信號;
步驟s32a,計算短時語音信號和誤差信號的誤差平方和;
步驟s33a,對誤差平方和求導數(shù),并求解方程組獲得第一類特征參數(shù)。
由于語音相鄰樣點間具有相關性,可以利用線性預測的方式,根據(jù)過去的語音樣點值來預測現(xiàn)在或未來的樣點值,即利用過去若干個語音抽樣或它們的線性組合,來逼近語音現(xiàn)在的抽樣值。
上述的提高聲紋識別速度的方法,步驟s3中提取第二類特征參數(shù)的步驟,包括:
步驟s31b,對預處理后的語音信號進行傅里葉變換得到線性頻譜;
步驟s32b,對線性頻譜通過一三角形帶通濾波器組得到相應的梅爾頻譜;
步驟s33b,計算梅爾頻譜的對數(shù)頻譜;
步驟s34b,對對數(shù)頻譜進行離散余弦變換得到第二類特征參數(shù)。
上述的提高聲紋識別速度的方法,步驟s4的具體步驟如下:
步驟s41,自第一類特征參數(shù)和第二類特征參數(shù)中提取n個特征矢量,通過聚類法對特征矢量進行歸類得到m個碼本;
步驟s42,得到每個類對應的碼本矢量;
步驟s43,建立每一個家庭成員的碼本矢量的集合構成聲學模型。
上述的提高聲紋識別速度的方法,步驟s6具體如下,
步驟s61,將待識別的語音信號依次與第一聲學模型和第二聲學模型作相似性匹配,并根據(jù)加權歐式距離測度進行判斷;
步驟s62,選取適當?shù)木嚯x度量作為門限值;
步驟s63,滿足門限值范圍內(nèi)的結(jié)果作為識別結(jié)果。
還提供,一種提高聲紋識別速度的系統(tǒng),參照圖3,包括
語音輸入模塊1,用于捕獲語音信號;
預處理模塊2,與語音輸入模塊1連接,用于對語音信號進行預處理;
第一特征參數(shù)提取模塊3,與預處理模塊2連接,用于獲取語音信號中的第一特征參數(shù);
第二特征參數(shù)提取模塊4,與預處理模塊2連接,用于獲取語音信號中的第二特征參數(shù);
訓練模塊5,與第一特征參數(shù)提取模塊和第二特征參數(shù)提取模塊連接,用于建立每個家庭成員的語音模板,家庭成員的所有碼本構成一聲學模型;
分類處理模塊6,與訓練模塊5連接,預先根據(jù)使用頻率將聲學模型區(qū)分為第一聲學模型和第二聲學模型,其中,第一聲學模型的使用頻率大于第二聲學模型,并在通電時將第一聲學模型加載至緩存中,將第二聲學模型存儲在語音數(shù)據(jù)庫中;
模板匹配模塊7,與分類處理模塊6連接,依次依據(jù)第一聲學模型和第二聲學模型對待測語音信號進行模式匹配,獲取識別結(jié)果。
以上僅為本發(fā)明較佳的實施例,并非因此限制本發(fā)明的實施方式及保護范圍,對于本領域技術人員而言,應當能夠意識到凡運用本發(fā)明說明書及圖示內(nèi)容所作出的等同替換和顯而易見的變化所得到的方案,均應當包含在本發(fā)明的保護范圍內(nèi)。