專利名稱:一種樓宇對講門口機(jī)聲紋識別開鎖模塊及識別開鎖方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電子領(lǐng)域,尤其涉及數(shù)字信號處理領(lǐng)域,特別涉及語音識別技術(shù),特別是一種樓宇對講門口機(jī)聲紋識別開鎖模塊及識別開鎖方法。
背景技術(shù):
現(xiàn)有技術(shù)中,樓宇對講產(chǎn)品廣泛應(yīng)用。樓宇對講設(shè)備中的門口機(jī)的開鎖方式有鑰匙開鎖、密碼開鎖、卡開鎖、生物識別開鎖四種,其中,卡開鎖的應(yīng)用最為廣泛。但是,傳統(tǒng)的鑰匙攜帶中易丟失,易被未經(jīng)授權(quán)復(fù)制;密碼容易被盜取;卡在攜帶中容易丟失;生物識別開鎖方式中以指紋識別為主,指紋識別對使用者要求高,手指劃傷、粘有灰塵、手指擺放不正等情況都容易造成拒識,而且指紋的與識別裝置的接觸使該方式不夠衛(wèi)生,且容易使人產(chǎn)生被侵犯的感覺。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種樓宇對講門口機(jī)聲紋識別開鎖模塊,所述的這種樓宇對講門口機(jī)聲紋識別開鎖模塊要解決現(xiàn)有技術(shù)中生物識別開鎖方式不理想的技術(shù)問題。
本發(fā)明的這種樓宇對講門口機(jī)聲紋識別開鎖模塊由設(shè)置在電路板上的鍵盤模塊、語音采集模塊、語音處理模塊、兩線開關(guān)狀態(tài)輸出模塊、語音提示模塊和RS232通訊接口模塊構(gòu)成,其中,所述的鍵盤模塊和語音采集模塊分別通過信號線與所述的語音處理模塊連接,所述的語音采集模塊連接有話筒,所述的兩線開關(guān)狀態(tài)輸出模塊、語音提示模塊和RS232通訊接口模塊分別通過信號線與所述的語音處理模塊連接,所述的語音處理模塊中設(shè)置有語音預(yù)處理模塊、訓(xùn)練模塊和識別模塊,所述的語音預(yù)處理模塊通過信號線分別與所述的訓(xùn)練模塊和識別模塊連接,所述的訓(xùn)練模塊通過信號線與所述的識別模塊連接。
本發(fā)明的目的還在于提供一種上述的所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其中,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的語音采集模塊采集語音信號并將語音信號轉(zhuǎn)換成語音數(shù)字信號后傳送至所述的語音預(yù)處理模塊,所述的語音預(yù)處理模塊對語音數(shù)字信號進(jìn)行語音分析處理,所述的語音預(yù)處理模塊向訓(xùn)練模塊或識別模塊輸出語音的微特征參數(shù),所述的訓(xùn)練模塊利用語音的微特征參數(shù),對所述的鍵盤模塊或RS232通訊接口模塊提供的身份確認(rèn)編號所對應(yīng)的語音樣本進(jìn)行訓(xùn)練,形成主人獨有的語音鑰匙聲紋編碼,所述的訓(xùn)練模塊包括動態(tài)時間歸整(DTW)、離散余弦變換(DCT)訓(xùn)練和人工神經(jīng)網(wǎng)絡(luò)(ANN)訓(xùn)練兩部分,所述的訓(xùn)練過程發(fā)生在用戶初次訓(xùn)練或在使用樓宇對講設(shè)備過程中一次識別后識別可信度偏低時的累加訓(xùn)練,所述的識別模塊利用語音的微特征參數(shù),先用離散余弦變換(DCT)方法預(yù)選身份確認(rèn)編號,再用動態(tài)時間歸整方法(DTW)從預(yù)選出的身份確認(rèn)編號集中確定唯一一個已訓(xùn)練對象的身份確認(rèn)編號,最后通過人工神經(jīng)網(wǎng)絡(luò)(ANN)聲紋識別計算方法對當(dāng)前已訓(xùn)練對象的身份確認(rèn)編號的對象進(jìn)行身份確認(rèn),所述的通訊接口模塊與外部的樓宇對講主控制板通訊,通訊的內(nèi)容包括訓(xùn)練授權(quán)、鍵盤編碼、識別結(jié)果及程序更新,所述的兩線開關(guān)狀態(tài)輸出模塊根據(jù)識別模塊的識別結(jié)果提供開門控制信號,所述的鍵盤模塊接收外接鍵盤輸入信號,所述的語音提示模塊向外部輸出語音提示信號。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的語音分析處理的過程中包括語音壓縮、語音口令實時自動檢測、預(yù)加重、加窗、加幀、去噪、梅爾刻度式倒頻譜參數(shù)特征提取的處理步驟。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的語音口令實時自動檢測的處理步驟中,所述的語音預(yù)處理模塊實時自動檢測聲音信號,當(dāng)檢測到符合語音口令的聲音信號時啟動語音識別步驟或訓(xùn)練步驟,否則將采集的聲音信號直接丟棄。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的語音口令實時自動檢測的處理步驟中,首先為程序分配一段存儲6秒鐘語音的內(nèi)存,程序持續(xù)接收語音數(shù)據(jù),并最多保存最近6秒時間內(nèi)的語音數(shù)據(jù),然后把這段內(nèi)存里的語音數(shù)據(jù)以20ms為一個壓縮點,壓縮點是取20ms內(nèi)最大的數(shù)據(jù),從第一個壓縮點開始用過零率算法判斷這段新加的語音是否在設(shè)定的范圍內(nèi),將超出這個范圍內(nèi)的壓縮點的數(shù)據(jù)標(biāo)記為無效值0,然后用壓縮數(shù)據(jù)檢測孤立點,所述的孤立點是指,語音在這個點突然加大,則標(biāo)記為非語音,標(biāo)記為0,然后在語音的末端檢測到有一段語音低于設(shè)定的靜音閾值并且具有設(shè)定長度時,認(rèn)為靜音信號出現(xiàn),口令已經(jīng)結(jié)束,否則,繼續(xù)錄音,或者,在檢測到靜音信號的前提下,系統(tǒng)判斷大于靜音閾值的長度和大于語音閾值的長度在符合對口令的要求長度范圍內(nèi),則認(rèn)為這段語音是用戶的一個語音口令,保存這段語音進(jìn)行語音識別或訓(xùn)練。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的語音預(yù)處理模塊向訓(xùn)練模塊或識別模塊輸出語音的微特征參數(shù),微特征參數(shù)是所謂的語音峰位特征,它是對輸入語音的幅度累加和特征、語音的MFCC的二階特征,按照幅度權(quán)重、倒譜權(quán)重系數(shù),進(jìn)行相加或相減,得到4組波形劃分特征數(shù)據(jù),再把波形劃分特征和語音的過零率特征輸入到一個容器中,進(jìn)行峰位劃分與合并,然后按照峰位的最小間距信息去除分布過密的峰位,最后得到一組準(zhǔn)確的峰位信息。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的訓(xùn)練模塊接收所述的語音預(yù)處理模塊輸出的語音的微特征參數(shù),對所述的鍵盤模塊或RS232通訊接口模塊提供的身份確認(rèn)編號所對應(yīng)的語音樣本進(jìn)行訓(xùn)練,所述的訓(xùn)練模塊包括動態(tài)時間歸整(DTW)、離散余弦變換(DCT)訓(xùn)練和人工神經(jīng)網(wǎng)絡(luò)(ANN)訓(xùn)練兩部分,訓(xùn)練過程發(fā)生在用戶初次訓(xùn)練或在使用樓宇對講設(shè)備過程中一次識別后識別可信度偏低時的累加訓(xùn)練,所述的動態(tài)時間規(guī)整訓(xùn)練,利用動態(tài)時間歸整算法將訓(xùn)練樣本集規(guī)整成一個特征向量,形成動態(tài)時間歸整模板,所述的離散余玄變換訓(xùn)練通過對動態(tài)時間歸整模板進(jìn)行一次離散余弦變換,形成離散余弦變換模板,所述的人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練利用訓(xùn)練對象的語音樣本和非訓(xùn)練對象的語音樣本來分割一個多維的頻譜空間,使得主人語音樣本所占據(jù)的頻譜空間被映射到主人的輸出,非主人語音樣本所占據(jù)的頻譜空間被映射到非主人的輸出,形成主人獨有的語音鑰匙聲紋編碼。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的訓(xùn)練模塊具有一個訓(xùn)練樣本集,每個語音口令數(shù)據(jù)經(jīng)所述的語音預(yù)處理模塊預(yù)處理,形成一個訓(xùn)練樣本,組成訓(xùn)練樣本集,訓(xùn)練樣本集中的訓(xùn)練樣本按照時間先后保存。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的訓(xùn)練模塊對所述的訓(xùn)練樣本進(jìn)行動態(tài)時間規(guī)整模板訓(xùn)練,再對動態(tài)時間規(guī)整(DTW)模板做離散余玄變換形成離散余玄變換(DCT)模板,在DTW、DCT模板已存在的情況下進(jìn)行DTW、DCT模板的累加訓(xùn)練,所述的累加訓(xùn)練發(fā)生使用樓宇對講設(shè)備過程中一次識別后識別可信度偏低時,所述的累加訓(xùn)練包括(1)錄制語音錄制讀入的語音口令,(2)語音信號預(yù)處理由語音預(yù)處理模塊對語音信號進(jìn)行預(yù)處理,將語音口令語音數(shù)據(jù)形成一個新的訓(xùn)練樣本,
(3)重構(gòu)訓(xùn)練樣本集將新的訓(xùn)練樣本添加至訓(xùn)練樣本集中,并在當(dāng)前的訓(xùn)練樣本總數(shù)超過了最大訓(xùn)練樣本數(shù)時,刪除時間最早的訓(xùn)練樣本,(4)DTW模板訓(xùn)練,(5)DCT模板訓(xùn)練。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于在所述的人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練的步驟中,創(chuàng)建背景模型,背景模型中包含隨機(jī)語音樣本,用于在訓(xùn)練中建立非對象語音樣本所占據(jù)的頻譜空間向非對象的輸出映射的關(guān)聯(lián)。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于在所述的人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練的步驟中,確定ANN人工神經(jīng)網(wǎng)絡(luò)識別動態(tài)閾值,就是在ANN人工神經(jīng)網(wǎng)絡(luò)模板創(chuàng)建之后,用該模板識別一個公共的口令集,得到一組可信度,把這組可信度排序,根據(jù)誤識不超過1%的原則,反推出當(dāng)前對象的識別閾值,而不使用相同的閾值作為所有對象的識別閾值。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于在所述的ANN人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練的步驟中,利用對象的語音樣本和非對象的語音樣本來調(diào)整一個神經(jīng)網(wǎng)絡(luò)權(quán)值,將對象的語音樣本映射到對象的激勵輸出,非對象的語音樣本映射到對象的抑制輸出,完成ANN人工神經(jīng)網(wǎng)絡(luò)模板的訓(xùn)練,在ANN人工神經(jīng)網(wǎng)絡(luò)模板已存在的情況下再進(jìn)行ANN人工神經(jīng)網(wǎng)絡(luò)的累加訓(xùn)練,累加訓(xùn)練發(fā)生在使用樓宇對講設(shè)備過程中一次識別后識別可信度偏低時,所述的累加訓(xùn)練的過程包括(1)錄制累加訓(xùn)練口令,并預(yù)處理形成訓(xùn)練樣本,(2)重構(gòu)訓(xùn)練樣本集將新的訓(xùn)練樣本添加至訓(xùn)練樣本集中,在當(dāng)前的訓(xùn)練樣本總數(shù)超過了最大訓(xùn)練樣本數(shù)時,刪除時間最早的訓(xùn)練樣本,(3)進(jìn)行ANN人工神經(jīng)網(wǎng)絡(luò)模板訓(xùn)練。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的識別模塊根據(jù)所述的微特征參數(shù)利用離散余弦變換算法形成當(dāng)前被識別對象的離散余玄特征樣本,將該特征樣本和對所有已訓(xùn)練對象的離散余玄模板比對,從中預(yù)選出與當(dāng)前被識別對象語音特征接近的身份確認(rèn)編號,形成預(yù)選對象集,再利用動態(tài)時間歸整算法在上述預(yù)選產(chǎn)生的已訓(xùn)練對象中進(jìn)行比對,從中選出與當(dāng)前被識別對象語音特征最接近的唯一一個已訓(xùn)練對象的身份確認(rèn)編號,該已訓(xùn)練對象的身份確認(rèn)編號被確定合法之后,識別模塊再通過人工神經(jīng)網(wǎng)絡(luò)聲紋識別算法對當(dāng)前被識別對象進(jìn)行確認(rèn),在所述的確認(rèn)過程中,識別模塊通過人工神經(jīng)網(wǎng)絡(luò)聲紋識別算法利用多層聚類神經(jīng)網(wǎng)絡(luò)完成語音信號特征模糊動態(tài)集合的聚類,以及已聚類的激勵群到說話人的轉(zhuǎn)換,實現(xiàn)激勵群映射到說話人輸出,在正確訓(xùn)練的情況下,只有語音鑰匙的主人的輸出被激勵,而所有非主人的輸出被抑制,當(dāng)可信度輸出值超過訓(xùn)練時產(chǎn)生的識別閾值時認(rèn)為被識別對象就是語音鑰匙的主人。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊,其特征在于所述的兩線開關(guān)狀態(tài)輸出模塊連接有開鎖驅(qū)動電路。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊,其特征在于所述的語音提示模塊連接有揚聲器。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊,其特征在于所述的通訊接口模塊通過通訊電纜連接外部的樓宇對講主控制板。
進(jìn)一步的,所述的樓宇對講門口機(jī)聲紋識別開鎖模塊,其特征在于所述的通訊接口模塊是RS232串行通訊接口模塊。
本發(fā)明與已有技術(shù)相對照,其效果是積極和明顯的。本發(fā)明利用語意識別和聲紋識別技術(shù),通過對說話人聲音進(jìn)行精確辨別來實現(xiàn)開鎖控制,能增加鎖具的安全性,其識別的誤識率小于1%。本發(fā)明利用語音作鑰匙,較之傳統(tǒng)方式更方便、安全。具體有以下優(yōu)點1.使用方便本發(fā)明應(yīng)用于樓宇對講產(chǎn)品,最大限度的解放了人們的雙手,使出入變的非常自由和方便。利用人自身的聲音作為開門的“鑰匙”,只需說出口令就可輕松開門,無需攜帶鑰匙,卡片,不會丟失,尤其在黑暗的環(huán)境下更能體現(xiàn)其方便性,自然的交流界面,即使是老人使用也感覺不到絲毫困難。
2.科學(xué)時尚語音識別技術(shù)是至今還沒有在民用市場廣泛應(yīng)用的前衛(wèi)技術(shù),一旦應(yīng)用于人們的日常生活,會使接觸它的人們感到時尚,這在很大程度上迎合了人們在高級場所的心理需求,提升小區(qū)的檔次,另外,自然的交流界面是人與其他事物交流所追求的終極目標(biāo)。
3.自學(xué)習(xí)性可以自動適應(yīng)用戶語音,語調(diào)變化而不斷調(diào)整,隨著人們使用的越來越熟練,系統(tǒng)的指標(biāo)也會得到優(yōu)化。
4.誤識率低誤識率可控制在1%以下,安全性好。
5.拒識率低可控制在5%以下。
6.識別速度快等待時間控制在0.5秒以內(nèi)。
7.維護(hù)操作簡便科學(xué),提高物業(yè)管理水平管理員只能訓(xùn)練用戶和清除語音,簡單實用,配有語音提示,操作簡便,不能增加、更改或刪除ID號碼,只能分配和使用原有的ID號碼,不支持追加訓(xùn)練功能,管理更科學(xué),從而使物業(yè)可以輕而易舉的實現(xiàn)統(tǒng)一管理,提高物業(yè)的管理水平。
8.安全性好人的語音不會被竊取,在外來人員或本單元房屋租住人員離開時,只需清除其訓(xùn)練記錄,就可將其拒之門外,安全性較好。
9.使用維護(hù)成本低設(shè)備不易磨損,易保養(yǎng),開門不需其他設(shè)備,自己的聲音即可,使用維護(hù)成本低。
10.易于接受非接觸性,不但使它不依賴于周圍的環(huán)境,而且更衛(wèi)生,不會像指紋那樣讓人產(chǎn)生侵犯人權(quán)的感覺。
11.兼容性好,集成簡便無需二次開發(fā),就可和原有樓宇對講系統(tǒng)結(jié)合。在不適合使用語音的環(huán)境下,用戶還可以選擇密碼或刷卡開門的方式,幾種開門方式是并行的,用戶可以自由選擇,本發(fā)明只是增加了產(chǎn)品的方便性,并不帶來任何麻煩。
本發(fā)明的目的、特征及優(yōu)點將通過實施例結(jié)合附圖進(jìn)行詳細(xì)說明。
圖1是本發(fā)明一種樓宇對講門口機(jī)聲紋識別開鎖模塊及識別開鎖方法的一個優(yōu)選實施例的物理模塊示意圖。
圖2是本發(fā)明一種樓宇對講門口機(jī)聲紋識別開鎖模塊及識別開鎖方法的一個優(yōu)選實施例的功能模塊示意圖。
圖3是本發(fā)明一種樓宇對講門口機(jī)聲紋識別開鎖模塊及識別開鎖方法的一個優(yōu)選實施例中的語音預(yù)處理及特征提取過程示意圖。
圖4是本發(fā)明一種樓宇對講門口機(jī)聲紋識別開鎖模塊及識別開鎖方法的一個優(yōu)選實施例中的訓(xùn)練原理示意圖。
圖5是本發(fā)明一種樓宇對講門口機(jī)聲紋識別開鎖模塊及識別開鎖方法的一個優(yōu)選實施例中的識別原理示意圖。
圖6是本發(fā)明一種樓宇對講門口機(jī)聲紋識別開鎖模塊及識別開鎖方法的一個優(yōu)選實施例中的動態(tài)時間歸整算法合法搜索區(qū)域示意圖。
圖7是本發(fā)明一種樓宇對講門口機(jī)聲紋識別開鎖模塊及識別開鎖方法的一個優(yōu)選實施例中的動態(tài)時間歸整算法搜索路徑示意圖。
具體實施例方式
如圖1、圖2、圖3、圖4、圖5、圖6和圖7所示,本發(fā)明一種樓宇對講門口機(jī)聲紋識別開鎖模塊,由語音采集模塊1、語音處理模塊2和RS232通訊接口模塊3構(gòu)成,所述的語音處理模塊2由語音預(yù)處理模塊21、訓(xùn)練模塊22和識別模塊23構(gòu)成,所述的語音預(yù)處理模塊21連接有所述的訓(xùn)練模塊22和所述的識別模塊23,所述的訓(xùn)練模塊22連接有所述的識別模塊23,所述的所述語音預(yù)處理模塊21的前端設(shè)置有所述的語音采集模塊1,所述的所述語音預(yù)處理模塊21的前端設(shè)置有鍵盤模塊4,所述的語音處理模塊2連接有語音提示模塊6,所述的語音處理模塊2連接有所述的RS232通訊接口模塊3,所述的識別模塊23連接有兩線開關(guān)狀態(tài)輸出模塊5。
進(jìn)一步的,所述的兩線開關(guān)狀態(tài)輸出模塊5連接有開鎖驅(qū)動電路7。
進(jìn)一步的,所述的語音提示模塊6連接有揚聲器8。
進(jìn)一步的,所述的RS232通訊接口模塊3通過通訊電纜連接有外部的樓宇對講主控制板9。
所述的語音采集模塊1利用麥克風(fēng)10采集語音,將語音信號轉(zhuǎn)換成數(shù)字信號,并把語音數(shù)字信號傳送至所述的語音預(yù)處理模塊21,所述的語音預(yù)處理模塊21對語音文件進(jìn)行語音分析處理,并輸出語音的微特征參數(shù)供訓(xùn)練模塊22或識別模塊23使用,所述的訓(xùn)練模塊22接收語音預(yù)處理后的數(shù)據(jù),對外部鍵盤輸入或主機(jī)通過所述的通訊接口所提供的身份標(biāo)識號碼對應(yīng)的語音樣本進(jìn)行訓(xùn)練,首先利用動態(tài)時間歸整算法訓(xùn)練將訓(xùn)練樣本集規(guī)整成一個特征向量,形成動態(tài)時間歸整模板,再通過離散余弦變換訓(xùn)練對動態(tài)時間歸整模板進(jìn)行一次離散余弦變換,形成離散余弦變換模板,最后通過人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練利用訓(xùn)練對象的語音樣本和非訓(xùn)練對象的語音樣本來分割一個多維的頻譜空間,使得主人語音樣本所占據(jù)的頻譜空間被映射到主人的輸出,而非主人語音樣本所占據(jù)的頻譜空間被映射到非主人的輸出,形成主人獨有的語音鑰匙聲紋編碼,所述的識別模塊23利用所述的訓(xùn)練模塊22生成的語音鑰匙聲紋模板和語音預(yù)處理模塊21得到的說話人語音微特征參數(shù),所述的識別模塊根據(jù)所述的微特征參數(shù)利用離散余弦變換算法形成當(dāng)前被識別對象的離散余玄特征樣本,將該特征樣本和對所有已訓(xùn)練對象的離散余玄模板比對,從而得到與被識別人特征接近的已訓(xùn)練者身份標(biāo)識號,形成預(yù)選對象集,再利用動態(tài)時間歸整算法比對離散余弦變換算法預(yù)選的已訓(xùn)練對象,得到與被識別人特征最接近的唯一一個已訓(xùn)練對象身份標(biāo)識,若為合法身份標(biāo)識,進(jìn)入人工神經(jīng)網(wǎng)絡(luò)聲紋識別進(jìn)行說話人確認(rèn),否則識別提前結(jié)束,人工神經(jīng)網(wǎng)絡(luò)聲紋識別通過語音信號特征模糊動態(tài)集合的聚類,并利用單層感知機(jī)網(wǎng)絡(luò)實現(xiàn)已聚類的激勵群到說話人的轉(zhuǎn)換,從而識別出說話人,所述的RS232通訊接口模塊3用于與外部的樓宇對講主控制板進(jìn)行通訊,通訊內(nèi)容包括訓(xùn)練授權(quán)、鍵盤編碼、識別結(jié)果及程序更新,所述的兩線開關(guān)狀態(tài)輸出模塊5根據(jù)識別模塊23的識別結(jié)果決定是否提供開門控制信號,并由連接在一起的原有的外部開鎖板來實現(xiàn)鎖的開關(guān),所述的鍵盤模塊4連接外接鍵盤11,在訓(xùn)練過程中使用,所述的語音提示模塊6用于提示使用者操作流程和操作狀態(tài)反饋,作為人機(jī)交互界面的輸出模塊。
本發(fā)明具體的各模塊的實現(xiàn)原理和工作過程如下所述一、鍵盤模塊在語音管理操作中,需要輸入用戶ID(身份標(biāo)識)號及操作方式,如語音訓(xùn)練、語音模板刪除等操作,本模塊中保留此接口方便用戶使用。
二、語音采集模塊在語音采集模塊中利用樓宇對講門口機(jī)聲紋識別開鎖模塊的語音接收設(shè)備,如微型話筒等,接收到語音信號,并利用語音采集芯片將語音信號轉(zhuǎn)換為數(shù)字信號,然后將語音數(shù)字信號傳送給系統(tǒng)的語音預(yù)處理模塊。
三、語音預(yù)處理模塊語音預(yù)處理模塊接收到語音信號后,將對語音信號做分析處理,并提取語音微特征,為訓(xùn)練或開鎖做準(zhǔn)備。語音預(yù)處理及特征提取過程如圖3所示。
具體語音預(yù)處理及特征提取過程包括以下內(nèi)容1.語音壓縮在語音數(shù)據(jù)輸入以后,為了減少運算數(shù)據(jù)量,首先要對數(shù)據(jù)進(jìn)行壓縮,壓縮的方法就是每20ms的語音采樣(按照8kHz采樣率就是160個點)壓縮成一個數(shù)據(jù)點,壓縮方法是求這20ms內(nèi)采樣數(shù)據(jù)的最大值。這樣壓縮之后的數(shù)據(jù)代表了語音的包絡(luò)波形。另外為了滿足實時檢測的需要,每60ms就有一幀新的語音被追加6秒的FIFO隊列緩沖區(qū),這就意味著算法每隔60ms就對最近6秒的語音數(shù)據(jù)檢測一次是否存在一次完整的語音命令輸入。
2.語音口令實時自動檢測本優(yōu)選實施例可實時自動檢測聲音信號,當(dāng)檢測到符合語音口令的聲音信號時才啟動語音識別或訓(xùn)練,否則將采集的聲音信號作為噪聲直接丟棄,不做處理。
本優(yōu)選實施例的語音口令實時自動檢測具體過程是首先為程序分配一段能存儲6秒鐘語音的內(nèi)存,也就是說程序一直在錄入語音,但最多保存最近6秒的語音。當(dāng)程序每接收一次數(shù)據(jù)時,先把它加到這段內(nèi)存里,如果已經(jīng)存滿,則從存儲的語音的前端開始刪除,確保新接收的數(shù)據(jù)能夠加進(jìn)來。然后把這段內(nèi)存里的語音數(shù)據(jù)以20ms為一個壓縮點,壓縮點是取20ms內(nèi)最大的數(shù)據(jù)。從第一個壓縮點開始用過零率算法判斷這段新加的語音是否在一定的范圍內(nèi),如果不在這個范圍內(nèi)我們把這個壓縮點的數(shù)據(jù)記為無效值0。然后用壓縮數(shù)據(jù)檢測孤立點,所謂孤立點是指,語音在這個點突然加大,則視為非語音,標(biāo)記為0。本優(yōu)選實施例中定義了兩個參數(shù),一個是靜音閾值(低于此值為靜音),一個是語音閾值(高于此值為語音)。如果在語音的末端檢測到有一段語音它低于靜音閾值并且足夠長的話,則認(rèn)為靜音信號出現(xiàn),如果檢測到這個信號,則意味著口令已經(jīng)結(jié)束,否則,繼續(xù)錄音。在檢測到靜音信號的前提下,系統(tǒng)判斷大于靜音閾值的長度和大于語音閾值的長度在符合對口令的要求長度范圍內(nèi),則認(rèn)為這段語音是用戶的一個語音口令,保存這段語音進(jìn)行接下來的語音識別或訓(xùn)練。
3.放大及增益控制將語音信號適當(dāng)增大,以便于之后的其它信號處理。
4.預(yù)濾波抑制輸入信號各頻域分量中頻率超出fs/2的所有分量(fs為采樣頻率),以防止混疊干擾,同時抑制50Hz的電源工頻干擾。
5.非語音信號過濾掃描數(shù)字化后的語音口令數(shù)據(jù),將非語音信號噪音等剪輯掉。
6.預(yù)加重提升高頻部分,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便于頻譜分析。
7.加幀一般每秒的幀數(shù)約為33~100幀,視實際情況而定。
8.加窗為了避免倒譜中的基音峰變得不清晰甚至消失,本優(yōu)選實施例采用漢明窗。
經(jīng)過上面介紹的過程,語音信號就被分割成一幀一幀的加過窗函數(shù)的短信號,在進(jìn)行處理時,按幀從數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取下一幀,最后得到由每一幀組成參數(shù)組成的語音特征參數(shù)的時間序列。
9.語音特征參數(shù)提取語音特征參數(shù)的選擇是整個系統(tǒng)中的基礎(chǔ),對語音識別率有著極其重要的影響。
本發(fā)明的優(yōu)選實施例采用多種語音特征提取技術(shù),包括MFCC(梅爾刻度式倒頻譜參數(shù))及微分系數(shù)、基音相關(guān)特征、線性預(yù)測系數(shù)相關(guān)特征以及人耳聽覺模型相關(guān)參數(shù)等。利用神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)能力,可以克服聲紋特征的動態(tài)性和復(fù)雜性,自組織地完成對個性聲紋特征的提取。傳統(tǒng)方法只提取少數(shù)語音特征參數(shù),而采用本技術(shù)可以提取多種語音特征參數(shù),從而有效提高識別的正識率。提取到個性聲紋特征后,再將各連續(xù)的特征參數(shù)轉(zhuǎn)化為輸入神經(jīng)元的激活或抑制信號。
四、訓(xùn)練模塊訓(xùn)練模塊包括DTW(動態(tài)時間歸整)、DCT(離散余弦變換)訓(xùn)練和ANN(ARTIFICIAL NEURAL NETWORK,人工神經(jīng)網(wǎng)絡(luò))訓(xùn)練兩部分。由于用來參與訓(xùn)練的語音包含的文字固定且時間較短,聲紋識別和文本及語言就存在較強(qiáng)的相關(guān)性,即同一個人說不同的語言和詞語會被認(rèn)為是不同的人。主人可以利用這個特點隨時更換口令,以提高樓宇對講門口機(jī)聲紋識別開鎖模塊的安全性。更換口令,需首先刪除原有口令,再重新訓(xùn)練即可。
(一)DTW、DCT模板訓(xùn)練1.DTW和DCT算法(1)DTW算法在對語音口令的識別中,最為簡單有效的方法是采用動態(tài)時間歸整算法DTW完成模板的匹配。該算法基于動態(tài)規(guī)劃的思想,解決了發(fā)音長短不一的匹配問題。
DTW算法計算兩個長度不同的模板之間的相似程度,或稱失真距離。假設(shè)測試和參考模板分別用T和R表示,按時間順序含有N幀和M幀的語音參數(shù),每幀特征數(shù)據(jù)為K維,則T、R分別為N×K和M×K的矩陣。失真距離越小,表示T和R越接近。本優(yōu)選實例為了使DTW的比對有意義,限定了測試和參考模板幀長度的比值必須介于1/2和2之間,這個區(qū)域即為“合法搜索區(qū)域”,該約束可以省掉不需要計算的部分,如圖6所示。搜索路徑采用如圖7所示的路徑模式,則對于點(i,j)的距離D(i,j)為D(i,j)=|t(i)-r(j)|+min{D(i-2,j-1),D(i-1,j-1),D(i-1,j-2)}。
本優(yōu)選實例采用兩幀中各個對應(yīng)特征數(shù)據(jù)之差的絕對值之和作為兩幀的距離,即|t(i)-r(j)|=Σk=1K|t(i)k-r(j)k|,]]>其中K為每幀的特征維數(shù)。
(2)DCT算法
DCT算法,即對輸入信號進(jìn)行離散余弦變換。
2.DTW、DCT初始訓(xùn)練(1)錄制語音口令錄制同一語音口令若干遍的語音,本優(yōu)選實例采用的是5遍。
(2)語音預(yù)處理,形成訓(xùn)練樣本集由“語音預(yù)處理模塊”對語音信號進(jìn)行預(yù)處理,每個語音口令語音數(shù)據(jù)形成一個訓(xùn)練樣本,組成訓(xùn)練樣本集,按照時間先后保存訓(xùn)練樣本集中的各個訓(xùn)練樣本。
(3)DTW模板訓(xùn)練a.求訓(xùn)練樣本集中各訓(xùn)練樣本幀數(shù)的平均值。
b.將幀數(shù)與平均幀數(shù)值最近的訓(xùn)練樣本作為“初始模板”。
c.利用DTW算法將其他訓(xùn)練樣本規(guī)整為與“初始模板”同樣長度的樣本,舍棄與“初始模板”距離大于一個“最大距離閾值”的訓(xùn)練樣本。
d.計算各訓(xùn)練樣本每個對應(yīng)幀的各個特征元素的平均值,最后形成的樣本即為“DTW模板”,它是一個長度為L×K的特征向量,其中L為模板幀數(shù),K為每幀的特征數(shù)據(jù)維數(shù)。
(4)DCT模板訓(xùn)練對DTW模板做DCT變換形成DCT模板,它是一個長度為P×K的特征向量,其中P為DCT數(shù),K為每幀的特征數(shù)據(jù)維數(shù)。本優(yōu)選實例中DCT數(shù)參考值為4,即取0-3階DCT系數(shù)。
3.DTW、DCT累加訓(xùn)練在DTW、DCT模板已存在的情況下進(jìn)行DTW、DCT的累加訓(xùn)練,以提高模板的時間適應(yīng)性。累加訓(xùn)練發(fā)生在使用樓宇對講設(shè)備過程中一次識別后識別可信度偏低時。通過累加訓(xùn)練過程可增強(qiáng)聲紋模板的時間適應(yīng)性,從而提高用戶開門的正識率、降低誤識率。具體訓(xùn)練過程如下
(1)錄制語音錄制讀入的語音口令。
(2)語音信號預(yù)處理由“語音預(yù)處理模塊”對語音信號進(jìn)行預(yù)處理,將語音口令語音數(shù)據(jù)形成一個新的訓(xùn)練樣本。
(3)重構(gòu)訓(xùn)練樣本集將新的訓(xùn)練樣本添加至訓(xùn)練樣本集中,如果當(dāng)前的訓(xùn)練樣本總數(shù)超過了最大訓(xùn)練樣本數(shù)(本優(yōu)選實例采用的參考值是10),則刪除時間最早的訓(xùn)練樣本。
(4)DTW模板訓(xùn)練同初始訓(xùn)練。
(5)DCT模板訓(xùn)練同初始訓(xùn)練。
(二)ANN人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練所謂ANN人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練,就是利用對象的語音樣本(正相樣本)和非對象的語音樣本(反相樣本)來分割一個多維的頻譜空間,使得對象語音樣本所占據(jù)的頻譜空間被映射到對象的輸出,而非對象語音樣本所占據(jù)的頻譜空間被映射到非對象的輸出,也就是將對象和其語音在頻譜空間的分布區(qū)域建立關(guān)聯(lián)。從數(shù)學(xué)模型上說,就是利用這些語音訓(xùn)練樣本來調(diào)整一個復(fù)雜的神經(jīng)網(wǎng)絡(luò)權(quán)值,使得對象的語音樣本映射到對象的激勵輸出,非對象的語音樣本映射到對象的抑制輸出。訓(xùn)練原理的示意圖如圖4所示,某對象A的語音,經(jīng)語音特征參數(shù)提取,根據(jù)特征參數(shù)值調(diào)整權(quán)值使對象A的輸出受到激勵,同時使非對象A的輸出受到抑制,之后得到對象A的輸出和非對象A的輸出。
1.ANN人工神經(jīng)網(wǎng)絡(luò)初始訓(xùn)練(1)錄制語音口令,形成訓(xùn)練樣本集由主人通過樓宇對講門口機(jī)聲紋識別開鎖模塊錄制若干遍開門口令,本優(yōu)選實例采用的是5遍,即語音鑰匙(語音鑰匙一般為4-6個字)。
由“語音預(yù)處理模塊”對語音口令進(jìn)行預(yù)處理,每個語音口令語音數(shù)據(jù)形成一個訓(xùn)練樣本,組成訓(xùn)練樣本集,按照時間先后保存訓(xùn)練樣本集中的各個訓(xùn)練樣本。
(2)創(chuàng)建背景模型背景模型中包含大量隨機(jī)語音樣本,主要用于在訓(xùn)練中建立非對象語音樣本所占據(jù)的頻譜空間向非對象的輸出映射的關(guān)聯(lián)。背景模型由本發(fā)明的優(yōu)選實施例樓宇對講門口機(jī)聲紋識別開鎖模塊及識別開鎖方法在出廠之前創(chuàng)建。
(3)開門口令訓(xùn)練對預(yù)處理后的語音數(shù)據(jù)通過訓(xùn)練模塊提取ANN人工神經(jīng)網(wǎng)絡(luò)特征進(jìn)行訓(xùn)練,訓(xùn)練后形成主人獨有的聲紋編碼。為了獲得理想的識別效果,要求主人每次訓(xùn)練時以不同的語氣輸入相同的語音鑰匙口令。
a.ANN人工神經(jīng)網(wǎng)絡(luò)特征提取ANN人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練和識別具有相同的特征提取方法,特征提取部分又分峰位查找、特征處理、特征定位三部分。
(a)峰位查找根據(jù)輸入的語音,輸出語音的幅度累加和特征、語音的過零率特征、語音的MFCC的2階特征,由“語音的幅度累加和特征”和“語音的1階、2階特征”按照幅度權(quán)重、倒譜權(quán)重系數(shù),進(jìn)行相加或相減,得到4組特征數(shù)據(jù)(波形劃分特征),依次把“波形劃分特征”和“語音的過零率特征”輸入到一個容器中,輸入4組峰位劃分信息,把這4組峰位劃分信息進(jìn)行合并,然后按照峰位的最小間距信息去除分布過密的峰位,最后得到一組準(zhǔn)確的峰位信息。
(b)特征處理根據(jù)輸入的語音,輸出對應(yīng)的MFCC特征(1-12階)。
(c)特征定位根據(jù)峰位查找中得到的“峰位信息”和“MFCC特征”,輸出每個峰位的對應(yīng)大幀特征,本優(yōu)選實例中每個大幀覆蓋10個小幀的區(qū)域,在大幀的定位過程中使用了幅度累加和法,所謂的幅度累加和法就是設(shè)當(dāng)前位置為i,使用一個10個小幀大小的窗口從i-9到i滑動,求出這之間的窗口區(qū)域的最大幅度和,然后把這個窗口的起始位置作為大幀的起始位置,從大幀的起始位置開始的10個小幀特征,作為當(dāng)前峰位的大幀特征,并且只使用其中的奇數(shù)小幀。
b.訓(xùn)練模板利用對象的語音樣本(正相樣本)和非對象的語音樣本(反相樣本)來調(diào)整一個復(fù)雜的神經(jīng)網(wǎng)絡(luò)權(quán)值,使得對象的語音樣本映射到對象的激勵輸出,非對象的語音樣本映射到對象的抑制輸出,完成ANN人工神經(jīng)網(wǎng)絡(luò)模板的訓(xùn)練。
c.確定ANN人工神經(jīng)網(wǎng)絡(luò)動態(tài)閾值所謂的ANN人工神經(jīng)網(wǎng)絡(luò)動態(tài)閾值法,就是在ANN人工神經(jīng)網(wǎng)絡(luò)模板創(chuàng)建之后確定當(dāng)前訓(xùn)練對象的識別閾值,由于每個對象特性存在差異,不可以使用相同的閾值作為所有對象的閾值,確定每個對象的閾值有2種方法,一種是通過識別對象自己的口令來確定一個閾值;另一種方法就是通過識別其它口令來確定閾值,本優(yōu)選實例使用了后者,即通過識別一個公共的口令集,得到一組可信度,把這組可信度排序,根據(jù)誤識不超過1%的原則,反推出當(dāng)前對象的閾值,這種方法避免了訓(xùn)練時語音口令輸入過多的缺點,同時由于這個公共的口令集量比較大,也會起到一個更準(zhǔn)確地預(yù)估。
(4)保存訓(xùn)練結(jié)果訓(xùn)練過程結(jié)束,聲紋編碼隨即被保存在樓宇對講門口機(jī)聲紋識別開鎖模塊中,以備開門使用。
2.ANN人工神經(jīng)網(wǎng)絡(luò)累加訓(xùn)練在ANN人工神經(jīng)網(wǎng)絡(luò)模板已存在的情況下進(jìn)行ANN人工神經(jīng)網(wǎng)絡(luò)的累加訓(xùn)練,以提高模板的時間適應(yīng)性。累加訓(xùn)練發(fā)生在使用樓宇對講設(shè)備過程中一次識別后識別閾值偏低時。通過累加訓(xùn)練過程可增強(qiáng)聲紋模板的時間適應(yīng)性,從而提高用戶開門的正識率、降低誤識率。具體訓(xùn)練過程如下(1)錄制累加訓(xùn)練口令,并預(yù)處理形成訓(xùn)練樣本。
(2)重構(gòu)訓(xùn)練樣本集將新的訓(xùn)練樣本添加至訓(xùn)練樣本集中,如果當(dāng)前的訓(xùn)練樣本總數(shù)超過了最大訓(xùn)練樣本數(shù)(本優(yōu)選實例采用的參考值是10),則刪除時間最早的訓(xùn)練樣本。
(3)同ANN人工神經(jīng)網(wǎng)絡(luò)模板初始訓(xùn)練(2)-(4)。
五、識別模塊識別模塊包括DCT、DTW識別和ANN人工神經(jīng)網(wǎng)絡(luò)識別兩部分。通過DCT、DTW識別,系統(tǒng)將識別出讀入語音口令對應(yīng)的最接近的已訓(xùn)練對象的身份確認(rèn)編號,而進(jìn)一步通過ANN人工神經(jīng)網(wǎng)絡(luò)識別,確認(rèn)當(dāng)前說話人是否是該身份確認(rèn)編號對應(yīng)用戶。
(一)DCT、DTW識別1.錄制語音口令錄制讀入的語音口令。
2.形成DTW特征樣本和DCT特征樣本由“語音預(yù)處理模塊”對語音信號進(jìn)行預(yù)處理,分別形成DTW特征樣本和DCT特征樣本。
3.DCT預(yù)選將DCT特征樣本和已存在的所有用戶的DCT模板比對,即計算特征樣本和各DCT模板之間的絕對值距離(各個對應(yīng)特征數(shù)據(jù)之差的絕對值之和),篩選出距離最小的前N個用戶。
4.DTW預(yù)選將DTW特征樣本和DCT比對中距離最小的前N個用戶的DTW模板比對,即計算DTW特征樣本和各DCT模板之間的絕對值距離(各個對應(yīng)特征數(shù)據(jù)之差的絕對值之和),篩選出距離最小的用戶。該用戶即為進(jìn)行ANN人工神經(jīng)網(wǎng)絡(luò)識別的用戶。
(二)ANN人工神經(jīng)網(wǎng)絡(luò)識別本發(fā)明的優(yōu)選實施例利用建立在一種全新的神經(jīng)網(wǎng)絡(luò)算法基礎(chǔ)上的多層聚類神經(jīng)網(wǎng)絡(luò)完成語音信號特征模糊動態(tài)集合的聚類,以及已聚類的激勵群到說話人的轉(zhuǎn)換,實現(xiàn)激勵群映射到說話人輸出。
當(dāng)有語音波形輸入時,首先由輸入層神經(jīng)網(wǎng)絡(luò)得到預(yù)處理后的語音頻譜特征,并將其轉(zhuǎn)化為輸入神經(jīng)元的激活或抑制信號。使用這些神經(jīng)元的激活或抑制信號去同步激勵所有待識別對象的輸出,采用能量反傳網(wǎng)絡(luò)完成已聚類的激勵群到說話人的轉(zhuǎn)換,實現(xiàn)激勵群映射到說話人輸出。在正確訓(xùn)練的情況下,只有目標(biāo)對象的輸出被激勵,而所有非目標(biāo)對象的輸出被抑制,從而可以快速地識別出目標(biāo)對象。
多層神經(jīng)網(wǎng)絡(luò)框架,每一層和上一層是全連接。每個中間層網(wǎng)絡(luò)神經(jīng)元的個數(shù)大致與輸入層神經(jīng)元的個數(shù)相同。
本發(fā)明的優(yōu)選實施例采用能量反饋和Hebb學(xué)習(xí)規(guī)則。具體的原理如下設(shè)每個神經(jīng)元的能量計算為e=b-y其中,b是每個神經(jīng)元的能量反饋值,對于輸出層而言,就是強(qiáng)制指導(dǎo)狀態(tài);y是每個神經(jīng)元的輸出。
對于中間層(用m表示)第j個神經(jīng)元,其反饋值來自于其下層網(wǎng)絡(luò)(用n表示),反饋值的計算為下式,其中ω為連接權(quán)值bjm=Σkγ·ωjk·ekn]]>對于m層的第j個神經(jīng)元,其輸入值x來自于上層網(wǎng)絡(luò)p,計算公式為xjm=Σkλ·ωkj·ykp]]>每個神經(jīng)元的輸出和輸入關(guān)系為y=f(x1,xt-1)其中,f是一種非線性函數(shù),并且與當(dāng)前輸入和過去輸入相關(guān)。因此,神經(jīng)網(wǎng)絡(luò)的輸出不僅依賴當(dāng)前幀的輸入,同時也與過去的輸入有關(guān)。這種輸入記憶功能可以克服神經(jīng)網(wǎng)絡(luò)算法不能有效處理時序問題的缺陷。識別系統(tǒng)在根據(jù)語音特征映射到某個對象時,不是完全根據(jù)當(dāng)前語音幀,而是根據(jù)當(dāng)前幀和之前的許多幀,大致相當(dāng)于幾百毫秒的語音長度。這種特性與生物聽覺特征類似之處。
權(quán)值改變算法如下Δωjk=α·yj·yk+β·yj·ek其中,第一項為Hebb學(xué)習(xí)項,作用在于特征聚類,越接近最后輸出層,此項作用越小。Hebb學(xué)習(xí)項可以使同時出現(xiàn)的特征之間的激勵作用加強(qiáng),從而使這些同時出現(xiàn)的特征之間形成一種有關(guān)聯(lián)的激勵群。有關(guān)聯(lián)的激勵群實際上是一種分布式聯(lián)想記憶功能,可以起到抵抗噪聲、恢復(fù)畸變的功能。
第二項為反饋能量學(xué)習(xí)項,是一種基于能量的反傳學(xué)習(xí)算法。越接近最后輸出層,此項作用越大?;谀芰糠答伒膶W(xué)習(xí)算法與BP網(wǎng)絡(luò)有點類似。但比BP網(wǎng)絡(luò)在算法上和訓(xùn)練上更方便,更容易理解,更容易實現(xiàn)。同時,權(quán)值改變只與能量相關(guān),只與連接的前后兩個神經(jīng)元節(jié)點相關(guān),因此,算法的實現(xiàn)更容易,速度更快。
本發(fā)明的優(yōu)選實施例采用識別可信度的中標(biāo)方法,當(dāng)識別可信度超過訓(xùn)練過程中生成的動態(tài)閾值時,則認(rèn)為說話人中標(biāo),即說話人是合法用戶。
六、兩線開關(guān)狀態(tài)輸出模塊利用識別結(jié)果輸出兩線開關(guān)狀態(tài),以控制樓宇對講門禁鎖具,如果說話人為已注冊(即其語音樣本已經(jīng)訓(xùn)練過)的對象,那么開鎖裝置就驅(qū)動鎖具打開,否則說話人聲音對鎖具將不起任何作用,即無相應(yīng)動作。
七、語音提示模塊本發(fā)明采用了語音提示作為人機(jī)界面的輸出方式,提高了產(chǎn)品的人性化程度。語音提示為提前錄取的真人語音,操作過程中,語音提示遇到相關(guān)按鍵,會即時中斷,以方便用戶繼續(xù)操作。
八、RS232通訊接口模塊為了方便各個樓宇對講廠商集成并靈活使用本發(fā)明,本模塊提供了標(biāo)準(zhǔn)RS232通訊接口,用于與樓宇對講主控制板的通訊,開鎖信號和鍵盤信號都可以通過該接口進(jìn)行傳輸。
權(quán)利要求
1.一種樓宇對講門口機(jī)聲紋識別開鎖模塊,由設(shè)置在電路板上的鍵盤模塊、語音采集模塊、語音處理模塊、兩線開關(guān)狀態(tài)輸出模塊、語音提示模塊和RS232通訊接口模塊構(gòu)成,其特征在于所述的鍵盤模塊和語音采集模塊分別通過信號線與所述的語音處理模塊連接,所述的語音采集模塊連接有話筒,所述的兩線開關(guān)狀態(tài)輸出模塊、語音提示模塊和RS232通訊接口模塊分別通過信號線與所述的語音處理模塊連接,所述的語音處理模塊中設(shè)置有語音預(yù)處理模塊、訓(xùn)練模塊和識別模塊,所述的語音預(yù)處理模塊通過信號線分別與所述的訓(xùn)練模塊和識別模塊連接,所述的訓(xùn)練模塊通過信號線與所述的識別模塊連接。
2.一種權(quán)利要求1所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的語音采集模塊采集語音信號并將語音信號轉(zhuǎn)換成語音數(shù)字信號后傳送至所述的語音預(yù)處理模塊,所述的語音預(yù)處理模塊對語音數(shù)字信號進(jìn)行語音分析處理,所述的語音預(yù)處理模塊向訓(xùn)練模塊或識別模塊輸出語音的微特征參數(shù),所述的訓(xùn)練模塊利用語音的微特征參數(shù),對所述的鍵盤模塊或RS232通訊接口模塊提供的身份確認(rèn)編號所對應(yīng)的語音樣本進(jìn)行訓(xùn)練,形成主人獨有的語音鑰匙聲紋編碼,所述的訓(xùn)練模塊包括動態(tài)時間歸整、離散余弦變換訓(xùn)練和人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練兩部分,所述的訓(xùn)練過程發(fā)生在用戶初次訓(xùn)練或在使用樓宇對講設(shè)備過程中一次識別后可信度偏低時的累加訓(xùn)練,所述的識別模塊利用語音的微特征參數(shù),先用離散余弦變換方法預(yù)選身份確認(rèn)編號,再用動態(tài)時間歸整方法從預(yù)選出的身份確認(rèn)編號集中確定唯一一個已訓(xùn)練對象的身份確認(rèn)編號,最后通過人工神經(jīng)網(wǎng)絡(luò)聲紋識別計算方法對當(dāng)前已訓(xùn)練對象的身份確認(rèn)編號的對象進(jìn)行身份確認(rèn),所述的通訊接口模塊與外部的樓宇對講主控制板通訊,通訊的內(nèi)容包括訓(xùn)練授權(quán)、鍵盤編碼、識別結(jié)果及程序更新,所述的兩線開關(guān)狀態(tài)輸出模塊根據(jù)識別模塊的識別結(jié)果提供開門控制信號,所述的鍵盤模塊接收外接鍵盤輸入信號,所述的語音提示模塊向外部輸出語音提示信號。
3.如權(quán)利要求2所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的語音分析處理的過程中包括語音壓縮、語音口令實時自動檢測、預(yù)加重、加窗、加幀、去噪、梅爾刻度式倒頻譜參數(shù)特征提取的處理步驟。
4.如權(quán)利要求3所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的語音口令實時自動檢測的處理步驟中,所述的語音預(yù)處理模塊實時自動檢測聲音信號,當(dāng)檢測到符合語音口令的聲音信號時啟動語音識別步驟或訓(xùn)練步驟,否則將采集的聲音信號直接丟棄。
5.如權(quán)利要求4所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的語音口令實時自動檢測的處理步驟中,首先為程序分配一段存儲6秒鐘語音的內(nèi)存,程序持續(xù)接收語音數(shù)據(jù),并最多保存最近6秒時間內(nèi)的語音數(shù)據(jù),然后把這段內(nèi)存里的語音數(shù)據(jù)以20ms為一個壓縮點,壓縮點是取20ms內(nèi)最大的數(shù)據(jù),從第一個壓縮點開始用過零率算法判斷這段新加的語音是否在設(shè)定的范圍內(nèi),將超出這個范圍內(nèi)的壓縮點的數(shù)據(jù)標(biāo)記為無效值0,然后用壓縮數(shù)據(jù)檢測孤立點,所述的孤立點是指,語音在這個點突然加大,則標(biāo)記為非語音,標(biāo)記為0,然后在語音的末端檢測到有一段語音低于設(shè)定的靜音閾值并且具有設(shè)定長度時,認(rèn)為靜音信號出現(xiàn),口令已經(jīng)結(jié)束,否則,繼續(xù)錄音,或者,在檢測到靜音信號的前提下,系統(tǒng)判斷大于靜音閾值的長度和大于語音閾值的長度在符合對口令的要求長度范圍內(nèi),則認(rèn)為這段語音是用戶的一個語音口令,保存這段語音進(jìn)行語音識別或訓(xùn)練。
6.如權(quán)利要求3所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的語音預(yù)處理模塊向訓(xùn)練模塊或識別模塊輸出語音的微特征參數(shù),微特征參數(shù)是所謂的語音峰位特征,它是對輸入語音的幅度累加和特征、語音的MFCC的二階特征,按照幅度權(quán)重、倒譜權(quán)重系數(shù),進(jìn)行相加或相減,得到4組波形劃分特征數(shù)據(jù),再把波形劃分特征和語音的過零率特征輸入到一個容器中,進(jìn)行峰位劃分與合并,然后按照峰位的最小間距信息去除分布過密的峰位,最后得到一組準(zhǔn)確的峰位信息。
7.如權(quán)利要求2所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的訓(xùn)練模塊接收所述的語音預(yù)處理模塊輸出的語音的微特征參數(shù),對所述的鍵盤模塊或RS232通訊接口模塊提供的身份確認(rèn)編號所對應(yīng)的語音樣本進(jìn)行訓(xùn)練,所述的訓(xùn)練模塊包括動態(tài)時間歸整、離散余弦變換訓(xùn)練和人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練兩部分,訓(xùn)練過程發(fā)生在用戶初次訓(xùn)練或在使用樓宇對講設(shè)備過程中一次識別后識別可信度偏低時的累加訓(xùn)練,所述的動態(tài)時間規(guī)整訓(xùn)練,利用動態(tài)時間歸整算法將訓(xùn)練樣本集規(guī)整成一個特征向量,形成動態(tài)時間歸整模板,所述的離散余玄變換訓(xùn)練通過對動態(tài)時間歸整模板進(jìn)行一次離散余弦變換,形成離散余弦變換模板,所述的人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練利用訓(xùn)練對象的語音樣本和非訓(xùn)練對象的語音樣本來分割一個多維的頻譜空間,使得主人語音樣本所占據(jù)的頻譜空間被映射到主人的輸出,非主人語音樣本所占據(jù)的頻譜空間被映射到非主人的輸出,形成主人獨有的語音鑰匙聲紋編碼。
8.如權(quán)利要求7所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的訓(xùn)練模塊具有一個訓(xùn)練樣本集,每個語音口令數(shù)據(jù)經(jīng)所述的語音預(yù)處理模塊預(yù)處理,形成一個訓(xùn)練樣本,組成訓(xùn)練樣本集,訓(xùn)練樣本集中的訓(xùn)練樣本按照時間先后保存。
9.如權(quán)利要求7所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的訓(xùn)練模塊對所述的訓(xùn)練樣本進(jìn)行動態(tài)時間規(guī)整模板訓(xùn)練,再對動態(tài)時間規(guī)整模板做離散余玄變換形成離散余玄變換模板,在動態(tài)時間規(guī)整模板、離散余玄變換模板已存在的情況下進(jìn)行動態(tài)時間規(guī)整模板、離散余玄變換模板的累加訓(xùn)練,所述的累加訓(xùn)練發(fā)生使用樓宇對講設(shè)備過程中一次識別后識別可信度偏低時,所述的累加訓(xùn)練包括(1)錄制語音錄制讀入的語音口令,(2)語音信號預(yù)處理由語音預(yù)處理模塊對語音信號進(jìn)行預(yù)處理,將語音口令語音數(shù)據(jù)形成一個新的訓(xùn)練樣本,(3)重構(gòu)訓(xùn)練樣本集將新的訓(xùn)練樣本添加至訓(xùn)練樣本集中,并在當(dāng)前的訓(xùn)練樣本總數(shù)超過了最大訓(xùn)練樣本數(shù)時,刪除時間最早的訓(xùn)練樣本,(4)動態(tài)時間規(guī)整模板訓(xùn)練,(5)離散余玄變換模板訓(xùn)練。
10.如權(quán)利要求7所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于在所述的人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練的步驟中,創(chuàng)建背景模型,背景模型中包含隨機(jī)語音樣本,用于在訓(xùn)練中建立非對象語音樣本所占據(jù)的頻譜空間向非對象的輸出映射的關(guān)聯(lián)。
11.如權(quán)利要求7所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于在所述的人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練的步驟中,確定人工神經(jīng)網(wǎng)絡(luò)識別動態(tài)閾值,就是在人工神經(jīng)網(wǎng)絡(luò)模板創(chuàng)建之后,用該模板識別一個公共的口令集,得到一組可信度,把這組可信度排序,根據(jù)誤識小于等于1%的原則,反推出當(dāng)前對象的識別閾值。
12.如權(quán)利要求7所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于在所述的人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練的步驟中,利用對象的語音樣本和非對象的語音樣本來調(diào)整一個神經(jīng)網(wǎng)絡(luò)權(quán)值,將對象的語音樣本映射到對象的激勵輸出,非對象的語音樣本映射到對象的抑制輸出,完成人工神經(jīng)網(wǎng)絡(luò)模板的訓(xùn)練,在人工神經(jīng)網(wǎng)絡(luò)模板已存在的情況下再進(jìn)行人工神經(jīng)網(wǎng)絡(luò)的累加訓(xùn)練,累加訓(xùn)練發(fā)生在使用樓宇對講設(shè)備過程中一次識別后識別可信度偏低時,所述的累加訓(xùn)練的過程包括(1)錄制累加訓(xùn)練口令,并預(yù)處理形成訓(xùn)練樣本,(2)重構(gòu)訓(xùn)練樣本集將新的訓(xùn)練樣本添加至訓(xùn)練樣本集中,在當(dāng)前的訓(xùn)練樣本總數(shù)超過了最大訓(xùn)練樣本數(shù)時,刪除時間最早的訓(xùn)練樣本,(3)進(jìn)行人工神經(jīng)網(wǎng)絡(luò)模板訓(xùn)練。
13.如權(quán)利要求2所述的樓宇對講門口機(jī)聲紋識別開鎖模塊的識別開鎖方法,其特征在于所述的識別模塊根據(jù)所述的微特征參數(shù)利用離散余弦變換算法形成當(dāng)前被識別對象的離散余玄特征樣本,將該特征樣本和對所有已訓(xùn)練對象的離散余玄模板比對,從中預(yù)選出與當(dāng)前被識別對象語音特征接近的身份確認(rèn)編號,形成預(yù)選對象集,再利用動態(tài)時間歸整算法在上述預(yù)選產(chǎn)生的已訓(xùn)練對象中進(jìn)行比對,從中選出與當(dāng)前被識別對象語音特征最接近的唯一一個已訓(xùn)練對象的身份確認(rèn)編號,該已訓(xùn)練對象的身份確認(rèn)編號被確定合法之后,識別模塊再通過人工神經(jīng)網(wǎng)絡(luò)聲紋識別算法對當(dāng)前被識別對象進(jìn)行確認(rèn),在所述的確認(rèn)過程中,識別模塊通過人工神經(jīng)網(wǎng)絡(luò)聲紋識別算法利用多層聚類神經(jīng)網(wǎng)絡(luò)完成語音信號特征模糊動態(tài)集合的聚類,以及已聚類的激勵群到說話人的轉(zhuǎn)換,實現(xiàn)激勵群映射到說話人輸出,在正確訓(xùn)練的情況下,只有語音鑰匙的主人的輸出被激勵,而所有非主人的輸出被抑制,當(dāng)可信度輸出值超過訓(xùn)練時產(chǎn)生的識別閾值時認(rèn)為被識別對象就是語音鑰匙的主人。
14.如權(quán)利要求1所述的樓宇對講門口機(jī)聲紋識別開鎖模塊,其特征在于所述的兩線開關(guān)狀態(tài)輸出模塊連接有開鎖驅(qū)動電路。
15.如權(quán)利要求1所述的樓宇對講門口機(jī)聲紋識別開鎖模塊,其特征在于所述的語音提示模塊連接有揚聲器。
16.如權(quán)利要求1所述的樓宇對講門口機(jī)聲紋識別開鎖模塊,其特征在于所述的通訊接口模塊通過通訊電纜連接外部的樓宇對講主控制板。
17.如權(quán)利要求1所述的樓宇對講門口機(jī)聲紋識別開鎖模塊,其特征在于所述的通訊接口模塊是RS232串行通訊接口模塊。
全文摘要
一種樓宇對講門口機(jī)聲紋識別開鎖模塊及識別開鎖方法,由鍵盤模塊、語音采集模塊、語音處理模塊、兩線開關(guān)狀態(tài)輸出模塊、語音提示模塊和RS232通訊接口模塊構(gòu)成,采用語意識別和聲紋識別相結(jié)合的技術(shù),利用人的語音生物特征,作為開鎖的鑰匙,完成對主人身份認(rèn)證的過程,并進(jìn)行開鎖的控制,能增加鎖具的安全性,識別的誤識率小于1%。較之傳統(tǒng)開鎖方式更方便、更安全。
文檔編號E05B49/00GK1941080SQ20051003001
公開日2007年4月4日 申請日期2005年9月26日 優(yōu)先權(quán)日2005年9月26日
發(fā)明者吳田平 申請人:吳田平