本發(fā)明涉及一種垃圾箱箱門的開(kāi)啟方法,尤其涉及一種用聲紋識(shí)別用戶身份開(kāi)啟垃圾箱門的方法。
背景技術(shù):
城市中無(wú)序丟棄垃圾嚴(yán)重影響市容市貌、污染生活環(huán)境,給垃圾回收的工作人員增加負(fù)擔(dān),給城市和居民帶來(lái)極大的不便。目前,智能垃圾分類回收箱已經(jīng)在很多小區(qū)廣泛的使用,智能垃圾分類回收箱使用時(shí)先給用戶進(jìn)行身份登記,對(duì)用戶投放后的垃圾重量進(jìn)行稱重并積分,當(dāng)積分累積打一定值,用戶可以用積分進(jìn)行兌換商品。通過(guò)對(duì)用戶進(jìn)行身份認(rèn)證的方法開(kāi)啟垃圾箱箱門,目前常規(guī)是通過(guò)掃二維碼的方式,需要用戶帶著印有二維碼的卡片或者有包含用戶信息的二維碼的手機(jī)進(jìn)行掃碼,這就需要用戶隨身攜帶著卡片和手機(jī),尤其是當(dāng)手持垃圾時(shí)再掃碼使用不方便,給用戶帶來(lái)不便的交互體驗(yàn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是公開(kāi)一種使用方便,識(shí)別準(zhǔn)確率高的聲紋識(shí)別垃圾箱開(kāi)門的方法。
本發(fā)明通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)上述目的:聲紋識(shí)別垃圾箱開(kāi)門的方法,依次包括語(yǔ)音注冊(cè)、語(yǔ)音開(kāi)門和邏輯決策,語(yǔ)音注冊(cè)依次包括如下步驟:(1)采集注冊(cè)語(yǔ)音,通過(guò)麥克風(fēng)陣列技術(shù)對(duì)注冊(cè)語(yǔ)音進(jìn)行采集,并且采用固定波束形成算法通過(guò)延時(shí)控制來(lái)補(bǔ)償聲源延時(shí);(2)特征提取,通過(guò)模擬和數(shù)字處理,采用mfcc特征提取方式從注冊(cè)語(yǔ)音中提取表征注冊(cè)用戶特征的語(yǔ)音信息;(3)模型訓(xùn)練,建立注冊(cè)用戶語(yǔ)音模型,模型訓(xùn)練方法選擇最小分類錯(cuò)誤準(zhǔn)則即mce準(zhǔn)則進(jìn)行區(qū)分訓(xùn)練;所述語(yǔ)音開(kāi)門依次包括如下步驟:(1)采集開(kāi)門語(yǔ)音,通過(guò)麥克風(fēng)陣列技術(shù)對(duì)開(kāi)門語(yǔ)音進(jìn)行采集,并且采用固定波束形成算法通過(guò)延時(shí)控制來(lái)補(bǔ)償聲源延時(shí);(2)特征提取,通過(guò)模擬和數(shù)字處理技術(shù),采用mfcc特征提取方式從開(kāi)門語(yǔ)音中選擇和提取表征開(kāi)門用戶特征的語(yǔ)音信息;(3)模型訓(xùn)練,建立開(kāi)門用戶語(yǔ)音模型,模型訓(xùn)練方法選擇最小分類錯(cuò)誤準(zhǔn)則即mce準(zhǔn)則進(jìn)行區(qū)分訓(xùn)練;所述邏輯決策依次包括模式匹配和進(jìn)行決策步驟。
作為優(yōu)選,通過(guò)多個(gè)麥克風(fēng)陣列技術(shù)對(duì)注冊(cè)語(yǔ)音和開(kāi)門語(yǔ)音信息進(jìn)行采集,麥克風(fēng)陣列有2麥、4麥、6麥,對(duì)應(yīng)麥數(shù)越多,降噪和語(yǔ)音增強(qiáng)的效果越好。
作為優(yōu)選,語(yǔ)音注冊(cè)中的mfcc特征提取方式是指將采集的注冊(cè)語(yǔ)音轉(zhuǎn)換為模擬語(yǔ)音信號(hào),對(duì)語(yǔ)音信號(hào)進(jìn)行采樣量化,量化后進(jìn)行預(yù)加重處理、漢明窗處理,最后輸出語(yǔ)音幀序列。
作為優(yōu)選,語(yǔ)音開(kāi)門中的mfcc特征提取方式是指將采集的開(kāi)門語(yǔ)音轉(zhuǎn)換為模擬語(yǔ)音信號(hào),對(duì)語(yǔ)音信號(hào)進(jìn)行采樣量化,量化后進(jìn)行預(yù)加重處理、加漢明窗處理,最后輸出語(yǔ)音幀序列。
作為優(yōu)選,模式匹配是將注冊(cè)用戶語(yǔ)音模型與開(kāi)門用戶語(yǔ)音模型進(jìn)行匹配,計(jì)算二者的對(duì)數(shù)似然比,得出對(duì)數(shù)似然比得分;進(jìn)行決策是計(jì)算匹配得分,達(dá)到設(shè)定閾值垃圾箱門開(kāi)啟,達(dá)不到設(shè)定閾值垃圾箱門不打開(kāi)。
作為優(yōu)選,固定波束形成算法
作為優(yōu)選,語(yǔ)音注冊(cè)中的模型訓(xùn)練是先將注冊(cè)用戶模型分成非重疊和共性重疊部分,利用注冊(cè)用戶語(yǔ)音數(shù)據(jù)集建立注冊(cè)用戶語(yǔ)音gmm模型;語(yǔ)音開(kāi)門中的模型訓(xùn)練是先將開(kāi)門用戶模型分成非重疊和共性重疊部分,利用開(kāi)門語(yǔ)音數(shù)據(jù)集建立開(kāi)門用戶語(yǔ)音gmm模型。進(jìn)一步的,對(duì)于所有的模型進(jìn)行svm支持向量機(jī)訓(xùn)練,通過(guò)計(jì)算其在所有說(shuō)話人模型上的相似度,即對(duì)應(yīng)最大相似度和最小相似度之比小于一個(gè)閾值,則歸為共性重疊部分,否則歸為非重疊部分;注冊(cè)用戶語(yǔ)音gmm模型和開(kāi)門用戶語(yǔ)音gmm模型的訓(xùn)練過(guò)程算法是:
p=(maxpr(xj|mi)/minpr(xj|mk)),i=1,...,s,k=1,...,s,,p為向量在說(shuō)話人模型上的最大相似度與最小相似度之比,s為說(shuō)話人個(gè)數(shù),xj第j個(gè)訓(xùn)練輸入向量,j=1,...,n,n為訓(xùn)練特征向量個(gè)數(shù),p小于閾值t,則該向量xj→q,屬于共性重疊部分向量;p大于閾值t,則該向量xj→p,屬于說(shuō)話人非重疊部分向量集。
采用了上述技術(shù)方案的聲紋識(shí)別垃圾箱開(kāi)門的方法,采集注冊(cè)語(yǔ)音和采集開(kāi)門語(yǔ)音時(shí),通過(guò)麥克風(fēng)陣列技術(shù)對(duì)注冊(cè)語(yǔ)音進(jìn)行采集,并且采用固定波束形成算法通過(guò)延時(shí)控制來(lái)補(bǔ)償聲源延時(shí),特征提取時(shí)采用mfcc特征提取方式,模型訓(xùn)練方法選擇最小分類錯(cuò)誤準(zhǔn)則即mce準(zhǔn)則進(jìn)行區(qū)分訓(xùn)練,該聲紋識(shí)別垃圾箱開(kāi)門的方法的優(yōu)點(diǎn)是用戶不用近距離對(duì)著聲音采集設(shè)備發(fā)聲仍然可以準(zhǔn)確采集聲音信號(hào),在聲音嘈雜的環(huán)境下仍然可以準(zhǔn)確識(shí)別用戶,打開(kāi)垃圾箱門。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例中麥克風(fēng)陣列示意圖。
圖2是本發(fā)明實(shí)施例中固定波束形成示意圖。
圖3是本發(fā)明實(shí)施例中mfcc特征提取流程示意圖。
具體實(shí)施方式
下面結(jié)合圖1、圖2和圖3對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
如圖1、圖2和圖3所示的聲紋識(shí)別垃圾箱開(kāi)門的方法,依次包括語(yǔ)音注冊(cè)、語(yǔ)音開(kāi)門和邏輯決策步驟。
語(yǔ)音注冊(cè)依次包括如下步驟:
(1)采集語(yǔ)音注冊(cè),語(yǔ)音注冊(cè)時(shí),錄入一段一定時(shí)長(zhǎng)的用戶的聲音,重復(fù)多遍;通過(guò)多個(gè)麥克風(fēng)陣列技術(shù)對(duì)注冊(cè)用戶語(yǔ)音進(jìn)行采集,并且采用固定波束形成算法通過(guò)延時(shí)控制來(lái)補(bǔ)償聲源延時(shí);用戶在一定距離范圍內(nèi)朝雙麥陣列錄入音,通過(guò)聲波抵達(dá)陣列中每個(gè)麥克風(fēng)之間的微小時(shí)差的相互作用,得到更好的指向性,可以有效降低周邊的環(huán)境噪音的影響。雙麥陣列通過(guò)時(shí)延估計(jì)、時(shí)延補(bǔ)償、加權(quán)求和。麥克風(fēng)陣列有2麥、4麥、6麥,對(duì)應(yīng)麥數(shù)越多,降噪和語(yǔ)音增強(qiáng)的效果越好,麥克風(fēng)1接收到的信號(hào)為x1(t)、麥克風(fēng)2接收到的信號(hào)為x2(t),由于麥克風(fēng)陣元空間位置的差異,各陣元接收到的信號(hào)存在時(shí)延,xi(k)經(jīng)延時(shí)估計(jì)得到的麥克風(fēng)時(shí)延為τi,在對(duì)信號(hào)進(jìn)行處理之前進(jìn)行時(shí)延補(bǔ)償,保證各陣元待處理數(shù)據(jù)的一致性。使陣列指向期望的方向。再乘以加權(quán)系數(shù)wi(k),進(jìn)行加權(quán)同相相加,使得波束形成器的輸出得到最大輸出。
(2)特征提取,通過(guò)模擬和數(shù)字處理,采用mfcc特征提取方式從注冊(cè)用戶語(yǔ)音中提取表征注冊(cè)用戶特征的語(yǔ)音信息;
(3)模型訓(xùn)練,估計(jì)特征參數(shù)分布,建立注冊(cè)用戶語(yǔ)音模型。模型訓(xùn)練方法選擇最小分類錯(cuò)誤準(zhǔn)則即mce準(zhǔn)則進(jìn)行區(qū)分訓(xùn)練。
語(yǔ)音開(kāi)門依次包括如下步驟:
(1)采集開(kāi)門語(yǔ)音信息,通過(guò)麥克風(fēng)陣列技術(shù)對(duì)開(kāi)門語(yǔ)音進(jìn)行采集,并且采用固定波束形成算法通過(guò)延時(shí)控制來(lái)補(bǔ)償聲源延時(shí);
(2)特征提取,通過(guò)模擬和數(shù)字處理技術(shù),采用mfcc特征提取方式從開(kāi)門語(yǔ)音中選擇和提取表征開(kāi)門用戶特征的語(yǔ)音信息;
(3)模型訓(xùn)練,估計(jì)特征參數(shù)分布,建立開(kāi)門用戶語(yǔ)音模型,模型訓(xùn)練方法選擇最小分類錯(cuò)誤準(zhǔn)則即mce準(zhǔn)則進(jìn)行區(qū)分訓(xùn)練;
邏輯決策是比對(duì)語(yǔ)音注冊(cè)和語(yǔ)音開(kāi)門,判斷是否開(kāi)門,依次包括如下步驟:
(1)模式匹配,將注冊(cè)用戶語(yǔ)音模型與開(kāi)門用戶語(yǔ)音模型進(jìn)行匹配,計(jì)算二者的對(duì)數(shù)似然比,得出對(duì)數(shù)似然比得分;
(2)進(jìn)行決策,對(duì)匹配的得分進(jìn)行判決,確定發(fā)出開(kāi)門語(yǔ)音的人是否為語(yǔ)音注冊(cè)用戶,與語(yǔ)音注冊(cè)匹配達(dá)到設(shè)定閾值得分,垃圾箱門開(kāi)啟,否則垃圾箱門不會(huì)打開(kāi)。
給邏輯決策判決設(shè)定一個(gè)閾值分?jǐn)?shù),通過(guò)得出的對(duì)數(shù)似然比得分與設(shè)定的閾值分?jǐn)?shù)進(jìn)行比較,達(dá)到預(yù)設(shè)獲高于預(yù)設(shè)分?jǐn)?shù),則邏輯決策判決開(kāi)門語(yǔ)音屬于注冊(cè)人,啟動(dòng)電機(jī),開(kāi)啟箱門;否則箱門電機(jī)不動(dòng)作。
上述采集語(yǔ)音注冊(cè)和語(yǔ)音開(kāi)門信息,必須有采集語(yǔ)音的硬件設(shè)備,因?yàn)槔鋾?huì)有異味,用戶不會(huì)近距離靠近麥克風(fēng)進(jìn)行語(yǔ)音注冊(cè)和語(yǔ)音開(kāi)門,所以需要有遠(yuǎn)距離采集注冊(cè)語(yǔ)音的硬件設(shè)備,因此采用麥克風(fēng)陣列技術(shù)采集語(yǔ)音信息。采樣距離變遠(yuǎn)了,在目標(biāo)語(yǔ)音的實(shí)際拾取過(guò)程中,不可避免受到外界環(huán)境噪聲和其他說(shuō)話人的干擾,這些干擾共同作用,嚴(yán)重影響了聲紋語(yǔ)音的采集,利用麥克風(fēng)陣列技術(shù)尤其是多麥陣列能夠充分利用語(yǔ)音信號(hào)的空時(shí)信息,具有靈活的波束控制,較高的空間分辨率、高的信號(hào)增益和較強(qiáng)的抗干擾能力等特點(diǎn)。麥克風(fēng)陣列如圖1所示。用戶語(yǔ)音注冊(cè)和語(yǔ)音開(kāi)門發(fā)聲后,固定波束形成算法通過(guò)延時(shí)控制來(lái)補(bǔ)償從聲源到每個(gè)麥克風(fēng)的延時(shí),對(duì)每個(gè)麥克風(fēng)接收到的信號(hào)進(jìn)行延時(shí)補(bǔ)償,然后使麥克風(fēng)陣列波束指向有最大輸出功率的方向,以此解決不用靠近麥克風(fēng),又能良好采樣聲音的特定的垃圾箱聲紋識(shí)別場(chǎng)景需求。延遲求和-波束形成輸出,其中,xi(t)為麥克風(fēng)接收到的信號(hào),權(quán)系數(shù)為wi(k),k為麥克風(fēng)的數(shù)目,τi為時(shí)延估計(jì)得到的時(shí)延,
上述mfcc特征提取流程如圖3所示。首先將注冊(cè)語(yǔ)音和語(yǔ)音開(kāi)門的語(yǔ)音進(jìn)行前端處理,將聲音轉(zhuǎn)換為模擬語(yǔ)音信號(hào)進(jìn)行采樣,并對(duì)其振幅值進(jìn)行量化編碼,從而轉(zhuǎn)化為數(shù)字信號(hào),模擬語(yǔ)音信號(hào)經(jīng)采樣量化獲得語(yǔ)音信號(hào)的波形。其次,由于唇端輻射導(dǎo)致語(yǔ)音信號(hào)的高頻能量損耗,為了去除口唇輻射的影響,將經(jīng)采樣量化后得到的語(yǔ)音信號(hào)波形進(jìn)行預(yù)加重處理,增加語(yǔ)音信號(hào)的高頻分辨率,加強(qiáng)語(yǔ)音高頻信號(hào)能量,使其適用于統(tǒng)一的分析處理。基于語(yǔ)音的短時(shí)平穩(wěn)特性,即短時(shí)段的語(yǔ)音信號(hào)對(duì)應(yīng)的聲道形狀、激勵(lì)性質(zhì)基本不會(huì)發(fā)生改變,將經(jīng)預(yù)加重處理的波形再進(jìn)行加漢明窗處理,即采用漢明窗對(duì)語(yǔ)音進(jìn)行重疊分幀處理,使語(yǔ)音特征更加明顯、清晰,易于觀察,最終輸出語(yǔ)音幀序列。對(duì)加漢明窗分幀后獲得的語(yǔ)音幀序列進(jìn)行時(shí)域和頻域分析,并采用相應(yīng)的特征參數(shù)描述。mfcc特征參數(shù)是一種聽(tīng)覺(jué)感知頻域倒普參數(shù),該參數(shù)依據(jù)人耳對(duì)聲音頻率高低的非線性心里感覺(jué)構(gòu)造語(yǔ)音短時(shí)幅度譜特征。對(duì)輸入的語(yǔ)音幀信號(hào)作離散傅里葉變換。計(jì)算頻譜幅度的平方,得到能量譜。將能量譜通過(guò)mel三角濾波器組。計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量。經(jīng)離散余弦變換得到mfcc參數(shù)和特征向量序列。
上述模型訓(xùn)練是區(qū)分“目標(biāo)”和“冒認(rèn)者”的訓(xùn)練,由于聲紋密碼的任務(wù)是對(duì)兩類最小錯(cuò)誤進(jìn)行分類,實(shí)現(xiàn)短句上說(shuō)話人確認(rèn)錯(cuò)誤的最小化。因此選擇最小分類錯(cuò)誤準(zhǔn)則即mce準(zhǔn)則進(jìn)行區(qū)分訓(xùn)練。通過(guò)對(duì)訓(xùn)練集合總體平均錯(cuò)誤率的平滑近似策略,實(shí)現(xiàn)最小化識(shí)別(分類)錯(cuò)誤率的目的。在描述相同密碼文本說(shuō)話人語(yǔ)音特征分布空間中,相同說(shuō)話人對(duì)應(yīng)的特征向量分布集中,不同說(shuō)話人對(duì)應(yīng)的特征向量分布相對(duì)分散,距離具有區(qū)分“目標(biāo)”和“冒認(rèn)”的能力。因此設(shè)計(jì)一種表征距離度量的新特征用以表示區(qū)分性訓(xùn)練中正反例樣本。如果直接將測(cè)試語(yǔ)音y相對(duì)注冊(cè)語(yǔ)音x的距離d(x,y)設(shè)定為y的新特征,則將分別產(chǎn)生目標(biāo)語(yǔ)音新特征和冒認(rèn)語(yǔ)音新特征,記作ztar和zim,此時(shí)與原始聲學(xué)特征不同,所有注冊(cè)者對(duì)應(yīng)的ztar和zim可以被組合成統(tǒng)一的正例集合p和反例集合n。
訓(xùn)練過(guò)程首先將用戶模型分成非重疊和共性重疊部分,利用用戶語(yǔ)音數(shù)據(jù)集建立gmm模型(高斯混合模型);根據(jù)相似度計(jì)算和gmm模型確定特征向量的類別,如果兩個(gè)競(jìng)爭(zhēng)的說(shuō)話人模型有公共重疊部分,則其相應(yīng)特征向量就被歸于此部分;對(duì)于所有的模型進(jìn)行svm支持向量機(jī)訓(xùn)練,通過(guò)計(jì)算其在所有說(shuō)話人模型上的相似度,若對(duì)應(yīng)最大相似度和最小相似度之比小于一個(gè)閾值,則歸為共性重疊部分,否則歸為非重疊部分?;谥匦路诸愡^(guò)的特征向量,對(duì)每個(gè)說(shuō)話人重新建立模型,即產(chǎn)生了一個(gè)共性重疊模型和各自說(shuō)話人的非重疊模型。假設(shè)有s個(gè)說(shuō)話人,則訓(xùn)練過(guò)程算法實(shí)現(xiàn)過(guò)程如下:(1)xj第j個(gè)訓(xùn)練輸入向量,j=1,...,n,n為訓(xùn)練特征向量個(gè)數(shù)。p=(maxpr(xj|mi)/minpr(xj|mk)),i=1,...,s,k=1,...,s,p為向量在說(shuō)話人模型上的最大相似度與最小相似度之比。如果p小于一定的閾值t,則該向量xj→q,屬于共性重疊部分向量。否則xj→p,屬于說(shuō)話人非重疊部分向量集。