一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)及其識(shí)別方法
【專利摘要】本發(fā)明公開了一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)及其識(shí)別方法,該系統(tǒng)包括聲紋獲取單元、聲紋處理器單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元;所述聲紋獲取單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元分別與聲紋處理器單元相連,聲紋獲取單元向聲紋處理器單元單向通信,聲紋識(shí)別單元向聲紋處理器單元單向通信,聲紋數(shù)據(jù)存儲(chǔ)單元和聲紋處理器單元相互通信,聲紋識(shí)別單元向聲紋數(shù)據(jù)存儲(chǔ)單元單向通信。本發(fā)明在通信設(shè)備中建立一個(gè)聲紋模型庫(kù),在通話中將通話人的聲學(xué)特征與預(yù)先存入的已知聯(lián)系人的聲紋模型逐一作對(duì)比來(lái)判別通話人的身份信息。即當(dāng)某已知聯(lián)系人使用不同通信設(shè)備中未記錄號(hào)碼電話與機(jī)主通話時(shí)都能通過(guò)來(lái)電者的聲音來(lái)輔助判別其身份。
【專利說(shuō)明】一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)及其識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及聲紋識(shí)別技術(shù),即根據(jù)說(shuō)話人的發(fā)音特征,自動(dòng)識(shí)別說(shuō)話人身份的一種生物識(shí)別方法。
【背景技術(shù)】
[0002]所謂聲紋(Voiceprint),是用電聲學(xué)儀器顯示的攜帶言語(yǔ)信息的聲波頻譜。人類語(yǔ)言的產(chǎn)生是人體語(yǔ)言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過(guò)程,人在講話時(shí)使用的發(fā)聲器官一舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大,所以任何兩個(gè)人的聲紋圖譜都有差異。每個(gè)人的語(yǔ)音聲學(xué)特征既有相對(duì)穩(wěn)定性,又有變異性,不是絕對(duì)的、一成不變的。這種變異可來(lái)自生理、病理、心理、模擬、偽裝,也與環(huán)境干擾有關(guān)。盡管如此,由于每個(gè)人的發(fā)音器官都不盡相同,因此在一般情況下,人們?nèi)阅軈^(qū)別不同的人的聲音或判斷是否是同一人的聲音。
[0003]聲紋識(shí)別的一般過(guò)程:
(O從待識(shí)別人的聲音中提取聲學(xué)特征形成待識(shí)別的特征矢量序列;
(2)將待識(shí)別的特征矢量序列與該模型庫(kù)中的聲紋模型逐一進(jìn)行匹配比較得到特征矢量序列與每個(gè)說(shuō)話人聲紋模型的匹配得分(也稱為對(duì)數(shù)似然的分,或似然得分,或得分),并進(jìn)行判決;計(jì)算特征矢量序列與說(shuō)話人模型匹配分?jǐn)?shù);
(3)根據(jù)聲紋的識(shí)別方法的類型(閉集聲紋鑒別、開集聲紋鑒別和聲紋確認(rèn)),在需要的時(shí)候進(jìn)行拒識(shí)判決,從而得出結(jié)果。
[0004]聲紋識(shí)別可以說(shuō)有兩個(gè)關(guān)鍵問(wèn)題,一是特征提取,二是模式匹配(模式識(shí)別)。特征提取的任務(wù)是提取并選擇聲音片段中具有可分性強(qiáng)、穩(wěn)定性高等特性的聲學(xué)或語(yǔ)言特征。與語(yǔ)音識(shí)別不同,聲紋識(shí)別的特征必須是“個(gè)性化”特征,而說(shuō)話人識(shí)別的特征對(duì)說(shuō)話者本人來(lái)講必須是“共性特征”。
[0005]現(xiàn)有的語(yǔ)音識(shí)別裝置當(dāng)通信設(shè)備中存儲(chǔ)聯(lián)系人換了號(hào)碼或用未知電話給機(jī)主通話時(shí),機(jī)主不能及時(shí)判斷通話人的身份。
【發(fā)明內(nèi)容】
[0006]針對(duì)現(xiàn)有技術(shù)中語(yǔ)音識(shí)別存在的識(shí)別率不高的問(wèn)題,本發(fā)明提供一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)及其識(shí)別方法,在通信設(shè)備中植入聲紋識(shí)別模塊用來(lái)判別聯(lián)系人身份。
[0007]本發(fā)明的技術(shù)方案如下:
一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng),包括聲紋獲取單元、聲紋處理器單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元;所述聲紋獲取單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元分別與聲紋處理器單元相連,聲紋獲取單元向聲紋處理器單元單向通信,聲紋識(shí)別單元向聲紋處理器單元單向通信,聲紋數(shù)據(jù)存儲(chǔ)單元和聲紋處理器單元相互通信,聲紋識(shí)別單元向聲紋數(shù)據(jù)存儲(chǔ)單元單向通信。[0008]一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法,包括如下步驟:
(1)聲紋特征提取:
當(dāng)有未知聲紋源進(jìn)入聲紋獲取單元后,自動(dòng)觸發(fā)保存提示功能,提示使用者保存該聲紋數(shù)據(jù)以便下一次通話時(shí)自動(dòng)識(shí)別該聯(lián)系人;使用者確認(rèn)保存該聲紋數(shù)據(jù)后,聲紋處理器單元將形成由所有聯(lián)系人的聲紋模型構(gòu)成的聲紋模型庫(kù),所述聲紋模型是從聯(lián)系人的聲音中提取聲學(xué)特征構(gòu)建而成,聲紋模型中的聲學(xué)特征和身份信息相互關(guān)聯(lián)綁定在一起;
(2)聲紋特征通訊錄的存儲(chǔ):
將所述聲紋模型庫(kù)存儲(chǔ)于聲紋數(shù)據(jù)存儲(chǔ)單元中,所述聲紋數(shù)據(jù)存儲(chǔ)單元設(shè)置于手機(jī)內(nèi)存中,或者設(shè)置于外部存儲(chǔ)卡中;
(3)模式識(shí)別:
當(dāng)已保存的聯(lián)系人來(lái)電時(shí),聲紋識(shí)別單元提取來(lái)電者的聲學(xué)特征形成待識(shí)別的特征矢量序列并通過(guò)模式匹配來(lái)判別聯(lián)系人身份;當(dāng)新聯(lián)系人與機(jī)主通話時(shí),聲紋識(shí)別單元無(wú)法識(shí)別,但仍提取來(lái)電人的聲學(xué)特征,通話結(jié)束后自動(dòng)提醒機(jī)主是否將來(lái)電者存為新聯(lián)系人。
[0009]進(jìn)一步,所述提取聲學(xué)特征構(gòu)和存儲(chǔ)聲紋特征的具體過(guò)程為:
(1)當(dāng)來(lái)電通話開始時(shí),啟動(dòng)聲紋獲取模塊,獲取來(lái)電者的聲音片段并存儲(chǔ);
(2)通過(guò)分析聲音片段提取來(lái)電者的聲學(xué)特征;
(3)模式匹配,將已獲得的聲紋特征與聲紋模型庫(kù)中已存儲(chǔ)的聲紋模型進(jìn)行比對(duì);
(4)判定,將得分與預(yù)先設(shè)定的得分判定閾值進(jìn)行比較;
(5)輸出,當(dāng)匹配成功后,輸出匹配結(jié)果,即識(shí)別到的聯(lián)系人相關(guān)信息;當(dāng)匹配不成功時(shí),通話結(jié)束后輸出提示信息提示用戶存儲(chǔ)該聲紋信息以及相關(guān)電話號(hào)碼姓名信息,以便下次通話時(shí)實(shí)時(shí)識(shí)別;
(6)存儲(chǔ),當(dāng)通話結(jié)束后,使用者采納提示建議,系統(tǒng)將該聲紋信息及其相關(guān)身份信息存入存儲(chǔ)單元,并加入聲紋模型庫(kù);反之,不存儲(chǔ)。
[0010]進(jìn)一步,步驟(I)中,聲紋獲取單元獲取來(lái)電者通話的一段聲音片段,存入聲紋數(shù)據(jù)存儲(chǔ)單元中分配的一塊臨時(shí)存儲(chǔ)區(qū)中,以備對(duì)其進(jìn)行聲學(xué)特征分析;當(dāng)分析結(jié)束后,聲紋特征被保留,其余被聲音數(shù)據(jù)自動(dòng)刪除。
[0011]進(jìn)一步,步驟(2)中,提取聲音片段中能反映通話者的可分性強(qiáng)、穩(wěn)定性高的聲紋特征,并將之存放在臨時(shí)存儲(chǔ)區(qū)。
[0012]進(jìn)一步,步驟(3 )中,將待識(shí)別的特征矢量序列與模型庫(kù)中的聲紋模型逐一進(jìn)行匹配比較得到特征矢量序列與每個(gè)說(shuō)話人聲紋模型的匹配得分,也即對(duì)數(shù)似然得分或似然得分或得分。
[0013]進(jìn)一步,步驟(4)中,當(dāng)?shù)梅执笥诨虻扔陂撝禃r(shí)判定為匹配成功;當(dāng)?shù)梅中∮陂撝禃r(shí)判定為匹配失敗。
[0014]進(jìn)一步,步驟(5)中,輸出方式為語(yǔ)音提示、震動(dòng)、屏幕顯示,或三種方式的兩兩組合、又或以上三種方式組合在一起。
[0015]本發(fā)明的有益效果是:
本發(fā)明一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)建立了一個(gè)聲紋模型庫(kù)(相當(dāng)于我們現(xiàn)在的通訊錄),通訊錄是以聲學(xué)特征為標(biāo)識(shí)并與聯(lián)系人身份信息綁定形成聲紋模型,在通話中將通話人的聲學(xué)特征與預(yù)先存入的已知聯(lián)系人的聲紋模型逐一作對(duì)比來(lái)判別通話人的身份信息。當(dāng)無(wú)法通過(guò)電話號(hào)碼判別來(lái)電身份時(shí),可以通過(guò)聲學(xué)特征匹配來(lái)判別來(lái)電者的身份。當(dāng)通信設(shè)備中存儲(chǔ)的聯(lián)系人換了號(hào)碼或用未知電話給機(jī)主通話時(shí),機(jī)主仍能及時(shí)判斷通話人的身份。
【專利附圖】
【附圖說(shuō)明】
[0016]圖1是基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的示意圖;
圖2是識(shí)別來(lái)電者身份的方法流程圖。
【具體實(shí)施方式】
[0017]以下將結(jié)合附圖所示的各實(shí)施方式對(duì)本發(fā)明進(jìn)行詳細(xì)描述。但這些實(shí)施方式并不限制本發(fā)明,本領(lǐng)域的普通技術(shù)人員根據(jù)這些實(shí)施方式所做出的結(jié)構(gòu)、方法、或功能上的變換均包含在本發(fā)明的保護(hù)范圍內(nèi)。本例以手機(jī)為例對(duì)本發(fā)明【具體實(shí)施方式】進(jìn)行說(shuō)明。
[0018]Stepl系統(tǒng)建立。如圖1所示,基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)包含如下部分:聲紋獲取單元、聲紋處理器單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元。本發(fā)明包含的功能主要有以下方面:
聲紋特征提取:
當(dāng)有未知聲紋源進(jìn)入聲紋采集單元后,自動(dòng)觸發(fā)保存提示功能,提示使用者保存該聲紋數(shù)據(jù)以便下一次通話時(shí)自動(dòng)識(shí)別該聯(lián)系人。使用者確認(rèn)保存該聲紋數(shù)據(jù)后,將會(huì)形成一個(gè)特殊的通訊錄,即聲紋模型庫(kù):從聯(lián)系人的聲音中提取聲學(xué)特征構(gòu)建聲紋模型,所有聯(lián)系人的聲紋模型構(gòu)成聲紋模型庫(kù)。聲紋模型中會(huì)有聯(lián)系人的聲學(xué)特征及其身份信息,身份信息包括電話號(hào)碼、姓名等,聲學(xué)特征和身份信息是相互關(guān)聯(lián)綁定在一起的。
[0019]聲紋特征通訊錄的存儲(chǔ):
聲紋模型庫(kù)可以建在手機(jī)內(nèi)存中,也可以建在外部存儲(chǔ)卡中,便于未知號(hào)碼來(lái)電時(shí),通話開始后自動(dòng)調(diào)用聲紋數(shù)據(jù),并開展比對(duì)確認(rèn)通話者身份。
[0020]模式匹配(模式識(shí)別):
與一般手機(jī)通訊錄不同的是,一般都是以電話號(hào)碼為標(biāo)識(shí)并與聯(lián)系人身份信息綁定,通過(guò)電話號(hào)碼匹配來(lái)識(shí)別來(lái)電者的身份;而此通訊錄是以聲學(xué)特征為標(biāo)識(shí)并與聯(lián)系人身份信息綁定形成聲紋模型,當(dāng)無(wú)法通過(guò)電話號(hào)碼判別來(lái)電身份時(shí),可以通過(guò)聲學(xué)特征匹配來(lái)判別來(lái)電者的身份;
當(dāng)已保存的聯(lián)系人來(lái)電時(shí),聲紋識(shí)別模塊將提取來(lái)電者的聲學(xué)特征形成待識(shí)別的特征矢量序列并通過(guò)模式匹配來(lái)判別聯(lián)系人身份;當(dāng)新聯(lián)系人與機(jī)主通話時(shí),聲紋識(shí)別模塊無(wú)法識(shí)別,并會(huì)提取來(lái)電人的聲學(xué)特征,通話結(jié)束后便會(huì)自動(dòng)提醒機(jī)主是否要將剛才的通話人存為新聯(lián)系人。
[0021]Step2當(dāng)來(lái)電通話開始時(shí),啟動(dòng)聲紋模塊,獲取來(lái)電者的聲音片段;
Step21獲取來(lái)電者通話的一段聲音片段,存入聲紋存儲(chǔ)單兀中分配的一塊臨時(shí)存儲(chǔ)區(qū)中,以備對(duì)其進(jìn)行聲學(xué)特征分析。當(dāng)分析結(jié)束后,聲紋特征被保留,其余被聲音數(shù)據(jù)自動(dòng)刪除。
[0022]Step3通過(guò)分析聲音片段提取來(lái)電者的聲學(xué)特征;
Step31手機(jī)中植入的聲紋識(shí)別模塊會(huì)對(duì)獲取的聲音片段進(jìn)行聲學(xué)特征提取。提取聲音片段中能反映該通話者的可分性強(qiáng)、穩(wěn)定性高的聲紋特征,并將之存放在臨時(shí)存儲(chǔ)區(qū)。
[0023]St印4模式匹配;將已獲得的聲紋特征與聲紋模型庫(kù)中已存儲(chǔ)的聲紋模型進(jìn)行比對(duì);
Step41將待識(shí)別的特征矢量序列與該模型庫(kù)中的聲紋模型逐一進(jìn)行匹配比較得到特征矢量序列與每個(gè)說(shuō)話人聲紋模型的匹配得分,也稱為對(duì)數(shù)似然得分或似然得分或得分;Step5判定,將得分與預(yù)先設(shè)定的得分判定閾值進(jìn)行比較;
Step51當(dāng)?shù)梅执笥诨虻扔陂撝禃r(shí)判定為匹配成功;
Step52當(dāng)?shù)梅中∮陂撝禃r(shí)判定為匹配失??;
Step6輸出,當(dāng)匹配成功后,輸出匹配結(jié)果,即識(shí)別到的聯(lián)系人相關(guān)信息;當(dāng)匹配不成功時(shí),通話結(jié)束后輸出提示信息提示用戶存儲(chǔ)該聲紋信息以及相關(guān)電話號(hào)碼姓名等信息,以便下次通話時(shí)實(shí)時(shí)識(shí)別。
[0024]Step61輸出方式有多種,可以是語(yǔ)音提示、震動(dòng)、屏幕顯示、或三者組合。
[0025]Step7存儲(chǔ),當(dāng)通話結(jié)束后,使用者采納提示建議,系統(tǒng)將該聲紋信息及其相關(guān)身份信息存入存儲(chǔ)單元,并加入聲紋模型庫(kù)。反之,不存儲(chǔ)。
【權(quán)利要求】
1.一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng),其特征在于,包括聲紋獲取單元、聲紋處理器單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元;所述聲紋獲取單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元分別與聲紋處理器單元相連,聲紋獲取單元向聲紋處理器單元單向通信,聲紋識(shí)別單元向聲紋處理器單元單向通信,聲紋數(shù)據(jù)存儲(chǔ)單元和聲紋處理器單元相互通信,聲紋識(shí)別單元向聲紋數(shù)據(jù)存儲(chǔ)單元單向通信。
2.一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法,包括如下步驟: (1)聲紋特征提取: 當(dāng)有未知聲紋源進(jìn)入聲紋獲取單元后,自動(dòng)觸發(fā)保存提示功能,提示使用者保存該聲紋數(shù)據(jù)以便下一次通話時(shí)自動(dòng)識(shí)別該聯(lián)系人;使用者確認(rèn)保存該聲紋數(shù)據(jù)后,聲紋處理器單元將形成由所有聯(lián)系人的聲紋模型構(gòu)成的聲紋模型庫(kù),所述聲紋模型是從聯(lián)系人的聲音中提取聲學(xué)特征構(gòu)建而成,聲紋模型中的聲學(xué)特征和身份信息相互關(guān)聯(lián)綁定在一起; (2)聲紋特征通訊錄的存儲(chǔ): 將所述聲紋模型庫(kù)存儲(chǔ)于聲紋數(shù)據(jù)存儲(chǔ)單元中,所述聲紋數(shù)據(jù)存儲(chǔ)單元設(shè)置于手機(jī)內(nèi)存中,或者設(shè)置于外部存儲(chǔ)卡中; (3)模式識(shí)別: 當(dāng)已保存的聯(lián)系人來(lái)電時(shí),聲紋識(shí)別單元提取來(lái)電者的聲學(xué)特征形成待識(shí)別的特征矢量序列并通過(guò)模式匹配來(lái)判別聯(lián)系人身份;當(dāng)新聯(lián)系人與機(jī)主通話時(shí),聲紋識(shí)別單元無(wú)法識(shí)別,但仍提取來(lái)電人的聲學(xué)特征,通話結(jié)束后自動(dòng)提醒機(jī)主是否將來(lái)電者存為新聯(lián)系人。
3.根據(jù)權(quán)利要求2所述的一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法,其特征在于,所述提取聲學(xué)特征構(gòu)和存儲(chǔ)聲紋特征的具體過(guò)程為: (1)當(dāng)來(lái)電通話開始時(shí),啟動(dòng)聲紋獲取模塊,獲取來(lái)電者的聲音片段并存儲(chǔ); (2)通過(guò)分析聲音片段提取來(lái)電者的聲學(xué)特征; (3)模式匹配,將已獲得的聲紋特征與聲紋模型庫(kù)中已存儲(chǔ)的聲紋模型進(jìn)行比對(duì); (4)判定,將得分與預(yù)先設(shè)定的得分判定閾值進(jìn)行比較; (5)輸出,當(dāng)匹配成功后,輸出匹配結(jié)果,即識(shí)別到的聯(lián)系人相關(guān)信息;當(dāng)匹配不成功時(shí),通話結(jié)束后輸出提示信息提示用戶存儲(chǔ)該聲紋信息以及相關(guān)電話號(hào)碼姓名信息,以便下次通話時(shí)實(shí)時(shí)識(shí)別; (6)存儲(chǔ),當(dāng)通話結(jié)束后,使用者采納提示建議,系統(tǒng)將該聲紋信息及其相關(guān)身份信息存入存儲(chǔ)單元,并加入聲紋模型庫(kù);反之,不存儲(chǔ)。
4.根據(jù)權(quán)利要求3所述的一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法,其特征在于,步驟(1)中,聲紋獲取單元獲取來(lái)電者通話的一段聲音片段,存入聲紋數(shù)據(jù)存儲(chǔ)單元中分配的一塊臨時(shí)存儲(chǔ)區(qū)中,以備對(duì)其進(jìn)行聲學(xué)特征分析;當(dāng)分析結(jié)束后,聲紋特征被保留,其余被聲音數(shù)據(jù)自動(dòng)刪除。
5.根據(jù)權(quán)利要求3所述的一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法,其特征在于,步驟(2)中,提取聲音片段中能反映通話者的可分性強(qiáng)、穩(wěn)定性高的聲紋特征,并將之存放在臨時(shí)存儲(chǔ)區(qū)。
6.根據(jù)權(quán)利要求3所述的一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法,其特征在于,步驟(3)中,將待識(shí)別的特征矢量序列與模型庫(kù)中的聲紋模型逐一進(jìn)行匹配比較得到特征矢量序列與每個(gè)說(shuō)話人聲紋模型的匹配得分,也即對(duì)數(shù)似然得分或似然得分或得分。
7.根據(jù)權(quán)利要求3所述的一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法,其特征在于,步驟(4)中,當(dāng)?shù)梅执笥诨虻扔陂撝禃r(shí)判定為匹配成功;當(dāng)?shù)梅中∮陂撝禃r(shí)判定為匹配失敗。
8.根據(jù)權(quán)利要求3所述的一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法,其特征在于,步驟(5)中,輸出方式為語(yǔ)音提示、震動(dòng)、屏幕顯示,或三種方式的兩兩組合、又或以上三種方式組合在一 起。
【文檔編號(hào)】G10L15/06GK103700371SQ201310677837
【公開日】2014年4月2日 申請(qǐng)日期:2013年12月13日 優(yōu)先權(quán)日:2013年12月13日
【發(fā)明者】馬世典, 韓牟, 趙宏杰, 汪少華 申請(qǐng)人:江蘇大學(xué)