一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)及其識(shí)別方法

文檔序號(hào)：2826508閱讀：353來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)及其識(shí)別方法
【專利摘要】本發(fā)明公開了一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)及其識(shí)別方法，該系統(tǒng)包括聲紋獲取單元、聲紋處理器單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元；所述聲紋獲取單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元分別與聲紋處理器單元相連，聲紋獲取單元向聲紋處理器單元單向通信，聲紋識(shí)別單元向聲紋處理器單元單向通信，聲紋數(shù)據(jù)存儲(chǔ)單元和聲紋處理器單元相互通信，聲紋識(shí)別單元向聲紋數(shù)據(jù)存儲(chǔ)單元單向通信。本發(fā)明在通信設(shè)備中建立一個(gè)聲紋模型庫(kù)，在通話中將通話人的聲學(xué)特征與預(yù)先存入的已知聯(lián)系人的聲紋模型逐一作對(duì)比來(lái)判別通話人的身份信息。即當(dāng)某已知聯(lián)系人使用不同通信設(shè)備中未記錄號(hào)碼電話與機(jī)主通話時(shí)都能通過(guò)來(lái)電者的聲音來(lái)輔助判別其身份。
【專利說(shuō)明】一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)及其識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及聲紋識(shí)別技術(shù)，即根據(jù)說(shuō)話人的發(fā)音特征，自動(dòng)識(shí)別說(shuō)話人身份的一種生物識(shí)別方法。
【背景技術(shù)】
[0002]所謂聲紋(Voiceprint)，是用電聲學(xué)儀器顯示的攜帶言語(yǔ)信息的聲波頻譜。人類語(yǔ)言的產(chǎn)生是人體語(yǔ)言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過(guò)程，人在講話時(shí)使用的發(fā)聲器官一舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大，所以任何兩個(gè)人的聲紋圖譜都有差異。每個(gè)人的語(yǔ)音聲學(xué)特征既有相對(duì)穩(wěn)定性，又有變異性，不是絕對(duì)的、一成不變的。這種變異可來(lái)自生理、病理、心理、模擬、偽裝，也與環(huán)境干擾有關(guān)。盡管如此，由于每個(gè)人的發(fā)音器官都不盡相同，因此在一般情況下，人們?nèi)阅軈^(qū)別不同的人的聲音或判斷是否是同一人的聲音。
[0003]聲紋識(shí)別的一般過(guò)程:
(O從待識(shí)別人的聲音中提取聲學(xué)特征形成待識(shí)別的特征矢量序列；
(2)將待識(shí)別的特征矢量序列與該模型庫(kù)中的聲紋模型逐一進(jìn)行匹配比較得到特征矢量序列與每個(gè)說(shuō)話人聲紋模型的匹配得分(也稱為對(duì)數(shù)似然的分，或似然得分，或得分)，并進(jìn)行判決；計(jì)算特征矢量序列與說(shuō)話人模型匹配分?jǐn)?shù)；
(3)根據(jù)聲紋的識(shí)別方法的類型(閉集聲紋鑒別、開集聲紋鑒別和聲紋確認(rèn))，在需要的時(shí)候進(jìn)行拒識(shí)判決，從而得出結(jié)果。
[0004]聲紋識(shí)別可以說(shuō)有兩個(gè)關(guān)鍵問(wèn)題，一是特征提取，二是模式匹配(模式識(shí)別)。特征提取的任務(wù)是提取并選擇聲音片段中具有可分性強(qiáng)、穩(wěn)定性高等特性的聲學(xué)或語(yǔ)言特征。與語(yǔ)音識(shí)別不同，聲紋識(shí)別的特征必須是“個(gè)性化”特征，而說(shuō)話人識(shí)別的特征對(duì)說(shuō)話者本人來(lái)講必須是“共性特征”。
[0005]現(xiàn)有的語(yǔ)音識(shí)別裝置當(dāng)通信設(shè)備中存儲(chǔ)聯(lián)系人換了號(hào)碼或用未知電話給機(jī)主通話時(shí)，機(jī)主不能及時(shí)判斷通話人的身份。

【發(fā)明內(nèi)容】

[0006]針對(duì)現(xiàn)有技術(shù)中語(yǔ)音識(shí)別存在的識(shí)別率不高的問(wèn)題，本發(fā)明提供一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)及其識(shí)別方法，在通信設(shè)備中植入聲紋識(shí)別模塊用來(lái)判別聯(lián)系人身份。
[0007]本發(fā)明的技術(shù)方案如下:
一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)，包括聲紋獲取單元、聲紋處理器單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元；所述聲紋獲取單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元分別與聲紋處理器單元相連，聲紋獲取單元向聲紋處理器單元單向通信，聲紋識(shí)別單元向聲紋處理器單元單向通信，聲紋數(shù)據(jù)存儲(chǔ)單元和聲紋處理器單元相互通信，聲紋識(shí)別單元向聲紋數(shù)據(jù)存儲(chǔ)單元單向通信。[0008]一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法，包括如下步驟:
(1)聲紋特征提取:
當(dāng)有未知聲紋源進(jìn)入聲紋獲取單元后，自動(dòng)觸發(fā)保存提示功能，提示使用者保存該聲紋數(shù)據(jù)以便下一次通話時(shí)自動(dòng)識(shí)別該聯(lián)系人；使用者確認(rèn)保存該聲紋數(shù)據(jù)后，聲紋處理器單元將形成由所有聯(lián)系人的聲紋模型構(gòu)成的聲紋模型庫(kù)，所述聲紋模型是從聯(lián)系人的聲音中提取聲學(xué)特征構(gòu)建而成，聲紋模型中的聲學(xué)特征和身份信息相互關(guān)聯(lián)綁定在一起；
(2)聲紋特征通訊錄的存儲(chǔ):
將所述聲紋模型庫(kù)存儲(chǔ)于聲紋數(shù)據(jù)存儲(chǔ)單元中，所述聲紋數(shù)據(jù)存儲(chǔ)單元設(shè)置于手機(jī)內(nèi)存中，或者設(shè)置于外部存儲(chǔ)卡中；
(3)模式識(shí)別:
當(dāng)已保存的聯(lián)系人來(lái)電時(shí)，聲紋識(shí)別單元提取來(lái)電者的聲學(xué)特征形成待識(shí)別的特征矢量序列并通過(guò)模式匹配來(lái)判別聯(lián)系人身份；當(dāng)新聯(lián)系人與機(jī)主通話時(shí)，聲紋識(shí)別單元無(wú)法識(shí)別，但仍提取來(lái)電人的聲學(xué)特征，通話結(jié)束后自動(dòng)提醒機(jī)主是否將來(lái)電者存為新聯(lián)系人。
[0009]進(jìn)一步，所述提取聲學(xué)特征構(gòu)和存儲(chǔ)聲紋特征的具體過(guò)程為:
(1)當(dāng)來(lái)電通話開始時(shí)，啟動(dòng)聲紋獲取模塊，獲取來(lái)電者的聲音片段并存儲(chǔ)；
(2)通過(guò)分析聲音片段提取來(lái)電者的聲學(xué)特征；
(3)模式匹配，將已獲得的聲紋特征與聲紋模型庫(kù)中已存儲(chǔ)的聲紋模型進(jìn)行比對(duì)；
(4)判定，將得分與預(yù)先設(shè)定的得分判定閾值進(jìn)行比較；
(5)輸出，當(dāng)匹配成功后，輸出匹配結(jié)果，即識(shí)別到的聯(lián)系人相關(guān)信息；當(dāng)匹配不成功時(shí)，通話結(jié)束后輸出提示信息提示用戶存儲(chǔ)該聲紋信息以及相關(guān)電話號(hào)碼姓名信息，以便下次通話時(shí)實(shí)時(shí)識(shí)別；
(6)存儲(chǔ)，當(dāng)通話結(jié)束后，使用者采納提示建議，系統(tǒng)將該聲紋信息及其相關(guān)身份信息存入存儲(chǔ)單元，并加入聲紋模型庫(kù)；反之，不存儲(chǔ)。
[0010]進(jìn)一步，步驟(I)中，聲紋獲取單元獲取來(lái)電者通話的一段聲音片段，存入聲紋數(shù)據(jù)存儲(chǔ)單元中分配的一塊臨時(shí)存儲(chǔ)區(qū)中，以備對(duì)其進(jìn)行聲學(xué)特征分析；當(dāng)分析結(jié)束后，聲紋特征被保留，其余被聲音數(shù)據(jù)自動(dòng)刪除。
[0011]進(jìn)一步，步驟(2)中，提取聲音片段中能反映通話者的可分性強(qiáng)、穩(wěn)定性高的聲紋特征，并將之存放在臨時(shí)存儲(chǔ)區(qū)。
[0012]進(jìn)一步，步驟(3 )中，將待識(shí)別的特征矢量序列與模型庫(kù)中的聲紋模型逐一進(jìn)行匹配比較得到特征矢量序列與每個(gè)說(shuō)話人聲紋模型的匹配得分，也即對(duì)數(shù)似然得分或似然得分或得分。
[0013]進(jìn)一步，步驟(4)中，當(dāng)?shù)梅执笥诨虻扔陂撝禃r(shí)判定為匹配成功；當(dāng)?shù)梅中∮陂撝禃r(shí)判定為匹配失敗。
[0014]進(jìn)一步，步驟(5)中，輸出方式為語(yǔ)音提示、震動(dòng)、屏幕顯示，或三種方式的兩兩組合、又或以上三種方式組合在一起。
[0015]本發(fā)明的有益效果是:
本發(fā)明一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)建立了一個(gè)聲紋模型庫(kù)(相當(dāng)于我們現(xiàn)在的通訊錄)，通訊錄是以聲學(xué)特征為標(biāo)識(shí)并與聯(lián)系人身份信息綁定形成聲紋模型，在通話中將通話人的聲學(xué)特征與預(yù)先存入的已知聯(lián)系人的聲紋模型逐一作對(duì)比來(lái)判別通話人的身份信息。當(dāng)無(wú)法通過(guò)電話號(hào)碼判別來(lái)電身份時(shí)，可以通過(guò)聲學(xué)特征匹配來(lái)判別來(lái)電者的身份。當(dāng)通信設(shè)備中存儲(chǔ)的聯(lián)系人換了號(hào)碼或用未知電話給機(jī)主通話時(shí)，機(jī)主仍能及時(shí)判斷通話人的身份。
【專利附圖】

【附圖說(shuō)明】
[0016]圖1是基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的示意圖；
圖2是識(shí)別來(lái)電者身份的方法流程圖。
【具體實(shí)施方式】
[0017]以下將結(jié)合附圖所示的各實(shí)施方式對(duì)本發(fā)明進(jìn)行詳細(xì)描述。但這些實(shí)施方式并不限制本發(fā)明，本領(lǐng)域的普通技術(shù)人員根據(jù)這些實(shí)施方式所做出的結(jié)構(gòu)、方法、或功能上的變換均包含在本發(fā)明的保護(hù)范圍內(nèi)。本例以手機(jī)為例對(duì)本發(fā)明【具體實(shí)施方式】進(jìn)行說(shuō)明。
[0018]Stepl系統(tǒng)建立。如圖1所示，基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)包含如下部分:聲紋獲取單元、聲紋處理器單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元。本發(fā)明包含的功能主要有以下方面:
聲紋特征提取:
當(dāng)有未知聲紋源進(jìn)入聲紋采集單元后，自動(dòng)觸發(fā)保存提示功能，提示使用者保存該聲紋數(shù)據(jù)以便下一次通話時(shí)自動(dòng)識(shí)別該聯(lián)系人。使用者確認(rèn)保存該聲紋數(shù)據(jù)后，將會(huì)形成一個(gè)特殊的通訊錄，即聲紋模型庫(kù):從聯(lián)系人的聲音中提取聲學(xué)特征構(gòu)建聲紋模型，所有聯(lián)系人的聲紋模型構(gòu)成聲紋模型庫(kù)。聲紋模型中會(huì)有聯(lián)系人的聲學(xué)特征及其身份信息，身份信息包括電話號(hào)碼、姓名等，聲學(xué)特征和身份信息是相互關(guān)聯(lián)綁定在一起的。
[0019]聲紋特征通訊錄的存儲(chǔ):
聲紋模型庫(kù)可以建在手機(jī)內(nèi)存中，也可以建在外部存儲(chǔ)卡中，便于未知號(hào)碼來(lái)電時(shí)，通話開始后自動(dòng)調(diào)用聲紋數(shù)據(jù)，并開展比對(duì)確認(rèn)通話者身份。
[0020]模式匹配(模式識(shí)別):
與一般手機(jī)通訊錄不同的是，一般都是以電話號(hào)碼為標(biāo)識(shí)并與聯(lián)系人身份信息綁定，通過(guò)電話號(hào)碼匹配來(lái)識(shí)別來(lái)電者的身份；而此通訊錄是以聲學(xué)特征為標(biāo)識(shí)并與聯(lián)系人身份信息綁定形成聲紋模型，當(dāng)無(wú)法通過(guò)電話號(hào)碼判別來(lái)電身份時(shí)，可以通過(guò)聲學(xué)特征匹配來(lái)判別來(lái)電者的身份；
當(dāng)已保存的聯(lián)系人來(lái)電時(shí)，聲紋識(shí)別模塊將提取來(lái)電者的聲學(xué)特征形成待識(shí)別的特征矢量序列并通過(guò)模式匹配來(lái)判別聯(lián)系人身份；當(dāng)新聯(lián)系人與機(jī)主通話時(shí)，聲紋識(shí)別模塊無(wú)法識(shí)別，并會(huì)提取來(lái)電人的聲學(xué)特征，通話結(jié)束后便會(huì)自動(dòng)提醒機(jī)主是否要將剛才的通話人存為新聯(lián)系人。
[0021]Step2當(dāng)來(lái)電通話開始時(shí)，啟動(dòng)聲紋模塊，獲取來(lái)電者的聲音片段；
Step21獲取來(lái)電者通話的一段聲音片段,存入聲紋存儲(chǔ)單兀中分配的一塊臨時(shí)存儲(chǔ)區(qū)中，以備對(duì)其進(jìn)行聲學(xué)特征分析。當(dāng)分析結(jié)束后，聲紋特征被保留，其余被聲音數(shù)據(jù)自動(dòng)刪除。
[0022]Step3通過(guò)分析聲音片段提取來(lái)電者的聲學(xué)特征；
Step31手機(jī)中植入的聲紋識(shí)別模塊會(huì)對(duì)獲取的聲音片段進(jìn)行聲學(xué)特征提取。提取聲音片段中能反映該通話者的可分性強(qiáng)、穩(wěn)定性高的聲紋特征，并將之存放在臨時(shí)存儲(chǔ)區(qū)。
[0023]St印4模式匹配；將已獲得的聲紋特征與聲紋模型庫(kù)中已存儲(chǔ)的聲紋模型進(jìn)行比對(duì)；
Step41將待識(shí)別的特征矢量序列與該模型庫(kù)中的聲紋模型逐一進(jìn)行匹配比較得到特征矢量序列與每個(gè)說(shuō)話人聲紋模型的匹配得分，也稱為對(duì)數(shù)似然得分或似然得分或得分；Step5判定,將得分與預(yù)先設(shè)定的得分判定閾值進(jìn)行比較；
Step51當(dāng)?shù)梅执笥诨虻扔陂撝禃r(shí)判定為匹配成功；
Step52當(dāng)?shù)梅中∮陂撝禃r(shí)判定為匹配失??；
Step6輸出，當(dāng)匹配成功后，輸出匹配結(jié)果，即識(shí)別到的聯(lián)系人相關(guān)信息；當(dāng)匹配不成功時(shí)，通話結(jié)束后輸出提示信息提示用戶存儲(chǔ)該聲紋信息以及相關(guān)電話號(hào)碼姓名等信息，以便下次通話時(shí)實(shí)時(shí)識(shí)別。
[0024]Step61輸出方式有多種，可以是語(yǔ)音提示、震動(dòng)、屏幕顯示、或三者組合。
[0025]Step7存儲(chǔ)，當(dāng)通話結(jié)束后，使用者采納提示建議，系統(tǒng)將該聲紋信息及其相關(guān)身份信息存入存儲(chǔ)單元，并加入聲紋模型庫(kù)。反之，不存儲(chǔ)。
【權(quán)利要求】
1.一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)，其特征在于，包括聲紋獲取單元、聲紋處理器單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元；所述聲紋獲取單元、聲紋數(shù)據(jù)存儲(chǔ)單元、聲紋識(shí)別單元分別與聲紋處理器單元相連，聲紋獲取單元向聲紋處理器單元單向通信，聲紋識(shí)別單元向聲紋處理器單元單向通信，聲紋數(shù)據(jù)存儲(chǔ)單元和聲紋處理器單元相互通信，聲紋識(shí)別單元向聲紋數(shù)據(jù)存儲(chǔ)單元單向通信。
2.一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法，包括如下步驟: (1)聲紋特征提取: 當(dāng)有未知聲紋源進(jìn)入聲紋獲取單元后，自動(dòng)觸發(fā)保存提示功能，提示使用者保存該聲紋數(shù)據(jù)以便下一次通話時(shí)自動(dòng)識(shí)別該聯(lián)系人；使用者確認(rèn)保存該聲紋數(shù)據(jù)后，聲紋處理器單元將形成由所有聯(lián)系人的聲紋模型構(gòu)成的聲紋模型庫(kù)，所述聲紋模型是從聯(lián)系人的聲音中提取聲學(xué)特征構(gòu)建而成，聲紋模型中的聲學(xué)特征和身份信息相互關(guān)聯(lián)綁定在一起； (2)聲紋特征通訊錄的存儲(chǔ): 將所述聲紋模型庫(kù)存儲(chǔ)于聲紋數(shù)據(jù)存儲(chǔ)單元中，所述聲紋數(shù)據(jù)存儲(chǔ)單元設(shè)置于手機(jī)內(nèi)存中，或者設(shè)置于外部存儲(chǔ)卡中； (3)模式識(shí)別: 當(dāng)已保存的聯(lián)系人來(lái)電時(shí)，聲紋識(shí)別單元提取來(lái)電者的聲學(xué)特征形成待識(shí)別的特征矢量序列并通過(guò)模式匹配來(lái)判別聯(lián)系人身份；當(dāng)新聯(lián)系人與機(jī)主通話時(shí)，聲紋識(shí)別單元無(wú)法識(shí)別，但仍提取來(lái)電人的聲學(xué)特征，通話結(jié)束后自動(dòng)提醒機(jī)主是否將來(lái)電者存為新聯(lián)系人。
3.根據(jù)權(quán)利要求2所述的一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法，其特征在于，所述提取聲學(xué)特征構(gòu)和存儲(chǔ)聲紋特征的具體過(guò)程為: (1)當(dāng)來(lái)電通話開始時(shí)，啟動(dòng)聲紋獲取模塊，獲取來(lái)電者的聲音片段并存儲(chǔ)； (2)通過(guò)分析聲音片段提取來(lái)電者的聲學(xué)特征； (3)模式匹配，將已獲得的聲紋特征與聲紋模型庫(kù)中已存儲(chǔ)的聲紋模型進(jìn)行比對(duì)； (4)判定，將得分與預(yù)先設(shè)定的得分判定閾值進(jìn)行比較； (5)輸出，當(dāng)匹配成功后，輸出匹配結(jié)果，即識(shí)別到的聯(lián)系人相關(guān)信息；當(dāng)匹配不成功時(shí)，通話結(jié)束后輸出提示信息提示用戶存儲(chǔ)該聲紋信息以及相關(guān)電話號(hào)碼姓名信息，以便下次通話時(shí)實(shí)時(shí)識(shí)別； (6)存儲(chǔ)，當(dāng)通話結(jié)束后，使用者采納提示建議，系統(tǒng)將該聲紋信息及其相關(guān)身份信息存入存儲(chǔ)單元，并加入聲紋模型庫(kù)；反之，不存儲(chǔ)。
4.根據(jù)權(quán)利要求3所述的一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法，其特征在于，步驟(1)中，聲紋獲取單元獲取來(lái)電者通話的一段聲音片段，存入聲紋數(shù)據(jù)存儲(chǔ)單元中分配的一塊臨時(shí)存儲(chǔ)區(qū)中，以備對(duì)其進(jìn)行聲學(xué)特征分析；當(dāng)分析結(jié)束后，聲紋特征被保留，其余被聲音數(shù)據(jù)自動(dòng)刪除。
5.根據(jù)權(quán)利要求3所述的一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法，其特征在于，步驟(2)中，提取聲音片段中能反映通話者的可分性強(qiáng)、穩(wěn)定性高的聲紋特征，并將之存放在臨時(shí)存儲(chǔ)區(qū)。
6.根據(jù)權(quán)利要求3所述的一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法，其特征在于，步驟(3)中，將待識(shí)別的特征矢量序列與模型庫(kù)中的聲紋模型逐一進(jìn)行匹配比較得到特征矢量序列與每個(gè)說(shuō)話人聲紋模型的匹配得分，也即對(duì)數(shù)似然得分或似然得分或得分。
7.根據(jù)權(quán)利要求3所述的一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法，其特征在于，步驟(4)中，當(dāng)?shù)梅执笥诨虻扔陂撝禃r(shí)判定為匹配成功；當(dāng)?shù)梅中∮陂撝禃r(shí)判定為匹配失敗。
8.根據(jù)權(quán)利要求3所述的一種基于聲紋識(shí)別的來(lái)電身份識(shí)別系統(tǒng)的識(shí)別方法，其特征在于，步驟(5)中，輸出方式為語(yǔ)音提示、震動(dòng)、屏幕顯示，或三種方式的兩兩組合、又或以上三種方式組合在一起。
【文檔編號(hào)】G10L15/06GK103700371SQ201310677837
【公開日】2014年4月2日申請(qǐng)日期:2013年12月13日優(yōu)先權(quán)日:2013年12月13日
【發(fā)明者】馬世典, 韓牟, 趙宏杰, 汪少華申請(qǐng)人:江蘇大學(xué)

完整全部詳細(xì)技術(shù)資料下載