通話(huà)聲音識(shí)別方法及裝置的制造方法_2

文檔序號(hào)：8431779閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>通話(huà)聲音識(shí)別方法及裝置的制造方法

每個(gè)用戶(hù)對(duì)應(yīng)的，例如，用戶(hù)A和用戶(hù)B均有各自的聲音模型庫(kù)?；蛘?，聲音數(shù)據(jù)庫(kù)還可以至多個(gè)用戶(hù)或者一組用戶(hù)共享的，例如，一個(gè)公司或者一個(gè)團(tuán)體的所有的用戶(hù)均共享一個(gè)聲音模型庫(kù)，該共享的聲音模型庫(kù)可以是各個(gè)用戶(hù)自行錄制聲音樣本之后集中在一起形成的。另外，作為運(yùn)營(yíng)商可以提供的一個(gè)服務(wù)，運(yùn)營(yíng)商可以將得到的所有的用戶(hù)的聲音樣本作為一個(gè)大型的聲音模型庫(kù)，通過(guò)該聲音模型庫(kù)可以為用戶(hù)提供更加全面的聲音識(shí)別。
[0037]對(duì)聯(lián)系人的聲音進(jìn)行采樣處理和保存，可以有多種實(shí)現(xiàn)方式，本實(shí)施例中提供了一種比較優(yōu)的實(shí)施方式，在該方式中，可以將該采樣得到的聲音進(jìn)行聲音特征提取，轉(zhuǎn)化為數(shù)字向量，將該數(shù)字向量進(jìn)行保存，進(jìn)而實(shí)現(xiàn)移動(dòng)終端的通訊錄中的聯(lián)系人的聲音進(jìn)行采樣處理和保存。
[0038]在另一個(gè)優(yōu)選實(shí)施例中，獲取通話(huà)方的方式有很多，有一種比較直接的方式，是獲取通話(huà)的對(duì)方號(hào)碼，根據(jù)對(duì)方號(hào)碼在聲音模型庫(kù)中查找聲音，并將聲音樣本與查找到的聲音進(jìn)行比較。在對(duì)方號(hào)碼存在于移動(dòng)終端的通訊錄中，且該聲音模型庫(kù)是通過(guò)此通訊錄中的聯(lián)系人的聲音進(jìn)行米樣處理和保存建立的時(shí)，直接在聲音模型庫(kù)中查找對(duì)方號(hào)碼在聲音模型庫(kù)中的聲音，將聲音樣本與所查找到的聲音進(jìn)行比較；在對(duì)方號(hào)碼不在移動(dòng)終端的通訊錄中時(shí)，查找對(duì)方號(hào)碼在聲音模型庫(kù)中有無(wú)相對(duì)應(yīng)的聲音，如果有與之對(duì)應(yīng)的聲音，將聲音樣本與所查找到的聲音進(jìn)行比較。更優(yōu)選地，可以在根據(jù)對(duì)方號(hào)碼在聲音模型庫(kù)中查找聲音失敗的情況下，將聲音樣本與聲音模型庫(kù)中所有的聲音進(jìn)行比較。
[0039]優(yōu)選地，對(duì)于聲音的識(shí)別，可以米用相似度的判別方法，可以在聲音樣本與聲音模型庫(kù)中查找到的聲音的相似度大于或等于閾值時(shí)，則將通話(huà)對(duì)象識(shí)別為該聲音模型庫(kù)中聲音模型所對(duì)應(yīng)的用戶(hù)；在聲音樣本與聲音模型庫(kù)中查找到的聲音的相似度小于閾值時(shí)，則確認(rèn)通話(huà)對(duì)象為陌生人。優(yōu)選地，還可以將通話(huà)對(duì)象的識(shí)別結(jié)果通知給移動(dòng)終端。
[0040]在本實(shí)施例中還提供了一種通話(huà)聲音識(shí)別裝置，該裝置用于實(shí)現(xiàn)上述裝置，在上述裝置中已經(jīng)進(jìn)行過(guò)說(shuō)明的在此不再贅述，以下該裝置中的模塊的名稱(chēng)不應(yīng)當(dāng)理解為對(duì)該模塊的限定，例如，獲取模塊，用于獲取進(jìn)行通話(huà)的通話(huà)對(duì)象的聲音樣本，也可以表述為“一種用于獲取進(jìn)行通話(huà)的通話(huà)對(duì)象的聲音樣本的模塊”，下面所描述的模塊的功能可以通過(guò)處理器來(lái)實(shí)現(xiàn)。圖2是根據(jù)本發(fā)明實(shí)施例的通話(huà)聲音識(shí)別裝置的框圖，如圖2所示，包括:獲取模塊22、比較模塊24和識(shí)別模塊26。
[0041]優(yōu)選地，獲取模塊22，用于獲取進(jìn)行通話(huà)的通話(huà)對(duì)象的聲音樣本；比較模塊24，用于將聲音樣本與聲音模型庫(kù)中的聲音進(jìn)行比較；識(shí)別模塊26，用于根據(jù)比較結(jié)果對(duì)該通話(huà)聲音進(jìn)行識(shí)別。優(yōu)選地，比較模塊24和識(shí)別模塊26可以位于所述移動(dòng)終端中或位于網(wǎng)絡(luò)側(cè)的服務(wù)器中。
[0042]圖3是根據(jù)本發(fā)明實(shí)施例的通話(huà)聲音識(shí)別裝置的優(yōu)選框圖一，如圖3所示，該裝置還包括:保存模塊32，用于對(duì)移動(dòng)終端的通訊錄中的聯(lián)系人的聲音進(jìn)行采樣處理和保存，以建立聲音模型庫(kù)，其中，聲音模型庫(kù)存儲(chǔ)在遠(yuǎn)程服務(wù)器中和/或該移動(dòng)終端中。
[0043]圖4是根據(jù)本發(fā)明實(shí)施例的通話(huà)聲音識(shí)別裝置的優(yōu)選框圖二，如圖4所示，保存模塊32包括:提取單元42，用于將采樣得到的聲音進(jìn)行聲音特征提取，轉(zhuǎn)化為數(shù)字向量；保存單元44，用于將數(shù)字向量進(jìn)行保存。
[0044]圖5是根據(jù)本發(fā)明實(shí)施例的通話(huà)聲音識(shí)別裝置的優(yōu)選框圖三，如圖5所示，比較模塊24包括:獲取單元52，用于獲取通話(huà)的對(duì)方號(hào)碼；比較單元54，用于根據(jù)對(duì)方號(hào)碼在聲音模型庫(kù)中查找聲音，并將聲音樣本與查找到的聲音進(jìn)行比較。
[0045]優(yōu)選地，比較模塊24還用于在根據(jù)對(duì)方號(hào)碼在聲音模型庫(kù)中查找聲音失敗的情況下，將聲音樣本與聲音模型庫(kù)中所有的聲音進(jìn)行比較。
[0046]優(yōu)選地，識(shí)別模塊26,用于在聲音樣本與聲音模型庫(kù)中查找到的聲音的相似度大于或等于閾值時(shí)，則將通話(huà)對(duì)象識(shí)別為聲音模型庫(kù)中聲音模型所對(duì)應(yīng)的用戶(hù)；在聲音樣本與該聲音模型庫(kù)中查找到的聲音的相似度小于閾值時(shí)，則確認(rèn)該通話(huà)對(duì)象為陌生人。
[0047]圖6是根據(jù)本發(fā)明實(shí)施例的通話(huà)聲音識(shí)別裝置的優(yōu)選框圖四，如圖6所示，該裝置還包括:通知模塊62，用于將通話(huà)對(duì)象的識(shí)別結(jié)果通知給移動(dòng)終端。
[0048]下面結(jié)合優(yōu)選實(shí)施例進(jìn)行說(shuō)明。
[0049]在本優(yōu)選實(shí)施例中提出了一種可以通過(guò)通話(huà)聲音辨別說(shuō)話(huà)人身份的移動(dòng)終端及通話(huà)識(shí)別方法，用于防止犯罪分子通過(guò)冒充手機(jī)用戶(hù)的熟人給受害人打電話(huà)來(lái)達(dá)到詐騙的目的。并且還提供一種移動(dòng)終端的聲音分析裝置，這種裝置先通過(guò)對(duì)手機(jī)通訊錄中的聯(lián)系人的聲音米樣、建立一個(gè)聲音模型庫(kù)、并存儲(chǔ)于遠(yuǎn)程服務(wù)器或移動(dòng)終端中；在用戶(hù)使用手機(jī)通話(huà)過(guò)程中，首先對(duì)來(lái)電的聲音進(jìn)行采樣，然后將聲音樣本上傳至遠(yuǎn)程服務(wù)器或移動(dòng)終端，遠(yuǎn)程服務(wù)器或移動(dòng)終端將聲音樣本與聲音模型庫(kù)作匹配或模式分類(lèi)等手段得出聲音相似度的結(jié)論，從而識(shí)別對(duì)端通話(huà)人的身份。
[0050]本優(yōu)選實(shí)施例中的裝置包括兩個(gè)子系統(tǒng):前端子系統(tǒng)和后端子系統(tǒng)。前端子系統(tǒng)可以包括四個(gè)模塊，分別是:1、用戶(hù)接口界面模塊；2、聲音采樣模塊；3、聲音特征提取模塊；4、通訊接口模塊。后端子系統(tǒng)包括5個(gè)模塊，分別是:1、用戶(hù)配置管理模塊；2、聲音特征提取模塊；3、聲音模型創(chuàng)建模塊；4、聲音識(shí)別模塊；5、通訊接口模塊。其中，聲音識(shí)別模塊實(shí)現(xiàn)了上述比較模塊24和識(shí)別模塊26的功能。下面對(duì)這些模塊進(jìn)行說(shuō)明。
[0051]聲音采樣模塊:負(fù)責(zé)在通話(huà)過(guò)程中捕捉對(duì)方說(shuō)話(huà)人的聲音，然后交給前端子系統(tǒng)的聲音特征提取模塊。
[0052]聲音特征提取模塊:負(fù)責(zé)將獲取到的聲音提取特征，轉(zhuǎn)化為數(shù)字向量。
[0053]聲音模型創(chuàng)建模塊:負(fù)責(zé)將特征提取后的聲音數(shù)字向量建立一個(gè)聲音模型。
[0054]聲音識(shí)別模塊:用來(lái)根據(jù)聲音識(shí)別通話(huà)人身份。
[0055]用戶(hù)配置管理模塊:用戶(hù)配置后端子系統(tǒng)的門(mén)戶(hù)，用于對(duì)聲音模型創(chuàng)建的參數(shù)進(jìn)行設(shè)置。
[0056]用戶(hù)接口界面模塊:用戶(hù)的操作界面接口。
[0057]通訊接口模塊:負(fù)責(zé)前端子系統(tǒng)和后端子系統(tǒng)的通信鏈路維護(hù)，可以支持wif1、3G網(wǎng)絡(luò)、本系統(tǒng)內(nèi)部通信等方式。
[0058]圖7是根據(jù)本發(fā)明實(shí)施例的通話(huà)聲音識(shí)別系統(tǒng)模塊組成圖，如圖7所示，前端子系統(tǒng)包括:用戶(hù)接口界面模塊、聲音采樣模塊、聲音特征提取模塊和通訊接口模塊。后端子系統(tǒng)包括:用戶(hù)配置管理模塊、聲音特征提取模塊、聲音識(shí)別模塊、聲音模型創(chuàng)建模塊和通訊接口模塊。本裝置的前端子系統(tǒng)可以部署到用戶(hù)的智能手機(jī)上，而本裝置的后端子系統(tǒng)可以部署到用戶(hù)的智能手機(jī)上，也可以部署到后端服務(wù)器上。如果后端子系統(tǒng)部署到智能手機(jī)上，則前端子系統(tǒng)和后端子系統(tǒng)采用手機(jī)操作系統(tǒng)內(nèi)部通信的通訊方式，如果后端子系統(tǒng)部署到后端服務(wù)器上，則前端子系統(tǒng)和后端子系統(tǒng)采用wifi或3G網(wǎng)絡(luò)的通訊方式。后端子系統(tǒng)負(fù)責(zé)為手機(jī)用戶(hù)創(chuàng)建和存儲(chǔ)通訊錄中聯(lián)系人的聲音模型，而前端子系統(tǒng)負(fù)責(zé)采樣手機(jī)通話(huà)過(guò)程中對(duì)端說(shuō)話(huà)人的聲音，然后將采樣和特征提取后的聲音樣本上傳至后端子系統(tǒng)，后端子系統(tǒng)根據(jù)聲音模型庫(kù)來(lái)識(shí)別對(duì)端說(shuō)話(huà)人。一種典型的應(yīng)用場(chǎng)景如下:
[0059]小明在自己新買(mǎi)的手機(jī)上安裝了本系統(tǒng)，在安裝本系統(tǒng)后，小明的朋友小馬跟小明通電話(huà)，小馬的聲音模型就被本系統(tǒng)存儲(chǔ)下來(lái)。若干天之后，有一個(gè)自稱(chēng)小馬的人使用非通訊錄中小馬的手機(jī)號(hào)給小明

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)