本發(fā)明涉及身份識(shí)別技術(shù)領(lǐng)域,尤其涉及一種建立聲紋模型的方法和裝置。
背景技術(shù):
隨著科學(xué)技術(shù)的發(fā)展,現(xiàn)在很多銀行業(yè)務(wù)都可以不去銀行柜臺(tái)辦理,比如銀行卡查詢業(yè)務(wù),凍結(jié)業(yè)務(wù),開(kāi)戶業(yè)務(wù)等,用戶可直接通過(guò)電話或者在互聯(lián)網(wǎng)上辦理各項(xiàng)業(yè)務(wù)。但是,現(xiàn)有的通過(guò)電話或者在互聯(lián)網(wǎng)上辦理各項(xiàng)業(yè)務(wù),都需要輸入銀行卡賬號(hào)和密碼,如果銀行卡賬號(hào)輸入錯(cuò)誤或者密碼輸入錯(cuò)誤,則需要重新輸入。而且,當(dāng)用戶輸入3次密碼都錯(cuò)誤時(shí),銀行卡將會(huì)被鎖定,用戶則不可以再辦理相應(yīng)的業(yè)務(wù),直至用戶去銀行柜臺(tái)解鎖銀行卡。因此,現(xiàn)有的解決方案只能通過(guò)人臉識(shí)別來(lái)確認(rèn)用戶的身份。
上述內(nèi)容僅用于輔助理解本發(fā)明的技術(shù)方案,并不代表承認(rèn)上述內(nèi)容是現(xiàn)有技術(shù)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的在于提供一種建立聲紋模型的方法和裝置,旨在解決如何在人臉識(shí)別的基礎(chǔ)上提高識(shí)別用戶準(zhǔn)確率的技術(shù)問(wèn)題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種建立聲紋模型的方法,所述建立聲紋模型的方法包括:
當(dāng)獲取到人臉視頻,且成功識(shí)別所述人臉視頻的人臉圖像時(shí),提取所述人臉視頻中的音頻文件,記為第一音頻文件;
輸出提示信息,以提示審核人員審核所述人臉視頻;
當(dāng)接收到所述人臉視頻審核通過(guò)的通知消息時(shí),根據(jù)所述第一音頻文件建立聲紋模型。
優(yōu)選地,所述當(dāng)接收到所述人臉視頻審核通過(guò)的通知消息時(shí),根據(jù)所述第一音頻文件建立聲紋模型的步驟包括:
當(dāng)接收到所述人臉視頻審核通過(guò)的通知消息時(shí),判斷是否已存在聲紋模型;
若未存在聲紋模型,則根據(jù)所述第一音頻文件建立聲紋模型;
若已存在聲紋模型,則刪除已存在的聲紋模型,提取所存儲(chǔ)的第二音頻文件,其中,所述第二音頻文件為注冊(cè)成功的音頻文件;
根據(jù)所述第一音頻文件和所述第二音頻文件建立聲紋模型。
優(yōu)選地,所述提取所存儲(chǔ)的第二音頻文件的步驟包括:
判斷是否存儲(chǔ)有預(yù)設(shè)數(shù)目的所述第二音頻文件;
若存儲(chǔ)有所述預(yù)設(shè)數(shù)目的所述第二音頻文件,則所述根據(jù)所述第一音頻文件和所述第二音頻文件建立聲紋模型的步驟包括:
根據(jù)最近所存儲(chǔ)預(yù)設(shè)數(shù)目的所述第二音頻文件和所述第一音頻文件建立聲紋模型。
優(yōu)選地,所述判斷是否存儲(chǔ)有預(yù)設(shè)數(shù)目的所述第二音頻文件的步驟之后,還包括:
若未存儲(chǔ)有所述預(yù)設(shè)數(shù)目的所述第二音頻文件,則獲取所存儲(chǔ)的所有所述第二音頻文件;
所述根據(jù)所述第一音頻文件和所述第二音頻文件建立聲紋模型的步驟包括:
根據(jù)所獲取的所有所述第二音頻文件和所述第一音頻文件建立聲紋模型。
優(yōu)選地,所述當(dāng)獲取到人臉視頻,且成功識(shí)別所述人臉視頻的人臉圖像時(shí),提取所述人臉視頻中的音頻文件,記為第一音頻文件的步驟之后,還包括:
判斷是否已存在聲紋模型;
若未存在聲紋模型,則執(zhí)行輸出提示信息,以提示審核人員審核所述人臉視頻的步驟;
若已存在聲紋模型,則提取與所述聲紋模型對(duì)應(yīng)的音頻文件,記為第三音頻文件;
將所述第一音頻文件與所述第三音頻文件進(jìn)行對(duì)比,得到所述第一音頻文件與所述第三音頻文件之間的相似度;
將所述第一音頻文件與所述第三音頻文件之間的相似度發(fā)送給異步審核系統(tǒng),并執(zhí)行輸出提示信息,以提示審核人員審核所述人臉視頻的步驟。
此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種建立聲紋模型的裝置,所述建立聲紋模型的裝置包括:
提取模塊,用于當(dāng)獲取到人臉視頻,且成功識(shí)別所述人臉視頻的人臉圖像時(shí),提取所述人臉視頻中的音頻文件,記為第一音頻文件;
輸出模塊,用于輸出提示信息,以提示審核人員審核所述人臉視頻;
建立模塊,用于當(dāng)接收到所述人臉視頻審核通過(guò)的通知消息時(shí),根據(jù)所述第一音頻文件建立聲紋模型。
優(yōu)選地,所述建立模塊包括:
判斷單元,用于當(dāng)接收到所述人臉視頻審核通過(guò)的通知消息時(shí),判斷是否已存在聲紋模型;
建立單元,用于若未存在聲紋模型,則根據(jù)所述第一音頻文件建立聲紋模型;
提取單元,用于若已存在聲紋模型,則刪除已存在的聲紋模型,提取所存儲(chǔ)的第二音頻文件,其中,所述第二音頻文件為注冊(cè)成功的音頻文件;
所述建立單元還用于根據(jù)所述第一音頻文件和所述第二音頻文件建立聲紋模型。
優(yōu)選地,所述判斷單元還用于判斷是否存儲(chǔ)有預(yù)設(shè)數(shù)目的所述第二音頻文件;
所述建立單元還用于若存儲(chǔ)有所述預(yù)設(shè)數(shù)目的所述第二音頻文件,則根據(jù)最近所存儲(chǔ)預(yù)設(shè)數(shù)目的所述第二音頻文件和所述第一音頻文件建立聲紋模型。
優(yōu)選地,所述建立模塊還包括:
獲取單元,用于若未存儲(chǔ)有所述預(yù)設(shè)數(shù)目的所述第二音頻文件,則獲取所存儲(chǔ)的所有所述第二音頻文件;
所述建立單元還用于根據(jù)所獲取的所有所述第二音頻文件和所述第一音頻文件建立聲紋模型。
優(yōu)選地,所述建立聲紋模型的裝置還包括:
判斷模塊,用于判斷是否已存在聲紋模型;
所述輸出模塊還用于若未存在聲紋模型,則輸出提示信息,以提示審核人員審核所述人臉視頻;
所述提取模塊還用于若已存在聲紋模型,則提取與所述聲紋模型對(duì)應(yīng)的音頻文件,記為第三音頻文件;
所述建立聲紋模型的裝置還包括:
對(duì)比模塊,用于將所述第一音頻文件與所述第三音頻文件進(jìn)行對(duì)比,得到所述第一音頻文件與所述第三音頻文件之間的相似度;
發(fā)送模塊,用于將所述第一音頻文件與所述第三音頻文件之間的相似度發(fā)送給異步審核系統(tǒng)。
本發(fā)明通過(guò)當(dāng)獲取到人臉視頻,且成功識(shí)別所述人臉視頻的人臉圖像時(shí),提取所述人臉視頻中的音頻文件,記為第一音頻文件;輸出提示信息,以提示審核人員審核所述人臉視頻;當(dāng)接收到所述人臉視頻審核通過(guò)的通知消息時(shí),根據(jù)所述第一音頻文件建立聲紋模型。實(shí)現(xiàn)了在人臉識(shí)別的基礎(chǔ)上,進(jìn)一步獲取用戶的音頻文件,根據(jù)所獲取的音頻文件建立聲紋模型,當(dāng)下次接收到用戶的人臉視頻時(shí),只有當(dāng)人臉視頻中的人臉圖像識(shí)別成功,且人臉視頻中的音頻文件與所建立的聲紋模型吻合時(shí),確認(rèn)用戶為真實(shí)的用戶,以提高用戶識(shí)別的準(zhǔn)確性。
附圖說(shuō)明
圖1為本發(fā)明建立聲紋模型的方法的第一實(shí)施例的流程示意圖;
圖2為本發(fā)明建立聲紋模型的方法的第二實(shí)施例的流程示意圖;
圖3為本發(fā)明建立聲紋模型的裝置的第一實(shí)施例的功能模塊示意圖;
圖4為本發(fā)明建立聲紋模型的裝置的第二實(shí)施例的功能模塊示意圖。
本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說(shuō)明。
具體實(shí)施方式
應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
參照?qǐng)D1,圖1為本發(fā)明建立聲紋模型的方法的第一實(shí)施例的流程示意圖。
在本實(shí)施例中,所述建立聲紋模型的方法包括:
步驟S10,當(dāng)獲取到人臉視頻,且成功識(shí)別所述人臉視頻的人臉圖像時(shí),提取所述人臉視頻中的音頻文件,記為第一音頻文件;
當(dāng)用戶需要通過(guò)電話或者互聯(lián)網(wǎng)辦理銀行業(yè)務(wù)時(shí),銀行所在的服務(wù)器提示用戶所持的移動(dòng)終端調(diào)用攝像頭獲取用戶的人臉視頻,其中,所述人臉視頻中包括用戶的人臉圖像和音頻文件。需要說(shuō)明的是,所述服務(wù)器獲取所述人臉視頻的方法可為:在提取用戶人臉圖像過(guò)程中,使所述移動(dòng)終端的屏幕中顯示相應(yīng)的數(shù)字或者文字,讓用戶在一定的時(shí)間內(nèi)讀出所顯示的數(shù)字或者文字;或者在提取用戶人臉圖像過(guò)程中,使所述移動(dòng)終端的屏幕中輸出提示信息,提示用戶在一定的時(shí)間內(nèi)讀出預(yù)定數(shù)目的話語(yǔ)。所述移動(dòng)終端包括但不限于智能手機(jī)和平板電腦。
當(dāng)獲取到所述人臉視頻時(shí),所述服務(wù)器提取所述人臉視頻中的人臉圖像,將所提取的人臉圖像與預(yù)先存儲(chǔ)該用戶的人臉圖像進(jìn)行對(duì)比,其中,將預(yù)先存儲(chǔ)的用戶的人臉圖像記為預(yù)存人臉圖像。當(dāng)所述人臉圖像與預(yù)存人臉圖像之間的相似度大于或者等于預(yù)設(shè)相似度時(shí),所述服務(wù)器確認(rèn)所述人臉圖像識(shí)別成功;當(dāng)所述人臉圖像與預(yù)存人臉圖像之間的相似度小于所述預(yù)設(shè)相似度時(shí),所述服務(wù)器確認(rèn)所述人臉圖像識(shí)別失敗。所述預(yù)設(shè)相似度可根據(jù)具體需要而設(shè)置,如可設(shè)置為60%,70%,或者80%等。
當(dāng)成功識(shí)別所述人臉圖像時(shí),所述服務(wù)器提取所述人臉視頻中的音頻文件,并將從所述人臉視頻中所提取的音頻文件記為第一音頻文件。
步驟S20,輸出提示信息,以提示審核人員審核所述人臉視頻;
當(dāng)?shù)玫剿龅谝灰纛l文件時(shí),所述服務(wù)器輸出提示信息至異步審核系統(tǒng),以提示異步審核工作人員審核所述人臉視頻的真實(shí)性。需要說(shuō)明的是,當(dāng)所述審核工作人員在審核所述人臉視頻的真實(shí)性的過(guò)程中,所述審核工作人員可將所述人臉視頻中的人臉圖像與預(yù)先存儲(chǔ)的人臉圖像進(jìn)行對(duì)比。其中,預(yù)先存儲(chǔ)的所述人臉圖像可為一幅,也可為多幅。當(dāng)所述審核工作人員確認(rèn)所述人臉視頻中的人臉圖像是真實(shí)的,是用戶本人時(shí),所述審核工作人員通過(guò)所述異步審核系統(tǒng)返回審核通過(guò)的通知消息給所述服務(wù)器;當(dāng)所述審核工作人員確認(rèn)所述人臉視頻中的人臉圖像不是用戶本人時(shí),所述審核工作人員通過(guò)所述異步審核系統(tǒng)返回審核失敗的通知消息給所述服務(wù)器。
當(dāng)所述服務(wù)器接收到所述異步審核系統(tǒng)所發(fā)送的通知消息,根據(jù)所述通知消息確定所述人臉視頻審核失敗時(shí),所述服務(wù)器結(jié)束聲紋模型的建立流程。
在本實(shí)施例中,所述服務(wù)器先在所述人臉視頻中提取音頻文件,然后才輸出提示信息。在其它實(shí)施例中,所述服務(wù)器也可以先輸出提示信息,當(dāng)所述人臉視頻審核通過(guò)后,所述服務(wù)器再?gòu)乃鋈四樢曨l中提取人臉圖像。
步驟S30,當(dāng)接收到所述人臉視頻審核通過(guò)的通知消息時(shí),根據(jù)所述第一音頻文件建立聲紋模型。
當(dāng)所述服務(wù)器接收到所述異步審核系統(tǒng)所發(fā)送的人臉視頻審核通過(guò)的通知消息時(shí),所述服務(wù)器根據(jù)從所述人臉視頻中提取的第一音頻文件建立聲紋模型。
進(jìn)一步地,所述步驟S30包括:
步驟a,當(dāng)接收到所述人臉視頻審核通過(guò)的通知消息時(shí),判斷是否已存在聲紋模型;
步驟b,若未存在聲紋模型,則根據(jù)所述第一音頻文件建立聲紋模型;
步驟c,若已存在聲紋模型,則刪除已存在的聲紋模型,提取所存儲(chǔ)的第二音頻文件,其中,所述第二音頻文件為注冊(cè)成功的音頻文件;
步驟d,根據(jù)所述第一音頻文件和所述第二音頻文件建立聲紋模型。
進(jìn)一步地,當(dāng)所述服務(wù)器接收到所述人臉視頻審核通過(guò)的通知消息時(shí),所述服務(wù)器判斷數(shù)據(jù)庫(kù)中是否已存在聲紋模型。當(dāng)所述數(shù)據(jù)庫(kù)中未存在聲紋模型時(shí),所述服務(wù)器根據(jù)所述第一音頻文件建立聲紋模型。當(dāng)所述數(shù)據(jù)庫(kù)中已存在聲紋模型時(shí),所述服務(wù)器刪除所述數(shù)據(jù)庫(kù)中的聲紋模型。當(dāng)所述服務(wù)器刪除所述數(shù)據(jù)庫(kù)中的聲紋模型后,所述服務(wù)器在所述數(shù)據(jù)庫(kù)中提取所存儲(chǔ)的第二音頻文件,其中,所述第二音頻文件為所述數(shù)據(jù)庫(kù)中注冊(cè)成功的音頻文件。需要說(shuō)明的是,注冊(cè)成功的音頻文件是已建立過(guò)聲紋模型的音頻文件,即注冊(cè)成功的音頻文件是所刪除的歷史聲紋模型所對(duì)應(yīng)的音頻文件。當(dāng)所述服務(wù)器得到所述第二音頻文件時(shí),所述服務(wù)器將所述第一音頻文件和所述第二音頻文件進(jìn)行疊加,得到聲紋模型。通過(guò)所述第一音頻文件和所述第二音頻進(jìn)行疊加得到聲紋模型,優(yōu)化所述服務(wù)器中的聲紋模型,使所建立的聲紋模型更符合用戶的聲音特征。
進(jìn)一步地,所述提取所存儲(chǔ)的第二音頻文件的步驟包括:
步驟e,判斷是否存儲(chǔ)有預(yù)設(shè)數(shù)目的所述第二音頻文件;
若存儲(chǔ)有所述預(yù)設(shè)數(shù)目的所述第二音頻文件,則所述步驟d包括:
步驟f,根據(jù)最近所存儲(chǔ)預(yù)設(shè)數(shù)目的所述第二音頻文件和所述第一音頻文件建立聲紋模型。
進(jìn)一步地,所述服務(wù)器在提取所存儲(chǔ)的第二音頻文件的過(guò)程中,所述服務(wù)器判斷所述數(shù)據(jù)庫(kù)中是否存儲(chǔ)有預(yù)設(shè)數(shù)目的所述第二音頻文件。所述預(yù)設(shè)數(shù)目可根據(jù)具體需要而設(shè)置,如可設(shè)置為3,5或者6等。當(dāng)所述數(shù)據(jù)庫(kù)中存儲(chǔ)有所述預(yù)設(shè)數(shù)目的所述第二音頻文件時(shí),所述服務(wù)器將最近所存儲(chǔ)的預(yù)設(shè)數(shù)目的所述第二音頻文件和所述第一音頻文件進(jìn)行疊加,建立聲紋模型。如當(dāng)所述預(yù)設(shè)數(shù)目設(shè)置為5時(shí),且數(shù)據(jù)中存儲(chǔ)有至少5個(gè)所述第二音頻文件時(shí),所述服務(wù)器將從當(dāng)前時(shí)間起算,提取最近5次所存儲(chǔ)的所述第二音頻文件和所述第一音頻文件進(jìn)行疊加,建立所述聲紋模型。
進(jìn)一步地,所述建立聲紋模型的方法還包括
步驟g,若未存儲(chǔ)有所述預(yù)設(shè)數(shù)目的所述第二音頻文件,則獲取所存儲(chǔ)的所有所述第二音頻文件;
所述步驟d包括:
步驟h,根據(jù)所獲取的所有所述第二音頻文件和所述第一音頻文件建立聲紋模型。
當(dāng)所述數(shù)據(jù)庫(kù)中未存儲(chǔ)有所述預(yù)設(shè)數(shù)目的所述第二音頻文件時(shí),所述服務(wù)器獲取所述數(shù)據(jù)庫(kù)中存儲(chǔ)的所有的第二音頻文件,將所獲取的所有的所述第二音頻文件和所述第一音頻文件進(jìn)行疊加,建立聲紋模型。如當(dāng)所述數(shù)據(jù)庫(kù)中只存儲(chǔ)有三個(gè)所述第二音頻文件時(shí),所述服務(wù)器則將三個(gè)第二音頻文件和所述第一音頻文件進(jìn)行疊加,建議聲紋模型。
本實(shí)施例通過(guò)當(dāng)獲取到人臉視頻,且成功識(shí)別所述人臉視頻的人臉圖像時(shí),提取所述人臉視頻中的音頻文件,記為第一音頻文件;輸出提示信息,以提示審核人員審核所述人臉視頻;當(dāng)接收到所述人臉視頻審核通過(guò)的通知消息時(shí),根據(jù)所述第一音頻文件建立聲紋模型。實(shí)現(xiàn)了在人臉識(shí)別的基礎(chǔ)上,進(jìn)一步獲取用戶的音頻文件,根據(jù)所獲取的音頻文件建立聲紋模型,當(dāng)下次接收到用戶的人臉視頻時(shí),只有當(dāng)人臉視頻中的人臉圖像識(shí)別成功,且人臉視頻中的音頻文件與所建立的聲紋模型吻合時(shí),確認(rèn)用戶為真實(shí)的用戶,以提高用戶識(shí)別的準(zhǔn)確性。
進(jìn)一步地,參照?qǐng)D2,圖2為本發(fā)明建立聲紋模型的方法的第二實(shí)施例的流程示意圖,基于第一實(shí)施例提出本發(fā)明建立聲紋模型的方法的第二實(shí)施例。
在本實(shí)施例中,所述建立聲紋模型的方法還包括:
步驟S40,判斷是否已存在聲紋模型;
若未存在聲紋模型,則執(zhí)行步驟S20;
步驟S50,若已存在聲紋模型,則提取與所述聲紋模型對(duì)應(yīng)的音頻文件,記為第三音頻文件;
步驟S60,將所述第一音頻文件與所述第三音頻文件進(jìn)行對(duì)比,得到所述第一音頻文件與所述第三音頻文件之間的相似度;
步驟S70,將所述第一音頻文件與所述第三音頻文件之間的相似度發(fā)送給異步審核系統(tǒng)。
在本實(shí)施例中,當(dāng)執(zhí)行完步驟S70,執(zhí)行步驟S20。
當(dāng)所述服務(wù)器從所述人臉視頻中提取到所述人臉圖像時(shí),所述服務(wù)器判斷所述數(shù)據(jù)庫(kù)中是否已存在聲紋模型。當(dāng)所述數(shù)據(jù)庫(kù)中未存在聲紋模型時(shí),所述服務(wù)器輸出提示信息至異步審核系統(tǒng),以供所述異步審核系統(tǒng)提示審核人員審核所述人臉視頻。可以理解的是,當(dāng)所述數(shù)據(jù)庫(kù)中未存在聲紋模型時(shí),表示所述服務(wù)器第一次獲取到用戶的人臉視頻。需要說(shuō)明的是,所述服務(wù)器和所述異步審核系統(tǒng)可同處于一臺(tái)計(jì)算機(jī)中,也可以處于兩臺(tái)計(jì)算機(jī)中。
當(dāng)所述數(shù)據(jù)庫(kù)中已存在聲紋模型時(shí),所述服務(wù)器提取與所述聲紋模型對(duì)應(yīng)的音頻文件,即提取建立所述聲紋模型的音頻文件,記為第三音頻文件。當(dāng)?shù)玫剿龅谌纛l文件時(shí),所述服務(wù)器將所述第一音頻文件與所述第三音頻文件進(jìn)行對(duì)比,得到所述第一音頻文件與所述第三音頻文件之間的相似度。將所述第一音頻文件與所述第三音頻文件之間的相似度發(fā)送給異步審核系統(tǒng),所述服務(wù)器輸出提示信息至所述異步審核系統(tǒng),以供所述異步審核系統(tǒng)提示審核人員審核所述人臉視頻;當(dāng)所述異步審核結(jié)果通過(guò)時(shí),所述服務(wù)器則建立聲紋模型,當(dāng)所述異步審核結(jié)果不通過(guò)時(shí),所述服務(wù)器則結(jié)束建立聲紋模型的流程。所述預(yù)設(shè)閾值可根據(jù)具體需要而設(shè)置,如可設(shè)置為60%,70%,或者85%等。
本實(shí)施例通過(guò)在提取到所述人臉視頻中的第一音頻文件,且服務(wù)器的數(shù)據(jù)庫(kù)中已存在聲紋模型時(shí),提取與所述聲紋模型對(duì)應(yīng)的第三音頻文件,將所述第三音頻文件與所述第一音頻文件進(jìn)行對(duì)比,根據(jù)對(duì)比結(jié)果進(jìn)行后續(xù)操作。提高了所建立的聲紋模型的準(zhǔn)確率,使所建立的聲紋模型更符合用戶真實(shí)的聲音特征。
本發(fā)明進(jìn)一步提供一種建立聲紋模型的裝置。
參照?qǐng)D3,圖3為本發(fā)明建立聲紋模型的裝置的第一實(shí)施例的功能模塊示意圖。
在本實(shí)施例中,所述建立聲紋模型的裝置包括:
提取模塊10,用于當(dāng)獲取到人臉視頻,且成功識(shí)別所述人臉視頻的人臉圖像時(shí),提取所述人臉視頻中的音頻文件,記為第一音頻文件;
當(dāng)用戶需要通過(guò)電話或者互聯(lián)網(wǎng)辦理銀行業(yè)務(wù)時(shí),銀行所在的服務(wù)器提示用戶所持的移動(dòng)終端調(diào)用攝像頭獲取用戶的人臉視頻,其中,所述人臉視頻中包括用戶的人臉圖像和音頻文件。需要說(shuō)明的是,所述服務(wù)器獲取所述人臉視頻的方法可為:在提取用戶人臉圖像過(guò)程中,使所述移動(dòng)終端的屏幕中顯示相應(yīng)的數(shù)字或者文字,讓用戶在一定的時(shí)間內(nèi)讀出所顯示的數(shù)字或者文字;或者在提取用戶人臉圖像過(guò)程中,使所述移動(dòng)終端的屏幕中輸出提示信息,提示用戶在一定的時(shí)間內(nèi)讀出預(yù)定數(shù)目的話語(yǔ)。所述移動(dòng)終端包括但不限于智能手機(jī)和平板電腦。
當(dāng)獲取到所述人臉視頻時(shí),所述服務(wù)器提取所述人臉視頻中的人臉圖像,將所提取的人臉圖像與預(yù)先存儲(chǔ)該用戶的人臉圖像進(jìn)行對(duì)比,其中,將預(yù)先存儲(chǔ)的用戶的人臉圖像記為預(yù)存人臉圖像。當(dāng)所述人臉圖像與預(yù)存人臉圖像之間的相似度大于或者等于預(yù)設(shè)相似度時(shí),所述服務(wù)器確認(rèn)所述人臉圖像識(shí)別成功;當(dāng)所述人臉圖像與預(yù)存人臉圖像之間的相似度小于所述預(yù)設(shè)相似度時(shí),所述服務(wù)器確認(rèn)所述人臉圖像識(shí)別失敗。所述預(yù)設(shè)相似度可根據(jù)具體需要而設(shè)置,如可設(shè)置為60%,70%,或者80%等。
當(dāng)成功識(shí)別所述人臉圖像時(shí),所述服務(wù)器提取所述人臉視頻中的音頻文件,并將從所述人臉視頻中所提取的音頻文件記為第一音頻文件。
輸出模塊20,用于輸出提示信息,以提示審核人員審核所述人臉視頻;
當(dāng)?shù)玫剿龅谝灰纛l文件時(shí),所述服務(wù)器輸出提示信息至異步審核系統(tǒng),以提示異步審核工作人員審核所述人臉視頻的真實(shí)性。需要說(shuō)明的是,當(dāng)所述審核工作人員在審核所述人臉視頻的真實(shí)性的過(guò)程中,所述審核工作人員可將所述人臉視頻中的人臉圖像與預(yù)先存儲(chǔ)的人臉圖像進(jìn)行對(duì)比。其中,預(yù)先存儲(chǔ)的所述人臉圖像可為一幅,也可為多幅。當(dāng)所述審核工作人員確認(rèn)所述人臉視頻中的人臉圖像是真實(shí)的,是用戶本人時(shí),所述審核工作人員通過(guò)所述異步審核系統(tǒng)返回審核通過(guò)的通知消息給所述服務(wù)器;當(dāng)所述審核工作人員確認(rèn)所述人臉視頻中的人臉圖像不是用戶本人時(shí),所述審核工作人員通過(guò)所述異步審核系統(tǒng)返回審核失敗的通知消息給所述服務(wù)器。
當(dāng)所述服務(wù)器接收到所述異步審核系統(tǒng)所發(fā)送的通知消息,根據(jù)所述通知消息確定所述人臉視頻審核失敗時(shí),所述服務(wù)器結(jié)束聲紋模型的建立流程。
在本實(shí)施例中,所述服務(wù)器先在所述人臉視頻中提取音頻文件,然后才輸出提示信息。在其它實(shí)施例中,所述服務(wù)器也可以先輸出提示信息,當(dāng)所述人臉視頻審核通過(guò)后,所述服務(wù)器再?gòu)乃鋈四樢曨l中提取人臉圖像。
建立模塊30,用于當(dāng)接收到所述人臉視頻審核通過(guò)的通知消息時(shí),根據(jù)所述第一音頻文件建立聲紋模型。
當(dāng)所述服務(wù)器接收到所述異步審核系統(tǒng)所發(fā)送的人臉視頻審核通過(guò)的通知消息時(shí),所述服務(wù)器根據(jù)從所述人臉視頻中提取的第一音頻文件建立聲紋模型。
進(jìn)一步地,所述建立模塊30包括:
判斷單元,用于當(dāng)接收到所述人臉視頻審核通過(guò)的通知消息時(shí),判斷是否已存在聲紋模型;
建立單元,用于若未存在聲紋模型,則根據(jù)所述第一音頻文件建立聲紋模型;
提取單元,用于若已存在聲紋模型,則刪除已存在的聲紋模型,提取所存儲(chǔ)的第二音頻文件,其中,所述第二音頻文件為注冊(cè)成功的音頻文件;
所述建立單元還用于根據(jù)所述第一音頻文件和所述第二音頻文件建立聲紋模型。
進(jìn)一步地,當(dāng)所述服務(wù)器接收到所述人臉視頻審核通過(guò)的通知消息時(shí),所述服務(wù)器判斷數(shù)據(jù)庫(kù)中是否已存在聲紋模型。當(dāng)所述數(shù)據(jù)庫(kù)中未存在聲紋模型時(shí),所述服務(wù)器根據(jù)所述第一音頻文件建立聲紋模型。當(dāng)所述數(shù)據(jù)庫(kù)中已存在聲紋模型時(shí),所述服務(wù)器刪除所述數(shù)據(jù)庫(kù)中的聲紋模型。當(dāng)所述服務(wù)器刪除所述數(shù)據(jù)庫(kù)中的聲紋模型后,所述服務(wù)器在所述數(shù)據(jù)庫(kù)中提取所存儲(chǔ)的第二音頻文件,其中,所述第二音頻文件為所述數(shù)據(jù)庫(kù)中注冊(cè)成功的音頻文件。需要說(shuō)明的是,注冊(cè)成功的音頻文件是已建立過(guò)聲紋模型的音頻文件,即注冊(cè)成功的音頻文件是所刪除的歷史聲紋模型所對(duì)應(yīng)的音頻文件。當(dāng)所述服務(wù)器得到所述第二音頻文件時(shí),所述服務(wù)器將所述第一音頻文件和所述第二音頻文件進(jìn)行疊加,得到聲紋模型。通過(guò)所述第一音頻文件和所述第二音頻進(jìn)行疊加得到聲紋模型,優(yōu)化所述服務(wù)器中的聲紋模型,使所建立的聲紋模型更符合用戶的聲音特征。
進(jìn)一步地,所述判斷單元還用于判斷是否存儲(chǔ)有預(yù)設(shè)數(shù)目的所述第二音頻文件;
所述建立單元還用于若存儲(chǔ)有所述預(yù)設(shè)數(shù)目的所述第二音頻文件,則根據(jù)最近所存儲(chǔ)預(yù)設(shè)數(shù)目的所述第二音頻文件和所述第一音頻文件建立聲紋模型。
進(jìn)一步地,所述服務(wù)器在提取所存儲(chǔ)的第二音頻文件的過(guò)程中,所述服務(wù)器判斷所述數(shù)據(jù)庫(kù)中是否存儲(chǔ)有預(yù)設(shè)數(shù)目的所述第二音頻文件。所述預(yù)設(shè)數(shù)目可根據(jù)具體需要而設(shè)置,如可設(shè)置為3,5或者6等。當(dāng)所述數(shù)據(jù)庫(kù)中存儲(chǔ)有所述預(yù)設(shè)數(shù)目的所述第二音頻文件時(shí),所述服務(wù)器將最近所存儲(chǔ)的預(yù)設(shè)數(shù)目的所述第二音頻文件和所述第一音頻文件進(jìn)行疊加,建立聲紋模型。如當(dāng)所述預(yù)設(shè)數(shù)目設(shè)置為5時(shí),且數(shù)據(jù)中存儲(chǔ)有至少5個(gè)所述第二音頻文件時(shí),所述服務(wù)器將從當(dāng)前時(shí)間起算,提取最近5次所存儲(chǔ)的所述第二音頻文件和所述第一音頻文件進(jìn)行疊加,建立所述聲紋模型。
進(jìn)一步地,所述建立模塊30還包括:
獲取單元,用于若未存儲(chǔ)有所述預(yù)設(shè)數(shù)目的所述第二音頻文件,則獲取所存儲(chǔ)的所有所述第二音頻文件;
所述建立單元還用于根據(jù)所獲取的所有所述第二音頻文件和所述第一音頻文件建立聲紋模型。
當(dāng)所述數(shù)據(jù)庫(kù)中未存儲(chǔ)有所述預(yù)設(shè)數(shù)目的所述第二音頻文件時(shí),所述服務(wù)器獲取所述數(shù)據(jù)庫(kù)中存儲(chǔ)的所有的第二音頻文件,將所獲取的所有的所述第二音頻文件和所述第一音頻文件進(jìn)行疊加,建立聲紋模型。如當(dāng)所述數(shù)據(jù)庫(kù)中只存儲(chǔ)有三個(gè)所述第二音頻文件時(shí),所述服務(wù)器則將三個(gè)第二音頻文件和所述第一音頻文件進(jìn)行疊加,建議聲紋模型。
本實(shí)施例通過(guò)當(dāng)獲取到人臉視頻,且成功識(shí)別所述人臉視頻的人臉圖像時(shí),提取所述人臉視頻中的音頻文件,記為第一音頻文件;輸出提示信息,以提示審核人員審核所述人臉視頻;當(dāng)接收到所述人臉視頻審核通過(guò)的通知消息時(shí),根據(jù)所述第一音頻文件建立聲紋模型。實(shí)現(xiàn)了在人臉識(shí)別的基礎(chǔ)上,進(jìn)一步獲取用戶的音頻文件,根據(jù)所獲取的音頻文件建立聲紋模型,當(dāng)下次接收到用戶的人臉視頻時(shí),只有當(dāng)人臉視頻中的人臉圖像識(shí)別成功,且人臉視頻中的音頻文件與所建立的聲紋模型吻合時(shí),確認(rèn)用戶為真實(shí)的用戶,以提高用戶識(shí)別的準(zhǔn)確性。
參照?qǐng)D4,圖4為本發(fā)明建立聲紋模型的裝置的第二實(shí)施例的功能模塊示意圖,基于第一實(shí)施例提出本發(fā)明建立聲紋模型的裝置的第二實(shí)施例。
在本實(shí)施例中,所述建立聲紋模型的裝置還包括:
判斷模塊40,用于判斷是否已存在聲紋模型;
所述輸出模塊20還用于若未存在聲紋模型,則輸出提示信息,以提示審核人員審核所述人臉視頻;
所述提取模塊10還用于若已存在聲紋模型,則提取與所述聲紋模型對(duì)應(yīng)的音頻文件,記為第三音頻文件;
所述建立聲紋模型的裝置還包括:
對(duì)比模塊50,用于將所述第一音頻文件與所述第三音頻文件進(jìn)行對(duì)比,得到所述第一音頻文件與所述第三音頻文件之間的相似度;
發(fā)送模塊60,用于將所述第一音頻文件與所述第三音頻文件之間的相似度發(fā)送給異步審核系統(tǒng)。
當(dāng)所述服務(wù)器從所述人臉視頻中提取到所述人臉圖像時(shí),所述服務(wù)器判斷所述數(shù)據(jù)庫(kù)中是否已存在聲紋模型。當(dāng)所述數(shù)據(jù)庫(kù)中未存在聲紋模型時(shí),所述服務(wù)器輸出提示信息至異步審核系統(tǒng),以供所述異步審核系統(tǒng)提示審核人員審核所述人臉視頻??梢岳斫獾氖?,當(dāng)所述數(shù)據(jù)庫(kù)中未存在聲紋模型時(shí),表示所述服務(wù)器第一次獲取到用戶的人臉視頻。需要說(shuō)明的是,所述服務(wù)器和所述異步審核系統(tǒng)可同處于一臺(tái)計(jì)算機(jī)中,也可以處于兩臺(tái)計(jì)算機(jī)中。
當(dāng)所述數(shù)據(jù)庫(kù)中已存在聲紋模型時(shí),所述服務(wù)器提取與所述聲紋模型對(duì)應(yīng)的音頻文件,即提取建立所述聲紋模型的音頻文件,記為第三音頻文件。當(dāng)?shù)玫剿龅谌纛l文件時(shí),所述服務(wù)器將所述第一音頻文件與所述第三音頻文件進(jìn)行對(duì)比,得到所述第一音頻文件與所述第三音頻文件之間的相似度。將所述第一音頻文件與所述第三音頻文件之間的相似度發(fā)送給異步審核系統(tǒng),所述服務(wù)器輸出提示信息至所述異步審核系統(tǒng),以供所述異步審核系統(tǒng)提示審核人員審核所述人臉視頻;當(dāng)所述異步審核結(jié)果通過(guò)時(shí),所述服務(wù)器則建立聲紋模型,當(dāng)所述異步審核結(jié)果不通過(guò)時(shí),所述服務(wù)器則結(jié)束建立聲紋模型的流程。所述預(yù)設(shè)閾值可根據(jù)具體需要而設(shè)置,如可設(shè)置為60%,70%,或者85%等。
本實(shí)施例通過(guò)在提取到所述人臉視頻中的第一音頻文件,且服務(wù)器的數(shù)據(jù)庫(kù)中已存在聲紋模型時(shí),提取與所述聲紋模型對(duì)應(yīng)的第三音頻文件,將所述第三音頻文件與所述第一音頻文件進(jìn)行對(duì)比,根據(jù)對(duì)比結(jié)果進(jìn)行后續(xù)操作。提高了所建立的聲紋模型的準(zhǔn)確率,使所建立的聲紋模型更符合用戶真實(shí)的聲音特征。
上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件,但很多情況下前者是更佳的實(shí)施方式。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)(如ROM/RAM、磁碟、光盤(pán))中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
以上僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說(shuō)明書(shū)及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。