亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

說話人識別方法及裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀介質(zhì)與流程

文檔序號:11924079閱讀:249來源:國知局
說話人識別方法及裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀介質(zhì)與流程

本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種說話人識別方法及裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀介質(zhì)。



背景技術(shù):

說話人識別(Speaker Recognition;SR),還可以稱為聲紋識別(Voiceprint Recognition;VPR),是生物識別技術(shù)的一種,具體地,是通過語音判斷一句話是誰說的。

現(xiàn)有技術(shù)中的聲紋識別包括文本相關(guān)(Text-Dependent)和文本無關(guān)(Text-Independent)兩種。與文本有關(guān)的聲紋識別系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,每個(gè)人的聲紋模型逐個(gè)被精確地建立,而識別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音,因此可以達(dá)到較好的識別效果,但系統(tǒng)需要用戶配合,如果用戶的發(fā)音與規(guī)定的內(nèi)容不符合,則無法正確識別該用戶。與文本無關(guān)的識別系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容,模型建立相對困難,但用戶使用方便,可應(yīng)用范圍較寬。例如,現(xiàn)有技術(shù)的、與文本無關(guān)的說話人識別方案中,主要利用混合高斯模型從大量說話以及背景音數(shù)據(jù)中學(xué)出高斯聚類中心,作為說話人的語音數(shù)據(jù)對應(yīng)的i-vecotr。對于每一條待識別的語音數(shù)據(jù),獲取該待識別的語音數(shù)據(jù)的i-vecotr。然后將待識別的語音數(shù)據(jù)的i-vecotr與各個(gè)已知說話人的語音數(shù)據(jù)的i-vecotr進(jìn)行相似度計(jì)算,將該待識別的說話人識別為相似度最高的語音數(shù)據(jù)對應(yīng)的說話人。

但是,現(xiàn)有技術(shù)中利用混合高斯模型從大量說話以及背景音數(shù)據(jù)中學(xué)出高斯聚類中心,作為說話人的語音數(shù)據(jù)對應(yīng)的i-vecotr,是一種線性處理方案,學(xué)出的i-vecotr不能非常準(zhǔn)確地表征說話人的語音數(shù)據(jù)的特征,導(dǎo)致對說話人識別的效率較低。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提供了一種說話人識別方法及裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀介質(zhì),用于提高對說話識別的效率。

本發(fā)明提供一種說話人識別方法,所述方法包括:

接收目標(biāo)群體中的待識別用戶的目標(biāo)語音數(shù)據(jù);

根據(jù)所述目標(biāo)語音數(shù)據(jù)、預(yù)先采集的語音數(shù)據(jù)庫和預(yù)先訓(xùn)練的說話人識別模型,獲取所述目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及所述語音數(shù)據(jù)庫中每個(gè)所述語音數(shù)據(jù)對應(yīng)的語音輸出特征;所述說話人識別模型采用卷積神經(jīng)網(wǎng)絡(luò)模型;

根據(jù)所述目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及所述語音數(shù)據(jù)庫中每個(gè)所述語音數(shù)據(jù)對應(yīng)的語音輸出特征,識別所述目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶。

進(jìn)一步可選地,如上所述的方法中,根據(jù)所述目標(biāo)語音數(shù)據(jù)、預(yù)先采集的語音數(shù)據(jù)庫和預(yù)先訓(xùn)練的說話人識別模型,獲取所述目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及所述語音數(shù)據(jù)庫中每個(gè)所述語音數(shù)據(jù)對應(yīng)的語音輸出特征之前,所述方法還包括:

采集數(shù)條已知用戶標(biāo)識的訓(xùn)練語音數(shù)據(jù),生成訓(xùn)練語音數(shù)據(jù)庫;

根據(jù)所述訓(xùn)練語音數(shù)據(jù)庫中各條所述訓(xùn)練語音數(shù)據(jù),獲取各條所述訓(xùn)練語音數(shù)據(jù)的梅爾頻域倒譜系數(shù)和/或感知線性預(yù)測特征,作為對應(yīng)的所述訓(xùn)練語音數(shù)據(jù)的語音輸入特征;

根據(jù)各條所述訓(xùn)練語音數(shù)據(jù)的語音輸入特征、以及各所述訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識,訓(xùn)練所述說話人識別模型。

進(jìn)一步可選地,如上所述的方法中,根據(jù)各條所述訓(xùn)練語音數(shù)據(jù)的語音輸入特征、以及各所述訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識,訓(xùn)練所述說話人識別模型,具體包括:

將所述訓(xùn)練語音數(shù)據(jù)庫中的各條所述訓(xùn)練語音數(shù)據(jù)的語音輸入特征依次輸入至所述說話人識別模型中,得到對應(yīng)的所述訓(xùn)練語音數(shù)據(jù)的語音輸出特征;

根據(jù)所述訓(xùn)練語音數(shù)據(jù)的語音輸出特征和所述訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識,生成所述訓(xùn)練語音數(shù)據(jù)的損失函數(shù);

計(jì)算所述訓(xùn)練語音數(shù)據(jù)的損失函數(shù)對所述說話人識別模型中各參數(shù)的導(dǎo)數(shù);

根據(jù)所述說話人識別模型中的各所述參數(shù)以及所述訓(xùn)練語音數(shù)據(jù)的損失函數(shù)對各所述參數(shù)的導(dǎo)數(shù),更新所述說話人識別模型中的各所述參數(shù),從而確定本次訓(xùn)練后的所述說話人識別模型;

重復(fù)執(zhí)行上述步驟,直至所述訓(xùn)練語音數(shù)據(jù)庫中的數(shù)個(gè)所述訓(xùn)練語音數(shù)據(jù)都對所述說話人識別模型進(jìn)行訓(xùn)練,確定本輪訓(xùn)練后的所述說話人識別模型。

進(jìn)一步可選地,如上所述的方法中,根據(jù)各條所述訓(xùn)練語音數(shù)據(jù)的語音輸入特征、以及各所述訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識,訓(xùn)練所述說話人識別模型,還包括:

按照上述每一輪訓(xùn)練中所述訓(xùn)練語音數(shù)據(jù)庫中的數(shù)個(gè)所述訓(xùn)練語音數(shù)據(jù)對所述說話人識別模型的訓(xùn)練,使用所述訓(xùn)練語音數(shù)據(jù)庫中的數(shù)個(gè)所述訓(xùn)練語音數(shù)據(jù)重復(fù)對所述說話人識別模型訓(xùn)練N輪,得到最終的所述說話人識別模型。

進(jìn)一步可選地,如上所述的方法中,根據(jù)所述目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及所述語音數(shù)據(jù)庫中每個(gè)所述語音數(shù)據(jù)對應(yīng)的語音輸出特征,識別所述目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶,具體包括:

分別計(jì)算所述目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征與所述語音數(shù)據(jù)庫中各所述語音數(shù)據(jù)對應(yīng)的語音輸出特征的相似度;

獲取與所述目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征的相似度大于或者等于預(yù)設(shè)相似度閾值的所述語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識,作為所述目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶的標(biāo)識;或者獲取與所述目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征的相似度最大的所述語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識,作為所述目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶的標(biāo)識。

本發(fā)明還提供一種說話人識別裝置,所述裝置包括:

接收模塊,用于接收目標(biāo)群體中的待識別用戶的目標(biāo)語音數(shù)據(jù);

特征獲取模塊,用于根據(jù)所述目標(biāo)語音數(shù)據(jù)、預(yù)先采集的語音數(shù)據(jù)庫和預(yù)先訓(xùn)練的說話人識別模型,獲取所述目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及所述語音數(shù)據(jù)庫中每個(gè)所述語音數(shù)據(jù)對應(yīng)的語音輸出特征;所述說話人識別模型采用卷積神經(jīng)網(wǎng)絡(luò)模型;

識別模塊,用于根據(jù)所述目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及所述語音數(shù)據(jù)庫中每個(gè)所述語音數(shù)據(jù)對應(yīng)的語音輸出特征,識別所述目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶。

進(jìn)一步可選地,如上所述的裝置中,還包括:采集模塊和訓(xùn)練模塊;

所述采集模塊,用于采集數(shù)條已知用戶標(biāo)識的訓(xùn)練語音數(shù)據(jù),生成訓(xùn)練語音數(shù)據(jù)庫;

所述特征獲取模塊,還用于根據(jù)所述訓(xùn)練語音數(shù)據(jù)庫中各條所述訓(xùn)練語音數(shù)據(jù),獲取各條所述訓(xùn)練語音數(shù)據(jù)的梅爾頻域倒譜系數(shù)和/或感知線性預(yù)測特征,作為對應(yīng)的所述訓(xùn)練語音數(shù)據(jù)的語音輸入特征;

所述訓(xùn)練模塊,用于根據(jù)各條所述訓(xùn)練語音數(shù)據(jù)的語音輸入特征、以及各所述訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識,訓(xùn)練所述說話人識別模型。

進(jìn)一步可選地,如上所述的裝置中,所述訓(xùn)練模塊,具體用于:

將所述訓(xùn)練語音數(shù)據(jù)庫中的各條所述訓(xùn)練語音數(shù)據(jù)的語音輸入特征依次輸入至所述說話人識別模型中,得到對應(yīng)的所述訓(xùn)練語音數(shù)據(jù)的語音輸出特征;

根據(jù)所述訓(xùn)練語音數(shù)據(jù)的語音輸出特征和所述訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識,生成所述訓(xùn)練語音數(shù)據(jù)的損失函數(shù);

計(jì)算所述訓(xùn)練語音數(shù)據(jù)的損失函數(shù)對所述說話人識別模型中各參數(shù)的導(dǎo)數(shù);

根據(jù)所述說話人識別模型中的各所述參數(shù)以及所述訓(xùn)練語音數(shù)據(jù)的損失函數(shù)對各所述參數(shù)的導(dǎo)數(shù),更新所述說話人識別模型中的各所述參數(shù),從而確定本次訓(xùn)練后的所述說話人識別模型;

重復(fù)執(zhí)行上述步驟,直至所述訓(xùn)練語音數(shù)據(jù)庫中的數(shù)個(gè)所述訓(xùn)練語音數(shù)據(jù)都對所述說話人識別模型進(jìn)行訓(xùn)練,確定本輪訓(xùn)練后的所述說話人識別模型。

進(jìn)一步可選地,如上所述的裝置中,所述訓(xùn)練模塊,具體還用于按照上述每一輪訓(xùn)練中所述訓(xùn)練語音數(shù)據(jù)庫中的數(shù)個(gè)所述訓(xùn)練語音數(shù)據(jù)對所述說話人識別模型的訓(xùn)練,使用所述訓(xùn)練語音數(shù)據(jù)庫中的數(shù)個(gè)所述訓(xùn)練語音數(shù)據(jù)重復(fù)對所述說話人識別模型訓(xùn)練N輪,得到最終的所述說話人識別模型。

進(jìn)一步可選地,如上所述的裝置中,所述識別模塊,具體用于:

分別計(jì)算所述目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征與所述語音數(shù)據(jù)庫中各所述語音數(shù)據(jù)對應(yīng)的語音輸出特征的相似度;

獲取與所述目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征的相似度大于或者等于預(yù)設(shè)相似度閾值的所述語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識,作為所述目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶的標(biāo)識;或者獲取與所述目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征的相似度最大的所述語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識,作為所述目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶的標(biāo)識。

本發(fā)明還提供一種計(jì)算機(jī)設(shè)備,所述設(shè)備包括:

一個(gè)或多個(gè)處理器;

存儲器,用于存儲一個(gè)或多個(gè)程序,

當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如上所述的說話人識別方法。

本發(fā)明還提供一種計(jì)算機(jī)可讀介質(zhì),其上存儲有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的說話人識別方法。

本發(fā)明的說話人識別方法及裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀介質(zhì),通過接收目標(biāo)群體中的待識別用戶的目標(biāo)語音數(shù)據(jù);根據(jù)目標(biāo)語音數(shù)據(jù)、預(yù)先采集的語音數(shù)據(jù)庫和預(yù)先訓(xùn)練的說話人識別模型,獲取目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征;其中說話人識別模型采用卷積神經(jīng)網(wǎng)絡(luò)模型;根據(jù)目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征,識別目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶。本發(fā)明的技術(shù)方案,由于采用基于卷積神經(jīng)網(wǎng)絡(luò)模型的說話人識別模型,能夠更加準(zhǔn)確地獲取各語音數(shù)據(jù)的語音輸出特征,從而更加準(zhǔn)確地對目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶進(jìn)行識別,進(jìn)而能夠大大地提高對說話人的識別效率。

【附圖說明】

圖1為本發(fā)明的說話人識別方法實(shí)施例一的流程圖。

圖2本發(fā)明的說話人識別方法中提供的二維卷積的示意圖。

圖3為本發(fā)明的說話人識別方法中提供的一維卷積的示意圖。

圖4為本發(fā)明的說話人識別方法實(shí)施例二的流程圖。

圖5為本發(fā)明的說話人識別方法實(shí)施例三的流程圖。

圖6為本發(fā)明的說話人識別裝置實(shí)施例一的結(jié)構(gòu)圖。

圖7為本發(fā)明的說話人識別裝置實(shí)施例二的結(jié)構(gòu)圖。

圖8為本發(fā)明的計(jì)算機(jī)設(shè)備實(shí)施例的結(jié)構(gòu)圖。

圖9為本發(fā)明提供的一種計(jì)算機(jī)設(shè)備的示例圖。

【具體實(shí)施方式】

為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。

圖1為本發(fā)明的說話人識別方法實(shí)施例一的流程圖。如圖1所示,本實(shí)施例的說話人識別方法,具體可以包括如下步驟:

100、接收目標(biāo)群體中的待識別用戶的目標(biāo)語音數(shù)據(jù);

101、根據(jù)目標(biāo)語音數(shù)據(jù)、預(yù)先采集的語音數(shù)據(jù)庫和預(yù)先訓(xùn)練的說話人識別模型,獲取目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征;

102、根據(jù)目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征,識別目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶。

本實(shí)施例的說話人識別方法的執(zhí)行主體為說話人識別裝置,該說話人識別裝置可以為一個(gè)實(shí)體的電子裝置,也可以為采用軟件集成的裝置。

本實(shí)施例的說話人識別方法是一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的說話人識別方法,即本實(shí)施例的說話人識別模型具體采用卷積神經(jīng)網(wǎng)絡(luò)模型。本實(shí)施例的說話人識別方法通過對屬于某目標(biāo)群體中的某個(gè)用戶的語音數(shù)據(jù)進(jìn)行分析,從而識別該用戶是目標(biāo)群體中的哪個(gè)用戶。也就是說,在本實(shí)施例的步驟100之前,可選地,還需要采集目標(biāo)群體內(nèi)每個(gè)用戶的語音數(shù)據(jù),生成語音數(shù)據(jù)庫,語音數(shù)據(jù)庫中的語音數(shù)據(jù)可以按照用戶標(biāo)識與該用戶標(biāo)識對應(yīng)的用戶的語音數(shù)據(jù)的對應(yīng)關(guān)系存儲,這樣,可以知道每一條語音數(shù)據(jù)對應(yīng)屬于哪個(gè)用戶。且本實(shí)施例的說話人識別模型在對用戶識別之前預(yù)先進(jìn)行訓(xùn)練得到,且本實(shí)施例的說話人識別模型訓(xùn)練時(shí)所使用的訓(xùn)練語音數(shù)據(jù)庫與使用時(shí)采集的語音數(shù)據(jù)庫可以沒有關(guān)系,也就是說,該說話人識別模型在訓(xùn)練時(shí)和使用時(shí)是兩個(gè)獨(dú)立的過程,該說話人識別模型雖然采用訓(xùn)練語音數(shù)據(jù)庫進(jìn)行訓(xùn)練,但是不僅可以對該訓(xùn)練數(shù)據(jù)庫中的各條訓(xùn)練語音數(shù)據(jù)的說話人進(jìn)行識別,還可以對該訓(xùn)練數(shù)據(jù)庫中之外的其他任意語音數(shù)據(jù)庫中的說話人進(jìn)行識別,即本實(shí)施例的說話人識別模型使用非常廣泛,使用之前,僅需要采集該目標(biāo)群體中的各個(gè)用戶的語音數(shù)據(jù),生成語音數(shù)據(jù)庫,便可以根據(jù)語音數(shù)據(jù)對該目標(biāo)群體中的任一用戶進(jìn)行識別。

首先,當(dāng)獲取到一條目標(biāo)語音數(shù)據(jù)時(shí),僅知道該目標(biāo)語音數(shù)據(jù)屬于哪個(gè)目標(biāo)群體,但不確定該目標(biāo)語音數(shù)據(jù)屬于該目標(biāo)群體中的哪個(gè)人時(shí),可以將該目標(biāo)語音數(shù)據(jù)輸入至說話人識別裝置中,以獲取目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征,并根據(jù)目標(biāo)語音數(shù)據(jù)的語音輸出特征以及語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征,以對該目標(biāo)語音數(shù)據(jù)的說話人進(jìn)行識別。對應(yīng)地,本實(shí)施例的說話人識別裝置首先可以接收目標(biāo)群體中的待識別用戶的目標(biāo)語音數(shù)據(jù);然后可以根據(jù)目標(biāo)語音數(shù)據(jù)和預(yù)先訓(xùn)練的說話人識別模型獲取目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征,并根據(jù)預(yù)先采集的語音數(shù)據(jù)庫和預(yù)先訓(xùn)練的說話人識別模型,獲取語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征。即本實(shí)施例中,該說話人識別模型可以對語音數(shù)據(jù)的特征進(jìn)行抽取,獲取最能夠表征該語音數(shù)據(jù)的特征即語音輸出特征,并輸出。本實(shí)施例的說話人識別模型采用卷積神經(jīng)網(wǎng)絡(luò)模型,而現(xiàn)有的普通卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像數(shù)據(jù),將一個(gè)矩形的空間區(qū)域做卷積,而聲音的語音數(shù)據(jù)并沒有空間維度,只有時(shí)間維,且聲音的語音數(shù)據(jù)的特征不隨時(shí)間變化而變化,因此可以采用一維卷積神經(jīng)網(wǎng)絡(luò)模型來作為本實(shí)施例的說話人識別模型。圖2本發(fā)明的說話人識別方法中提供的二維卷積的示意圖。圖3為本發(fā)明的說話人識別方法中提供的一維卷積的示意圖??梢詤⒖忌鲜鰣D2和圖3,可以將二維卷積轉(zhuǎn)化為一維卷積,從而可以應(yīng)用在本實(shí)施例的說話人識別模型中。

進(jìn)一步可選地,本實(shí)施例的步驟101“根據(jù)目標(biāo)語音數(shù)據(jù)、預(yù)先采集的語音數(shù)據(jù)庫和預(yù)先訓(xùn)練的說話人識別模型,獲取目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征”,具體可以包括如下步驟:

(a1)分別提取目標(biāo)語音數(shù)據(jù)和語音數(shù)據(jù)庫中每個(gè)用戶的語音數(shù)據(jù)的梅爾頻域倒譜系數(shù)(Mel-Frequency Cepstral Coefficients;MFCC)和/或感知線性預(yù)測(Perceptual Linear Predictive;PLP)特征,作為目標(biāo)語音數(shù)據(jù)的語音輸入特征和每個(gè)用戶的語音數(shù)據(jù)的語音輸入特征;

(a2)根據(jù)目標(biāo)語音數(shù)據(jù)的語音輸入特征和預(yù)先訓(xùn)練的說話人識別模型,獲取目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征;

(a3)根據(jù)每個(gè)用戶的語音數(shù)據(jù)的語音輸入特征和說話人識別模型,獲取對應(yīng)的用戶的語音數(shù)據(jù)的語音輸出特征。

從語音數(shù)據(jù)中提取MFCC和PLP特征的方式可以參考相關(guān)語音技術(shù)領(lǐng)域的提取。本實(shí)施例中對說話人識別時(shí),所選擇的語音輸入特征可以僅包括MFCC或者PLP特征,也可以兩者都包括。且從待識別的目標(biāo)語音數(shù)據(jù)中提取的語音輸入特征所包括的信息量應(yīng)該與語音數(shù)據(jù)庫中每個(gè)用戶的語音數(shù)據(jù)的語音輸入特征所包括的信息量的多少相同。即如果待識別的目標(biāo)語音數(shù)據(jù)中提取的語音輸入特征僅包括MFCC和PLP特征中的某一個(gè),對應(yīng)的語音數(shù)據(jù)庫中每個(gè)用戶的語音數(shù)據(jù)的語音輸入特征也包括對應(yīng)的MFCC或者PLP特征。如果待識別的目標(biāo)語音數(shù)據(jù)中提取的語音輸入特征包括MFCC和PLP特征兩個(gè)特征,對應(yīng)地語音數(shù)據(jù)庫中每個(gè)用戶的語音數(shù)據(jù)的語音輸入特征也包括MFCC或者PLP特征兩個(gè)特征。實(shí)際應(yīng)用中,語音數(shù)據(jù)的語音輸入特征為矩陣的形式,該矩陣的其中一個(gè)維度固定為60維,另一個(gè)維度與語音數(shù)據(jù)的長度有關(guān),語音數(shù)據(jù)的長度越長,對應(yīng)的維度越大。例如以每10ms為一個(gè)參考單位,語音數(shù)據(jù)的長度每增加10ms,對應(yīng)的維度增加60,即語音數(shù)據(jù)的長度每增加1s,對應(yīng)的維度增加60*100=6000。由上述可以,對于不同時(shí)間長度的語音數(shù)據(jù),對應(yīng)的語音輸入特征的維度也不相同。而現(xiàn)有技術(shù)中采用卷積神經(jīng)網(wǎng)絡(luò)模型做圖像分類時(shí),輸入的圖像大小都是一致的。因此,普通的卷積神經(jīng)網(wǎng)絡(luò)模型無法處理此類數(shù)據(jù)。本發(fā)明的作為說話人識別模型的卷積神經(jīng)網(wǎng)絡(luò)模型中,具體可以采用序列平均池化技術(shù)實(shí)現(xiàn)對變長的數(shù)據(jù)即變長的語音輸入特征進(jìn)行處理。所謂序列平均池化技術(shù),就是將任意長度的一個(gè)序列看作一個(gè)向量,取該向量所有元素的平均值作為輸出值。這樣,可以保證本實(shí)施例的說話人識別模型對任意長度的語音數(shù)據(jù)的語音輸入特征,均能夠輸出固定大小的語音輸出特征。具體地,將該目標(biāo)語音數(shù)據(jù)的語音輸入特征輸入至預(yù)先訓(xùn)練的說話人識別模型,該說話人識別模型可以輸出目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征。分別將每個(gè)用戶的語音數(shù)據(jù)的語音輸入特征輸入至與預(yù)先訓(xùn)練的說話人識別模型,該說話人識別模型可以輸出該用戶的語音數(shù)據(jù)的語音輸出特征。且該說話人識別模型輸出的目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征的向量的維度,與該說話人識別模型輸出的各用戶的語音數(shù)據(jù)的語音輸出特征的向量的維度相同。

本實(shí)施例的說話人識別模型,由于采用卷積神經(jīng)網(wǎng)絡(luò)模型,根據(jù)語音數(shù)據(jù)的語音輸入特征抽取語音數(shù)據(jù)的語音輸出特征的過程,遠(yuǎn)遠(yuǎn)比現(xiàn)有技術(shù)的混合高斯模型采用線性方式獲取i-vecotr的過程,所獲取的表征語音數(shù)據(jù)的特征的內(nèi)容更加豐富,也能夠更加準(zhǔn)確地表示該語音數(shù)據(jù)。

本實(shí)施例的說話人識別方法中,當(dāng)采集的語音數(shù)據(jù)庫和說話人識別模型確定時(shí),也可以預(yù)先根據(jù)步驟(a3),獲取預(yù)先采集的語音數(shù)據(jù)庫中每個(gè)用戶的語音數(shù)據(jù)的語音輸出特征,并可以將該語音輸出特征也存儲在語音數(shù)據(jù)庫中,具體存儲時(shí),可以根據(jù)用戶的索引號來存儲對應(yīng)的用戶的語音數(shù)據(jù)的語音輸出特征;或者也可以再建立一個(gè)語音輸出特征數(shù)據(jù)庫,專門用來存儲該語音數(shù)據(jù)庫中各語音數(shù)據(jù)對應(yīng)的語音輸出特征。當(dāng)進(jìn)行說話人識別時(shí),可以僅獲取目標(biāo)語音數(shù)據(jù)的語音輸出特征,然后直接從語音數(shù)據(jù)庫或者語音輸出特征數(shù)據(jù)庫中獲取預(yù)先存儲的每個(gè)用戶的語音數(shù)據(jù)的語音輸出特征,然后直接進(jìn)行說話人識別的后續(xù)處理即可;這樣,可以節(jié)省每次說話人識別的流程,節(jié)省說話人識別的時(shí)間,提高說話人識別的效率。

進(jìn)一步可選地,本實(shí)施例的步驟102“根據(jù)目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征,識別目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶”,具體可以包括如下步驟:

(b1)分別計(jì)算目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征與語音數(shù)據(jù)庫中各語音數(shù)據(jù)對應(yīng)的語音輸出特征的相似度;

(b2)獲取與目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征的相似度大于或者等于預(yù)設(shè)相似度閾值的語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識,作為目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶的標(biāo)識;或者獲取與目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征的相似度最大的語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識,作為目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶的標(biāo)識。

由于本實(shí)施例的目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征與語音數(shù)據(jù)庫中各語音數(shù)據(jù)對應(yīng)的語音輸出特征均采用向量表示,可以計(jì)算目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征與語音數(shù)據(jù)庫中各語音數(shù)據(jù)對應(yīng)的語音輸出特征的相似度值。然后可以從語音數(shù)據(jù)庫中獲取與目標(biāo)語音數(shù)據(jù)對應(yīng)的相似度值大于或者等于預(yù)設(shè)相似度閾值的語音輸出特征對應(yīng)的語音數(shù)據(jù),并取該語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識作為目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識,即將該語音數(shù)據(jù)對應(yīng)的用戶識別為目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶。本實(shí)施例的預(yù)設(shè)相似度閾值可以根據(jù)實(shí)際需求設(shè)置為95%,90%或者0-1之間的其它百分?jǐn)?shù),優(yōu)選地,預(yù)設(shè)相似度閾值至少需要大于60%。或者也可以直接根據(jù)得到的多個(gè)相似度值,從中獲取最大的相似度值,并從語音數(shù)據(jù)庫中獲取該最大的相似度值對應(yīng)的語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識,并取該語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識作為目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識,即將該語音數(shù)據(jù)對應(yīng)的用戶識別為目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶?;蛘呱鲜鰞煞N方案也可以結(jié)合使用,先根據(jù)得到的多個(gè)相似度值,判斷是否存在大于或者等于預(yù)設(shè)相似度閾值的相似度值,若存在,直接取大于或者等于預(yù)設(shè)相似度閾值的相似度值對應(yīng)的語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識,作為目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識;否則若不存在,從中獲取最大的相似度值,并從語音數(shù)據(jù)庫中獲取該最大的相似度值對應(yīng)的語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識,作為目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識。

本實(shí)施例的說話人識別方法,通過接收目標(biāo)群體中的待識別用戶的目標(biāo)語音數(shù)據(jù);根據(jù)目標(biāo)語音數(shù)據(jù)、預(yù)先采集的語音數(shù)據(jù)庫和預(yù)先訓(xùn)練的說話人識別模型,獲取目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征;其中說話人識別模型采用卷積神經(jīng)網(wǎng)絡(luò)模型;根據(jù)目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征,識別目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶。本實(shí)施例中,由于采用基于卷積神經(jīng)網(wǎng)絡(luò)模型的說話人識別模型,能夠更加準(zhǔn)確地獲取各語音數(shù)據(jù)的語音輸出特征,從而更加準(zhǔn)確地對目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶進(jìn)行識別,進(jìn)而能夠大大地提高對說話人的識別效率。

圖4為本發(fā)明的說話人識別方法實(shí)施例二的流程圖。本實(shí)施例的說話人識別方法,在上述圖1所示實(shí)施例的技術(shù)方案的基礎(chǔ)上,對圖1所示實(shí)施例的說話人識別場景進(jìn)行擴(kuò)展,以對目標(biāo)語音數(shù)據(jù)的說話人進(jìn)行驗(yàn)證。如圖4所示,本實(shí)施例的說話人識別方法,具體可以包括如下步驟:

200、采集目標(biāo)群體內(nèi)每個(gè)用戶的語音數(shù)據(jù),生成語音數(shù)據(jù)庫;

具體地,語音數(shù)據(jù)庫中的各個(gè)用戶的語音數(shù)據(jù)按照該用戶標(biāo)識(如可以為用戶的索引號)和該用戶的語音數(shù)據(jù)的對應(yīng)關(guān)系存儲。詳細(xì)可以參考上述實(shí)施例的相關(guān)記載,在此不再贅述。

201、接收攜帶待識別用戶的目標(biāo)語音數(shù)據(jù)和可疑用戶標(biāo)識的驗(yàn)證請求;

其中待識別用戶為目標(biāo)群體中的用戶,可疑用戶標(biāo)識也為目標(biāo)群體中的一個(gè)用戶的標(biāo)識。本實(shí)施例中的說話人識別方法,具體是用于驗(yàn)證該目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶是否為可疑用戶。

202、從語音數(shù)據(jù)庫中獲取該可疑用戶標(biāo)識對應(yīng)的語音數(shù)據(jù);

203、分別提取目標(biāo)語音數(shù)據(jù)和該可疑用戶標(biāo)識對應(yīng)的語音數(shù)據(jù)的MFCC和PLP特征,作為目標(biāo)語音數(shù)據(jù)的語音輸入特征和可疑用戶標(biāo)識的語音數(shù)據(jù)的語音輸入特征;

本實(shí)施例中以輸入特征同時(shí)包括MFCC和PLP特征為例,實(shí)際應(yīng)用中,也可以僅包括其中一個(gè)。

204、分別將目標(biāo)語音數(shù)據(jù)的語音輸入特征和可疑用戶標(biāo)識的語音數(shù)據(jù)的語音輸入特征,輸入至預(yù)先訓(xùn)練的說話人識別模型,獲取目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征和可疑用戶標(biāo)識的語音數(shù)據(jù)對應(yīng)的語音輸出特征;

205、計(jì)算目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征和可疑用戶標(biāo)識的語音數(shù)據(jù)的對應(yīng)的語音輸出特征的相似度;

206、判斷該相似度是否大于或者等于預(yù)設(shè)相似度閾值;若是,則確定目標(biāo)語音數(shù)據(jù)對應(yīng)的待識別用戶為該可疑用戶;否則確定目標(biāo)語音數(shù)據(jù)對應(yīng)的待識別用戶不是該可疑用戶。

本實(shí)施例的說話人識別方法是對上述圖1所示實(shí)施例的說話人識別方法的擴(kuò)展。與上述圖1所示實(shí)施例的說話人識別方法的區(qū)別在于:上述圖1所示實(shí)施例的說話人識別方法是用于對待識別用戶是屬于目標(biāo)群體中的哪個(gè)用戶進(jìn)行識別;而圖2所示實(shí)施例是對待識別用戶是否為目標(biāo)群體的某可疑用戶進(jìn)行驗(yàn)證,其具體識別過程是相似的,詳細(xì)實(shí)現(xiàn)過程可疑參考上述圖1所示實(shí)施例的相關(guān)記載,在此不再贅述。

本實(shí)施例的說話人識別方法,通過采用上述技術(shù)方案,由于采用基于卷積神經(jīng)網(wǎng)絡(luò)模型的說話人識別模型,能夠更加準(zhǔn)確地獲取各語音數(shù)據(jù)的語音輸出特征,從而更加準(zhǔn)確地對目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶進(jìn)行識別,進(jìn)而大大地提高對說話人的識別效率。

圖5為本發(fā)明的說話人識別方法實(shí)施例三的流程圖。本實(shí)施例的說話人識別方法,在上述圖1所示實(shí)施例的技術(shù)方案的基礎(chǔ)上,在步驟101“根據(jù)目標(biāo)語音數(shù)據(jù)、預(yù)先采集的語音數(shù)據(jù)庫和預(yù)先訓(xùn)練的說話人識別模型,獲取目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征”之前,還可以包括如下步驟:

300、采集數(shù)條已知用戶標(biāo)識的訓(xùn)練語音數(shù)據(jù),生成訓(xùn)練語音數(shù)據(jù)庫;

301、根據(jù)訓(xùn)練語音數(shù)據(jù)庫中各條訓(xùn)練語音數(shù)據(jù),獲取各條訓(xùn)練語音數(shù)據(jù)的MFCC和/或PLP特征,作為對應(yīng)的訓(xùn)練語音數(shù)據(jù)的語音輸入特征;

302、根據(jù)各條訓(xùn)練語音數(shù)據(jù)的語音輸入特征、以及各訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識,訓(xùn)練說話人識別模型。

本實(shí)施例的步驟300-303是用于對說話人識別模型進(jìn)行訓(xùn)練。本實(shí)施例在訓(xùn)練說話人識別模型時(shí),首先采集數(shù)條已知用戶標(biāo)識的訓(xùn)練語音數(shù)據(jù),生成訓(xùn)練語音數(shù)據(jù)庫來對說話人識別模型進(jìn)行訓(xùn)練。本實(shí)施例的訓(xùn)練語音數(shù)據(jù)庫中包括的訓(xùn)練語音數(shù)據(jù)的條數(shù)越多,訓(xùn)練的說話人識別模型的參數(shù)越準(zhǔn)確,后續(xù)根據(jù)該說話人識別模型得出的語音數(shù)據(jù)的語音輸出特征越準(zhǔn)確,從而對說話人的識別越準(zhǔn)確,識別效率越高。例如本實(shí)施例的訓(xùn)練語音數(shù)據(jù)庫中可以包括20萬-30萬甚至更多的訓(xùn)練語音數(shù)據(jù)。

本實(shí)施例中根據(jù)各訓(xùn)練語音數(shù)據(jù),獲取訓(xùn)練語音數(shù)據(jù)的語音輸入特征時(shí),與在使用該說話人識別模型識別說話人時(shí),所獲取的目標(biāo)語音數(shù)據(jù)的語音輸入特征所包括的信息量相同,兩者必須一致。即如果訓(xùn)練時(shí),采用的語音輸入特征為MFCC或者PLP特征,識別時(shí)采用的語音輸入特征也必須為對應(yīng)的MFCC或者PLP特征。如果訓(xùn)練時(shí),采用的語音輸入特征為MFCC和PLP特征,識別時(shí)采用的語音輸入特征也必須為對應(yīng)的MFCC和PLP特征。最后根據(jù)各條訓(xùn)練語音數(shù)據(jù)的語音輸入特征、以及各訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識,訓(xùn)練說話人識別模型。本實(shí)施例的各訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識具體采用的是該用戶在該訓(xùn)練語音數(shù)據(jù)庫中的一個(gè)類別標(biāo)識。例如該訓(xùn)練語音數(shù)據(jù)庫中包括10000個(gè)訓(xùn)練用戶的30萬條語音數(shù)據(jù),每個(gè)訓(xùn)練用戶至少包括一條訓(xùn)練語音數(shù)據(jù),各個(gè)訓(xùn)練用戶的標(biāo)識可以采用采用1-10000來表示,此時(shí)對應(yīng)的用戶標(biāo)識可以為該用戶在訓(xùn)練語音數(shù)據(jù)庫中屬于該用戶的類別標(biāo)識。例如10000個(gè)用戶中的的5個(gè)用戶的標(biāo)識可以表示為A10000,5。

例如該步驟302“根據(jù)各條訓(xùn)練語音數(shù)據(jù)的語音輸入特征、以及各訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識,訓(xùn)練說話人識別模型”,具體可以包括如下步驟:

(c1)將訓(xùn)練語音數(shù)據(jù)庫中的各條訓(xùn)練語音數(shù)據(jù)的語音輸入特征依次輸入至說話人識別模型中,得到對應(yīng)的訓(xùn)練語音數(shù)據(jù)的語音輸出特征;

本實(shí)施例中,在訓(xùn)練說話人識別模型的過程中,說話人識別模型中的參數(shù)是不斷地變化的,即說話人識別模型是在不斷地變化。在每一次訓(xùn)練時(shí),所采用的說話人識別模型均為上一次訓(xùn)練更新后的說話人識別模型。而本實(shí)施例的說話人識別模型被初次使用時(shí)各參數(shù)采用的是預(yù)設(shè)的初始值。

(c2)根據(jù)訓(xùn)練語音數(shù)據(jù)的語音輸出特征和訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識,生成訓(xùn)練語音數(shù)據(jù)的損失函數(shù);

具體地,可以先將訓(xùn)練語音數(shù)據(jù)的語音輸出特征進(jìn)行維度轉(zhuǎn)化,得到與訓(xùn)練語音數(shù)據(jù)庫中的用戶類別對應(yīng)的矩陣,然后對該矩陣中的所有元素進(jìn)行歸一化處理,歸一化處理后的矩陣中的每一個(gè)元素表示當(dāng)前的訓(xùn)練語音數(shù)據(jù)為該元素所對應(yīng)的用戶類別的預(yù)測概率。例如某個(gè)元素在該歸一化處理后的矩陣中的位置為A10000,57,其中10000為該訓(xùn)練語音數(shù)據(jù)庫中的所有用戶的數(shù)量,A10000,57表示10000個(gè)用戶中的第57個(gè)用戶在該矩陣中的位置,也可以采用A10000,57表示該用戶在該訓(xùn)練語音數(shù)據(jù)庫的類別的標(biāo)識,也可以稱為用戶標(biāo)識。該位置的元素的數(shù)值為0.78,表示當(dāng)前的訓(xùn)練語音數(shù)據(jù)屬于10000個(gè)用戶中的第57個(gè)用戶的概率為0.78。因此歸一化處理后的矩陣也可以稱為預(yù)測概率矩陣。由于預(yù)測的概率矩陣中每一個(gè)元素表示的是當(dāng)前的訓(xùn)練語音數(shù)據(jù)屬于該位置的用戶的預(yù)測概率,所以該預(yù)測概率矩陣中每一個(gè)元素的數(shù)值均為大于等于0,小于等于1的數(shù)值。然后在根據(jù)該訓(xùn)練數(shù)據(jù)的用戶標(biāo)識,生成該訓(xùn)練數(shù)據(jù)對應(yīng)的用戶類別的真實(shí)概率矩陣,由于真實(shí)概率矩陣是根據(jù)該訓(xùn)練語音數(shù)據(jù)的真實(shí)的用戶標(biāo)識生成的,所以該真實(shí)概率矩陣中僅在該訓(xùn)練語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識的位置的元素為1,而其余位置的元素為0。例如若某條訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識正好為A10000,57,那么則該訓(xùn)練語音數(shù)據(jù)對應(yīng)的真實(shí)概率矩陣中,僅A10000,57的位置處概率值為1,其余位置處的概率均為0。由于預(yù)測的概率矩陣與真實(shí)的概率矩陣存在差距,本實(shí)施例中可以根據(jù)預(yù)測概率矩陣和真實(shí)概率矩陣的差生成該訓(xùn)練語音數(shù)據(jù)的損失函數(shù)。損失函數(shù)的值越大,表示預(yù)測概率矩陣與真實(shí)概率矩陣差距較大,此時(shí)需要優(yōu)化參數(shù),減小損失函數(shù),直到損失函數(shù)無限趨于零,使得說話人識別模型輸出的語音輸出特征能夠更加真實(shí)地反應(yīng)輸入的語音數(shù)據(jù)。

(c3)計(jì)算訓(xùn)練語音數(shù)據(jù)的損失函數(shù)對說話人識別模型中各參數(shù)的導(dǎo)數(shù);

(c4)根據(jù)說話人識別模型中的各參數(shù)以及訓(xùn)練語音數(shù)據(jù)的損失函數(shù)對各參數(shù)的導(dǎo)數(shù),更新說話人識別模型中的各參數(shù),從而確定本次訓(xùn)練后的說話人識別模型;

(c5)重復(fù)執(zhí)行上述步驟(c1)-(c4),直至訓(xùn)練語音數(shù)據(jù)庫中的數(shù)條訓(xùn)練語音數(shù)據(jù)都對說話人識別模型進(jìn)行訓(xùn)練,確定本輪訓(xùn)練后的說話人識別模型。

具體地,由于說話人識別模型中是包括多個(gè)參數(shù),當(dāng)輸入的語音數(shù)據(jù)為確定時(shí),也可以將損失函數(shù)看作是關(guān)于參數(shù)的函數(shù),此時(shí)可以計(jì)算語音數(shù)據(jù)的損失函數(shù)對說話人識別模型中各參數(shù)的導(dǎo)數(shù);對于說話人識別模型中的每一個(gè)參數(shù),在更新時(shí),可以將說話人識別模型中該參數(shù)更新為該參數(shù)減去損失函數(shù)對該參數(shù)的導(dǎo)數(shù),每一次訓(xùn)練都對說話人識別模型進(jìn)行更新。更新完說話人識別模型之后,然后返回到步驟(c1)開始使用下一條訓(xùn)練語音數(shù)據(jù)的語音輸入特征對說話人識別模型進(jìn)行訓(xùn)練,直到步驟(c4),完成下一條訓(xùn)練語音數(shù)據(jù)的語音輸入特征對說話人識別模型的訓(xùn)練,并再次更新說話人識別模型中的各參數(shù),從而更新說話人識別模型;依次類推,直至數(shù)條訓(xùn)練語音數(shù)據(jù)都對說話人識別模型進(jìn)行訓(xùn)練,確定本輪訓(xùn)練后的說話人識別模型。此時(shí)得到的說話人識別模型也可以應(yīng)用于說話人識別中。

因?yàn)閾p失函數(shù)表征的是一個(gè)向梯度方向下降的值,損失函數(shù)值越大,表示說話人識別模型的對輸入的語音數(shù)據(jù)的語音輸入特征進(jìn)行處理后輸出的結(jié)果越不準(zhǔn)確,本實(shí)施例中通過不斷地調(diào)整損失函數(shù),使得損失函數(shù)的最終點(diǎn)的梯度為0。損失函數(shù)的值越小,表示說話人識別模型的處理結(jié)果越準(zhǔn)確。上述實(shí)施例的技術(shù)方案,在更新說話人識別模型的時(shí)候,具體是在朝著損失函數(shù)逐漸降低的方向更新。因此,通過不斷的訓(xùn)練,不斷地優(yōu)化損失函數(shù),不斷地更新說話人識別模型的參數(shù),從而不斷的更新說話人識別模型,使得最終得到的說話人識別模型能夠非常準(zhǔn)確地對語音數(shù)據(jù)進(jìn)行處理,提取出更加準(zhǔn)確地語音輸出特征。

進(jìn)一步可選地,還可以按照上述步驟(c1)-(c5)所示的每一輪訓(xùn)練中訓(xùn)練語音數(shù)據(jù)庫中的數(shù)條訓(xùn)練語音數(shù)據(jù)對說話人識別模型的訓(xùn)練,使用訓(xùn)練語音數(shù)據(jù)庫中的數(shù)條訓(xùn)練語音數(shù)據(jù)重復(fù)對說話人識別模型訓(xùn)練N輪,得到最終的說話人識別模型。

例如當(dāng)訓(xùn)練語音數(shù)據(jù)庫中包括20萬條訓(xùn)練語音數(shù)據(jù)時(shí),按照順序依次使用訓(xùn)練語音數(shù)據(jù)庫中的20萬條訓(xùn)練語音數(shù)據(jù)對說話人識別模型進(jìn)行訓(xùn)練后,可以認(rèn)為完成一輪對說話人識別模型的訓(xùn)練;然后按照每一輪對說話人識別模型的訓(xùn)練,再使用訓(xùn)練語音數(shù)據(jù)庫中的20萬條訓(xùn)練語音數(shù)據(jù)對說話人識別模型進(jìn)行N-1輪訓(xùn)練,可以得到最終的說話人識別模型。本實(shí)施例中,經(jīng)過多輪訓(xùn)練,可以將損失函數(shù)的數(shù)值趨于零,從而可以進(jìn)一步提高訓(xùn)練得到的說話人識別模型提取的語音數(shù)據(jù)的語音輸出特征的準(zhǔn)確性,進(jìn)而進(jìn)一步提高基于說話人識別模型進(jìn)行說話人識別的效率。本實(shí)施例中的N可以根據(jù)實(shí)際經(jīng)驗(yàn)選取一個(gè)正整數(shù),例如該N可以為5、6或者8、10之類的正整數(shù)。

本實(shí)施例的說話人識別方法,通過采用上述的基于卷積神經(jīng)網(wǎng)絡(luò)模型的說話人識別模型,能夠更加準(zhǔn)確地獲取各語音數(shù)據(jù)的語音輸出特征,從而更加準(zhǔn)確地對目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶進(jìn)行識別,進(jìn)而大大地提高對說話人的識別效率。

圖6為本發(fā)明的說話人識別裝置實(shí)施例一的結(jié)構(gòu)圖。如圖6所示,本實(shí)施例的說話人識別裝置,具體可以包括:接收模塊10、特征獲取模塊11和識別模塊12。

其中接收模塊10用于接收目標(biāo)群體中的待識別用戶的目標(biāo)語音數(shù)據(jù);

特征獲取模塊11用于根據(jù)接收模塊10接收的目標(biāo)語音數(shù)據(jù)、預(yù)先采集的語音數(shù)據(jù)庫和預(yù)先訓(xùn)練的說話人識別模型,獲取目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征;本實(shí)施例的說話人識別模型采用卷積神經(jīng)網(wǎng)絡(luò)模型;

識別模塊12用于根據(jù)特征獲取模塊11獲取的目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及特征獲取模塊11獲取的語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征,識別目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶。

本實(shí)施例的說話人識別裝置,通過采用上述模塊實(shí)現(xiàn)說話人識別的實(shí)現(xiàn)原理以及技術(shù)效果與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)相同,詳細(xì)可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。

圖7為本發(fā)明的說話人識別裝置實(shí)施例二的結(jié)構(gòu)圖。如圖7所示,本實(shí)施例的說話人識別裝置,在上述圖6所示實(shí)施例的技術(shù)方案的基礎(chǔ)上,進(jìn)一步更加詳細(xì)地介紹本發(fā)明的技術(shù)方案。

如圖7所示,本實(shí)施例的說話人識別裝置,還包括:采集模塊13和訓(xùn)練模塊14。

其中采集模塊13用于采集數(shù)條已知用戶標(biāo)識的訓(xùn)練語音數(shù)據(jù),生成訓(xùn)練語音數(shù)據(jù)庫;

特征獲取模塊11還用于根據(jù)采集模塊13采集的訓(xùn)練語音數(shù)據(jù)庫中各條訓(xùn)練語音數(shù)據(jù),獲取各條訓(xùn)練語音數(shù)據(jù)的梅爾頻域倒譜系數(shù)和/或感知線性預(yù)測特征,作為對應(yīng)的訓(xùn)練語音數(shù)據(jù)的語音輸入特征;

訓(xùn)練模塊14用于根據(jù)特征獲取模塊11獲取的各條訓(xùn)練語音數(shù)據(jù)的語音輸入特征、以及各訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識,訓(xùn)練說話人識別模型。

對應(yīng)地,特征獲取模塊11用于根據(jù)接收模塊10接收的目標(biāo)語音數(shù)據(jù)、預(yù)先采集的語音數(shù)據(jù)庫和訓(xùn)練模塊14預(yù)先訓(xùn)練的說話人識別模型,獲取目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征以及語音數(shù)據(jù)庫中每個(gè)語音數(shù)據(jù)對應(yīng)的語音輸出特征。

進(jìn)一步可選地,本實(shí)施例的說話人識別裝置中,訓(xùn)練模塊14具體用于:

將特征獲取模塊11獲取的訓(xùn)練語音數(shù)據(jù)庫中的各條訓(xùn)練語音數(shù)據(jù)的語音輸入特征依次輸入至說話人識別模型中,得到對應(yīng)的訓(xùn)練語音數(shù)據(jù)的語音輸出特征;本實(shí)施例的說話人識別模型被初次使用時(shí)各參數(shù)采用預(yù)設(shè)的初始值;

根據(jù)訓(xùn)練語音數(shù)據(jù)的語音輸出特征和訓(xùn)練語音數(shù)據(jù)的用戶標(biāo)識,生成訓(xùn)練語音數(shù)據(jù)的損失函數(shù);

計(jì)算訓(xùn)練語音數(shù)據(jù)的損失函數(shù)對說話人識別模型中各參數(shù)的導(dǎo)數(shù);

根據(jù)說話人識別模型中的各參數(shù)以及訓(xùn)練語音數(shù)據(jù)的損失函數(shù)對各參數(shù)的導(dǎo)數(shù),更新說話人識別模型中的各參數(shù),從而確定本次訓(xùn)練后的說話人識別模型;重復(fù)執(zhí)行上述步驟,直至訓(xùn)練語音數(shù)據(jù)庫中的數(shù)條訓(xùn)練語音數(shù)據(jù)都對說話人識別模型進(jìn)行訓(xùn)練,確定本輪訓(xùn)練后的說話人識別模型。

進(jìn)一步可選地,本實(shí)施例的說話人識別裝置中,訓(xùn)練模塊14具體還用于按照上述每一輪訓(xùn)練中訓(xùn)練語音數(shù)據(jù)庫中的數(shù)條訓(xùn)練語音數(shù)據(jù)對說話人識別模型的訓(xùn)練,使用訓(xùn)練語音數(shù)據(jù)庫中的數(shù)條訓(xùn)練語音數(shù)據(jù)重復(fù)對說話人識別模型訓(xùn)練N輪,得到最終的說話人識別模型。

進(jìn)一步可選地,本實(shí)施例的說話人識別裝置中,識別模塊12用于:

分別計(jì)算目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征與語音數(shù)據(jù)庫中各語音數(shù)據(jù)對應(yīng)的語音輸出特征的相似度;

獲取與目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征的相似度大于或者等于預(yù)設(shè)相似度閾值的語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識,作為目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶的標(biāo)識;或者獲取與目標(biāo)語音數(shù)據(jù)對應(yīng)的語音輸出特征的相似度最大的語音數(shù)據(jù)對應(yīng)的用戶標(biāo)識,作為目標(biāo)語音數(shù)據(jù)對應(yīng)的用戶的標(biāo)識。

本實(shí)施例的說話人識別裝置,通過采用上述模塊實(shí)現(xiàn)說話人識別的實(shí)現(xiàn)原理以及技術(shù)效果與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)相同,詳細(xì)可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。

圖8為本發(fā)明的計(jì)算機(jī)設(shè)備實(shí)施例的結(jié)構(gòu)圖。如圖8所示,本實(shí)施例的計(jì)算機(jī)設(shè)備,包括:一個(gè)或多個(gè)處理器30,以及存儲器40,存儲器40用于存儲一個(gè)或多個(gè)程序,當(dāng)存儲器40中存儲的一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器30執(zhí)行,使得一個(gè)或多個(gè)處理器30實(shí)現(xiàn)如上圖1-圖7所示實(shí)施例的說話人識別方法。圖8所示實(shí)施例中以包括多個(gè)處理器30為例。

例如,圖9為本發(fā)明提供的一種計(jì)算機(jī)設(shè)備的示例圖。圖9示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)設(shè)備12a的框圖。圖9顯示的計(jì)算機(jī)設(shè)備12a僅僅是一個(gè)示例,不應(yīng)對本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。

如圖9所示,計(jì)算機(jī)設(shè)備12a以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)設(shè)備12a的組件可以包括但不限于:一個(gè)或者多個(gè)處理器16a,系統(tǒng)存儲器28a,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28a和處理器16a)的總線18a。

總線18a表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MAC)總線,增強(qiáng)型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(VESA)局域總線以及外圍組件互連(PCI)總線。

計(jì)算機(jī)設(shè)備12a典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)設(shè)備12a訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。

系統(tǒng)存儲器28a可以包括易失性存儲器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲器(RAM)30a和/或高速緩存存儲器32a。計(jì)算機(jī)設(shè)備12a可以進(jìn)一步包括其它可移動/不可移動的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34a可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖9未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖9中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如CD-ROM,DVD-ROM或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個(gè)驅(qū)動器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18a相連。系統(tǒng)存儲器28a可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明上述圖1-圖7各實(shí)施例的功能。

具有一組(至少一個(gè))程序模塊42a的程序/實(shí)用工具40a,可以存儲在例如系統(tǒng)存儲器28a中,這樣的程序模塊42a包括——但不限于——操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42a通常執(zhí)行本發(fā)明所描述的上述圖1-圖7各實(shí)施例中的功能和/或方法。

計(jì)算機(jī)設(shè)備12a也可以與一個(gè)或多個(gè)外部設(shè)備14a(例如鍵盤、指向設(shè)備、顯示器24a等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)設(shè)備12a交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)設(shè)備12a能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(I/O)接口22a進(jìn)行。并且,計(jì)算機(jī)設(shè)備12a還可以通過網(wǎng)絡(luò)適配器20a與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20a通過總線18a與計(jì)算機(jī)設(shè)備12a的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)設(shè)備12a使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理器、外部磁盤驅(qū)動陣列、RAID系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。

處理器16a通過運(yùn)行存儲在系統(tǒng)存儲器28a中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)上述實(shí)施例所示的說話人識別方法。

本發(fā)明還提供一種計(jì)算機(jī)可讀介質(zhì),其上存儲有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述實(shí)施例所示的說話人識別方法。

本實(shí)施例的計(jì)算機(jī)可讀介質(zhì)可以包括上述圖9所示實(shí)施例中的系統(tǒng)存儲器28a中的RAM30a、和/或高速緩存存儲器32a、和/或存儲系統(tǒng)34a。

隨著科技的發(fā)展,計(jì)算機(jī)程序的傳播途徑不再受限于有形介質(zhì),還可以直接從網(wǎng)絡(luò)下載,或者采用其他方式獲取。因此,本實(shí)施例中的計(jì)算機(jī)可讀介質(zhì)不僅可以包括有形的介質(zhì),還可以包括無形的介質(zhì)。

本實(shí)施例的計(jì)算機(jī)可讀介質(zhì)可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號介質(zhì)或者計(jì)算機(jī)可讀存儲介質(zhì)。計(jì)算機(jī)可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPROM或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。

計(jì)算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計(jì)算機(jī)可讀的信號介質(zhì)還可以是計(jì)算機(jī)可讀存儲介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。

計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于——無線、電線、光纜、RF等等,或者上述的任意合適的組合。

可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如Java、Smalltalk、C++,還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如”C”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。

在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。

另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。

上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲在一個(gè)計(jì)算機(jī)可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個(gè)存儲介質(zhì)中,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(Read-Only Memory,ROM)、隨機(jī)存取存儲器(Random Access Memory,RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1