亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

聲紋譜提取方法及裝置與流程

文檔序號:11776296閱讀:647來源:國知局
聲紋譜提取方法及裝置與流程

本發(fā)明涉及語音信號處理技術(shù)領(lǐng)域,尤其涉及一種聲紋譜提取方法及裝置。



背景技術(shù):

聲紋是判斷語音信號中包含的說話人特征。在司法實踐中,聲紋是對目標(biāo)進(jìn)行驗證的有效工具之一,在司法鑒定及身份識別等領(lǐng)域具有重要意義。

傳統(tǒng)的聲紋比對方法一般通過頻譜來實現(xiàn),即先將聲音(即語音信號)轉(zhuǎn)換成頻譜,再由鑒定專家通過觀察兩段聲音的頻譜來判斷這兩段聲音是否來源于同一個說話人。

但是,這兩段聲音的頻譜中不僅包含說話人信息,也包含說話內(nèi)容信息,通常說話內(nèi)容的變動更為顯著,這意味著鑒定專家通過頻譜看到的大多數(shù)信息是和發(fā)音變異相關(guān)的,與說話人其實沒有太大關(guān)系。這種信息的混雜使得聲紋比對非常困難,驗證誤差較大。特別是在司法鑒定中,這種高誤差率導(dǎo)致聲紋驗證無法列為重要的呈堂證供。為了能夠?qū)崿F(xiàn)精準(zhǔn)的聲紋驗證,聲紋譜的提取(即在語音頻譜中濾除說話內(nèi)容信息,只保留說話人信息)具有重要的作用。

鑒于此,如何從語音信號中提取聲紋譜成為目前需要解決的技術(shù)問題。



技術(shù)實現(xiàn)要素:

為解決上述的技術(shù)問題,本發(fā)明實施例提供一種聲紋譜提取方法及裝置,能夠?qū)崿F(xiàn)從語音信號中精確的提取聲紋譜。

第一方面,本發(fā)明實施例提供一種聲紋譜提取方法,包括:

獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜;

基于所述log域頻譜,利用預(yù)先訓(xùn)練的聲紋因子提取模型,提取每一幀樣本語音信號的聲紋因子,以及利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子;

基于所提取的內(nèi)容因子和聲紋因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將聲紋因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型;

將所述內(nèi)容譜重構(gòu)模型丟棄,將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜。

可選地,所述將所述樣本語音信號轉(zhuǎn)換成log域頻譜,包括:

將所述樣本語音信號進(jìn)行傅立葉變換,獲得所述樣本語音信號的log域頻譜。

可選地,在基于所述log域頻譜,利用預(yù)先訓(xùn)練的聲紋因子提取模型,提取每一幀樣本語音信號的聲紋因子之前,所述方法還包括:

對聲紋因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述聲紋因子提取模型對說話人的區(qū)分能力最大化,以及對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化。

可選地,所述對聲紋因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述聲紋因子提取模型對說話人的區(qū)分能力最大化,包括:

基于fisher準(zhǔn)則,對聲紋因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述聲紋因子提取模型對說話人的區(qū)分能力最大化;

相應(yīng)地,所述對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化,包括:

基于fisher準(zhǔn)則,對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化。

可選地,所述對聲紋因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述聲紋因子提取模型對說話人的區(qū)分能力最大化,包括:

基于交叉熵,對聲紋因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述聲紋因子提取模型對說話人的區(qū)分能力最大化;

相應(yīng)地,所述對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化,包括:

基于交叉熵,對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化。

可選地,所述聲紋因子提取模型、所述內(nèi)容因子提取模型、所述聲紋譜重構(gòu)模型和所述內(nèi)容譜重構(gòu)模型均是基于深度神經(jīng)網(wǎng)絡(luò)來實現(xiàn)的。

第二方面,本發(fā)明實施例提供一種聲紋譜提取裝置,包括:

轉(zhuǎn)換模塊,用于獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜;

第一提取模塊,用于基于所述log域頻譜,利用預(yù)先訓(xùn)練的聲紋因子提取模型,提取每一幀樣本語音信號的聲紋因子,以及利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子;

第一訓(xùn)練模塊,用于基于所提取的內(nèi)容因子和聲紋因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將聲紋因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型;

第二提取模塊,用于將所述內(nèi)容譜重構(gòu)模型丟棄,將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜。

可選地,所述裝置還包括:

第二訓(xùn)練模塊,用于對聲紋因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述聲紋因子提取模型對說話人的區(qū)分能力最大化,以及對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化。

第三方面,本發(fā)明實施例提供一種電子設(shè)備,包括:處理器、存儲器、總線及存儲在存儲器上并可在處理器上運行的計算機(jī)程序;

其中,所述處理器,存儲器通過所述總線完成相互間的通信;

所述處理器執(zhí)行所述計算機(jī)程序時實現(xiàn)上述方法。

第四方面,本發(fā)明實施例提供一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),所述存儲介質(zhì)上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述方法。

由上述技術(shù)方案可知,本發(fā)明實施例的聲紋譜提取方法及裝置,通過獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜,基于所述log域頻譜,利用預(yù)先訓(xùn)練的聲紋因子提取模型提取每一幀樣本語音信號的聲紋因子,以及利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型提取每一幀樣本語音信號的內(nèi)容因子,基于所提取的內(nèi)容因子和聲紋因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將聲紋因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型,將所述內(nèi)容譜重構(gòu)模型丟棄,將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜,由此,能夠?qū)崿F(xiàn)從語音信號中精確的提取聲紋譜,進(jìn)而使后續(xù)可以根據(jù)所提取的聲紋譜清晰觀察到說話人特性,以幫助提高司法鑒定及身份識別等領(lǐng)域中聲紋驗證的準(zhǔn)確度。

附圖說明

圖1為本發(fā)明一實施例提供的一種聲紋譜提取方法的流程示意圖;

圖2為本發(fā)明一實施例提供的一種聲紋譜提取裝置的結(jié)構(gòu)示意圖;

圖3為本發(fā)明實施例提供的一種電子設(shè)備的實體結(jié)構(gòu)示意圖。

具體實施方式

為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整的描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他的實施例,都屬于本發(fā)明保護(hù)的范圍。

圖1示出了本發(fā)明一實施例提供的聲紋譜提取方法的流程示意圖,如圖1所示,本實施例的聲紋譜提取方法如下所述。

101、獲取樣本語音信號,將所述樣本語音信號x(t)轉(zhuǎn)換成log域頻譜log(x(t))。

在具體應(yīng)用中,舉例來說,所述步驟101可以將所述樣本語音信號x(t)進(jìn)行傅立葉變換,獲得所述樣本語音信號的log域頻譜log(x(t))。

102、基于所述log域頻譜log(x(t)),利用預(yù)先訓(xùn)練的聲紋因子提取模型,提取每一幀樣本語音信號的聲紋因子s(t),以及利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子v(t)。

可以理解的是,本實施例中,每一幀樣本語音信號包含兩類因子:內(nèi)容因子v(t)和聲紋因子s(t)(即說話人因子)。其中,內(nèi)容因子v(t)和說話內(nèi)容相關(guān),聲紋因子s(t)和說話人特征相關(guān)。

在具體應(yīng)用中,所述聲紋因子提取模型可用函數(shù)g來表示,所述步驟102可通過聲紋因子提取模型,提取每一幀樣本語音信號的聲紋因子s(t),所述聲紋因子提取模型為:

s(t)=g(log(x(t)))(1)。

在具體應(yīng)用中,所述內(nèi)容因子提取模型可用函數(shù)f來表示,所述步驟102可通過內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子v(t),所述內(nèi)容因子提取模型為:

v(t)=f(log(x(t)))(2)。

在具體應(yīng)用中,在所述步驟102之前,還可以包括:

對聲紋因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述聲紋因子提取模型對說話人的區(qū)分能力最大化,以及對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化。

可以理解的是,所述聲紋因子提取模型是基于深度神經(jīng)網(wǎng)絡(luò)和使聲紋因子提取模型對說話人的區(qū)分能力最大化準(zhǔn)則來訓(xùn)練實現(xiàn)的,使聲紋因子提取模型對說話人的區(qū)分能力最大化準(zhǔn)則可以有多種,舉例來說,可以基于fisher準(zhǔn)則,對聲紋因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述聲紋因子提取模型對說話人的區(qū)分能力最大化;

或者,也可以基于交叉熵,對聲紋因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述聲紋因子提取模型對說話人的區(qū)分能力最大化,即聲紋因子提取模型g采用說話人作為區(qū)分學(xué)習(xí)對象,用模型預(yù)結(jié)果和實際說話人標(biāo)記的交叉熵作為訓(xùn)練的目標(biāo)函數(shù)。

可以理解的是,所述內(nèi)容因子提取模型是基于深度神經(jīng)網(wǎng)絡(luò)和使內(nèi)容因子提取模型對音素的區(qū)分能力最大化準(zhǔn)則來訓(xùn)練實現(xiàn)的,使內(nèi)容因子提取模型對音素的區(qū)分能力最大化準(zhǔn)則可以有多種,舉例來說,可以基于fisher準(zhǔn)則,對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化;

或者,也可以基于交叉熵,對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化,即內(nèi)容因子提取模型f可采用音素作為區(qū)分學(xué)習(xí)的對象,用模型預(yù)結(jié)果和實際音素標(biāo)記的交叉熵作為訓(xùn)練的目標(biāo)函數(shù)。

103、基于所提取的內(nèi)容因子v(t)和聲紋因子s(t),訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將聲紋因子s(t)重構(gòu)成聲紋譜s(t)的聲紋譜重構(gòu)模型。

可以理解的是,所述聲紋譜重構(gòu)模型可用函數(shù)g來表示,所述聲紋譜重構(gòu)模型是基于深度神經(jīng)網(wǎng)絡(luò)來訓(xùn)練實現(xiàn)的,所述聲紋譜重構(gòu)模型為:

s(t)=g(s(t))=g(g(log(x(t))))(3)。

可以理解的是,所述內(nèi)容譜重構(gòu)模型可用函數(shù)f來表示,所述內(nèi)容譜重構(gòu)模型是基于深度神經(jīng)網(wǎng)絡(luò)來訓(xùn)練實現(xiàn)的,所述內(nèi)容譜重構(gòu)模型為:

v(t)=f(v(t))=f(f(log(x(t))))(4)。

需要說明的是,所述步驟103訓(xùn)練時的目標(biāo)是使重構(gòu)后的log域頻譜與重構(gòu)前的原log域頻譜盡可能相近,在訓(xùn)練時可以通過對下述公式(5)進(jìn)行優(yōu)化,進(jìn)而得到優(yōu)化的f和g;

l(f,g)=∑td(v(t)+s(t),log(x(t)))(5)

式中:d為距離度量函數(shù),l為訓(xùn)練目標(biāo)函數(shù)。

在具體應(yīng)用中,d對距離的度量可以采用平方誤差。

104、將所述內(nèi)容譜重構(gòu)模型丟棄,將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜。

可以理解的是,所述步驟104是將所述內(nèi)容譜重構(gòu)模型丟棄后用x(t)作為目標(biāo)語音信號,代入上述公式(3),得到所述目標(biāo)語音信號中的聲紋譜s(t)。

本實施例的聲紋譜提取方法,通過獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜,基于所述log域頻譜,利用預(yù)先訓(xùn)練的聲紋因子提取模型提取每一幀樣本語音信號的聲紋因子,以及利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型提取每一幀樣本語音信號的內(nèi)容因子,基于所提取的內(nèi)容因子和聲紋因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將聲紋因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型,將所述內(nèi)容譜重構(gòu)模型丟棄,將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜,由此,能夠?qū)崿F(xiàn)從語音信號中精確的提取聲紋譜,進(jìn)而使后續(xù)可以根據(jù)所提取的聲紋譜清晰觀察到說話人特性,以幫助提高司法鑒定及身份識別等領(lǐng)域中聲紋驗證的準(zhǔn)確度。

圖2示出了本發(fā)明一實施例提供的一種聲紋譜提取裝置的結(jié)構(gòu)示意圖,如圖2所示,本實施例的聲紋譜提取裝置,包括:轉(zhuǎn)換模塊21、第一提取模塊22、第一訓(xùn)練模塊23和第二提取模塊24;其中:

轉(zhuǎn)換模塊21,用于獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜;

第一提取模塊22,用于基于所述log域頻譜,利用預(yù)先訓(xùn)練的聲紋因子提取模型,提取每一幀樣本語音信號的聲紋因子,以及利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子;

第一訓(xùn)練模塊23,用于基于所提取的內(nèi)容因子和聲紋因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將聲紋因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型;

第二提取模塊24,用于將所述內(nèi)容譜重構(gòu)模型丟棄,將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜。

在具體應(yīng)用中,舉例來說,所述轉(zhuǎn)換模塊21可以將所述樣本語音信號x(t)進(jìn)行傅立葉變換,獲得所述樣本語音信號的log域頻譜log(x(t))。

在具體應(yīng)用中,所述聲紋因子提取模型可用函數(shù)g來表示,所述第一提取模塊22可通過聲紋因子提取模型,提取每一幀樣本語音信號的聲紋因子s(t),所述聲紋因子提取模型為:

s(t)=g(log(x(t)))(1)。

在具體應(yīng)用中,所述內(nèi)容因子提取模型可用函數(shù)f來表示,所述第一提取模塊22可通過內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子v(t),所述內(nèi)容因子提取模型為:

v(t)=f(log(x(t)))(2)。

在具體應(yīng)用中,本實施例所述裝置還可以包括圖中未示出的:

第二訓(xùn)練模塊,用于對聲紋因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述聲紋因子提取模型對說話人的區(qū)分能力最大化,以及對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化。

可以理解的是,所述聲紋因子提取模型是基于深度神經(jīng)網(wǎng)絡(luò)和使聲紋因子提取模型對說話人的區(qū)分能力最大化準(zhǔn)則來訓(xùn)練實現(xiàn)的,其中,使聲紋因子提取模型對說話人的區(qū)分能力最大化準(zhǔn)則可以有多種,舉例來說,所述第二訓(xùn)練模塊可以基于fisher準(zhǔn)則,對聲紋因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述聲紋因子提取模型對說話人的區(qū)分能力最大化;

或者,所述第二訓(xùn)練模塊也可以基于交叉熵,對聲紋因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述聲紋因子提取模型對說話人的區(qū)分能力最大化,即聲紋因子提取模型g采用說話人作為區(qū)分學(xué)習(xí)對象,用模型預(yù)結(jié)果和實際說話人標(biāo)記的交叉熵作為訓(xùn)練的目標(biāo)函數(shù)。

可以理解的是,所述內(nèi)容因子提取模型是基于深度神經(jīng)網(wǎng)絡(luò)和使內(nèi)容因子提取模型對音素的區(qū)分能力最大化準(zhǔn)則來訓(xùn)練實現(xiàn)的,使內(nèi)容因子提取模型對音素的區(qū)分能力最大化準(zhǔn)則可以有多種,舉例來說,所述第二訓(xùn)練模塊可以基于fisher準(zhǔn)則,對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化;

或者,所述第二訓(xùn)練模塊也可以基于交叉熵,對內(nèi)容因子提取模型進(jìn)行預(yù)先訓(xùn)練,以使所述內(nèi)容因子提取模型對音素的區(qū)分能力最大化,即內(nèi)容因子提取模型f可采用音素作為區(qū)分學(xué)習(xí)的對象,用模型預(yù)結(jié)果和實際音素標(biāo)記的交叉熵作為訓(xùn)練的目標(biāo)函數(shù)。

可以理解的是,本實施例所述聲紋譜重構(gòu)模型可用函數(shù)g來表示,所述聲紋譜重構(gòu)模型是基于深度神經(jīng)網(wǎng)絡(luò)來訓(xùn)練實現(xiàn)的,所述聲紋譜重構(gòu)模型為:

s(t)=g(s(t))=g(g(log(x(t))))(3)。

可以理解的是,所述內(nèi)容譜重構(gòu)模型可用函數(shù)f來表示,所述內(nèi)容譜重構(gòu)模型是基于深度神經(jīng)網(wǎng)絡(luò)來訓(xùn)練實現(xiàn)的,所述內(nèi)容譜重構(gòu)模型為:

v(t)=f(v(t))=f(f(log(x(t))))(4)。

需要說明的是,所述第一訓(xùn)練模塊22訓(xùn)練時的目標(biāo)是使重構(gòu)后的log域頻譜與重構(gòu)前的原log域頻譜盡可能相近,在訓(xùn)練時可以通過對下述公式(5)進(jìn)行優(yōu)化,進(jìn)而得到優(yōu)化的f和g;

l(f,g)=∑td(v(t)+s(t),log(x(t)))(5)

式中:d為距離度量函數(shù),l為訓(xùn)練目標(biāo)函數(shù)。

在具體應(yīng)用中,d對距離的度量可以采用平方誤差。

可以理解的是,所述第二提取模塊24是將所述內(nèi)容譜重構(gòu)模型丟棄后用x(t)作為目標(biāo)語音信號,代入上述公式(2),得到所述目標(biāo)語音信號中的聲紋譜s(t)。

本實施例的聲紋譜提取裝置,通過轉(zhuǎn)換模塊獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜,第一提取模塊基于所述log域頻譜,利用預(yù)先訓(xùn)練的聲紋因子提取模型提取每一幀樣本語音信號的聲紋因子,利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型提取每一幀樣本語音信號的內(nèi)容因子,第一訓(xùn)練模塊基于所提取的內(nèi)容因子和聲紋因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將聲紋因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型,第二提取模塊將所述內(nèi)容譜重構(gòu)模型丟棄,將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜,由此,能夠?qū)崿F(xiàn)從語音信號中精確的提取聲紋譜,進(jìn)而使后續(xù)可以根據(jù)所提取的聲紋譜清晰觀察到說話人特性,以幫助提高司法鑒定及身份識別等領(lǐng)域中聲紋驗證的準(zhǔn)確度。

本實施例的聲紋譜提取裝置,可以用于執(zhí)行前述方法實施例的技術(shù)方案,其實現(xiàn)原理和技術(shù)效果類似,此處不再贅述。

圖3示出了本發(fā)明實施例提供的一種電子設(shè)備的實體結(jié)構(gòu)示意圖,如圖3所示,該電子設(shè)備可以包括:處理器11、存儲器12、總線13及存儲在存儲器12上并可在處理器11上運行的計算機(jī)程序;

其中,所述處理器11,存儲器12通過所述總線13完成相互間的通信;

所述處理器11執(zhí)行所述計算機(jī)程序時實現(xiàn)上述各方法實施例所提供的方法,例如包括:獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜;基于所述log域頻譜,利用預(yù)先訓(xùn)練的聲紋因子提取模型,提取每一幀樣本語音信號的聲紋因子,以及利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子;基于所提取的內(nèi)容因子和聲紋因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將聲紋因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型;將所述內(nèi)容譜重構(gòu)模型丟棄,將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜。

本發(fā)明實施例提供一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述各方法實施例所提供的方法,例如包括:獲取樣本語音信號,將所述樣本語音信號轉(zhuǎn)換成log域頻譜;基于所述log域頻譜,利用預(yù)先訓(xùn)練的聲紋因子提取模型,提取每一幀樣本語音信號的聲紋因子,以及利用預(yù)先訓(xùn)練的內(nèi)容因子提取模型,提取每一幀樣本語音信號的內(nèi)容因子;基于所提取的內(nèi)容因子和聲紋因子,訓(xùn)練得到用于將內(nèi)容因子重構(gòu)成內(nèi)容譜的內(nèi)容譜重構(gòu)模型和用于將聲紋因子重構(gòu)成聲紋譜的聲紋譜重構(gòu)模型;將所述內(nèi)容譜重構(gòu)模型丟棄,將目標(biāo)語音信號輸入所述聲紋譜重構(gòu)模型,獲得所述目標(biāo)語音信號中的聲紋譜。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、裝置、或計算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學(xué)存儲器等)上實施的計算機(jī)程序產(chǎn)品的形式。

本申請是參照根據(jù)本申請實施例的方法、裝置、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置/系統(tǒng)。

這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。術(shù)語“上”、“下”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通。對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。

本發(fā)明的說明書中,說明了大量具體細(xì)節(jié)。然而能夠理解的是,本發(fā)明的實施例可以在沒有這些具體細(xì)節(jié)的情況下實踐。在一些實例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。類似地,應(yīng)當(dāng)理解,為了精簡本發(fā)明公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋呈反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。本發(fā)明并不局限于任何單一的方面,也不局限于任何單一的實施例,也不局限于這些方面和/或?qū)嵤├娜我饨M合和/或置換。而且,可以單獨使用本發(fā)明的每個方面和/或?qū)嵤├蛘吲c一個或更多其他方面和/或其實施例結(jié)合使用。

最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1