亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音信息處理方法、裝置、終端及存儲介質(zhì)與流程

文檔序號:11776312閱讀:227來源:國知局
語音信息處理方法、裝置、終端及存儲介質(zhì)與流程

本發(fā)明實(shí)施例涉及計(jì)算機(jī)技術(shù),尤其涉及一種語音信息處理方法、裝置、終端及存儲介質(zhì)。



背景技術(shù):

聲紋識別作為生物識別技術(shù)的一種,其應(yīng)用范圍越來越廣泛,被大量應(yīng)用在終端設(shè)備中。其中,聲紋指可通過電學(xué)儀器顯示的攜帶語言信息的聲波頻譜,不同的用戶講話時對應(yīng)的聲波頻譜存在差異性,故可通過聲紋識別出唯一的用戶。

現(xiàn)有技術(shù)中,聲紋識別方式存在缺陷,需要改進(jìn)。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提供了一種語音信息處理方法、裝置、終端及存儲介質(zhì),提高了聲紋識別的準(zhǔn)確性,簡化了聲紋識別流程,提高了終端設(shè)備的運(yùn)行效率,降低了終端設(shè)備的能源消耗。

第一方面,本發(fā)明實(shí)施例提供了一種語音信息處理方法,包括:

接收用戶發(fā)出的語音信息,所述語音信息基于無序文本語言交互方式獲得;

依據(jù)所述語音信息確定對應(yīng)的頻域特征圖譜,對所述頻域特征圖譜進(jìn)行信號處理得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征;

基于ivector算法和帶殘差處理的深度卷積神經(jīng)網(wǎng)絡(luò)算法對所述第一聲學(xué)特征進(jìn)行特征提取得到第二聲學(xué)特征,將所述第二聲學(xué)特征轉(zhuǎn)化為和所述用戶對應(yīng)的聲紋模型,并將所述聲紋模型儲存在聲紋模型數(shù)據(jù)庫中。

第二方面,本發(fā)明實(shí)施例還提供了一種聲紋識別裝置,包括:

接收模塊,用于接收用戶發(fā)出的語音信息,所述語音信息基于無序文本語言交互方式獲得;

第一聲學(xué)特征確定模塊,依據(jù)所述語音信息確定對應(yīng)的頻域特征圖譜,對所述頻域特征圖譜進(jìn)行信號處理得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征;

第二聲學(xué)特征確定模塊,用于基于ivector算法和帶殘差處理的深度卷積神經(jīng)網(wǎng)絡(luò)算法對所述第一聲學(xué)特征進(jìn)行特征提取得到第二聲學(xué)特征;

聲紋模型確定模塊,用于將所述第二聲學(xué)特征轉(zhuǎn)化為和所述用戶對應(yīng)的聲紋模型,并將所述聲紋模型儲存在聲紋模型數(shù)據(jù)庫中。

第三方面,本發(fā)明實(shí)施例還提供了一種終端,所述終端包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實(shí)現(xiàn)前述語音信息處理方法。

第四方面,本發(fā)明實(shí)施例還提供了一種包含計(jì)算機(jī)可執(zhí)行指令的存儲介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令在由計(jì)算機(jī)處理器執(zhí)行時用于執(zhí)行一種語音信息處理方法,該方法包括:

接收用戶發(fā)出的語音信息,所述語音信息基于無序文本語言交互方式獲得;

依據(jù)所述語音信息確定對應(yīng)的頻域特征圖譜,對所述頻域特征圖譜進(jìn)行信號處理得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征;

基于ivector算法和帶殘差處理的深度卷積神經(jīng)網(wǎng)絡(luò)算法對所述第一聲學(xué)特征進(jìn)行特征提取得到第二聲學(xué)特征,將所述第二聲學(xué)特征轉(zhuǎn)化為和所述用戶對應(yīng)的聲紋模型,并將所述聲紋模型儲存在聲紋模型數(shù)據(jù)庫中。

本發(fā)明實(shí)施例提供的技術(shù)方案,通過接收用戶發(fā)出的語音信息,所述語音信息基于無序文本語言交互方式獲得,依據(jù)所述語音信息確定對應(yīng)的頻域特征圖譜,對所述頻域特征圖譜進(jìn)行信號處理得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征,基于ivector算法和帶殘差處理的深度卷積神經(jīng)網(wǎng)絡(luò)算法對所述第一聲學(xué)特征進(jìn)行特征提取得到第二聲學(xué)特征,將所述第二聲學(xué)特征轉(zhuǎn)化為和所述用戶對應(yīng)的聲紋模型,并將所述聲紋模型儲存在聲紋模型數(shù)據(jù)庫中,提高了聲紋識別的準(zhǔn)確性,簡化了聲紋識別流程,提高了終端設(shè)備的運(yùn)行效率,降低了終端設(shè)備的能源消耗。

附圖說明

通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯:

圖1是本發(fā)明實(shí)施例提供的一種語音信息處理方法的流程圖;

圖2是本發(fā)明實(shí)施例提供的另一種語音信息處理方法的流程圖;

圖3是本發(fā)明實(shí)施例提供的一種語音信息處理方法的交互方式的流程圖;

圖4本發(fā)明實(shí)施例提供的聲紋識別裝置的結(jié)構(gòu)框圖;

圖5是本發(fā)明實(shí)施例提供的一種終端的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。

圖1是本發(fā)明實(shí)施例提供的一種語音信息處理方法的流程圖,本實(shí)施例實(shí)現(xiàn)了對用戶發(fā)出的聲音進(jìn)行高效、合理的處理,該方法可由終端設(shè)備如手機(jī)、平板電腦等智能終端來執(zhí)行,如圖1所示,本實(shí)施例提供的具體方案如下:

s101、接收用戶發(fā)出的語音信息,所述語音信息基于無序文本語言交互方式獲得。

無序文本為非固定文本,現(xiàn)有技術(shù)中采用基于有序、固定文本的方式進(jìn)行聲紋信息的注冊。示例性的,當(dāng)用戶開始聲紋注冊時,需要反復(fù)讀一固定的文本內(nèi)容,而基于本方案中的后續(xù)步驟能夠?qū)崿F(xiàn)對無序文本即非固定文本的語音信息的注冊、識別。本方案在人機(jī)交互過程中通過基于無序文本語言交互方式,增加了用戶體驗(yàn)。示例性的,用戶可根據(jù)語音提示,回答如下三句話完成聲紋注冊處理:

a)hi,你好,我還不認(rèn)識你。請問你叫什么名字?

b)你平時有什么愛好嗎?比如小度喜歡唱歌,你呢?

c)你希望小度能為你做哪些事呢?你可以說,幫我定鬧鐘,放音樂等等。

s102、依據(jù)所述語音信息確定對應(yīng)的頻域特征圖譜,對所述頻域特征圖譜進(jìn)行信號處理得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征。

在一個實(shí)施例中,在依據(jù)所述語音信息確定對應(yīng)的頻域特征圖譜之前,還包括:對所述語音信息進(jìn)行噪聲抑制和有效語音檢測處理。示例性的,對輸入的語音信息的數(shù)據(jù)序列(pcm碼流)進(jìn)行預(yù)處理,該預(yù)處理包括噪聲抑制處理以及有效語音檢測處理,以此去除非語音信號和靜默語音信號,并對語音信號進(jìn)行分幀。具體的,輸入語音流采用單聲道、8bit、16khz采樣,以256個采樣點(diǎn)為一個音框單位(幀),以128為音框之間的重迭單位,對輸入語音流進(jìn)行分幀。除此之外,還可以包括對語音信息的預(yù)增強(qiáng)處理,具體如下:

以s1(n)(n:0...n-1)為時域信號,依據(jù)公式

s(n)=s1(n)-a×s1(n-1),其中(0.9<a<1.0)進(jìn)行字節(jié)差分。

其中,對所述頻域特征圖譜進(jìn)行信號處理得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征包括:對所述頻域特征圖譜進(jìn)行信號處理并通過加入時間窗的方式得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征。示例性的,如使用加漢明窗(hammingwindowing)方式,假設(shè)語音信息分幀處理為(m幀共n個節(jié)點(diǎn))s(n),n=0,1,...,n-1,則加漢明窗后為:

s'(n)=s(n)×w(n),其中,0<n<n-1,a可取0.36。再通過傅里葉變換、離散余弦變換以及帶通濾波器濾波得到第一聲學(xué)特征。

s103、基于ivector算法和帶殘差處理的深度卷積神經(jīng)網(wǎng)絡(luò)算法對所述第一聲學(xué)特征進(jìn)行特征提取得到第二聲學(xué)特征,將所述第二聲學(xué)特征轉(zhuǎn)化為和所述用戶對應(yīng)的聲紋模型,并將所述聲紋模型儲存在聲紋模型數(shù)據(jù)庫中。

其中,ivector可表征用戶即說話人的聲學(xué)差異特征,通過ivector算法進(jìn)行ivector的特征提取。具體包括:

依據(jù)s101獲取到的基于無序文本語言交互的訓(xùn)練數(shù)據(jù)為i條得到的對應(yīng)的第一聲學(xué)特征為輸入,其中y={yi|i=1,2,3,...,i},其中yi是取自第i個訓(xùn)練語音片段的d維特征矢量,通過帶殘差處理的深度卷積神經(jīng)網(wǎng)絡(luò)算法建立混合模型,并給定一語音片段yi,利用隨機(jī)超矢量描述并提取得到第二聲學(xué)特征,通過對第二聲學(xué)特征的各個參數(shù)如峰值參數(shù)、波形參數(shù)進(jìn)行記錄得到對應(yīng)用戶的聲紋模型。

本實(shí)施例提供的技術(shù)方案中,通過接收用戶發(fā)出的語音信息,所述語音信息基于無序文本語言交互方式獲得,依據(jù)所述語音信息確定對應(yīng)的頻域特征圖譜,對所述頻域特征圖譜進(jìn)行信號處理得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征,基于ivector算法和帶殘差處理的深度卷積神經(jīng)網(wǎng)絡(luò)算法對所述第一聲學(xué)特征進(jìn)行特征提取得到第二聲學(xué)特征,將所述第二聲學(xué)特征轉(zhuǎn)化為和所述用戶對應(yīng)的聲紋模型,并將所述聲紋模型儲存在聲紋模型數(shù)據(jù)庫中,提高了聲紋識別的準(zhǔn)確性,簡化了聲紋識別流程,提高了終端設(shè)備的運(yùn)行效率,降低了終端設(shè)備的能源消耗。

圖2是本發(fā)明實(shí)施例提供的另一種語音信息處理方法的流程圖,在上述實(shí)施例的基礎(chǔ)上,可選的,在將所述聲紋模型儲存在聲紋模型數(shù)據(jù)庫中之后,還包括:

接收待識別者發(fā)出的待識別語音信息,依據(jù)所述待識別語音信息得到對應(yīng)的待識別聲紋模型,依據(jù)概率信道補(bǔ)償算法確定所述待識別聲紋模型和所述聲紋模型數(shù)據(jù)庫中的聲紋模型之間的分?jǐn)?shù),依據(jù)所述分?jǐn)?shù)的大小將確定出的所述聲紋數(shù)據(jù)庫中的聲紋模型對應(yīng)的用戶匹配為所述待識別者。

由此,實(shí)現(xiàn)了準(zhǔn)確的聲紋識別?;谏鲜鰞?yōu)化,如圖2所示,本實(shí)施例提供的技術(shù)方案具體如下:

s201、接收用戶發(fā)出的語音信息,所述語音信息基于無序文本語言交互方式獲得,對所述語音信息進(jìn)行噪聲抑制和有效語音檢測處理。

s202、對所述頻域特征圖譜進(jìn)行信號處理并通過加入時間窗的方式得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征。

s203、基于ivector算法和帶殘差處理的深度卷積神經(jīng)網(wǎng)絡(luò)算法對所述第一聲學(xué)特征進(jìn)行特征提取得到第二聲學(xué)特征,將所述第二聲學(xué)特征轉(zhuǎn)化為和所述用戶對應(yīng)的聲紋模型,并將所述聲紋模型儲存在聲紋模型數(shù)據(jù)庫中。

s204、接收待識別者發(fā)出的待識別語音信息,依據(jù)所述待識別語音信息得到對應(yīng)的待識別聲紋模型,依據(jù)概率信道補(bǔ)償算法確定所述待識別聲紋模型和所述聲紋模型數(shù)據(jù)庫中的聲紋模型之間的分?jǐn)?shù),依據(jù)所述分?jǐn)?shù)的大小將確定出的所述聲紋數(shù)據(jù)庫中的聲紋模型對應(yīng)的用戶匹配為所述待識別者。

在一個實(shí)施例中,可通過確定待識別聲紋模型的ivector特征與聲紋模型數(shù)據(jù)庫中的聲紋模型的ivector特征之間的差異度進(jìn)行打分,分?jǐn)?shù)越高則差異度越小,將分?jǐn)?shù)最高的聲紋模型和待識別聲紋模型進(jìn)行匹配,以進(jìn)一步對待識別者的身份進(jìn)行確定。具體的,plda(probabilisticlineardiscriminantanalysis,概率信道補(bǔ)償算法)使用過程如下:

構(gòu)造的plda模型參數(shù)為4,分別為數(shù)據(jù)均值miu,空間特征矩陣f和g,噪聲協(xié)方差sigma,模型的訓(xùn)練過程可采用經(jīng)典的em算法迭代求解;

識別測試階段,計(jì)算待識別語音信息和聲紋模型數(shù)據(jù)庫中聲紋模型信息的似然度,可使用對數(shù)似然比得到最終分?jǐn)?shù),如下:

其中,待識別語音和聲紋模型數(shù)據(jù)庫中的記錄的某一條語音來自同一空間的假設(shè)為hs,來自不同空間的假設(shè)為hd,通過計(jì)算對數(shù)似然比即可得到二者相似度的得分。

圖3是本發(fā)明實(shí)施例提供的一種語音信息處理方法的交互方式的流程圖,如圖3所示,

接收用戶發(fā)起的語音交互語句(s301),例如:“hi,小度小度”,此時判斷該發(fā)起的語音交互的用戶是否為新用戶(s302),如果檢測到不是新用戶(識別匹配到該用戶為小明)則發(fā)起語音交互提示(303),如“小明,請問有什么事情嗎?”如果檢測到該用戶為新用戶,則發(fā)起注冊交互模式的第一語句提示(s304),如“hi,你好,我還不認(rèn)識你,請問你叫什么名字?”,判斷是否接收到用戶的語音回饋(s305),如果在預(yù)設(shè)時間內(nèi)如10s內(nèi),未檢測到用戶的語音回饋,則結(jié)束本次對話(s306),如果檢測到用戶回饋語音,如“我是小明”,則記錄回饋語音,發(fā)起注冊交互模式的第二語句提示(s307),如“你平時有什么愛好?”,判斷是否接收到語音回饋(s308),如果否(s306)則結(jié)束本次語音交互,如果是(s310)則記錄回饋語音,發(fā)起注冊交互模式的第三語句提示,如提問“你希望小度幫你做哪些事情呢?”,同樣檢測是否接收到語音回饋(s310),如果否則結(jié)束本次對話(s306),如果是(s311)則接收記錄用戶的回饋語音,如“記住我喜歡的歌曲,每天早上9點(diǎn)叫我起床”,結(jié)束本次對話(s306)。

本實(shí)施例中,通過簡單的基于無文本的方式進(jìn)行語音交互并基于前述實(shí)施例提供的具體的語音處理方法以實(shí)現(xiàn)聲紋注冊,提高了聲紋識別的準(zhǔn)確性,簡化了聲紋識別流程,提高了終端設(shè)備的運(yùn)行效率,降低了終端設(shè)備的能源消耗。

圖4是本發(fā)明實(shí)施例提供的語音處理裝置的結(jié)構(gòu)框圖,所述裝置用于執(zhí)行上述實(shí)施例提供的語音信息處理方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。如圖5所示,所述裝置包括接收模塊401、第一聲學(xué)特征確定模塊402、第二聲學(xué)特征確定模塊403以及聲紋模型確定模塊404。

其中,接收模塊401,用于接收用戶發(fā)出的語音信息,所述語音信息基于無序文本語言交互方式獲得;

第一聲學(xué)特征確定模塊402,依據(jù)所述語音信息確定對應(yīng)的頻域特征圖譜,對所述頻域特征圖譜進(jìn)行信號處理得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征;

第二聲學(xué)特征確定模塊403,用于基于ivector算法和帶殘差處理的深度卷積神經(jīng)網(wǎng)絡(luò)算法對所述第一聲學(xué)特征進(jìn)行特征提取得到第二聲學(xué)特征;

聲紋模型確定模塊404,用于將所述第二聲學(xué)特征轉(zhuǎn)化為和所述用戶對應(yīng)的聲紋模型,并將所述聲紋模型儲存在聲紋模型數(shù)據(jù)庫中。

本發(fā)明實(shí)施例提供的技術(shù)方案,通過接收用戶發(fā)出的語音信息,所述語音信息基于無序文本語言交互方式獲得,依據(jù)所述語音信息確定對應(yīng)的頻域特征圖譜,對所述頻域特征圖譜進(jìn)行信號處理得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征,基于ivector算法和帶殘差處理的深度卷積神經(jīng)網(wǎng)絡(luò)算法對所述第一聲學(xué)特征進(jìn)行特征提取得到第二聲學(xué)特征,將所述第二聲學(xué)特征轉(zhuǎn)化為和所述用戶對應(yīng)的聲紋模型,并將所述聲紋模型儲存在聲紋模型數(shù)據(jù)庫中,提高了聲紋識別的準(zhǔn)確性,簡化了聲紋識別流程,提高了終端設(shè)備的運(yùn)行效率,降低了終端設(shè)備的能源消耗。

在上述技術(shù)方案的基礎(chǔ)上,所述第一聲學(xué)特征確定模塊402具體用于:

對所述語音信息進(jìn)行噪聲抑制和有效語音檢測處理。

在上述技術(shù)方案的基礎(chǔ)上,所述第一聲學(xué)特征確定模塊402具體用于:

對所述頻域特征圖譜進(jìn)行信號處理并通過加入時間窗的方式得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征。

在上述技術(shù)方案的基礎(chǔ)上,還包括:

識別模塊405,用于在將所述聲紋模型儲存在聲紋模型數(shù)據(jù)庫中之后,接收待識別者發(fā)出的待識別語音信息,依據(jù)所述待識別語音信息得到對應(yīng)的待識別聲紋模型,依據(jù)概率信道補(bǔ)償算法確定所述待識別聲紋模型和所述聲紋模型數(shù)據(jù)庫中的聲紋模型之間的分?jǐn)?shù),依據(jù)所述分?jǐn)?shù)的大小將確定出的所述聲紋數(shù)據(jù)庫中的聲紋模型對應(yīng)的用戶匹配為所述待識別者。

圖5是本發(fā)明實(shí)施例提供的一種終端的結(jié)構(gòu)示意圖。圖5示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性終端12的框圖。圖5顯示的終端12僅僅是一個示例,不應(yīng)對本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。

如圖5所示,終端12以通用計(jì)算設(shè)備的形式表現(xiàn)。終端12的組件可以包括但不限于:一個或者多個處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。

總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(vesa)局域總線以及外圍組件互連(pci)總線。

終端12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被終端12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。

系統(tǒng)存儲器28可以包括易失性存儲器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲器(ram)30和/或高速緩存存儲器32。終端12可以進(jìn)一步包括其它可移動/不可移動的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(通常稱為“硬盤驅(qū)動器”)。其可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。

具有一組(至少一個)程序模塊42的程序/實(shí)用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括但不限于操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。

終端12也可以與一個或多個外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個或者多個使得用戶能與該終端12交互的設(shè)備通信,和/或與使得該終端12能與一個或多個其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進(jìn)行。并且,終端12還可以通過網(wǎng)絡(luò)適配器20與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與終端12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合終端12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、raid系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。

處理單元16通過運(yùn)行存儲在系統(tǒng)存儲器28中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的語音信息處理方法。

本發(fā)明實(shí)施例還提供了一種包含計(jì)算機(jī)可執(zhí)行指令的存儲介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令在由計(jì)算機(jī)處理器執(zhí)行時用于執(zhí)行一種語音信息處理方法,該方法包括:

接收用戶發(fā)出的語音信息,所述語音信息基于無序文本語言交互方式獲得;

依據(jù)所述語音信息確定對應(yīng)的頻域特征圖譜,對所述頻域特征圖譜進(jìn)行信號處理得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征;

基于ivector算法和帶殘差處理的深度卷積神經(jīng)網(wǎng)絡(luò)算法對所述第一聲學(xué)特征進(jìn)行特征提取得到第二聲學(xué)特征,將所述第二聲學(xué)特征轉(zhuǎn)化為和所述用戶對應(yīng)的聲紋模型,并將所述聲紋模型儲存在聲紋模型數(shù)據(jù)庫中。

可選的,在依據(jù)所述語音信息確定對應(yīng)的頻域特征圖譜之前,還包括:

對所述語音信息進(jìn)行噪聲抑制和有效語音檢測處理。

可選的,對所述頻域特征圖譜進(jìn)行信號處理得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征包括:

對所述頻域特征圖譜進(jìn)行信號處理并通過加入時間窗的方式得到和所述頻域特征圖譜對應(yīng)的基于幀序列的第一聲學(xué)特征。

可選的,在將所述聲紋模型儲存在聲紋模型數(shù)據(jù)庫中之后,還包括:

接收待識別者發(fā)出的待識別語音信息,依據(jù)所述待識別語音信息得到對應(yīng)的待識別聲紋模型,依據(jù)概率信道補(bǔ)償算法確定所述待識別聲紋模型和所述聲紋模型數(shù)據(jù)庫中的聲紋模型之間的分?jǐn)?shù),依據(jù)所述分?jǐn)?shù)的大小將確定出的所述聲紋數(shù)據(jù)庫中的聲紋模型對應(yīng)的用戶匹配為所述待識別者。

本發(fā)明實(shí)施例的計(jì)算機(jī)存儲介質(zhì),可以采用一個或多個計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號介質(zhì)或者計(jì)算機(jī)可讀存儲介質(zhì)。計(jì)算機(jī)可讀存儲介質(zhì)例如可以是但不限于電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件路徑中,計(jì)算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。

計(jì)算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計(jì)算機(jī)可讀的信號介質(zhì)還可以是計(jì)算機(jī)可讀存儲介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。

計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于無線、電線、光纜、rf等等,或者上述的任意合適的組合。

可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如”c”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或終端上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。

注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實(shí)施例,對本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1