亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于仿生模式識別的聲紋識別方法

文檔序號:2830867閱讀:402來源:國知局
專利名稱:一種基于仿生模式識別的聲紋識別方法
技術(shù)領(lǐng)域
本發(fā)明屬于生物識別技術(shù)領(lǐng)域,特別是指一種基于仿生模式識別 的聲紋識別方法。
背景技術(shù)
說話人識別和指紋,虹膜,人臉識別等一樣,屬于生物識別的一 種,被認(rèn)為是最自然的生物特征識別身份鑒定方式,又稱"聲紋"識 別。隨著個人電腦和個人通信設(shè)備的普及,與其他生物特征識別方式 相比,說話人識別具有采集設(shè)備簡單,系統(tǒng)價格低廉,容易被人們接 受等優(yōu)點。因而可以被廣泛應(yīng)用到電話監(jiān)聽(公安,軍事),交易認(rèn)證 (電話銀行,信用卡支付),出入控制(銀行,保密機(jī)構(gòu)),語音數(shù)據(jù)
管理(語音檢索,信息獲取等),個性化設(shè)置(手機(jī),PDA等)。
說話人識別的基本過程為語音采集,特征提取,分類模型。其關(guān) 鍵問題在于分類模型,其主流算法大致可以分為三類,模板匹配法(動 態(tài)時間規(guī)整(DTW),矢量量化(VQ)),概率統(tǒng)計法(隱馬爾可夫模 型(HMM),高斯混合模型(GMM)),辨識分類器算法(人工神經(jīng)網(wǎng) 絡(luò)(ANN),支撐向量機(jī)(SVM))。
目前廣泛被使用的是矢量量化和高斯混合模型(GMM)方法。其 機(jī)理是追求統(tǒng)計上的最優(yōu), 一般情況下,訓(xùn)練語音越長,取得的效果 越好,在短語音的情況下,效果不盡人意。同時訓(xùn)練語音長會造成訓(xùn) 練時間長,系統(tǒng)資源要求高,從而降低其實用性。
同時以上方法共同存在的缺點是會丟失掉語音的連續(xù)性信息。

發(fā)明內(nèi)容
(一)要解決的技術(shù)問題 有鑒于此,本發(fā)明的主要目的在于提出一種基于仿生模式識別的聲紋識別方法,使計算機(jī)可以"像人" 一樣記住說話人的特征,以準(zhǔn) 確迅速識別出說話人。(二)技術(shù)方案為達(dá)到上述目的,本發(fā)明提供了一種基于仿生模式識別的聲紋識 別方法,該方法包括構(gòu)建聲紋識別訓(xùn)練集,該聲紋識別訓(xùn)練集包含有多個說話人特征 子空間,每個說話人特征子空間對應(yīng)于一個人;將待測試語音進(jìn)行特征變換,得到該待測試語音的時序點集,該 時序點集包含有多個時序點;計算該時序點集中各時序點到所述每個說話人特征子空間的距 離,并計算該時序點集中各時序點到所述每個說話人特征子空間距離的平均值;確定平均值最小的說話人特征子空間所對應(yīng)的人為發(fā)出測試語音 的人。優(yōu)選地,所述構(gòu)建聲紋識別訓(xùn)練集的步驟包括針對每一個人,將該人的一段語音以一定的窗長用窗移的方式取出,成為高維空間點;提取該高維空間點的特征系數(shù),得到語音的時序點集,根據(jù)得到 的時序點集構(gòu)建說話人特征子空間;將多個說話人特征子空間組合在一起,形成聲紋識別訓(xùn)練集。優(yōu)選地,所述高維空間點的形成過程包括將采入的語音按照 0.02ms —幀,0.01ms幀移分割成小幀,按照時間先后順序?qū)π幪枺?求每幀0.64kHz至2.8kHz之間的頻譜能量,判斷每幀是否存在語音, 對存在語音的幀作美倒譜MFCC變換,留n個系數(shù),n為自然數(shù)。優(yōu)選地,所述n等于12,所述高維空間點的形成過程具體包括 將語音分割的窗長為210ms,窗移為20ms,窗長內(nèi)不存在無語音段; 對窗口內(nèi)的語音以20ms—幀,10ms幀移作美倒譜變換,每幀取12個 系數(shù),最后每個窗口的語音變換成12x20=240維的一個點。優(yōu)選地,所述提取該高維空間點的特征系數(shù),得到語音的時序點5在語音的幀系數(shù),按照序號順序 組合得到nxm個系數(shù),即nxm維的一個點;依據(jù)時間順序,整段語音 可以得到一個時序點集X(Xi,、,、,…,xJ , m為自然數(shù)。 優(yōu)選地,所述m等于20; nxm等于240。優(yōu)選地,所述根據(jù)得到的時序點集構(gòu)建說話人特征子空間的步驟 包括按照時序點的編號,相鄰編號的三個點分別作為三角形的頂點,時序點集就被串成一個有三角形構(gòu)成的帶狀子空間,該帶狀子空間即 為說話人特征子空間。優(yōu)選地,所述將待測試語音進(jìn)行特征變換,得到該待測試語音的時序點集的步驟具體包括將相鄰m個序號內(nèi)都存在語音的幀系數(shù), 按照序號順序組合得到nxm個系數(shù),即nxm維的一個點;依據(jù)時間順 序,整段語音可以得到一個時序點集X(x,,、,^,…,xJ , m和n為自然數(shù)。(三)有益效果1、 本發(fā)明提供的這種基于仿生模式識別的聲紋識別方法,具有訓(xùn) 練時間短,識別速度快,識別率高等特點。2、 本發(fā)明提供的這種基于仿生模式識別的聲紋識別方法,與傳統(tǒng) 方法相比,不是采用統(tǒng)計上的最優(yōu),而是以客觀世界規(guī)律的合理性作 為根本,更充分的利用了語音的連續(xù)性信息。3、 本發(fā)明提供的這種基于仿生模式識別的聲紋識別方法,在文本 有關(guān)的說話人識別中取得了優(yōu)異的效果,同時也可用于文本無關(guān)的說 話人識別。


圖1為本發(fā)明提供的基于仿生模式識別的聲紋識別方法流程圖; 圖2為本發(fā)明提供的基于仿生模式識別的聲紋識別的系統(tǒng)結(jié)構(gòu)示 意圖;圖3為本發(fā)明提供的語音特征提取的示意圖;圖4為本發(fā)明提供的高維空間三角帶狀子空間的構(gòu)建示意圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具 體實施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。本發(fā)明的核心內(nèi)容是利用仿生模式識別的認(rèn)識思想和高維空間 點分布的分析方法,將說話人的連續(xù)語音經(jīng)過特征變換后,描述成高 維空間三角帶狀的子空間,通過計算說話人語音到各個說話人子空間 的距離判斷說話人是誰。識別關(guān)鍵就是如何提取特征,之后如何區(qū)分特征。這個特征希望 具有代表性,更充分的表達(dá)語音所含有的說話人差異信息。如果能很 好的把這些特征描述出來,自然就可以比較這些特征,得到誰更相像 的結(jié)論。客觀世界的一類事物區(qū)別于另一類事物是因為其具有典型區(qū)別于 其他事物的特征,將這些特征映射成高維空間點,然后用一定的子空 間來描述這些特征,以達(dá)到認(rèn)識這些特征,從而認(rèn)識這個事物的目的。客觀世界的一個事物,如一張圖片, 一段語音都可以作為高維空 間的一個點來描述,用高維空間的幾何分析方法,分析這些點的分布 規(guī)律,找到一個合適的描述方法,即尋找這些點的特征子空間。另外,分析語音的特點,其具有短時平穩(wěn)特征,即語音在10ms 30ms這樣長度的時間段內(nèi),語音信號是平穩(wěn)信號。同時語音作 為時序信號,語音受前面的語音影響,同時影響后面的語音。用三角 帶作為特征子空間的描述可以使流形簡化,同時兼顧連續(xù)性信息。如圖1所示,圖1為本發(fā)明提供的基于仿生模式識別的聲紋識別 方法流程圖,該方法包括以下步驟步驟101:構(gòu)建聲紋識別訓(xùn)練集,該聲紋識別訓(xùn)練集包含有多個說話人特征子空間,每個說話人特征子空間對應(yīng)于一個人;步驟102:將待測試語音進(jìn)行特征變換,得到該待測試語音的時序 點集,該時序點集包含有多個時序點;步驟103:計算該時序點集中各時序點到所述每個說話人特征子空 間的距離,并計算該時序點集中各時序點到所述每個說話人特征子空 間距離的平均值;步驟104:確定平均值最小的說話人特征子空間所對應(yīng)的人為發(fā)出 測試語音的人。上述步驟101中所述構(gòu)建聲紋識別訓(xùn)練集的步驟包括1、 針對每一個人,將該人的一段語音以一定的窗長用窗移的方式 取出,成為高維空間點;2、 提取該高維空間點的特征系數(shù),得到語音的時序點集,根據(jù)得 到的時序點集構(gòu)建說話人特征子空間;3、 將多個說話人特征子空間組合在一起,形成聲紋識別訓(xùn)練集。 上述步驟1中所述高維空間點的形成過程包括將采入的語音按照0.02ms—幀,O.Olms幀移分割成小幀,按照時間先后順序?qū)π?號,求每幀0.64kHz至2.8kHz之間的頻譜能量,判斷每幀是否存在語 音,對存在語音的幀作美倒譜MFCC變換,留n個系數(shù),n為自然數(shù)。當(dāng)n等于12時,上述步驟1中所述高維空間點的形成過程具體包 括將語音分割的窗長為210ms,窗移為20ms,窗長內(nèi)不存在無語音 段;對窗口內(nèi)的語音以20ms—幀,10ms幀移作美倒譜變換,每幀取 12個系數(shù),最后每個窗口的語音變換成12x20=240維的一個點。上述步驟2中所述提取該高維空間點的特征系數(shù),得到語音的時 序點集具體包括將相鄰m個序號內(nèi)都存在語音的幀系數(shù),按照序號 順序組合得到nxm個系數(shù),即nxm維的一個點;依據(jù)時間順序,整段 語音可以得到一個時序點集X^,x,,^,…,xJ , m為自然數(shù)。 一般情況下, m等于20, nxm等于240。上述步驟2中所述根據(jù)得到的時序點集構(gòu)建說話人特征子空間的步驟包括按照時序點的編號,相鄰編號的三個點分別作為三角形的 頂點,時序點集就被串成一個有三角形構(gòu)成的帶狀子空間,該帶狀子 空間即為說話人特征子空間。上述步驟102中所述將待測試語音進(jìn)行特征變換,得到該待測試 語音的時序點集的步驟具體包括將相鄰m個序號內(nèi)都存在語音的幀 系數(shù),按照序號順序組合得到nxm個系數(shù),即nxm維的一個點;依據(jù) 時間順序,整段語音可以得到一個時序點集X(x,,x:,x3,…,xJ, m和n為 自然數(shù)。上述步驟104中,將高維空間(即說話人特征子空間)中的一個 點到三角帶狀子空間的距離,定義為一個點到三角帶上所有三角的最 短距離?;趫D1所示的基于仿生模式識別的聲紋識別方法流程圖,圖2 進(jìn)一步示出了基于仿生模式識別的聲紋識別的系統(tǒng)結(jié)構(gòu)示意圖。以下結(jié)合具體的實施例,對本發(fā)明提供的這種基于仿生模式識別 的聲紋識別進(jìn)一步詳細(xì)說明。步驟1、端點檢測。如圖3所示,將采入的語音按照0.02ms —幀, 0.01ms幀移分割成小幀,按照時間先后順序?qū)π幪?,求每?0.64kHz 2.8kHz之間的頻譜能量,判斷每幀是否存在語音。對存在語 音的幀作美倒譜(MFCC)變換,留12個系數(shù)。步驟2、特征變換。將相鄰20個序號內(nèi)都存在語音的幀系數(shù),按 照序號順序組合得到12*20=240個系數(shù),即240維的一個點。依據(jù)時 間順序,整段語音可以得到一個時序點集x"',x"x"…,xJ 。每個說 話人的語音都可以得到這樣一個時序點集。步驟3、構(gòu)建特征子空間。由圖4所示,按照時序點的編號,相鄰 編號的三個點分別作為三角形的頂點,時序點集就被串成一個有三角 形構(gòu)成的帶狀子空間。每個說話人都擁有一個這樣的特征子空間。步驟4、測試的說話人按照2所述方式進(jìn)行特征變換,也得到一個 時序點集。求取各個測試點到每個說話人特征子空間的距離的均值。 擁有最小均值的說話人即測試說話人。實驗證明,本方法具有訓(xùn)練時間短,識別速度快,識別率高等特 點。與傳統(tǒng)方法相比,本方法不是采用統(tǒng)計上的最優(yōu),而是客觀世界 規(guī)律的合理性作為根本,更充分的利用了語音的連續(xù)性信息。本方法 在文本有關(guān)的說話人識別中取得了優(yōu)異的效果,同時也可用于文本無 關(guān)的說話人識別。以上所述的具體實施例,對本發(fā)明的目的、技術(shù)方案和有益效果 進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體 實施例而己,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍 之內(nèi)。
權(quán)利要求
1、一種基于仿生模式識別的聲紋識別方法,其特征在于,該方法包括構(gòu)建聲紋識別訓(xùn)練集,該聲紋識別訓(xùn)練集包含有多個說話人特征子空間,每個說話人特征子空間對應(yīng)于一個人;將待測試語音進(jìn)行特征變換,得到該待測試語音的時序點集,該時序點集包含有多個時序點;計算該時序點集中各時序點到所述每個說話人特征子空間的距離,并計算該時序點集中各時序點到所述每個說話人特征子空間距離的平均值;確定平均值最小的說話人特征子空間所對應(yīng)的人為發(fā)出測試語音的人。
2、 根據(jù)權(quán)利要求l所述的基于仿生模式識別的聲紋識別方法,其 特征在于,所述構(gòu)建聲紋識別訓(xùn)練集的步驟包括-針對每一個人,將該人的一段語音以一定的窗長用窗移的方式取 出,成為高維空間點;提取該高維空間點的特征系數(shù),得到語音的時序點集,根據(jù)得到 的時序點集構(gòu)建說話人特征子空間;將多個說話人特征子空間組合在一起,形成聲紋識別訓(xùn)練集。
3、 根據(jù)權(quán)利要求2所述的基于仿生模式識別的聲紋識別方法,其 特征在于,所述高維空間點的形成過程包括將采入的語音按照0.02ms—幀,O.Olms幀移分割成小幀,按照時 間先后順序?qū)π幪枺竺繋?.64kHz至2.8kHz之間的頻譜能量, 判斷每幀是否存在語音,對存在語音的幀作美倒譜MFCC變換,留n 個系數(shù),n為自然數(shù)。
4、 根據(jù)權(quán)利要求3所述的基于仿生模式識別的聲紋識別方法,其 特征在于,所述n等于12,所述高維空間點的形成過程具體包括將語音分割的窗長為210ms,窗移為20ms,窗長內(nèi)不存在無語音 段;對窗口內(nèi)的語音以20ms —幀,10ms幀移作美倒譜變換,每幀取12個系數(shù),最后每個窗口的語音變換成12x20=240維的一個點。
5、 根據(jù)權(quán)利要求3所述的基于仿生模式識別的聲紋識別方法,其 特征在于,所述提取該高維空間點的特征系數(shù),得到語音的時序點集具體包括將相鄰m個序號內(nèi)都存在語音的幀系數(shù),按照序號順序組合得到 nxm個系數(shù),即nxm維的一個點;依據(jù)時間順序,整段語音可以得到 一個時序點集X^,^,^,…,xJ , m為自然數(shù)。
6、 根據(jù)權(quán)利要求5所述的基于仿生模式識別的聲紋識別方法,其 特征在于,所述m等于20; nxm等于240。
7、 根據(jù)權(quán)利要求2所述的基于仿生模式識別的聲紋識別方法,其 特征在于,所述根據(jù)得到的時序點集構(gòu)建說話人特征子空間的步驟包 括按照時序點的編號,相鄰編號的三個點分別作為三角形的頂點, 時序點集就被串成一個有三角形構(gòu)成的帶狀子空間,該帶狀子空間即 為說話人特征子空間。
8、 根據(jù)權(quán)利要求l所述的基于仿生模式識別的聲紋識別方法,其 特征在于,所述將待測試語音進(jìn)行特征變換,得到該待測試語音的時 序點集的步驟具體包括:將相鄰m個序號內(nèi)都存在語音的幀系數(shù),按照序號順序組合得到 nxm個系數(shù),即nxm維的一個點;依據(jù)時間順序,整段語音可以得到 一個時序點集X^,X2,^,…,)U , m和n為自然數(shù)。
全文摘要
本發(fā)明公開了一種基于仿生模式識別的聲紋識別方法,該方法包括構(gòu)建聲紋識別訓(xùn)練集,該聲紋識別訓(xùn)練集包含有多個說話人特征子空間,每個說話人特征子空間對應(yīng)于一個人;將待測試語音進(jìn)行特征變換,得到該待測試語音的時序點集,該時序點集包含有多個時序點;計算該時序點集中各時序點到所述每個說話人特征子空間的距離,并計算該時序點集中各時序點到所述每個說話人特征子空間距離的平均值;確定平均值最小的說話人特征子空間所對應(yīng)的人為發(fā)出測試語音的人。本發(fā)明是以客觀世界規(guī)律的合理性作為根本,更充分的利用了語音的連續(xù)性信息,在文本有關(guān)的說話人識別中取得了優(yōu)異的效果,同時也可用于文本無關(guān)的說話人識別。
文檔編號G10L17/00GK101540170SQ200810102199
公開日2009年9月23日 申請日期2008年3月19日 優(yōu)先權(quán)日2008年3月19日
發(fā)明者吳麗麗, 王守覺 申請人:中國科學(xué)院半導(dǎo)體研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1