專利名稱::采用基頻成分相位差和發(fā)聲時(shí)參量的聲紋鑒定方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及人身個(gè)體認(rèn)定中新的生理心理學(xué)參量及其測(cè)定方法。具體地說(shuō),是一種聲紋鑒定中的新參量和新方法。自從1941年美國(guó)國(guó)防部對(duì)貝爾實(shí)驗(yàn)室下達(dá)關(guān)于分析德軍最高統(tǒng)帥部會(huì)議錄音材料以確定話者姓名的研究任務(wù)后,60多年來(lái)世界各國(guó)已研究20多種聲學(xué)參量的說(shuō)話者識(shí)別。特別是60-70年代以來(lái)采用的聲紋鑒定技術(shù),已在各國(guó)司法、保安等許多領(lǐng)域中運(yùn)用,但這項(xiàng)技術(shù)仍時(shí)有差錯(cuò)。與美國(guó)專利6,029,124,“Sequential,NonparametricSpeechRecognitionandSpeakerIdentification”(Gillick,etal.,February22,2000)相比,這項(xiàng)專利采用傳統(tǒng)的特征參量。下表反映了“特征參量組合的性能比較”。表特征參量組合的性能比較從上表不難看出特征參量組合的優(yōu)越性;但同時(shí)可見,每項(xiàng)參數(shù)仍有約10%左右的誤識(shí)率,即使將上述五項(xiàng)參量進(jìn)行多種組合,仍有2.89%的誤識(shí)率。由此可見,對(duì)說(shuō)話人鑒別和確認(rèn)的任務(wù)需要尋求新的參數(shù)。由于經(jīng)典聲學(xué)理論結(jié)果認(rèn)為音色決定于聲音不同頻率成分及其強(qiáng)度,而與相位特性無(wú)關(guān)。所以,已研究的20余種聲學(xué)參量均未涉及相位特性。但語(yǔ)音合成的研究中發(fā)現(xiàn),2-3個(gè)純音混合為復(fù)合音時(shí),其間相位特性與復(fù)合音色密切相關(guān)。通過(guò)分析話者嗓音成分間的相位差,包括基頻、第一共振峰、第二共振峰內(nèi)相鄰成分間的相位差,結(jié)果發(fā)現(xiàn)兩個(gè)共振峰的相鄰成分間的相位隨機(jī)變化而無(wú)規(guī)律可循,但是基頻帶內(nèi)相鄰成分相位變化是周期性函數(shù)變化。這說(shuō)明基頻帶反映振動(dòng)的激勵(lì)源特性,與個(gè)體聲帶生理功能及聲帶結(jié)構(gòu)的特點(diǎn)相關(guān)。因此本項(xiàng)發(fā)明研究出采用基頻成分間的相位差的測(cè)定方法,用作測(cè)定每個(gè)人聲帶結(jié)構(gòu)與功能的生理參數(shù),即嗓音激勵(lì)源參數(shù),以便作為確認(rèn)或鑒別人身個(gè)體的新手段。同時(shí)自1967年以來(lái),發(fā)聲時(shí)(VoiceOnsetTime簡(jiǎn)稱VOT)特征參量也被用于語(yǔ)言學(xué)研究和語(yǔ)言障礙診斷的輔助參數(shù)。由于它能反映出聲道參數(shù)與個(gè)體發(fā)聲的習(xí)慣性,即聲道信息,因此也可用于作為個(gè)體差異的聲學(xué)參量。而在本發(fā)明中VOT既是基頻成分相位差測(cè)定的必要條件,它本身又是人身個(gè)體差異的生理心理新參量。因此我們使用新的特征參量,基頻成分相位差和發(fā)聲時(shí)作為聲紋鑒定的新參量并由此發(fā)明了新的聲紋鑒定方法。本發(fā)明提供一種更簡(jiǎn)便易行的嗓音測(cè)定新方法,可用于司法聲紋鑒定、保安、聲鎖和金融系統(tǒng)以及臨床中聲帶障礙診斷。本發(fā)明采用語(yǔ)音音節(jié)的基頻成分相位差和VOT兩項(xiàng)參量,通過(guò)相應(yīng)參量的語(yǔ)音庫(kù)建立自動(dòng)分析系統(tǒng)。聲紋鑒定分析系統(tǒng)由硬件和軟件部分組成,其中硬件部分包括話筒、聲卡和微處理器,軟件部分包括切音、聲譜、頻譜、語(yǔ)譜、相位譜分析、以及結(jié)果判定軟件。擬分析的語(yǔ)音材料可現(xiàn)場(chǎng)錄制,也可將其它途徑獲取的語(yǔ)音材料轉(zhuǎn)入本系統(tǒng),經(jīng)切音軟件從待分析的語(yǔ)音材料中切取適用于分析的音節(jié),綜合分析由多個(gè)音節(jié)得出的測(cè)試數(shù)據(jù)進(jìn)行判定。具體過(guò)程是首先對(duì)語(yǔ)音材料進(jìn)行語(yǔ)譜分析,并由此對(duì)發(fā)聲人的(BA,DA,GA,KA,PA,TA)六個(gè)基本音節(jié)進(jìn)行分析,測(cè)定各個(gè)基本音節(jié)的VOT特征參量,根據(jù)VOT特征參量結(jié)果進(jìn)行基頻成分相位差分析,然后計(jì)算其個(gè)體差異并與數(shù)據(jù)庫(kù)中的模式匹配,最后達(dá)到人身個(gè)體認(rèn)定。本發(fā)明的優(yōu)點(diǎn)是在傳統(tǒng)話者識(shí)別的參量基礎(chǔ)之上,采用全新的兩項(xiàng)參量分別反映聲帶作為激勵(lì)源的生理功能特性的個(gè)體差異以及聲道的個(gè)體習(xí)慣性差異,提高識(shí)別率;本方法簡(jiǎn)便易行,既可適用于特殊錄制的語(yǔ)音材料又可將已有不同語(yǔ)音經(jīng)本系統(tǒng)予處理后分析;而且綜合分析多個(gè)音節(jié)(一般為6個(gè)音節(jié)),能較快給出測(cè)試結(jié)果。用SPSS軟件包中的ANOVA統(tǒng)計(jì)方法,分別統(tǒng)計(jì)102人的六音節(jié)基頻兩成分相位差的個(gè)體差異得到,六個(gè)音節(jié)個(gè)體差異的主效應(yīng)都在.000水平顯著,說(shuō)明該參量對(duì)個(gè)體差異的識(shí)別力很高。1、表1、2表明Ba音和Pa音的VOT均值差異,表明VOT作為特征參量的鑒別力也很強(qiáng)。2、表3是102例六個(gè)音節(jié)的基頻兩成分相位差數(shù)據(jù)。3、20人六個(gè)音節(jié)個(gè)體差異主效應(yīng)分析得到,六音個(gè)體差異的主效應(yīng)在.000水平顯著。這20人六個(gè)音個(gè)體差異分析見表4。在.05水平有顯著性差異的占69.2%;其中Ba音節(jié)有顯著性差異的占13.7%,Da音節(jié)有顯著性差異的占15.2%,Ga音節(jié)有顯著性差異的占21.5%,Ka音節(jié)有顯著性差異的占13.1%,Pa音節(jié)有顯著性差異的占17.5%,Ta音節(jié)有顯著性差異的占19.0%。說(shuō)明Ga音節(jié)和Ta音節(jié)的識(shí)別力較高。表1、10位女性被試ba音的VOT均值差異(ms)注實(shí)驗(yàn)發(fā)音次數(shù)為N=10,*表示在0.05水平顯著。表2、10位女性被試pa音的VOT均值差異(ms)注實(shí)驗(yàn)發(fā)音次數(shù)為N=10,*表示在0.05水平顯著表3、102例六個(gè)音節(jié)的基頻兩成分相位差(πrad)<tablesid="table5"num="005"><table>850.87180.72430.21590.40370.39560.43190.47570.40370.85830.43190.89630.4037860.65540.45891.3570.67630.77510.46521.54620.67630.65580.67540.83170.5389870.05730.71920.3930.44230.4360.40030.4660.44230.74430.65140.20110.4182881.21470.49110.74430.65141.41180.46550.15990.65180.59910.40670.41180.4067890.25070.55151.54850.56970.47640.54390.76970.47610.597850.3940.24730.5537901.39530.51161.50080.67540.38760.40670.67960.49121.12510.47610.74580.5515911.12510.47610.81010.52421.04030.52420.6670.55150.47570.40370.21170.5117920.35540.48390.49320.58280.97570.5511.27020.58281.10190.5440.28040.4003930.49310.58290.21560.40370.39560.43190.47570.40370.82780.40670.24730.5365940.99560.39291.24150.55790.37950.54261.78980.55791.09250.43080.58670.4743951.66670.51670.21580.40370.61360.54760.59780.43080.3930.44230.41180.5649960.97920.49510.30890.43040.62980.53940.59780.58381.04340.5440.96090.4067971.3610.59511.21470.49120.66210.3940.89040.48390.6890.40670.44410.4081981.14360.53650.59910.40670.73480.49120.82780.40671.37810.52421.51680.5579991.09250.43081.11940.51090.50250.41990.67320.51091.77820.5510.30810.4321000.90010.58381.39530.51170.67020.53640.91670.51171.54840.56970.82260.45161010.99560.45130.59860.64220.93660.52020.15990.64220.86390.40510.450.3941020.39820.49381.13290.46530.41180.36290.68220.46530.80680.5780.5890.4951</table></tables>注實(shí)驗(yàn)發(fā)音次數(shù)N=10。表4、隨機(jī)20人六個(gè)音節(jié)個(gè)體差異分析注六位數(shù)字(如110011)分別代表ba,da,ga,ka,pa,ta六個(gè)音節(jié)。其中,o為兩人間基頻成分相位差t檢驗(yàn)在.05水平無(wú)顯著性差異;1為兩人間基頻成分相位差t檢驗(yàn)在.05水平有顯著性差異。除對(duì)角線外000000(六音全無(wú)差異)0對(duì)000001(一個(gè)音有差異)4對(duì)(包括100000,001000等)000011(兩個(gè)音有差異)20對(duì)(包括110000.101000等)000111(三個(gè)音有差異)30對(duì)(包括111000,101010等)001111(斟個(gè)音有差異)54對(duì)(包括111100,110110等)011111(五個(gè)音有差異)53對(duì)(包括111110,1011111等)111111(六音全有差異)29對(duì)下面結(jié)合實(shí)施例和附圖對(duì)本發(fā)明進(jìn)行進(jìn)一步的說(shuō)明說(shuō)明書圖1.Ba音節(jié)語(yǔ)譜圖(橫坐標(biāo)為時(shí)間,單位s;縱坐標(biāo)為頻率,單位Hz;亮度代表音強(qiáng),虛線指示VOT終止點(diǎn))圖2.Pa音節(jié)語(yǔ)譜圖(橫坐標(biāo)為時(shí)間,單位s;縱坐標(biāo)為頻率,單位Hz;亮度代表音強(qiáng),虛線指示VOT終止點(diǎn))圖3.Ba音頻譜圖(橫坐標(biāo)為頻率,單位2.69Hz;縱坐標(biāo)為音強(qiáng),單位smpl)圖4.Pa音頻譜圖(橫坐標(biāo)為頻率,單位2.69Hz;縱坐標(biāo)為音強(qiáng),單位smpl)圖5.Ba音節(jié)基頻帶兩純音成分聲譜圖(橫坐標(biāo)為時(shí)間,單位秒s;縱坐標(biāo)為音強(qiáng),單位smpl)圖6.Pa音節(jié)基頻帶兩純音成分聲譜圖(橫坐標(biāo)為時(shí)間,單位s;縱坐標(biāo)為音強(qiáng),單位smpl)圖7.Ba音節(jié)基頻帶兩純音成分相位圖(橫坐標(biāo)為時(shí)間,單位s;縱坐標(biāo)為相位,單位π弧度,‘πrad’)圖8.Pa音節(jié)基頻帶兩純音成分相位圖(橫坐標(biāo)為時(shí)間,單位s;縱坐標(biāo)為相位,單位π弧度,‘πrad’)圖9.Ba音節(jié)基頻帶兩純音成分相位差圖(橫坐標(biāo)為時(shí)間,單位s;縱坐標(biāo)為相位差,單位π弧度,‘πrad’)圖10.Pa音節(jié)基頻帶兩純音成分相位差圖(橫坐標(biāo)為時(shí)間,單位s;縱坐標(biāo)為相位差,單位π弧度,‘πrad’)本發(fā)明的關(guān)鍵是語(yǔ)音音節(jié)的基頻成分相位差和VOT兩項(xiàng)參量的分析。分析的具體步驟是1.聲譜處理與VOT計(jì)算。用聲紋分析系統(tǒng)軟件包中的數(shù)值科學(xué)計(jì)算語(yǔ)言(Matlog)實(shí)現(xiàn)聲譜圖分析。首先讀取已存的聲音信號(hào),加短時(shí)窗做快速傅立葉變換(FFT),將窗中心點(diǎn)的各頻譜分量的幅度用不同顏色表示形成如圖1、2的語(yǔ)譜圖,在屏幕上進(jìn)行VOT實(shí)際測(cè)量。然后對(duì)每個(gè)發(fā)聲人的六個(gè)基本音節(jié)(Ba,Da,Ga,Pa,Ta,Ka)的10次測(cè)試的VOT進(jìn)行算術(shù)平均計(jì)算,得出每個(gè)人每個(gè)基本音節(jié)VOT均值和標(biāo)準(zhǔn)差。2.找出基頻成分。利用1的結(jié)果,將采樣率為22050Hz的語(yǔ)音信號(hào)加矩形窗,窗長(zhǎng)8192個(gè)數(shù)據(jù)點(diǎn),s(i)其中i=1..8192。然后對(duì)s(i)做離散傅氏變換得到S(i),其中i=1..8192,生成圖3、4頻譜圖,圖中第一峰的橫坐標(biāo)即為基頻。3.基頻成分分析。取2中基頻點(diǎn)的函數(shù)FS1FS1(i)=S(i),當(dāng)i=b;FS1(i)=0,當(dāng)i≠b。再取比基頻低三個(gè)采樣點(diǎn)的函數(shù)FS2:FS2(i)=S(i),當(dāng)i=b-3;FS2(i)=0,當(dāng)i≠b-3。對(duì)FS1和FS2做反傅氏變換得到如圖5、6中的兩條純音正弦曲線。4.計(jì)算相位差。利用1,2,3的結(jié)果,做出相位圖,即相位差圖7、8。取對(duì)應(yīng)VOT值的兩條曲線的相位差,即在圖9、10中取橫坐標(biāo)對(duì)應(yīng)VOT時(shí)間點(diǎn)的縱坐標(biāo)值(相位差)。5.建立數(shù)據(jù)庫(kù)。①基本數(shù)據(jù)庫(kù)用102人的基頻兩成分相位差和VOT值分別建立兩個(gè)數(shù)據(jù)庫(kù);②專用數(shù)據(jù)庫(kù)根據(jù)應(yīng)用的性質(zhì),人數(shù),要求的不同建立相應(yīng)的數(shù)據(jù)庫(kù),分為司法人身個(gè)體認(rèn)定數(shù)據(jù)庫(kù)、保安人身個(gè)體認(rèn)定數(shù)據(jù)庫(kù)、聲鎖人身個(gè)體認(rèn)定數(shù)據(jù)庫(kù)、金融系統(tǒng)人身個(gè)體認(rèn)定數(shù)據(jù)庫(kù)以及臨床中聲帶障礙診斷和預(yù)后的人身個(gè)體認(rèn)定數(shù)據(jù)庫(kù)等。6.識(shí)別過(guò)程。記錄待鑒定人的Ba、Da、Ga、Ka、Pa、Ta六個(gè)音(至少10次),用上面的程序1、2、3、4計(jì)算其中10次的基頻兩成分相位差和VOT值及其標(biāo)準(zhǔn)差,在0.05的差異水平上,與數(shù)據(jù)庫(kù)模式匹配,進(jìn)行人身個(gè)體認(rèn)定。權(quán)利要求1.一種聲紋鑒定方法,通過(guò)反映人身個(gè)體差異的聲學(xué)參量語(yǔ)音數(shù)據(jù)庫(kù)為主的分析系統(tǒng),采用特征聲學(xué)參量組合進(jìn)行判斷,其特征在于將語(yǔ)音音節(jié)的基頻成分相位差作為一種特征聲學(xué)參量,與另外一種特征聲學(xué)參量發(fā)聲時(shí)組合進(jìn)行嗓音測(cè)定。2.根據(jù)權(quán)利要求1所述的聲紋鑒定方法,其特征在于聲紋鑒定分析系統(tǒng)由硬件和軟件部分組成,其中硬件部分包括話筒、聲卡和微處理器,軟件部分包括切音、聲譜、頻譜、語(yǔ)譜、相位譜分析、以及結(jié)果判定軟件。3.根據(jù)權(quán)利要求1或2所述的聲紋鑒定方法,其特征在于經(jīng)切音軟件從待分析的語(yǔ)音材料中切取適用于分析的音節(jié),綜合分析由多個(gè)音節(jié)得出的測(cè)試數(shù)據(jù)進(jìn)行判定。4.根據(jù)權(quán)利要求3所述的聲紋鑒定方法,其特征在于對(duì)發(fā)聲人的六個(gè)基本音節(jié)進(jìn)行分析。5.根據(jù)權(quán)利要求4所述的聲紋鑒定方法,其特征在于采用(BA,DA,GA,KA,PA,TA)作為基本音節(jié),分析它們基頻成分相位差和發(fā)生時(shí)特征參量。6.根據(jù)權(quán)利要求4或5所述的聲紋鑒定方法,其特征在于首先對(duì)語(yǔ)音材料進(jìn)行語(yǔ)譜分析,并由此測(cè)量各個(gè)基本音節(jié)的發(fā)生時(shí)特征參量,根據(jù)發(fā)生時(shí)特征參量結(jié)果進(jìn)行基頻成分相位差分析,然后計(jì)算其個(gè)體差異并與數(shù)據(jù)庫(kù)中的模式匹配,最后達(dá)到人身個(gè)體認(rèn)定。7.根據(jù)權(quán)利要求6所述的聲紋鑒定方法,其特征在于基頻成分相位差分析的過(guò)程是在一段語(yǔ)音材料中切取BA、DA、GA、KA、PA、TA六個(gè)音節(jié)的語(yǔ)音材料,或直接錄取這六個(gè)音節(jié)的語(yǔ)音材料;然后將六個(gè)音節(jié)的語(yǔ)音材料生成語(yǔ)譜圖,在語(yǔ)譜圖上測(cè)量每個(gè)音節(jié)的發(fā)生時(shí)特征參量;再將語(yǔ)音材料生成頻譜,取基頻成分及比其低3個(gè)采樣點(diǎn)的成分;通過(guò)這兩個(gè)純音聲譜,轉(zhuǎn)換成相位譜,最后給出相位差的譜圖。全文摘要本發(fā)明涉及一種聲紋鑒定中的新參量和新方法。通過(guò)反映人身個(gè)體差異的聲學(xué)參量語(yǔ)音數(shù)據(jù)庫(kù)為主的分析系統(tǒng),采用特征聲學(xué)參量組合進(jìn)行判斷,其特征在于:將語(yǔ)音音節(jié)的基頻成分相位差作為一種特征聲學(xué)參量,與另外一種特征聲學(xué)參量發(fā)聲時(shí)組合進(jìn)行嗓音測(cè)定。本發(fā)明提供的方法簡(jiǎn)便易行,可用于司法聲紋鑒定、保安、聲鎖和金融系統(tǒng)以及臨床中聲帶障礙診斷。文檔編號(hào)G10L15/00GK1299126SQ0110047公開日2001年6月13日申請(qǐng)日期2001年1月16日優(yōu)先權(quán)日2001年1月16日發(fā)明者沈政,吳明,方方,遜迪申請(qǐng)人:北京大學(xué)