一種得到具有精細時頻結(jié)構(gòu)的聲紋圖的方法

文檔序號：2822365閱讀：1254來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種得到具有精細時頻結(jié)構(gòu)的聲紋圖的方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語音信號的時頻分析方法，尤其是一種得到具有精細時頻結(jié)構(gòu)的
聲紋圖的方法。
背景技術(shù)：
聲紋圖也稱為語譜圖，簡稱譜圖，1941年由貝爾實驗室研究人員發(fā)明，它用三維或二維圖形方式顯示語音頻譜特性，縱軸表示頻率，橫軸表示時間，顏色的深淺表示特定頻帶的能量大小。最早的模擬語譜圖儀器是把聲波轉(zhuǎn)換成電信號的強度、波長、頻率和節(jié)奏，再把這些電信號繪制成波譜圖形。目前使用的語譜圖分為寬帶(短窗)語譜圖和窄帶(長窗)語譜圖兩種。這兩種語譜圖都是基于短時傅立葉變換方法得到的，而短時傅里葉變換假定在分析窗內(nèi)語音信號是平穩(wěn)的，通過在時間軸上移動分析窗來得到一組局部時頻圖。但是對于具有明顯時變特性的語音信號來說，取較短的分析窗，即使用寬帶語譜圖(帶寬約為300Hz)較合理，故寬帶語譜圖具有良好的時間分辨率，但是頻率分辨率較差；相反，如果使用較長的分析窗，即窄帶語譜圖(帶寬約為45Hz)，具有良好的頻率分辨率，但是時間分辨率較差。所以，受不確定性原理限制，不能同時提高時間分辨率和頻率分辨率，目前只能同時使用寬帶和窄帶語譜圖。基于短時傅里葉變換的語譜圖，在時頻平面對能量分布的描述是粗糙的。非線性時頻分析是描述非平穩(wěn)語音信號的有效方法，其中維格那-威利分布(Wigner-VilleDistribution, WVD)作為典型的時頻分布，具有最好時頻聚集性，其時間頻寬積已達到了不確定性原理的下界，即WVD具有最好的時頻分辨率。但由于它是一種雙線性變換，多分量信號的WVD中存在交叉項，交叉項干擾了信號原本固有的時頻結(jié)構(gòu)。語音是非平穩(wěn)、多分量的、實值信號，其WVD無法提供反映語音非平穩(wěn)特征的時頻結(jié)構(gòu)，因此，基于非線性時頻分析方法也不能提供有效的聲紋圖。人類的發(fā)聲系統(tǒng)系統(tǒng)由發(fā)聲控制器和發(fā)聲共鳴器等組成，發(fā)聲控制器官包括聲帶、軟顎、舌頭、牙齒、唇等，而發(fā)聲共鳴器包括咽腔、口腔、鼻腔。由于人的發(fā)聲器官存在著大小、形態(tài)及功能上的差異，這些器官的微小差異都會導(dǎo)致發(fā)聲氣流的改變，從而造成音質(zhì)和音色的差別。此外，每個人的發(fā)聲習(xí)慣有快有慢，用力有大有小，也會造成音強和音長的差別，所以，語音是人類的生物特征之一。語譜圖中每一字的聲紋前部是清輔音的頻譜，后部是元音頻譜；元音頻譜由加強的縱線條構(gòu)成，水平方向的黑帶為共振峰，共振峰的數(shù)量、走向及其頻率是聲紋分析的重要特征。因此對語譜圖的分析，可以進行聲紋鑒定。而聲紋鑒定正廣泛應(yīng)用于當(dāng)今社會的諸多領(lǐng)域。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)中存在的不足，提供一種得到具有精細時頻結(jié)構(gòu)的聲紋圖的方法，得到反映語音信號固有的非平穩(wěn)特征的精細時頻結(jié)構(gòu)的聲紋圖，為后續(xù)的聲紋識別提供原始的、細膩的、豐富的語音特征。按照本發(fā)明提供的技術(shù)方案，所述得到具有精細時頻結(jié)構(gòu)的聲紋圖的方法，通過經(jīng)驗?zāi)B(tài)分解將信號自適應(yīng)地分解為若干個固有模態(tài)函數(shù)之和，再對每個固有模態(tài)函數(shù)進行Hilbert變換得到瞬時幅度和瞬時相位，進而得到反映信號幅值隨隨時間和頻率的變化規(guī)律的Hilbert譜；在時頻平面將所述Hilbert譜以三維圖形畫出，得到具有精細時頻結(jié)構(gòu)的聲紋圖。所述經(jīng)驗?zāi)B(tài)分解的方法為 (1)求原始信號序列x(t)的各個局部極大值，用三階樣條函數(shù)進行插值，得到信號x(t)的上包絡(luò)線序列值e^(t)和下包絡(luò)線序列值e^(t); (2)對每個時刻的上包絡(luò)線序列值e,(t)和下包絡(luò)線序列值e^(t)取平均值，得到包絡(luò)線的瞬時平均值m(t) 附("-e鵬(0+eminW" 2 (3)對信號x(t)去均值處理，得到去均值曲線h(t)
h(t) = x(t)-m(t) 如果原始數(shù)據(jù)是對稱的那么去均值曲線h(t)是一個常數(shù)，否則去均值曲線h(t)是時變的； (4)判斷去均值曲線是否為固有模態(tài)函數(shù)曲線如果去均值曲線h(t)中跨零點的數(shù)目和極值點的數(shù)目相等或至多相差一個，并且各個瞬時平均值m(t)都等于零，那么均值曲線h(t)就是固有模態(tài)函數(shù)；否則，均值曲線h(t)就不是固有模態(tài)函數(shù)，此時需要把均值曲線h(t)當(dāng)作原始序列，重復(fù)步驟l-4直至滿足固有模態(tài)函數(shù)所滿足的條件、求出固有模態(tài)函數(shù)為止； (5)第一個固有模態(tài)函數(shù)q(t)求出后，用原始信號x(t)減去第一個固有模態(tài)函數(shù)q(t)可得到剩余值序列巧(t):
巧(t) = x(t)-cjt) 然后，把巧(t)作為一個新的原始序列按照步驟1-4，依次提取直至第n個固有模
態(tài)函數(shù) (t)，使rn(t)變成一個單調(diào)序列為止。 (6)將信號x(t)表示為一系列固有模態(tài)函數(shù)與殘差之和利用經(jīng)驗?zāi)B(tài)分解EMD完備性和正交性的特點，將分解后的各分量相加，重構(gòu)出原始序列x(t) ^)-藝C,々)+r力)
z=i 。所述Hi lbert譜形成方法是 (1)對每個固有模態(tài)函數(shù)Ci (t)進行Hilbert變換得到 A(,)-丄「逃r (2)構(gòu)造解析信號為^) = ^)+ ^(r) = a,々yA(() 其中瞬時幅值函數(shù)、瞬時相位函數(shù)、瞬時頻率函數(shù)分別為 fl,(0"c,2+^)

6 (。
'" 必
(3)根據(jù)固有模態(tài)函數(shù)的瞬時幅度和瞬時頻率，計算信號的Hilbert譜
J"
!■=1 RE代表取信號的實部。本發(fā)明的優(yōu)點是本發(fā)明以聲紋圖(語譜圖)形式顯示時頻分析結(jié)果，由于采用自適應(yīng)信號分解方法，這種聲紋圖提供反映語音信號非平穩(wěn)特點的精細時頻結(jié)構(gòu)，而現(xiàn)有的語譜圖由于存在窗效應(yīng)，不得不同時使用長窗語譜圖和短窗語譜圖來描述。具有精細時頻結(jié)構(gòu)的聲紋圖可進一步應(yīng)用于說話人識別、聲紋鑒定等。

圖1是本發(fā)明整體技術(shù)方案流程圖。圖2是本發(fā)明提供的具有精細時頻結(jié)構(gòu)的聲紋圖。圖3是寬帶語譜圖。圖4是窄帶語譜圖。圖5是基于WVD的聲紋圖。
具體實施例方式
下面結(jié)合附圖和實施例對本發(fā)明作進一步說明。本發(fā)明采用一種新的具有自適應(yīng)特性的時頻分析方法——Hilbert-Huang變換，該方法包含兩大部分，經(jīng)驗?zāi)B(tài)分解和 Hilbert譜分析。通過經(jīng)驗?zāi)B(tài)分解來提取語音信號固有的一系列模態(tài)函數(shù)，再對每個固有模態(tài)函數(shù)進行Hilbert變換得到瞬時幅度和瞬時相位，進而得到反映信號幅值隨隨時間和頻率的變化規(guī)律的Hilbert譜。通過該方法得到的聲紋圖不含交叉項，也沒有窗效應(yīng)，更主要的是能提供反映語音非平穩(wěn)特征的、具有精細時頻結(jié)構(gòu)的聲紋圖。通過經(jīng)驗?zāi)B(tài)分解將信號自適應(yīng)地分解為若干個固有模態(tài)函數(shù)之和，由于它是基于信號的局部特征時間尺度的，使得分解得到的瞬時頻率具有實際的物理意義，從而可以計算每一個固有模態(tài)函數(shù)的瞬時頻率和瞬時幅值。經(jīng)驗?zāi)B(tài)分解過程基于如下的假設(shè)①
各種復(fù)雜的信號都是由一些不同的固有模態(tài)函數(shù)組成的，任何兩個模態(tài)函數(shù)之間是相互獨立的。②每一個固有模態(tài)函數(shù)的上、下包絡(luò)線關(guān)于時間軸局部對稱，在相鄰的兩個過零點之
間只有一個極值點，任何時刻一個信號可以包含許多的固有模態(tài)函數(shù)。③特征尺度定義為相鄰極值點的時間跨度，經(jīng)驗?zāi)B(tài)分解本質(zhì)是通過信號特征尺度來獲取固有模態(tài)函數(shù)。
如圖1所示，本發(fā)明包括如下步驟。
經(jīng)驗?zāi)B(tài)分解具體過程是 (1)求原始信號x(t)的各個局部極大值，用三階樣條函數(shù)進行插值，得到信號 x(t)的上包絡(luò)線序列值e,(t)和下包絡(luò)線序列值e^(t)。(2)對每個時刻的emax(t)和emin(t)取平均值，得到包絡(luò)線的瞬時平均值m(t)
6
<formula>formula see original document page 7</formula>
(3)對原始信號x(t)去均值處理，得到去均值曲線h(t)
<formula>formula see original document page 7</formula> 傳統(tǒng)信號處理中的去均值是將整個數(shù)據(jù)向下或向上移動一個常數(shù)，而在式(2)的均值曲線來源于原始數(shù)據(jù)的局部特征，因此減去的是一個與原始數(shù)據(jù)相匹配的均值曲線，如果原始數(shù)據(jù)是對稱的那么該去均值曲線是一個常數(shù)，否則該均值曲線是時變的，這也是Hilbert-Huang變換的自適應(yīng)性、非線性的具體表現(xiàn)。
(4)判斷去均值曲線是否為固有模態(tài)函數(shù)曲線如果h(t)中跨零點的數(shù)目和極值點的數(shù)目相等或至多相差一個，并且各個瞬時平均值m(t)都等于零，那么h(t)就是固有模態(tài)函數(shù)。否則，h(t)就不是固有模態(tài)函數(shù)，此時需要把h(t)當(dāng)作原始的數(shù)據(jù)序列，重復(fù)以上步驟(l)-步驟(4)，直至滿足固有模態(tài)函數(shù)所滿足的條件，求出固有模態(tài)函數(shù)為止。 (5)第一個固有模態(tài)函數(shù)q(t)求出后，用原序列減去cjt)可得到剩余值序列巧(t):<formula>formula see original document page 7</formula>
然后，把巧(t)作為一個新的原序列按照以上步驟步驟(l)-步驟(5)，依次提取直至第n個固有模態(tài)函數(shù)cn(t)，直到rn(t)變成一個單調(diào)序列為止。
(6)將信號表示為一系列固有模態(tài)函數(shù)與殘差之和利用經(jīng)驗?zāi)B(tài)分解過程的完備性和正交性的特點，將分解后的各分量相加就可以重構(gòu)出原始序列x(t):<formula>formula see original document page 7</formula>Hilbert譜形成過程是
(1)對每個固有模態(tài)函數(shù)Ci (t)進行Hilbert變換得到
<formula>formula see original document page 7</formula>
(2)構(gòu)造解析信號為
其中瞬時幅值函數(shù)和瞬時相位函數(shù)為<formula>formula see original document page 7</formula>
進一步可求得瞬時頻率
<formula>formula see original document page 7</formula>
(3)根據(jù)固有模態(tài)函數(shù)的瞬時幅度和瞬時頻率，計算信號的Hilbert譜
H( M)= 叫(一
'=i (10) RE代表去信號的實部。Hilbert譜描述了信號幅值在整個頻率段上隨時間和頻率
的變化規(guī)律。在時頻平面上將Hilbert譜以三維圖形畫出，就可以得到具有精細時頻結(jié)構(gòu)的聲紋圖。本發(fā)明的一個具體實施例如下步驟1 :錄制語音信號，必要時進行濾波處理，以WAV格式存放。步驟2 :對錄制的語音信號進行固有模態(tài)分解，將語音信號表示為一系列固有模態(tài)函數(shù)之和。
步驟3 :根據(jù)固有模態(tài)函數(shù)求瞬時幅度和瞬時頻率。
步驟4 :計算信號的Hilbert譜。步驟5 :在時頻平面將Hilbert譜以三維圖形畫出，得到具有精細時頻結(jié)構(gòu)的聲紋圖。為了比較本發(fā)明的實際效果，以成年男聲發(fā)英語的"five"為實驗信號(該語音信號來自公開使用的語音數(shù)據(jù)庫)。通過本發(fā)明方法得到具有精細時頻結(jié)構(gòu)的聲紋圖如附圖 2所示。為了說明這種聲紋圖能夠提供精細的時頻結(jié)構(gòu)，不存在窗效應(yīng)，沒有交叉項干擾，作出了同一信號的寬帶語譜圖(窗長為55)和窄帶語譜圖(窗長為115)分別如附圖3和附圖4所示，以及基于WVD的該信號的語譜圖附圖5所示，來進行比較。由圖2可見，精細時頻結(jié)構(gòu)的聲紋圖提供了語音信號隨著頻率的瞬時變化過程，它是以一種輪廓或骨架圖的形式描述信號能量的時頻分布，圖中顏色的深淺代表了能量的大小，由該圖可知，該語音信號較強能量集中在0.2s-0.3s之間，所對應(yīng)的頻率在 500Hz-700Hz之間，圖中每一條聲紋表明一個頻率分量的變化的信息，反映了信號的時頻特征，如信號在時刻點的頻率突變位置和主要頻率成分等信息。不存在交叉項，具有很好的時頻聚集性。使用窗長為55得到的寬帶語譜圖，時域分辨性好，但頻域分辨率較低；而使用窗長為115得到的長窗語譜圖，雖然使頻率分辨率有所提高，但同時也降低了時間分辨率。這是因為短時傅里葉變換要受不確定原理的限制，時間和頻率分辨率不能同時提高，必須同時使用寬帶和窄帶兩個語譜圖的原因?；赪VD原理得到的聲紋圖，其時頻聚集性最高，但存在大量的交叉項，這些交叉項的存在干擾了語音信號真實的時頻分析。
8
權(quán)利要求
一種得到具有精細時頻結(jié)構(gòu)的聲紋圖的方法，其特征是通過經(jīng)驗?zāi)B(tài)分解將信號自適應(yīng)地分解為若干個固有模態(tài)函數(shù)之和，再對每個固有模態(tài)函數(shù)進行Hilbert變換得到瞬時幅度和瞬時相位，進而得到反映信號幅值隨隨時間和頻率的變化規(guī)律的Hilbert譜；在時頻平面將所述Hilbert譜以三維圖形畫出，得到具有精細時頻結(jié)構(gòu)的聲紋圖。
2. 如權(quán)利要求1所述的得到具有精細時頻結(jié)構(gòu)的聲紋圖的方法，其特征是所述經(jīng)驗?zāi)B(tài)分解的方法為(1) 求原始信號序列x(t)的各個局部極大值，用三階樣條函數(shù)進行插值，得到信號x(t)的上包絡(luò)線序列值e,(t)和下包絡(luò)線序列值e^(t);(2) 對每個時刻的上包絡(luò)線序列值e^(t)和下包絡(luò)線序列值e^(t)取平均值，得到包絡(luò)線的瞬時平均值m(t)<formula>formula see original document page 2</formula>(3) 對信號x(t)去均值處理，得到去均值曲線h(t)<formula>formula see original document page 2</formula>如果原始數(shù)據(jù)是對稱的那么去均值曲線h(t)是一個常數(shù)，否則去均值曲線h(t)是時變的；(4) 判斷去均值曲線是否為固有模態(tài)函數(shù)曲線如果去均值曲線h (t)中跨零點的數(shù)目和極值點的數(shù)目相等或至多相差一個，并且各個瞬時平均值m(t)都等于零，那么均值曲線h(t)就是固有模態(tài)函數(shù)；否則，均值曲線h(t)就不是固有模態(tài)函數(shù)，此時需要把均值曲線h(t)當(dāng)作原始序列，重復(fù)步驟l-4直至滿足固有模態(tài)函數(shù)所滿足的條件、求出固有模態(tài)函數(shù)為止；(5) 第一個固有模態(tài)函數(shù)q(t)求出后，用原始信號x(t)減去第一個固有模態(tài)函數(shù)Cl(t)可得到剩余值序列巧(t):<formula>formula see original document page 2</formula>然后，把A(t)作為一個新的原始序列按照步驟l-4，依次提取直至第n個固有模態(tài)函數(shù) a)，使rn(t)變成一個單調(diào)序列為止。(6) 將信號x(t)表示為一系列固有模態(tài)函數(shù)與殘差之和利用經(jīng)驗?zāi)B(tài)分解EMD完備性和正交性的特點，將分解后的各分量相加，重構(gòu)出原始序列x a)<formula>formula see original document page 2</formula>
3. 如權(quán)利要求2所述的得到具有精細時頻結(jié)構(gòu)的聲紋圖的方法，其特征是所述Hilbert譜形成方法是(1) 對每個固有模態(tài)函數(shù)Ci(t)進行Hilbert變換得到<formula>formula see original document page 2</formula>(2) 構(gòu)造解析信號為<formula>formula see original document page 2</formula>其中瞬時幅值函數(shù)、瞬時相位函數(shù)、瞬時頻率函數(shù)分別為<formula>formula see original document page 3</formula>(3)根據(jù)固有模態(tài)函數(shù)的瞬時幅度和瞬時頻率，計算信號的Hilbert譜<formula>formula see original document page 3</formula>RE代表取信號的實部。
全文摘要
本發(fā)明涉及語音信號一種時頻分析方法，并以聲紋圖形式顯示分析結(jié)果，提出了一種得到具有精細時頻結(jié)構(gòu)的聲紋圖的方法。由于采用自適應(yīng)信號分解方法，這種聲紋圖提供反映語音信號非平穩(wěn)特點的精細時頻結(jié)構(gòu)，而現(xiàn)有的語譜圖由于存在窗效應(yīng)，不得不同時使用長窗語譜圖和短窗語譜圖來描述。具有精細時頻結(jié)構(gòu)的聲紋圖可進一步應(yīng)用于說話人識別、聲紋鑒定等。
文檔編號G10L19/00GK101727905SQ200910232048
公開日2010年6月9日申請日期2009年11月27日優(yōu)先權(quán)日2009年11月27日
發(fā)明者于鳳芹申請人:江南大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：于鳳芹
技術(shù)所有人：江南大學(xué)
我是此專利的發(fā)明人

上一篇：10孔20音口琴的制作方法
上一篇：一種由時頻原子聚合生成時頻分子的方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

精細結(jié)構(gòu)常數(shù)相關(guān)技術(shù)

超精細結(jié)構(gòu)相關(guān)技術(shù)

精細結(jié)構(gòu)相關(guān)技術(shù)

x射線吸收精細結(jié)構(gòu)相關(guān)技術(shù)

x射線吸收精細結(jié)構(gòu)譜相關(guān)技術(shù)

x射線精細結(jié)構(gòu)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種得到具有精細時頻結(jié)構(gòu)的聲紋圖的方法