本發(fā)明屬于聲波通訊領(lǐng)域,是一種通過(guò)采集聲譜圖的頻率極值和均值結(jié)合對(duì)聲紋數(shù)據(jù)進(jìn)行初步過(guò)濾的方法。
背景技術(shù):
聲紋的識(shí)別作為一項(xiàng)可靠的技術(shù)在人們?nèi)粘I钪邪l(fā)揮越來(lái)越重要的作用。例如可以通過(guò)聲紋識(shí)別犯罪分子,聲紋也可以用來(lái)考勤,門(mén)禁出入管理等。
但是都有一個(gè)共同的問(wèn)題,聲紋數(shù)據(jù)采集量大,比對(duì)模型運(yùn)算量大,反應(yīng)速度慢,影響實(shí)際使用中用戶(hù)體驗(yàn)。特別是應(yīng)用于廣大民用設(shè)備上的時(shí)候,方便快捷是使用過(guò)程中必須要考慮的問(wèn)題。
目前解決的主要技術(shù)包括:
1、利用一個(gè)人鼻音、帶深呼吸音、沙啞音、笑聲等輔助判斷;
2、利用受社會(huì)經(jīng)濟(jì)狀況、受教育水平、出生地等影響的語(yǔ)義、修辭、發(fā)音、言語(yǔ)習(xí)慣等輔助判斷;
3、利用個(gè)人特點(diǎn)如韻律、節(jié)奏、速度、語(yǔ)調(diào)、音量等特征。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種通過(guò)聲譜圖的最高頻率、最低頻率以及頻率均值對(duì)聲紋數(shù)據(jù)進(jìn)行初步過(guò)濾的方法。簡(jiǎn)單易用,初步過(guò)濾快速。所述方法包括:
1、首先將目標(biāo)樣本(說(shuō)話人)的語(yǔ)音生成一個(gè)聲譜圖,記錄說(shuō)話人聲音;
2、將這段語(yǔ)音按照一定時(shí)間段(如0.1秒)進(jìn)行分割,分為很多幀;
2、分析每一幀聲譜圖中最高頻率E1和最低頻率E2和平均頻率E3,并記錄保存;
4、對(duì)測(cè)試樣本中的所有語(yǔ)音進(jìn)行步驟1-3的操作,得到每一幀的最高頻率E1`和最低頻率E2`和平均頻率E3`:
5、計(jì)算測(cè)試樣本和目標(biāo)樣本E1、E2、E3之間的偏差,小于設(shè)定的閾值為合格樣本,不合格的樣本將直接剔除。這樣減少聲紋比對(duì)模型的運(yùn)算量,提高識(shí)別效率。
本發(fā)明提供了一種聲紋識(shí)別的過(guò)濾方法,其創(chuàng)新點(diǎn)包括:
1、提取目標(biāo)樣本聲譜圖的極值和均值數(shù)據(jù)進(jìn)行初步過(guò)濾;
2、分析每一幀聲譜圖中非空最高頻率、最低頻率和頻率均值作為對(duì)比數(shù)據(jù)。
附圖說(shuō)明
圖1 是本發(fā)明目標(biāo)用戶(hù)數(shù)據(jù)提取示意圖;
圖2 是本發(fā)明聲譜圖比對(duì)流程示意圖;
圖3 是本發(fā)明目標(biāo)用戶(hù)數(shù)據(jù)提取流程圖。
具體實(shí)施方式
結(jié)合附圖給出本發(fā)明的一個(gè)具體實(shí)施例。
本發(fā)明的目的是提供一種通過(guò)提取目標(biāo)用戶(hù)聲譜圖中非空的最高頻率、最低頻率和均值,來(lái)進(jìn)行聲紋識(shí)別前的初步篩選,降低聲紋模型的計(jì)算量,提高聲紋識(shí)別效率。
首先,我們警察通過(guò)聲紋識(shí)別的場(chǎng)景。
罪犯張三(目標(biāo)用戶(hù))說(shuō)了一段話,我們通過(guò)錄音設(shè)備記錄下來(lái),首先形成頻譜圖,然后按照一定時(shí)間段(如0.1秒)進(jìn)行分割,分為很多幀。通過(guò)FFT變換形成聲譜圖。
我們對(duì)每一幀的非空頻率(即這個(gè)頻率段有聲強(qiáng)數(shù)據(jù)),提取其最大頻率、最小頻率,并對(duì)所有非空頻率進(jìn)行平均得到頻率均值。假設(shè)得到的數(shù)據(jù)為:
0-0.1秒這一幀 {最高頻率,最低頻率,均值}為{3500,1200 ,3000}
0.1-0.2秒這一幀 {最高頻率,最低頻率,均值}為{1500,200 ,1000}
…
…
2.9-3.0秒這一幀 {最高頻率,最低頻率,均值}為{4500,2200 ,3000}
將這些數(shù)據(jù)記錄下來(lái),以備后面的對(duì)比運(yùn)算。
現(xiàn)在有一批犯罪嫌疑人(測(cè)試用戶(hù))的聲音數(shù)據(jù),我們對(duì)其進(jìn)行FFT變換分別提取每一個(gè)人的最高頻率,最低頻率,均值。
假設(shè)李四的數(shù)據(jù)為:
0-0.1秒這一幀 {最高頻率,最低頻率,均值}為{9500,3200 ,6000}
0.1-0.2秒這一幀 {最高頻率,最低頻率,均值}為{7500,1200 ,3000}
…
…
2.9-3.0秒這一幀 {最高頻率,最低頻率,均值}為{14500,2200 ,9000}
王五的數(shù)據(jù)為:
0-0.1秒這一幀 {最高頻率,最低頻率,均值}為{3700,1100 ,2800}
0.1-0.2秒這一幀 {最高頻率,最低頻率,均值}為{1600,300 ,1000}
…
…
2.9-3.0秒這一幀 {最高頻率,最低頻率,均值}為{4800,2000 ,4000}
計(jì)算犯罪嫌疑人的數(shù)據(jù)和罪犯數(shù)據(jù)的方差,(E1`-E1)2+(E2`-E2)2+(E3`-E3)2。當(dāng)其值小于設(shè)定值(如10000)為合格數(shù)據(jù),可以通過(guò)初步篩選。反之,直接排除,不參加后面的聲紋模型識(shí)別。