一種多維多音多頻技術(shù)的語音識別輸入方法
【專利摘要】本發(fā)明涉及一種多維多音多頻技術(shù)的語音識別輸入方法,本方法對音頻信號的頻譜進(jìn)行分割,并定義各頻譜范圍的特征頻率和噪聲頻率把所分割頻譜中的低頻頻譜和高頻頻譜組成一個維度,用特征頻率來實現(xiàn)快速信號初選,再另外選兩個維度,用其中一個維度的已定義特征頻率來表示按鍵的鍵值,用另外一個維度的已定義特征頻率來表示按鍵的類型;輸入設(shè)備發(fā)出模擬語音信號,通過音頻口傳輸?shù)浇獯a設(shè)備;解碼設(shè)備的應(yīng)用程序進(jìn)行音頻的采集、分析識別和解碼;應(yīng)用程序根據(jù)按解碼出來按鍵類型和鍵值執(zhí)行相應(yīng)的功能。本發(fā)明適應(yīng)于多種類型設(shè)備,尤其是多按鍵設(shè)備,信號檢測、識別能力強,信號傳輸不失真,基于音頻的輸入設(shè)備更便宜并且適用范圍廣。
【專利說明】一種多維多音多頻技術(shù)的語音識別輸入方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種把語音識別成按鍵信號的方法,尤其是一種基于多維多音多頻語音識別方法。
【背景技術(shù)】
[0002]隨著臺式電腦、筆記本電腦、智能手機和平板電腦的普及,需要一種技術(shù)可以制作出通用按鍵輸入設(shè)備,即同一種設(shè)備可以適用于臺式電腦、筆記本、智能手機和平板電腦。目前市面可以用于同樣目的的技術(shù)有藍(lán)牙技術(shù)和通用串行總線技術(shù),這里提出的方法是基于多維多音多頻的語音識別技術(shù)。相對于藍(lán)牙技術(shù)和通用串行總線技術(shù),基于語音識別技術(shù)優(yōu)勢有:
a.語音芯片價格低,只要能發(fā)聲的語音芯片都可以改造成按鍵輸入設(shè)備芯片,從而可以利用現(xiàn)有大量廉價的語音芯片制造出廉價的通用鍵盤輸入設(shè)備;
b.適用范圍更廣,只要能錄音的電腦、筆記本、智能手機和平板電腦裝上解碼應(yīng)用程序就可以從設(shè)備自帶的音頻口采集信號并利用應(yīng)用程序識別按鍵輸入。
[0003]目前市面上多數(shù)臺式機和筆記本電腦默認(rèn)不配置藍(lán)牙模塊。市面上多數(shù)手機和平板電腦沒有配置可以帶動外部通用串行總線輸入設(shè)備的接口,他們只可以被接到臺式電腦或者筆記本電腦,被臺式電腦和筆記本電腦當(dāng)作外部設(shè)備。然而多數(shù)的臺式電腦、筆記本電腦、智能手機和平板電腦都配置可以采集音頻信號的音頻口,有些手機和平板電腦不兼容某些藍(lán)牙鍵盤輸入設(shè)備。在電話網(wǎng)絡(luò)里面也有一種技術(shù)叫雙音多頻技術(shù),其缺點是:
1.只支持16個按鍵,按鍵太少;
2.只用兩個頻率來代表一個信號,很容易把音樂和背景聲當(dāng)作信號,從而形成誤檢
測;
3.利用語音頻譜中某個的頻率能量來判斷這個頻率是否符合要求,在封閉的電話網(wǎng)絡(luò)可行,但是這個方法放到不同的臺式電腦、筆記本電腦、手機和平板電腦上就行不通,因為每臺的設(shè)備錄音音量可能不同,用戶可以隨時改錄音音量;
4.現(xiàn)有電話網(wǎng)絡(luò)使用的雙音多頻的頻率是都是在4000Hz范圍以內(nèi),都是在人的語音的豐富頻率范圍以內(nèi),比較容易把人說的話誤檢測成信號;
5.利用語音中兩個頻率的能量關(guān)系來確定一個按鍵是否符合標(biāo)準(zhǔn),這個方法對于封閉的電話網(wǎng)絡(luò)可行,對于不同的臺式電腦、筆記本電腦、手機和平板電腦就有問題,不同的設(shè)備可能對于不同的頻率的能量衰減不一樣。
[0004]市面還有一種方法是頻移鍵控,其缺點跟雙音多頻一樣,適用封閉的系統(tǒng),無法很好在臺式電腦、筆記本電腦、手機和平板電腦這樣開放的系統(tǒng)上區(qū)分信號、人的聲音以及音樂。市面還有一種方法是在設(shè)備音頻口進(jìn)行數(shù)字信號傳輸,其缺點:臺式電腦、筆記本電腦、智能手機和平板電腦的音頻輸入插孔是用來接收模擬信號。然而數(shù)字輸入是基于能量高低來表示O還是I,是直流信號,不是交流模擬信號,會造成有些手機會隔掉直流信號,進(jìn)而造成數(shù)字輸入變形。不管是雙音多頻技術(shù)還是在音頻口進(jìn)行傳輸數(shù)字信號,他們有一個共同缺點,就是在臺式電腦、筆記本電腦、手機和平板電腦這樣開放的系統(tǒng)上區(qū)分信號、人的聲音以及音樂的能力很差。臺式電腦、筆記本電腦、智能手機和平板電腦的音頻口除了可以接收按鍵信號,還可用來普通的錄音,這種情況下,不管雙音多頻技術(shù)還是數(shù)字傳輸方法都很容易把音樂或者人的聲音當(dāng)作按鍵信號,即誤檢測。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的就是為了解決以上問題,提出一種多維多音多頻技術(shù)的語音識別輸入方法,利用這種方法可以制造出基于語音識別的輸入設(shè)備。
[0006]一種多維多音多頻技術(shù)的語音識別輸入方法,所述方法包括以下步驟:
(1)對音頻信號的頻譜進(jìn)行分割,利用分割的頻譜范圍構(gòu)成不同的維度,每個維度定義了自己的特征頻率和噪聲頻率;把其中低頻頻譜和高頻頻譜組成一個維度,用已定義的特征頻率來實現(xiàn)快速信號初選,同時利用特征頻率和噪聲頻率來區(qū)分信號、語音還是音樂;再另外選兩個維度,用其中一個維度的已定義特征頻率來表示按鍵的鍵值,同時利用特征頻率和噪聲頻率來區(qū)分信號、語音還是音樂;用另外一個維度的已定義特征頻率來表示按鍵的類型,同時利用特征頻率和噪聲頻率來區(qū)分信號、語音還是音樂;
(2)在解碼設(shè)備裝入可以把多維多音多頻信號識別成鍵盤輸入信號的應(yīng)用程序;
(3)輸入設(shè)備接到解碼設(shè)備的可以錄音的音頻口,輸入設(shè)備發(fā)出模擬語音信號,通過音頻口傳輸?shù)浇獯a設(shè)備;
(4)解碼設(shè)備的應(yīng)用程序進(jìn)行音頻的采集、分析識別和解碼;
(5)解碼設(shè)備檢查音頻信號的頻譜是否存在第一維里面的特征頻率,如果檢查到符合第一維標(biāo)準(zhǔn)的特征頻率,則進(jìn)一步檢查其他維度的特征頻率;
(6)如果所有維度都檢查到符合標(biāo)準(zhǔn)的特征頻率,則將其解碼并報告給應(yīng)用程序;
(7)應(yīng)用程序根據(jù)按解碼出來按鍵類型和鍵值執(zhí)行相應(yīng)的功能。
所述解碼設(shè)備可以為臺式電腦、筆記本電腦、智能手機或者平板電腦。
[0007]由于采用了以上的方案,可實現(xiàn)以下優(yōu)點:
I)采用相對能量不采用決對能量來判斷一個特征頻率到底符合不符合信號的標(biāo)準(zhǔn),能夠適應(yīng)于更廣泛的設(shè)備。傳統(tǒng)的方法是用特定能量閥值來判斷,特征頻率低于某個能量就認(rèn)為不符合標(biāo)準(zhǔn),這樣當(dāng)錄音音量很小的情況下就會導(dǎo)致檢測不到信號。本方法采用相對能量的方法,只要特征頻率的能量比附近的其他能量高就認(rèn)為其是符合信號的標(biāo)準(zhǔn)。
[0008]2 )采用多個特征頻率來表示一個信號,進(jìn)而對表示同一個信號的特征頻率進(jìn)行分組,檢查每個分組是否符合自己維度的標(biāo)準(zhǔn)。這樣能更好區(qū)分按鍵信號、人的語音和音樂。多維多音多頻采用多個特征頻率表示一個按鍵信號,相對于2個頻率表示一個信號,區(qū)分按鍵信號和噪聲能力大大增強。同時對頻率進(jìn)行分組,利用跨度大的高低特征頻率組合也能很好區(qū)別按鍵信號還是人的語音或者音樂。不同分組落在不同的維度里面,某些維度可以定義成封面的維度,應(yīng)用程序平時只要檢測這個封面維度就可以,不用去檢測全部頻率,這樣可以實現(xiàn)信號的快速初選,同時可以大大節(jié)省程序計算量,從而節(jié)省設(shè)備的能耗。
[0009]3)相比于雙音多頻技術(shù)可以用擁有更多按鍵。如果第一維定義了 η個特征頻率,可以構(gòu)成N個符合標(biāo)準(zhǔn)的信號。第二維擁有m個特征頻率,可以構(gòu)成M個符合標(biāo)準(zhǔn)的信號。第三維擁有k個特征頻率,可以構(gòu)成K個符合標(biāo)準(zhǔn)的信號??偣搏@得按鍵數(shù)N*M*K個。[0010]4)相對于數(shù)字傳輸?shù)暮锰幨侨匀辉谝纛l口上傳輸模擬信號,因此不會因為長時間傳送I或者O信號被有些設(shè)備當(dāng)作直流信號而引起信號失真。
[0011]5)相對于藍(lán)牙或者通用串行總線技術(shù),基于音頻的輸入設(shè)備更便宜并且適用范圍廣,只要有錄音音頻口并擁有解碼軟件就能使用基于音頻的按鍵輸入設(shè)備,只要芯片能發(fā)出多維多音多頻信號就可以變成通用輸入設(shè)備的芯片,因此很多廉價的有聲玩具的語音芯片都可以改造成通用輸入設(shè)備的芯片。
【專利附圖】
【附圖說明】
[0012]圖1是本發(fā)明實施例流程不意圖;
圖2是物理輸入設(shè)備發(fā)出的一個按鍵信號的頻譜分析圖。
【具體實施方式】
[0013]下面通過具體的實施方式并結(jié)合圖表對本發(fā)明作進(jìn)一步詳細(xì)的描述。
[0014]實施例包含兩部分,第一部分是物理的輸入設(shè)備,第二部分裝有可以解碼多維多音多頻信號的應(yīng)用程序的解碼設(shè)備,可以是臺式電腦、筆記本電腦、智能手機或者平板電腦。物理的輸入設(shè)備通過音頻線插入臺式電腦、筆記本電腦、智能手機或者平板電腦的音頻口。其主要解決的技術(shù)問題是:
1)同一個物理輸入設(shè)備如何連接到不同的臺式電腦、筆記本電腦、智能手機或者平板電腦;
2)物理輸入設(shè)備如何產(chǎn)生多維多音多頻信號;
3)如何將物理輸入設(shè)備傳輸過來的音頻信號解析成按鍵信號;
4)應(yīng)用程序如何利用這些按鍵信號;解決上述技術(shù)問題主要是通過以下幾點實現(xiàn)
的:
一種多維多音多頻技術(shù)的語音識別輸入方法,其特征在于,所述方法包括以下步驟:
(1)對音頻信號的頻譜進(jìn)行分割,利用分割的頻譜范圍構(gòu)成不同的維度,每個維度定義了自己的特征頻率和噪聲頻率;把其中低頻頻譜和高頻頻譜組成一個維度,用已定義的特征頻率來實現(xiàn)快速信號初選,同時利用特征頻率和噪聲頻率來區(qū)分信號、語音還是音樂;再另外選兩個維度,用其中一個維度的已定義特征頻率來表示按鍵的鍵值,同時利用特征頻率和噪聲頻率來區(qū)分信號、語音還是音樂;用另外一個維度的已定義特征頻率來表示按鍵的類型,同時利用特征頻率和噪聲頻率來區(qū)分信號、語音還是音樂;
(2)在解碼設(shè)備裝入可以把多維多音多頻信號識別成鍵盤輸入信號的應(yīng)用程序;
(3)輸入設(shè)備接到解碼設(shè)備的可以錄音的音頻口,輸入設(shè)備發(fā)出模擬語音信號,通過音頻口傳輸?shù)浇獯a設(shè)備;
(4)解碼設(shè)備的應(yīng)用程序進(jìn)行音頻的采集、分析識別和解碼;
(5)解碼設(shè)備檢查音頻信號的頻譜是否存在第一維里面的特征頻率,如果檢查到符合第一維標(biāo)準(zhǔn)的特征頻率,則進(jìn)一步檢查其他維度的特征頻率;
(6)如果所有維度都檢查到符合標(biāo)準(zhǔn)的特征頻率,則將其解碼并報告給應(yīng)用程序;
(7)應(yīng)用程序根據(jù)按解碼出來按鍵類型和鍵值執(zhí)行相應(yīng)的功能。
解碼設(shè)備可以為臺式電腦、筆記本電腦、智能手機或者平板電腦。根據(jù)上述構(gòu)思,本實施例的采用語音抽樣頻率是16000Hz。第一維度擁有的特征頻率和噪聲頻率如表格I所示。表格I具體描述如下:
1)第一維度對應(yīng)的頻譜范圍是0HZ-500HZ和6300HZ-8000HZ;
2)從0Hz-500Hz挑選出一個特征頻率315Hz;
3)從6300Hz-8000Hz挑選出另一個特征頻率6395Hz;
4)從0Hz-500Hz 挑選出噪聲頻率 346Hz,376Hz, 406Hz, 436Hz;
5)從6300Hz-8000Hz 挑選出噪聲頻率 6013Hz,6043 Hz,6073Hz,6103Hz,6133Hz,6163Hz,6193Hz ;
6)如果在頻域上,特征頻率315Hz的能量值大于346Hz,376Hz,406Hz和436Hz的能量值,則認(rèn)為特征頻率315有效;
7)如果在頻域上,特征頻率6395Hz的能量值大于6013Hz,6043Hz,6073Hz,6103Hz,6133Hz, 6163Hz和6193Hz的能量值,則認(rèn)為特征頻率6395Hz有效;
8)如果2個特征頻率同時有效,則信號通過初步篩選。否則則認(rèn)為本音頻信號是噪聲。
[0015]
【權(quán)利要求】
1.一種多維多音多頻技術(shù)的語音識別輸入方法,其特征在于,所述方法包括以下步驟: (1)對音頻信號的頻譜進(jìn)行分割,利用分割的頻譜范圍構(gòu)成不同的維度,每個維度定義了自己的特征頻率和噪聲頻率;把其中低頻頻譜和高頻頻譜組成一個維度,用已定義的特征頻率來實現(xiàn)快速信號初選,同時利用特征頻率和噪聲頻率來區(qū)分信號、語音還是音樂;再另外選兩個維度,用其中一個維度的已定義特征頻率來表示按鍵的鍵值,同時利用特征頻率和噪聲頻率來區(qū)分信號、語音還是音樂;用另外一個維度的已定義特征頻率來表示按鍵的類型,同時利用特征頻率和噪聲頻率來區(qū)分信號、語音還是音樂; (2)在解碼設(shè)備裝入可以把多維多音多頻信號識別成鍵盤輸入信號的應(yīng)用程序; (3)輸入設(shè)備接到解碼設(shè)備的可以錄音的音頻口,輸入設(shè)備發(fā)出模擬語音信號,通過音頻口傳輸?shù)浇獯a設(shè)備; (4)解碼設(shè)備的應(yīng)用程序進(jìn)行音頻的采集、分析識別和解碼; (5)解碼設(shè)備檢查音頻信號的頻譜是否存在第一維里面的特征頻率,如果檢查到符合第一維標(biāo)準(zhǔn)的特征頻率,則進(jìn)一步檢查其他維度的特征頻率; (6)如果所有維度都檢查到符合標(biāo)準(zhǔn)的特征頻率,則將其解碼并報告給應(yīng)用程序; (7)應(yīng)用程序根據(jù)按解碼出來按鍵類型和鍵值執(zhí)行相應(yīng)的功能。
2.如權(quán)利要I訴述的一種多維多音多頻技術(shù)的語音識別輸入方法,其特征在于,所述解碼設(shè)備可以為臺式電腦、筆記本電腦、智能手機或者平板電腦。
【文檔編號】G06F3/16GK103745721SQ201410004561
【公開日】2014年4月23日 申請日期:2014年1月6日 優(yōu)先權(quán)日:2014年1月6日
【發(fā)明者】孫小強 申請人:孫小強