本發(fā)明公開了一種移動(dòng)環(huán)境下基于異構(gòu)雙MIC的語音識別自適應(yīng)系統(tǒng)的方法,屬于語音信號處理技術(shù)領(lǐng)域。
背景技術(shù):
隨著科技的進(jìn)步,人機(jī)交互已經(jīng)經(jīng)歷了命令行、圖形界面到觸摸板的三代變革?,F(xiàn)在,為了解放雙手操作,我們已經(jīng)來到語音控制時(shí)代的入口,人機(jī)交互模式正在發(fā)生著巨大的變化。最近的消息顯示,各大科技巨頭都已經(jīng)開始布局語音交互領(lǐng)域,業(yè)內(nèi)普遍認(rèn)為語音作為人類信息最自然、最便捷的交互方式,必將成為新人機(jī)交互模式的重要組成部分。
由于移動(dòng)和便攜設(shè)備的使用場所十分多變,用戶有可能時(shí)常處于聲音極其嘈雜的環(huán)境下,而語音交互的完美實(shí)現(xiàn)則有賴于清晰的語音信息接收以及準(zhǔn)確的語音識別能力。因此,在大數(shù)據(jù)和深度學(xué)習(xí)之外,如何在有噪聲的情況下保持良好的語音接收是工程師們面臨的一大挑戰(zhàn)。而語音降噪技術(shù)的發(fā)展和強(qiáng)化,也正在推進(jìn)語音交互時(shí)代的到來。
未來的語音識別市場,預(yù)計(jì)將會有越來越多的公司參與,以后語音識別的性能可能更多的體現(xiàn)在前端技術(shù)和語義理解上。機(jī)器要與人自然交流,必然就要考慮到用戶說話的環(huán)境、周圍環(huán)境的噪音、用戶發(fā)音不準(zhǔn)或者方言等等諸多因素,這就要求前端技術(shù)更加精準(zhǔn)的模擬人體結(jié)構(gòu),仿真出機(jī)器人聽覺系統(tǒng),以實(shí)現(xiàn)解放雙手自由對話的目的。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提出了一種移動(dòng)環(huán)境下基于異構(gòu)雙MIC的語音識別自適應(yīng)系統(tǒng)的方法,從語音模擬信號最前端對信號進(jìn)行優(yōu)化,實(shí)現(xiàn)語音識別自適應(yīng)。與現(xiàn)有方法相比,即使在信噪比變化劇烈的情況下仍能得到較清晰的語音信號,對語音識別的后續(xù)工作起了很好的鋪墊作用,減輕了其應(yīng)用于復(fù)雜場景的壓力,并且實(shí)現(xiàn)簡單,具有系統(tǒng)性自適應(yīng)能力。
本發(fā)明為解決其技術(shù)問題采用如下技術(shù)方案:
步驟(1)結(jié)合優(yōu)選通道與動(dòng)態(tài)調(diào)整PA的方式,實(shí)現(xiàn)系統(tǒng)結(jié)構(gòu)層的自適應(yīng)調(diào)整前端狀態(tài)以提高語音識別率;
步驟(1-1)對系統(tǒng)進(jìn)行初始化,主MIC1主要用于遠(yuǎn)場拾音及遠(yuǎn)近距離預(yù)測,副MIC2主要用于近場拾音及抗強(qiáng)干擾場景,因而動(dòng)態(tài)綁定主MIC1的PA,副MIC2綁定固定PA值。
步驟(1-2)根據(jù)PA的調(diào)整需求,由主MIC1當(dāng)前獲取的wav判斷下次錄音時(shí)PA的調(diào)整值。
步驟(1-3)由步驟(1-2)得出主MIC1的PA調(diào)整值,采用判決反饋的方式重置步驟(1-1)中主MIC1的PA,當(dāng)前說話人的位置較遠(yuǎn)時(shí),增大PA,當(dāng)前說話人的位置較近時(shí),降低PA,實(shí)時(shí)更新PA值,實(shí)現(xiàn)系統(tǒng)性自適應(yīng)改善錄音和識別效果。
步驟(2)終端進(jìn)入錄音模式后,同時(shí)啟動(dòng)主、副MIC的錄音通道,探測到有語音信號,分析緩存buffer,根據(jù)優(yōu)選規(guī)則,選擇最優(yōu)的錄音通道;
步驟(2-1)判斷主MIC1的噪聲能量是否大于預(yù)設(shè)的能量閥值Main_noise;若是,優(yōu)選副MIC2錄音通道的數(shù)據(jù)。在噪聲能量閾值判斷條件下,優(yōu)選副MIC2錄音通道的數(shù)據(jù),副MIC2具有拾音距離短且拾音方向窄的特點(diǎn),其音頻信息具有較大抗噪性和抗干擾性。
步驟(2-2)判斷主MIC1的語音能量Main_veng是大于預(yù)設(shè)的削波能量閥值Main_vmax或是大于預(yù)設(shè)的語音最低能量閥值Main_vmin。若大于預(yù)設(shè)的削波能量閥值Main_vmax,優(yōu)選副MIC2錄音通道的數(shù)據(jù),當(dāng)主MIC1削波時(shí),應(yīng)選數(shù)據(jù)信息完好的副MIC2;若大于預(yù)設(shè)的語音最低能量閥值Main_vmin,優(yōu)選主MIC1錄音通道的數(shù)據(jù)。
步驟(2-3)判斷副MIC2的語音能量Sub_veng是大于預(yù)設(shè)的語音最低能量閥值Sub_vmin或是大于預(yù)設(shè)的靜音最高能量閥值Sub_mmax。若小于預(yù)設(shè)的靜音最高能量閥值Sub_mmax,優(yōu)選主MIC1錄音通道的數(shù)據(jù),當(dāng)副MIC2錄音音量較小時(shí),可能用戶離得較遠(yuǎn),音量過小影響識別率,應(yīng)選適應(yīng)距離較大的主MIC1;若大于預(yù)設(shè)的語音最低能量閥值Sub_vmin,優(yōu)選副MIC2錄音通道的數(shù)據(jù)。
步驟(2-4)計(jì)算主MIC1的信噪比和副MIC2的信噪比,優(yōu)選信噪比較高的錄音通道的數(shù)據(jù)。
步驟(2-5)在相關(guān)判斷條件下,優(yōu)選副MIC2錄音通道的數(shù)據(jù)。當(dāng)優(yōu)選主MIC1和優(yōu)選副MIC2的條件同時(shí)成立時(shí),優(yōu)選副MIC2,其音頻數(shù)據(jù)具有抗噪性和抗干擾性,有益于提高識別率。
步驟(3)由步驟(2)判斷出最優(yōu)錄音通道后,識別最優(yōu)通道的語音數(shù)據(jù),并保存錄音文件,無論最優(yōu)通道是否為主MIC1,對其wav進(jìn)行分析,判斷下次錄音時(shí)主MIC1的PA調(diào)整值;
步驟(3-1)識別最優(yōu)通道的語音數(shù)據(jù)時(shí),當(dāng)判斷當(dāng)前說話結(jié)束,給出識別結(jié)果,并保存wav錄音文件,對MIC1的wav分析,判斷當(dāng)前說話人的位置遠(yuǎn)近程度,主MIC1的PA調(diào)整值。
步驟(3-2)判斷主MIC1的wav中最大能量值eng_max是否大于預(yù)設(shè)的削波能量閥值eng_thresh1;若是,根據(jù)eng_max與eng_thresh1的比值,調(diào)整PA,降低主MIC1的模擬增益。
步驟(3-3)判斷主MIC1的wav中最大能量值eng_max是否小于預(yù)設(shè)的最低語音能量閥值eng_thresh2;若是,根據(jù)eng_max與eng_thresh2的比值,調(diào)整PA,增大主MIC1的模擬增益。
本發(fā)明的有益效果在于:
(1)本發(fā)明中公開的移動(dòng)環(huán)境下基于異構(gòu)雙MIC的語音識別自適應(yīng)系統(tǒng)的方法,可以隨著說話人遠(yuǎn)近距離和環(huán)境噪聲的變化,自動(dòng)選擇最合適的模型進(jìn)行識別,顯著提升準(zhǔn)確率。
(2)本發(fā)明公開的從語音模擬信號最前端對信號進(jìn)行優(yōu)化,實(shí)現(xiàn)語音識別自適應(yīng)的方法,對前端異構(gòu)的雙MIC的架構(gòu)要求較大,從原始模擬信號本身對語音和噪聲信號做了提升和抑制處理,避免了相關(guān)算法的缺陷,適用于各種應(yīng)用場景。
附圖說明
圖1是本發(fā)明所述的利用異構(gòu)雙MIC優(yōu)選識別自適應(yīng)系統(tǒng)的方法示意圖;
圖2為異構(gòu)雙MIC的優(yōu)選判斷方法流程圖;
圖3為調(diào)整PA的方法示意圖;
圖4是本發(fā)明所述移動(dòng)終端的結(jié)構(gòu)示意框圖。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明作進(jìn)一步闡述:
如附圖1及附圖4所示,本發(fā)明所述的移動(dòng)終端包括:PA綁定模塊、優(yōu)選模塊和更新模塊。初始化設(shè)定全向主MIC1和定向副MIC2的PA值,主MIC1實(shí)現(xiàn)動(dòng)態(tài)綁定PA,副MIC2綁定固定PA值;綁定PA模塊后,進(jìn)入優(yōu)選模塊,首先需要設(shè)定主副MIC的優(yōu)選識別規(guī)則,并當(dāng)終端進(jìn)入錄音模式時(shí),同時(shí)啟動(dòng)主、副MIC的錄音通道,并一直保持錄音狀態(tài);實(shí)時(shí)檢測主副MIC是否有語音端點(diǎn)特征,若是,則根據(jù)優(yōu)選規(guī)則,選出最優(yōu)音頻通道的數(shù)據(jù)進(jìn)行語音識別,直到出現(xiàn)語音后端點(diǎn),給出識別結(jié)果;最后,進(jìn)入更新模塊,根據(jù)當(dāng)前主MIC1產(chǎn)生wav信息軟控制主MIC1硬件PA,實(shí)現(xiàn)主MIC1錄音通道PA的動(dòng)態(tài)調(diào)整。
其中,優(yōu)選規(guī)則如附圖2所示。當(dāng)探測到前端點(diǎn)后,根據(jù)主MIC1和副MIC2的語音能量、噪聲能量、信噪比等判斷出具有更高語音清晰度和辨識度的錄音通道。
IF Main_veng>Main_noise Flag_channel=2
ELSEIF Sub_veng>Sub_vmin Flag_channel=2
ELSEIF Main_veng>Main_vmax Flag_channel=2
ELSEIF Sub_veng<Sub_mmax Flag_channel=1
ELSEIF Main_veng>Main_vmin Flag_channel=1
ELSEIF Main_snr>Sub_snr Flag_channel=1
ELSE Flag_channel=2
其中:
Main_noise表示主MIC1的噪聲能量閥值;
Main_veng表示主MIC1的語音能量值;
Main_vmax表示主MIC1的削波能量閥值;
Main_vmin表示主MIC1的語音最低能量閥值;
Sub_veng表示副MIC2的語音能量值;
Sub_vmin表示副MIC2的語音最低能量閥值;
Sub_mmax表示副MIC2的靜音最高能量閥值;
Main_snr表示主MIC1的信噪比;
Sub_snr表示副MIC2的信噪比;
Flag_channel表示優(yōu)選通道,
Flag_channel=1表示優(yōu)選主MIC1,
Flag_channel=2表示優(yōu)選副MIC2。
由主MIC1產(chǎn)生的wav信息軟控制主MIC1的硬件PA,實(shí)現(xiàn)主MIC1錄音通道PA動(dòng)態(tài)調(diào)整的方法如附圖3所示。當(dāng)主MIC1產(chǎn)生wav,對wav分析,判斷主MIC1的PA值是否合適。若wav中最大能量值eng_max大于預(yù)設(shè)的削波能量閥值eng_thresh1,降低主MIC1的模擬增益PA,實(shí)現(xiàn)PA快速降低;若wav中最大能量值eng_max小于預(yù)設(shè)的最低語音能量閥值eng_thresh2,增大主MIC1的模擬增益PA,實(shí)現(xiàn)PA緩慢提高,當(dāng)eng_max非常小時(shí),PA將快速提高。其實(shí)現(xiàn)如下:
其中:
eng_max表示主MIC1的wav中最大能量值;
eng_thresh1表示主MIC1的削波能量閥值;
eng_thresh2表示主MIC1的最低語音能量閥值;
PA表示主MIC1下次錄音時(shí)的PA變化量;
step_down表示PA降低時(shí)調(diào)整的步長;
step_up表示PA增大時(shí)調(diào)整的步長。
以上所述實(shí)施例,只是本發(fā)明的較佳實(shí)例,并非來限制本發(fā)明的實(shí)施范圍,故凡依本發(fā)明申請專利范圍所述的構(gòu)造、特征及原理所做的等效變化或修飾,均應(yīng)包括于本發(fā)明專利申請范圍內(nèi)。