本發(fā)明涉及語音交互技術(shù)領(lǐng)域,特別涉及一種對帶麥克風(fēng)陣列的設(shè)備進(jìn)行語音控制的方法和一種帶麥克風(fēng)陣列的設(shè)備。
背景技術(shù):
隨著智能技術(shù)的發(fā)展,很多廠商開始考慮在智能產(chǎn)品上設(shè)置語音識別功能等,例如,要求電腦、手機(jī)、音響、家電等產(chǎn)品支持無線連接、遠(yuǎn)程控制和語音交互等。
然而,在語音交互上,由于產(chǎn)品設(shè)計(jì)缺陷,回聲干擾以及遠(yuǎn)場使用場景下的環(huán)境噪聲和混響的干擾等,導(dǎo)致產(chǎn)品對語音指令識別率低下,不能及時(shí)響應(yīng)用戶的指令,交互體驗(yàn)差。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了一種對帶麥克風(fēng)陣列的設(shè)備進(jìn)行語音控制的方法和一種帶麥克風(fēng)陣列的設(shè)備,以解決現(xiàn)有方案造成的語音指令正確識別率差、交互體驗(yàn)差問題。
為達(dá)到上述目的,本發(fā)明實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:
一方面,本發(fā)明實(shí)施例提供了一種對帶麥克風(fēng)陣列的設(shè)備進(jìn)行語音控制的方法,該方法包括:
確認(rèn)設(shè)備處于音頻播放狀態(tài);
判斷音頻播放狀態(tài)下對設(shè)備造成干擾的干擾聲,根據(jù)該干擾聲的特征選取設(shè)備采用的語音增強(qiáng)方式;
實(shí)時(shí)檢測用戶的語音,當(dāng)檢測到喚醒詞時(shí),控制設(shè)備停止音頻播放;
判斷音頻停止后對設(shè)備造成干擾的干擾聲,根據(jù)該干擾聲的特征調(diào)整設(shè)備采用的語音增強(qiáng)方式;以及
獲取來自用戶的命令詞,控制設(shè)備執(zhí)行相應(yīng)功能,對用戶作出應(yīng)答。
又一方面,本發(fā)明實(shí)施例提供了一種帶麥克風(fēng)陣列的設(shè)備,該設(shè)備包括:
狀態(tài)確認(rèn)單元,用于確認(rèn)設(shè)備處于音頻播放狀態(tài);
語音增強(qiáng)單元,用于判斷音頻播放狀態(tài)下對設(shè)備造成干擾的干擾聲,根據(jù)該干擾聲的特征選取設(shè)備采用的語音增強(qiáng)方式;
檢測控制單元,用于實(shí)時(shí)檢測用戶的語音,當(dāng)檢測到喚醒詞時(shí),控制設(shè)備停止音頻播放;
所述語音增強(qiáng)單元,還用于判斷音頻停止后對設(shè)備造成干擾的干擾聲,根據(jù)該干擾聲的特征調(diào)整設(shè)備采用的語音增強(qiáng)方式;以及
功能執(zhí)行單元,用于獲取來自用戶的命令詞,控制設(shè)備執(zhí)行相應(yīng)功能,對用戶作出應(yīng)答。
由上,本發(fā)明實(shí)施例的技術(shù)方案,一方面對設(shè)備的語音環(huán)境和使用特點(diǎn)進(jìn)行分析,將語音增強(qiáng)分為兩個(gè)階段,以喚醒詞為分界點(diǎn),在檢測到喚醒詞之前和檢測到喚醒詞之后針對不同的聲音環(huán)境分別采用不同的語音增強(qiáng)方式,提高語音增強(qiáng)的效果,從而能更準(zhǔn)確、及時(shí)地檢測到用戶的語音指令;又一方面本實(shí)施例在檢測到喚醒詞時(shí),判斷出用戶此時(shí)有了新的需求,控制設(shè)備停止當(dāng)前音頻,等待用戶的新指令,不但有助于進(jìn)一步提高新指令的識別率,而且符合用戶的使用習(xí)慣,產(chǎn)品設(shè)計(jì)更加人性化,具有較佳的用戶體驗(yàn)。
附圖說明
圖1為本發(fā)明一個(gè)實(shí)施例提供的一種對帶麥克風(fēng)陣列的設(shè)備進(jìn)行語音控制的方法流程示意圖;
圖2為本發(fā)明又一個(gè)實(shí)施例提供的一種帶麥克風(fēng)陣列的設(shè)備的結(jié)構(gòu)示意圖;
圖3為本發(fā)明又一個(gè)實(shí)施例提供的又一種帶麥克風(fēng)陣列的設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
本發(fā)明一個(gè)實(shí)施例提供了一種對帶麥克風(fēng)陣列的設(shè)備進(jìn)行語音控制的方法,參見圖1,該方法包括如下步驟:
S100:確認(rèn)設(shè)備處于音頻播放狀態(tài)。
示例性的,當(dāng)檢測到設(shè)備當(dāng)前正在播放音樂時(shí),可以確認(rèn)設(shè)備處于音頻播放狀態(tài)
S101:判斷音頻播放狀態(tài)下對設(shè)備造成干擾的干擾聲,根據(jù)該干擾聲的特征選取設(shè)備采用的語音增強(qiáng)方式。
S102:實(shí)時(shí)檢測用戶的語音,當(dāng)檢測到喚醒詞時(shí),控制設(shè)備停止音頻播放。例如,通過設(shè)備中的麥克風(fēng)陣列采集用戶的語音,對采集到的語音進(jìn)行分析和特征提取,判斷是否存在喚醒詞。
S103:判斷音頻停止后對設(shè)備造成干擾的干擾聲,根據(jù)該干擾聲的特征調(diào)整設(shè)備采用的語音增強(qiáng)方式。
S104:獲取來自用戶的命令詞,控制設(shè)備執(zhí)行相應(yīng)功能,對用戶作出應(yīng)答。
圖1中示出的步驟執(zhí)行次序只是一種示例,本實(shí)施例并不局限于圖1,例如,步驟S102和S103可以同時(shí)進(jìn)行,而步驟S102中的實(shí)時(shí)檢測用戶的語音,可以在執(zhí)行步驟S100至S104的同時(shí)持續(xù)進(jìn)行。
在圖1所示實(shí)施例的基礎(chǔ)上,進(jìn)一步的,步驟S101和S103中可以根據(jù)干擾聲的類型和干擾聲的方向來選取設(shè)備采用的語音增強(qiáng)方式。
上述步驟S100至S104可以由設(shè)置在設(shè)備中的內(nèi)部裝置執(zhí)行,也可以由設(shè)置在設(shè)備外部的獨(dú)立裝置執(zhí)行。
對本發(fā)明又一實(shí)施例提供的技術(shù)方案進(jìn)行說明,包括下述步驟:
S200:確認(rèn)設(shè)備處于音頻播放狀態(tài)。
示例性的,當(dāng)檢測到設(shè)備當(dāng)前正在播放音樂時(shí),可以確認(rèn)設(shè)備處于音頻播放狀態(tài)
S201:判斷音頻播放狀態(tài)下對設(shè)備造成干擾的干擾聲,根據(jù)該干擾聲的特征選取設(shè)備采用的語音增強(qiáng)方式。
當(dāng)設(shè)備在播放音頻時(shí),考慮對語音識別造成較大干擾的因素是回聲,回聲的存在導(dǎo)致語音被淹沒。
在確認(rèn)干擾聲的類型為語音后,通過消除回聲來提高語音識別率;則本實(shí)施例先計(jì)算回聲的方向,如通過計(jì)算回聲在麥克風(fēng)陣列中各個(gè)麥克風(fēng)間的延時(shí)來獲取回聲的方向,選取波束成形(Beamforming)方式,并按照回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)來消除回聲帶來的干擾。對如何利用波束成形消除回聲的具體方法本實(shí)施例不作具體限定。
進(jìn)一步的,本實(shí)施例還提供了波束成形和自適應(yīng)消除兩級聯(lián)合消除回聲干擾的方案,這種級聯(lián)的處理方式至少包括如下兩種:
第一種方式:
在確認(rèn)干擾聲為回聲后,首先采用波束成形方式消除回聲,即計(jì)算回聲的方向,按照回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù),利用調(diào)整后的參數(shù)對設(shè)備采集到聲音的執(zhí)行波束成形處理得到第一級處理信號;
然后,對第一級處理信號執(zhí)行自適應(yīng)回聲消除處理,得到最后的消除回聲后的語音信號。
第二種方式:
在確認(rèn)干擾聲為回聲后,首先對設(shè)備采集到的聲音信號采用自適應(yīng)回聲消除方式消除回聲,得到第一級處理信號;然后,再采用波束成形方式,按照回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù),利用調(diào)整后的參數(shù)對第一級處理信號執(zhí)行波束成形處理得到最后的消除回聲后的語音信號。
S202:實(shí)時(shí)檢測用戶的語音,當(dāng)檢測到喚醒詞時(shí),控制設(shè)備停止音頻播放。
通過設(shè)備上的麥克風(fēng)實(shí)時(shí)采集用戶的語音信號,對語音信號進(jìn)行檢測,判斷是否存在喚醒詞,這種對用戶語音的檢測操作可以在設(shè)備運(yùn)行的過程始終進(jìn)行。
本實(shí)施例中的喚醒詞,或稱之為熱詞,用于喚醒設(shè)備以執(zhí)行相應(yīng)功能。通過預(yù)先將喚醒詞(以及命令詞)設(shè)置在設(shè)備中,并告知用戶,使用戶能夠通過喚醒詞發(fā)送語音命令控制設(shè)備;也可以由用戶自行設(shè)定喚醒詞(以及命令詞),設(shè)備接收用戶輸入的信息,獲知所使用的喚醒詞(以及命令詞)。
本實(shí)施例中會建立喚醒詞與相應(yīng)控制邏輯的對應(yīng)關(guān)系,例如,該控制邏輯包括控制設(shè)備停止音頻播放,這種控制方式是由于當(dāng)檢測到喚醒詞時(shí),判斷用戶產(chǎn)生了新的需求,將音頻停掉不僅有助于清晰采集到后續(xù)用戶即將發(fā)出的命令詞,且停止音頻本身即是對用戶指令的一種響應(yīng),符合人類交流的一般習(xí)慣,能產(chǎn)生較好的用戶體驗(yàn)。另外,在停止音頻時(shí),還可以控制設(shè)備上作出其他響應(yīng),例如控制設(shè)備的朝向用戶的指示燈閃爍,或?qū)梢苿釉O(shè)備,控制設(shè)備正面轉(zhuǎn)動至朝向用戶的方向,控制設(shè)備向用戶移動等等。
上述控制邏輯還包括當(dāng)確認(rèn)檢測到喚醒詞時(shí),在控制設(shè)備停止音頻播放之前,不再識別其他命令,不對來自用戶的語音命令進(jìn)行識別和處理。音頻停止后,再啟動語音的識別和處理操作,等待接收用戶的命令。這種處理方式進(jìn)一步保證了有效地語音識別。
S103:判斷音頻停止后對設(shè)備造成干擾的干擾聲,根據(jù)該干擾聲的特征調(diào)整設(shè)備采用的語音增強(qiáng)方式。
在設(shè)備停止音頻播放后,考慮對語音識別造成較大干擾的因素是環(huán)境噪聲和混響,即確認(rèn)這時(shí)的干擾聲類型為環(huán)境噪聲和混響,通過消除環(huán)境噪聲和混響來提高語音識別率,則本實(shí)施例先計(jì)算環(huán)境噪聲的方向,如通過計(jì)算環(huán)境噪聲在麥克風(fēng)陣列的各個(gè)麥克風(fēng)間的延時(shí)來獲取環(huán)境噪聲的方向,將設(shè)備采用的語音增強(qiáng)方式調(diào)整為噪聲和混響消除模式,并按環(huán)境噪聲的方向調(diào)整麥克風(fēng)陣列的參數(shù),來消除環(huán)境噪聲和混響帶來的干擾。對于如何在噪聲和混響消除模式下消除干擾,可以采用現(xiàn)有的方案,本實(shí)施例不進(jìn)行嚴(yán)格限定。
需要說明的是,混響的方向是不能計(jì)算出的,本實(shí)施例通過抑制環(huán)境噪聲的方向的波束成形,能夠達(dá)到同時(shí)抑制混響的技術(shù)效果
S104:獲取來自用戶的命令詞,控制設(shè)備執(zhí)行相應(yīng)功能,對用戶作出應(yīng)答。
命令詞包括控制設(shè)備自帶功能的命令,如控制設(shè)備中喇叭的音量播放大小的命令,控制設(shè)備移動的命令,還可以包括控制設(shè)備中安裝的應(yīng)用程序的命令,但不局限于此。
由于相對于喚醒詞,命令詞數(shù)目多,內(nèi)容復(fù)雜,為了降低設(shè)備負(fù)擔(dān),提高識別精度,本實(shí)施例對命令詞采用云端處理的方式。在設(shè)備停止音頻后,采集用戶在喚醒詞之后發(fā)出的語音信號;將語音信號傳輸至云端服務(wù)器,由云端服務(wù)器對該語音信號進(jìn)行特征匹配,由匹配成功的語音信號得到命令詞;接收云端服務(wù)器返回的命令詞,根據(jù)該命令詞控制設(shè)備執(zhí)行相應(yīng)功能,以對用戶進(jìn)行相應(yīng)應(yīng)答。
由上,本實(shí)施例根據(jù)對喚醒詞的識別,將語音增強(qiáng)分為兩個(gè)處理階段,設(shè)備中的麥克風(fēng)陣列分別采用不同的處理方式,提高了語音命令的識別率。
本發(fā)明又一個(gè)實(shí)施例提供了一種帶麥克風(fēng)陣列的設(shè)備200,參見圖2,該設(shè)備200包括:
狀態(tài)確認(rèn)單元211,用于確認(rèn)設(shè)備處于音頻播放狀態(tài);
語音增強(qiáng)單元212,用于判斷音頻播放狀態(tài)下對設(shè)備造成干擾的干擾聲,根據(jù)該干擾聲的特征選取設(shè)備采用的語音增強(qiáng)方式;
檢測控制單元213,用于實(shí)時(shí)檢測用戶的語音,當(dāng)檢測到喚醒詞時(shí),控制設(shè)備停止音頻播放;
語音增強(qiáng)單元212,還用于判斷音頻停止后對設(shè)備造成干擾的干擾聲,根據(jù)該干擾聲的特征調(diào)整設(shè)備采用的語音增強(qiáng)方式;以及
功能執(zhí)行單元214,用于獲取來自用戶的命令詞,控制設(shè)備執(zhí)行相應(yīng)功能,對用戶作出應(yīng)答。
在圖2所示實(shí)施例的基礎(chǔ)上,語音增強(qiáng)單元212根據(jù)干擾聲的類型和干擾聲的方向來選取設(shè)備采用的語音增強(qiáng)方式。具體地,語音增強(qiáng)單元212判斷音頻播放狀態(tài)下對設(shè)備造成干擾的干擾聲為回聲;獲取回聲的方向;選取波束成形方式,并按照回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)來消除回聲帶來的干擾;具體的,語音增強(qiáng)單元212獲取干擾聲的方向時(shí),通過計(jì)算干擾聲在麥克風(fēng)陣列的各麥克風(fēng)間的延時(shí)來計(jì)算干擾聲(如回聲或環(huán)境噪聲)的方向。
在此操作的基礎(chǔ)上,當(dāng)采用波束成形和自適應(yīng)濾波聯(lián)合消除回聲的方案時(shí),語音增強(qiáng)單元212還用于在選取波束成形方式,并按照回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)來消除回聲帶來的干擾得到第一級處理信號后,對第一級處理信號執(zhí)行自適應(yīng)回聲消除;或者,在選取波束成形方式,并按照回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)來消除回聲帶來的干擾之前,對干擾聲執(zhí)行自適應(yīng)回聲消除得到第一級處理信號,再根據(jù)回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)消除第一級處理信號中的干擾。
以及,語音增強(qiáng)單元212判斷音頻停止后對設(shè)備造成干擾的干擾聲為環(huán)境噪聲和混響;獲取環(huán)境噪聲的方向;將設(shè)備采用的語音增強(qiáng)方式調(diào)整為噪聲和混響消除模式,并按環(huán)境噪聲的方向調(diào)整麥克風(fēng)陣列的參數(shù),來消除環(huán)境噪聲和混響帶來的干擾。
參見圖3,功能執(zhí)行單元214包括采集模塊2141,傳輸模塊2142和執(zhí)行模塊2143。
采集模塊2141采集用戶在喚醒詞之后發(fā)出的語音信號。在功能執(zhí)行單元214中可以單獨(dú)設(shè)置采集模塊2141,或者,功能執(zhí)行單元214可以調(diào)用檢測控制單元213中的檢測功能來采集用于的語音信號。
傳輸模塊2142將所述語音信號傳輸至云端服務(wù)器,由云端服務(wù)器對該語音信號進(jìn)行特征匹配,由匹配成功的語音信號得到命令詞,并接收云端服務(wù)器返回的命令詞;
執(zhí)行模塊2142根據(jù)該命令詞控制設(shè)備執(zhí)行相應(yīng)功能,以對用戶進(jìn)行相應(yīng)應(yīng)答。
帶麥克風(fēng)陣列的設(shè)備200可以為智能便攜終端或智能家電,智能便攜終端至少包括智能手表、智能手機(jī)或智能音響;智能家電至少包括智能電視、智能空調(diào)或智能充電插座,但并不局限于此。
本發(fā)明設(shè)備實(shí)施例中各單元的具體工作方式,可以參見本發(fā)明方法實(shí)施例的相關(guān)內(nèi)容,在此不再贅述。
由上,本發(fā)明實(shí)施例的技術(shù)方案,一方面對設(shè)備的語音環(huán)境和使用特點(diǎn)進(jìn)行分析,將語音增強(qiáng)分為兩個(gè)階段,以喚醒詞為分界點(diǎn),在檢測到喚醒詞之前和檢測到喚醒詞之后針對不同的聲音環(huán)境分別采用不同的語音增強(qiáng)方式,提高語音增強(qiáng)的效果,從而能更準(zhǔn)確、及時(shí)地檢測到用戶的語音指令;又一方面本實(shí)施例在檢測到喚醒詞時(shí),判斷出用戶此時(shí)有了新的需求,控制設(shè)備停止當(dāng)前音頻,等待用戶的新指令,不但有助于進(jìn)一步提高新指令的識別率,而且符合用戶的使用習(xí)慣,產(chǎn)品設(shè)計(jì)更加人性化,具有較佳的用戶體驗(yàn)。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。