對帶麥克風(fēng)陣列的設(shè)備進(jìn)行語音控制的方法及設(shè)備與流程

文檔序號：12787774閱讀：272來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

對帶麥克風(fēng)陣列的設(shè)備進(jìn)行語音控制的方法及設(shè)備與流程

本發(fā)明涉及語音交互技術(shù)領(lǐng)域，特別涉及一種對帶麥克風(fēng)陣列的設(shè)備進(jìn)行語音控制的方法和一種帶麥克風(fēng)陣列的設(shè)備。

背景技術(shù)：

隨著智能技術(shù)的發(fā)展，很多廠商開始考慮在智能產(chǎn)品上設(shè)置語音識別功能等，例如，要求電腦、手機(jī)、音響、家電等產(chǎn)品支持無線連接、遠(yuǎn)程控制和語音交互等。

然而，在語音交互上，由于產(chǎn)品設(shè)計(jì)缺陷，回聲干擾以及遠(yuǎn)場使用場景下的環(huán)境噪聲和混響的干擾等，導(dǎo)致產(chǎn)品對語音指令識別率低下，不能及時(shí)響應(yīng)用戶的指令，交互體驗(yàn)差。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明實(shí)施例提供了一種對帶麥克風(fēng)陣列的設(shè)備進(jìn)行語音控制的方法和一種帶麥克風(fēng)陣列的設(shè)備，以解決現(xiàn)有方案造成的語音指令正確識別率差、交互體驗(yàn)差問題。

為達(dá)到上述目的，本發(fā)明實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的：

一方面，本發(fā)明實(shí)施例提供了一種對帶麥克風(fēng)陣列的設(shè)備進(jìn)行語音控制的方法，該方法包括：

確認(rèn)設(shè)備處于音頻播放狀態(tài)；

判斷音頻播放狀態(tài)下對設(shè)備造成干擾的干擾聲，根據(jù)該干擾聲的特征選取設(shè)備采用的語音增強(qiáng)方式；

實(shí)時(shí)檢測用戶的語音，當(dāng)檢測到喚醒詞時(shí)，控制設(shè)備停止音頻播放；

判斷音頻停止后對設(shè)備造成干擾的干擾聲，根據(jù)該干擾聲的特征調(diào)整設(shè)備采用的語音增強(qiáng)方式；以及

獲取來自用戶的命令詞，控制設(shè)備執(zhí)行相應(yīng)功能，對用戶作出應(yīng)答。

又一方面，本發(fā)明實(shí)施例提供了一種帶麥克風(fēng)陣列的設(shè)備，該設(shè)備包括：

狀態(tài)確認(rèn)單元，用于確認(rèn)設(shè)備處于音頻播放狀態(tài)；

語音增強(qiáng)單元，用于判斷音頻播放狀態(tài)下對設(shè)備造成干擾的干擾聲，根據(jù)該干擾聲的特征選取設(shè)備采用的語音增強(qiáng)方式；

檢測控制單元，用于實(shí)時(shí)檢測用戶的語音，當(dāng)檢測到喚醒詞時(shí)，控制設(shè)備停止音頻播放；

所述語音增強(qiáng)單元，還用于判斷音頻停止后對設(shè)備造成干擾的干擾聲，根據(jù)該干擾聲的特征調(diào)整設(shè)備采用的語音增強(qiáng)方式；以及

功能執(zhí)行單元，用于獲取來自用戶的命令詞，控制設(shè)備執(zhí)行相應(yīng)功能，對用戶作出應(yīng)答。

由上，本發(fā)明實(shí)施例的技術(shù)方案，一方面對設(shè)備的語音環(huán)境和使用特點(diǎn)進(jìn)行分析，將語音增強(qiáng)分為兩個(gè)階段，以喚醒詞為分界點(diǎn)，在檢測到喚醒詞之前和檢測到喚醒詞之后針對不同的聲音環(huán)境分別采用不同的語音增強(qiáng)方式，提高語音增強(qiáng)的效果，從而能更準(zhǔn)確、及時(shí)地檢測到用戶的語音指令；又一方面本實(shí)施例在檢測到喚醒詞時(shí)，判斷出用戶此時(shí)有了新的需求，控制設(shè)備停止當(dāng)前音頻，等待用戶的新指令，不但有助于進(jìn)一步提高新指令的識別率，而且符合用戶的使用習(xí)慣，產(chǎn)品設(shè)計(jì)更加人性化，具有較佳的用戶體驗(yàn)。

附圖說明

圖1為本發(fā)明一個(gè)實(shí)施例提供的一種對帶麥克風(fēng)陣列的設(shè)備進(jìn)行語音控制的方法流程示意圖；

圖2為本發(fā)明又一個(gè)實(shí)施例提供的一種帶麥克風(fēng)陣列的設(shè)備的結(jié)構(gòu)示意圖；

圖3為本發(fā)明又一個(gè)實(shí)施例提供的又一種帶麥克風(fēng)陣列的設(shè)備的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合附圖對本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。

本發(fā)明一個(gè)實(shí)施例提供了一種對帶麥克風(fēng)陣列的設(shè)備進(jìn)行語音控制的方法，參見圖1，該方法包括如下步驟：

S100：確認(rèn)設(shè)備處于音頻播放狀態(tài)。

示例性的，當(dāng)檢測到設(shè)備當(dāng)前正在播放音樂時(shí)，可以確認(rèn)設(shè)備處于音頻播放狀態(tài)

S101：判斷音頻播放狀態(tài)下對設(shè)備造成干擾的干擾聲，根據(jù)該干擾聲的特征選取設(shè)備采用的語音增強(qiáng)方式。

S102：實(shí)時(shí)檢測用戶的語音，當(dāng)檢測到喚醒詞時(shí)，控制設(shè)備停止音頻播放。例如，通過設(shè)備中的麥克風(fēng)陣列采集用戶的語音，對采集到的語音進(jìn)行分析和特征提取，判斷是否存在喚醒詞。

S103：判斷音頻停止后對設(shè)備造成干擾的干擾聲，根據(jù)該干擾聲的特征調(diào)整設(shè)備采用的語音增強(qiáng)方式。

S104：獲取來自用戶的命令詞，控制設(shè)備執(zhí)行相應(yīng)功能，對用戶作出應(yīng)答。

圖1中示出的步驟執(zhí)行次序只是一種示例，本實(shí)施例并不局限于圖1，例如，步驟S102和S103可以同時(shí)進(jìn)行，而步驟S102中的實(shí)時(shí)檢測用戶的語音，可以在執(zhí)行步驟S100至S104的同時(shí)持續(xù)進(jìn)行。

在圖1所示實(shí)施例的基礎(chǔ)上，進(jìn)一步的，步驟S101和S103中可以根據(jù)干擾聲的類型和干擾聲的方向來選取設(shè)備采用的語音增強(qiáng)方式。

上述步驟S100至S104可以由設(shè)置在設(shè)備中的內(nèi)部裝置執(zhí)行，也可以由設(shè)置在設(shè)備外部的獨(dú)立裝置執(zhí)行。

對本發(fā)明又一實(shí)施例提供的技術(shù)方案進(jìn)行說明，包括下述步驟：

S200：確認(rèn)設(shè)備處于音頻播放狀態(tài)。

示例性的，當(dāng)檢測到設(shè)備當(dāng)前正在播放音樂時(shí)，可以確認(rèn)設(shè)備處于音頻播放狀態(tài)

S201：判斷音頻播放狀態(tài)下對設(shè)備造成干擾的干擾聲，根據(jù)該干擾聲的特征選取設(shè)備采用的語音增強(qiáng)方式。

當(dāng)設(shè)備在播放音頻時(shí)，考慮對語音識別造成較大干擾的因素是回聲，回聲的存在導(dǎo)致語音被淹沒。

在確認(rèn)干擾聲的類型為語音后，通過消除回聲來提高語音識別率；則本實(shí)施例先計(jì)算回聲的方向，如通過計(jì)算回聲在麥克風(fēng)陣列中各個(gè)麥克風(fēng)間的延時(shí)來獲取回聲的方向，選取波束成形(Beamforming)方式，并按照回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)來消除回聲帶來的干擾。對如何利用波束成形消除回聲的具體方法本實(shí)施例不作具體限定。

進(jìn)一步的，本實(shí)施例還提供了波束成形和自適應(yīng)消除兩級聯(lián)合消除回聲干擾的方案，這種級聯(lián)的處理方式至少包括如下兩種：

第一種方式：

在確認(rèn)干擾聲為回聲后，首先采用波束成形方式消除回聲，即計(jì)算回聲的方向，按照回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)，利用調(diào)整后的參數(shù)對設(shè)備采集到聲音的執(zhí)行波束成形處理得到第一級處理信號；

然后，對第一級處理信號執(zhí)行自適應(yīng)回聲消除處理，得到最后的消除回聲后的語音信號。

第二種方式：

在確認(rèn)干擾聲為回聲后，首先對設(shè)備采集到的聲音信號采用自適應(yīng)回聲消除方式消除回聲，得到第一級處理信號；然后，再采用波束成形方式，按照回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)，利用調(diào)整后的參數(shù)對第一級處理信號執(zhí)行波束成形處理得到最后的消除回聲后的語音信號。

S202：實(shí)時(shí)檢測用戶的語音，當(dāng)檢測到喚醒詞時(shí)，控制設(shè)備停止音頻播放。

通過設(shè)備上的麥克風(fēng)實(shí)時(shí)采集用戶的語音信號，對語音信號進(jìn)行檢測，判斷是否存在喚醒詞，這種對用戶語音的檢測操作可以在設(shè)備運(yùn)行的過程始終進(jìn)行。

本實(shí)施例中的喚醒詞，或稱之為熱詞，用于喚醒設(shè)備以執(zhí)行相應(yīng)功能。通過預(yù)先將喚醒詞(以及命令詞)設(shè)置在設(shè)備中，并告知用戶，使用戶能夠通過喚醒詞發(fā)送語音命令控制設(shè)備；也可以由用戶自行設(shè)定喚醒詞(以及命令詞)，設(shè)備接收用戶輸入的信息，獲知所使用的喚醒詞(以及命令詞)。

本實(shí)施例中會建立喚醒詞與相應(yīng)控制邏輯的對應(yīng)關(guān)系，例如，該控制邏輯包括控制設(shè)備停止音頻播放，這種控制方式是由于當(dāng)檢測到喚醒詞時(shí)，判斷用戶產(chǎn)生了新的需求，將音頻停掉不僅有助于清晰采集到后續(xù)用戶即將發(fā)出的命令詞，且停止音頻本身即是對用戶指令的一種響應(yīng)，符合人類交流的一般習(xí)慣，能產(chǎn)生較好的用戶體驗(yàn)。另外，在停止音頻時(shí)，還可以控制設(shè)備上作出其他響應(yīng)，例如控制設(shè)備的朝向用戶的指示燈閃爍，或?qū)梢苿釉O(shè)備，控制設(shè)備正面轉(zhuǎn)動至朝向用戶的方向，控制設(shè)備向用戶移動等等。

上述控制邏輯還包括當(dāng)確認(rèn)檢測到喚醒詞時(shí)，在控制設(shè)備停止音頻播放之前，不再識別其他命令，不對來自用戶的語音命令進(jìn)行識別和處理。音頻停止后，再啟動語音的識別和處理操作，等待接收用戶的命令。這種處理方式進(jìn)一步保證了有效地語音識別。

S103：判斷音頻停止后對設(shè)備造成干擾的干擾聲，根據(jù)該干擾聲的特征調(diào)整設(shè)備采用的語音增強(qiáng)方式。

在設(shè)備停止音頻播放后，考慮對語音識別造成較大干擾的因素是環(huán)境噪聲和混響，即確認(rèn)這時(shí)的干擾聲類型為環(huán)境噪聲和混響，通過消除環(huán)境噪聲和混響來提高語音識別率，則本實(shí)施例先計(jì)算環(huán)境噪聲的方向，如通過計(jì)算環(huán)境噪聲在麥克風(fēng)陣列的各個(gè)麥克風(fēng)間的延時(shí)來獲取環(huán)境噪聲的方向，將設(shè)備采用的語音增強(qiáng)方式調(diào)整為噪聲和混響消除模式，并按環(huán)境噪聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)，來消除環(huán)境噪聲和混響帶來的干擾。對于如何在噪聲和混響消除模式下消除干擾，可以采用現(xiàn)有的方案，本實(shí)施例不進(jìn)行嚴(yán)格限定。

需要說明的是，混響的方向是不能計(jì)算出的，本實(shí)施例通過抑制環(huán)境噪聲的方向的波束成形，能夠達(dá)到同時(shí)抑制混響的技術(shù)效果

S104：獲取來自用戶的命令詞，控制設(shè)備執(zhí)行相應(yīng)功能，對用戶作出應(yīng)答。

命令詞包括控制設(shè)備自帶功能的命令，如控制設(shè)備中喇叭的音量播放大小的命令，控制設(shè)備移動的命令，還可以包括控制設(shè)備中安裝的應(yīng)用程序的命令，但不局限于此。

由于相對于喚醒詞，命令詞數(shù)目多，內(nèi)容復(fù)雜，為了降低設(shè)備負(fù)擔(dān)，提高識別精度，本實(shí)施例對命令詞采用云端處理的方式。在設(shè)備停止音頻后，采集用戶在喚醒詞之后發(fā)出的語音信號；將語音信號傳輸至云端服務(wù)器，由云端服務(wù)器對該語音信號進(jìn)行特征匹配，由匹配成功的語音信號得到命令詞；接收云端服務(wù)器返回的命令詞，根據(jù)該命令詞控制設(shè)備執(zhí)行相應(yīng)功能，以對用戶進(jìn)行相應(yīng)應(yīng)答。

由上，本實(shí)施例根據(jù)對喚醒詞的識別，將語音增強(qiáng)分為兩個(gè)處理階段,設(shè)備中的麥克風(fēng)陣列分別采用不同的處理方式，提高了語音命令的識別率。

本發(fā)明又一個(gè)實(shí)施例提供了一種帶麥克風(fēng)陣列的設(shè)備200，參見圖2，該設(shè)備200包括：

狀態(tài)確認(rèn)單元211，用于確認(rèn)設(shè)備處于音頻播放狀態(tài)；

語音增強(qiáng)單元212，用于判斷音頻播放狀態(tài)下對設(shè)備造成干擾的干擾聲，根據(jù)該干擾聲的特征選取設(shè)備采用的語音增強(qiáng)方式；

檢測控制單元213，用于實(shí)時(shí)檢測用戶的語音，當(dāng)檢測到喚醒詞時(shí)，控制設(shè)備停止音頻播放；

語音增強(qiáng)單元212，還用于判斷音頻停止后對設(shè)備造成干擾的干擾聲，根據(jù)該干擾聲的特征調(diào)整設(shè)備采用的語音增強(qiáng)方式；以及

功能執(zhí)行單元214，用于獲取來自用戶的命令詞，控制設(shè)備執(zhí)行相應(yīng)功能，對用戶作出應(yīng)答。

在圖2所示實(shí)施例的基礎(chǔ)上，語音增強(qiáng)單元212根據(jù)干擾聲的類型和干擾聲的方向來選取設(shè)備采用的語音增強(qiáng)方式。具體地，語音增強(qiáng)單元212判斷音頻播放狀態(tài)下對設(shè)備造成干擾的干擾聲為回聲；獲取回聲的方向；選取波束成形方式，并按照回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)來消除回聲帶來的干擾；具體的，語音增強(qiáng)單元212獲取干擾聲的方向時(shí)，通過計(jì)算干擾聲在麥克風(fēng)陣列的各麥克風(fēng)間的延時(shí)來計(jì)算干擾聲(如回聲或環(huán)境噪聲)的方向。

在此操作的基礎(chǔ)上，當(dāng)采用波束成形和自適應(yīng)濾波聯(lián)合消除回聲的方案時(shí)，語音增強(qiáng)單元212還用于在選取波束成形方式，并按照回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)來消除回聲帶來的干擾得到第一級處理信號后，對第一級處理信號執(zhí)行自適應(yīng)回聲消除；或者，在選取波束成形方式，并按照回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)來消除回聲帶來的干擾之前，對干擾聲執(zhí)行自適應(yīng)回聲消除得到第一級處理信號，再根據(jù)回聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)消除第一級處理信號中的干擾。

以及，語音增強(qiáng)單元212判斷音頻停止后對設(shè)備造成干擾的干擾聲為環(huán)境噪聲和混響；獲取環(huán)境噪聲的方向；將設(shè)備采用的語音增強(qiáng)方式調(diào)整為噪聲和混響消除模式，并按環(huán)境噪聲的方向調(diào)整麥克風(fēng)陣列的參數(shù)，來消除環(huán)境噪聲和混響帶來的干擾。

參見圖3，功能執(zhí)行單元214包括采集模塊2141，傳輸模塊2142和執(zhí)行模塊2143。

采集模塊2141采集用戶在喚醒詞之后發(fā)出的語音信號。在功能執(zhí)行單元214中可以單獨(dú)設(shè)置采集模塊2141，或者，功能執(zhí)行單元214可以調(diào)用檢測控制單元213中的檢測功能來采集用于的語音信號。

傳輸模塊2142將所述語音信號傳輸至云端服務(wù)器，由云端服務(wù)器對該語音信號進(jìn)行特征匹配，由匹配成功的語音信號得到命令詞，并接收云端服務(wù)器返回的命令詞；

執(zhí)行模塊2142根據(jù)該命令詞控制設(shè)備執(zhí)行相應(yīng)功能，以對用戶進(jìn)行相應(yīng)應(yīng)答。

帶麥克風(fēng)陣列的設(shè)備200可以為智能便攜終端或智能家電，智能便攜終端至少包括智能手表、智能手機(jī)或智能音響；智能家電至少包括智能電視、智能空調(diào)或智能充電插座，但并不局限于此。

本發(fā)明設(shè)備實(shí)施例中各單元的具體工作方式，可以參見本發(fā)明方法實(shí)施例的相關(guān)內(nèi)容，在此不再贅述。

以上所述僅為本發(fā)明的較佳實(shí)施例而已，并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等，均包含在本發(fā)明的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3