本發(fā)明涉及語音交互技術領域,特別涉及一種出聲設備的去混響控制方法和裝置。
背景技術:
隨著智能技術的發(fā)展,很多廠商開始考慮在智能產(chǎn)品上設置語音識別功能等,例如,要求電腦、手機、音響、家電等產(chǎn)品支持無線連接、遠程控制和語音交互等。
然而,當用戶與智能產(chǎn)品進行語音交互時,用戶發(fā)出的聲音經(jīng)房間反射后又被智能產(chǎn)品采集到,產(chǎn)生了混響,由于混響中包含了與正確信號相似的信號,對語音信息和語音特征提取的干擾較大,必須進行去混響操作?,F(xiàn)有的去混響方案不能很好地適用于用戶與智能產(chǎn)品交互的場景,要么去混響程度較低,導致混響殘留較大,要么去混響程度過高,削弱了用戶語音,導致產(chǎn)品對語音指令識別率嚴重下降,不能及時響應用戶的指令,交互體驗差。
技術實現(xiàn)要素:
本發(fā)明實施例提供了一種出聲設備的去混響控制方法和裝置,以解決現(xiàn)有產(chǎn)品對語音指令的識別率低、交互體驗差的問題等。
為達到上述目的,本發(fā)明的技術方案是這樣實現(xiàn)的:
一方面,本發(fā)明實施例提供了一種出聲設備的去混響控制方法。該方法包括:
當設備播放音頻時,實時采集來自用戶的語音信號;
獲取用戶與設備之間的相對位置信息和設備所在房間環(huán)境的聲學參數(shù);
根據(jù)所述相對位置信息和聲學參數(shù)中的一種或多種,選取設備中相應的麥克風,并調用對應的語音增強方式,執(zhí)行去混響操作;
獲取來自用戶的語音命令詞,控制設備執(zhí)行相應功能,對用戶作出應答。
又一方面,本發(fā)明實施例提供了一種出聲設備的去混響控制裝置。該裝置包括:
語音采集器,用于當設備播放音頻時,實時采集來自用戶的語音信號;
因子獲取單元,用于獲取用戶與設備之間的相對位置信息和設備所在房間環(huán)境的聲學參數(shù);
去混響執(zhí)行單元,用于根據(jù)所述相對位置信息和聲學參數(shù)中的一種或多種,選取設備中相應的麥克風,并調用對應的語音增強方式,執(zhí)行去混響操作;
命令執(zhí)行單元,用于獲取來自用戶的語音命令詞,控制設備執(zhí)行相應功能,對用戶作出應答。
本發(fā)明實施例的技術方案,基于用戶與設備的相對信息調整語音增強方式時,能夠在去混響同時較好地增強或保護用戶語音,提高語音識別率;基于關聯(lián)于用戶、設備的聲學參數(shù)執(zhí)行去混響時,能夠根據(jù)聲學參數(shù)指示的聲學環(huán)境的變化,采用不同的語音增強方式,保證適當?shù)娜セ祉懗潭龋鉀Q了現(xiàn)有方案易于導致的混響殘留大或削弱用戶語音的問題,達到較高的語音識別率??梢岳斫猓斖瑫r結合用戶信息和環(huán)境信息去混響時,能夠進一步提升語音識別的準確率。
附圖說明
圖1為本發(fā)明一個實施例提供的一種出聲設備的去混響控制方法示意圖;
圖2為本發(fā)明又一個實施例提供的出聲設備的去混響控制裝置結構示意圖;
圖3為本發(fā)明又一個實施例提供的又一種出聲設備的去混響控制裝置結構示意圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明實施方式作進一步地詳細描述。
本發(fā)明一個實施例提供了一種出聲設備的去混響控制方法。參見圖1,該方法包括如下步驟:
S101:當設備播放音頻時,實時采集來自用戶的語音信號。
S102:獲取用戶與設備之間的相對位置信息、用戶及設備所在房間環(huán)境的聲學參數(shù)。
本實施例在選取控制去混響的參照量時,以用戶相關量和空間相關量兩個基本的因子為基礎,并結合這兩種基本因子衍生出同時體現(xiàn)了用戶信息和空間信息的綜合因子。
例如,獲取用戶相對于設備的方向信息和距離信息,作為相對位置信息,這屬于用戶相關量;而聲學參數(shù)則既可屬于基本因子,也可屬于綜合因子,如房間的混響時間(T60,T30或T20等)屬于一種空間相關量;用戶語音的直達混響比(設備采集到的用戶語音中直達聲與混響聲的比例)、設備利用其內置的麥克風陣列采集用戶語音并計算出的語音清晰度(如C50等),則同時與用戶和空間關聯(lián),屬于綜合因子。
S103:根據(jù)所述相對位置信息和聲學參數(shù)中的一種或多種,選取設備中相應的麥克風,并調用對應的語音增強方式,執(zhí)行去混響操作;
S104:獲取來自用戶的語音命令詞,控制設備執(zhí)行相應功能,對用戶作出應答。
由上,本發(fā)明實施例的技術方案,基于用戶與設備的相對信息調整語音增強方式時,能夠在去混響同時較好地增強或保護用戶語音,提高語音識別率;基于關聯(lián)于用戶、設備的聲學參數(shù)執(zhí)行去混響時,能夠根據(jù)聲學參數(shù)指示的聲學環(huán)境的變化,采用不同的語音增強方式,保證適當?shù)娜セ祉懗潭龋鉀Q了現(xiàn)有方案易于導致的混響殘留大或削弱用戶語音的問題,達到較高的語音識別率??梢岳斫猓斖瑫r結合用戶信息和環(huán)境信息去混響時,能夠進一步提升語音識別的準確率。
在圖1所示實施例的基礎上,進一步的,為了更加匹配用戶與設備語音交互的特點,本發(fā)明又一實施中,在執(zhí)行步驟S102的同時包括但不局限于采用下述處理方式:根據(jù)設備采集到的語音信號判斷檢測到喚醒詞時,控制設備停止音頻播放;或者,根據(jù)該語音信號判斷檢測到喚醒詞時,降低設備音頻播放的音量至音量閾值以下。
這種處理方式,根據(jù)用戶與設備語音交互場景的特點,在檢測到喚醒詞時,判斷出用戶此時有了新的需求,控制設備停止當前音頻,等待用戶的新指令,不但有助于進一步提高新指令的識別率,而且符合語音交互場景的使用習慣,提高了交互體驗。
控制音頻播放的操作與步驟S102同時執(zhí)行,縮短響應時間,更及時地對用戶進行響應。
進一步的,在步驟S104中,命令詞包括控制設備自帶功能的命令,如控制設備中喇叭的音量播放大小的命令,控制設備移動的命令,還可以包括控制設備中安裝的應用程序的命令,但不局限于此。
由于相對于喚醒詞,命令詞數(shù)目多,內容復雜,為了降低設備負擔,提高識別精度,本實施例對命令詞采用云端處理的方式。在設備停止音頻后,采集用戶在喚醒詞之后發(fā)出的語音信號;將語音信號傳輸至云端服務器,由云端服務器對該語音信號進行特征匹配,由匹配成功的語音信號得到命令詞;接收云端服務器返回的命令詞,根據(jù)該命令詞控制設備執(zhí)行相應功能,以對用戶進行相應應答。
本發(fā)明又一實施例中主要對如何基于用戶相關量和空間相關量進行去混響操作進行具體說明,本方案的其他內容參照其他實施例。
本發(fā)明各實施例中的出聲設備為帶麥克風陣列的出聲設備,利用麥克風陣列采集用戶語音,并執(zhí)行去混響。在一次根據(jù)基本因子或綜合因子去混響的過程中,根據(jù)產(chǎn)品需求和使用場景選取使用的麥克風會不相同,可以選用麥克風陣列中全部的麥克風,也可以選用麥克風陣列中的部分麥克風。例如,如果用戶距離較近,語音比較響亮清晰,則可以只用一部分麥克風,就可以達到和使用全部麥克風時接近的效果,此時就沒必要使用全部麥克風了。如果用戶距離較遠,語音較弱,混響較重,則需要選用全部麥克風來進行處理。
對需要利用多個因子去混響的場景,本實施例為相對位置信息和聲學參數(shù)包括的各因子分別設置優(yōu)先級;按照優(yōu)先級從高到低,逐次基于相應因子,執(zhí)行去混響操作,或者僅采用優(yōu)先級高于預定級別的因子,執(zhí)行去混響操作。采用分級別的處理方式,不但能根據(jù)不同場景提供有針對性的語音增強方式,達到較好的去混響效果,且能夠降低計算復雜度,縮短響應時間。可以理解,也可以不分級別,同時采用所有因子進行去混響。
例如,設置相對位置信息的優(yōu)先級高于聲學參數(shù)的優(yōu)先級,而相對位置信息中方向信息的優(yōu)先級高于距離信息。去混響時,優(yōu)先利用方向信息,然后是距離信息,最后采用聲學參數(shù)?;蛘撸瑸楦饕蜃觾?yōu)先級設置級別數(shù)值和閾值,如相對位置信息級別數(shù)值為5,聲學參數(shù)級別數(shù)值為3,級別閾值為4,則根據(jù)規(guī)則采用優(yōu)先級為4以上的因子時,僅采用相對位置信息執(zhí)行去混響操作??梢岳斫?,對聲學參數(shù)中的各個因子,也可以分別設置多個級別等級,采用上述相似的處理方式。
本實施例在去混響時可以采用下述的一種或多種方式:
第一種方式
根據(jù)方向信息指示的用戶相對于設備的方向,選取設備中相應的麥克風,調整語音增強方式所增強的聲音方向,執(zhí)行去混響操作。
第二種方式
當距離信息指示的用戶相對于設備的距離小于第一距離閾值時,降低語音增強方式中的去混響程度和語音放大功能至第一增強等級;當距離信息指示的用戶相對于設備的距離大于第二距離閾值時,提高語音增強方式中的去混響程度和語音放大功能至第二增強等級;當距離信息指示的用戶相對于設備的距離大于第一距離閾值且小于第二距離閾值時,調整語音增強方式中的去混響程度和語音放大功能至第一增強等級與第二增強等級之間。
當用戶距離設備較近時,降低去混響程度以及對用戶語音的音量放大程度;當用戶距離設備較遠時,提高去混響程度以及對用戶語音的音量放大程度。
第三種方式
當聲學參數(shù)指示房間中的混響程度大于第一混響閾值時,提高語音增強方式中的去混響程度至第一程度,當聲學參數(shù)指示房間中的混響程度小于第二混響閾值時,降低語音增強方式中的去混響程度至第二程度,當聲學參數(shù)指示房間中的混響程度大于第二混響閾值且小于第二混響閾值時,調整語音增強方式中的去混響程度在第一程度至第二程度之間。
當房間中混響程度較大時,提高去混響程度;當房間中混響程度較小時,降低去混響程度。
上述僅對語音增強方式中與本方案關聯(lián)密切的操作進行了說明,但不局限于這些操作,例如,還會對語音信號進行均衡處理等。
上述混響閾值及程度的具體數(shù)值在此不作嚴格限定,可以在一定范圍內出現(xiàn)浮動。
本發(fā)明又一實施例提供了一種出聲設備的去混響控制裝置200。參見圖2,該裝置200包括:
語音采集器201,用于當設備播放音頻時,實時采集來自用戶的語音信號。語音采集器可以由設備中的麥克風陣列實現(xiàn)。
因子獲取單元202,用于獲取用戶與設備之間的相對位置信息和設備所在房間環(huán)境的聲學參數(shù);
去混響執(zhí)行單元203,用于根據(jù)相對位置信息和聲學參數(shù)中的一種或多種,選取設備中相應的麥克風,并調用對應的語音增強方式,執(zhí)行去混響操作;
命令執(zhí)行單元204,用于獲取來自用戶的語音命令詞,控制設備執(zhí)行相應功能,對用戶作出應答。
在圖2所示實施例的基礎上,進一步的,參見圖3,裝置200還包括:檢測控制單元205用于在獲取用戶與設備之間的相對位置信息和設備所在房間環(huán)境的聲學參數(shù)的同時,根據(jù)語音信號判斷檢測到喚醒詞時,控制設備停止音頻播放;或者,根據(jù)語音信號判斷檢測到喚醒詞時,降低設備音頻播放的音量至音量閾值以下。
去混響執(zhí)行單元203,用于為相對位置信息和聲學參數(shù)包括的各因子分別設置優(yōu)先級;按照優(yōu)先級從高到低,逐次基于相應因子,執(zhí)行去混響操作,或者僅采用優(yōu)先級高于預定級別的因子,執(zhí)行去混響操作。
其中,去混響執(zhí)行單元203,具體用于根據(jù)方向信息指示的用戶相對于設備的方向,選取設備中相應的麥克風,調整語音增強方式所增強的聲音方向,執(zhí)行去混響操作;和/或,當距離信息指示的用戶相對于設備的距離小于第一距離閾值時,降低語音增強方式中的去混響程度和語音放大功能至第一增強等級;當距離信息指示的用戶相對于設備的距離大于第二距離閾值時,提高語音增強方式中的去混響程度和語音放大功能至第二增強等級;當距離信息指示的用戶相對于設備的距離大于第一距離閾值且小于第二距離閾值時,調整語音增強方式中的去混響程度和語音放大功能至第一增強等級與第二增強等級之間;和/或,當聲學參數(shù)指示房間中的混響程度大于第一混響閾值時,提高語音增強方式中的去混響程度至第一程度,當聲學參數(shù)指示房間中的混響程度小于第二混響閾值時,降低語音增強方式中的去混響程度至第二程度,當聲學參數(shù)指示房間中的混響程度大于第二混響閾值且小于第二混響閾值時,調整語音增強方式中的去混響程度在第一程度至第二程度之間。
命令執(zhí)行單元204,具體用于采集用戶在喚醒詞之后發(fā)出的語音信號;將語音信號傳輸至云端服務器,由云端服務器對該語音信號進行特征匹配,由匹配成功的語音信號得到命令詞;接收云端服務器返回的命令詞,根據(jù)該命令詞控制設備執(zhí)行相應功能。
出聲設備的去混響控制裝置200設置在出聲設備中。該出聲設備包括但不局限于智能便攜終端和智能家電,智能便攜終端至少包括智能手表、智能手機或智能音響;智能家電至少包括智能電視、智能空調或智能充電插座。
本發(fā)明裝置實施例中各單元的具體工作方式,可以參見本發(fā)明方法實施例的相關內容,在此不再贅述。
由上所述,本發(fā)明實施例的技術方案,基于用戶與設備的相對信息調整語音增強方式時,能夠在去混響同時較好地增強或保護用戶語音,提高語音識別率;基于關聯(lián)于用戶、設備的聲學參數(shù)執(zhí)行去混響時,能夠根據(jù)聲學參數(shù)指示的聲學環(huán)境的變化,采用不同的語音增強方式,保證適當?shù)娜セ祉懗潭龋鉀Q了現(xiàn)有方案易于導致的混響殘留大或削弱用戶語音的問題,達到較高的語音識別率??梢岳斫?,當同時結合用戶信息和環(huán)境信息去混響時,能夠進一步提升語音識別的準確率。
以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內。