本實用新型總體上涉及語音處理技術(shù)領(lǐng)域,尤其涉及集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)。
背景技術(shù):
近幾年人工智能,人工智能的前端最重要的是信息的正確獲取,特別是音視頻技術(shù)受到格外關(guān)注,但與視頻技術(shù)的進(jìn)步相比,雖說在近場單通道語音識別上獲得很大進(jìn)展,已經(jīng)達(dá)到非常高的正確識別率,但遠(yuǎn)場語音交互技術(shù)還需要更大的發(fā)展,基于麥克風(fēng)陣列的遠(yuǎn)場語音識別是其中最關(guān)鍵的技術(shù)。同樣的,AR(Augmented Reality,增強(qiáng)現(xiàn)實)/VR(Virtual Reality,虛擬現(xiàn)實)技術(shù)在近些年開始逐步走向應(yīng)用,相對于視覺體驗,音頻體驗同樣相對滯后,其中一項重要的技術(shù)是原始聲場的采集與重現(xiàn),利用麥克風(fēng)技術(shù)陣列技術(shù),同樣可以實現(xiàn)原始聲場的采集。
但是現(xiàn)有產(chǎn)品及技術(shù)都是針對其中某項應(yīng)用進(jìn)行的設(shè)計,僅僅能實現(xiàn)遠(yuǎn)場語音識別或者聲場錄制,而在實際應(yīng)用過程中,例如在辦公場所或者家庭客廳中,一方面有遠(yuǎn)場語音識別與控制的需求,例如利用遠(yuǎn)場識別控制電視或者投影儀的操作燈;另一方面又有聲場錄制的需求,例如與遠(yuǎn)方朋友或親人全息通話,或者會議室內(nèi)的全息音視頻會議通訊等,現(xiàn)有技術(shù)并沒有能夠同時滿足上述兩種需求的系統(tǒng)。
例如,亞馬遜推出的echo音箱利用麥克風(fēng)陣列技術(shù)進(jìn)行遠(yuǎn)場語音采集。在音箱頂部布放了6+1個麥克風(fēng),其中6個麥克風(fēng)均勻布放構(gòu)成一個環(huán)形陣列,另外中心布放一個麥克風(fēng),利用麥克風(fēng)陣列信號處理技術(shù),實現(xiàn)遠(yuǎn)場語音識別,但并沒有聲場錄音的功能。其他類似的智能音箱都采用了類似的方案,但都只實現(xiàn)遠(yuǎn)場語音識別功能。1.2.2現(xiàn)有技術(shù)一的缺點
又例如,CN104754471A利用麥克風(fēng)陣列中的兩兩組合成新的麥克風(fēng)對進(jìn)行處理,計算獲得聲場各階分量,利用解碼矩陣合成各揚聲器激勵,從而重建二維聲場。但其只能進(jìn)行聲場錄制,沒有遠(yuǎn)場語音識別功能。
技術(shù)實現(xiàn)要素:
(一)要解決的技術(shù)問題
本實用新型提供了一種集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng),既能實現(xiàn)遠(yuǎn)場語音識別,又能夠?qū)崿F(xiàn)聲場錄制,并且能進(jìn)行兩種模式的靈活切換。
(二)技術(shù)方案
本實用新型提供了一種集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng),包括:麥克風(fēng)陣列和數(shù)據(jù)處理終端;其中,所述系統(tǒng)包括遠(yuǎn)場語音識別和聲場錄制兩種工作模式;所述麥克風(fēng)陣列對聲音信號進(jìn)行采集;所述數(shù)據(jù)處理終端連接所述麥克風(fēng)陣列,接收所述麥克風(fēng)陣列采集的聲音信號,并對所述聲音信號進(jìn)行處理,實現(xiàn)遠(yuǎn)場語音識別和聲場錄制。
優(yōu)選地,所述麥克風(fēng)陣列為圓形陣、矩形陣或橢圓形陣。
優(yōu)選地,所述麥克風(fēng)陣列的麥克風(fēng)數(shù)量大于等于4,麥克風(fēng)之間的間距小于8cm。
優(yōu)選地,所述數(shù)據(jù)處理終端為計算機(jī)。
優(yōu)選地,當(dāng)系統(tǒng)處于遠(yuǎn)場語音識別工作模式時,所述麥克風(fēng)陣列采集遠(yuǎn)場語音信號,所述數(shù)據(jù)處理終端對所述遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別;當(dāng)系統(tǒng)處于聲場錄制工作模式時,所述麥克風(fēng)陣列采集多通道音頻信號,所述數(shù)據(jù)處理終端對所述多聲道音頻信號進(jìn)行聲場錄制。
優(yōu)選地,所述數(shù)據(jù)處理終端包括:語音控制模塊、遠(yuǎn)場語音識別模塊和聲場錄制模塊;在所述語音控制模塊的控制下,所述遠(yuǎn)場語音識別模塊對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別,系統(tǒng)進(jìn)入遠(yuǎn)場語音識別工作模式;在所述語音控制模塊的控制下,所述聲場錄制模塊對多聲道音頻信號進(jìn)行聲場錄制,系統(tǒng)進(jìn)入聲場錄制工作模式,實現(xiàn)工作模式的切換。
優(yōu)選地,還包括控制端;所述控制端為手機(jī)。
優(yōu)選地,所述數(shù)據(jù)處理終端包括遠(yuǎn)程控制模塊,遠(yuǎn)場語音識別模塊和聲場錄制模塊,所述遠(yuǎn)程控制模塊與所述控制端無線連接;所述控制端向所述遠(yuǎn)程控制模塊發(fā)送控制信號,在所述遠(yuǎn)程控制模塊的控制下,所述遠(yuǎn)場語音識別模塊對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別,系統(tǒng)進(jìn)入遠(yuǎn)場語音識別工作模式;所述控制端向所述遠(yuǎn)程控制模塊發(fā)送控制信號,在所述遠(yuǎn)程控制模塊的控制下,所述聲場錄制模塊對多聲道音頻信號進(jìn)行聲場錄制,系統(tǒng)進(jìn)入聲場錄制工作模式,實現(xiàn)工作模式的切換。
優(yōu)選地,所述遠(yuǎn)場語音識別模塊為廣義旁瓣對消器。
(三)有益效果
從上述技術(shù)方案可以看出,本實用新型的集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)具有以下有益效果:
(1)將遠(yuǎn)場語音識別和聲場錄制集成在一個系統(tǒng)中,利用同一個小型麥克風(fēng)陣列,即可實現(xiàn)遠(yuǎn)場語音識別又可實現(xiàn)聲場錄制,相對于現(xiàn)有技術(shù),只需一套系統(tǒng)即可同時實現(xiàn)遠(yuǎn)場語音識別功能和聲場錄制功能,功能多樣,一機(jī)兩用,節(jié)約了設(shè)備成本;
(2)可以采用語音指令或者移動終端切換工作模式,切換方式靈活簡單,便于用戶操作。
附圖說明
為了更完整地理解本實用新型及其優(yōu)勢,現(xiàn)在將參考結(jié)合附圖的以下描述,其中:
圖1為本實用新型實施例的集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)的結(jié)構(gòu)示意圖;
圖2為本實用新型實施例的集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)的處理流程圖;
圖3為集成遠(yuǎn)場語音識別和聲場錄制的流程圖。
具體實施方式
根據(jù)結(jié)合附圖對本實用新型示例性實施例的以下詳細(xì)描述,本實用新型的其它方面、優(yōu)勢和突出特征對于本領(lǐng)域技術(shù)人員將變得顯而易見。
在本實用新型中,術(shù)語“包括”和“含有”及其派生詞意為包括而非限制;術(shù)語“或”是包含性的,意為和/或。
在本說明書中,下述用于描述本實用新型原理的各種實施例只是說明,不應(yīng)該以任何方式解釋為限制實用新型的范圍。參照附圖的下述描述用于幫助全面理解由權(quán)利要求及其等同物限定的本實用新型的示例性實施例。下述描述包括多種具體細(xì)節(jié)來幫助理解,但這些細(xì)節(jié)應(yīng)認(rèn)為僅僅是示例性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)認(rèn)識到,在不背離本實用新型的范圍和精神的情況下,可以對本文中描述的實施例進(jìn)行多種改變和修改。此外,為了清楚和簡潔起見,省略了公知功能和結(jié)構(gòu)的描述。此外,貫穿附圖,相同參考數(shù)字用于相似功能和操作。
本實用新型實施例提供了一種集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng),該系統(tǒng)可以工作于遠(yuǎn)場語音識別和聲場錄制兩種模式,分別完成遠(yuǎn)場語音識別功能和聲場錄制功能,如圖1所示,該系統(tǒng)包括:麥克風(fēng)陣列和數(shù)據(jù)處理終端;其中,
麥克風(fēng)陣列包括四個麥克風(fēng)構(gòu)成的小型圓形陣列,麥克風(fēng)陣列用于對聲音信號進(jìn)行采集,當(dāng)系統(tǒng)進(jìn)行遠(yuǎn)場語音識別時,麥克風(fēng)陣列采集遠(yuǎn)場語音信號,當(dāng)系統(tǒng)進(jìn)行聲場錄制時,麥克風(fēng)陣列采集多通道音頻信號。
數(shù)據(jù)處理終端連接麥克風(fēng)陣列,接收麥克風(fēng)陣列采集的聲音信號,并對聲音信號進(jìn)行處理。數(shù)據(jù)處理終端具有遠(yuǎn)場語音識別和聲場錄制兩種工作模式,當(dāng)其工作于遠(yuǎn)場語音識別模式時,對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別,當(dāng)其工作于聲場錄制模式時,對多聲道音頻信號進(jìn)行聲場錄制。
由此可見,本實用新型將遠(yuǎn)場語音識別和聲場錄制集成在一個系統(tǒng)中,利用同一個小型麥克風(fēng)陣列,即可實現(xiàn)遠(yuǎn)場語音識別又可實現(xiàn)聲場錄制,相對于現(xiàn)有技術(shù),只需一套系統(tǒng)即可同時實現(xiàn)遠(yuǎn)場語音識別功能和聲場錄制功能,功能多樣,一機(jī)兩用,節(jié)約了設(shè)備成本。
在本實用新型中,數(shù)據(jù)處理終端可以是計算機(jī)等數(shù)據(jù)處理設(shè)備,包括:語音控制模塊、遠(yuǎn)場語音識別模塊和聲場錄制模塊。用戶根據(jù)所需的應(yīng)用場景和使用目的,可以通過語音切換數(shù)據(jù)處理終端的工作模式。例如,當(dāng)需要進(jìn)行遠(yuǎn)場語音識別時,用戶可發(fā)出相應(yīng)的語音指令,語音控制模塊接收語音指令,并根據(jù)語音指令生成控制信號,遠(yuǎn)場語音識別模塊對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別,使數(shù)據(jù)處理終端工作于遠(yuǎn)場語音識別模式。當(dāng)需要進(jìn)行全息音/視頻會議或環(huán)繞聲場采集時,用戶可發(fā)出相應(yīng)的語音指令,語音控制模塊接收語音指令,并根據(jù)語音指令生成控制信號,聲場錄制模塊對多聲道音頻信號進(jìn)行聲場錄制,使數(shù)據(jù)處理終端工作于聲場錄制模式,從而實現(xiàn)工作模式的切換。
除了通過上述方式切換工作模式外,本實用新型還可以采用遠(yuǎn)程控制的方式。本實用新型的系統(tǒng)還可以包括控制端,數(shù)據(jù)處理終端還可以包括遠(yuǎn)程控制模塊。
控制端可以是手機(jī)等移動終端,其與遠(yuǎn)程控制模塊無線連接,控制端與遠(yuǎn)程控制模塊可以通過例如Wi-Fi或藍(lán)牙等無線協(xié)議通信。用戶根據(jù)所需的應(yīng)用場景和使用目的,可以通過控制端切換數(shù)據(jù)處理終端的工作模式。例如,當(dāng)需要進(jìn)行遠(yuǎn)場語音識別時,用戶可以通過啟動控制端的特定應(yīng)用程序,使控制端發(fā)出相應(yīng)的控制信號,遠(yuǎn)程控制模塊接收控制信號,在控制信號的控制下,遠(yuǎn)場語音識別模塊對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別,使數(shù)據(jù)處理終端工作于遠(yuǎn)場語音識別模式。當(dāng)需要進(jìn)行全息音/視頻會議或環(huán)繞聲場采集時,控制端發(fā)出相應(yīng)的控制信號,遠(yuǎn)程控制模塊接收控制信號,在控制信號的控制下,聲場錄制模塊對多聲道音頻信號進(jìn)行聲場錄制,使數(shù)據(jù)處理終端工作于聲場錄制模式,從而實現(xiàn)工作模式的切換。
由此可見,本實用新型的系統(tǒng)可以采用語音指令或者移動終端切換工作模式,切換方式靈活簡單,便于用戶操作。
如圖2所示,遠(yuǎn)場語音識別模塊可以采用GSC(廣義旁瓣對消器)實時識別遠(yuǎn)場語音,獲得單通道語音信號,并輸出語音識別結(jié)果。
聲場錄制模塊可以利用麥克風(fēng)陣列的麥克風(fēng)生成指向不同方向的多個虛擬麥克風(fēng),錄制不同方向的多通道音頻信號,例如2.0通道,5.0通道,7.0通道等等,得到多通道聲場數(shù)據(jù),采用多通道編碼技術(shù)對多通道數(shù)據(jù)進(jìn)行編碼,完成環(huán)繞聲場錄制。
麥克風(fēng)陣列由于物理尺寸受到限制,麥克風(fēng)之間的間距較小,因此也可以利用差分信號處理方法實現(xiàn)環(huán)繞聲場錄制。聲場錄制模塊可以基于ambisonics方法,采用多通道音頻信號進(jìn)行差分陣列處理獲得基本聲場分量B-format,實現(xiàn)環(huán)繞聲場錄制,并傳輸B-format信號到遠(yuǎn)端設(shè)備,通過解碼合成重建環(huán)繞聲場。
由于封閉式陣列形態(tài)可以獲得二維平面內(nèi)任意方向波束,同時麥克風(fēng)數(shù)量越多,遠(yuǎn)場語音識別和聲場錄制的效果就越好。因此。麥克風(fēng)之間的間距優(yōu)選小于8cm,麥克風(fēng)陣列的麥克風(fēng)數(shù)量不做限制,可以是5、6甚至更多。麥克風(fēng)陣列的形狀也不做限制,只要可以構(gòu)成封閉式陣列形態(tài),例如矩形,橢圓形等,就可以實現(xiàn)同時進(jìn)行遠(yuǎn)場語音識別和聲場錄音,本實用新型的麥克風(fēng)陣列布陣形態(tài)更加自由。本實用新型不僅可以應(yīng)用于智能音箱領(lǐng)域,還可以應(yīng)用于其它利用麥克風(fēng)陣列的設(shè)備中。
在本實用新型的系統(tǒng)的默認(rèn)工作模式為遠(yuǎn)場語音識別模式,即在默認(rèn)情形下,系統(tǒng)運行在遠(yuǎn)場語音識別模式,實時識別遠(yuǎn)場語音。當(dāng)需要進(jìn)行全息音/視頻會議或環(huán)繞聲場采集時,自動切換到聲場錄制模式,進(jìn)行聲場錄制。當(dāng)全息音/視頻會議或環(huán)繞聲場采集結(jié)束后,或者需要進(jìn)行遠(yuǎn)場語音識別時,系統(tǒng)自動切換至遠(yuǎn)場語音識別模式。
本實用新型可以利用上述集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)進(jìn)行遠(yuǎn)場語音識別和聲場錄制,包括:
進(jìn)入遠(yuǎn)場語音識別模式,采集遠(yuǎn)場語音信號,對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別;
當(dāng)需要進(jìn)行聲場錄制時,切換至聲場錄制模式,采集多通道音頻信號,對多聲道音頻信號進(jìn)行聲場錄制;
當(dāng)聲場錄制結(jié)束或需要進(jìn)行遠(yuǎn)場語音識別時,切換至遠(yuǎn)場語音識別模式,對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別。
至此,已經(jīng)結(jié)合附圖對本實施例進(jìn)行了詳細(xì)描述。依據(jù)以上描述,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)對本實用新型的集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)有了清楚的認(rèn)識。
需要說明的是,在附圖或說明書正文中,未繪示或描述的實現(xiàn)方式,均為所屬技術(shù)領(lǐng)域中普通技術(shù)人員所知的形式,并未進(jìn)行詳細(xì)說明。此外,上述對各元件的定義并不僅限于實施例中提到的各種具體結(jié)構(gòu)、形狀或方式,本領(lǐng)域普通技術(shù)人員可對其進(jìn)行簡單地更改或替換,例如:
(1)還可以采用其他方式實現(xiàn)工作模式的切換;
(2)實施例中提到的方向用語,例如“上”、“下”、“前”、“后”、“左”、“右”等,僅是參考附圖的方向,并非用來限制本實用新型的保護(hù)范圍;
(3)上述實施例可基于設(shè)計及可靠度的考慮,彼此混合搭配使用或與其他實施例混合搭配使用,即不同實施例中的技術(shù)特征可以自由組合形成更多的實施例。
以上所述的具體實施例,對本實用新型的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本實用新型的具體實施例而已,并不用于限制本實用新型,凡在本實用新型的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本實用新型的保護(hù)范圍之內(nèi)。