集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)的制作方法

文檔序號：11764489閱讀：450來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本實用新型總體上涉及語音處理技術(shù)領(lǐng)域，尤其涉及集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)。

背景技術(shù)：

近幾年人工智能，人工智能的前端最重要的是信息的正確獲取，特別是音視頻技術(shù)受到格外關(guān)注，但與視頻技術(shù)的進(jìn)步相比，雖說在近場單通道語音識別上獲得很大進(jìn)展，已經(jīng)達(dá)到非常高的正確識別率，但遠(yuǎn)場語音交互技術(shù)還需要更大的發(fā)展，基于麥克風(fēng)陣列的遠(yuǎn)場語音識別是其中最關(guān)鍵的技術(shù)。同樣的，AR(Augmented Reality，增強(qiáng)現(xiàn)實)/VR(Virtual Reality，虛擬現(xiàn)實)技術(shù)在近些年開始逐步走向應(yīng)用，相對于視覺體驗，音頻體驗同樣相對滯后，其中一項重要的技術(shù)是原始聲場的采集與重現(xiàn)，利用麥克風(fēng)技術(shù)陣列技術(shù)，同樣可以實現(xiàn)原始聲場的采集。

但是現(xiàn)有產(chǎn)品及技術(shù)都是針對其中某項應(yīng)用進(jìn)行的設(shè)計，僅僅能實現(xiàn)遠(yuǎn)場語音識別或者聲場錄制，而在實際應(yīng)用過程中，例如在辦公場所或者家庭客廳中，一方面有遠(yuǎn)場語音識別與控制的需求，例如利用遠(yuǎn)場識別控制電視或者投影儀的操作燈；另一方面又有聲場錄制的需求，例如與遠(yuǎn)方朋友或親人全息通話，或者會議室內(nèi)的全息音視頻會議通訊等，現(xiàn)有技術(shù)并沒有能夠同時滿足上述兩種需求的系統(tǒng)。

例如，亞馬遜推出的echo音箱利用麥克風(fēng)陣列技術(shù)進(jìn)行遠(yuǎn)場語音采集。在音箱頂部布放了6+1個麥克風(fēng)，其中6個麥克風(fēng)均勻布放構(gòu)成一個環(huán)形陣列，另外中心布放一個麥克風(fēng)，利用麥克風(fēng)陣列信號處理技術(shù)，實現(xiàn)遠(yuǎn)場語音識別，但并沒有聲場錄音的功能。其他類似的智能音箱都采用了類似的方案，但都只實現(xiàn)遠(yuǎn)場語音識別功能。1.2.2現(xiàn)有技術(shù)一的缺點

又例如，CN104754471A利用麥克風(fēng)陣列中的兩兩組合成新的麥克風(fēng)對進(jìn)行處理，計算獲得聲場各階分量，利用解碼矩陣合成各揚聲器激勵，從而重建二維聲場。但其只能進(jìn)行聲場錄制，沒有遠(yuǎn)場語音識別功能。

技術(shù)實現(xiàn)要素：

(一)要解決的技術(shù)問題

本實用新型提供了一種集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)，既能實現(xiàn)遠(yuǎn)場語音識別，又能夠?qū)崿F(xiàn)聲場錄制，并且能進(jìn)行兩種模式的靈活切換。

(二)技術(shù)方案

本實用新型提供了一種集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)，包括：麥克風(fēng)陣列和數(shù)據(jù)處理終端；其中，所述系統(tǒng)包括遠(yuǎn)場語音識別和聲場錄制兩種工作模式；所述麥克風(fēng)陣列對聲音信號進(jìn)行采集；所述數(shù)據(jù)處理終端連接所述麥克風(fēng)陣列，接收所述麥克風(fēng)陣列采集的聲音信號，并對所述聲音信號進(jìn)行處理，實現(xiàn)遠(yuǎn)場語音識別和聲場錄制。

優(yōu)選地，所述麥克風(fēng)陣列為圓形陣、矩形陣或橢圓形陣。

優(yōu)選地，所述麥克風(fēng)陣列的麥克風(fēng)數(shù)量大于等于4，麥克風(fēng)之間的間距小于8cm。

優(yōu)選地，所述數(shù)據(jù)處理終端為計算機(jī)。

優(yōu)選地，當(dāng)系統(tǒng)處于遠(yuǎn)場語音識別工作模式時，所述麥克風(fēng)陣列采集遠(yuǎn)場語音信號，所述數(shù)據(jù)處理終端對所述遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別；當(dāng)系統(tǒng)處于聲場錄制工作模式時，所述麥克風(fēng)陣列采集多通道音頻信號，所述數(shù)據(jù)處理終端對所述多聲道音頻信號進(jìn)行聲場錄制。

優(yōu)選地，所述數(shù)據(jù)處理終端包括：語音控制模塊、遠(yuǎn)場語音識別模塊和聲場錄制模塊；在所述語音控制模塊的控制下，所述遠(yuǎn)場語音識別模塊對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別，系統(tǒng)進(jìn)入遠(yuǎn)場語音識別工作模式；在所述語音控制模塊的控制下，所述聲場錄制模塊對多聲道音頻信號進(jìn)行聲場錄制，系統(tǒng)進(jìn)入聲場錄制工作模式，實現(xiàn)工作模式的切換。

優(yōu)選地，還包括控制端；所述控制端為手機(jī)。

優(yōu)選地，所述數(shù)據(jù)處理終端包括遠(yuǎn)程控制模塊，遠(yuǎn)場語音識別模塊和聲場錄制模塊，所述遠(yuǎn)程控制模塊與所述控制端無線連接；所述控制端向所述遠(yuǎn)程控制模塊發(fā)送控制信號，在所述遠(yuǎn)程控制模塊的控制下，所述遠(yuǎn)場語音識別模塊對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別，系統(tǒng)進(jìn)入遠(yuǎn)場語音識別工作模式；所述控制端向所述遠(yuǎn)程控制模塊發(fā)送控制信號，在所述遠(yuǎn)程控制模塊的控制下，所述聲場錄制模塊對多聲道音頻信號進(jìn)行聲場錄制，系統(tǒng)進(jìn)入聲場錄制工作模式，實現(xiàn)工作模式的切換。

優(yōu)選地，所述遠(yuǎn)場語音識別模塊為廣義旁瓣對消器。

(三)有益效果

從上述技術(shù)方案可以看出，本實用新型的集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)具有以下有益效果：

(1)將遠(yuǎn)場語音識別和聲場錄制集成在一個系統(tǒng)中，利用同一個小型麥克風(fēng)陣列，即可實現(xiàn)遠(yuǎn)場語音識別又可實現(xiàn)聲場錄制，相對于現(xiàn)有技術(shù)，只需一套系統(tǒng)即可同時實現(xiàn)遠(yuǎn)場語音識別功能和聲場錄制功能，功能多樣，一機(jī)兩用，節(jié)約了設(shè)備成本；

(2)可以采用語音指令或者移動終端切換工作模式，切換方式靈活簡單，便于用戶操作。

附圖說明

為了更完整地理解本實用新型及其優(yōu)勢，現(xiàn)在將參考結(jié)合附圖的以下描述，其中：

圖1為本實用新型實施例的集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)的結(jié)構(gòu)示意圖；

圖2為本實用新型實施例的集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)的處理流程圖；

圖3為集成遠(yuǎn)場語音識別和聲場錄制的流程圖。

具體實施方式

根據(jù)結(jié)合附圖對本實用新型示例性實施例的以下詳細(xì)描述，本實用新型的其它方面、優(yōu)勢和突出特征對于本領(lǐng)域技術(shù)人員將變得顯而易見。

在本實用新型中，術(shù)語“包括”和“含有”及其派生詞意為包括而非限制；術(shù)語“或”是包含性的，意為和/或。

在本說明書中，下述用于描述本實用新型原理的各種實施例只是說明，不應(yīng)該以任何方式解釋為限制實用新型的范圍。參照附圖的下述描述用于幫助全面理解由權(quán)利要求及其等同物限定的本實用新型的示例性實施例。下述描述包括多種具體細(xì)節(jié)來幫助理解，但這些細(xì)節(jié)應(yīng)認(rèn)為僅僅是示例性的。因此，本領(lǐng)域普通技術(shù)人員應(yīng)認(rèn)識到，在不背離本實用新型的范圍和精神的情況下，可以對本文中描述的實施例進(jìn)行多種改變和修改。此外，為了清楚和簡潔起見，省略了公知功能和結(jié)構(gòu)的描述。此外，貫穿附圖，相同參考數(shù)字用于相似功能和操作。

本實用新型實施例提供了一種集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)，該系統(tǒng)可以工作于遠(yuǎn)場語音識別和聲場錄制兩種模式，分別完成遠(yuǎn)場語音識別功能和聲場錄制功能，如圖1所示，該系統(tǒng)包括：麥克風(fēng)陣列和數(shù)據(jù)處理終端；其中，

麥克風(fēng)陣列包括四個麥克風(fēng)構(gòu)成的小型圓形陣列，麥克風(fēng)陣列用于對聲音信號進(jìn)行采集，當(dāng)系統(tǒng)進(jìn)行遠(yuǎn)場語音識別時，麥克風(fēng)陣列采集遠(yuǎn)場語音信號，當(dāng)系統(tǒng)進(jìn)行聲場錄制時，麥克風(fēng)陣列采集多通道音頻信號。

數(shù)據(jù)處理終端連接麥克風(fēng)陣列，接收麥克風(fēng)陣列采集的聲音信號，并對聲音信號進(jìn)行處理。數(shù)據(jù)處理終端具有遠(yuǎn)場語音識別和聲場錄制兩種工作模式，當(dāng)其工作于遠(yuǎn)場語音識別模式時，對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別，當(dāng)其工作于聲場錄制模式時，對多聲道音頻信號進(jìn)行聲場錄制。

由此可見，本實用新型將遠(yuǎn)場語音識別和聲場錄制集成在一個系統(tǒng)中，利用同一個小型麥克風(fēng)陣列，即可實現(xiàn)遠(yuǎn)場語音識別又可實現(xiàn)聲場錄制，相對于現(xiàn)有技術(shù)，只需一套系統(tǒng)即可同時實現(xiàn)遠(yuǎn)場語音識別功能和聲場錄制功能，功能多樣，一機(jī)兩用，節(jié)約了設(shè)備成本。

在本實用新型中，數(shù)據(jù)處理終端可以是計算機(jī)等數(shù)據(jù)處理設(shè)備，包括：語音控制模塊、遠(yuǎn)場語音識別模塊和聲場錄制模塊。用戶根據(jù)所需的應(yīng)用場景和使用目的，可以通過語音切換數(shù)據(jù)處理終端的工作模式。例如，當(dāng)需要進(jìn)行遠(yuǎn)場語音識別時，用戶可發(fā)出相應(yīng)的語音指令，語音控制模塊接收語音指令，并根據(jù)語音指令生成控制信號，遠(yuǎn)場語音識別模塊對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別，使數(shù)據(jù)處理終端工作于遠(yuǎn)場語音識別模式。當(dāng)需要進(jìn)行全息音/視頻會議或環(huán)繞聲場采集時，用戶可發(fā)出相應(yīng)的語音指令，語音控制模塊接收語音指令，并根據(jù)語音指令生成控制信號，聲場錄制模塊對多聲道音頻信號進(jìn)行聲場錄制，使數(shù)據(jù)處理終端工作于聲場錄制模式，從而實現(xiàn)工作模式的切換。

除了通過上述方式切換工作模式外，本實用新型還可以采用遠(yuǎn)程控制的方式。本實用新型的系統(tǒng)還可以包括控制端，數(shù)據(jù)處理終端還可以包括遠(yuǎn)程控制模塊。

控制端可以是手機(jī)等移動終端，其與遠(yuǎn)程控制模塊無線連接，控制端與遠(yuǎn)程控制模塊可以通過例如Wi-Fi或藍(lán)牙等無線協(xié)議通信。用戶根據(jù)所需的應(yīng)用場景和使用目的，可以通過控制端切換數(shù)據(jù)處理終端的工作模式。例如，當(dāng)需要進(jìn)行遠(yuǎn)場語音識別時，用戶可以通過啟動控制端的特定應(yīng)用程序，使控制端發(fā)出相應(yīng)的控制信號，遠(yuǎn)程控制模塊接收控制信號，在控制信號的控制下，遠(yuǎn)場語音識別模塊對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別，使數(shù)據(jù)處理終端工作于遠(yuǎn)場語音識別模式。當(dāng)需要進(jìn)行全息音/視頻會議或環(huán)繞聲場采集時，控制端發(fā)出相應(yīng)的控制信號，遠(yuǎn)程控制模塊接收控制信號，在控制信號的控制下，聲場錄制模塊對多聲道音頻信號進(jìn)行聲場錄制，使數(shù)據(jù)處理終端工作于聲場錄制模式，從而實現(xiàn)工作模式的切換。

由此可見，本實用新型的系統(tǒng)可以采用語音指令或者移動終端切換工作模式，切換方式靈活簡單，便于用戶操作。

如圖2所示，遠(yuǎn)場語音識別模塊可以采用GSC(廣義旁瓣對消器)實時識別遠(yuǎn)場語音，獲得單通道語音信號，并輸出語音識別結(jié)果。

聲場錄制模塊可以利用麥克風(fēng)陣列的麥克風(fēng)生成指向不同方向的多個虛擬麥克風(fēng)，錄制不同方向的多通道音頻信號，例如2.0通道，5.0通道，7.0通道等等，得到多通道聲場數(shù)據(jù)，采用多通道編碼技術(shù)對多通道數(shù)據(jù)進(jìn)行編碼，完成環(huán)繞聲場錄制。

麥克風(fēng)陣列由于物理尺寸受到限制，麥克風(fēng)之間的間距較小，因此也可以利用差分信號處理方法實現(xiàn)環(huán)繞聲場錄制。聲場錄制模塊可以基于ambisonics方法，采用多通道音頻信號進(jìn)行差分陣列處理獲得基本聲場分量B-format，實現(xiàn)環(huán)繞聲場錄制，并傳輸B-format信號到遠(yuǎn)端設(shè)備，通過解碼合成重建環(huán)繞聲場。

由于封閉式陣列形態(tài)可以獲得二維平面內(nèi)任意方向波束，同時麥克風(fēng)數(shù)量越多，遠(yuǎn)場語音識別和聲場錄制的效果就越好。因此。麥克風(fēng)之間的間距優(yōu)選小于8cm，麥克風(fēng)陣列的麥克風(fēng)數(shù)量不做限制，可以是5、6甚至更多。麥克風(fēng)陣列的形狀也不做限制，只要可以構(gòu)成封閉式陣列形態(tài)，例如矩形，橢圓形等，就可以實現(xiàn)同時進(jìn)行遠(yuǎn)場語音識別和聲場錄音，本實用新型的麥克風(fēng)陣列布陣形態(tài)更加自由。本實用新型不僅可以應(yīng)用于智能音箱領(lǐng)域，還可以應(yīng)用于其它利用麥克風(fēng)陣列的設(shè)備中。

在本實用新型的系統(tǒng)的默認(rèn)工作模式為遠(yuǎn)場語音識別模式，即在默認(rèn)情形下，系統(tǒng)運行在遠(yuǎn)場語音識別模式，實時識別遠(yuǎn)場語音。當(dāng)需要進(jìn)行全息音/視頻會議或環(huán)繞聲場采集時，自動切換到聲場錄制模式，進(jìn)行聲場錄制。當(dāng)全息音/視頻會議或環(huán)繞聲場采集結(jié)束后，或者需要進(jìn)行遠(yuǎn)場語音識別時，系統(tǒng)自動切換至遠(yuǎn)場語音識別模式。

本實用新型可以利用上述集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)進(jìn)行遠(yuǎn)場語音識別和聲場錄制，包括：

進(jìn)入遠(yuǎn)場語音識別模式，采集遠(yuǎn)場語音信號，對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別；

當(dāng)需要進(jìn)行聲場錄制時，切換至聲場錄制模式，采集多通道音頻信號，對多聲道音頻信號進(jìn)行聲場錄制；

當(dāng)聲場錄制結(jié)束或需要進(jìn)行遠(yuǎn)場語音識別時，切換至遠(yuǎn)場語音識別模式，對遠(yuǎn)場語音信號進(jìn)行遠(yuǎn)場語音識別。

至此，已經(jīng)結(jié)合附圖對本實施例進(jìn)行了詳細(xì)描述。依據(jù)以上描述，本領(lǐng)域技術(shù)人員應(yīng)當(dāng)對本實用新型的集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)有了清楚的認(rèn)識。

需要說明的是，在附圖或說明書正文中，未繪示或描述的實現(xiàn)方式，均為所屬技術(shù)領(lǐng)域中普通技術(shù)人員所知的形式，并未進(jìn)行詳細(xì)說明。此外，上述對各元件的定義并不僅限于實施例中提到的各種具體結(jié)構(gòu)、形狀或方式，本領(lǐng)域普通技術(shù)人員可對其進(jìn)行簡單地更改或替換，例如：

(1)還可以采用其他方式實現(xiàn)工作模式的切換；

(2)實施例中提到的方向用語，例如“上”、“下”、“前”、“后”、“左”、“右”等，僅是參考附圖的方向，并非用來限制本實用新型的保護(hù)范圍；

(3)上述實施例可基于設(shè)計及可靠度的考慮，彼此混合搭配使用或與其他實施例混合搭配使用，即不同實施例中的技術(shù)特征可以自由組合形成更多的實施例。

以上所述的具體實施例，對本實用新型的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明，所應(yīng)理解的是，以上所述僅為本實用新型的具體實施例而已，并不用于限制本實用新型，凡在本實用新型的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本實用新型的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳日林;馮大航;陳孝良;蘇少煒;
技術(shù)所有人：北京聲智科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音識別軟件相關(guān)技術(shù)

遠(yuǎn)場語音識別相關(guān)技術(shù)

近場和遠(yuǎn)場的區(qū)別相關(guān)技術(shù)

聲場模擬軟件相關(guān)技術(shù)

遠(yuǎn)場相關(guān)技術(shù)

遠(yuǎn)場發(fā)散角相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

集成遠(yuǎn)場語音識別和聲場錄制的系統(tǒng)的制作方法