本發(fā)明涉及人工智能技術(shù)領(lǐng)域,特別涉及一種遠(yuǎn)場(chǎng)語音交互裝置。
背景技術(shù):
智能硬件是以平臺(tái)性底層軟硬件為基礎(chǔ),以智能傳感互聯(lián)、人機(jī)交互、新型顯示及大數(shù)據(jù)處理等新一代信息技術(shù)為特征,以新設(shè)計(jì)、新材料硬件為載體的新型智能終端產(chǎn)品及服務(wù)。隨著技術(shù)升級(jí)、關(guān)聯(lián)基礎(chǔ)設(shè)施完善和應(yīng)用服務(wù)市場(chǎng)的不斷成熟,智能硬件的產(chǎn)品形態(tài)從智能手機(jī)延伸到智能可穿戴、智能家居、智能車載、醫(yī)療健康、智能無人系統(tǒng)等,成為信息技術(shù)與傳統(tǒng)產(chǎn)業(yè)融合的交匯點(diǎn)。
目前,智能硬件產(chǎn)品在很多場(chǎng)景下因?yàn)檎Z音交互體驗(yàn)不如人意而深受詬病,究其原因主要是語音交互用戶場(chǎng)景的變化,當(dāng)用戶從手機(jī)的siri切換到類似智能音箱的時(shí)候,實(shí)際上麥克風(fēng)面臨的環(huán)境就完全變了,這就如同兩個(gè)人竊竊私語和大聲嘶喊的區(qū)別。語音交互受限于背景噪音、其他人聲干擾、回聲和混響等多重復(fù)雜因素,進(jìn)而導(dǎo)致的識(shí)別距離近、識(shí)別率低等明顯痛點(diǎn)。
技術(shù)實(shí)現(xiàn)要素:
(一)解決的技術(shù)問題
為了解決上述技術(shù)問題,本發(fā)明提供了一種遠(yuǎn)場(chǎng)語音交互裝置,采用高集成度和高性價(jià)比一體化設(shè)計(jì),具有全方位喚醒、聲源測(cè)向、定向拾音、噪聲抑制、混響消除、回聲抵消、遠(yuǎn)場(chǎng)語音識(shí)別等功能。
(二)技術(shù)方案
一種遠(yuǎn)場(chǎng)語音交互裝置,包括語音拾取模塊、前端放大模塊、處理器、第一存儲(chǔ)器、第二存儲(chǔ)器、無線通信模塊、指示燈和電源模塊;
所述語音拾取模塊識(shí)別環(huán)境中的語音信號(hào);
所述前端放大模塊對(duì)所述語音拾取模塊拾取的語音信號(hào)進(jìn)行濾波和放大處理;
所述第一存儲(chǔ)器存儲(chǔ)語音算法代碼等底層指令,用戶對(duì)所述底層指令不能修改;
所述第二存儲(chǔ)器存儲(chǔ)外圍智能硬件設(shè)備的配置信息和激活詞等上層指令,用戶對(duì)所述上層指令可進(jìn)行修改;
所述處理器執(zhí)行所述第一存儲(chǔ)器和所述第二存儲(chǔ)器的指令;
所述無線通信模塊連接外圍智能硬件設(shè)備;
所述指示燈為led發(fā)光二極管;
所述電源模塊為上述各部分提供電源。
進(jìn)一步的,所述語音拾取模塊為麥克風(fēng)陣列,且所述麥克風(fēng)陣列數(shù)量為6個(gè)。
進(jìn)一步的,所述麥克風(fēng)陣列在pcb板上為直徑8cm的環(huán)形分布。
進(jìn)一步的,所述第一存儲(chǔ)器為ddr3,所述第一存儲(chǔ)器存儲(chǔ)的所述語音算法包括語音激活檢測(cè)、語音喚醒、回聲消除、低信噪比和混響。
進(jìn)一步的,所述第二存儲(chǔ)器為emmc。
進(jìn)一步的,所述處理器為cypresscyw43438。
進(jìn)一步的,所述無線通信模塊為紅外線模塊、藍(lán)牙模塊或者wifi模塊中的一種或者組合。
(三)有益效果
本發(fā)明提供了一種遠(yuǎn)場(chǎng)語音交互裝置,采用高集成度和高性價(jià)比一體化設(shè)計(jì),具有全方位喚醒、聲源測(cè)向、定向拾音、噪聲抑制、混響消除、回聲抵消、遠(yuǎn)場(chǎng)語音識(shí)別等功能,廣泛適用于智能音箱、dot、電視盒子等智能硬件設(shè)備。
附圖說明
圖1為本發(fā)明所涉及的一種遠(yuǎn)場(chǎng)語音交互裝置系統(tǒng)框圖。
圖2為本發(fā)明所涉及的一種遠(yuǎn)場(chǎng)語音交互裝置pcb分布示意圖。
圖3為本發(fā)明所涉及的一種遠(yuǎn)場(chǎng)語音交互裝置語音算法流程圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明所涉及的實(shí)施例做進(jìn)一步詳細(xì)說明。
實(shí)施例1:
如圖1所示,一種遠(yuǎn)場(chǎng)語音交互裝置,包括語音拾取模塊、前端放大模塊、處理器、第一存儲(chǔ)器、第二存儲(chǔ)器、無線通信模塊、指示燈和電源模塊;
語音拾取模塊識(shí)別環(huán)境中的語音信號(hào);
前端放大模塊對(duì)語音拾取模塊拾取的語音信號(hào)進(jìn)行濾波和放大處理;
第一存儲(chǔ)器存儲(chǔ)語音算法代碼等底層指令,用戶對(duì)底層指令不能修改;
第二存儲(chǔ)器存儲(chǔ)外圍智能硬件設(shè)備的配置信息和激活詞等上層指令,用戶對(duì)上層指令可進(jìn)行修改;
處理器執(zhí)行第一存儲(chǔ)器和第二存儲(chǔ)器的指令;
無線通信模塊連接外圍智能硬件設(shè)備;
指示燈為led發(fā)光二極管;
電源模塊為上述各部分提供電源。
實(shí)施例2:
結(jié)合圖2和圖3,說明裝置工作原理。
語音拾取模塊為麥克風(fēng)陣列,麥克風(fēng)陣列是利用一定數(shù)目,一定空間構(gòu)型的聲學(xué)傳感器組成,用來對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。線性、環(huán)形、球形麥克風(fēng)陣列在原理上并無太大區(qū)別,只是由于空間構(gòu)型不同,導(dǎo)致它們可分辨的空間范圍也不同。比如,在聲源定位上,線性陣列只有一維信息,只能分辨180度;環(huán)形陣列是平面陣列,有兩維信息,能分辨360度;球形陣列是立體三維空間陣列,有三維信息,能區(qū)分360度的方位角和180度俯仰角。其次麥克風(fēng)的個(gè)數(shù)越多,對(duì)說話人的定位精度越高,但是定位精度的差別體現(xiàn)在交互距離的遠(yuǎn)近上,如果交互距離不是很遠(yuǎn),5麥和8麥的定位效果差異不是很大。此外,麥克風(fēng)個(gè)數(shù)越多,波束能區(qū)分的空間越精細(xì),在嘈雜環(huán)境下的拾音質(zhì)量越高,但是在一般室內(nèi)的安靜環(huán)境下,5麥和8麥的識(shí)別率相差不是很大。同時(shí)麥克風(fēng)個(gè)數(shù)越多,成本也越高。
綜合考量,麥克風(fēng)陣列數(shù)量選取6個(gè),并且在pcb板上設(shè)計(jì)成直徑為8cm的環(huán)形分布,兼具360度全方位的高定位精度和高拾音質(zhì)量,同時(shí)使得開發(fā)成本不會(huì)很高,有利于裝置的小型化設(shè)計(jì)。
第一存儲(chǔ)器選用ddr3,屬于sdram家族的內(nèi)存產(chǎn)品,提供了相較于ddr2更高的運(yùn)行效能與更低的電壓,功耗和發(fā)熱量更小。
ddr3存儲(chǔ)的語音算法包括語音激活檢測(cè)、語音喚醒、回聲消除、低信噪比和混響。
語音激活檢測(cè)就是判斷環(huán)境中什么時(shí)候有語音什么時(shí)候沒有語音,后續(xù)的語音信號(hào)處理都是在這一步截取出來的有效語音片段上進(jìn)行的,這樣可以極大的減少計(jì)算量,同時(shí)也能減少噪聲誤識(shí)別等情況。
語音喚醒是人機(jī)交互的主要觸發(fā)方式,在語音激活檢測(cè)到語音信號(hào)之后進(jìn)行工作,判斷語音信號(hào)中是否包含預(yù)先存儲(chǔ)的激活詞,若包含,則對(duì)后續(xù)的語音信號(hào)繼續(xù)識(shí)別,否則后續(xù)的語音不進(jìn)行處理。
回聲消除是全雙工通信中的一個(gè)名詞,即在播放的同時(shí)可以拾音?;芈曄碾y點(diǎn)在于它要和智能硬件設(shè)備比如智能音箱的音響效果之間有一個(gè)平衡和折中。
低信噪比和混響。有時(shí)候環(huán)境中背景噪聲很大,比如家里開電視、或者在汽車?yán)锩娴鹊?,從而使得語音質(zhì)量變差,即信噪比降低。另外家庭環(huán)境中的墻壁反射形成的混響對(duì)語音質(zhì)量也有不可忽視的影響。為了對(duì)語音信號(hào)進(jìn)行增強(qiáng),提高語音的信噪比,通過深度神經(jīng)網(wǎng)絡(luò)對(duì)帶噪語音和干凈語音間的復(fù)雜關(guān)系進(jìn)行回歸擬合建模,該方法基于對(duì)數(shù)功率譜最小均方誤差準(zhǔn)則,多幀擴(kuò)展對(duì)提升語音增強(qiáng)質(zhì)量和連續(xù)性有很大幫助。
第二存儲(chǔ)器選用emmc存儲(chǔ)器,其帶有多媒體卡接口、快閃存儲(chǔ)器設(shè)備及主控制器,所有都在一個(gè)小型的bga封裝,有利于裝置小型化,同時(shí)接口速度高達(dá)每秒52m字節(jié)。
處理器選用cypresscyw43438型號(hào)芯片,該芯片集成了ieee802.11a/b/g/n/acwlan和藍(lán)牙,采用高集成度和高性價(jià)比的一體化設(shè)計(jì),可實(shí)現(xiàn)小尺寸的物聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)。
無線通信模塊為紅外線模塊、藍(lán)牙模塊或者wifi模塊中的一種或者組合。鑒于此實(shí)施例中處理器已經(jīng)集成了藍(lán)牙和wifi模塊,只需補(bǔ)充紅外線模塊即可。
遠(yuǎn)場(chǎng)語音識(shí)別,需要軟硬件結(jié)合,一方面通過硬件使用環(huán)形6麥克風(fēng)陣列和濾波信號(hào)放大電路,通過聲源定位及自適應(yīng)波束形成語音增強(qiáng),在硬件端完成遠(yuǎn)場(chǎng)拾音,并初步完成濾噪,另一方面通過cypresscyw43438處理器運(yùn)行內(nèi)存ddr3中存儲(chǔ)的語音算法代碼,對(duì)語音信號(hào)進(jìn)行語音激活檢測(cè)、語音喚醒、回聲消除、低信噪比和混響的處理,從環(huán)境的語音信號(hào)中提取出清晰的激活詞。用戶根據(jù)個(gè)人需要通過紅外、藍(lán)牙或者wifi連接若干個(gè)外圍智能硬件設(shè)備和設(shè)置多個(gè)激活詞,并將配置信息和激活詞存儲(chǔ)在emmc存儲(chǔ)器中。當(dāng)處理器接收到有效激活詞的時(shí)候,led指示燈閃爍,同時(shí)處理器控制相應(yīng)的外圍智能硬件設(shè)備進(jìn)行響應(yīng)。
在實(shí)際使用過程中,本發(fā)明所提供的一種遠(yuǎn)場(chǎng)語音交互裝置的靈敏度>-42dbv@94db1khz,水平方向?qū)崿F(xiàn)360°聲源定位,定位精度為±10°,動(dòng)態(tài)噪聲抑制>20db,信噪比>65db,喚醒距離可達(dá)20m,并且3m的喚醒率>96%,5m的喚醒率>91%;識(shí)別距離可達(dá)5m,并且2m的識(shí)別率>95%,5m的識(shí)別率>90%,支持任意打斷,連續(xù)喚醒,完全滿足了一般室內(nèi)的智能硬件設(shè)備布置需求。
本發(fā)明提供了一種遠(yuǎn)場(chǎng)語音交互裝置,采用高集成度和高性價(jià)比一體化設(shè)計(jì),具有全方位喚醒、聲源測(cè)向、定向拾音、噪聲抑制、混響消除、回聲抵消、遠(yuǎn)場(chǎng)語音識(shí)別等功能,廣泛適用于智能音箱、dot、電視盒子等智能硬件設(shè)備。
上面所述的實(shí)施例僅僅是對(duì)本發(fā)明的優(yōu)選實(shí)施方式進(jìn)行描述,并非對(duì)本發(fā)明的構(gòu)思和范圍進(jìn)行限定。在不脫離本發(fā)明設(shè)計(jì)構(gòu)思的前提下,本領(lǐng)域普通人員對(duì)本發(fā)明的技術(shù)方案做出的各種變型和改進(jìn),均應(yīng)落入到本發(fā)明的保護(hù)范圍,本發(fā)明請(qǐng)求保護(hù)的技術(shù)內(nèi)容,已經(jīng)全部記載在權(quán)利要求書中。