一種遠(yuǎn)場(chǎng)語音交互裝置的制作方法

文檔序號(hào)：11776307閱讀：310來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及人工智能技術(shù)領(lǐng)域，特別涉及一種遠(yuǎn)場(chǎng)語音交互裝置。

背景技術(shù)：

智能硬件是以平臺(tái)性底層軟硬件為基礎(chǔ)，以智能傳感互聯(lián)、人機(jī)交互、新型顯示及大數(shù)據(jù)處理等新一代信息技術(shù)為特征，以新設(shè)計(jì)、新材料硬件為載體的新型智能終端產(chǎn)品及服務(wù)。隨著技術(shù)升級(jí)、關(guān)聯(lián)基礎(chǔ)設(shè)施完善和應(yīng)用服務(wù)市場(chǎng)的不斷成熟，智能硬件的產(chǎn)品形態(tài)從智能手機(jī)延伸到智能可穿戴、智能家居、智能車載、醫(yī)療健康、智能無人系統(tǒng)等，成為信息技術(shù)與傳統(tǒng)產(chǎn)業(yè)融合的交匯點(diǎn)。

目前，智能硬件產(chǎn)品在很多場(chǎng)景下因?yàn)檎Z音交互體驗(yàn)不如人意而深受詬病，究其原因主要是語音交互用戶場(chǎng)景的變化，當(dāng)用戶從手機(jī)的siri切換到類似智能音箱的時(shí)候，實(shí)際上麥克風(fēng)面臨的環(huán)境就完全變了，這就如同兩個(gè)人竊竊私語和大聲嘶喊的區(qū)別。語音交互受限于背景噪音、其他人聲干擾、回聲和混響等多重復(fù)雜因素，進(jìn)而導(dǎo)致的識(shí)別距離近、識(shí)別率低等明顯痛點(diǎn)。

技術(shù)實(shí)現(xiàn)要素：

(一)解決的技術(shù)問題

為了解決上述技術(shù)問題，本發(fā)明提供了一種遠(yuǎn)場(chǎng)語音交互裝置，采用高集成度和高性價(jià)比一體化設(shè)計(jì)，具有全方位喚醒、聲源測(cè)向、定向拾音、噪聲抑制、混響消除、回聲抵消、遠(yuǎn)場(chǎng)語音識(shí)別等功能。

(二)技術(shù)方案

一種遠(yuǎn)場(chǎng)語音交互裝置，包括語音拾取模塊、前端放大模塊、處理器、第一存儲(chǔ)器、第二存儲(chǔ)器、無線通信模塊、指示燈和電源模塊；

所述語音拾取模塊識(shí)別環(huán)境中的語音信號(hào)；

所述前端放大模塊對(duì)所述語音拾取模塊拾取的語音信號(hào)進(jìn)行濾波和放大處理；

所述第一存儲(chǔ)器存儲(chǔ)語音算法代碼等底層指令，用戶對(duì)所述底層指令不能修改；

所述第二存儲(chǔ)器存儲(chǔ)外圍智能硬件設(shè)備的配置信息和激活詞等上層指令，用戶對(duì)所述上層指令可進(jìn)行修改；

所述處理器執(zhí)行所述第一存儲(chǔ)器和所述第二存儲(chǔ)器的指令；

所述無線通信模塊連接外圍智能硬件設(shè)備；

所述指示燈為led發(fā)光二極管；

所述電源模塊為上述各部分提供電源。

進(jìn)一步的，所述語音拾取模塊為麥克風(fēng)陣列，且所述麥克風(fēng)陣列數(shù)量為6個(gè)。

進(jìn)一步的，所述麥克風(fēng)陣列在pcb板上為直徑8cm的環(huán)形分布。

進(jìn)一步的，所述第一存儲(chǔ)器為ddr3，所述第一存儲(chǔ)器存儲(chǔ)的所述語音算法包括語音激活檢測(cè)、語音喚醒、回聲消除、低信噪比和混響。

進(jìn)一步的，所述第二存儲(chǔ)器為emmc。

進(jìn)一步的，所述處理器為cypresscyw43438。

進(jìn)一步的，所述無線通信模塊為紅外線模塊、藍(lán)牙模塊或者wifi模塊中的一種或者組合。

(三)有益效果

本發(fā)明提供了一種遠(yuǎn)場(chǎng)語音交互裝置，采用高集成度和高性價(jià)比一體化設(shè)計(jì)，具有全方位喚醒、聲源測(cè)向、定向拾音、噪聲抑制、混響消除、回聲抵消、遠(yuǎn)場(chǎng)語音識(shí)別等功能，廣泛適用于智能音箱、dot、電視盒子等智能硬件設(shè)備。

附圖說明

圖1為本發(fā)明所涉及的一種遠(yuǎn)場(chǎng)語音交互裝置系統(tǒng)框圖。

圖2為本發(fā)明所涉及的一種遠(yuǎn)場(chǎng)語音交互裝置pcb分布示意圖。

圖3為本發(fā)明所涉及的一種遠(yuǎn)場(chǎng)語音交互裝置語音算法流程圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明所涉及的實(shí)施例做進(jìn)一步詳細(xì)說明。

實(shí)施例1：

如圖1所示，一種遠(yuǎn)場(chǎng)語音交互裝置，包括語音拾取模塊、前端放大模塊、處理器、第一存儲(chǔ)器、第二存儲(chǔ)器、無線通信模塊、指示燈和電源模塊；

語音拾取模塊識(shí)別環(huán)境中的語音信號(hào)；

前端放大模塊對(duì)語音拾取模塊拾取的語音信號(hào)進(jìn)行濾波和放大處理；

第一存儲(chǔ)器存儲(chǔ)語音算法代碼等底層指令，用戶對(duì)底層指令不能修改；

第二存儲(chǔ)器存儲(chǔ)外圍智能硬件設(shè)備的配置信息和激活詞等上層指令，用戶對(duì)上層指令可進(jìn)行修改；

處理器執(zhí)行第一存儲(chǔ)器和第二存儲(chǔ)器的指令；

無線通信模塊連接外圍智能硬件設(shè)備；

指示燈為led發(fā)光二極管；

電源模塊為上述各部分提供電源。

實(shí)施例2：

結(jié)合圖2和圖3，說明裝置工作原理。

語音拾取模塊為麥克風(fēng)陣列，麥克風(fēng)陣列是利用一定數(shù)目，一定空間構(gòu)型的聲學(xué)傳感器組成，用來對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。線性、環(huán)形、球形麥克風(fēng)陣列在原理上并無太大區(qū)別，只是由于空間構(gòu)型不同，導(dǎo)致它們可分辨的空間范圍也不同。比如，在聲源定位上，線性陣列只有一維信息，只能分辨180度；環(huán)形陣列是平面陣列，有兩維信息，能分辨360度；球形陣列是立體三維空間陣列，有三維信息，能區(qū)分360度的方位角和180度俯仰角。其次麥克風(fēng)的個(gè)數(shù)越多，對(duì)說話人的定位精度越高，但是定位精度的差別體現(xiàn)在交互距離的遠(yuǎn)近上，如果交互距離不是很遠(yuǎn)，5麥和8麥的定位效果差異不是很大。此外，麥克風(fēng)個(gè)數(shù)越多，波束能區(qū)分的空間越精細(xì)，在嘈雜環(huán)境下的拾音質(zhì)量越高，但是在一般室內(nèi)的安靜環(huán)境下，5麥和8麥的識(shí)別率相差不是很大。同時(shí)麥克風(fēng)個(gè)數(shù)越多，成本也越高。

綜合考量，麥克風(fēng)陣列數(shù)量選取6個(gè)，并且在pcb板上設(shè)計(jì)成直徑為8cm的環(huán)形分布，兼具360度全方位的高定位精度和高拾音質(zhì)量，同時(shí)使得開發(fā)成本不會(huì)很高，有利于裝置的小型化設(shè)計(jì)。

第一存儲(chǔ)器選用ddr3，屬于sdram家族的內(nèi)存產(chǎn)品，提供了相較于ddr2更高的運(yùn)行效能與更低的電壓，功耗和發(fā)熱量更小。

ddr3存儲(chǔ)的語音算法包括語音激活檢測(cè)、語音喚醒、回聲消除、低信噪比和混響。

語音激活檢測(cè)就是判斷環(huán)境中什么時(shí)候有語音什么時(shí)候沒有語音，后續(xù)的語音信號(hào)處理都是在這一步截取出來的有效語音片段上進(jìn)行的，這樣可以極大的減少計(jì)算量，同時(shí)也能減少噪聲誤識(shí)別等情況。

語音喚醒是人機(jī)交互的主要觸發(fā)方式，在語音激活檢測(cè)到語音信號(hào)之后進(jìn)行工作，判斷語音信號(hào)中是否包含預(yù)先存儲(chǔ)的激活詞，若包含，則對(duì)后續(xù)的語音信號(hào)繼續(xù)識(shí)別，否則后續(xù)的語音不進(jìn)行處理。

回聲消除是全雙工通信中的一個(gè)名詞，即在播放的同時(shí)可以拾音?；芈曄碾y點(diǎn)在于它要和智能硬件設(shè)備比如智能音箱的音響效果之間有一個(gè)平衡和折中。

低信噪比和混響。有時(shí)候環(huán)境中背景噪聲很大，比如家里開電視、或者在汽車?yán)锩娴鹊?，從而使得語音質(zhì)量變差，即信噪比降低。另外家庭環(huán)境中的墻壁反射形成的混響對(duì)語音質(zhì)量也有不可忽視的影響。為了對(duì)語音信號(hào)進(jìn)行增強(qiáng)，提高語音的信噪比，通過深度神經(jīng)網(wǎng)絡(luò)對(duì)帶噪語音和干凈語音間的復(fù)雜關(guān)系進(jìn)行回歸擬合建模，該方法基于對(duì)數(shù)功率譜最小均方誤差準(zhǔn)則，多幀擴(kuò)展對(duì)提升語音增強(qiáng)質(zhì)量和連續(xù)性有很大幫助。

第二存儲(chǔ)器選用emmc存儲(chǔ)器，其帶有多媒體卡接口、快閃存儲(chǔ)器設(shè)備及主控制器，所有都在一個(gè)小型的bga封裝，有利于裝置小型化，同時(shí)接口速度高達(dá)每秒52m字節(jié)。

處理器選用cypresscyw43438型號(hào)芯片，該芯片集成了ieee802.11a/b/g/n/acwlan和藍(lán)牙，采用高集成度和高性價(jià)比的一體化設(shè)計(jì)，可實(shí)現(xiàn)小尺寸的物聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)。

無線通信模塊為紅外線模塊、藍(lán)牙模塊或者wifi模塊中的一種或者組合。鑒于此實(shí)施例中處理器已經(jīng)集成了藍(lán)牙和wifi模塊，只需補(bǔ)充紅外線模塊即可。

遠(yuǎn)場(chǎng)語音識(shí)別，需要軟硬件結(jié)合，一方面通過硬件使用環(huán)形6麥克風(fēng)陣列和濾波信號(hào)放大電路，通過聲源定位及自適應(yīng)波束形成語音增強(qiáng)，在硬件端完成遠(yuǎn)場(chǎng)拾音，并初步完成濾噪，另一方面通過cypresscyw43438處理器運(yùn)行內(nèi)存ddr3中存儲(chǔ)的語音算法代碼，對(duì)語音信號(hào)進(jìn)行語音激活檢測(cè)、語音喚醒、回聲消除、低信噪比和混響的處理，從環(huán)境的語音信號(hào)中提取出清晰的激活詞。用戶根據(jù)個(gè)人需要通過紅外、藍(lán)牙或者wifi連接若干個(gè)外圍智能硬件設(shè)備和設(shè)置多個(gè)激活詞，并將配置信息和激活詞存儲(chǔ)在emmc存儲(chǔ)器中。當(dāng)處理器接收到有效激活詞的時(shí)候，led指示燈閃爍，同時(shí)處理器控制相應(yīng)的外圍智能硬件設(shè)備進(jìn)行響應(yīng)。

在實(shí)際使用過程中，本發(fā)明所提供的一種遠(yuǎn)場(chǎng)語音交互裝置的靈敏度>-42dbv@94db1khz，水平方向?qū)崿F(xiàn)360°聲源定位，定位精度為±10°，動(dòng)態(tài)噪聲抑制>20db，信噪比>65db，喚醒距離可達(dá)20m，并且3m的喚醒率>96％，5m的喚醒率>91％；識(shí)別距離可達(dá)5m，并且2m的識(shí)別率>95％，5m的識(shí)別率>90％，支持任意打斷，連續(xù)喚醒，完全滿足了一般室內(nèi)的智能硬件設(shè)備布置需求。

上面所述的實(shí)施例僅僅是對(duì)本發(fā)明的優(yōu)選實(shí)施方式進(jìn)行描述，并非對(duì)本發(fā)明的構(gòu)思和范圍進(jìn)行限定。在不脫離本發(fā)明設(shè)計(jì)構(gòu)思的前提下，本領(lǐng)域普通人員對(duì)本發(fā)明的技術(shù)方案做出的各種變型和改進(jìn)，均應(yīng)落入到本發(fā)明的保護(hù)范圍，本發(fā)明請(qǐng)求保護(hù)的技術(shù)內(nèi)容，已經(jīng)全部記載在權(quán)利要求書中。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐坤
技術(shù)所有人：湖州金軟電子科技有限公司
我是此專利的發(fā)明人

上一篇：用于家電的語音控制裝置和方法與流程
上一篇：用于控制終端的信息處理方法及其系統(tǒng)與流程

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

遠(yuǎn)場(chǎng)語音交互相關(guān)技術(shù)

智能語音交互體驗(yàn)裝置相關(guān)技術(shù)

遠(yuǎn)場(chǎng)語音識(shí)別相關(guān)技術(shù)

遠(yuǎn)場(chǎng)語音相關(guān)技術(shù)

語音報(bào)警裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種遠(yuǎn)場(chǎng)語音交互裝置的制作方法