一種基于音頻和視頻的智能家居自然交互系統(tǒng)的制作方法

文檔序號(hào)：9326231閱讀：599來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

一種基于音頻和視頻的智能家居自然交互系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息技術(shù)領(lǐng)域，具體涉及到一種基于音頻和視頻技術(shù)的智能家庭自然交互系統(tǒng)。
【背景技術(shù)】
[0002] 在物聯(lián)網(wǎng)和人工智能的技術(shù)浪潮下，智能家居技術(shù)發(fā)展十分迅速，出現(xiàn)了許多的智能家庭相關(guān)的硬件產(chǎn)品，如Nest的智能恒溫器和煙霧報(bào)警器，飛利浦的Hue智能燈泡，海爾的智能冰箱，August的智能鎖等等。這些智能設(shè)備極大地滿足了人們對(duì)家庭設(shè)備的控制需求。然而，這些設(shè)備缺少統(tǒng)一的控制標(biāo)準(zhǔn)和接口。一般來說，它們各自擁有一套獨(dú)立的系統(tǒng)和相配套的控制方法，例如手機(jī)App。這種不兼容給用戶帶來的是多次重復(fù)操作等控制復(fù)雜性。鑒于此，Apple發(fā)布了自己的控制平臺(tái)Homekit，三星開發(fā)了 Smart Home平臺(tái)， Quicky有Wink以及Relay平臺(tái)等，這些平臺(tái)或設(shè)備在一定程度上提高了對(duì)智能設(shè)備操控的便捷性。然而，現(xiàn)有的這些平臺(tái)或設(shè)備均采用比較單一的語音控制，或者智能手機(jī)控制等。在很多情況下，這些單一互動(dòng)方式都不能實(shí)現(xiàn)與家庭設(shè)備自然地交互。
[0003] 經(jīng)查詢，專利公開號(hào)為CN102298443的系統(tǒng)和控制方法采用了讀取唇語的方法來輔助家庭環(huán)境下的語音識(shí)別系統(tǒng)。然而，唇語識(shí)別極大地受到用戶的角度、位置、光照等限制，實(shí)際應(yīng)用中很難達(dá)到較高的識(shí)別率，從而影響用戶體驗(yàn)。同時(shí)，該系統(tǒng)沒有對(duì)外開放的接口和云端服務(wù)平臺(tái)，這大大局限了該系統(tǒng)的的擴(kuò)展性和使用范圍。

【發(fā)明內(nèi)容】

[0004] 為了克服對(duì)現(xiàn)有智能家庭設(shè)備控制上的不足，本發(fā)明提供了一套基于音頻和視頻的智能家庭交互系統(tǒng)。相比現(xiàn)有的家庭設(shè)備控制和交互系統(tǒng)，本發(fā)明采用語音和圖像相結(jié) 合的手段來達(dá)到更加自然、健壯的人機(jī)交互體驗(yàn)；提供了統(tǒng)一的信息分析和融合平臺(tái)，可以很好地?cái)U(kuò)展和兼容其它智能家居廠商的產(chǎn)品，使用戶操作更加自然和便捷。
[0005] 本發(fā)明為解決上述問題所采用的的具體技術(shù)方案如下：一種基于音頻和視頻的智能家居交互控制系統(tǒng)，主要包括前端、中央處理單元、后端和云端。前端包括了音頻和視頻等信息搜集模塊，如麥克風(fēng)系統(tǒng)和攝像頭系統(tǒng)、第三方傳感器接口、以及反饋顯示模塊。中央處理單元包括音頻信號(hào)處理和信息提取模塊、視頻信號(hào)處理和信息提取模塊、第三方信號(hào)處理和信息提取接口模塊、信息融合模塊。后端包括了控制信號(hào)發(fā)射模塊、與云端服務(wù)器通信模塊。云端為云端服務(wù)器。
[0006] 所述麥克風(fēng)系統(tǒng)為麥克風(fēng)陣列。它通過特定的采樣頻率和編碼方式實(shí)時(shí)收集家庭環(huán)境下的聲音信息，并將原始的音頻信號(hào)傳遞給音頻信號(hào)分析及信息提取模塊。
[0007] 所述音頻信號(hào)分析及信息提取模塊，用于對(duì)搜集到的聲音信號(hào)進(jìn)行降噪、降回音、聲源分離等前期處理，并進(jìn)行聲源定位、說話人識(shí)別、語音喚醒、以及語音識(shí)別和指令檢測(cè) 等處理。
[0008] 首先，Kalman濾波器對(duì)每一個(gè)聲音通道的信號(hào)進(jìn)行初步除噪，并進(jìn)行端點(diǎn)檢測(cè)，切割信號(hào)；分割出來的信號(hào)可能存在多聲源混合的情況，所述模塊通過非負(fù)矩陣算法將不同聲源分開，提取出目的聲源；繼而，信號(hào)通過GCC delay-and-sum beamforming算法進(jìn)行多聲道的降噪降回音技術(shù)抑制噪聲和回音。
[0009] 在應(yīng)用多聲道噪聲和回聲抑制技術(shù)的同時(shí)，所述的聲源定位系統(tǒng)利用不同聲道及收到的信號(hào)時(shí)間差（TDOA)來確定聲源的位置。當(dāng)聲源確定后，系統(tǒng)會(huì)根據(jù)說話人位置自動(dòng) 調(diào)整方向，使本發(fā)明的系統(tǒng)和用戶處于相對(duì)合適的角度。
[0010] 而后，經(jīng)降噪降回音處理后的信號(hào)會(huì)輸入到所述的說話人確認(rèn)模塊。該模塊用于判斷用戶是否具有系統(tǒng)的使用權(quán)。該模塊采用i-vector算法，對(duì)說話人進(jìn)行確認(rèn)。非授權(quán) 用戶將不具備有對(duì)系統(tǒng)的控制權(quán)限。
[0011] 若用戶具有使用權(quán)限，語音喚醒模塊會(huì)判斷檢測(cè)到的聲音是否包含喚醒關(guān)鍵字。若有，本發(fā)明系統(tǒng)會(huì)從睡眠模式進(jìn)入激活交互模式。后繼探測(cè)到的聲音信號(hào)會(huì)直接送入語音識(shí)別和自然語義理解模塊。
[0012] 語音識(shí)別模塊將聲音信號(hào)轉(zhuǎn)化為文字信息，通過自然語言理解技術(shù)，分析和檢測(cè) 出控制或交互指令。
[0013] 所述攝像頭系統(tǒng)包含普通攝像頭和深度攝像頭。它負(fù)責(zé)收集用戶的動(dòng)作和活動(dòng)信息。具體來講，它用于探測(cè)用戶的臉部、手勢(shì)、和運(yùn)動(dòng)信息。
[0014] 首先，對(duì)普通攝像頭得到的RGB圖像進(jìn)行人臉檢測(cè)。一旦檢測(cè)到包含人臉，將對(duì)相關(guān)圖像進(jìn)行人臉識(shí)別和身份驗(yàn)證。這里，本系統(tǒng)中將檢測(cè)到的人臉與預(yù)存的授權(quán)用戶人臉進(jìn)行比較(基于人臉特征和機(jī)器學(xué)習(xí)），若驗(yàn)證成功，動(dòng)作識(shí)別模塊將被激活。該模塊的輸入為深度攝像頭獲取的深度圖像，該圖像將首先被用于實(shí)時(shí)骨架跟蹤，獲取人體關(guān)節(jié)位置等信息。骨架跟蹤的信息還可以用于用戶定位，本系統(tǒng)可以根據(jù)用戶位置自動(dòng)調(diào)整方向，使本發(fā)明的系統(tǒng)和用戶處于相對(duì)合適的角度。
[0015] 而后，人體關(guān)節(jié)信息會(huì)與本系統(tǒng)中動(dòng)作庫中的動(dòng)作相比較。一旦找到相應(yīng)的匹配動(dòng)作，與該動(dòng)作相關(guān)聯(lián)的指令信息將被生成。
[0016] 所述的第三方傳感器接口和第三方信號(hào)處理和信息提取接口模塊，用于功能擴(kuò) 展，為未來其他開發(fā)者提供相應(yīng)的接口，以實(shí)現(xiàn)定制功能。
[0017] 所述的反饋顯示模塊，用于系統(tǒng)和用戶的溝通和交互。當(dāng)指令識(shí)別模糊或者錯(cuò)誤時(shí)，用戶可以通過反饋顯示模塊加以確認(rèn)或糾正。
[0018] 所述的信息融合模塊，用于融合檢測(cè)到的語音指令、手勢(shì)指令和其他指令信息，利用概率來判別用戶的指令，其數(shù)學(xué)描述為：t 丨，其中其中，I為指令f丨的預(yù)測(cè)概率值;和Ii分別為語音、視頻和其它傳感器對(duì)指令f的預(yù)測(cè)概率；&、||和I#分別為語音、視頻和其它傳感器信號(hào) 權(quán)重。
[0019] 所述控制信號(hào)發(fā)射模塊，用于將控制指令轉(zhuǎn)化為實(shí)際可以控制家電的信號(hào)，利用紅外、RF射頻、藍(lán)牙、wifi、Zigbee、Z-Wave等無線通信方式來達(dá)到操控家電的目的。
[0020] 所述與云端服務(wù)器通信模塊，用于信息融合模塊和云端服務(wù)器的通信。本地端可向云端發(fā)送獲取資源指令，相應(yīng)資源通過此模塊返回到本地端。云端也可通過所述模塊向本地端發(fā)送指令，以實(shí)現(xiàn)家電的遠(yuǎn)程控制，或?qū)⒓抑行畔鬏斨猎贫恕?br>[0021] 所述云端服務(wù)器，用于a)為本地端提供額外的計(jì)算資源；b)為本地提供額外的存儲(chǔ)空間或數(shù)據(jù)備份；c)為用戶終端如手機(jī)等提供信息交換平臺(tái)；d)為用戶提供其他信息，如查詢搜索或音樂等。
[0022] 本發(fā)明的有益效果是：1)前端采用了語音和手勢(shì)識(shí)別交互的方式，提高了交互的自然性；2 )語音交互方式和視覺交互方式是獨(dú)立且互補(bǔ)的，它們既可以獨(dú)立工作，也可以協(xié) 同工作，突破了單一交互方式在家庭中的應(yīng)用局限性，提高人機(jī)交互的健壯性；3)提供了第三方的接口，第三方開發(fā)者可以根據(jù)需要，添加其他傳感器的信號(hào)處理和信息提取功能，為本系統(tǒng)提供了很好的擴(kuò)展；4)后端提供了多種無線通信方式，提供了很好的兼容性；5)提供了本地和遠(yuǎn)程兩種工作模式。本地模式從物理上保證了用戶系統(tǒng)的安全和隱私，而遠(yuǎn)程模式可以提供給用戶額外的信息和更高級(jí)的服務(wù)。
【附圖說明】
[0023] 圖1為本發(fā)明基于音頻和視頻的智能家庭自然交互控制系統(tǒng)框架圖。
[0024] 圖2為本發(fā)明音頻信號(hào)處理及信息提取流程圖。
[0025] 圖3為本發(fā)明視頻信號(hào)處理及信息提取流程圖。
[0026] 圖4為本發(fā)明信息融合模塊流程圖。
【具體實(shí)施方式】
[0027] 針對(duì)現(xiàn)有技術(shù)中存在的問題，本發(fā)明中提出一種智能家庭交互系統(tǒng)，該系統(tǒng)基于智能音頻和視頻分析處理技術(shù)，能夠提高人機(jī)交互的便捷性、舒適度和操控的準(zhǔn)確度，同時(shí) 具有很高的兼容性和可擴(kuò)展性。
[0028] 為了使本發(fā)明的技術(shù)方案更加清晰，下面結(jié)合附圖及實(shí)例，對(duì)本發(fā)明方案做進(jìn)一步詳細(xì)說明，而這些描述將被認(rèn)為實(shí)例性的。
[0029] 如圖1所示，該系統(tǒng)包括：前端、中央處理單元、后端和云端四部分。前端主要負(fù)責(zé) 聲音和圖像信號(hào)及等信息的收集，以及系統(tǒng)的反饋顯示；中央處理單元主要負(fù)責(zé)對(duì)收集到的聲音和視覺信號(hào)進(jìn)行處理，利用機(jī)器學(xué)習(xí)和模式識(shí)別的方法獲取有用的指令信息；后端主要負(fù)責(zé)將獲取的指令轉(zhuǎn)為可發(fā)射的信號(hào)，來控制家中電器等；同時(shí)也可以從云端的云端服務(wù)器獲取和交換信息。
[0030] 本發(fā)明在開啟狀態(tài)時(shí)會(huì)實(shí)時(shí)地探測(cè)家中的聲音信號(hào)和圖像信號(hào)。
[0031] 其中本發(fā)明的音頻信號(hào)處理和信息提取的詳細(xì)流程圖如圖2所示。當(dāng)用戶在家說話，例如"開燈"。該聲音被麥克風(fēng)系統(tǒng)檢測(cè)到(步驟202)，經(jīng)過多通道音頻信號(hào)初步的除噪處理后(步驟202)，進(jìn)行端點(diǎn)檢測(cè)和分割(步驟203)，提取出包含"開燈"的音頻信號(hào)。當(dāng)有多個(gè)聲源同時(shí)發(fā)聲時(shí)（比如多個(gè)用戶同時(shí)說話，或者用戶說話時(shí)同時(shí)有音樂播放)，系統(tǒng)會(huì) 對(duì)聲源進(jìn)行分離(步驟204)，剝離掉背景聲音。同時(shí)，本發(fā)明會(huì)分析聲音的來源(步驟205)，來及時(shí)調(diào)整系統(tǒng)的方向（步驟206)。比如，當(dāng)用戶位于系統(tǒng)的背面時(shí)，系統(tǒng)會(huì)轉(zhuǎn)動(dòng)180度以正面面對(duì)用戶。在進(jìn)一步降噪和降回音處理之后（步驟207)，系統(tǒng)會(huì)對(duì)用戶進(jìn)行確認(rèn)，如果不是具有權(quán)限的成員，將會(huì)忽略；如果是，該用戶的輸入聲音將會(huì)得到進(jìn)一步處理(步驟 208)，并進(jìn)行系統(tǒng)喚醒檢測(cè)（步驟209)。如果用戶的聲音可以匹配喚醒關(guān)鍵字如"開燈"，系統(tǒng)將從睡眠狀態(tài)切換至喚醒狀態(tài)；否則繼續(xù)探測(cè)喚醒指令。系統(tǒng)喚醒后，將會(huì)對(duì)后續(xù)用戶的聲音進(jìn)行語音識(shí)別（步驟210)。例如，當(dāng)識(shí)別結(jié)果為"請(qǐng)打開這盞電燈"，"調(diào)高空調(diào)溫度"， "播放周杰倫的青花瓷"，"查看我的未讀郵件"等等，系統(tǒng)通過自然語義理解(步驟211)提取其中的關(guān)鍵字，如"打開"、"這盞電燈"、"調(diào)高"、"空調(diào)"、"溫度"、"播放"、"周杰倫"、"青花瓷"、"察看"、"我的"、"未讀郵件"等。這些關(guān)鍵字會(huì)送入到信息融合模塊(模塊15)，作下一步處理。
[0032] 本發(fā)明在探測(cè)音頻信號(hào)的同時(shí)，也在實(shí)時(shí)檢測(cè)視頻信號(hào)。其中視頻信號(hào)處理和信息提取的詳細(xì)流程如圖3所示。本模塊的輸入為視頻信號(hào)，它包含兩種：普通RGB圖像信號(hào) (301)和深度圖像信號(hào)（302)。首先本模塊實(shí)時(shí)地在RGB圖像中進(jìn)行人臉檢測(cè)（303)，當(dāng)檢測(cè)到有

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張子興;陳宇翔;黃力;林子楠;
技術(shù)所有人：張子興;陳宇翔;黃力;林子楠;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動(dòng)穩(wěn)定性 3.汽車流場(chǎng)分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
3、王老師：電子信息處理、先進(jìn)檢測(cè)方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測(cè)與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

智能家居交互設(shè)計(jì)相關(guān)技術(shù)

智能家居人機(jī)交互相關(guān)技術(shù)

智能家居語音交互相關(guān)技術(shù)

智能家居交互相關(guān)技術(shù)

智能語音交互相關(guān)技術(shù)

智能交互相關(guān)技術(shù)

交互式智能平板相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于音頻和視頻的智能家居自然交互系統(tǒng)的制作方法