一種基于音頻和視頻的智能家居自然交互系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息技術(shù)領(lǐng)域,具體涉及到一種基于音頻和視頻技術(shù)的智能家庭自然 交互系統(tǒng)。
【背景技術(shù)】
[0002] 在物聯(lián)網(wǎng)和人工智能的技術(shù)浪潮下,智能家居技術(shù)發(fā)展十分迅速,出現(xiàn)了許多的 智能家庭相關(guān)的硬件產(chǎn)品,如Nest的智能恒溫器和煙霧報(bào)警器,飛利浦的Hue智能燈泡,海 爾的智能冰箱,August的智能鎖等等。這些智能設(shè)備極大地滿足了人們對(duì)家庭設(shè)備的控制 需求。然而,這些設(shè)備缺少統(tǒng)一的控制標(biāo)準(zhǔn)和接口。一般來說,它們各自擁有一套獨(dú)立的 系統(tǒng)和相配套的控制方法,例如手機(jī)App。這種不兼容給用戶帶來的是多次重復(fù)操作等控 制復(fù)雜性。鑒于此,Apple發(fā)布了自己的控制平臺(tái)Homekit,三星開發(fā)了 Smart Home平臺(tái), Quicky有Wink以及Relay平臺(tái)等,這些平臺(tái)或設(shè)備在一定程度上提高了對(duì)智能設(shè)備操控的 便捷性。然而,現(xiàn)有的這些平臺(tái)或設(shè)備均采用比較單一的語音控制,或者智能手機(jī)控制等。 在很多情況下,這些單一互動(dòng)方式都不能實(shí)現(xiàn)與家庭設(shè)備自然地交互。
[0003] 經(jīng)查詢,專利公開號(hào)為CN102298443的系統(tǒng)和控制方法采用了讀取唇語的方法來 輔助家庭環(huán)境下的語音識(shí)別系統(tǒng)。然而,唇語識(shí)別極大地受到用戶的角度、位置、光照等限 制,實(shí)際應(yīng)用中很難達(dá)到較高的識(shí)別率,從而影響用戶體驗(yàn)。同時(shí),該系統(tǒng)沒有對(duì)外開放的 接口和云端服務(wù)平臺(tái),這大大局限了該系統(tǒng)的的擴(kuò)展性和使用范圍。
【發(fā)明內(nèi)容】
[0004] 為了克服對(duì)現(xiàn)有智能家庭設(shè)備控制上的不足,本發(fā)明提供了一套基于音頻和視頻 的智能家庭交互系統(tǒng)。相比現(xiàn)有的家庭設(shè)備控制和交互系統(tǒng),本發(fā)明采用語音和圖像相結(jié) 合的手段來達(dá)到更加自然、健壯的人機(jī)交互體驗(yàn);提供了統(tǒng)一的信息分析和融合平臺(tái),可以 很好地?cái)U(kuò)展和兼容其它智能家居廠商的產(chǎn)品,使用戶操作更加自然和便捷。
[0005] 本發(fā)明為解決上述問題所采用的的具體技術(shù)方案如下: 一種基于音頻和視頻的智能家居交互控制系統(tǒng),主要包括前端、中央處理單元、后端和 云端。前端包括了音頻和視頻等信息搜集模塊,如麥克風(fēng)系統(tǒng)和攝像頭系統(tǒng)、第三方傳感器 接口、以及反饋顯示模塊。中央處理單元包括音頻信號(hào)處理和信息提取模塊、視頻信號(hào)處理 和信息提取模塊、第三方信號(hào)處理和信息提取接口模塊、信息融合模塊。后端包括了控制信 號(hào)發(fā)射模塊、與云端服務(wù)器通信模塊。云端為云端服務(wù)器。
[0006] 所述麥克風(fēng)系統(tǒng)為麥克風(fēng)陣列。它通過特定的采樣頻率和編碼方式實(shí)時(shí)收集家庭 環(huán)境下的聲音信息,并將原始的音頻信號(hào)傳遞給音頻信號(hào)分析及信息提取模塊。
[0007] 所述音頻信號(hào)分析及信息提取模塊,用于對(duì)搜集到的聲音信號(hào)進(jìn)行降噪、降回音、 聲源分離等前期處理,并進(jìn)行聲源定位、說話人識(shí)別、語音喚醒、以及語音識(shí)別和指令檢測(cè) 等處理。
[0008] 首先,Kalman濾波器對(duì)每一個(gè)聲音通道的信號(hào)進(jìn)行初步除噪,并進(jìn)行端點(diǎn)檢測(cè),切 割信號(hào);分割出來的信號(hào)可能存在多聲源混合的情況,所述模塊通過非負(fù)矩陣算法將不同 聲源分開,提取出目的聲源;繼而,信號(hào)通過GCC delay-and-sum beamforming算法進(jìn)行多 聲道的降噪降回音技術(shù)抑制噪聲和回音。
[0009] 在應(yīng)用多聲道噪聲和回聲抑制技術(shù)的同時(shí),所述的聲源定位系統(tǒng)利用不同聲道及 收到的信號(hào)時(shí)間差(TDOA)來確定聲源的位置。當(dāng)聲源確定后,系統(tǒng)會(huì)根據(jù)說話人位置自動(dòng) 調(diào)整方向,使本發(fā)明的系統(tǒng)和用戶處于相對(duì)合適的角度。
[0010] 而后,經(jīng)降噪降回音處理后的信號(hào)會(huì)輸入到所述的說話人確認(rèn)模塊。該模塊用于 判斷用戶是否具有系統(tǒng)的使用權(quán)。該模塊采用i-vector算法,對(duì)說話人進(jìn)行確認(rèn)。非授權(quán) 用戶將不具備有對(duì)系統(tǒng)的控制權(quán)限。
[0011] 若用戶具有使用權(quán)限,語音喚醒模塊會(huì)判斷檢測(cè)到的聲音是否包含喚醒關(guān)鍵字。 若有,本發(fā)明系統(tǒng)會(huì)從睡眠模式進(jìn)入激活交互模式。后繼探測(cè)到的聲音信號(hào)會(huì)直接送入語 音識(shí)別和自然語義理解模塊。
[0012] 語音識(shí)別模塊將聲音信號(hào)轉(zhuǎn)化為文字信息,通過自然語言理解技術(shù),分析和檢測(cè) 出控制或交互指令。
[0013] 所述攝像頭系統(tǒng)包含普通攝像頭和深度攝像頭。它負(fù)責(zé)收集用戶的動(dòng)作和活動(dòng)信 息。具體來講,它用于探測(cè)用戶的臉部、手勢(shì)、和運(yùn)動(dòng)信息。
[0014] 首先,對(duì)普通攝像頭得到的RGB圖像進(jìn)行人臉檢測(cè)。一旦檢測(cè)到包含人臉,將對(duì)相 關(guān)圖像進(jìn)行人臉識(shí)別和身份驗(yàn)證。這里,本系統(tǒng)中將檢測(cè)到的人臉與預(yù)存的授權(quán)用戶人臉 進(jìn)行比較(基于人臉特征和機(jī)器學(xué)習(xí)),若驗(yàn)證成功,動(dòng)作識(shí)別模塊將被激活。該模塊的輸入 為深度攝像頭獲取的深度圖像,該圖像將首先被用于實(shí)時(shí)骨架跟蹤,獲取人體關(guān)節(jié)位置等 信息。骨架跟蹤的信息還可以用于用戶定位,本系統(tǒng)可以根據(jù)用戶位置自動(dòng)調(diào)整方向,使本 發(fā)明的系統(tǒng)和用戶處于相對(duì)合適的角度。
[0015] 而后,人體關(guān)節(jié)信息會(huì)與本系統(tǒng)中動(dòng)作庫中的動(dòng)作相比較。一旦找到相應(yīng)的匹配 動(dòng)作,與該動(dòng)作相關(guān)聯(lián)的指令信息將被生成。
[0016] 所述的第三方傳感器接口和第三方信號(hào)處理和信息提取接口模塊,用于功能擴(kuò) 展,為未來其他開發(fā)者提供相應(yīng)的接口,以實(shí)現(xiàn)定制功能。
[0017] 所述的反饋顯示模塊,用于系統(tǒng)和用戶的溝通和交互。當(dāng)指令識(shí)別模糊或者錯(cuò)誤 時(shí),用戶可以通過反饋顯示模塊加以確認(rèn)或糾正。
[0018] 所述的信息融合模塊,用于融合檢測(cè)到的語音指令、手勢(shì)指令和其他 指令信息,利用概率來判別用戶的指令,其數(shù)學(xué)描述為:t 丨,其中 其中,I為指令f丨的預(yù)測(cè)概率值;和Ii分別為語音、視 頻和其它傳感器對(duì)指令f的預(yù)測(cè)概率;&、||和I#分別為語音、視頻和其它傳感器信號(hào) 權(quán)重。
[0019] 所述控制信號(hào)發(fā)射模塊,用于將控制指令轉(zhuǎn)化為實(shí)際可以控制家電的信號(hào),利用 紅外、RF射頻、藍(lán)牙、wifi、Zigbee、Z-Wave等無線通信方式來達(dá)到操控家電的目的。
[0020] 所述與云端服務(wù)器通信模塊,用于信息融合模塊和云端服務(wù)器的通信。本地端可 向云端發(fā)送獲取資源指令,相應(yīng)資源通過此模塊返回到本地端。云端也可通過所述模塊向 本地端發(fā)送指令,以實(shí)現(xiàn)家電的遠(yuǎn)程控制,或?qū)⒓抑行畔鬏斨猎贫恕?br>[0021] 所述云端服務(wù)器,用于a)為本地端提供額外的計(jì)算資源;b)為本地提供額外的存 儲(chǔ)空間或數(shù)據(jù)備份;c)為用戶終端如手機(jī)等提供信息交換平臺(tái);d)為用戶提供其他信息, 如查詢搜索或音樂等。
[0022] 本發(fā)明的有益效果是:1)前端采用了語音和手勢(shì)識(shí)別交互的方式,提高了交互的 自然性;2 )語音交互方式和視覺交互方式是獨(dú)立且互補(bǔ)的,它們既可以獨(dú)立工作,也可以協(xié) 同工作,突破了單一交互方式在家庭中的應(yīng)用局限性,提高人機(jī)交互的健壯性;3)提供了第 三方的接口,第三方開發(fā)者可以根據(jù)需要,添加其他傳感器的信號(hào)處理和信息提取功能,為 本系統(tǒng)提供了很好的擴(kuò)展;4)后端提供了多種無線通信方式,提供了很好的兼容性;5)提 供了本地和遠(yuǎn)程兩種工作模式。本地模式從物理上保證了用戶系統(tǒng)的安全和隱私,而遠(yuǎn)程 模式可以提供給用戶額外的信息和更高級(jí)的服務(wù)。
【附圖說明】
[0023] 圖1為本發(fā)明基于音頻和視頻的智能家庭自然交互控制系統(tǒng)框架圖。
[0024] 圖2為本發(fā)明音頻信號(hào)處理及信息提取流程圖。
[0025] 圖3為本發(fā)明視頻信號(hào)處理及信息提取流程圖。
[0026] 圖4為本發(fā)明信息融合模塊流程圖。
【具體實(shí)施方式】
[0027] 針對(duì)現(xiàn)有技術(shù)中存在的問題,本發(fā)明中提出一種智能家庭交互系統(tǒng),該系統(tǒng)基于 智能音頻和視頻分析處理技術(shù),能夠提高人機(jī)交互的便捷性、舒適度和操控的準(zhǔn)確度,同時(shí) 具有很高的兼容性和可擴(kuò)展性。
[0028] 為了使本發(fā)明的技術(shù)方案更加清晰,下面結(jié)合附圖及實(shí)例,對(duì)本發(fā)明方案做進(jìn)一 步詳細(xì)說明,而這些描述將被認(rèn)為實(shí)例性的。
[0029] 如圖1所示,該系統(tǒng)包括:前端、中央處理單元、后端和云端四部分。前端主要負(fù)責(zé) 聲音和圖像信號(hào)及等信息的收集,以及系統(tǒng)的反饋顯示;中央處理單元主要負(fù)責(zé)對(duì)收集到 的聲音和視覺信號(hào)進(jìn)行處理,利用機(jī)器學(xué)習(xí)和模式識(shí)別的方法獲取有用的指令信息;后端 主要負(fù)責(zé)將獲取的指令轉(zhuǎn)為可發(fā)射的信號(hào),來控制家中電器等;同時(shí)也可以從云端的云端 服務(wù)器獲取和交換信息。
[0030] 本發(fā)明在開啟狀態(tài)時(shí)會(huì)實(shí)時(shí)地探測(cè)家中的聲音信號(hào)和圖像信號(hào)。
[0031] 其中本發(fā)明的音頻信號(hào)處理和信息提取的詳細(xì)流程圖如圖2所示。當(dāng)用戶在家說 話,例如"開燈"。該聲音被麥克風(fēng)系統(tǒng)檢測(cè)到(步驟202),經(jīng)過多通道音頻信號(hào)初步的除噪 處理后(步驟202),進(jìn)行端點(diǎn)檢測(cè)和分割(步驟203),提取出包含"開燈"的音頻信號(hào)。當(dāng)有 多個(gè)聲源同時(shí)發(fā)聲時(shí)(比如多個(gè)用戶同時(shí)說話,或者用戶說話時(shí)同時(shí)有音樂播放),系統(tǒng)會(huì) 對(duì)聲源進(jìn)行分離(步驟204),剝離掉背景聲音。同時(shí),本發(fā)明會(huì)分析聲音的來源(步驟205), 來及時(shí)調(diào)整系統(tǒng)的方向(步驟206)。比如,當(dāng)用戶位于系統(tǒng)的背面時(shí),系統(tǒng)會(huì)轉(zhuǎn)動(dòng)180度以 正面面對(duì)用戶。在進(jìn)一步降噪和降回音處理之后(步驟207),系統(tǒng)會(huì)對(duì)用戶進(jìn)行確認(rèn),如 果不是具有權(quán)限的成員,將會(huì)忽略;如果是,該用戶的輸入聲音將會(huì)得到進(jìn)一步處理(步驟 208),并進(jìn)行系統(tǒng)喚醒檢測(cè)(步驟209)。如果用戶的聲音可以匹配喚醒關(guān)鍵字如"開燈",系 統(tǒng)將從睡眠狀態(tài)切換至喚醒狀態(tài);否則繼續(xù)探測(cè)喚醒指令。系統(tǒng)喚醒后,將會(huì)對(duì)后續(xù)用戶的 聲音進(jìn)行語音識(shí)別(步驟210)。例如,當(dāng)識(shí)別結(jié)果為"請(qǐng)打開這盞電燈","調(diào)高空調(diào)溫度", "播放周杰倫的青花瓷","查看我的未讀郵件"等等,系統(tǒng)通過自然語義理解(步驟211)提 取其中的關(guān)鍵字,如"打開"、"這盞電燈"、"調(diào)高"、"空調(diào)"、"溫度"、"播放"、"周杰倫"、"青花 瓷"、"察看"、"我的"、"未讀郵件"等。這些關(guān)鍵字會(huì)送入到信息融合模塊(模塊15),作下一 步處理。
[0032] 本發(fā)明在探測(cè)音頻信號(hào)的同時(shí),也在實(shí)時(shí)檢測(cè)視頻信號(hào)。其中視頻信號(hào)處理和信 息提取的詳細(xì)流程如圖3所示。本模塊的輸入為視頻信號(hào),它包含兩種:普通RGB圖像信號(hào) (301)和深度圖像信號(hào)(302)。首先本模塊實(shí)時(shí)地在RGB圖像中進(jìn)行人臉檢測(cè)(303),當(dāng)檢 測(cè)到有