亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于數(shù)據(jù)分析的音箱控制管理方法及系統(tǒng)與流程

文檔序號(hào):40006568發(fā)布日期:2024-11-19 13:35閱讀:18來(lái)源:國(guó)知局
基于數(shù)據(jù)分析的音箱控制管理方法及系統(tǒng)與流程

本發(fā)明涉及智能音箱控制,具體為基于數(shù)據(jù)分析的音箱控制管理方法及系統(tǒng)。


背景技術(shù):

1、隨著人工智能和智能家居技術(shù)的快速發(fā)展,智能音箱作為一種智能設(shè)備已經(jīng)成為人們生活中不可或缺的一部分。為了提高智能音箱的用戶體驗(yàn)和便利性,研究人員開(kāi)始探索如何通過(guò)更高效的喚醒方式來(lái)激活智能音箱,從而實(shí)現(xiàn)語(yǔ)音控制和交互。

2、現(xiàn)階段,在智能音箱喚醒方面通常采用事先設(shè)定好的喚醒詞進(jìn)行語(yǔ)音喚醒,這種方式存在一些弊端。例如:1、某些情況人可能會(huì)因?yàn)槎虝r(shí)間忘記喚醒詞從而無(wú)法正常激活智能音箱,智能化程度不高。2、某些喚醒功能的設(shè)定需要智能音箱實(shí)時(shí)將語(yǔ)音轉(zhuǎn)文字來(lái)判定是否喚醒和識(shí)別指令,這些文字內(nèi)容可能會(huì)被其他應(yīng)用非法獲取利用,甚至造成信息泄露。3、人與智能音箱進(jìn)行語(yǔ)音交互時(shí),往往需要每次在對(duì)話中加入喚醒詞來(lái)給智能音箱下達(dá)指令,這不符合人的正常對(duì)話習(xí)慣。所以,現(xiàn)階段需要一種更加高效智能的智能音箱免喚醒詞式激活技術(shù)方案來(lái)解決上述問(wèn)題。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供基于數(shù)據(jù)分析的音箱控制管理方法及系統(tǒng),以解決上述背景技術(shù)中提出的問(wèn)題。

2、為了解決上述技術(shù)問(wèn)題,本發(fā)明提供如下技術(shù)方案:基于數(shù)據(jù)分析的音箱控制管理方法,該方法包括以下步驟:

3、s100、采集智能音箱內(nèi)保存的聲紋特征庫(kù)和歷史記錄,以及通過(guò)不同傳感器實(shí)時(shí)收集指定區(qū)域內(nèi)的音頻信息和圖像信息,綜合分析音頻和圖像判斷是否存在對(duì)象。

4、s200、通過(guò)頭部姿態(tài)檢測(cè)算法分析對(duì)象的視線范圍建立視覺(jué)區(qū),當(dāng)視覺(jué)區(qū)內(nèi)存在智能音箱時(shí)標(biāo)記對(duì)象,根據(jù)聲音強(qiáng)度變化計(jì)算觸發(fā)指數(shù)并判斷是否觸發(fā)智能音箱。

5、s300、智能音箱識(shí)別音頻中的聲紋特征,獲取對(duì)應(yīng)的歷史記錄,根據(jù)歷史記錄執(zhí)行對(duì)應(yīng)指令并進(jìn)入交互狀態(tài),通過(guò)指令時(shí)間差計(jì)算狀態(tài)指數(shù)并設(shè)定智能音箱狀態(tài)。

6、s400、將交互過(guò)程中的聲紋特征和語(yǔ)句信息分別存入聲紋特征庫(kù)和歷史記錄中。

7、在s100中,聲紋特征庫(kù)是指存儲(chǔ)聲紋特征的數(shù)據(jù)庫(kù),每個(gè)用戶對(duì)應(yīng)一個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中保存不同的聲紋特征。歷史記錄是指用戶的指令用語(yǔ)記錄,每個(gè)用戶包含不同指令用語(yǔ)記錄,每條指令用語(yǔ)記錄包括指令和用語(yǔ)。指定區(qū)域是指智能音箱的使用區(qū)域,通過(guò)攝像頭采集指定區(qū)域內(nèi)的圖像信息,圖像為實(shí)時(shí)視頻,通過(guò)麥克風(fēng)采集指定區(qū)域內(nèi)的音頻信息。判斷是否存在對(duì)象步驟如下:

8、s101、麥克風(fēng)實(shí)時(shí)采集指定區(qū)域內(nèi)的音頻并計(jì)算聲音強(qiáng)度,當(dāng)聲音強(qiáng)度大于強(qiáng)度閾值時(shí)記錄時(shí)間,自動(dòng)控制攝像頭開(kāi)始錄制指定區(qū)域內(nèi)的視頻。

9、s102、使用opencv技術(shù)將視頻分解成單幀圖像,對(duì)所有單幀圖像進(jìn)行篩選,采用邊緣檢測(cè)法去除模糊的單幀圖像;采用yolov5人體檢測(cè)算法針對(duì)剩余單幀圖像進(jìn)行目標(biāo)識(shí)別,將識(shí)別到的人體目標(biāo)作為對(duì)象。未識(shí)別到指定區(qū)域內(nèi)存在對(duì)象則控制攝像頭關(guān)閉。

10、指令是指能夠被智能音箱直接識(shí)別并執(zhí)行的操作指令。用語(yǔ)是指用戶在下達(dá)指令時(shí)所進(jìn)行的文字表述,該文字表述由采集音頻信息中的語(yǔ)音轉(zhuǎn)文字得到。每個(gè)指令對(duì)應(yīng)若干條用語(yǔ),這些用語(yǔ)都可以代表同一個(gè)指令,不同用語(yǔ)的語(yǔ)句結(jié)構(gòu)或形容詞不同。

11、在s200中,具體步驟如下:

12、s201、采用關(guān)鍵點(diǎn)檢測(cè)算法識(shí)別對(duì)象的不同部位并標(biāo)注關(guān)鍵點(diǎn),通過(guò)分析這些關(guān)鍵點(diǎn)位置的變化得到頭部偏轉(zhuǎn)角度,再結(jié)合頭部姿態(tài)檢測(cè)算法分析得到對(duì)象的視線方向。

13、對(duì)象各個(gè)部位具有不同數(shù)量的關(guān)鍵點(diǎn),通常在人體主要部位的不同位置處設(shè)置關(guān)鍵點(diǎn)。根據(jù)這些關(guān)鍵點(diǎn)位置變化或角度變化來(lái)分析頭部偏轉(zhuǎn)角度以及視線方向。

14、s202、獲取對(duì)象的位置坐標(biāo),設(shè)定水平視角r和感應(yīng)距離l,以位置坐標(biāo)為圓心,感應(yīng)距離l為半徑,在指定區(qū)域內(nèi)朝著視線方向劃分出一個(gè)角度為r的扇形區(qū)域作為對(duì)象的視覺(jué)區(qū)。從對(duì)象所在位置出發(fā)沿著視線方向截取距離l的線段作為視覺(jué)線。視覺(jué)線為視覺(jué)區(qū)的中間線,視覺(jué)區(qū)隨著對(duì)象的位置移動(dòng)或頭部偏轉(zhuǎn)而動(dòng)態(tài)變化。

15、水平視角和感應(yīng)距離由管理員事先設(shè)定,具體取值參考人眼水平維度上注意力角度和智能音箱防誤控距離。

16、人眼水平維度上的注意力角度是指人類視覺(jué)系統(tǒng)在水平方向上能夠聚焦和關(guān)注的范圍。這個(gè)角度通常用來(lái)描述人眼在水平方向上能夠覆蓋的范圍,即人眼能夠在不轉(zhuǎn)動(dòng)頭部的情況下,通過(guò)眼睛的運(yùn)動(dòng)和調(diào)節(jié)來(lái)觀察和關(guān)注的區(qū)域。

17、智能音箱的防誤控距離是指在使用智能音箱時(shí),設(shè)備能夠識(shí)別和響應(yīng)人指令的有效范圍。這個(gè)距離通常是指人與智能音箱之間的距離,超出這個(gè)距離智能音箱可能無(wú)法準(zhǔn)確識(shí)別用戶指令或無(wú)法有效響應(yīng)。

18、s203、獲取指定區(qū)域內(nèi)智能音箱的位置坐標(biāo),實(shí)時(shí)分析對(duì)象的視覺(jué)區(qū)動(dòng)態(tài)變化,視覺(jué)區(qū)內(nèi)包含位置坐標(biāo)則標(biāo)記對(duì)象并記錄時(shí)間,根據(jù)到這段時(shí)間內(nèi)的音頻信息計(jì)算平均聲音強(qiáng)度。

19、標(biāo)記對(duì)象的視覺(jué)區(qū)內(nèi)始終包含位置坐標(biāo),當(dāng)視覺(jué)區(qū)內(nèi)不再包含位置坐標(biāo)時(shí),則取消對(duì)象的標(biāo)記。

20、s204、將標(biāo)記對(duì)象的位置與智能音箱的位置連接成的線段作為基準(zhǔn)線,獲取視覺(jué)線與基準(zhǔn)線之間的夾角,以及時(shí)間之后的聲音強(qiáng)度,設(shè)定聲音強(qiáng)度增幅值,實(shí)時(shí)計(jì)算標(biāo)記對(duì)象不同時(shí)間下的觸發(fā)指數(shù),當(dāng)觸發(fā)指數(shù)大于指數(shù)閾值時(shí)將智能音箱狀態(tài)定義為觸發(fā),公式如下:

21、;

22、式中,為觸發(fā)指數(shù),為基準(zhǔn)線長(zhǎng)度,和為常數(shù)。

23、當(dāng)基準(zhǔn)線長(zhǎng)度越小、夾角越小或聲音強(qiáng)度越高,則觸發(fā)指數(shù)越大。通過(guò)觸發(fā)指數(shù)來(lái)量化對(duì)象準(zhǔn)備使用智能音箱的可能性。

24、在s300中,具體步驟如下:

25、s301、智能音箱的狀態(tài)為觸發(fā)時(shí),采用聲紋識(shí)別算法提取時(shí)間之后音頻的聲紋特征,將聲紋特征與聲紋特征庫(kù)中所有聲紋特征分別進(jìn)行匹配并計(jì)算相似度,將同數(shù)據(jù)庫(kù)下所有聲紋特征的相似度求和后除以該數(shù)據(jù)庫(kù)中聲紋特征總數(shù)得到平均相似度,標(biāo)記平均相似度最高的數(shù)據(jù)庫(kù),當(dāng)標(biāo)記數(shù)據(jù)庫(kù)的平均相似度大于相似度閾值時(shí),將智能音箱狀態(tài)定義為交互,標(biāo)記數(shù)據(jù)庫(kù)對(duì)應(yīng)的用戶作為關(guān)聯(lián)用戶。

26、聲紋特征匹配采用文本無(wú)關(guān)的聲紋識(shí)別,文本無(wú)關(guān)的聲紋識(shí)別是指利用個(gè)體的聲音特征來(lái)進(jìn)行身份驗(yàn)證或識(shí)別,而不需要依賴特定的文本內(nèi)容。聲紋識(shí)別是一種生物識(shí)別技術(shù),它通過(guò)分析語(yǔ)音特征中的音調(diào)、音色或語(yǔ)速來(lái)進(jìn)行身份識(shí)別。

27、s302、智能音箱的狀態(tài)為交互時(shí),建立用語(yǔ)集合,將歷史記錄中關(guān)聯(lián)用戶對(duì)應(yīng)的所有指令用語(yǔ)記錄中的用語(yǔ)放入用語(yǔ)集合中,將時(shí)間之后的音頻中的語(yǔ)音轉(zhuǎn)換為文字形式的語(yǔ)句,用語(yǔ)集合中每條用語(yǔ)與語(yǔ)句分別計(jì)算文本相似度,標(biāo)記文本相似度最高的用語(yǔ),當(dāng)標(biāo)記用語(yǔ)的文本相似度大于相似度閾值時(shí)記錄時(shí)間,智能音箱執(zhí)行標(biāo)記用語(yǔ)所對(duì)應(yīng)的指令。

28、s303、不斷解析音頻信息中的語(yǔ)音,代入步驟s302中計(jì)算文本相似度并更新時(shí)間;獲取當(dāng)前時(shí)間并代入公式中,計(jì)算不同時(shí)間下智能音箱的狀態(tài)指數(shù):

29、;

30、式中,為狀態(tài)指數(shù),為常數(shù)。設(shè)置狀指閾值,狀態(tài)指數(shù)小于狀指閾值時(shí),將智能音箱狀態(tài)定義為觸發(fā)。狀態(tài)指數(shù)不大于零時(shí),取消智能音箱的所有狀態(tài)定義。當(dāng)視覺(jué)區(qū)不包含位置坐標(biāo)時(shí),取消對(duì)象的標(biāo)記。

31、通過(guò)狀態(tài)指數(shù)來(lái)設(shè)定智能音箱的狀態(tài)。交互狀態(tài)下,智能音箱不再進(jìn)行聲紋識(shí)別,只進(jìn)行語(yǔ)音文字轉(zhuǎn)換以及識(shí)別和執(zhí)行指令。觸發(fā)狀態(tài)下,智能音箱不再進(jìn)行語(yǔ)音文字轉(zhuǎn)換以及識(shí)別和執(zhí)行指令,只進(jìn)行聲紋識(shí)別來(lái)判斷是否轉(zhuǎn)換狀態(tài)。無(wú)任何狀態(tài)下,只計(jì)算標(biāo)記對(duì)象的觸發(fā)指數(shù)并判斷是否將智能音箱設(shè)定觸發(fā)狀態(tài)。視覺(jué)區(qū)不包含位置坐標(biāo)時(shí)自動(dòng)取消對(duì)象標(biāo)記。

32、在s400中,將標(biāo)記對(duì)象與智能音箱交互過(guò)程中的聲紋特征存入聲紋特征庫(kù)中關(guān)聯(lián)用戶的數(shù)據(jù)庫(kù)內(nèi),語(yǔ)句信息和對(duì)應(yīng)的指令作為關(guān)聯(lián)用戶的指令用語(yǔ)記錄,存入歷史記錄中。

33、基于數(shù)據(jù)分析的音箱控制管理系統(tǒng),該系統(tǒng)包括數(shù)據(jù)采集模塊、環(huán)境分析模塊、運(yùn)行管理模塊和自動(dòng)存儲(chǔ)模塊。

34、數(shù)據(jù)采集模塊用于采集聲紋特征庫(kù)和歷史記錄,以及指定區(qū)域內(nèi)的音頻信息和圖像信息。環(huán)境分析模塊通過(guò)音頻和圖像判斷是否存在對(duì)象,為對(duì)象建立視覺(jué)區(qū),當(dāng)視覺(jué)區(qū)內(nèi)存在智能音箱時(shí)根據(jù)聲音強(qiáng)度變化計(jì)算觸發(fā)指數(shù)并判斷是否觸發(fā)智能音箱。運(yùn)行管理模塊對(duì)音頻進(jìn)行聲紋識(shí)別,獲取聲紋特征對(duì)應(yīng)的歷史記錄,根據(jù)歷史記錄執(zhí)行指令并進(jìn)入交互狀態(tài),通過(guò)指令的時(shí)間差計(jì)算狀態(tài)指數(shù),從而設(shè)定智能音箱的狀態(tài)。自動(dòng)存儲(chǔ)模塊用于實(shí)時(shí)存儲(chǔ)交互過(guò)程中的信息。

35、數(shù)據(jù)采集模塊包括特征庫(kù)采集單元、歷史記錄采集單元、圖像信息采集單元和音頻信息采集單元。

36、特征庫(kù)采集單元用于采集存儲(chǔ)聲紋特征的數(shù)據(jù)庫(kù),每個(gè)用戶對(duì)應(yīng)一個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中保存不同的聲紋特征。歷史記錄采集單元用于采集每個(gè)用戶的指令用語(yǔ)記錄,每條指令用語(yǔ)記錄包括指令和用語(yǔ)。圖像信息采集單元通過(guò)攝像頭采集指定區(qū)域內(nèi)的圖像信息,圖像為實(shí)時(shí)視頻。音頻信息采集單元通過(guò)麥克風(fēng)采集指定區(qū)域內(nèi)的音頻信息。

37、環(huán)境分析模塊包括對(duì)象分析單元和喚醒判斷單元。

38、對(duì)象分析單元用于識(shí)別指定區(qū)域內(nèi)對(duì)象。通過(guò)音頻信息計(jì)算聲音強(qiáng)度,聲音強(qiáng)度大于強(qiáng)度閾值則記錄時(shí)間并控制攝像頭錄制視頻。將視頻解幀為單幀圖像,篩選出清晰的單幀圖像后采用人體檢測(cè)算法進(jìn)行目標(biāo)識(shí)別,識(shí)別到的人體目標(biāo)作為對(duì)象。

39、喚醒判斷單元用于判斷是否喚醒智能音箱。

40、首先,采用關(guān)鍵點(diǎn)檢測(cè)算法標(biāo)注對(duì)象不同部位的關(guān)鍵點(diǎn),根據(jù)這些關(guān)鍵點(diǎn)位置的變化分析得到對(duì)象的視線方向。

41、其次,設(shè)定水平視角r和感應(yīng)距離l,以對(duì)象的位置坐標(biāo)為圓心,l為半徑,在指定區(qū)域內(nèi)朝著視線方向劃分出一個(gè)角度為r的扇形區(qū)域作為對(duì)象的視覺(jué)區(qū),視覺(jué)區(qū)的中間線作為視覺(jué)線;當(dāng)視覺(jué)區(qū)內(nèi)包含智能音箱的位置坐標(biāo)時(shí),標(biāo)記對(duì)象并記錄時(shí)間,計(jì)算到這段時(shí)間內(nèi)的平均聲音強(qiáng)度。

42、最后,將標(biāo)記對(duì)象的位置與智能音箱的位置連接成的線段作為基準(zhǔn)線,獲取視覺(jué)線與基準(zhǔn)線之間的夾角,以及時(shí)間之后的聲音強(qiáng)度,設(shè)定聲音強(qiáng)度增幅值,代入公式:中,計(jì)算觸發(fā)指數(shù),當(dāng)觸發(fā)指數(shù)大于指數(shù)閾值時(shí)將智能音箱狀態(tài)定義為觸發(fā);其中,為基準(zhǔn)線長(zhǎng)度,和為常數(shù)。

43、運(yùn)行管理模塊包括聲紋比對(duì)單元、指令檢索單元和狀態(tài)設(shè)定單元。

44、聲紋比對(duì)單元用于匹配關(guān)聯(lián)用戶。智能音箱的狀態(tài)為觸發(fā)時(shí),將時(shí)間之后音頻的聲紋特征分別與每個(gè)數(shù)據(jù)庫(kù)內(nèi)聲紋特征計(jì)算相似度,得到各數(shù)據(jù)庫(kù)的平均相似度,標(biāo)記平均相似度最高的數(shù)據(jù)庫(kù),當(dāng)標(biāo)記數(shù)據(jù)庫(kù)的平均相似度大于相似度閾值時(shí),將智能音箱狀態(tài)定義為交互,標(biāo)記數(shù)據(jù)庫(kù)對(duì)應(yīng)的用戶作為關(guān)聯(lián)用戶。

45、指令檢索單元用于檢索并執(zhí)行指令。智能音箱的狀態(tài)為交互時(shí),建立用語(yǔ)集合,將關(guān)聯(lián)用戶對(duì)應(yīng)所有指令用語(yǔ)記錄中的用語(yǔ)放入用語(yǔ)集合中,將時(shí)間之后的音頻中的語(yǔ)音轉(zhuǎn)換為文字形式的語(yǔ)句,用語(yǔ)集合中每條用語(yǔ)與語(yǔ)句分別計(jì)算文本相似度,標(biāo)記文本相似度最高的用語(yǔ),當(dāng)標(biāo)記用語(yǔ)的文本相似度大于相似度閾值時(shí)記錄時(shí)間,智能音箱執(zhí)行標(biāo)記用語(yǔ)所對(duì)應(yīng)的指令。

46、狀態(tài)設(shè)定單元用于設(shè)定智能音箱的狀態(tài)。實(shí)時(shí)更新時(shí)間,獲取當(dāng)前時(shí)間代入公式:中,計(jì)算不同時(shí)間下智能音箱的狀態(tài)指數(shù),其中,為常數(shù);設(shè)置狀指閾值,狀態(tài)指數(shù)小于狀指閾值時(shí),將智能音箱狀態(tài)定義為觸發(fā);狀態(tài)指數(shù)不大于零時(shí),取消智能音箱的所有狀態(tài)定義;當(dāng)視覺(jué)區(qū)不包含位置坐標(biāo)時(shí),取消對(duì)象的標(biāo)記。

47、自動(dòng)存儲(chǔ)模塊用于實(shí)時(shí)將交互過(guò)程中的聲紋特征和語(yǔ)句信息分別存入聲紋特征庫(kù)和歷史記錄中。

48、與現(xiàn)有技術(shù)相比,本發(fā)明所達(dá)到的有益效果是:

49、1、免喚醒詞激活:本技術(shù)中通過(guò)分析對(duì)象的視線夾角變化和與智能音箱的距離變化,以及聲音強(qiáng)度變化來(lái)激活智能音箱,針對(duì)人在使用智能音箱的習(xí)慣性動(dòng)作加以利用,相比于傳統(tǒng)技術(shù)的喚醒詞激活更加人性化。

50、2、隱私安全保障:本技術(shù)中智能音箱在交互狀態(tài)之前并不會(huì)將音頻中的語(yǔ)音轉(zhuǎn)文字,而是在進(jìn)入交互狀態(tài)后采用回溯音頻記錄的方式進(jìn)行文字轉(zhuǎn)換,相比于傳統(tǒng)技術(shù)的實(shí)時(shí)語(yǔ)音轉(zhuǎn)文字隱私安全更高,能夠節(jié)約更多的算力資源。

51、3、智能交互狀態(tài):本技術(shù)中智能音箱在交互狀態(tài)時(shí),采用最后一次指令的時(shí)間差以及觸發(fā)指數(shù)變化來(lái)重新設(shè)定狀態(tài),當(dāng)對(duì)象長(zhǎng)時(shí)間不下發(fā)指令或主動(dòng)偏離視線夾角時(shí)重新設(shè)定智能音箱狀態(tài),相比于傳統(tǒng)技術(shù)每次溝通需要包含喚醒詞的設(shè)定更加智能化。

52、綜上所述,本發(fā)明相比于傳統(tǒng)技術(shù)具有免喚醒詞激活、隱私安全保障和智能交互狀態(tài)等優(yōu)勢(shì),能夠提高智能音箱的喚醒效率。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1