基于數(shù)據(jù)分析的音箱控制管理方法及系統(tǒng)與流程

文檔序號(hào)：40006568發(fā)布日期：2024-11-19 13:35閱讀：18來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及智能音箱控制，具體為基于數(shù)據(jù)分析的音箱控制管理方法及系統(tǒng)。

背景技術(shù)：

1、隨著人工智能和智能家居技術(shù)的快速發(fā)展，智能音箱作為一種智能設(shè)備已經(jīng)成為人們生活中不可或缺的一部分。為了提高智能音箱的用戶體驗(yàn)和便利性，研究人員開(kāi)始探索如何通過(guò)更高效的喚醒方式來(lái)激活智能音箱，從而實(shí)現(xiàn)語(yǔ)音控制和交互。

2、現(xiàn)階段，在智能音箱喚醒方面通常采用事先設(shè)定好的喚醒詞進(jìn)行語(yǔ)音喚醒，這種方式存在一些弊端。例如：1、某些情況人可能會(huì)因?yàn)槎虝r(shí)間忘記喚醒詞從而無(wú)法正常激活智能音箱，智能化程度不高。2、某些喚醒功能的設(shè)定需要智能音箱實(shí)時(shí)將語(yǔ)音轉(zhuǎn)文字來(lái)判定是否喚醒和識(shí)別指令，這些文字內(nèi)容可能會(huì)被其他應(yīng)用非法獲取利用，甚至造成信息泄露。3、人與智能音箱進(jìn)行語(yǔ)音交互時(shí)，往往需要每次在對(duì)話中加入喚醒詞來(lái)給智能音箱下達(dá)指令，這不符合人的正常對(duì)話習(xí)慣。所以，現(xiàn)階段需要一種更加高效智能的智能音箱免喚醒詞式激活技術(shù)方案來(lái)解決上述問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于提供基于數(shù)據(jù)分析的音箱控制管理方法及系統(tǒng)，以解決上述背景技術(shù)中提出的問(wèn)題。

2、為了解決上述技術(shù)問(wèn)題，本發(fā)明提供如下技術(shù)方案:基于數(shù)據(jù)分析的音箱控制管理方法，該方法包括以下步驟：

3、s100、采集智能音箱內(nèi)保存的聲紋特征庫(kù)和歷史記錄，以及通過(guò)不同傳感器實(shí)時(shí)收集指定區(qū)域內(nèi)的音頻信息和圖像信息，綜合分析音頻和圖像判斷是否存在對(duì)象。

4、s200、通過(guò)頭部姿態(tài)檢測(cè)算法分析對(duì)象的視線范圍建立視覺(jué)區(qū)，當(dāng)視覺(jué)區(qū)內(nèi)存在智能音箱時(shí)標(biāo)記對(duì)象，根據(jù)聲音強(qiáng)度變化計(jì)算觸發(fā)指數(shù)并判斷是否觸發(fā)智能音箱。

5、s300、智能音箱識(shí)別音頻中的聲紋特征，獲取對(duì)應(yīng)的歷史記錄，根據(jù)歷史記錄執(zhí)行對(duì)應(yīng)指令并進(jìn)入交互狀態(tài)，通過(guò)指令時(shí)間差計(jì)算狀態(tài)指數(shù)并設(shè)定智能音箱狀態(tài)。

6、s400、將交互過(guò)程中的聲紋特征和語(yǔ)句信息分別存入聲紋特征庫(kù)和歷史記錄中。

7、在s100中，聲紋特征庫(kù)是指存儲(chǔ)聲紋特征的數(shù)據(jù)庫(kù)，每個(gè)用戶對(duì)應(yīng)一個(gè)數(shù)據(jù)庫(kù)，數(shù)據(jù)庫(kù)中保存不同的聲紋特征。歷史記錄是指用戶的指令用語(yǔ)記錄，每個(gè)用戶包含不同指令用語(yǔ)記錄，每條指令用語(yǔ)記錄包括指令和用語(yǔ)。指定區(qū)域是指智能音箱的使用區(qū)域，通過(guò)攝像頭采集指定區(qū)域內(nèi)的圖像信息，圖像為實(shí)時(shí)視頻，通過(guò)麥克風(fēng)采集指定區(qū)域內(nèi)的音頻信息。判斷是否存在對(duì)象步驟如下：

8、s101、麥克風(fēng)實(shí)時(shí)采集指定區(qū)域內(nèi)的音頻并計(jì)算聲音強(qiáng)度，當(dāng)聲音強(qiáng)度大于強(qiáng)度閾值時(shí)記錄時(shí)間，自動(dòng)控制攝像頭開(kāi)始錄制指定區(qū)域內(nèi)的視頻。

9、s102、使用opencv技術(shù)將視頻分解成單幀圖像，對(duì)所有單幀圖像進(jìn)行篩選，采用邊緣檢測(cè)法去除模糊的單幀圖像；采用yolov5人體檢測(cè)算法針對(duì)剩余單幀圖像進(jìn)行目標(biāo)識(shí)別，將識(shí)別到的人體目標(biāo)作為對(duì)象。未識(shí)別到指定區(qū)域內(nèi)存在對(duì)象則控制攝像頭關(guān)閉。

10、指令是指能夠被智能音箱直接識(shí)別并執(zhí)行的操作指令。用語(yǔ)是指用戶在下達(dá)指令時(shí)所進(jìn)行的文字表述，該文字表述由采集音頻信息中的語(yǔ)音轉(zhuǎn)文字得到。每個(gè)指令對(duì)應(yīng)若干條用語(yǔ)，這些用語(yǔ)都可以代表同一個(gè)指令，不同用語(yǔ)的語(yǔ)句結(jié)構(gòu)或形容詞不同。

11、在s200中，具體步驟如下：

12、s201、采用關(guān)鍵點(diǎn)檢測(cè)算法識(shí)別對(duì)象的不同部位并標(biāo)注關(guān)鍵點(diǎn)，通過(guò)分析這些關(guān)鍵點(diǎn)位置的變化得到頭部偏轉(zhuǎn)角度，再結(jié)合頭部姿態(tài)檢測(cè)算法分析得到對(duì)象的視線方向。

13、對(duì)象各個(gè)部位具有不同數(shù)量的關(guān)鍵點(diǎn)，通常在人體主要部位的不同位置處設(shè)置關(guān)鍵點(diǎn)。根據(jù)這些關(guān)鍵點(diǎn)位置變化或角度變化來(lái)分析頭部偏轉(zhuǎn)角度以及視線方向。

14、s202、獲取對(duì)象的位置坐標(biāo)，設(shè)定水平視角r和感應(yīng)距離l，以位置坐標(biāo)為圓心，感應(yīng)距離l為半徑，在指定區(qū)域內(nèi)朝著視線方向劃分出一個(gè)角度為r的扇形區(qū)域作為對(duì)象的視覺(jué)區(qū)。從對(duì)象所在位置出發(fā)沿著視線方向截取距離l的線段作為視覺(jué)線。視覺(jué)線為視覺(jué)區(qū)的中間線，視覺(jué)區(qū)隨著對(duì)象的位置移動(dòng)或頭部偏轉(zhuǎn)而動(dòng)態(tài)變化。

15、水平視角和感應(yīng)距離由管理員事先設(shè)定，具體取值參考人眼水平維度上注意力角度和智能音箱防誤控距離。

16、人眼水平維度上的注意力角度是指人類視覺(jué)系統(tǒng)在水平方向上能夠聚焦和關(guān)注的范圍。這個(gè)角度通常用來(lái)描述人眼在水平方向上能夠覆蓋的范圍，即人眼能夠在不轉(zhuǎn)動(dòng)頭部的情況下，通過(guò)眼睛的運(yùn)動(dòng)和調(diào)節(jié)來(lái)觀察和關(guān)注的區(qū)域。

17、智能音箱的防誤控距離是指在使用智能音箱時(shí)，設(shè)備能夠識(shí)別和響應(yīng)人指令的有效范圍。這個(gè)距離通常是指人與智能音箱之間的距離，超出這個(gè)距離智能音箱可能無(wú)法準(zhǔn)確識(shí)別用戶指令或無(wú)法有效響應(yīng)。

18、s203、獲取指定區(qū)域內(nèi)智能音箱的位置坐標(biāo)，實(shí)時(shí)分析對(duì)象的視覺(jué)區(qū)動(dòng)態(tài)變化，視覺(jué)區(qū)內(nèi)包含位置坐標(biāo)則標(biāo)記對(duì)象并記錄時(shí)間，根據(jù)到這段時(shí)間內(nèi)的音頻信息計(jì)算平均聲音強(qiáng)度。

19、標(biāo)記對(duì)象的視覺(jué)區(qū)內(nèi)始終包含位置坐標(biāo)，當(dāng)視覺(jué)區(qū)內(nèi)不再包含位置坐標(biāo)時(shí)，則取消對(duì)象的標(biāo)記。

20、s204、將標(biāo)記對(duì)象的位置與智能音箱的位置連接成的線段作為基準(zhǔn)線，獲取視覺(jué)線與基準(zhǔn)線之間的夾角，以及時(shí)間之后的聲音強(qiáng)度，設(shè)定聲音強(qiáng)度增幅值，實(shí)時(shí)計(jì)算標(biāo)記對(duì)象不同時(shí)間下的觸發(fā)指數(shù)，當(dāng)觸發(fā)指數(shù)大于指數(shù)閾值時(shí)將智能音箱狀態(tài)定義為觸發(fā)，公式如下：

21、;

22、式中，為觸發(fā)指數(shù)，為基準(zhǔn)線長(zhǎng)度，和為常數(shù)。

23、當(dāng)基準(zhǔn)線長(zhǎng)度越小、夾角越小或聲音強(qiáng)度越高，則觸發(fā)指數(shù)越大。通過(guò)觸發(fā)指數(shù)來(lái)量化對(duì)象準(zhǔn)備使用智能音箱的可能性。

24、在s300中，具體步驟如下：

25、s301、智能音箱的狀態(tài)為觸發(fā)時(shí)，采用聲紋識(shí)別算法提取時(shí)間之后音頻的聲紋特征，將聲紋特征與聲紋特征庫(kù)中所有聲紋特征分別進(jìn)行匹配并計(jì)算相似度，將同數(shù)據(jù)庫(kù)下所有聲紋特征的相似度求和后除以該數(shù)據(jù)庫(kù)中聲紋特征總數(shù)得到平均相似度，標(biāo)記平均相似度最高的數(shù)據(jù)庫(kù)，當(dāng)標(biāo)記數(shù)據(jù)庫(kù)的平均相似度大于相似度閾值時(shí)，將智能音箱狀態(tài)定義為交互，標(biāo)記數(shù)據(jù)庫(kù)對(duì)應(yīng)的用戶作為關(guān)聯(lián)用戶。

26、聲紋特征匹配采用文本無(wú)關(guān)的聲紋識(shí)別，文本無(wú)關(guān)的聲紋識(shí)別是指利用個(gè)體的聲音特征來(lái)進(jìn)行身份驗(yàn)證或識(shí)別，而不需要依賴特定的文本內(nèi)容。聲紋識(shí)別是一種生物識(shí)別技術(shù)，它通過(guò)分析語(yǔ)音特征中的音調(diào)、音色或語(yǔ)速來(lái)進(jìn)行身份識(shí)別。

27、s302、智能音箱的狀態(tài)為交互時(shí)，建立用語(yǔ)集合，將歷史記錄中關(guān)聯(lián)用戶對(duì)應(yīng)的所有指令用語(yǔ)記錄中的用語(yǔ)放入用語(yǔ)集合中，將時(shí)間之后的音頻中的語(yǔ)音轉(zhuǎn)換為文字形式的語(yǔ)句，用語(yǔ)集合中每條用語(yǔ)與語(yǔ)句分別計(jì)算文本相似度，標(biāo)記文本相似度最高的用語(yǔ)，當(dāng)標(biāo)記用語(yǔ)的文本相似度大于相似度閾值時(shí)記錄時(shí)間，智能音箱執(zhí)行標(biāo)記用語(yǔ)所對(duì)應(yīng)的指令。

28、s303、不斷解析音頻信息中的語(yǔ)音，代入步驟s302中計(jì)算文本相似度并更新時(shí)間；獲取當(dāng)前時(shí)間并代入公式中，計(jì)算不同時(shí)間下智能音箱的狀態(tài)指數(shù)：

29、;

30、式中，為狀態(tài)指數(shù)，為常數(shù)。設(shè)置狀指閾值，狀態(tài)指數(shù)小于狀指閾值時(shí)，將智能音箱狀態(tài)定義為觸發(fā)。狀態(tài)指數(shù)不大于零時(shí)，取消智能音箱的所有狀態(tài)定義。當(dāng)視覺(jué)區(qū)不包含位置坐標(biāo)時(shí)，取消對(duì)象的標(biāo)記。

31、通過(guò)狀態(tài)指數(shù)來(lái)設(shè)定智能音箱的狀態(tài)。交互狀態(tài)下，智能音箱不再進(jìn)行聲紋識(shí)別，只進(jìn)行語(yǔ)音文字轉(zhuǎn)換以及識(shí)別和執(zhí)行指令。觸發(fā)狀態(tài)下，智能音箱不再進(jìn)行語(yǔ)音文字轉(zhuǎn)換以及識(shí)別和執(zhí)行指令，只進(jìn)行聲紋識(shí)別來(lái)判斷是否轉(zhuǎn)換狀態(tài)。無(wú)任何狀態(tài)下，只計(jì)算標(biāo)記對(duì)象的觸發(fā)指數(shù)并判斷是否將智能音箱設(shè)定觸發(fā)狀態(tài)。視覺(jué)區(qū)不包含位置坐標(biāo)時(shí)自動(dòng)取消對(duì)象標(biāo)記。

32、在s400中，將標(biāo)記對(duì)象與智能音箱交互過(guò)程中的聲紋特征存入聲紋特征庫(kù)中關(guān)聯(lián)用戶的數(shù)據(jù)庫(kù)內(nèi)，語(yǔ)句信息和對(duì)應(yīng)的指令作為關(guān)聯(lián)用戶的指令用語(yǔ)記錄，存入歷史記錄中。

33、基于數(shù)據(jù)分析的音箱控制管理系統(tǒng)，該系統(tǒng)包括數(shù)據(jù)采集模塊、環(huán)境分析模塊、運(yùn)行管理模塊和自動(dòng)存儲(chǔ)模塊。

34、數(shù)據(jù)采集模塊用于采集聲紋特征庫(kù)和歷史記錄，以及指定區(qū)域內(nèi)的音頻信息和圖像信息。環(huán)境分析模塊通過(guò)音頻和圖像判斷是否存在對(duì)象，為對(duì)象建立視覺(jué)區(qū)，當(dāng)視覺(jué)區(qū)內(nèi)存在智能音箱時(shí)根據(jù)聲音強(qiáng)度變化計(jì)算觸發(fā)指數(shù)并判斷是否觸發(fā)智能音箱。運(yùn)行管理模塊對(duì)音頻進(jìn)行聲紋識(shí)別，獲取聲紋特征對(duì)應(yīng)的歷史記錄，根據(jù)歷史記錄執(zhí)行指令并進(jìn)入交互狀態(tài)，通過(guò)指令的時(shí)間差計(jì)算狀態(tài)指數(shù)，從而設(shè)定智能音箱的狀態(tài)。自動(dòng)存儲(chǔ)模塊用于實(shí)時(shí)存儲(chǔ)交互過(guò)程中的信息。

35、數(shù)據(jù)采集模塊包括特征庫(kù)采集單元、歷史記錄采集單元、圖像信息采集單元和音頻信息采集單元。

36、特征庫(kù)采集單元用于采集存儲(chǔ)聲紋特征的數(shù)據(jù)庫(kù)，每個(gè)用戶對(duì)應(yīng)一個(gè)數(shù)據(jù)庫(kù)，數(shù)據(jù)庫(kù)中保存不同的聲紋特征。歷史記錄采集單元用于采集每個(gè)用戶的指令用語(yǔ)記錄，每條指令用語(yǔ)記錄包括指令和用語(yǔ)。圖像信息采集單元通過(guò)攝像頭采集指定區(qū)域內(nèi)的圖像信息，圖像為實(shí)時(shí)視頻。音頻信息采集單元通過(guò)麥克風(fēng)采集指定區(qū)域內(nèi)的音頻信息。

37、環(huán)境分析模塊包括對(duì)象分析單元和喚醒判斷單元。

38、對(duì)象分析單元用于識(shí)別指定區(qū)域內(nèi)對(duì)象。通過(guò)音頻信息計(jì)算聲音強(qiáng)度，聲音強(qiáng)度大于強(qiáng)度閾值則記錄時(shí)間并控制攝像頭錄制視頻。將視頻解幀為單幀圖像，篩選出清晰的單幀圖像后采用人體檢測(cè)算法進(jìn)行目標(biāo)識(shí)別，識(shí)別到的人體目標(biāo)作為對(duì)象。

39、喚醒判斷單元用于判斷是否喚醒智能音箱。

40、首先，采用關(guān)鍵點(diǎn)檢測(cè)算法標(biāo)注對(duì)象不同部位的關(guān)鍵點(diǎn)，根據(jù)這些關(guān)鍵點(diǎn)位置的變化分析得到對(duì)象的視線方向。

41、其次，設(shè)定水平視角r和感應(yīng)距離l，以對(duì)象的位置坐標(biāo)為圓心，l為半徑，在指定區(qū)域內(nèi)朝著視線方向劃分出一個(gè)角度為r的扇形區(qū)域作為對(duì)象的視覺(jué)區(qū)，視覺(jué)區(qū)的中間線作為視覺(jué)線；當(dāng)視覺(jué)區(qū)內(nèi)包含智能音箱的位置坐標(biāo)時(shí)，標(biāo)記對(duì)象并記錄時(shí)間，計(jì)算到這段時(shí)間內(nèi)的平均聲音強(qiáng)度。

42、最后，將標(biāo)記對(duì)象的位置與智能音箱的位置連接成的線段作為基準(zhǔn)線，獲取視覺(jué)線與基準(zhǔn)線之間的夾角，以及時(shí)間之后的聲音強(qiáng)度，設(shè)定聲音強(qiáng)度增幅值，代入公式：中，計(jì)算觸發(fā)指數(shù)，當(dāng)觸發(fā)指數(shù)大于指數(shù)閾值時(shí)將智能音箱狀態(tài)定義為觸發(fā)；其中，為基準(zhǔn)線長(zhǎng)度，和為常數(shù)。

43、運(yùn)行管理模塊包括聲紋比對(duì)單元、指令檢索單元和狀態(tài)設(shè)定單元。

44、聲紋比對(duì)單元用于匹配關(guān)聯(lián)用戶。智能音箱的狀態(tài)為觸發(fā)時(shí)，將時(shí)間之后音頻的聲紋特征分別與每個(gè)數(shù)據(jù)庫(kù)內(nèi)聲紋特征計(jì)算相似度，得到各數(shù)據(jù)庫(kù)的平均相似度，標(biāo)記平均相似度最高的數(shù)據(jù)庫(kù)，當(dāng)標(biāo)記數(shù)據(jù)庫(kù)的平均相似度大于相似度閾值時(shí)，將智能音箱狀態(tài)定義為交互，標(biāo)記數(shù)據(jù)庫(kù)對(duì)應(yīng)的用戶作為關(guān)聯(lián)用戶。

45、指令檢索單元用于檢索并執(zhí)行指令。智能音箱的狀態(tài)為交互時(shí)，建立用語(yǔ)集合，將關(guān)聯(lián)用戶對(duì)應(yīng)所有指令用語(yǔ)記錄中的用語(yǔ)放入用語(yǔ)集合中，將時(shí)間之后的音頻中的語(yǔ)音轉(zhuǎn)換為文字形式的語(yǔ)句，用語(yǔ)集合中每條用語(yǔ)與語(yǔ)句分別計(jì)算文本相似度，標(biāo)記文本相似度最高的用語(yǔ)，當(dāng)標(biāo)記用語(yǔ)的文本相似度大于相似度閾值時(shí)記錄時(shí)間，智能音箱執(zhí)行標(biāo)記用語(yǔ)所對(duì)應(yīng)的指令。

46、狀態(tài)設(shè)定單元用于設(shè)定智能音箱的狀態(tài)。實(shí)時(shí)更新時(shí)間，獲取當(dāng)前時(shí)間代入公式：中，計(jì)算不同時(shí)間下智能音箱的狀態(tài)指數(shù)，其中，為常數(shù)；設(shè)置狀指閾值，狀態(tài)指數(shù)小于狀指閾值時(shí)，將智能音箱狀態(tài)定義為觸發(fā)；狀態(tài)指數(shù)不大于零時(shí)，取消智能音箱的所有狀態(tài)定義；當(dāng)視覺(jué)區(qū)不包含位置坐標(biāo)時(shí)，取消對(duì)象的標(biāo)記。

47、自動(dòng)存儲(chǔ)模塊用于實(shí)時(shí)將交互過(guò)程中的聲紋特征和語(yǔ)句信息分別存入聲紋特征庫(kù)和歷史記錄中。

48、與現(xiàn)有技術(shù)相比，本發(fā)明所達(dá)到的有益效果是：

49、1、免喚醒詞激活：本技術(shù)中通過(guò)分析對(duì)象的視線夾角變化和與智能音箱的距離變化，以及聲音強(qiáng)度變化來(lái)激活智能音箱，針對(duì)人在使用智能音箱的習(xí)慣性動(dòng)作加以利用，相比于傳統(tǒng)技術(shù)的喚醒詞激活更加人性化。

50、2、隱私安全保障：本技術(shù)中智能音箱在交互狀態(tài)之前并不會(huì)將音頻中的語(yǔ)音轉(zhuǎn)文字，而是在進(jìn)入交互狀態(tài)后采用回溯音頻記錄的方式進(jìn)行文字轉(zhuǎn)換，相比于傳統(tǒng)技術(shù)的實(shí)時(shí)語(yǔ)音轉(zhuǎn)文字隱私安全更高，能夠節(jié)約更多的算力資源。

51、3、智能交互狀態(tài)：本技術(shù)中智能音箱在交互狀態(tài)時(shí)，采用最后一次指令的時(shí)間差以及觸發(fā)指數(shù)變化來(lái)重新設(shè)定狀態(tài)，當(dāng)對(duì)象長(zhǎng)時(shí)間不下發(fā)指令或主動(dòng)偏離視線夾角時(shí)重新設(shè)定智能音箱狀態(tài)，相比于傳統(tǒng)技術(shù)每次溝通需要包含喚醒詞的設(shè)定更加智能化。

52、綜上所述，本發(fā)明相比于傳統(tǒng)技術(shù)具有免喚醒詞激活、隱私安全保障和智能交互狀態(tài)等優(yōu)勢(shì)，能夠提高智能音箱的喚醒效率。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉媖
技術(shù)所有人：贛州得輝達(dá)科技有限公司
我是此專利的發(fā)明人

上一篇：一種砂磨機(jī)用除雜裝置的制作方法
上一篇：一種顯示器密封機(jī)構(gòu)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于數(shù)據(jù)分析的音箱控制管理方法及系統(tǒng)與流程