一種基于語音的人機面對面交互方法、裝置及電子設(shè)備與流程

文檔序號：40389422發(fā)布日期：2024-12-20 12:12閱讀：19來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及智慧人機交互，具體涉及一種基于語音的人機面對面交互方法、裝置、電子設(shè)備及存儲介質(zhì)。

背景技術(shù)：

1、采用面對面語音交互的數(shù)字人或ai智能機器人等機器已經(jīng)在很多展館或高端商超已經(jīng)隨處可見，此場景中，大眾可以很容易地通過語音對話與機器進行信息交互，而后從智能機器獲取幫助，能夠大大降低相應(yīng)場館的日常人力開銷。

2、在語音機器人工作時，涉及的最為關(guān)鍵一環(huán)就是語音識別，需要先讓機器知道人們所表述的內(nèi)容，且收錄語音確實是來自機器跟前的人員，它才可以進一步理解而后給予回應(yīng)；否則第一步搞錯，后面流程全部白費。雖然當(dāng)下在手機上的app進行語音轉(zhuǎn)文字都具有很高的識別準(zhǔn)確率，這是因為聲源都是在貼近麥克風(fēng)收音，自然避免了很多環(huán)境噪聲的干擾而產(chǎn)生的結(jié)果。

3、但是，在較為嘈雜的場所，如商超、車站、市場等地方，則會出現(xiàn)比較的尷尬的情況，在近距離（約2米以內(nèi)）交互的人員所說的內(nèi)容時常因背景嘈雜聲或遠處人聲的干擾，而被識別成非說話人本意的結(jié)果；或者出現(xiàn)較遠處（如，完全不在設(shè)備跟前)的人員的說話，隨即就觸發(fā)了機器的語音交互，造成“無人”交互的囧境，這些都將會嚴(yán)重影響了該類機器的人機語音交互體驗。

4、因此，有必要對現(xiàn)有的語音機器人的交互方式進行改進。

技術(shù)實現(xiàn)思路

1、有鑒于此，有必要提供一種基于語音的人機面對面交互方法、裝置、電子設(shè)備及存儲介質(zhì)，能夠解決現(xiàn)有技術(shù)中語音機器人交互時容易因環(huán)境影響導(dǎo)致的交互無效的技術(shù)問題。

2、為了解決上述技術(shù)問題，本發(fā)明提供了一種基于語音的人機面對面交互方法，包括：

3、對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別；

4、在確認(rèn)目標(biāo)為真人的情況下，對采集的語音進行降噪和增強處理得到預(yù)處理后音頻；

5、截取定量采樣頻率下的預(yù)處理后音頻得到采樣音頻，并計算所述采樣音頻的音頻強度，基于音頻強度閾值對所述采樣音頻進行放行識別；

6、對符合放行識別條件的采樣音頻進行收音處理，以識別音頻內(nèi)容。

7、在一種可能的實現(xiàn)方式中，所述對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別，包括：

8、基于人臉識別模型對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別；

9、和/或；

10、基于雙目活體防偽檢測技術(shù)對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別。

11、在一種可能的實現(xiàn)方式中，基于人臉識別模型對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別，包括：

12、基于adaboost算法作為人臉識別模型的基準(zhǔn)模型，將多個弱分類器組合成一個強分類器，通過對數(shù)據(jù)集進行加權(quán)和重復(fù)訓(xùn)練得到所述人臉識別模型；

13、基于人臉識別模型進行真人識別。

14、在一種可能的實現(xiàn)方式中，基于雙目活體防偽檢測技術(shù)對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別，包括：

15、采用可見光加近紅外的光電一體化的人臉活體檢測技術(shù)作為雙目活體防偽檢測技術(shù)；

16、對不同光照條件下的人臉皮膚反射的光譜信息進行分析分類，對異質(zhì)人臉圖像進行關(guān)聯(lián)判斷，區(qū)別出真實人臉皮膚。

17、在一種可能的實現(xiàn)方式中，對采集的語音進行降噪處理，包括：

18、基于音頻降噪模型對采集的語音進行降噪處理；

19、所述音頻降噪模型為在卷積編-解碼架構(gòu)的基礎(chǔ)上，增加循環(huán)層獲得的卷積循環(huán)編-解碼，并引入前饋序列記憶網(wǎng)絡(luò)所組成的新型架構(gòu)模型。

20、在一種可能的實現(xiàn)方式中，對采集的語音進行增強處理，包括：對識別出的人聲進行增強處理；

21、在一種可能的實現(xiàn)方式中，所述采樣音頻的音頻強度的計算公式為：

22、；

23、其中，表示采樣音頻的音頻強度，為音頻采樣點振幅均方根值，為音頻采樣點振幅最大值；

24、在一種可能的實現(xiàn)方式中，基于音頻強度閾值對所述采樣音頻進行放行識別，包括：

25、設(shè)置放行閾值和放行量，放行閾值和放行量根據(jù)實際設(shè)備測試使用獲得；

26、基于放行量將后續(xù)緊跟著多組采樣數(shù)據(jù)放行送去語音識別，每放行一組數(shù)據(jù)將此值減去1，直至為0，則不再放行；

27、其中，高于放行閾值的采樣點組將不消耗放行量，且會恢復(fù)放行量為默認(rèn)值，而低于放行閾值的將一個個消耗放行量，直至消耗完則停止放行音頻采樣數(shù)據(jù)，再次進入人聲閾值過篩流程。

28、本發(fā)明還提供了一種基于語音的人機面對面交互裝置，包括：

29、真人識別模塊，用于對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別；

30、音頻處理模塊，用于在確認(rèn)目標(biāo)為真人的情況下，對采集的語音進行降噪和增強處理得到預(yù)處理后音頻；

31、放行識別模塊，用于截取定量采樣頻率下的預(yù)處理后音頻得到采樣音頻，并計算所述采樣音頻的音頻強度，基于音頻強度閾值對所述采樣音頻進行放行識別；

32、收音模塊，用于對符合放行識別條件的采樣音頻進行收音處理，以識別音頻內(nèi)容。

33、本發(fā)明還提供了一種電子設(shè)備，包括存儲器和處理器，其中，

34、所述存儲器，用于存儲程序；

35、所述處理器，與所述存儲器耦合，用于執(zhí)行所述存儲器中存儲的所述程序，以實現(xiàn)上述任一種實現(xiàn)方式中的所述基于語音的人機面對面交互方法中的步驟。

36、本發(fā)明還提供了一種計算機可讀存儲介質(zhì)，用于存儲計算機可讀取的程序或指令，所述程序或指令被處理器執(zhí)行時，能夠?qū)崿F(xiàn)上述任一種實現(xiàn)方式中的所述基于語音的人機面對面交互方法中的步驟。

37、采用上述實施例的有益效果是：

38、本發(fā)明能夠讓人機語音交互的機器更智能，只要識別到“真人”方才開啟語音交互，避免出現(xiàn)無人交互或“非真人”交互的尷尬情況；讓面對面交互（2米以內(nèi)）的語音識別免于噪聲干擾，使得面對面人機語音交互有更高的識別正確率，達到更優(yōu)的交互體驗。

技術(shù)特征：

1.一種基于語音的人機面對面交互方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法，其特征在于，所述對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別，包括：

3.根據(jù)權(quán)利要求2所述的基于語音的人機面對面交互方法，其特征在于，基于人臉識別模型對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別，包括：

4.根據(jù)權(quán)利要求2所述的基于語音的人機面對面交互方法，其特征在于，基于雙目活體防偽檢測技術(shù)對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別，包括：

5.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法，其特征在于，對采集的語音進行降噪處理，包括：

6.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法，其特征在于，對采集的語音進行增強處理，包括：對識別出的人聲進行增強處理。

7.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法，其特征在于，所述采樣音頻的音頻強度的計算公式為：

8.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法，其特征在于，基于音頻強度閾值對所述采樣音頻進行放行識別，包括：

9.一種基于語音的人機面對面交互裝置，其特征在于，包括：

10.一種電子設(shè)備，其特征在于，包括存儲器和處理器，其中，

技術(shù)總結(jié)
本發(fā)明提供了一種基于語音的人機面對面交互方法、裝置及電子設(shè)備，其方法包括：對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別；在確認(rèn)目標(biāo)為真人的情況下，對采集的語音進行降噪和增強處理得到預(yù)處理后音頻；截取定量采樣頻率下的預(yù)處理后音頻得到采樣音頻，并計算所述采樣音頻的音頻強度，基于音頻強度閾值對所述采樣音頻進行放行識別；對符合放行識別條件的采樣音頻進行收音處理，以識別音頻內(nèi)容。本發(fā)明能夠讓人機語音交互的機器更智能，只要識別到“真人”方才開啟語音交互，避免出現(xiàn)無人交互或“非真人”交互的尷尬情況；讓面對面交互（2米以內(nèi)）的語音識別免于噪聲干擾，使得面對面人機語音交互有更高的識別正確率，達到更優(yōu)的交互體驗。

技術(shù)研發(fā)人員：張曉華,呂杰,陳勇,黃彬海,魏斌
受保護的技術(shù)使用者：深圳市視美泰技術(shù)股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/19

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張曉華,呂杰,陳勇,黃彬海,魏斌
技術(shù)所有人：深圳市視美泰技術(shù)股份有限公司
我是此專利的發(fā)明人

上一篇：一種戶外互感器安裝裝置的制作方法
上一篇：一種空氣處理設(shè)備的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于語音的人機面對面交互方法、裝置及電子設(shè)備與流程

一種基于語音的人機面對面交互方法、裝置及電子設(shè)備與流程