亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于語音的人機面對面交互方法、裝置及電子設(shè)備與流程

文檔序號:40389422發(fā)布日期:2024-12-20 12:12閱讀:19來源:國知局
一種基于語音的人機面對面交互方法、裝置及電子設(shè)備與流程

本發(fā)明涉及智慧人機交互,具體涉及一種基于語音的人機面對面交互方法、裝置、電子設(shè)備及存儲介質(zhì)。


背景技術(shù):

1、采用面對面語音交互的數(shù)字人或ai智能機器人等機器已經(jīng)在很多展館或高端商超已經(jīng)隨處可見,此場景中,大眾可以很容易地通過語音對話與機器進行信息交互,而后從智能機器獲取幫助,能夠大大降低相應(yīng)場館的日常人力開銷。

2、在語音機器人工作時,涉及的最為關(guān)鍵一環(huán)就是語音識別,需要先讓機器知道人們所表述的內(nèi)容,且收錄語音確實是來自機器跟前的人員,它才可以進一步理解而后給予回應(yīng);否則第一步搞錯,后面流程全部白費。雖然當(dāng)下在手機上的app進行語音轉(zhuǎn)文字都具有很高的識別準(zhǔn)確率,這是因為聲源都是在貼近麥克風(fēng)收音,自然避免了很多環(huán)境噪聲的干擾而產(chǎn)生的結(jié)果。

3、但是,在較為嘈雜的場所,如商超、車站、市場等地方,則會出現(xiàn)比較的尷尬的情況,在近距離(約2米以內(nèi))交互的人員所說的內(nèi)容時常因背景嘈雜聲或遠處人聲的干擾,而被識別成非說話人本意的結(jié)果;或者出現(xiàn)較遠處(如,完全不在設(shè)備跟前)的人員的說話,隨即就觸發(fā)了機器的語音交互,造成“無人”交互的囧境,這些都將會嚴(yán)重影響了該類機器的人機語音交互體驗。

4、因此,有必要對現(xiàn)有的語音機器人的交互方式進行改進。


技術(shù)實現(xiàn)思路

1、有鑒于此,有必要提供一種基于語音的人機面對面交互方法、裝置、電子設(shè)備及存儲介質(zhì),能夠解決現(xiàn)有技術(shù)中語音機器人交互時容易因環(huán)境影響導(dǎo)致的交互無效的技術(shù)問題。

2、為了解決上述技術(shù)問題,本發(fā)明提供了一種基于語音的人機面對面交互方法,包括:

3、對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別;

4、在確認(rèn)目標(biāo)為真人的情況下,對采集的語音進行降噪和增強處理得到預(yù)處理后音頻;

5、截取定量采樣頻率下的預(yù)處理后音頻得到采樣音頻,并計算所述采樣音頻的音頻強度,基于音頻強度閾值對所述采樣音頻進行放行識別;

6、對符合放行識別條件的采樣音頻進行收音處理,以識別音頻內(nèi)容。

7、在一種可能的實現(xiàn)方式中,所述對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別,包括:

8、基于人臉識別模型對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別;

9、和/或;

10、基于雙目活體防偽檢測技術(shù)對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別。

11、在一種可能的實現(xiàn)方式中,基于人臉識別模型對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別,包括:

12、基于adaboost算法作為人臉識別模型的基準(zhǔn)模型,將多個弱分類器組合成一個強分類器,通過對數(shù)據(jù)集進行加權(quán)和重復(fù)訓(xùn)練得到所述人臉識別模型;

13、基于人臉識別模型進行真人識別。

14、在一種可能的實現(xiàn)方式中,基于雙目活體防偽檢測技術(shù)對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別,包括:

15、采用可見光加近紅外的光電一體化的人臉活體檢測技術(shù)作為雙目活體防偽檢測技術(shù);

16、對不同光照條件下的人臉皮膚反射的光譜信息進行分析分類,對異質(zhì)人臉圖像進行關(guān)聯(lián)判斷,區(qū)別出真實人臉皮膚。

17、在一種可能的實現(xiàn)方式中,對采集的語音進行降噪處理,包括:

18、基于音頻降噪模型對采集的語音進行降噪處理;

19、所述音頻降噪模型為在卷積編-解碼架構(gòu)的基礎(chǔ)上,增加循環(huán)層獲得的卷積循環(huán)編-解碼,并引入前饋序列記憶網(wǎng)絡(luò)所組成的新型架構(gòu)模型。

20、在一種可能的實現(xiàn)方式中,對采集的語音進行增強處理,包括:對識別出的人聲進行增強處理;

21、在一種可能的實現(xiàn)方式中,所述采樣音頻的音頻強度的計算公式為:

22、;

23、其中,表示采樣音頻的音頻強度,為音頻采樣點振幅均方根值,為音頻采樣點振幅最大值;

24、在一種可能的實現(xiàn)方式中,基于音頻強度閾值對所述采樣音頻進行放行識別,包括:

25、設(shè)置放行閾值和放行量,放行閾值和放行量根據(jù)實際設(shè)備測試使用獲得;

26、基于放行量將后續(xù)緊跟著多組采樣數(shù)據(jù)放行送去語音識別,每放行一組數(shù)據(jù)將此值減去1,直至為0,則不再放行;

27、其中,高于放行閾值的采樣點組將不消耗放行量,且會恢復(fù)放行量為默認(rèn)值,而低于放行閾值的將一個個消耗放行量,直至消耗完則停止放行音頻采樣數(shù)據(jù),再次進入人聲閾值過篩流程。

28、本發(fā)明還提供了一種基于語音的人機面對面交互裝置,包括:

29、真人識別模塊,用于對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別;

30、音頻處理模塊,用于在確認(rèn)目標(biāo)為真人的情況下,對采集的語音進行降噪和增強處理得到預(yù)處理后音頻;

31、放行識別模塊,用于截取定量采樣頻率下的預(yù)處理后音頻得到采樣音頻,并計算所述采樣音頻的音頻強度,基于音頻強度閾值對所述采樣音頻進行放行識別;

32、收音模塊,用于對符合放行識別條件的采樣音頻進行收音處理,以識別音頻內(nèi)容。

33、本發(fā)明還提供了一種電子設(shè)備,包括存儲器和處理器,其中,

34、所述存儲器,用于存儲程序;

35、所述處理器,與所述存儲器耦合,用于執(zhí)行所述存儲器中存儲的所述程序,以實現(xiàn)上述任一種實現(xiàn)方式中的所述基于語音的人機面對面交互方法中的步驟。

36、本發(fā)明還提供了一種計算機可讀存儲介質(zhì),用于存儲計算機可讀取的程序或指令,所述程序或指令被處理器執(zhí)行時,能夠?qū)崿F(xiàn)上述任一種實現(xiàn)方式中的所述基于語音的人機面對面交互方法中的步驟。

37、采用上述實施例的有益效果是:

38、本發(fā)明能夠讓人機語音交互的機器更智能,只要識別到“真人”方才開啟語音交互,避免出現(xiàn)無人交互或“非真人”交互的尷尬情況;讓面對面交互(2米以內(nèi))的語音識別免于噪聲干擾,使得面對面人機語音交互有更高的識別正確率,達到更優(yōu)的交互體驗。



技術(shù)特征:

1.一種基于語音的人機面對面交互方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法,其特征在于,所述對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別,包括:

3.根據(jù)權(quán)利要求2所述的基于語音的人機面對面交互方法,其特征在于,基于人臉識別模型對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別,包括:

4.根據(jù)權(quán)利要求2所述的基于語音的人機面對面交互方法,其特征在于,基于雙目活體防偽檢測技術(shù)對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別,包括:

5.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法,其特征在于,對采集的語音進行降噪處理,包括:

6.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法,其特征在于,對采集的語音進行增強處理,包括:對識別出的人聲進行增強處理。

7.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法,其特征在于,所述采樣音頻的音頻強度的計算公式為:

8.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法,其特征在于,基于音頻強度閾值對所述采樣音頻進行放行識別,包括:

9.一種基于語音的人機面對面交互裝置,其特征在于,包括:

10.一種電子設(shè)備,其特征在于,包括存儲器和處理器,其中,


技術(shù)總結(jié)
本發(fā)明提供了一種基于語音的人機面對面交互方法、裝置及電子設(shè)備,其方法包括:對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別;在確認(rèn)目標(biāo)為真人的情況下,對采集的語音進行降噪和增強處理得到預(yù)處理后音頻;截取定量采樣頻率下的預(yù)處理后音頻得到采樣音頻,并計算所述采樣音頻的音頻強度,基于音頻強度閾值對所述采樣音頻進行放行識別;對符合放行識別條件的采樣音頻進行收音處理,以識別音頻內(nèi)容。本發(fā)明能夠讓人機語音交互的機器更智能,只要識別到“真人”方才開啟語音交互,避免出現(xiàn)無人交互或“非真人”交互的尷尬情況;讓面對面交互(2米以內(nèi))的語音識別免于噪聲干擾,使得面對面人機語音交互有更高的識別正確率,達到更優(yōu)的交互體驗。

技術(shù)研發(fā)人員:張曉華,呂杰,陳勇,黃彬海,魏斌
受保護的技術(shù)使用者:深圳市視美泰技術(shù)股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1