本發(fā)明涉及智慧人機交互,具體涉及一種基于語音的人機面對面交互方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、采用面對面語音交互的數(shù)字人或ai智能機器人等機器已經(jīng)在很多展館或高端商超已經(jīng)隨處可見,此場景中,大眾可以很容易地通過語音對話與機器進行信息交互,而后從智能機器獲取幫助,能夠大大降低相應(yīng)場館的日常人力開銷。
2、在語音機器人工作時,涉及的最為關(guān)鍵一環(huán)就是語音識別,需要先讓機器知道人們所表述的內(nèi)容,且收錄語音確實是來自機器跟前的人員,它才可以進一步理解而后給予回應(yīng);否則第一步搞錯,后面流程全部白費。雖然當(dāng)下在手機上的app進行語音轉(zhuǎn)文字都具有很高的識別準(zhǔn)確率,這是因為聲源都是在貼近麥克風(fēng)收音,自然避免了很多環(huán)境噪聲的干擾而產(chǎn)生的結(jié)果。
3、但是,在較為嘈雜的場所,如商超、車站、市場等地方,則會出現(xiàn)比較的尷尬的情況,在近距離(約2米以內(nèi))交互的人員所說的內(nèi)容時常因背景嘈雜聲或遠處人聲的干擾,而被識別成非說話人本意的結(jié)果;或者出現(xiàn)較遠處(如,完全不在設(shè)備跟前)的人員的說話,隨即就觸發(fā)了機器的語音交互,造成“無人”交互的囧境,這些都將會嚴(yán)重影響了該類機器的人機語音交互體驗。
4、因此,有必要對現(xiàn)有的語音機器人的交互方式進行改進。
技術(shù)實現(xiàn)思路
1、有鑒于此,有必要提供一種基于語音的人機面對面交互方法、裝置、電子設(shè)備及存儲介質(zhì),能夠解決現(xiàn)有技術(shù)中語音機器人交互時容易因環(huán)境影響導(dǎo)致的交互無效的技術(shù)問題。
2、為了解決上述技術(shù)問題,本發(fā)明提供了一種基于語音的人機面對面交互方法,包括:
3、對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別;
4、在確認(rèn)目標(biāo)為真人的情況下,對采集的語音進行降噪和增強處理得到預(yù)處理后音頻;
5、截取定量采樣頻率下的預(yù)處理后音頻得到采樣音頻,并計算所述采樣音頻的音頻強度,基于音頻強度閾值對所述采樣音頻進行放行識別;
6、對符合放行識別條件的采樣音頻進行收音處理,以識別音頻內(nèi)容。
7、在一種可能的實現(xiàn)方式中,所述對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別,包括:
8、基于人臉識別模型對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別;
9、和/或;
10、基于雙目活體防偽檢測技術(shù)對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別。
11、在一種可能的實現(xiàn)方式中,基于人臉識別模型對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別,包括:
12、基于adaboost算法作為人臉識別模型的基準(zhǔn)模型,將多個弱分類器組合成一個強分類器,通過對數(shù)據(jù)集進行加權(quán)和重復(fù)訓(xùn)練得到所述人臉識別模型;
13、基于人臉識別模型進行真人識別。
14、在一種可能的實現(xiàn)方式中,基于雙目活體防偽檢測技術(shù)對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別,包括:
15、采用可見光加近紅外的光電一體化的人臉活體檢測技術(shù)作為雙目活體防偽檢測技術(shù);
16、對不同光照條件下的人臉皮膚反射的光譜信息進行分析分類,對異質(zhì)人臉圖像進行關(guān)聯(lián)判斷,區(qū)別出真實人臉皮膚。
17、在一種可能的實現(xiàn)方式中,對采集的語音進行降噪處理,包括:
18、基于音頻降噪模型對采集的語音進行降噪處理;
19、所述音頻降噪模型為在卷積編-解碼架構(gòu)的基礎(chǔ)上,增加循環(huán)層獲得的卷積循環(huán)編-解碼,并引入前饋序列記憶網(wǎng)絡(luò)所組成的新型架構(gòu)模型。
20、在一種可能的實現(xiàn)方式中,對采集的語音進行增強處理,包括:對識別出的人聲進行增強處理;
21、在一種可能的實現(xiàn)方式中,所述采樣音頻的音頻強度的計算公式為:
22、;
23、其中,表示采樣音頻的音頻強度,為音頻采樣點振幅均方根值,為音頻采樣點振幅最大值;
24、在一種可能的實現(xiàn)方式中,基于音頻強度閾值對所述采樣音頻進行放行識別,包括:
25、設(shè)置放行閾值和放行量,放行閾值和放行量根據(jù)實際設(shè)備測試使用獲得;
26、基于放行量將后續(xù)緊跟著多組采樣數(shù)據(jù)放行送去語音識別,每放行一組數(shù)據(jù)將此值減去1,直至為0,則不再放行;
27、其中,高于放行閾值的采樣點組將不消耗放行量,且會恢復(fù)放行量為默認(rèn)值,而低于放行閾值的將一個個消耗放行量,直至消耗完則停止放行音頻采樣數(shù)據(jù),再次進入人聲閾值過篩流程。
28、本發(fā)明還提供了一種基于語音的人機面對面交互裝置,包括:
29、真人識別模塊,用于對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別;
30、音頻處理模塊,用于在確認(rèn)目標(biāo)為真人的情況下,對采集的語音進行降噪和增強處理得到預(yù)處理后音頻;
31、放行識別模塊,用于截取定量采樣頻率下的預(yù)處理后音頻得到采樣音頻,并計算所述采樣音頻的音頻強度,基于音頻強度閾值對所述采樣音頻進行放行識別;
32、收音模塊,用于對符合放行識別條件的采樣音頻進行收音處理,以識別音頻內(nèi)容。
33、本發(fā)明還提供了一種電子設(shè)備,包括存儲器和處理器,其中,
34、所述存儲器,用于存儲程序;
35、所述處理器,與所述存儲器耦合,用于執(zhí)行所述存儲器中存儲的所述程序,以實現(xiàn)上述任一種實現(xiàn)方式中的所述基于語音的人機面對面交互方法中的步驟。
36、本發(fā)明還提供了一種計算機可讀存儲介質(zhì),用于存儲計算機可讀取的程序或指令,所述程序或指令被處理器執(zhí)行時,能夠?qū)崿F(xiàn)上述任一種實現(xiàn)方式中的所述基于語音的人機面對面交互方法中的步驟。
37、采用上述實施例的有益效果是:
38、本發(fā)明能夠讓人機語音交互的機器更智能,只要識別到“真人”方才開啟語音交互,避免出現(xiàn)無人交互或“非真人”交互的尷尬情況;讓面對面交互(2米以內(nèi))的語音識別免于噪聲干擾,使得面對面人機語音交互有更高的識別正確率,達到更優(yōu)的交互體驗。
1.一種基于語音的人機面對面交互方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法,其特征在于,所述對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別,包括:
3.根據(jù)權(quán)利要求2所述的基于語音的人機面對面交互方法,其特征在于,基于人臉識別模型對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別,包括:
4.根據(jù)權(quán)利要求2所述的基于語音的人機面對面交互方法,其特征在于,基于雙目活體防偽檢測技術(shù)對距離語音機器人預(yù)設(shè)距離的目標(biāo)進行真人識別,包括:
5.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法,其特征在于,對采集的語音進行降噪處理,包括:
6.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法,其特征在于,對采集的語音進行增強處理,包括:對識別出的人聲進行增強處理。
7.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法,其特征在于,所述采樣音頻的音頻強度的計算公式為:
8.根據(jù)權(quán)利要求1所述的基于語音的人機面對面交互方法,其特征在于,基于音頻強度閾值對所述采樣音頻進行放行識別,包括:
9.一種基于語音的人機面對面交互裝置,其特征在于,包括:
10.一種電子設(shè)備,其特征在于,包括存儲器和處理器,其中,