本申請涉及人工智能,尤其涉及一種人形機器人的智能語音降噪交互方法和系統(tǒng)。
背景技術(shù):
1、在人形機器人的應(yīng)用場景中,語音交互是其與人類溝通的重要方式。然而,不同應(yīng)用場景的環(huán)境噪聲是難以一致,并伴隨多聲源干擾等問題往往影響語音識別的準確性和交互體驗。
技術(shù)實現(xiàn)思路
1、本申請實施例的主要目的在于提供一種人形機器人的智能語音降噪交互方法和系統(tǒng)。
2、本發(fā)明所采取的技術(shù)方案是:
3、一方面,本發(fā)明實施例提供了一種人形機器人的智能語音降噪交互方法,所述方法包括以下步驟:
4、采集聲源信息;
5、根據(jù)所述聲源信息,得到目標聲源位置信息;
6、采集音頻數(shù)據(jù);
7、根據(jù)所述目標聲源位置信息和所述音頻數(shù)據(jù),得到目標音頻數(shù)據(jù);
8、根據(jù)所述目標音頻數(shù)據(jù),完成降噪處理。
9、進一步地,所述采集聲源信息,包括以下步驟:
10、獲取視覺信息和聲覺信息;
11、根據(jù)所述視覺信息和所述聲覺信息,得到空間位置信息;
12、根據(jù)所述空間位置信息,得到聲源信息。
13、進一步地,所述根據(jù)所述聲源信息,得到目標聲源位置信息,包括以下步驟:
14、預(yù)設(shè)若干個目標采集區(qū)域;
15、根據(jù)所述目標采集區(qū)域和所述聲源信息,得到目標聲源位置信息。
16、進一步地,所述根據(jù)所述目標聲源位置信息和所述音頻數(shù)據(jù),得到目標音頻數(shù)據(jù),包括以下步驟:
17、根據(jù)所述目標聲源位置信息,從所述音頻數(shù)據(jù)中提取與目標聲源位置對應(yīng)的語音信息;
18、根據(jù)所述語音信息,得到目標音頻數(shù)據(jù)。
19、進一步地,所述根據(jù)所述目標音頻數(shù)據(jù),完成降噪處理,包括以下步驟:
20、預(yù)設(shè)神經(jīng)網(wǎng)絡(luò)模型;
21、根據(jù)所述神經(jīng)網(wǎng)絡(luò)模型,確定掩蔽值;
22、根據(jù)所述掩蔽值和所述目標音頻數(shù)據(jù),完成降噪處理。
23、另一方面,本發(fā)明實施例還提供一種人形機器人的智能語音降噪交互系統(tǒng),所述系統(tǒng)包括:
24、第一模塊,用于采集聲源信息;
25、第二模塊,用于根據(jù)所述聲源信息,得到目標聲源位置信息;
26、第三模塊,用于采集音頻數(shù)據(jù);
27、第四模塊,用于根據(jù)所述目標聲源位置信息和所述音頻數(shù)據(jù),得到目標音頻數(shù)據(jù);
28、第五模塊,用于根據(jù)所述目標音頻數(shù)據(jù),完成降噪處理。
29、進一步地,所述系統(tǒng)還包括:
30、聲源定位模塊,用于確定說話人的空間位置信息;
31、目標聲源識別模塊,用于根據(jù)目標采集區(qū)域匹配目標聲源位置;
32、音頻數(shù)據(jù)采集模塊,用于采用自動增益控制算法技術(shù)優(yōu)化音頻采集;
33、目標音頻數(shù)據(jù)提取模塊,用于提取目標音頻數(shù)據(jù);
34、降噪處理模塊和多模態(tài)信息融合模塊,用于執(zhí)行降噪處理。
35、進一步地,所述系統(tǒng)還包括視覺模塊和聲覺模塊;
36、所述視覺模塊包括視覺傳感器;所述聲覺模塊包括麥克風陣列。
37、另一方面,本發(fā)明實施例還提供一種人形機器人的智能語音降噪交互裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如前面所述的人形機器人的智能語音降噪交互方法。
38、另一方面,本發(fā)明實施例還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令用于使計算機執(zhí)行如前面所述的方法。
39、本申請實施例至少包括以下有益效果:本申請?zhí)峁┮环N人形機器人的智能語音降噪交互方法和系統(tǒng)。本發(fā)明采集聲源信息;根據(jù)所述聲源信息,得到目標聲源位置信息;采集音頻數(shù)據(jù);根據(jù)所述目標聲源位置信息和所述音頻數(shù)據(jù),得到目標音頻數(shù)據(jù);根據(jù)所述目標音頻數(shù)據(jù),完成降噪處理。本發(fā)明能夠提高人形機器人在復(fù)雜聲學環(huán)境中的語音識別準確度。
1.一種人形機器人的智能語音降噪交互方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采集聲源信息,包括以下步驟:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述聲源信息,得到目標聲源位置信息,包括以下步驟:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標聲源位置信息和所述音頻數(shù)據(jù),得到目標音頻數(shù)據(jù),包括以下步驟:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述目標音頻數(shù)據(jù),完成降噪處理,包括以下步驟:
6.一種人形機器人的智能語音降噪交互系統(tǒng),其特征在于,所述系統(tǒng)包括:
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括:
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括視覺模塊和聲覺模塊;
9.一種人形機器人的智能語音降噪交互裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如權(quán)利要求1至5中任意一項所述的人形機器人的智能語音降噪交互方法。
10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機可執(zhí)行指令,所述計算機可執(zhí)行指令用于使計算機執(zhí)行如權(quán)利要求1至5任意一項所述的方法。