本技術(shù)涉及語音處理,應(yīng)用于智能客服語音輸出場景中,尤其涉及一種語音輸出方法、裝置、設(shè)備及其存儲介質(zhì)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)的快速發(fā)展,傳統(tǒng)的語音輸出越來越趨向于智能語音輸出方向發(fā)展,即采用智能語音客服方式替換人工客服與客戶進行對話。
2、目前的智能語音客服主要應(yīng)用在簡單的業(yè)務(wù)咨詢領(lǐng)域,例如,金融業(yè)務(wù)咨詢領(lǐng)域,而且大部分的智能語音客服多為參照話術(shù)文本進行機械性的回答,未將情感類型引入到智能語音客服問答場景中;即使,存在將情感類型引入的方式,也僅僅只是通過語音情感識別技術(shù)對客戶的情感狀態(tài)進行分析和識別,從而更好地了解用戶的需求和情況,未在交互過程中,將情感狀態(tài)引入到智能語音客服的回答中,機械性的回答,容易造成用戶反感,給客戶帶來極差的服務(wù)體驗,無法營造出真實的語音咨詢問答場景。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的目的在于提出一種語音輸出方法、裝置、設(shè)備及其存儲介質(zhì),以解決現(xiàn)有在智能語音客服應(yīng)答場景中,未在交互過程中,將情感狀態(tài)引入到智能語音客服的回答中,機械性的回答,容易造成用戶反感,給客戶帶來極差的服務(wù)體驗,無法營造出真實的語音咨詢問答場景的問題。
2、為了解決上述技術(shù)問題,本技術(shù)實施例提供語音輸出方法,采用了如下所述的技術(shù)方案:
3、一種語音輸出方法,包括下述步驟:
4、獲取第一語音片段、第二語音片段和第三語音片段,其中,所述第一語音片段為當(dāng)前發(fā)音對象在先輸出的至少一句話,所述第二語音片段為對話發(fā)音對象的至少一句話,所述第三語音片段為當(dāng)前發(fā)音對象將要輸出的語音片段,所述第一語音片段、第二語音片段和第三語音片段在時間關(guān)系上是連續(xù)的;
5、分別對所述第一語音片段、第二語音片段和第三語音片段進行預(yù)處理,獲得預(yù)處理后的第一語音片段、第二語音片段和第三語音片段;
6、將預(yù)處理后的第一語音片段、第二語音片段和第三語音片段輸入到預(yù)設(shè)的多模態(tài)信息融合模型,根據(jù)所述多模態(tài)信息融合模型預(yù)測所述第三語音片段的輸出情感類型;
7、控制所述當(dāng)前發(fā)音對象以所述輸出情感類型輸出所述第三語音片段,其中,所述當(dāng)前發(fā)音對象包括智能語音客服。
8、進一步的,所述分別對所述第一語音片段、第二語音片段和第三語音片段進行預(yù)處理,獲得預(yù)處理后的第一語音片段、第二語音片段和第三語音片段的步驟,具體包括:
9、將預(yù)處理之前的第一語音片段、第二語音片段和第三語音片段依次作為當(dāng)前待處理語音片段;
10、對當(dāng)前待處理語音片段進行音頻和文本分離處理,獲得分離后成對的音頻數(shù)據(jù)和文本數(shù)據(jù);
11、判斷當(dāng)前待處理語音片段的音頻數(shù)據(jù)是否超過了預(yù)設(shè)的時間長度;
12、若當(dāng)前待處理語音片段的音頻數(shù)據(jù)未超過預(yù)設(shè)的時間長度,則引入靜音片段對所述音頻數(shù)據(jù)進行補齊處理,獲得與所述預(yù)設(shè)的時間長度一致的目標音頻數(shù)據(jù);
13、若當(dāng)前待處理語音片段的音頻數(shù)據(jù)超過了預(yù)設(shè)的時間長度,則對所述音頻數(shù)據(jù)進行截取處理,獲得與所述預(yù)設(shè)的時間長度一致的目標音頻數(shù)據(jù);
14、將所述目標音頻數(shù)據(jù)和所述文本數(shù)據(jù)作為當(dāng)前待處理語音片段經(jīng)預(yù)處理后的語音片段。
15、進一步的,所述對當(dāng)前待處理語音片段進行音頻和文本分離處理,獲得分離后成對的音頻數(shù)據(jù)和文本數(shù)據(jù)的步驟,具體包括:
16、將當(dāng)前待處理語音片段輸入到預(yù)設(shè)的asr語音識別模型,獲得所述asr語音識別模型輸出的音頻數(shù)據(jù)和文本數(shù)據(jù);
17、以當(dāng)前待處理語音片段的區(qū)別標識信息,標記所述音頻數(shù)據(jù)和文本數(shù)據(jù),獲得標記后成對的音頻數(shù)據(jù)和文本數(shù)據(jù);
18、所述引入靜音片段對所述音頻數(shù)據(jù)進行補齊處理,獲得與所述預(yù)設(shè)的時間長度一致的目標音頻數(shù)據(jù)的步驟,具體包括:
19、將所述靜音片段與所述音頻數(shù)據(jù)的端點進行拼接,獲得“靜音片段+音頻數(shù)據(jù)”或者“音頻數(shù)據(jù)+靜音片段”格式的新音頻數(shù)據(jù)作為所述目標音頻數(shù)據(jù),其中,所述新音頻數(shù)據(jù)的時間長度與所述預(yù)設(shè)的時間長度一致,所述靜音片段的時間長度為所述音頻數(shù)據(jù)的時間長度與所述預(yù)設(shè)的時間長度的差值。
20、進一步的,所述多模態(tài)信息融合模型包括音頻特征編碼組件、文本特征編碼組件、特征向量拼接融合組件和語音輸出組件,在執(zhí)行所述將預(yù)處理后的第一語音片段、第二語音片段和第三語音片段輸入到預(yù)設(shè)的多模態(tài)信息融合模型,根據(jù)所述多模態(tài)信息融合模型預(yù)測所述第三語音片段的輸出情感類型的步驟之前,所述方法還包括:
21、獲取不同情感類型的語音數(shù)據(jù)集;
22、對所述語音數(shù)據(jù)集中每個語音片段分別進行預(yù)處理,獲得預(yù)處理之后的語音數(shù)據(jù)集;
23、將所述預(yù)處理之后的語音數(shù)據(jù)集輸入到所述多模態(tài)信息融合模型;
24、通過所述音頻特征編碼組件,對所述語音數(shù)據(jù)集中每個語音片段的音頻特征進行編碼,獲得每個語音片段對應(yīng)的音頻特征編碼信息;
25、通過所述文本特征編碼組件,對所述語音數(shù)據(jù)集中每個語音片段的文本特征進行編碼,獲得每個語音片段對應(yīng)的文本特征編碼信息;
26、采用所述特征向量拼接融合組件,拼接融合同一語音片段的音頻特征編碼信息和文本特征編碼信息,獲得融合后的最終特征向量;
27、對同種情感類型的不同語音片段所對應(yīng)的最終特征向量進行聚類整理,獲得不同情感類型分別對應(yīng)的最終特征向量集合;
28、根據(jù)不同情感類型分別對應(yīng)的最終特征向量集合,確定出不同情感類型分別對應(yīng)的特征值范圍;
29、根據(jù)不同情感類型分別對應(yīng)的特征值范圍,在所述語音輸出組件對應(yīng)的全連接層設(shè)置情感類型分類器,其中,設(shè)置所述情感類型分類器指在所述語音輸出組件對應(yīng)的全連接層根據(jù)特征值范圍為不同情感類型的語音片段分別設(shè)置不同的語音輸出節(jié)點。
30、進一步的,所述將預(yù)處理后的第一語音片段、第二語音片段和第三語音片段輸入到預(yù)設(shè)的多模態(tài)信息融合模型,根據(jù)所述多模態(tài)信息融合模型預(yù)測所述第三語音片段的輸出情感類型的步驟,具體包括:
31、通過所述音頻特征編碼組件,分別對所述預(yù)處理后的第一語音片段、第二語音片段和第三語音片段的音頻特征進行編碼,獲得每個語音片段對應(yīng)的音頻特征編碼信息;
32、通過所述文本特征編碼組件,分別對所述預(yù)處理后的第一語音片段、第二語音片段和第三語音片段的文本特征進行編碼,獲得每個語音片段對應(yīng)的文本特征編碼信息;
33、采用所述特征向量拼接融合組件,拼接融合第三語音片段的音頻特征編碼信息和文本特征編碼信息,獲得融合后的最終特征向量;
34、對所述融合后的最終特征向量進行特征值計算,獲得目標特征值,并識別所述目標特征值所處的特征值范圍;
35、根據(jù)所述目標特征值所處的特征值范圍,確定所述第三語音片段所對應(yīng)的輸出情感類型。
36、進一步的,在執(zhí)行所述采用所述特征向量拼接融合組件,拼接融合第三語音片段的音頻特征編碼信息和文本特征編碼信息,獲得融合后的最終特征向量的步驟之前,所述方法還包括:
37、在所述音頻特征編碼組件和所述文本特征編碼組件中引入上下文注意力機制;
38、通過所述上下文注意力機制,計算所述第三語音片段的音頻特征編碼信息分別與第一語音片段和第二語音片段的音頻特征編碼信息間的上下文依賴關(guān)系,獲得音頻上下文依賴關(guān)系;以及,
39、通過所述上下文注意力機制,計算所述第三語音片段的文本特征編碼信息分別與第一語音片段和第二語音片段的文本特征編碼信息間的上下文依賴關(guān)系,獲得文本上下文依賴關(guān)系;
40、將所述音頻上下文依賴關(guān)系作為音頻隱含信息,添加到所述第三語音片段的音頻特征編碼信息中,以更新所述第三語音片段的音頻特征編碼信息;
41、將所述文本上下文依賴關(guān)系作為文本隱含信息,添加到所述第三語音片段的文本特征編碼信息中,以更新所述第三語音片段的文本特征編碼信息;
42、所述的特征向量拼接融合組件包括基于跨模態(tài)注意力機制的特征向量拼接融合組件,所述采用所述特征向量拼接融合組件,拼接融合第三語音片段的音頻特征編碼信息和文本特征編碼信息,獲得融合后的最終特征向量的步驟,具體包括:
43、將所述第三語音片段的音頻特征編碼信息作為query向量,將所述第三語音片段的文本特征編碼信息作為key向量和va?l?ue向量,并根據(jù)注意力機制,計算第三語音片段的音頻特征編碼信息與文本特征編碼信息的相關(guān)性,根據(jù)所述相關(guān)性對所述第三語音片段的文本特征編碼信息進行特征權(quán)重分配,獲得第一特征權(quán)重分配矩陣;
44、將所述第三語音片段的文本特征編碼信息作為query向量,將所述第三語音片段的音頻特征編碼信息作為key向量和va?l?ue向量,并根據(jù)注意力機制,計算第三語音片段的文本特征編碼信息與音頻特征編碼信息的相關(guān)性,根據(jù)所述相關(guān)性對所述第三語音片段的音頻特征編碼信息進行特征權(quán)重分配,獲得第二特征權(quán)重分配矩陣;
45、以矩陣融合法拼接融合所述第一特征權(quán)重分配矩陣和所述第二特征權(quán)重分配矩陣,獲得所述最終特征向量。
46、進一步的,所述控制所述當(dāng)前發(fā)音對象以所述輸出情感類型輸出所述第三語音片段的步驟,具體包括:
47、根據(jù)所述第三語音片段所對應(yīng)的輸出情感類型篩選出目標語音輸出節(jié)點;
48、控制所述當(dāng)前發(fā)音對象通過所述目標語音輸出節(jié)點輸出所述第三語音片段,其中,預(yù)先根據(jù)情感類型的不同,對不同的語音輸出節(jié)點分別設(shè)置了對應(yīng)的說話語氣、說話音調(diào)、聲音強度和聲音語速。
49、為了解決上述技術(shù)問題,本技術(shù)實施例還提供語音輸出裝置,采用了如下所述的技術(shù)方案:
50、一種語音輸出裝置,包括:
51、語音片段獲取模塊,用于獲取第一語音片段、第二語音片段和第三語音片段,其中,所述第一語音片段為當(dāng)前發(fā)音對象在先輸出的至少一句話,所述第二語音片段為對話發(fā)音對象的至少一句話,所述第三語音片段為當(dāng)前發(fā)音對象將要輸出的語音片段,所述第一語音片段、第二語音片段和第三語音片段在時間關(guān)系上是連續(xù)的;
52、語音片段預(yù)處理模塊,用于分別對所述第一語音片段、第二語音片段和第三語音片段進行預(yù)處理,獲得預(yù)處理后的第一語音片段、第二語音片段和第三語音片段;
53、輸出情感預(yù)測模塊,用于將預(yù)處理后的第一語音片段、第二語音片段和第三語音片段輸入到預(yù)設(shè)的多模態(tài)信息融合模型,根據(jù)所述多模態(tài)信息融合模型預(yù)測所述第三語音片段的輸出情感類型;
54、語音片段輸出模塊,用于控制所述當(dāng)前發(fā)音對象以所述輸出情感類型輸出所述第三語音片段,其中,所述當(dāng)前發(fā)音對象包括智能語音客服。
55、為了解決上述技術(shù)問題,本技術(shù)實施例還提供一種計算機設(shè)備,采用了如下所述的技術(shù)方案:
56、一種計算機設(shè)備,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)上述所述的語音輸出方法的步驟。
57、為了解決上述技術(shù)問題,本技術(shù)實施例還提供一種計算機可讀存儲介質(zhì),采用了如下所述的技術(shù)方案:
58、一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機可讀指令,所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如上述所述的語音輸出方法的步驟。
59、與現(xiàn)有技術(shù)相比,本技術(shù)實施例主要有以下有益效果:
60、本技術(shù)實施例所述語音輸出方法,通過獲取第一語音片段、第二語音片段和第三語音片段,第一語音片段、第二語音片段和第三語音片段為一問一答對話形式的語音片段;進行預(yù)處理,獲得預(yù)處理后的第一語音片段、第二語音片段和第三語音片段;將預(yù)處理后的第一語音片段、第二語音片段和第三語音片段輸入到多模態(tài)信息融合模型,預(yù)測第三語音片段的輸出情感類型;控制當(dāng)前發(fā)音對象以輸出情感類型輸出第三語音片段。將本技術(shù)的語音輸出方法應(yīng)用到智能語音客服咨詢應(yīng)答場景中,能夠使得智能語音客服的應(yīng)答語句充分考慮到上下文信息,從音頻數(shù)據(jù)和文本數(shù)據(jù)中獲取到語句情感信息,使得智能語音客服輸出的語音片段情感更加豐富,更加貼合實際的語音咨詢問答場景,同時,在智能語音客服對話上,引入了情感類型,避免輸出的智能語音太過機械化,提升客戶的對話體驗。