1.一種語(yǔ)音輸出方法,其特征在于,包括下述步驟:
2.根據(jù)權(quán)利要求1所述的語(yǔ)音輸出方法,其特征在于,所述分別對(duì)所述第一語(yǔ)音片段、第二語(yǔ)音片段和第三語(yǔ)音片段進(jìn)行預(yù)處理,獲得預(yù)處理后的第一語(yǔ)音片段、第二語(yǔ)音片段和第三語(yǔ)音片段的步驟,具體包括:
3.根據(jù)權(quán)利要求2所述的語(yǔ)音輸出方法,其特征在于,所述對(duì)當(dāng)前待處理語(yǔ)音片段進(jìn)行音頻和文本分離處理,獲得分離后成對(duì)的音頻數(shù)據(jù)和文本數(shù)據(jù)的步驟,具體包括:
4.根據(jù)權(quán)利要求1所述的語(yǔ)音輸出方法,其特征在于,所述多模態(tài)信息融合模型包括音頻特征編碼組件、文本特征編碼組件、特征向量拼接融合組件和語(yǔ)音輸出組件,在執(zhí)行所述將預(yù)處理后的第一語(yǔ)音片段、第二語(yǔ)音片段和第三語(yǔ)音片段輸入到預(yù)設(shè)的多模態(tài)信息融合模型,根據(jù)所述多模態(tài)信息融合模型預(yù)測(cè)所述第三語(yǔ)音片段的輸出情感類型的步驟之前,所述方法還包括:
5.根據(jù)權(quán)利要求4所述的語(yǔ)音輸出方法,其特征在于,所述將預(yù)處理后的第一語(yǔ)音片段、第二語(yǔ)音片段和第三語(yǔ)音片段輸入到預(yù)設(shè)的多模態(tài)信息融合模型,根據(jù)所述多模態(tài)信息融合模型預(yù)測(cè)所述第三語(yǔ)音片段的輸出情感類型的步驟,具體包括:
6.根據(jù)權(quán)利要求5所述的語(yǔ)音輸出方法,其特征在于,在執(zhí)行所述采用所述特征向量拼接融合組件,拼接融合第三語(yǔ)音片段的音頻特征編碼信息和文本特征編碼信息,獲得融合后的最終特征向量的步驟之前,所述方法還包括:
7.根據(jù)權(quán)利要求4所述的語(yǔ)音輸出方法,其特征在于,所述控制所述當(dāng)前發(fā)音對(duì)象以所述輸出情感類型輸出所述第三語(yǔ)音片段的步驟,具體包括:
8.一種語(yǔ)音輸出裝置,其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)可讀指令,所述處理器執(zhí)行所述計(jì)算機(jī)可讀指令時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的語(yǔ)音輸出方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)可讀指令,所述計(jì)算機(jī)可讀指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的語(yǔ)音輸出方法的步驟。