本技術(shù)涉及人工智能,具體涉及一種模型訓(xùn)練方法、文本處理方法、模型訓(xùn)練裝置、文本處理裝置、電子設(shè)備、計算機(jī)可讀存儲介質(zhì)及計算機(jī)程序產(chǎn)品。
背景技術(shù):
1、隨著人工智能技術(shù)的不斷發(fā)展,基于自然語言處理的人機(jī)對話技術(shù)廣泛地應(yīng)用于各個行業(yè)。比如,智能客戶系統(tǒng)、人機(jī)問答系統(tǒng)等均是人機(jī)對話技術(shù)實現(xiàn)機(jī)器與人之間的對話,智能客服系統(tǒng)能夠引導(dǎo)用戶辦理業(yè)務(wù)、解答業(yè)務(wù)問題等,人機(jī)問答系統(tǒng)能夠?qū)τ脩粼趯I(yè)領(lǐng)域的問題進(jìn)行解答等。
2、然而,在相關(guān)技術(shù)中,目前人機(jī)對話所涉及的文本的表達(dá)能力較差。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供一種模型訓(xùn)練方法、文本處理方法、模型訓(xùn)練裝置、文本處理裝置、電子設(shè)備、計算機(jī)可讀存儲介質(zhì)及計算機(jī)產(chǎn)品,可以提高文本的表達(dá)能力。
2、第一方面,本技術(shù)提供的模型訓(xùn)練方法,包括:
3、獲取多意圖文本,并對所述多意圖文本進(jìn)行切分,得到所述多意圖文本的第一子文本組;
4、通過第一單意圖識別模型,獲取所述多意圖文本的第一候選單意圖集;
5、通過所述第一單意圖識別模型,獲取所述第一子文本組中每個子文本的第二候選單意圖集;
6、根據(jù)所述第二候選單意圖集,確定所述第一子文本組的第一目標(biāo)單意圖集,所述第一目標(biāo)單意圖集包括所述第一子文本組中每個子文本對應(yīng)的第一目標(biāo)單意圖;
7、獲取初始文本合并模型,并將與所述第一候選單意圖集匹配的第一目標(biāo)單意圖集所對應(yīng)的第一子文本組作為第一訓(xùn)練樣本,將所述多意圖文本作為所述第一訓(xùn)練樣本對應(yīng)的第一標(biāo)簽,根據(jù)所述第一訓(xùn)練樣本和所述第一標(biāo)簽對所述初始文本合并模型進(jìn)行訓(xùn)練,得到目標(biāo)文本合并模型。
8、第二方面,本技術(shù)提供的文本處理方法,包括:
9、獲取對話意圖集,以及獲取所述對話意圖集對應(yīng)的應(yīng)答意圖集;
10、獲取所述應(yīng)答意圖集中每個應(yīng)答意圖對應(yīng)的單意圖應(yīng)答話術(shù)文本;
11、通過文本合并模型,對所述應(yīng)答意圖集所對應(yīng)的單意圖應(yīng)答話術(shù)文本進(jìn)行文本合并,得到所述應(yīng)答意圖集對應(yīng)的多意圖應(yīng)答話術(shù)文本;
12、將所述多意圖應(yīng)答話術(shù)文本與所述應(yīng)答意圖集關(guān)聯(lián)存儲至話術(shù)庫中;
13、其中,所述文本合并模型采用本技術(shù)提供的模型訓(xùn)練方法訓(xùn)練得到。
14、第三方面,本技術(shù)提供的模型訓(xùn)練裝置,包括:
15、文本獲取模塊,用于獲取多意圖文本,并對所述多意圖文本進(jìn)行切分,得到所述多意圖文本的第一子文本組;
16、第一單意圖識別模塊,用于通過第一單意圖識別模型,獲取所述多意圖文本的第一候選單意圖集;
17、第二單意圖識別模塊,用于通過所述第一單意圖識別模型,獲取所述第一子文本組中每個子文本的第二候選單意圖集;
18、目標(biāo)意圖識別模塊,用于根據(jù)所述第二候選單意圖集,確定所述第一子文本組的第一目標(biāo)單意圖集,所述第一目標(biāo)單意圖集包括所述第一子文本組中每個子文本對應(yīng)的第一目標(biāo)單意圖;
19、模型訓(xùn)練模塊,用于獲取初始文本合并模型,并將與所述第一候選單意圖集匹配的第一目標(biāo)單意圖集所對應(yīng)的第一子文本組作為第一訓(xùn)練樣本,將所述多意圖文本作為所述第一訓(xùn)練樣本對應(yīng)的第一標(biāo)簽,根據(jù)所述第一訓(xùn)練樣本和所述第一標(biāo)簽對所述初始文本合并模型進(jìn)行訓(xùn)練,得到目標(biāo)文本合并模型。
20、可選的,在一實施例中,模型訓(xùn)練模塊用于獲取多意圖文本的目標(biāo)標(biāo)點(diǎn)符號;以及將添加目標(biāo)標(biāo)點(diǎn)符號的多意圖文本作為第一訓(xùn)練樣本對應(yīng)的第一標(biāo)簽。
21、可選的,在一實施例中,模型訓(xùn)練模塊用于獲取第二單意圖識別模型和預(yù)訓(xùn)練語言模型;以及根據(jù)第二單意圖識別模型和預(yù)訓(xùn)練語言模型,構(gòu)建得到初始文本合并模型。
22、可選的,在一實施例中,模型訓(xùn)練模塊用于通過第二單意圖識別模型,獲取第一訓(xùn)練樣本中每個子文本的第三候選單意圖集;根據(jù)第三候選單意圖集,確定第一訓(xùn)練樣本中每個子文本的第二目標(biāo)單意圖,得到第一訓(xùn)練樣本的第二目標(biāo)單意圖集,第二目標(biāo)單意圖集包括每個第二目標(biāo)單意圖;根據(jù)目標(biāo)標(biāo)點(diǎn)符號,將第一標(biāo)簽拆分為第二子文本組;獲取表征第一訓(xùn)練樣本中非末尾子文本的第一文字索引,以及獲取表征第二子文本組中子文本的第二文字索引;將第一文字索引和第二目標(biāo)單意圖集作為第二訓(xùn)練樣本,將第二文字索引和目標(biāo)標(biāo)點(diǎn)符號作為第二訓(xùn)練樣本對應(yīng)的第二標(biāo)簽,根據(jù)第二訓(xùn)練樣本和第二標(biāo)簽對預(yù)訓(xùn)練語言模型進(jìn)行訓(xùn)練;以及根據(jù)訓(xùn)練后的預(yù)訓(xùn)練語言模型和第二單意圖識別模型,得到目標(biāo)文本合并模型。
23、可選的,在一實施例中,模型訓(xùn)練模塊用于通過預(yù)訓(xùn)練語言模型,對第二目標(biāo)單意圖集進(jìn)行去重處理,得到第二目標(biāo)單意圖序列;根據(jù)第二目標(biāo)單意圖序列和第一文字索引,通過預(yù)訓(xùn)練語言模型獲取第三文字索引,第三文字索引表征合并第一訓(xùn)練樣本中子文本所得到的預(yù)測合并文本中的子文本;根據(jù)第二目標(biāo)單意圖序列,通過預(yù)訓(xùn)練語言模型獲取第三文字索引對應(yīng)的預(yù)測標(biāo)點(diǎn)符號;根據(jù)預(yù)測標(biāo)點(diǎn)符號和目標(biāo)標(biāo)點(diǎn)符號的差異獲取第一損失,以及根據(jù)第三文字索引和第二文字索引的差異獲取第二損失;以及根據(jù)第一損失和第二損失,更新預(yù)訓(xùn)練語言模型的模型參數(shù)。
24、可選的,在一實施例中,模型訓(xùn)練模塊用于獲取第二目標(biāo)單意圖序列中每個第二目標(biāo)單意圖的意圖優(yōu)先級;獲取第二目標(biāo)單意圖序列中相鄰第二目標(biāo)單意圖之間的向量距離;以及根據(jù)意圖優(yōu)先級和向量距離,通過預(yù)訓(xùn)練語言模型獲取第三文字索引對應(yīng)的預(yù)測標(biāo)點(diǎn)符號。
25、可選的,在一實施例中,模型訓(xùn)練模塊還用于獲取單意圖文本,并通過第一單意圖識別模型,獲取單意圖文本的第四候選單意圖集;根據(jù)單意圖文本的第四候選單意圖集,確定單意圖文本的第三目標(biāo)單意圖;通過目標(biāo)文本合并模型,對多個單意圖文本進(jìn)行文本合并,得到多意圖合并文本;以及獲取初始多意圖識別模型,并將多意圖合并文本作為第三訓(xùn)練樣本,將所多意圖合并文本來源的多個單意圖文本的第三目標(biāo)單意圖作為第三標(biāo)簽,根據(jù)第三訓(xùn)練樣本和第三標(biāo)簽對初始多意圖識別模型進(jìn)行訓(xùn)練,得到目標(biāo)多意圖識別模型。
26、第四方面,本技術(shù)提供的文本處理裝置,包括:
27、意圖獲取模塊,用于獲取對話意圖集,以及獲取對話意圖集對應(yīng)的應(yīng)答意圖集;
28、話術(shù)獲取模塊,用于獲取應(yīng)答意圖集中每個應(yīng)答意圖對應(yīng)的單意圖應(yīng)答話術(shù)文本;
29、文本合并模塊,用于通過文本合并模型,對應(yīng)答意圖集所對應(yīng)的單意圖應(yīng)答話術(shù)文本進(jìn)行文本合并,得到應(yīng)答意圖集對應(yīng)的多意圖應(yīng)答話術(shù)文本;
30、話術(shù)維護(hù)模塊,用于將多意圖應(yīng)答話術(shù)文本與應(yīng)答意圖集關(guān)聯(lián)存儲至話術(shù)庫中;
31、其中,目標(biāo)文本合并模型采用本技術(shù)提供的模型訓(xùn)練方法訓(xùn)練得到。
32、可選的,在一實施例中,本技術(shù)提供的文本處理裝置還包括對話應(yīng)答模塊,用于獲取來自終端設(shè)備的需要應(yīng)答的當(dāng)前對話文本;通過目標(biāo)多意圖識別模型對當(dāng)前對話文本進(jìn)行多意圖識別,得到當(dāng)前對話文本的目標(biāo)對話意圖集;獲取目標(biāo)對話意圖集對應(yīng)的目標(biāo)應(yīng)答意圖集;從話術(shù)庫中確定出目標(biāo)應(yīng)答意圖集所關(guān)聯(lián)的第一目標(biāo)多意圖應(yīng)答話術(shù)文本;以及根據(jù)第一目標(biāo)多意圖應(yīng)答話術(shù)文本,向終端設(shè)備應(yīng)答當(dāng)前對話文本。
33、可選的,在一實施例中,對話應(yīng)答模塊用于接收來自終端設(shè)備的當(dāng)前對話音頻,并對當(dāng)前對話音頻進(jìn)行文本轉(zhuǎn)譯,得到需要應(yīng)答的當(dāng)前對話文本。
34、可選的,在一實施例中,對話應(yīng)答模塊用于根據(jù)第一目標(biāo)多意圖應(yīng)答話術(shù)文本進(jìn)行語音生成,得到第一目標(biāo)多意圖應(yīng)答話術(shù)文本對應(yīng)的目標(biāo)多意圖應(yīng)答話術(shù)音頻;以及將目標(biāo)多意圖應(yīng)答話術(shù)音頻返回至終端設(shè)備,目標(biāo)多意圖應(yīng)答話術(shù)音頻用于終端設(shè)備播放。
35、可選的,在一實施例中,用于若目標(biāo)對話意圖集中僅包括單一目標(biāo)對話意圖,則對話應(yīng)答模塊用于獲取單一目標(biāo)對話意圖對應(yīng)的單一目標(biāo)應(yīng)答意圖;從話術(shù)庫中確定出包括單一目標(biāo)應(yīng)答意圖的應(yīng)答意圖集所關(guān)聯(lián)的第二目標(biāo)多意圖應(yīng)答話術(shù)文本;以及根據(jù)第二目標(biāo)多意圖應(yīng)答話術(shù)文本,向終端設(shè)備應(yīng)答當(dāng)前對話文本。
36、第五方面,本技術(shù)提供的電子設(shè)備,包括存儲器和處理器,存儲器存儲有計算機(jī)程序,處理器用于運(yùn)行存儲器內(nèi)的計算機(jī)程序,實現(xiàn)本技術(shù)所提供的模型訓(xùn)練方法中的步驟,或者實現(xiàn)本技術(shù)所提供的文本處理方法中的步驟。
37、第六方面,本技術(shù)提供的計算機(jī)可讀存儲介質(zhì),存儲有計算機(jī)程序,該計算機(jī)程序適于處理器運(yùn)行,實現(xiàn)本技術(shù)所提供的模型訓(xùn)練方法中的步驟,或者實現(xiàn)本技術(shù)所提供的文本處理方法中的步驟。
38、第七方面,本技術(shù)提供的計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,該計算機(jī)程序適于處理器運(yùn)行,實現(xiàn)本技術(shù)所提供的模型訓(xùn)練方法中的步驟,或者實現(xiàn)本技術(shù)所提供的文本處理方法中的步驟。
39、本技術(shù)提供了一種基于人工智能,由其是基于自然語言處理的模型訓(xùn)練方案,其中獲取多意圖文本,并對多意圖文本進(jìn)行切分,得到多意圖文本的第一子文本組;通過第一單意圖識別模型,獲取多意圖文本的第一候選單意圖集;通過第一單意圖識別模型,獲取第一子文本組中每個子文本的第二候選單意圖集;根據(jù)第二候選單意圖集,確定第一子文本組的第一目標(biāo)單意圖集,第一目標(biāo)單意圖集包括第一子文本組中每個子文本對應(yīng)的第一目標(biāo)單意圖;獲取初始文本合并模型,并將與第一候選單意圖集匹配的第一目標(biāo)單意圖集所對應(yīng)的第一子文本組作為第一訓(xùn)練樣本,將多意圖文本作為第一訓(xùn)練樣本對應(yīng)的第一標(biāo)簽,根據(jù)第一訓(xùn)練樣本和第一標(biāo)簽對初始文本合并模型進(jìn)行訓(xùn)練,得到目標(biāo)文本合并模型。以此,通過自動化的將多意圖文本切分為第一子文本組,結(jié)合第一單意圖識別模型篩選出切分合理(第一子文本組的第一目標(biāo)單意圖集與多意圖文本的第一候選單意圖集匹配)的第一子文本組作為第一訓(xùn)練樣本,并將多意圖文本作為第一訓(xùn)練樣本的第一標(biāo)簽用于初始文本合并模型的訓(xùn)練,從而在無需人工標(biāo)注數(shù)據(jù)的情況下訓(xùn)練得到目標(biāo)文本合并模型,降低模型訓(xùn)練成本。將本技術(shù)所訓(xùn)練的目標(biāo)文本合并模型用于人機(jī)對話中時,能夠?qū)⒍鄠€單意圖的文本合并為一個多意圖的文本,從而獲得更加貼近現(xiàn)實表達(dá)的文本表達(dá),達(dá)到增強(qiáng)文本表達(dá)能力的目的。