對基于增強學習的對話管理的專家混合方法與流程

文檔序號：40445623發(fā)布日期：2024-12-24 15:20閱讀：15來源：國知局

本公開整體涉及用從多個專家模型輸出中選擇候選響應的對話管理模型來生成對話響應。更具體地，本公開涉及獲取會話歷史，用語言編碼模型、多個專家語言模型和對話管理模型來處理該會話歷史以生成對話響應。

背景技術(shù)：

1、語言模型的進步包括生成具有數(shù)十億個學習參數(shù)的大語言模型。盡管具有學習參數(shù)的大型語料庫，但語言模型不能在考慮會話歷史語義的情況下正確地生成響應。語言模型在對話管理方面可能遇到困難，并且在進行內(nèi)容豐富、參與性強的會話的能力方面也可能遇到困難。另外，大語言模型的處理和再訓練在計算上可能是昂貴的。

技術(shù)實現(xiàn)思路

1、本公開的實施例的各方面和優(yōu)點將部分地在以下描述中闡述，或者可從描述中學習，或者可通過實施例的實踐來學習。

2、本公開的一個示例方面涉及一種計算系統(tǒng)。該系統(tǒng)可包括一個或多個處理器以及共同存儲指令的一個或多個非暫時性計算機可讀介質(zhì)，這些指令在由該一個或多個處理器執(zhí)行時使計算系統(tǒng)執(zhí)行操作。這些操作可包括獲取輸入數(shù)據(jù)。輸入數(shù)據(jù)可包括描述會話的會話數(shù)據(jù)。這些操作可包括用編碼器模型來處理輸入數(shù)據(jù)以生成語言表示。在一些實現(xiàn)方式中，語言表示可包括與會話相關(guān)聯(lián)的潛在嵌入。編碼器模型可能已經(jīng)被訓練成將經(jīng)編碼會話映射到潛在分布。這些操作可包括用一個或多個機器學習語言模型來處理語言表示以生成一個或多個候選輸出。該一個或多個候選輸出可包括一個或多個候選話語。這些操作可包括用對話管理模型來處理該一個或多個候選輸出和語言表示以生成對話規(guī)劃數(shù)據(jù)。這些操作可包括基于對話規(guī)劃數(shù)據(jù)生成預測的對話響應。在一些實現(xiàn)方式中，預測的對話響應可包括與該一個或多個候選話語相關(guān)聯(lián)的一個或多個預測詞語。

3、在一些實現(xiàn)方式中，用該一個或多個機器學習語言模型來處理語言表示以生成該一個或多個候選輸出可包括用多個專家語言模型來處理語言表示以生成多個候選輸出。該多個候選輸出可與多個候選話語相關(guān)聯(lián)。預測的對話響應可包括與該多個候選輸出中的所選候選輸出相關(guān)聯(lián)的所選候選話語。所選候選輸出可由對話管理模型選擇。在一些實現(xiàn)方式中，該一個或多個機器學習語言模型可包括關(guān)于特定技能訓練的專家語言模型，使得該一個或多個候選話語指示該特定技能。對話管理模型可能已用增強學習進行訓練。增強學習可優(yōu)化針對完整會話的預測。預測的對話響應可包括預測的話語。預測的話語可響應于輸入數(shù)據(jù)。

4、在一些實現(xiàn)方式中，語言表示可描述會話的會話歷史的語義。會話歷史可包括多個交換的文本串。語言表示可與所學習潛在空間的潛在空間分布相關(guān)聯(lián)。在一些實現(xiàn)方式中，語言表示可與潛在空間的所學習分布相關(guān)聯(lián)。所學習分布可與特定情緒相關(guān)聯(lián)。在一些實現(xiàn)方式中，對話管理模型可被配置為：基于語言表示來確定會話意圖以及基于特定候選輸出與會話意圖相關(guān)聯(lián)來選擇該特定候選輸出。

5、本公開的另一個示例方面涉及一種計算機實現(xiàn)的方法。該方法可包括由包括一個或多個處理器的計算系統(tǒng)獲取會話數(shù)據(jù)。會話數(shù)據(jù)可描述會話歷史。該方法可包括由計算系統(tǒng)用語言編碼模型來處理會話數(shù)據(jù)以生成語言表示。語言表示可描述與會話歷史相關(guān)聯(lián)的語義。該方法可包括由計算系統(tǒng)用多個機器學習語言模型來處理語言表示以生成多個候選輸出。該多個機器學習語言模型可能已基于與潛在空間相關(guān)聯(lián)的所學習情緒分布進行訓練。該方法可包括由計算系統(tǒng)用對話管理模型來處理語言表示和該多個候選輸出以確定對話響應。

6、在一些實現(xiàn)方式中，該多個機器學習語言模型中的第一機器學習語言模型可能已針對第一技能進行訓練。該多個機器學習語言模型中的第二機器學習語言模型可能已針對第二技能進行訓練。對話管理模型可能已被訓練成至少部分地基于語言表示來選擇該多個候選輸出中的特定候選輸出。該多個機器學習語言模型可能已用基準真實訓練數(shù)據(jù)進行訓練。在一些實現(xiàn)方式中，語言編碼模型可包括隨機編碼器模型。隨機編碼器模型可包括編碼器和潛在空間分布。隨機編碼器模型可將詞元化會話歷史映射到潛在空間以生成參數(shù)化高斯分布。在一些實現(xiàn)方式中，該多個機器學習語言模型可包括與多種情感相關(guān)聯(lián)的多個專家模型。該多個機器學習語言模型可包括與多個任務相關(guān)聯(lián)的多個專家模型。

7、本公開的另一個示例方面涉及一個或多個非暫時性計算機可讀介質(zhì)，該一個或多個非暫時性計算機可讀介質(zhì)共同存儲指令，這些指令在由一個或多個計算裝置執(zhí)行時使該一個或多個計算裝置執(zhí)行操作。這些操作可包括獲取訓練數(shù)據(jù)。訓練數(shù)據(jù)可包括訓練會話數(shù)據(jù)。這些操作可包括用語言編碼模型來處理訓練會話數(shù)據(jù)以生成語言表示。這些操作可包括用多個機器學習語言模型來處理語言表示以生成多個候選話語。這些操作可包括用對話管理模型來處理該多個候選話語以確定預測的對話響應。這些操作可包括向用戶計算系統(tǒng)提供預測的對話響應以及從用戶計算系統(tǒng)接收另外的會話數(shù)據(jù)。該另外的會話數(shù)據(jù)可描述在預測的對話響應之后發(fā)生的會話。這些操作可包括基于另外的會話數(shù)據(jù)來調(diào)整對話管理模型的一個或多個參數(shù)。

8、在一些實現(xiàn)方式中，這些操作還可包括至少部分地基于另外的會話數(shù)據(jù)來確定滿意度數(shù)據(jù)。滿意度數(shù)據(jù)可描述對預測的對話響應的滿意度水平?？芍辽俨糠值鼗跁拝⑴c度來確定滿意度數(shù)據(jù)。這些操作可包括基于滿意度數(shù)據(jù)來調(diào)整對話管理模型的一個或多個參數(shù)。在一些實現(xiàn)方式中，訓練數(shù)據(jù)可包括一個或多個基準真實話語。這些操作還可包括評估損失函數(shù)，該損失函數(shù)評估該多個候選話語中的特定候選話語與該一個或多個基準真實話語之間的差異，以及至少部分地基于損失函數(shù)來調(diào)整該多個機器學習語言模型中的至少一者的一個或多個參數(shù)。語言編碼模型可包括變分自編碼器模型。在一些實現(xiàn)方式中，該多個機器學習語言模型可包括多個語言解碼器模型。語言表示可包括嵌入序列。

9、本公開的另一個示例方面涉及一種計算系統(tǒng)。該系統(tǒng)可包括一個或多個處理器以及共同存儲指令的一個或多個非暫時性計算機可讀介質(zhì)，這些指令在由該一個或多個處理器執(zhí)行時使計算系統(tǒng)執(zhí)行操作。這些操作可包括獲取序列數(shù)據(jù)。序列數(shù)據(jù)可描述序列。這些操作可包括用編碼模型來處理序列數(shù)據(jù)以生成編碼表示。編碼表示可描述序列的所確定語義。這些操作可包括用多個機器學習專家模型來處理編碼表示以生成多個候選輸出。該多個機器學習專家模型可與多個不同意圖相關(guān)聯(lián)。這些操作可包括用管理模型來處理該多個候選輸出和編碼表示以生成規(guī)劃數(shù)據(jù)以及基于規(guī)劃數(shù)據(jù)生成預測的輸出。預測的輸出可包括該多個候選輸出中的一個或多個候選輸出的至少一部分。

10、本公開的其他方面涉及各種系統(tǒng)、設備、非暫時性計算機可讀介質(zhì)、用戶接口和電子裝置。

11、將參考以下描述和隨附權(quán)利要求更好地理解本公開的各種實施例的這些和其他特征、方面和優(yōu)點。并入本說明書中并且構(gòu)成本說明書的一部分的附圖示出了本公開的示例實施例，并且連同描述一起用于解釋相關(guān)原理。

技術(shù)特征：

1.一種計算系統(tǒng)，所述系統(tǒng)包括：

2.如任一前述權(quán)利要求所述的系統(tǒng)，其中用所述一個或多個機器學習語言模型來處理所述語言表示以生成所述一個或多個候選輸出包括：

3.如任一前述權(quán)利要求所述的系統(tǒng)，其中所述一個或多個機器學習語言模型包括關(guān)于特定技能訓練的專家語言模型，使得所述一個或多個候選話語指示所述特定技能。

4.如任一前述權(quán)利要求所述的系統(tǒng)，其中所述對話管理模型用增強學習訓練，其中所述增強學習優(yōu)化針對完整會話的預測；并且

5.如任一前述權(quán)利要求所述的系統(tǒng)，其中所述語言表示描述所述會話的會話歷史的語義，其中所述會話歷史包括多個交換的文本串。

6.如任一前述權(quán)利要求所述的系統(tǒng)，其中所述語言表示與所學習潛在空間的潛在空間分布相關(guān)聯(lián)。

7.如任一前述權(quán)利要求所述的系統(tǒng)，其中所述語言表示與潛在空間的所學習分布相關(guān)聯(lián)，其中所述所學習分布與特定情緒相關(guān)聯(lián)。

8.如任一前述權(quán)利要求所述的系統(tǒng)，其中所述對話管理模型被配置為：

9.一種計算機實現(xiàn)的方法，所述方法包括：

10.如權(quán)利要求9所述的方法，其中所述多個機器學習語言模型中的第一機器學習語言模型已針對第一技能進行訓練，并且其中，所述多個機器學習語言模型中的第二機器學習語言模型已針對第二技能進行訓練。

11.如任一前述權(quán)利要求所述的方法，其中所述對話管理模型被訓練成至少部分地基于所述語言表示來選擇所述多個候選輸出中的特定候選輸出，并且其中所述多個機器學習語言模型用基準真實訓練數(shù)據(jù)進行訓練。

12.如任一前述權(quán)利要求所述的方法，其中所述語言編碼模型包括隨機編碼器模型，其中所述隨機編碼器模型包括編碼器和潛在空間分布，并且其中所述隨機編碼器模型將詞元化會話歷史映射到潛在空間以生成參數(shù)化高斯分布。

13.如任一前述權(quán)利要求所述的方法，其中所述多個機器學習語言模型包括與多種情感相關(guān)聯(lián)的多個專家模型。

14.如任一前述權(quán)利要求所述的方法，其中所述多個機器學習語言模型包括與多個任務相關(guān)聯(lián)的多個專家模型。

15.一個或多個非暫時性計算機可讀介質(zhì)，所述一個或多個非暫時性計算機可讀介質(zhì)共同存儲指令，所述指令在由一個或多個計算裝置執(zhí)行時使所述一個或多個計算裝置執(zhí)行操作，所述操作包括：

16.如權(quán)利要求15所述的一個或多個非暫時性計算機可讀介質(zhì)，其中所述操作進一步包括：

17.如任一前述權(quán)利要求所述的一個或多個非暫時性計算機可讀介質(zhì)，其中所述訓練數(shù)據(jù)包括一個或多個基準真實話語，并且其中所述操作進一步包括：

18.如任一前述權(quán)利要求所述的一個或多個非暫時性計算機可讀介質(zhì)，其中所述語言編碼模型包括變分自編碼器模型。

19.如任一前述權(quán)利要求所述的一個或多個非暫時性計算機可讀介質(zhì)，其中所述多個機器學習語言模型包括多個語言解碼器模型。

20.如任一前述權(quán)利要求所述的一個或多個非暫時性計算機可讀介質(zhì)，其中所述語言表示包括嵌入序列。

21.一種計算系統(tǒng)，所述系統(tǒng)包括：

技術(shù)總結(jié)
用于對話響應預測的系統(tǒng)和方法可利用多個機器學習語言模型來生成多個候選輸出，這些候選輸出可由對話管理模型來處理以確定預測的對話響應。該多個機器學習語言模型可包括針對不同意圖、情感和/或任務訓練的多個專家。所選特定候選輸出可由該對話管理模型基于根據(jù)語言表示確定的語義來選擇。該語言表示可以是通過處理會話的會話歷史以確定會話語義而生成的表示。

技術(shù)研發(fā)人員：Y·喬,A·圖列貝格諾夫,O·納楚姆
受保護的技術(shù)使用者：谷歌有限責任公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/23

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：Y·喬,A·圖列貝格諾夫,O·納楚姆
技術(shù)所有人：谷歌有限責任公司
我是此專利的發(fā)明人

上一篇：一種相容劑制作的擠出機進料裝置的制作方法
上一篇：一種直流限流熔斷器的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

對基于增強學習的對話管理的專家混合方法與流程