本公開涉及人工智能,尤其涉及智能體和大語言模型等,具體涉及智能體評估方法、裝置、電子設(shè)備、智能體以及存儲介質(zhì)。
背景技術(shù):
1、在商家智能體投放業(yè)務(wù)中,智能體的評估效果受到真實(shí)對話樣本稀缺的限制,導(dǎo)致其評估結(jié)論的置信度受限、評估難度高及評估成本高。真實(shí)對話樣本少成為制約智能體業(yè)務(wù)進(jìn)一步發(fā)展的瓶頸。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了一種用于智能體評估的方法、裝置、電子設(shè)備、智能體以及存儲介質(zhì)。
2、根據(jù)本公開的一方面,提供了一種智能體評估方法,包括:調(diào)用第一智能體和第二智能體執(zhí)行仿真任務(wù),得到對話數(shù)據(jù),仿真任務(wù)用于多個第一對象與第二智能體生成的第二對象進(jìn)行至少一次仿真對話,多個第一對象是第一智能體生成的且具有不同對話風(fēng)格;將對話數(shù)據(jù)輸入第三智能體的至少一個評估大模型,得到目標(biāo)對話特征,以及基于目標(biāo)對話特征輸出對第二智能體的評估結(jié)果。
3、根據(jù)本公開的另一方面,提供了一種智能體評估裝置,包括:調(diào)用模塊,用于調(diào)用第一智能體和第二智能體執(zhí)行仿真任務(wù),得到對話數(shù)據(jù),仿真任務(wù)用于多個第一對象與第二智能體生成的第二對象進(jìn)行至少一次仿真對話,多個第一對象是第一智能體生成的且具有不同對話風(fēng)格;評估模塊,用于將對話數(shù)據(jù)輸入第三智能體的至少一個評估大模型,得到目標(biāo)對話特征,以及基于目標(biāo)對話特征輸出對第二智能體的評估結(jié)果。
4、根據(jù)本公開的另一方面,提供了一種人工智能的智能體,被配置為執(zhí)行本公開實(shí)施例提供的方法。
5、根據(jù)本公開的另一方面,提供了一種電子設(shè)備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,指令被至少一個處理器執(zhí)行,以使至少一個處理器能夠執(zhí)行如上的方法。
6、根據(jù)本公開的另一方面,提供了一種存儲有計算機(jī)指令的非瞬時計算機(jī)可讀存儲介質(zhì),其中,計算機(jī)指令用于使計算機(jī)執(zhí)行如上的方法。
7、根據(jù)本公開的另一方面,提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,計算機(jī)程序在被處理器執(zhí)行時實(shí)現(xiàn)如上的方法。
8、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種智能體評估方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述仿真任務(wù)包括多個任務(wù)數(shù)據(jù),每個所述任務(wù)數(shù)據(jù)均包括用于配置所述第一智能體生成第一對象的第一畫像信息和用于配置所述第二智能體生成第二對象的第二畫像信息;
3.根據(jù)權(quán)利要求2所述的方法,其中,所述調(diào)用所述第一智能體和所述第二智能體執(zhí)行仿真任務(wù),得到對話數(shù)據(jù)包括:
4.根據(jù)權(quán)利要求3所述的方法,其中,所述第一智能體根據(jù)所述第一畫像信息生成第一對象,所述第二智能體根據(jù)所述第二畫像信息生成第二對象包括:
5.根據(jù)權(quán)利要求4所述的方法,其中,所述基于所述第一智能體和所述第二智能體進(jìn)行所述多個第一對象與所述第二對象的對話,得到所述對話數(shù)據(jù)包括:
6.根據(jù)權(quán)利要求5所述的方法,其中,所述基于所述第二智能體生成第二對象的第二發(fā)言包括:
7.根據(jù)權(quán)利要求1所述的方法,其中,所述評估大模型包括主題評估大模型,所述將所述對話數(shù)據(jù)輸入第三智能體的至少一個評估大模型提取目標(biāo)對話特征,以及基于所述目標(biāo)對話特征輸出對所述第二智能體的評估結(jié)果包括:
8.根據(jù)權(quán)利要求1所述的方法,其中,所述評估大模型包括匹配評估大模型,所述將所述對話數(shù)據(jù)輸入第三智能體的至少一個評估大模型提取目標(biāo)對話特征,以及基于所述目標(biāo)對話特征輸出對所述第二智能體的評估結(jié)果包括:
9.根據(jù)權(quán)利要求1所述的方法,其中,所述評估大模型包括評價評估模型,所述將所述對話數(shù)據(jù)輸入第三智能體的至少一個評估大模型提取目標(biāo)對話特征,以及基于所述目標(biāo)對話特征輸出對所述第二智能體的評估結(jié)果包括:
10.根據(jù)權(quán)利要求1-9中任一項(xiàng)所述的方法,還包括重復(fù)執(zhí)行以下操作,直到所述評估結(jié)果符合預(yù)設(shè)條件:
11.根據(jù)權(quán)利要求10所述的方法,當(dāng)所述第二智能體的評估結(jié)果符合所述預(yù)設(shè)條件后,所述方法還包括:
12.根據(jù)權(quán)利要求1所述的方法,還包括:
13.一種智能體評估裝置,包括:
14.根據(jù)權(quán)利要求13所述的裝置,其中,所述仿真任務(wù)包括多個任務(wù)數(shù)據(jù),每個所述任務(wù)數(shù)據(jù)均包括用于配置所述第一智能體生成第一對象的第一畫像信息和用于配置所述第二智能體生成第二對象的第二畫像信息;
15.根據(jù)權(quán)利要求14所述的裝置,其中,所述調(diào)用模塊包括:
16.根據(jù)權(quán)利要求15所述的裝置,其中,所述對象生成子模塊包括:
17.根據(jù)權(quán)利要求16所述的裝置,其中,所述第一數(shù)據(jù)生成子模塊包括:
18.根據(jù)權(quán)利要求17所述的裝置,其中,所述第二數(shù)據(jù)生成單元包括:
19.根據(jù)權(quán)利要求13所述的裝置,其中,所述評估大模型包括主題評估大模型,所述評估模塊包括:
20.根據(jù)權(quán)利要求13所述的裝置,其中,所述評估大模型包括匹配評估大模型,所評估模塊包括:
21.根據(jù)權(quán)利要求13所述的裝置,其中,所述評估大模型包括評價評估模型,所述評估模塊包括:
22.根據(jù)權(quán)利要求13-21所述的裝置,還包括調(diào)整模塊,用于重復(fù)調(diào)整所述第二智能體,直到所述評估結(jié)果符合預(yù)設(shè)條件,所述調(diào)整模塊包括:
23.根據(jù)權(quán)利要求13所述的裝置,其中,還包括應(yīng)用模塊,用于當(dāng)所述第二智能體的評估結(jié)果符合所述預(yù)設(shè)條件后,基于所述第二智能體執(zhí)行對話任務(wù),所述對話任務(wù)用于基于所述第二智能體生成第二對象,基于所述第二對象與多個真實(shí)第一對象進(jìn)行至少一次實(shí)時對話,所述應(yīng)用模塊包括:
24.根據(jù)權(quán)利要求13所述的裝置,還包括交互模塊,用于在交互界面輸出所述對話數(shù)據(jù);以及響應(yīng)于所述至少一個評估大模型輸出對所述第二智能體的評估結(jié)果,在所述交互界面輸出所述評估結(jié)果。
25.一種智能體,被配置為執(zhí)行根據(jù)權(quán)利要求1-12中任一項(xiàng)所述的方法。
26.一種電子設(shè)備,包括:
27.一種存儲有計算機(jī)指令的非瞬時計算機(jī)可讀存儲介質(zhì),其中,所述計算機(jī)指令用于使所述計算機(jī)執(zhí)行根據(jù)權(quán)利要求1-12中任一項(xiàng)所述的方法。
28.一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序在被處理器執(zhí)行時實(shí)現(xiàn)根據(jù)權(quán)利要求1-12中任一項(xiàng)所述的方法。