本公開涉及人工智能,尤其涉及一種基于大模型智能代理的任務處理方法、裝置和電子設備。
背景技術:
1、當處于企業(yè)內部辦公業(yè)務場景時,由于企業(yè)內部辦公存在多個辦公類應用程序,而且部分業(yè)務場景的完成需要跨越多個應用程序協(xié)同完成。目前一般的處理方式仍舊是需要員工在手機端或電腦端操作多個應用程序順序處理完成,存在著一定的不便利性。
技術實現(xiàn)思路
1、本公開提供一種基于大模型智能代理的任務處理方法、裝置和電子設備,用以解決無法自動對多個應用程序進行調用的問題。
2、為此,本公開的一個目的在于提出一種基于大模型智能代理的任務處理方法。
3、本公開的第二個目的在于提出一種基于大模型智能代理的任務處理裝置。
4、本公開的第三個目的在于提出一種電子設備。
5、本公開的第四個目的在于提出一種非瞬時計算機可讀存儲介質。
6、本公開的第五個目的在于提出一種計算機程序產品。
7、為達上述目的,本公開第一方面實施方式提出了一種基于大模型智能代理的任務處理方法,包括:獲取用戶的輸入信息,并基于所述輸入信息確定待處理任務的任務內容和任務類型;由目標大模型根據所述任務內容和所述任務類型,確定所述任務內容所關聯(lián)的一個或多個候選應用程序和所述候選應用程序的執(zhí)行時序;對所述候選應用程序按照所述執(zhí)行時序進行調用,針對調用到的目標應用程序,構造所述目標應用程序的提示信息和可擴展標記語言xml描述,并將所述提示信息、xml描述和所述目標應用程序的掩碼頁面圖像輸入所述目標大模型中,確定所述目標應用程序之間的目標交互過程,并調用所述目標應用程序執(zhí)行所述目標交互過程;響應于所述候選應用程序按照所述調度時序調用結束,得到所述待處理任務的任務結果。
8、根據本公開的一個實施方式,其特征在于,所述目標應用程序的xml描述的獲取過程,包括:基于所述任務內容,確定所述目標應用程序對應的任務子內容;獲取所述目標應用程序的第一頁面圖像和第二頁面圖像,其中,所述第一頁面圖像為所述目標應用程序起始頁面的圖像,所述第二圖像為所述目標應用程序執(zhí)行完所述任務子內容的結束頁面的圖像;根據所述第一頁面圖像和第二頁面圖像,獲取所述目標應用程序的交互元素,并基于所述交互元素確定所述目標應用程序的xml描述。
9、根據本公開的一個實施方式,所述根據所述第一頁面圖像和第二頁面圖像,獲取所述目標應用程序的交互元素,包括:對所述第一頁面圖像和所述第二頁面圖像進行解析,確定所述第一頁面圖像對應的第一候選頁面元素,以及所述第二頁面圖像對應的第二候選頁面元素;獲取所述第一候選頁面元素和所述第二候選頁面元素的屬性信息,并基于所述屬性信息,確定所述第一候選頁面元素和所述第二候選頁面元素中的交互元素。
10、根據本公開的一個實施方式,所述基于所述交互元素確定所述目標應用程序的xml描述,包括:確定第一頁面圖像和第二頁面圖像之間的時序關系;確定所述第一頁面圖像、所述第二頁面圖像和所述交互元素之間的對應關系;對所述第一頁面圖像和第二頁面圖像之間的時序關系以及所述對應關系進行結構化處理,得到所述目標應用程序的xml描述。
11、根據本公開的一個實施方式,所述確定所述第一頁面圖像、所述第二頁面圖像和所述交互元素之間的對應關系,包括:確定從所述第一頁面圖像跳轉至所述第二頁面圖像的路徑信息,所述路徑信息包括跳轉時使用的交互元素;對所述路徑信息進行監(jiān)聽,確定所述第一頁面圖像、所述第二頁面圖像和所述交互元素之間的對應關系。
12、根據本公開的一個實施方式,所述目標應用程序的提示信息獲取過程,包括:由所述目標大模型對所述目標應用程序的交互動作進行預測,得到所述目標應用程序的交互預測結果;基于所述執(zhí)行時序,確定前一調用的目標應用程序,并獲取所述前一調用的目標應用程序的歷史交互過程;基于所述交互預測結果和所述歷史交互過程,確定所述目標應用程序的提示信息。
13、根據本公開的一個實施方式,所述目標應用程序的掩碼頁面圖像獲取過程,包括:針對所述第一頁面圖像和所述第二頁面圖像中的任一頁面圖像,遍歷所述xml描述中的交互元素,并基于所述交互元素,對所述任一頁面圖像進行掩碼,得到所述掩碼頁面圖像。
14、根據本公開的一個實施方式,所述將所述提示信息、xml描述和所述目標應用程序的掩碼頁面圖像輸入所述目標大模型中,確定所述目標應用程序之間的目標交互過程,包括:由所述目標大模型根據所述提示信息,對所述xml描述進行解析,確定所述目標應用程序的交互邏輯;基于所述提示信息,對所述掩碼頁面圖像進行解析,確定所述目標應用程序的頁面布局信息,所述頁面布局信息包括交互元素的位置信息;基于所述交互邏輯和所述位置信息,確定所述目標應用程序對應的候選交互過程;獲取所述執(zhí)行時序中每個目標應用程序的候選交互過程,并根據所述候選交互過程,確定所述目標應用程序之間的目標交互過程。
15、根據本公開的一個實施方式,所述基于所述輸入信息確定待處理任務的任務內容和任務類型,包括:對所述輸入信息進行意圖識別,確定所述輸入信息中的無效信息,并對所述無效信息進行過濾,得到所述輸入信息中的有效信息;對所述有效信息進行任務識別,確定所述待處理任務的任務內容和任務類型。
16、根據本公開的一個實施方式,所述目標大模型的訓練過程,包括:確定樣本交互過程對應的多個樣本應用程序,以及每個樣本應用程序對應的樣本候選交互過程;基于所述樣本候選交互過程,對初始大模型進行訓練,直至訓練結束得到所述目標大模型。
17、根據本公開的一個實施方式,獲取所述樣本交互過程,包括:獲取所述樣本候選交互過程對應的樣本應用程序的第一樣本頁面圖像和第二樣本頁面圖像;根據所述第一樣本頁面圖像和所述第二樣本頁面圖像,獲取所述樣本應用程序的樣本交互元素,并基于所述樣本交互元素,確定所述樣本應用程序的樣本xml描述;針對所述第一樣本頁面圖像和所述第二樣本頁面圖像中的任一樣本頁面圖像,遍歷所述樣本xml描述中的樣本交互元素,并基于所述樣本交互元素,對所述任一樣本頁面圖像進行掩碼,得到樣本掩碼頁面圖像;基于所述樣本xml描述、所述樣本掩碼頁面圖像,確定所述樣本交互過程。
18、根據本公開的一個實施方式,所述基于所述樣本候選交互過程,對初始大模型進行訓練,直至訓練結束得到所述目標大模型,包括:對所述樣本應用程序執(zhí)行所述樣本候選交互過程,并將交互的過程進行封裝,得到樣本封裝結果;將所述樣本封裝結果輸入初始大模型中,由所述初始大模型對所述樣本封裝結果進行遍歷,獲取每個樣本候選交互過程的操作信息;基于所述操作信息生成訓練提示信息,并基于所述訓練提示信息對所述初始大模型進行訓練,得到訓練結果;根據所述訓練結果判斷是否繼續(xù)對所述初始大模型進行訓練,直至所述訓練結果滿足訓練結束條件,得到所述目標大模型。
19、為達上述目的,本公開第二方面實施例提出了一種基于大模型智能代理的任務處理裝置,包括:第一確定模塊,用于獲取用戶的輸入信息,并基于所述輸入信息確定待處理任務的任務內容和任務類型;第二確定模塊,用于由目標大模型根據所述任務內容和所述任務類型,確定所述任務內容所關聯(lián)的一個或多個候選應用程序和所述候選應用程序的執(zhí)行時序;第三確定模塊,用于對所述候選應用程序按照所述執(zhí)行時序進行調用,針對調用到的目標應用程序,構造所述目標應用程序的提示信息和可擴展標記語言xml描述,并將所述提示信息、xml描述和所述目標應用程序的掩碼頁面圖像輸入所述目標大模型中,確定所述目標應用程序之間的目標交互過程,并調用所述目標應用程序執(zhí)行所述目標交互過程;第四確定模塊,用于響應于所述候選應用程序按照所述執(zhí)行時序調用結束,得到所述待處理任務的任務結果。
20、根據本公開的一個實施方式,其特征在于,所述第三確定模塊,還用于:基于所述任務內容,確定所述目標應用程序對應的任務子內容;獲取所述目標應用程序的第一頁面圖像和第二頁面圖像,其中,所述第一頁面圖像為所述目標應用程序起始頁面的圖像,所述第二圖像為所述目標應用程序執(zhí)行完所述任務子內容的結束頁面的圖像;根據所述第一頁面圖像和第二頁面圖像,獲取所述目標應用程序的交互元素,并基于所述交互元素確定所述目標應用程序的xml描述。
21、根據本公開的一個實施方式,所述第三確定模塊,還用于:對所述第一頁面圖像和所述第二頁面圖像進行解析,確定所述第一頁面圖像對應的第一候選頁面元素,以及所述第二頁面圖像對應的第二候選頁面元素;獲取所述第一候選頁面元素和所述第二候選頁面元素的屬性信息,并基于所述屬性信息,確定所述第一候選頁面元素和所述第二候選頁面元素中的交互元素。
22、根據本公開的一個實施方式,所述第三確定模塊,還用于:確定第一頁面圖像和第二頁面圖像之間的時序關系;確定所述第一頁面圖像、所述第二頁面圖像和所述交互元素之間的對應關系;對所述第一頁面圖像和第二頁面圖像之間的時序關系以及所述對應關系進行結構化處理,得到所述目標應用程序的xml描述。
23、根據本公開的一個實施方式,所述第三確定模塊,還用于:確定從所述第一頁面圖像跳轉至所述第二頁面圖像的路徑信息,所述路徑信息包括跳轉時使用的交互元素;對所述路徑信息進行監(jiān)聽,確定所述第一頁面圖像、所述第二頁面圖像和所述交互元素之間的對應關系。
24、根據本公開的一個實施方式,所述第三確定模塊,還用于:由所述目標大模型對所述目標應用程序的交互動作進行預測,得到所述目標應用程序的交互預測結果;基于所述執(zhí)行時序,確定前一調用的目標應用程序,并獲取所述前一調用的目標應用程序的歷史交互過程;基于所述交互預測結果和所述歷史交互過程,確定所述目標應用程序的提示信息。
25、根據本公開的一個實施方式,所述第三確定模塊,還用于:針對所述第一頁面圖像和所述第二頁面圖像中的任一頁面圖像,遍歷所述xml描述中的交互元素,并基于所述交互元素,對所述任一頁面圖像進行掩碼,得到所述掩碼頁面圖像。
26、根據本公開的一個實施方式,所述第三確定模塊,還用于:由所述目標大模型根據所述提示信息,對所述xml描述進行解析,確定所述目標應用程序的交互邏輯;基于所述提示信息,對所述掩碼頁面圖像進行解析,確定所述目標應用程序的頁面布局信息,所述頁面布局信息包括交互元素的位置信息;基于所述交互邏輯和所述位置信息,確定所述目標應用程序對應的候選交互過程;獲取所述執(zhí)行時序中每個目標應用程序的候選交互過程,并根據所述候選交互過程,確定所述目標應用程序之間的目標交互過程。
27、根據本公開的一個實施方式,所述第一確定模塊,還用于:對所述輸入信息進行意圖識別,確定所述輸入信息中的無效信息,并對所述無效信息進行過濾,得到所述輸入信息中的有效信息;對所述有效信息進行任務識別,確定所述待處理任務的任務內容和任務類型。
28、根據本公開的一個實施方式,所述第三確定模塊,還用于:確定樣本交互過程對應的多個樣本應用程序,以及每個樣本應用程序對應的樣本候選交互過程;基于所述樣本候選交互過程,對初始大模型進行訓練,直至訓練結束得到所述目標大模型。
29、根據本公開的一個實施方式,所述第三確定模塊,還用于:獲取所述樣本候選交互過程對應的樣本應用程序的第一樣本頁面圖像和第二樣本頁面圖像;根據所述第一樣本頁面圖像和所述第二樣本頁面圖像,獲取所述樣本應用程序的樣本交互元素,并基于所述樣本交互元素,確定所述樣本應用程序的樣本xml描述;針對所述第一樣本頁面圖像和所述第二樣本頁面圖像中的任一樣本頁面圖像,遍歷所述樣本xml描述中的樣本交互元素,并基于所述樣本交互元素,對所述任一樣本頁面圖像進行掩碼,得到樣本掩碼頁面圖像;基于所述樣本xml描述、所述樣本掩碼頁面圖像,確定所述樣本交互過程。
30、根據本公開的一個實施方式,所述第三確定模塊,還用于:對所述樣本應用程序執(zhí)行所述樣本候選交互過程,并將交互的過程進行封裝,得到樣本封裝結果;將所述樣本封裝結果輸入初始大模型中,由所述初始大模型對所述樣本封裝結果進行遍歷,獲取每個樣本候選交互過程的操作信息;基于所述操作信息生成訓練提示信息,并基于所述訓練提示信息對所述初始大模型進行訓練,得到訓練結果;根據所述訓練結果判斷是否繼續(xù)對所述初始大模型進行訓練,直至所述訓練結果滿足訓練結束條件,得到所述目標大模型。
31、為達上述目的,本公開第三方面實施例提出了一種電子設備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以實現(xiàn)如本公開第一方面實施例所述的基于大模型智能代理的任務處理方法。
32、為達上述目的,本公開第四方面實施例提出了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,所述計算機指令用于實現(xiàn)如本公開第一方面實施例所述的基于大模型智能代理的任務處理方法。
33、為達上述目的,本公開第五方面實施例提出了一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時用于實現(xiàn)如本公開第一方面實施例所述的基于大模型智能代理的任務處理方法。