本公開總體上涉及用于機(jī)器學(xué)習(xí)模型的結(jié)構(gòu)化模型間通信。更具體地,本公開涉及經(jīng)由基礎(chǔ)機(jī)器學(xué)習(xí)模型之間的結(jié)構(gòu)化模型間通信對多模態(tài)數(shù)據(jù)進(jìn)行上下文處理。
背景技術(shù):
1、基礎(chǔ)模型是在大規(guī)模的廣泛數(shù)據(jù)上訓(xùn)練的模型,并且適用于各種各樣的下游任務(wù)(例如,視覺語言模型(vlm)、大語言模型(lm)、音頻語言模型(alm)等)。最近,基礎(chǔ)模型已經(jīng)針對各種機(jī)器學(xué)習(xí)任務(wù)實(shí)現(xiàn)了令人印象深刻的能力。然而,這些能力取決于訓(xùn)練數(shù)據(jù)的分布,訓(xùn)練數(shù)據(jù)的分布通常跨領(lǐng)域有很大不同。例如,vlm通常在圖像和視頻字幕上進(jìn)行訓(xùn)練,而lm在其他數(shù)據(jù)的大語料庫(例如,電子表格、虛構(gòu)小說、標(biāo)準(zhǔn)化測試問題等)上進(jìn)行訓(xùn)練。
技術(shù)實(shí)現(xiàn)思路
1、本公開的實(shí)施例的各方面和優(yōu)點(diǎn)將在以下描述中部分地闡述,或者可從描述中學(xué)習(xí),或者可通過實(shí)施例的實(shí)踐來學(xué)習(xí)。
2、本公開的一個(gè)示例方面涉及一種用于經(jīng)由機(jī)器學(xué)習(xí)模型之間的模型間通信進(jìn)行上下文處理的計(jì)算機(jī)實(shí)現(xiàn)的方法。該方法包括由包括一個(gè)或多個(gè)計(jì)算裝置的計(jì)算系統(tǒng)獲得輸入數(shù)據(jù)。該方法包括由計(jì)算系統(tǒng)用兩個(gè)或更多個(gè)預(yù)訓(xùn)練模型來處理輸入數(shù)據(jù)以生成輸出數(shù)據(jù),其中處理輸入包括在兩個(gè)或更多個(gè)預(yù)訓(xùn)練模型之間執(zhí)行結(jié)構(gòu)化模型間通信模式。該方法包括由計(jì)算系統(tǒng)提供輸出數(shù)據(jù)作為輸出。
3、本公開的另一個(gè)示例方面涉及一種用于用基礎(chǔ)機(jī)器學(xué)習(xí)模型進(jìn)行上下文處理的計(jì)算系統(tǒng)。該計(jì)算系統(tǒng)包括一個(gè)或多個(gè)處理器。該計(jì)算系統(tǒng)包括一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),該一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)共同存儲指令,這些指令在由一個(gè)或多個(gè)處理器執(zhí)行時(shí)使該計(jì)算系統(tǒng)執(zhí)行操作。這些操作包括獲得輸入數(shù)據(jù)。這些操作包括用兩個(gè)或更多個(gè)預(yù)訓(xùn)練模型來處理輸入數(shù)據(jù)以生成輸出數(shù)據(jù),其中處理輸入包括在兩個(gè)或更多個(gè)預(yù)訓(xùn)練模型之間執(zhí)行結(jié)構(gòu)化模型間通信模式。這些操作包括提供輸出數(shù)據(jù)作為輸出。
4、本公開的另一個(gè)示例方面涉及一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),該一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)共同存儲指令,這些指令在由一個(gè)或多個(gè)計(jì)算裝置執(zhí)行時(shí)使一個(gè)或多個(gè)計(jì)算裝置執(zhí)行操作。這些操作包括獲得輸入數(shù)據(jù)。這些操作包括用兩個(gè)或更多個(gè)預(yù)訓(xùn)練模型來處理輸入數(shù)據(jù)以生成輸出數(shù)據(jù),其中處理輸入包括在兩個(gè)或更多個(gè)預(yù)訓(xùn)練模型之間執(zhí)行結(jié)構(gòu)化模型間通信模式結(jié)構(gòu)化對話。這些操作包括提供輸出數(shù)據(jù)作為輸出。
5、本公開的另一個(gè)示例方面涉及一種用于經(jīng)由機(jī)器學(xué)習(xí)模型之間的結(jié)構(gòu)化模型間通信進(jìn)行上下文處理的方法。該方法包括由包括一個(gè)或多個(gè)計(jì)算裝置的計(jì)算系統(tǒng)獲得輸入數(shù)據(jù)和上下文數(shù)據(jù)語料庫,其中輸入數(shù)據(jù)包括描述查詢的數(shù)據(jù),并且其中上下文數(shù)據(jù)語料庫包括多模態(tài)數(shù)據(jù)。該方法包括由計(jì)算系統(tǒng)用兩個(gè)或更多個(gè)預(yù)訓(xùn)練模型中的一者或多者來處理上下文數(shù)據(jù)語料庫,以獲得基于語言的上下文歷史,其中一個(gè)或多個(gè)預(yù)訓(xùn)練模型包括語言模型。
6、本公開的其他方面涉及各種系統(tǒng)、設(shè)備、非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)、用戶接口和電子裝置。
7、將參考以下描述和隨附權(quán)利要求更好地理解本公開的各種實(shí)施例的這些和其他特征、方面和優(yōu)點(diǎn)。并入本說明書中并且構(gòu)成本說明書的一部分的附圖示出了本公開的示例實(shí)施例,并且連同描述一起用于解釋相關(guān)原理。
1.一種用于經(jīng)由機(jī)器學(xué)習(xí)模型之間的結(jié)構(gòu)化模型間通信進(jìn)行上下文處理的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括:
2.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述方法還包括:
3.如權(quán)利要求2所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述上下文數(shù)據(jù)語料庫包括多模態(tài)數(shù)據(jù),所述多模態(tài)數(shù)據(jù)包括視頻數(shù)據(jù)、音頻數(shù)據(jù)和/或文本數(shù)據(jù)。
4.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述兩個(gè)或更多個(gè)預(yù)訓(xùn)練模型包括以下中的兩者或更多者:
5.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中:
6.如權(quán)利要求5所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中:
7.如權(quán)利要求4所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述輸入數(shù)據(jù)包括多模態(tài)數(shù)據(jù),所述多模態(tài)數(shù)據(jù)包括視頻數(shù)據(jù);并且
8.如權(quán)利要求7所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中:
9.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)現(xiàn)的方法,其中所述輸出包括零樣本處理輸出。
10.一種用于經(jīng)由預(yù)訓(xùn)練機(jī)器學(xué)習(xí)模型之間的模型間通信進(jìn)行上下文處理的計(jì)算系統(tǒng),所述計(jì)算系統(tǒng)包括:
11.一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),所述一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)共同存儲指令,所述指令在由一個(gè)或多個(gè)計(jì)算裝置執(zhí)行時(shí)使所述一個(gè)或多個(gè)計(jì)算裝置執(zhí)行操作,所述操作包括:
12.如權(quán)利要求11所述的一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),其中所述上下文數(shù)據(jù)語料庫包括多模態(tài)數(shù)據(jù),所述多模態(tài)數(shù)據(jù)包括視頻數(shù)據(jù)、音頻數(shù)據(jù)和/或文本數(shù)據(jù)。
13.如權(quán)利要求11所述的一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),其中所述兩個(gè)或更多個(gè)預(yù)訓(xùn)練模型包括以下中的兩者或更多者:
14.如權(quán)利要求11所述的一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),其中:
15.如權(quán)利要求14所述的一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),其中:
16.如權(quán)利要求13所述的一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),其中所述輸入數(shù)據(jù)包括多模態(tài)數(shù)據(jù),所述多模態(tài)數(shù)據(jù)包括視頻數(shù)據(jù);并且
17.如權(quán)利要求16所述的一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),其中:
18.如權(quán)利要求11所述的一個(gè)或多個(gè)非暫時(shí)性計(jì)算機(jī)可讀介質(zhì),其中所述輸出包括零樣本處理輸出。
19.一種用于經(jīng)由預(yù)訓(xùn)練機(jī)器學(xué)習(xí)模型之間的模型間通信進(jìn)行socratic上下文處理的方法,所述方法包括:
20.如權(quán)利要求19所述的方法,其中所述上下文數(shù)據(jù)語料庫包括視頻數(shù)據(jù)和對應(yīng)的音頻數(shù)據(jù);