本技術(shù)實(shí)施例涉及人工智能,尤其涉及一種文本處理方法、裝置、存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、近年來(lái),語(yǔ)言大模型成為了自然語(yǔ)言處理研究界與人工智能產(chǎn)業(yè)界的重點(diǎn)關(guān)注話(huà)題,其突出的語(yǔ)言理解與生成能力使眾多研究者意識(shí)到當(dāng)今的人工智能的發(fā)展正在步入通用人工智能時(shí)代。而多語(yǔ)言能力則是語(yǔ)言大模型在發(fā)展過(guò)程中不可忽視的方向之一。面向多語(yǔ)言的大模型不僅需要具備在多種語(yǔ)言上具有強(qiáng)悍的性能表現(xiàn),而且還要具備強(qiáng)勁的跨語(yǔ)言理解與生成能力。然而針對(duì)不同語(yǔ)言可獲取的訓(xùn)練數(shù)據(jù)在數(shù)量、質(zhì)量以及領(lǐng)域等方面都有著很大的差異,這使得多語(yǔ)言大模型系統(tǒng)的建立并非一蹴而就。
2、目前,一方面,可以基于單語(yǔ)或少量語(yǔ)言的大模型進(jìn)行多語(yǔ)言擴(kuò)展,一般采用的語(yǔ)言擴(kuò)展方法需要對(duì)詞表進(jìn)行擴(kuò)展再對(duì)模型繼續(xù)預(yù)訓(xùn)練,在該過(guò)程中,不但需要收集待擴(kuò)展語(yǔ)種的數(shù)據(jù),還需要采樣原語(yǔ)言數(shù)據(jù)與待擴(kuò)展數(shù)據(jù)進(jìn)行配比。然而,即使這樣也未必能做到很好地支持新語(yǔ)言的同時(shí)避免嚴(yán)重的災(zāi)難性遺忘,另一方面,可以直接構(gòu)建多語(yǔ)言大模型,在此情況下,需要準(zhǔn)備大規(guī)模的多語(yǔ)言訓(xùn)練數(shù)據(jù),然而所面臨的困境是面向不同語(yǔ)言所收集的數(shù)據(jù)難以做到數(shù)量、質(zhì)量和領(lǐng)域等方面的統(tǒng)一,不同語(yǔ)言數(shù)據(jù)的篩選、清洗、和預(yù)處理策略也會(huì)有所不同,對(duì)人力需求的要求也會(huì)隨語(yǔ)言的稀缺程度而增加。這使得不同語(yǔ)言的數(shù)據(jù)需經(jīng)過(guò)不同的迭代次數(shù)才能達(dá)到較好的質(zhì)量,這就使得模型的迭代成本大幅度增加,因此直接構(gòu)建多語(yǔ)言大模型是一件極其費(fèi)時(shí)費(fèi)力的工作。
3、基于上述內(nèi)容可知,目前的多語(yǔ)言大模型數(shù)據(jù)構(gòu)建難度大,并且對(duì)不同語(yǔ)言文本的處理所表現(xiàn)出的性能良莠不齊。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供一種文本處理方法、裝置、存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品,采用模型集成的方式將具備不同語(yǔ)言文本處理能力的不同語(yǔ)言模型整合,利用集成模型進(jìn)行文本處理,不僅能夠節(jié)約大量的計(jì)算資源、充分利用已有語(yǔ)言模型,而且對(duì)不同語(yǔ)言文本的處理均表現(xiàn)出良好的性能。
2、本技術(shù)實(shí)施例的技術(shù)方案是這樣實(shí)現(xiàn)的:
3、本技術(shù)實(shí)施例提供了一種文本處理方法,包括:
4、利用路由器將結(jié)構(gòu)相同、具備不同語(yǔ)言文本處理能力的不同語(yǔ)言模型集成,得到集成模型;每個(gè)語(yǔ)言模型各自包括級(jí)聯(lián)的詞表、詞嵌入層、注意力層、前向?qū)雍蜕善鳎雎酚善鬟B接于不同語(yǔ)言模型的前向?qū)优c注意力層之間;
5、將待處理文本分別輸入所述集成模型中的每個(gè)語(yǔ)言模型,在每個(gè)語(yǔ)言模型進(jìn)行文本處理過(guò)程中,通過(guò)所述路由器從所連接的各個(gè)前向?qū)又袨槊總€(gè)語(yǔ)言模型的注意力層產(chǎn)生的隱層狀態(tài)分配前向?qū)?,以進(jìn)行前向計(jì)算。
6、在上述方法中,所述通過(guò)所述路由器從所連接的各個(gè)前向?qū)又袨槊總€(gè)語(yǔ)言模型的注意力層產(chǎn)生的隱層狀態(tài)分配前向?qū)?,包括?/p>
7、通過(guò)所述路由器,計(jì)算第一隱層狀態(tài)分配到所連接的各個(gè)前向?qū)拥母怕手担?/p>
8、以及,按照概率值從大到小的順序?qū)η跋驅(qū)优判?,為所述第一隱層狀態(tài)分配前k個(gè)前向?qū)佑糜诜謩e進(jìn)行前向計(jì)算;
9、其中,k為大于或者等于1的自然數(shù),所述第一隱層狀態(tài)為任一語(yǔ)言模型的注意力層產(chǎn)生的隱層狀態(tài)。
10、在上述方法中,所述集成模型還包括收集器,所述收集器連接于不同語(yǔ)言模型的前向?qū)优c生成器之間,所述方法還包括:
11、在每個(gè)語(yǔ)言模型進(jìn)行文本處理過(guò)程中,通過(guò)所述收集器,收集整理每個(gè)語(yǔ)言模型的注意力層產(chǎn)生的隱層狀態(tài)的前向計(jì)算結(jié)果,并傳遞至同一語(yǔ)言模型的下一結(jié)構(gòu)。
12、在上述方法中,所述集成模型中,所述路由器與不同語(yǔ)言模型的前向?qū)又g連接有不同的適配器,所述收集器與不同語(yǔ)言模型的生成器之間分別連接有不同的還原器,所述方法還包括:
13、在每個(gè)語(yǔ)言模型進(jìn)行文本處理過(guò)程中,通過(guò)每個(gè)適配器將經(jīng)過(guò)的隱層狀態(tài)與相連的前向?qū)舆m配,并通過(guò)每個(gè)還原器將經(jīng)過(guò)的前向計(jì)算結(jié)果進(jìn)行適配還原。
14、在上述方法中,所述集成模型還包括評(píng)分模型,所述評(píng)分模型與集成模型中每個(gè)語(yǔ)言模型的生成器連接,所述方法還包括:
15、通過(guò)所述評(píng)分模型,對(duì)每個(gè)語(yǔ)言模型的生成器產(chǎn)生的所述待處理文本的文本處理結(jié)果進(jìn)行評(píng)分,并輸出評(píng)分最高的文本處理結(jié)果。
16、在上述方法中,還包括:
17、通過(guò)所述評(píng)分模型,為每個(gè)語(yǔ)言模型基于各自生成器產(chǎn)生的所述待處理文本的文本處理結(jié)果的評(píng)分,設(shè)置對(duì)應(yīng)的優(yōu)化權(quán)重,以用于確定所述集成模型的損失函數(shù);
18、其中,所述集成模型的模型損失函數(shù)為不同語(yǔ)言模型的損失函數(shù)與對(duì)應(yīng)優(yōu)化權(quán)重的加權(quán)求和結(jié)果。
19、在上述方法中,還包括:
20、采用控制變量法,分別配置所述集成模型中所述路由器、每個(gè)適配器和每個(gè)還原器的參數(shù);
21、在配置參數(shù)之后,訓(xùn)練所述集成模型,并在訓(xùn)練過(guò)程中保持所述集成模型中每個(gè)語(yǔ)言模型的參數(shù)不變,優(yōu)化所述路由器、每個(gè)適配器和每個(gè)還原器的參數(shù)。
22、在上述方法中,所述采用控制變量法,分別確定所述集成模型中所述路由器、每個(gè)適配器和每個(gè)還原器的參數(shù),包括:
23、在所述集成模型中將每個(gè)適配器和每個(gè)還原器移除后,將所述路由器的參數(shù)作為變量,同時(shí)保持每個(gè)語(yǔ)言模型的參數(shù)不變,對(duì)樣本文本進(jìn)行文本處理,為所述路由器配置樣本文本的處理結(jié)果最優(yōu)時(shí)的參數(shù);
24、在完成所述路由器參數(shù)配置之后,在所述集成模型重新加入每個(gè)適配器和每個(gè)還原器,將每個(gè)適配器和每個(gè)還原器的參數(shù)作為變量,同時(shí)保持每個(gè)語(yǔ)言模型和所述路由器的參數(shù)不變,對(duì)樣本文本進(jìn)行文本處理,為每個(gè)適配器和每個(gè)還原器配置樣本文本的處理結(jié)果最優(yōu)時(shí)的參數(shù)。
25、本技術(shù)實(shí)施例提供了一種文本處理裝置,包括:
26、模型集成模塊,用于利用路由器將結(jié)構(gòu)相同、具備不同語(yǔ)言文本處理能力的不同語(yǔ)言模型集成,得到集成模型;每個(gè)語(yǔ)言模型各自包括級(jí)聯(lián)的詞表、詞嵌入層、注意力層、前向?qū)雍蜕善?,所述路由器連接于不同語(yǔ)言模型的前向?qū)优c注意力層之間;
27、文本處理模塊,用于將待處理文本分別輸入所述集成模型中的每個(gè)語(yǔ)言模型;在每個(gè)語(yǔ)言模型進(jìn)行文本處理過(guò)程中,所述路由器用于從所連接的各個(gè)前向?qū)又袨槊總€(gè)語(yǔ)言模型的注意力層產(chǎn)生的隱層狀態(tài)分配前向?qū)?,以進(jìn)行前向計(jì)算。
28、本技術(shù)實(shí)施例提供了一種文本處理裝置,包括:處理器、存儲(chǔ)器和通信總線(xiàn);
29、所述通信總線(xiàn),用于實(shí)現(xiàn)所述處理器和所述存儲(chǔ)器之間的通信連接;
30、所述處理器,用于執(zhí)行所述存儲(chǔ)器存儲(chǔ)的一個(gè)或者多個(gè)計(jì)算機(jī)程序,以實(shí)現(xiàn)上述文本處理方法。
31、本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述文本處理方法。
32、本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被執(zhí)行時(shí)實(shí)現(xiàn)上述文本處理方法。
33、本技術(shù)實(shí)施例提供一種文本處理方法、裝置、存儲(chǔ)介質(zhì)及計(jì)算機(jī)程序產(chǎn)品,方法包括:利用路由器將結(jié)構(gòu)相同、具備不同語(yǔ)言文本處理能力的不同語(yǔ)言模型集成,得到集成模型;每個(gè)語(yǔ)言模型各自包括級(jí)聯(lián)的詞表、詞嵌入層、注意力層、前向?qū)雍蜕善?,路由器連接于不同語(yǔ)言模型的前向?qū)优c注意力層之間;將待處理文本分別輸入集成模型中的每個(gè)語(yǔ)言模型,在每個(gè)語(yǔ)言模型進(jìn)行文本處理過(guò)程中,通過(guò)路由器從所連接的各個(gè)前向?qū)又袨槊總€(gè)語(yǔ)言模型的注意力層產(chǎn)生的隱層狀態(tài)分配前向?qū)?,以進(jìn)行前向計(jì)算。本技術(shù)實(shí)施例提供的技術(shù)方案,采用模型集成的方式將具備不同語(yǔ)言文本處理能力的不同語(yǔ)言模型整合,利用集成模型進(jìn)行文本處理,不僅能夠節(jié)約大量的計(jì)算資源、充分利用已有語(yǔ)言模型,而且對(duì)不同語(yǔ)言文本的處理均表現(xiàn)出良好的性能。