本技術(shù)涉及自然語言處理,具體涉及用于多任務(wù)大語言模型的數(shù)據(jù)整理方法及系統(tǒng)。
背景技術(shù):
1、多任務(wù)大語言模型是指能夠處理多個(gè)不同自然語言處理任務(wù)的通用性自然語言模型,通過利用多種任務(wù)類型數(shù)據(jù)集進(jìn)行訓(xùn)練,使大語言模型適用于多種任務(wù)類型。多任務(wù)大語言模型能夠靈活地應(yīng)用于不同的自然語言處理任務(wù),也能夠擴(kuò)展到更大的規(guī)模,處理更復(fù)雜的任務(wù)。多任務(wù)大語言模型需要處理多種不同的任務(wù),包括文本分類,命名實(shí)體識(shí)別、文本生成、機(jī)器翻譯等任務(wù)。對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行關(guān)鍵詞提取的數(shù)據(jù)整理,有助于訓(xùn)練集數(shù)據(jù)的分類和快速檢索,也能夠說明模型在不同任務(wù)之間共享訓(xùn)練集數(shù)據(jù),提高多任務(wù)大語言模型處理的流暢度。
2、根據(jù)任務(wù)需求、處理目的以及應(yīng)用場(chǎng)景的不同,往往需要對(duì)獲取的樣本進(jìn)行不同的處理構(gòu)建特定訓(xùn)練集訓(xùn)練適用性較好的大語言模型。多個(gè)適應(yīng)性較好的大語言模型能夠部署到一個(gè)定制平臺(tái)中形成能夠針對(duì)不同應(yīng)用場(chǎng)景的、可定制化的多任務(wù)大模型系統(tǒng),并能夠提供軟件運(yùn)營服務(wù)saas,使得用戶能夠通過網(wǎng)絡(luò)連接使用基于大模型的應(yīng)用程度。
3、現(xiàn)階段,在訓(xùn)練適用不同應(yīng)用場(chǎng)景的大語言模型時(shí),先利用大量的多任務(wù)數(shù)據(jù)訓(xùn)練通用性的大語言模型作為初始模型,其次利用初始模型的訓(xùn)練數(shù)據(jù)去微調(diào)特定訓(xùn)練集訓(xùn)練的大語言模型,減少每個(gè)應(yīng)用場(chǎng)景下大語言模型的訓(xùn)練時(shí)間,提高對(duì)應(yīng)用場(chǎng)景的適用性。而在模型訓(xùn)練、微調(diào)過程中,訓(xùn)練集的質(zhì)量尤為重要,對(duì)獲取樣本的整理是構(gòu)建大語言模型的關(guān)鍵環(huán)節(jié)。在自然語言處理任務(wù)中,為了提高樣本精度、減少模型訓(xùn)練時(shí)間,通常是對(duì)文本數(shù)據(jù)進(jìn)行關(guān)鍵詞抽取,利用關(guān)鍵詞的整理結(jié)果構(gòu)建高質(zhì)量的訓(xùn)練集?;趖f-idf的關(guān)鍵詞提取算法簡(jiǎn)單易實(shí)現(xiàn),對(duì)于大規(guī)模訓(xùn)練集處理速度快,但是需要手動(dòng)定義和過濾無用詞,也無法捕捉分詞與分詞之間的關(guān)系。對(duì)一些場(chǎng)景下自然語言任務(wù)獲取文本中關(guān)鍵詞的提取效果較差,無法通過上下文理解文本情感表達(dá)提取真正有用的關(guān)鍵詞,從而造成多任務(wù)大語言模型訓(xùn)練數(shù)據(jù)微調(diào)模型的效果較差,進(jìn)而導(dǎo)致多個(gè)大語言模型形成的多任務(wù)大模型系統(tǒng)的可用性較差。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題,本技術(shù)的目的在于提供用于多任務(wù)大語言模型的數(shù)據(jù)整理方法及系統(tǒng),所采用的技術(shù)方案具體如下:
2、第一方面,本技術(shù)實(shí)施例提供了用于多任務(wù)大語言模型的數(shù)據(jù)整理方法,該方法包括以下步驟:
3、獲取多任務(wù)的初始樣本集,所述初始樣本集中包含大量的樣本;
4、根據(jù)任務(wù)要求將多任務(wù)劃分為情感顯著任務(wù)、情感非顯著任務(wù)兩類;采用語句匹配算法基于初始樣本集中樣本的詞性標(biāo)注結(jié)果確定樣本中各名詞的所有修飾詞的數(shù)據(jù)標(biāo)簽類別及類別強(qiáng)度;
5、根據(jù)每個(gè)樣本中各名詞的所有修飾詞在不同數(shù)據(jù)標(biāo)簽類別下的類別強(qiáng)度的分布情況,確定每個(gè)樣本中各名詞的類別表達(dá)向量;
6、根據(jù)每個(gè)樣本中每個(gè)名詞與其相同名詞之間的分詞數(shù)量,以及每個(gè)名詞與其相同名詞的類別表達(dá)向量之間的相似性確定每個(gè)名詞的類別特征相似度;
7、基于所述類別特征相似度、每個(gè)樣本中每個(gè)名詞在不同數(shù)據(jù)標(biāo)簽類別下的類別強(qiáng)度以及每個(gè)名詞與其相同名詞類別表達(dá)向量之間的差異,確定每個(gè)樣本中各名詞在不同數(shù)據(jù)標(biāo)簽類別下的特征權(quán)重以及特征權(quán)重向量;
8、基于每個(gè)樣本中每個(gè)名詞在所有數(shù)據(jù)標(biāo)簽類別下的特征權(quán)重和每個(gè)名詞的詞頻統(tǒng)計(jì)結(jié)果,確定每個(gè)樣本中每個(gè)名詞的重要性指數(shù);
9、基于每個(gè)樣本中不同名詞的特征權(quán)重向量之間的相似度以及所述重要性指數(shù)提取每個(gè)樣本中的關(guān)鍵詞;
10、分別利用情感顯著任務(wù)、情感非顯著任務(wù)下的所有初始樣本集內(nèi)樣本中的關(guān)鍵詞的特征權(quán)重向量組成通用訓(xùn)練集、特定訓(xùn)練集;
11、利用通用訓(xùn)練集訓(xùn)練初始大語言模型并保存權(quán)重參數(shù);基于權(quán)重參數(shù)微調(diào)特定訓(xùn)練集訓(xùn)練的多任務(wù)大語言模型,將多個(gè)多任務(wù)大語言模型部署到定制化平臺(tái)上形成多任務(wù)大模型系統(tǒng)。
12、優(yōu)選的,所述每個(gè)樣本中各名詞的類別表達(dá)向量的確定方法為:
13、每個(gè)樣本內(nèi)各名詞的所有修飾詞在每個(gè)數(shù)據(jù)標(biāo)簽類別下類別強(qiáng)度的累加和,記為每個(gè)樣本內(nèi)各名詞在每個(gè)數(shù)據(jù)標(biāo)簽類別下的綜合類別強(qiáng)度;
14、每個(gè)樣本內(nèi)各名詞在所有數(shù)據(jù)標(biāo)簽類別下的綜合類別強(qiáng)度,組成每個(gè)樣本內(nèi)各名詞的類別表達(dá)向量。
15、優(yōu)選的,所述每個(gè)名詞的類別特征相似度的確定方法為:
16、將每個(gè)名詞與其各個(gè)相同名詞之間分詞數(shù)量按照從大到小的順序排序,將排序結(jié)果中前默認(rèn)數(shù)量個(gè)元素對(duì)應(yīng)的相同名詞,記為每個(gè)樣本內(nèi)每個(gè)名詞的鄰近同詞;
17、分析每個(gè)樣本內(nèi)每個(gè)名詞的類別表達(dá)向量與其各鄰近同詞的類別表達(dá)向量的距離;
18、分析每個(gè)樣本內(nèi)每個(gè)名詞與其各鄰近同詞間分詞的數(shù)量及所述距離的比值,記為每個(gè)樣本內(nèi)每個(gè)名詞與其各鄰近同詞的第一比值;
19、每個(gè)樣本內(nèi)每個(gè)名詞的類別特征相似度為每個(gè)樣本內(nèi)每個(gè)名詞與其所有鄰近同詞的第一比值融合的結(jié)果。
20、優(yōu)選的,所述每個(gè)樣本中各名詞在不同數(shù)據(jù)標(biāo)簽類別下的特征權(quán)重以及特征權(quán)重向量的確定方法為:
21、基于每個(gè)樣本內(nèi)各名詞的類別特征相似度及類別表達(dá)向量的異常程度,確定每個(gè)樣本內(nèi)各名詞的任務(wù)數(shù)據(jù)可信度;
22、基于每個(gè)樣本內(nèi)各名詞在各數(shù)據(jù)標(biāo)簽類別下的綜合類別強(qiáng)度及所述任務(wù)數(shù)據(jù)可信度,確定每個(gè)樣本內(nèi)各名詞在各數(shù)據(jù)標(biāo)簽類別下的特征權(quán)重;
23、將每個(gè)名詞在所有數(shù)據(jù)標(biāo)簽類別下的特征權(quán)重組成的向量作為每個(gè)名詞的特征權(quán)重向量。
24、優(yōu)選的,所述每個(gè)樣本內(nèi)各名詞的任務(wù)數(shù)據(jù)可信度的確定方法為:
25、將每個(gè)樣本內(nèi)各名詞的類別表達(dá)向量到其所有相同名詞的類別表達(dá)向量的距離取均值,作為異常得分算法的輸入,得到每個(gè)文本文內(nèi)各名詞的異常得分值;
26、每個(gè)樣本內(nèi)各名詞的任務(wù)數(shù)據(jù)可信度的表達(dá)式為:式中,表示第i個(gè)樣本內(nèi)第j個(gè)名詞的任務(wù)數(shù)據(jù)可信度;是第i個(gè)樣本內(nèi)第j個(gè)名詞的類別特征相似度;是第i個(gè)樣本內(nèi)第j個(gè)名詞的異常得分值。
27、優(yōu)選的,所述每個(gè)樣本內(nèi)各名詞在各數(shù)據(jù)標(biāo)簽類別下的特征權(quán)重的表達(dá)式為:式中,wi,j(a)表示第i個(gè)樣本內(nèi)第j個(gè)名詞在第a種數(shù)據(jù)標(biāo)簽類別下的特征權(quán)重;表示第i個(gè)樣本內(nèi)第j個(gè)名詞的所有相同名詞中第x個(gè)相同名詞的任務(wù)數(shù)據(jù)可信度;表示第i個(gè)樣本內(nèi)第j個(gè)名詞的所有相同名詞中第x個(gè)相同名詞在第a種數(shù)據(jù)標(biāo)簽類別下的綜合類別強(qiáng)度;x表示第i個(gè)樣本內(nèi)第j個(gè)名詞的數(shù)量。
28、優(yōu)選的,所述每個(gè)樣本中每個(gè)名詞的重要性指數(shù)為每個(gè)樣本內(nèi)各名詞在所有數(shù)據(jù)標(biāo)簽類別下特征權(quán)重的和值及對(duì)應(yīng)名詞的詞頻-逆文文件頻率相乘結(jié)果的歸一化值。
29、優(yōu)選的,所述提取每個(gè)樣本中的關(guān)鍵詞的過程為:
30、每個(gè)樣本內(nèi)各名詞在所有數(shù)據(jù)標(biāo)簽類別下的特征權(quán)重,組成每個(gè)樣本內(nèi)各名詞的特征權(quán)重向量;
31、將每個(gè)樣本內(nèi)各名詞作為有向圖的節(jié)點(diǎn),將兩個(gè)名詞的特征權(quán)重向量之間的相似度作為兩個(gè)名詞對(duì)應(yīng)節(jié)點(diǎn)之間連線的邊權(quán)構(gòu)建每個(gè)樣本的有向圖;
32、將每個(gè)樣本的有向圖作為textrank算法的輸入,各名詞的重要性指數(shù)作為各名詞的初始權(quán)重,輸出每個(gè)樣本中所有名詞各自的textrank分?jǐn)?shù)并按降序排列,排列結(jié)果中前預(yù)設(shè)數(shù)目個(gè)名詞作為每個(gè)樣本的關(guān)鍵詞。
33、優(yōu)選的,所述基于權(quán)重參數(shù)微調(diào)特定訓(xùn)練集訓(xùn)練的多任務(wù)大語言模型,包括:
34、分析每個(gè)樣本內(nèi)所有關(guān)鍵詞的特征權(quán)重向量的向量和,記為每個(gè)樣本的特征向量;
35、分別將每個(gè)情感顯著任務(wù)、每個(gè)情感非顯著任務(wù)下初始樣本集內(nèi)所有樣本的特征向量作為聚類算法的輸入,得到各聚類簇,同簇內(nèi)所有特征向量對(duì)應(yīng)的樣本歸為一類;
36、利用每個(gè)情感非顯著任務(wù)下初始樣本集內(nèi)樣本分類結(jié)果中每一類樣本的特征向量構(gòu)建一類訓(xùn)練樣本,所有訓(xùn)練樣本組成通用訓(xùn)練集;利用通用訓(xùn)練集訓(xùn)練初始大語言模型并保留權(quán)重參數(shù);
37、利用每個(gè)情感顯著任務(wù)下初始樣本集內(nèi)樣本分類結(jié)果中每一類樣本的特征向量構(gòu)建情感顯著任務(wù)的一類訓(xùn)練樣本,情感顯著任務(wù)的所有訓(xùn)練樣本組成特定訓(xùn)練集;
38、將所述權(quán)重參數(shù)作為特定訓(xùn)練集訓(xùn)練大語言模型時(shí)模型權(quán)重的初始參數(shù),進(jìn)行權(quán)重遷移,將訓(xùn)練所得模型作為多任務(wù)大語言模型。
39、第二方面,本技術(shù)實(shí)施例還提供了用于多任務(wù)大語言模型的數(shù)據(jù)整理系統(tǒng),包括內(nèi)存、處理器以及存儲(chǔ)在所述內(nèi)存中并在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任意一項(xiàng)所述用于多任務(wù)大語言模型的數(shù)據(jù)整理方法的步驟。
40、本技術(shù)至少具有如下有益效果:
41、首先,本技術(shù)采用語句分配算法獲取每個(gè)樣本內(nèi)各名詞的所有修飾詞的類別強(qiáng)度及所屬數(shù)據(jù)標(biāo)簽類別,對(duì)多任務(wù)的初始樣本集中的樣本特征進(jìn)行分類和量化,能夠以更高的細(xì)粒度去分析樣本內(nèi)的數(shù)據(jù)特征,以保證后續(xù)提取關(guān)鍵詞構(gòu)建訓(xùn)練集的質(zhì)量;之后,根據(jù)樣本中相同名詞之間的位置間隔以及相同名詞在不同位置所表達(dá)的數(shù)據(jù)標(biāo)簽類別特征的相似性確定類別特征相似度,能夠解決由于樣本來源不同導(dǎo)致的類別特征差異造成的數(shù)據(jù)標(biāo)簽類別混淆問題;其次,基于樣本內(nèi)各名詞在數(shù)據(jù)標(biāo)簽類別下的綜合類別強(qiáng)度,結(jié)合各名詞的類別表達(dá)向量與其所有相同名詞類別表達(dá)向量的差異及所述類別特征相似度,確定樣本內(nèi)各名詞在各數(shù)據(jù)標(biāo)簽類別下的特征權(quán)重,有助于在不同類型任務(wù)時(shí),從各個(gè)初始樣本集中識(shí)別對(duì)樣本整體特征貢獻(xiàn)度較大的名詞;之后,基于每個(gè)名詞在各數(shù)據(jù)標(biāo)簽類別下的特征權(quán)重結(jié)合各名詞及其所有相同名詞在所有名詞中的占比,確定每個(gè)名詞的重要性指數(shù),以便于后續(xù)提取每個(gè)初始樣本集時(shí)所構(gòu)建有向圖能夠基于樣本內(nèi)名詞所表達(dá)的數(shù)據(jù)標(biāo)簽類別特征不同自適應(yīng)確定初始權(quán)重,提高提取關(guān)鍵詞的準(zhǔn)確度;隨后,基于關(guān)鍵詞的特征權(quán)重向量確定每個(gè)樣本的特征向量,完成對(duì)情感顯著任務(wù)、情感非顯著任務(wù)下不同初始樣本集的分析,相較于直接利用初始樣本集進(jìn)行訓(xùn)練有利于后續(xù)構(gòu)建高質(zhì)量的訓(xùn)練集;之后,基于已分類的通用訓(xùn)練集訓(xùn)練初始大語言模型,并基于初始大語言模型的權(quán)重?cái)?shù)據(jù)對(duì)多任務(wù)大語言模型進(jìn)行微調(diào),使得多任務(wù)大語言模型既具有處理多任務(wù)數(shù)據(jù)的能力,在針對(duì)特定任務(wù)時(shí)具有較高的準(zhǔn)確率精度;最后,針對(duì)多個(gè)特定任務(wù)得到多個(gè)多任務(wù)大語言模型,提高了多個(gè)多任務(wù)大語言模型所形成多任務(wù)大模型系統(tǒng)的可用性,滿足用戶使用基于大模型的智能應(yīng)用時(shí)定制化的需求。