本技術(shù)涉及計算機,尤其涉及一種文本分類方法、裝置、計算設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)內(nèi)容的爆炸式增長和信息分類需求的多樣化,單一文本數(shù)據(jù)可能包含多種分類標簽。
2、傳統(tǒng)的針對多標簽的文本分類算法,多數(shù)是嘗試利用大量的訓練樣本訓練不同的神經(jīng)網(wǎng)絡(luò)模型,然后比較不同神經(jīng)網(wǎng)絡(luò)模型之間的分類的準確率,從而選擇準確率較高的神經(jīng)網(wǎng)絡(luò)模型應用于實際場景中;這種方式需要收集大量的訓練樣本;而且針對不同的場景,需要選擇不同的神經(jīng)網(wǎng)絡(luò)模型;不僅耗時耗力,而且難以應對復雜多樣化的分類要求。
3、大語言模型具備強大的上下文理解和生成能力,但如何將其應用于多標簽文本分類問題,有待解決。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供一種文本分類方法、裝置、計算設(shè)備及存儲介質(zhì),能夠有效處理多標簽文本分類問題。
2、第一方面,本技術(shù)實施例提供一種文本分類方法,該方法可以由文本分類裝置執(zhí)行,該文本分類裝置可以是一個終端設(shè)備或用于終端設(shè)備的模塊,或者是一個服務(wù)器或用于服務(wù)器的模塊。本技術(shù)對該方法的執(zhí)行主體不做限定。該方法包括:獲取待分類文本數(shù)據(jù);從歷史數(shù)據(jù)集的多條已分類樣本中選擇第一標注樣本集;其中,每個已分類樣本對應至少一個分類標簽,所述第一標注樣本集中的多條已分類樣本對應的分類標簽涵蓋了預設(shè)分類標簽;從所述歷史數(shù)據(jù)集中選擇與所述待分類文本數(shù)據(jù)相似度大于第一閾值的多條已分類樣本,作為第二標注樣本集;將所述待分類文本數(shù)據(jù)、所述第一標注樣本集和所述第二標注樣本集作為提示詞,輸入至大語言模型,根據(jù)所述大語言模型的輸出結(jié)果確定所述待分類文本數(shù)據(jù)對應的分類標簽;其中,將對所述待分類文本數(shù)據(jù)進行文本分類作為所述提示詞中的任務(wù);將所述第一標注樣本集和所述第二標注樣本集作為所述提示詞中的示例。
3、上述方案,一方面,采用大語言模型對待分類文本數(shù)據(jù)進行文本分類,由于大語言模型具備強大的上下文理解和生成能力,在處理復雜文本數(shù)據(jù)和多標簽體系上的具有相對優(yōu)勢,因此能夠自動生成適合文本數(shù)據(jù)的多個標簽,從而對文本數(shù)據(jù)實現(xiàn)精確的多標簽分類;另一方面,大語言模型的提示詞包括第一標注樣本集和第二標注樣本集,第一標注樣本集涵蓋了所有的分類標簽,從而使得大語言模型能夠理解到所有的分類標簽;第二標注樣本集與待分類文本數(shù)據(jù)的相似度較高,可以使得大語言模型根據(jù)已分類的且與待分類文本數(shù)據(jù)的相似度較高的文本數(shù)據(jù),得到待分類文本數(shù)據(jù)的分類標簽,從而提高文本分類的準確性。
4、一種可能的實現(xiàn)方法中,針對所述歷史數(shù)據(jù)集中的任一已分類樣本,若所述已分類樣本中的文本數(shù)據(jù)和分類標簽的匹配程度大于第二閾值,則將所述已分類樣本選入所述第一標注樣本集。
5、上述方案,第一標注樣本集中,已分類樣本中的文本數(shù)據(jù)和分類標簽的匹配程度較高,從而能夠使得大語言模型更好地學習文本數(shù)據(jù)和分類標簽之間的關(guān)系,提高文本分類的準確性。
6、一種可能的實現(xiàn)方法中,從所述歷史數(shù)據(jù)集中選擇與所述待分類文本數(shù)據(jù)相似度大于第一閾值,且不位于所述第一標注樣本集中的多條已分類樣本,作為所述第二標注樣本集。
7、上述方案,保證第二標注樣本和第一標注樣本中的文本數(shù)據(jù)不同,從而使得輸入至大語言模型中的已分類樣本數(shù)量更多,使得大語言模型能夠根據(jù)更多的樣本更好地學習文本數(shù)據(jù)和分類標簽之間的關(guān)系,提高文本分類的準確性。
8、一種可能的實現(xiàn)方法中,將所述待分類文本數(shù)據(jù)進行分詞處理,得到多個單詞;將所述多個單詞轉(zhuǎn)換為對應的詞向量,并根據(jù)所述詞向量得到所述待分類文本數(shù)據(jù)對應的第一文本向量;針對所述歷史數(shù)據(jù)集中的任一已分類樣本,選擇與所述第一文本向量相似度大于第一閾值的第二文本向量對應的已分類樣本,作為所述第二標注樣本集;所述第二文本向量是由所述已分類樣本對應的詞向量組成的。
9、上述方案,采用文本向量,能夠提高文本相似度比較的準確性,使得第二標注樣本集中的已分類樣本與待分類文本數(shù)據(jù)的相似度較高,進一步地,使得大語言模型能夠更好地學習文本數(shù)據(jù)和分類標簽之間的關(guān)系,提高文本分類的準確性。
10、一種可能的實現(xiàn)方法中,將所述待分類文本數(shù)據(jù)和所述歷史數(shù)據(jù)集中的多條已分類樣本的文本數(shù)據(jù)進行聚類處理,得到聚類結(jié)果;從與所述待分類文本數(shù)據(jù)聚類類別相同的聚類結(jié)果中,選擇與所述待分類文本數(shù)據(jù)相似度大于第一閾值的多條已分類樣本,作為所述第二標注樣本集。
11、上述方案,先進行聚類處理,再從與待分類文本數(shù)據(jù)聚類類別相同的聚類結(jié)果中,選擇與待分類文本數(shù)據(jù)相似度大于第一閾值的多條已分類樣本,作為第二標注樣本集,能夠提高文本相似度比較的準確性,使得第二標注樣本集中的已分類樣本與待分類文本數(shù)據(jù)的相似度較高,進一步地,使得大語言模型能夠更好地學習文本數(shù)據(jù)和分類標簽之間的關(guān)系,提高文本分類的準確性。
12、一種可能的實現(xiàn)方法中,收集大語言模型輸出的分類錯誤的文本數(shù)據(jù),并更正所述分類錯誤的文本數(shù)據(jù)對應的分類標簽;將所述分類錯誤的文本數(shù)據(jù)及更正后的分類標簽添加至所述歷史數(shù)據(jù)集。
13、上述方案,自動對生產(chǎn)數(shù)據(jù)進行文本分類標簽生成,并通過收集和分析大語言模型輸出的分類錯誤的文本數(shù)據(jù),持續(xù)優(yōu)化提示詞和大語言模型,形成一個閉環(huán)的優(yōu)化過程,能夠逐步提高大語言模型文本分類的準確性。
14、第二方面,本技術(shù)實施例提供一種文本分類裝置,包括:獲取單元、選擇單元和確定單元。所述獲取單元,用于獲取待分類文本數(shù)據(jù);所述選擇單元,用于從歷史數(shù)據(jù)集的多條已分類樣本中選擇第一標注樣本集;其中,每個已分類樣本對應至少一個分類標簽,所述第一標注樣本集中的多條已分類樣本對應的分類標簽涵蓋了預設(shè)分類標簽;從所述歷史數(shù)據(jù)集中選擇與所述待分類文本數(shù)據(jù)相似度大于第一閾值的多條已分類樣本,作為第二標注樣本集;所述確定單元,用于將所述待分類文本數(shù)據(jù)、所述第一標注樣本集和所述第二標注樣本集作為提示詞,輸入至大語言模型,根據(jù)所述大語言模型的輸出結(jié)果確定所述待分類文本數(shù)據(jù)對應的分類標簽;其中,將對所述待分類文本數(shù)據(jù)進行文本分類作為所述提示詞中的任務(wù);將所述第一標注樣本集和所述第二標注樣本集作為所述提示詞中的示例。
15、一種可能的實現(xiàn)方法中,所述選擇單元,具體用于針對所述歷史數(shù)據(jù)集中的任一已分類樣本,若所述已分類樣本中的文本數(shù)據(jù)和分類標簽的匹配程度大于第二閾值,則將所述已分類樣本選入所述第一標注樣本集。
16、一種可能的實現(xiàn)方法中,所述選擇單元,具體用于從所述歷史數(shù)據(jù)集中選擇與所述待分類文本數(shù)據(jù)相似度大于第一閾值,且不位于所述第一標注樣本集中的多條已分類樣本,作為所述第二標注樣本集。
17、一種可能的實現(xiàn)方法中,所述選擇單元,具體用于將所述待分類文本數(shù)據(jù)進行分詞處理,得到多個單詞;將所述多個單詞轉(zhuǎn)換為對應的詞向量,并根據(jù)所述詞向量得到所述待分類文本數(shù)據(jù)對應的第一文本向量;針對所述歷史數(shù)據(jù)集中的任一已分類樣本,選擇與所述第一文本向量相似度大于第一閾值的第二文本向量對應的已分類樣本,作為所述第二標注樣本集;所述第二文本向量是由所述已分類樣本對應的詞向量組成的。
18、一種可能的實現(xiàn)方法中,所述選擇單元,具體用于將所述待分類文本數(shù)據(jù)和所述歷史數(shù)據(jù)集中的多條已分類樣本的文本數(shù)據(jù)進行聚類處理,得到聚類結(jié)果;從與所述待分類文本數(shù)據(jù)聚類類別相同的聚類結(jié)果中,選擇與所述待分類文本數(shù)據(jù)相似度大于第一閾值的多條已分類樣本,作為所述第二標注樣本集。
19、一種可能的實現(xiàn)方法中,上述裝置還包括更新單元,所述更新單元,用于收集大語言模型輸出的分類錯誤的文本數(shù)據(jù),并更正所述分類錯誤的文本數(shù)據(jù)對應的分類標簽;將所述分類錯誤的文本數(shù)據(jù)及更正后的分類標簽添加至所述歷史數(shù)據(jù)集。
20、第三方面,本技術(shù)實施例還提供一種計算設(shè)備,包括:
21、存儲器,用于存儲程序指令;
22、處理器,用于調(diào)用所述存儲器中存儲的程序指令,按照獲得的程序指令執(zhí)行實現(xiàn)上述第一方面的任意方法。
23、第四方面,本技術(shù)實施例還提供一種計算機可讀存儲介質(zhì),其中存儲有計算機可讀指令,當計算機讀取并執(zhí)行所述計算機可讀指令時,實現(xiàn)上述第一方面的任意方法。
24、第五方面,本技術(shù)實施例提供了一種計算機程序產(chǎn)品,包括有可由計算機設(shè)備執(zhí)行的計算機程序,當所述程序在計算機設(shè)備上運行時,使得所述計算機設(shè)備執(zhí)行實現(xiàn)上述第一方面的任意方法。