本申請涉及文本處理領域,尤其涉及一種文本處理方法、裝置、電子設備及存儲介質。
背景技術:
1、nlp(natural?language?processing,自然語言處理)是計算機科學領域與人工智能領域中的一個重要方向,它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。在將采用了nlp技術的機器學習模型投入特定領域的下游任務之前,往往需要獲取該特定領域中的訓練數據以對模型進行訓練。訓練數據的質量越高,模型的訓練效果越好。因此,在文本處理領域,如何提高訓練數據的數據質量成為研究的熱點問題。
技術實現思路
1、本申請實施例提供了一種文本處理方法、裝置、電子設備及存儲介質,可以在構建訓練數據時提高數據質量。
2、第一方面,本申請實施例提供了一種文本處理方法,包括:
3、對待處理文本進行信息抽取處理,得到所述待處理文本中目標角色的語句元素;
4、根據所述目標角色的語句元素進行聚類處理,得到所述待處理文本的聚類數據;
5、對所述聚類數據進行評價處理,并根據評價結果從所述聚類數據中篩選得到用于進行模型訓練的訓練數據。
6、第二方面,本申請實施例提供了一種文本處理裝置,包括:
7、抽取單元,用于對待處理文本進行信息抽取處理,得到所述待處理文本中目標角色的語句元素;
8、聚類單元,用于根據所述目標角色的語句元素進行聚類處理,得到所述待處理文本的聚類數據;
9、篩選單元,對所述聚類數據進行評價處理,并根據評價結果從所述聚類數據中篩選得到用于進行模型訓練的訓練數據。
10、第三方面,本申請實施例提供了一種電子設備,包括:處理器;以及,被配置為存儲計算機可執(zhí)行指令的存儲器,所述計算機可執(zhí)行指令在被執(zhí)行時使所述處理器執(zhí)行如第一方面所述的文本處理方法。
11、第四方面,本申請實施例提供了一種計算機可讀存儲介質,用于存儲計算機可執(zhí)行指令,所述計算機可執(zhí)行指令在被處理器執(zhí)行時實現如第一方面所述的文本處理方法。
12、第五方面,本申請實施例提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現如第一方面所述的文本處理方法。
13、可以看出,在本申請實施例中,首先,對待處理文本進行信息抽取處理,得到待處理文本中目標角色的語句元素;然后,根據目標角色的語句元素進行聚類處理,得到待處理文本的聚類數據;最后,對聚類數據進行評價處理,并根據評價結果從聚類數據中篩選得到用于進行模型訓練的訓練數據。通常,聚類指的是將相似度高的數據分為一組,在本申請實施例中,通過從待處理文本中抽取目標角色的語句元素并聚類,可以使得聚類數據中因相似度高被分為一組的數據對應同一目標角色,與不考慮語句元素屬于哪個角色直接對待處理文本聚類相比,更有利于降低聚類時分組失誤的概率,提高聚類的準確性,又訓練數據是從聚類數據中篩選得到的,故提高聚類的準確性有利于提高訓練數據的質量。
1.一種文本處理方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述對待處理文本進行信息抽取處理,得到所述待處理文本中目標角色的語句元素,包括:
3.根據權利要求2所述的方法,其特征在于,所述文本處理模型包括語句元素抽取模型和角色識別模型;所述通過文本處理模型對所述待處理文本進行信息抽取處理,得到所述待處理文本中屬于所述目標角色的語句元素,包括:
4.根據權利要求3所述的方法,其特征在于,所述待處理文本包括第一待處理文本和第二待處理文本;所述抽取結果包括第一待處理文本中語句元素的抽取結果和所述第二待處理文本中語句元素的抽取結果;所述將所述待處理文本輸入所述語句元素抽取模型進行抽取處理,得到所述待處理文本中語句元素的抽取結果之后,所述方法還包括:
5.根據權利要求4所述的方法,其特征在于,所述將所述待處理文本中語句元素的抽取結果輸入關系識別模型進行關系識別,得到所述第一待處理文本和所述第二待處理文本之間的關系識別結果,包括:
6.根據權利要求1所述的方法,其特征在于,所述對所述聚類數據進行評價處理,包括:
7.根據權利要求1所述的方法,其特征在于,所述根據所述目標角色的語句元素進行聚類處理,得到所述待處理文本的聚類數據,包括:
8.根據權利要求1所述的方法,其特征在于,所述聚類數據包括待評價語句;所述對所述聚類數據進行評價處理,包括:
9.根據權利要求6所述的方法,其特征在于,所述對所述聚類數據進行文本增強處理,包括:
10.一種文本處理裝置,其特征在于,包括:
11.一種電子設備,其特征在于,包括:
12.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質用于存儲計算機可執(zhí)行指令,所述計算機可執(zhí)行指令在被處理器執(zhí)行時實現如權利要求1至9中任一項所述的文本處理方法。
13.一種計算機程序產品,其特征在于,包括計算機程序,該計算機程序被處理器執(zhí)行時實現如權利要求1至9任一項所述的文本處理方法。