本發(fā)明涉及文本數(shù)據(jù)處理,尤其涉及一種語(yǔ)料的構(gòu)建方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、語(yǔ)料庫(kù)一詞在語(yǔ)言學(xué)上意指大量的文本,通常經(jīng)過(guò)整理,具有既定格式與標(biāo)記。根據(jù)語(yǔ)料庫(kù)的特征,可以分為單語(yǔ)語(yǔ)料庫(kù)、雙語(yǔ)語(yǔ)料庫(kù)、平行語(yǔ)料庫(kù)、分類語(yǔ)料庫(kù)等,根據(jù)語(yǔ)料的來(lái)源,可以分為書(shū)面語(yǔ)語(yǔ)料庫(kù)、口語(yǔ)語(yǔ)料庫(kù)、作文語(yǔ)料庫(kù)、學(xué)習(xí)者語(yǔ)料庫(kù)、古文書(shū)語(yǔ)料庫(kù)等。
2、語(yǔ)料庫(kù)語(yǔ)言學(xué)可以對(duì)自然語(yǔ)言進(jìn)行語(yǔ)法與句法分析,還可以研究它與其他語(yǔ)言的關(guān)系。語(yǔ)料庫(kù)最初由手工完成,而現(xiàn)在主要是由電子計(jì)算機(jī)自動(dòng)完成。目前,語(yǔ)料庫(kù)語(yǔ)言學(xué)主要研究機(jī)器可讀自然語(yǔ)言文本的采集、存儲(chǔ)、檢索、統(tǒng)計(jì)、語(yǔ)法標(biāo)注、句法語(yǔ)義分析,以及具有上述功能的語(yǔ)料庫(kù)在語(yǔ)言教學(xué)、語(yǔ)言定量分析、詞匯研究、詞語(yǔ)搭配研究、詞典編纂、語(yǔ)法研究、語(yǔ)言文化研究、法律語(yǔ)言研究、作品風(fēng)格分析、自然語(yǔ)言理解和機(jī)器翻譯等領(lǐng)域中的應(yīng)用。
3、對(duì)于分類語(yǔ)料的構(gòu)建,常有的方法是在已有的分類文檔的基礎(chǔ)上,建立文本分類模型。對(duì)于新文檔,通過(guò)文本分類模型將其歸屬于某個(gè)類別。隨著大語(yǔ)言模型在各個(gè)垂直行業(yè)的應(yīng)用深入,對(duì)于分類語(yǔ)料有著更加細(xì)粒度的需求。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種語(yǔ)料的構(gòu)建方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),用以解決現(xiàn)有技術(shù)中通過(guò)文本分類模型將新文檔歸屬于某個(gè)類別的分類粒度較粗、不夠準(zhǔn)確的缺陷。
2、本發(fā)明提供一種語(yǔ)料的構(gòu)建方法,包括如下步驟:
3、獲取原始文檔和分類文檔庫(kù),并對(duì)所述原始文檔按句進(jìn)行拆分,得到所述原始文檔的句集合;
4、確定所述句集合中各句與各聚類簇之間的第一相似度,并確定所述各聚類簇對(duì)所述分類文檔庫(kù)的分類庫(kù)的第一貢獻(xiàn)度;所述分類文檔庫(kù)的各分類庫(kù)對(duì)應(yīng)多個(gè)聚類簇,多個(gè)聚類簇是基于句粒度聚類得到的;
5、基于所述第一相似度和所述第一貢獻(xiàn)度,確定所述句集合中各句與所述分類文檔庫(kù)的歸屬度;
6、基于屬于同一分類文檔庫(kù)的所述句集合中所有句子的歸屬度,確定目標(biāo)歸屬度,并基于目標(biāo)歸屬度,確定所述原始文檔在所述分類文檔庫(kù)中的目標(biāo)類別;
7、將所述原始文檔中的各句歸類在所述目標(biāo)類別下的聚類簇中相似度最大值所屬的聚類簇。
8、根據(jù)本發(fā)明提供的一種語(yǔ)料的構(gòu)建方法,所述確定所述各聚類簇對(duì)所述分類文檔庫(kù)的分類庫(kù)的第一貢獻(xiàn)度,包括:
9、確定所述各聚類簇對(duì)所述分類文檔庫(kù)的分類庫(kù)的目標(biāo)貢獻(xiàn)值;
10、基于所述各聚類簇和所述分類庫(kù)之間的第二相似度,以及所述目標(biāo)貢獻(xiàn)值,確定所述第一貢獻(xiàn)度。
11、根據(jù)本發(fā)明提供的一種語(yǔ)料的構(gòu)建方法,所述目標(biāo)貢獻(xiàn)值的確定步驟,包括:
12、在所述分類文檔庫(kù)中第一分類庫(kù)與所述分類文檔庫(kù)中的第二分類庫(kù)相同的情況下,基于所述第二分類庫(kù)下的詞匯對(duì)所述第一分類庫(kù)的第一貢獻(xiàn)值,確定所述目標(biāo)貢獻(xiàn)值;
13、在所述第一分類庫(kù)與所述第二分類庫(kù)不同的情況下,確定所述第一分類庫(kù)下的聚類簇與所述第二分類庫(kù)下的聚類簇的簇相似度,并將所述簇相似度中最大的聚類簇對(duì)所述第一分類庫(kù)的第二貢獻(xiàn)值作為所述目標(biāo)貢獻(xiàn)值。
14、根據(jù)本發(fā)明提供的一種語(yǔ)料的構(gòu)建方法,所述聚類簇是基于所述分類文檔庫(kù)中各詞對(duì)各分類的第三貢獻(xiàn)值確定的。
15、根據(jù)本發(fā)明提供的一種語(yǔ)料的構(gòu)建方法,所述分類文檔庫(kù)中各詞對(duì)各分類的第三貢獻(xiàn)值的確定步驟,包括:
16、確定各詞的反向文檔頻率,并確定各詞對(duì)各分類的區(qū)分度;
17、基于所述反向文檔頻率和所述區(qū)分度,確定所述第三貢獻(xiàn)值。
18、根據(jù)本發(fā)明提供的一種語(yǔ)料的構(gòu)建方法,所述區(qū)分度基于各詞在所述分類文檔庫(kù)中各分類庫(kù)的出現(xiàn)頻率,以及所述各分類庫(kù)的文檔數(shù)確定。
19、本發(fā)明還提供一種語(yǔ)料的構(gòu)建裝置,包括如下模塊:
20、獲取單元,用于獲取原始文檔和分類文檔庫(kù),并對(duì)所述原始文檔按句進(jìn)行拆分,得到所述原始文檔的句集合;
21、第一確定單元,用于確定所述句集合中各句與各聚類簇之間的第一相似度,并確定所述各聚類簇對(duì)所述分類文檔庫(kù)的分類庫(kù)的第一貢獻(xiàn)度;所述分類文檔庫(kù)的各分類庫(kù)對(duì)應(yīng)多個(gè)聚類簇,多個(gè)聚類簇是基于句粒度聚類得到的;
22、第二確定單元,用于基于所述第一相似度和所述第一貢獻(xiàn)度,確定所述句集合中各句與所述分類文檔庫(kù)的歸屬度;
23、第三確定單元,用于基于屬于同一分類文檔庫(kù)的所述句集合中所有句子的歸屬度,確定目標(biāo)歸屬度,并基于目標(biāo)歸屬度,確定所述原始文檔在所述分類文檔庫(kù)中的目標(biāo)類別;
24、歸類單元,用于將所述原始文檔中的各句歸類在所述目標(biāo)類別下的聚類簇中相似度最大值所屬的聚類簇。
25、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)料的構(gòu)建方法。
26、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)料的構(gòu)建方法。
27、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述語(yǔ)料的構(gòu)建方法。
28、本發(fā)明提供的語(yǔ)料的構(gòu)建方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),對(duì)原始文檔按句進(jìn)行拆分,得到原始文檔的句集合,再確定句集合中各句與各聚類簇之間的第一相似度,并確定各聚類簇對(duì)分類文檔庫(kù)的分類庫(kù)的第一貢獻(xiàn)度,然后,基于第一相似度和第一貢獻(xiàn)度,確定句集合中各句與分類文檔庫(kù)的歸屬度,基于屬于同一分類文檔庫(kù)的句集合中所有句子的歸屬度,確定目標(biāo)歸屬度,并基于目標(biāo)歸屬度,確定原始文檔在分類文檔庫(kù)中的目標(biāo)類別,最后,將原始文檔中的各句歸類在目標(biāo)類別下的聚類簇中相似度最大值所屬的聚類簇。此過(guò)程不僅將原始文檔歸類在文檔分類庫(kù)中的目標(biāo)類別,也將原始文檔中的各句歸類在目標(biāo)類別下的聚類簇中相似度最大值所屬的聚類簇,從而從更細(xì)粒度層面進(jìn)行歸類,提高了語(yǔ)料構(gòu)建的準(zhǔn)確性。
1.一種語(yǔ)料的構(gòu)建方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的語(yǔ)料的構(gòu)建方法,其特征在于,所述確定所述各聚類簇對(duì)所述分類文檔庫(kù)的分類庫(kù)的第一貢獻(xiàn)度,包括:
3.根據(jù)權(quán)利要求2所述的語(yǔ)料的構(gòu)建方法,其特征在于,所述目標(biāo)貢獻(xiàn)值的確定步驟,包括:
4.根據(jù)權(quán)利要求3所述的語(yǔ)料的構(gòu)建方法,其特征在于,所述聚類簇是基于所述分類文檔庫(kù)中各詞對(duì)各分類的第三貢獻(xiàn)值確定的。
5.根據(jù)權(quán)利要求4所述的語(yǔ)料的構(gòu)建方法,其特征在于,所述分類文檔庫(kù)中各詞對(duì)各分類的第三貢獻(xiàn)值的確定步驟,包括:
6.根據(jù)權(quán)利要求5所述的語(yǔ)料的構(gòu)建方法,其特征在于,所述區(qū)分度基于各詞在所述分類文檔庫(kù)中各分類庫(kù)的出現(xiàn)頻率,以及所述各分類庫(kù)的文檔數(shù)確定。
7.一種語(yǔ)料的構(gòu)建裝置,其特征在于,包括:
8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)料的構(gòu)建方法。
9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)料的構(gòu)建方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述語(yǔ)料的構(gòu)建方法。