本申請(qǐng)涉及數(shù)據(jù)處理,具體涉及一種文本的詞根確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著大數(shù)據(jù)管理技術(shù)的不斷發(fā)展,來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)通過(guò)數(shù)據(jù)表的形式整合存儲(chǔ)至數(shù)據(jù)倉(cāng)庫(kù)中,方便海量數(shù)據(jù)的管理和查詢,數(shù)倉(cāng)模型表設(shè)計(jì)是數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)階段的重要環(huán)節(jié)。
2、設(shè)計(jì)數(shù)倉(cāng)模型表時(shí)會(huì)引用大量現(xiàn)有的數(shù)據(jù)表,由于不同數(shù)據(jù)表的字段設(shè)計(jì)規(guī)范不統(tǒng)一,難以為業(yè)務(wù)需求的文本確定準(zhǔn)確且統(tǒng)一的詞根,導(dǎo)致數(shù)倉(cāng)模型表的數(shù)據(jù)易出錯(cuò)、易混亂。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供一種文本的詞根確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
2、第一方面,本申請(qǐng)實(shí)施例提供一種文本的詞根確定方法,包括:
3、從詞根庫(kù)中查找文本對(duì)應(yīng)的候選詞根;
4、根據(jù)所述候選詞根的詞頻逆文檔頻率、詞性信息、所述候選詞根所在文檔的文檔信息、所述候選詞根在所述文檔中的位置信息,確定所述候選詞根的權(quán)重參數(shù);
5、根據(jù)所述候選詞根的權(quán)重參數(shù),從所述候選詞根中確定與所述文本對(duì)應(yīng)的目標(biāo)詞根。
6、第二方面,本申請(qǐng)實(shí)施例提供一種文本的詞根確定裝置,包括:
7、候選詞根查找模塊,用于從詞根庫(kù)中查找文本對(duì)應(yīng)的候選詞根;
8、權(quán)重參數(shù)確定模塊,用于根據(jù)所述候選詞根的詞頻逆文檔頻率、詞性信息、所述候選詞根所在文檔的文檔信息、所述候選詞根在所述文檔中的位置信息,確定所述候選詞根的權(quán)重參數(shù);
9、目標(biāo)詞根確定模塊,用于根據(jù)所述候選詞根的權(quán)重參數(shù),從所述候選詞根中確定與所述文本對(duì)應(yīng)的目標(biāo)詞根。
10、第三方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器存儲(chǔ)有多條指令;處理器從存儲(chǔ)器中加載指令,以執(zhí)行本申請(qǐng)實(shí)施例所提供的任一種文本的詞根確定方法的步驟。
11、第四方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,指令適于處理器進(jìn)行加載,以執(zhí)行本申請(qǐng)實(shí)施例所提供的任一種文本的詞根確定方法的步驟。
12、第五方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請(qǐng)實(shí)施例所提供的任一種文本的詞根確定方法中的步驟。
13、采用本申請(qǐng)實(shí)施例的方案,從詞根庫(kù)中查找文本對(duì)應(yīng)的候選詞根,根據(jù)候選詞根的詞頻逆文檔頻率、詞性信息、候選詞根所在文檔的文檔信息、候選詞根在文檔中的位置信息,確定候選詞根的權(quán)重參數(shù),從而能夠?qū)⒚總€(gè)候選詞根的自身信息與其所在文檔信息結(jié)合考慮,在詞頻逆文檔頻率的基礎(chǔ)上更全面、更準(zhǔn)確地確定每個(gè)候選詞根在文本的詞根確定中的合理性權(quán)重,進(jìn)而能夠提升文本的詞根確定的準(zhǔn)確性。最后,根據(jù)候選詞根的權(quán)重參數(shù),從候選詞根中確定與文本對(duì)應(yīng)的目標(biāo)詞根,如此,能夠?yàn)椴煌谋镜脑~根確定出一個(gè)最準(zhǔn)確且不重復(fù)的目標(biāo)詞根,確保匹配詞根的統(tǒng)一性,從而也能提升生成數(shù)據(jù)表內(nèi)容的準(zhǔn)確性和規(guī)范性。
1.一種文本的詞根確定方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述候選詞根的詞頻逆文檔頻率、詞性信息、所述候選詞根所在文檔的文檔信息、所述候選詞根在所述文檔中的位置信息,確定所述候選詞根的權(quán)重參數(shù),包括:
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)每個(gè)所述候選詞根所在文檔的文檔長(zhǎng)度,確定每個(gè)所述文檔的文檔長(zhǎng)度權(quán)重,包括:
4.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)每個(gè)所述候選詞根的詞性信息,以及在所述文檔中的位置信息,確定每個(gè)所述候選詞根的詞項(xiàng)權(quán)重,包括:
5.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述候選詞根的權(quán)重參數(shù),從所述候選詞根中確定與所述文本對(duì)應(yīng)的目標(biāo)詞根,包括:
6.如權(quán)利要求5所述的方法,其特征在于,所述方法還包括:
7.如權(quán)利要求1所述的方法,其特征在于,所述方法包括:
8.一種文本的詞根確定裝置,其特征在于,所述裝置包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有多條指令;所述處理器從所述存儲(chǔ)器中加載指令,以執(zhí)行如權(quán)利要求1~7任一項(xiàng)所述的文本的詞根確定方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,所述指令適于處理器進(jìn)行加載,以執(zhí)行如權(quán)利要求1~7任一項(xiàng)所述的文本的詞根確定方法的步驟。
11.一種計(jì)算機(jī)軟件,其特征在于,所述計(jì)算機(jī)軟件,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行如權(quán)利要求1~7任一項(xiàng)所述的文本的詞根確定方法的步驟。