亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本的詞根確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40398064發(fā)布日期:2024-12-20 12:21閱讀:4來(lái)源:國(guó)知局
一種文本的詞根確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)與流程

本申請(qǐng)涉及數(shù)據(jù)處理,具體涉及一種文本的詞根確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。


背景技術(shù):

1、隨著大數(shù)據(jù)管理技術(shù)的不斷發(fā)展,來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)通過(guò)數(shù)據(jù)表的形式整合存儲(chǔ)至數(shù)據(jù)倉(cāng)庫(kù)中,方便海量數(shù)據(jù)的管理和查詢,數(shù)倉(cāng)模型表設(shè)計(jì)是數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)階段的重要環(huán)節(jié)。

2、設(shè)計(jì)數(shù)倉(cāng)模型表時(shí)會(huì)引用大量現(xiàn)有的數(shù)據(jù)表,由于不同數(shù)據(jù)表的字段設(shè)計(jì)規(guī)范不統(tǒng)一,難以為業(yè)務(wù)需求的文本確定準(zhǔn)確且統(tǒng)一的詞根,導(dǎo)致數(shù)倉(cāng)模型表的數(shù)據(jù)易出錯(cuò)、易混亂。


技術(shù)實(shí)現(xiàn)思路

1、針對(duì)上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施例提供一種文本的詞根確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。

2、第一方面,本申請(qǐng)實(shí)施例提供一種文本的詞根確定方法,包括:

3、從詞根庫(kù)中查找文本對(duì)應(yīng)的候選詞根;

4、根據(jù)所述候選詞根的詞頻逆文檔頻率、詞性信息、所述候選詞根所在文檔的文檔信息、所述候選詞根在所述文檔中的位置信息,確定所述候選詞根的權(quán)重參數(shù);

5、根據(jù)所述候選詞根的權(quán)重參數(shù),從所述候選詞根中確定與所述文本對(duì)應(yīng)的目標(biāo)詞根。

6、第二方面,本申請(qǐng)實(shí)施例提供一種文本的詞根確定裝置,包括:

7、候選詞根查找模塊,用于從詞根庫(kù)中查找文本對(duì)應(yīng)的候選詞根;

8、權(quán)重參數(shù)確定模塊,用于根據(jù)所述候選詞根的詞頻逆文檔頻率、詞性信息、所述候選詞根所在文檔的文檔信息、所述候選詞根在所述文檔中的位置信息,確定所述候選詞根的權(quán)重參數(shù);

9、目標(biāo)詞根確定模塊,用于根據(jù)所述候選詞根的權(quán)重參數(shù),從所述候選詞根中確定與所述文本對(duì)應(yīng)的目標(biāo)詞根。

10、第三方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器存儲(chǔ)有多條指令;處理器從存儲(chǔ)器中加載指令,以執(zhí)行本申請(qǐng)實(shí)施例所提供的任一種文本的詞根確定方法的步驟。

11、第四方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,指令適于處理器進(jìn)行加載,以執(zhí)行本申請(qǐng)實(shí)施例所提供的任一種文本的詞根確定方法的步驟。

12、第五方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請(qǐng)實(shí)施例所提供的任一種文本的詞根確定方法中的步驟。

13、采用本申請(qǐng)實(shí)施例的方案,從詞根庫(kù)中查找文本對(duì)應(yīng)的候選詞根,根據(jù)候選詞根的詞頻逆文檔頻率、詞性信息、候選詞根所在文檔的文檔信息、候選詞根在文檔中的位置信息,確定候選詞根的權(quán)重參數(shù),從而能夠?qū)⒚總€(gè)候選詞根的自身信息與其所在文檔信息結(jié)合考慮,在詞頻逆文檔頻率的基礎(chǔ)上更全面、更準(zhǔn)確地確定每個(gè)候選詞根在文本的詞根確定中的合理性權(quán)重,進(jìn)而能夠提升文本的詞根確定的準(zhǔn)確性。最后,根據(jù)候選詞根的權(quán)重參數(shù),從候選詞根中確定與文本對(duì)應(yīng)的目標(biāo)詞根,如此,能夠?yàn)椴煌谋镜脑~根確定出一個(gè)最準(zhǔn)確且不重復(fù)的目標(biāo)詞根,確保匹配詞根的統(tǒng)一性,從而也能提升生成數(shù)據(jù)表內(nèi)容的準(zhǔn)確性和規(guī)范性。



技術(shù)特征:

1.一種文本的詞根確定方法,其特征在于,所述方法包括:

2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述候選詞根的詞頻逆文檔頻率、詞性信息、所述候選詞根所在文檔的文檔信息、所述候選詞根在所述文檔中的位置信息,確定所述候選詞根的權(quán)重參數(shù),包括:

3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)每個(gè)所述候選詞根所在文檔的文檔長(zhǎng)度,確定每個(gè)所述文檔的文檔長(zhǎng)度權(quán)重,包括:

4.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)每個(gè)所述候選詞根的詞性信息,以及在所述文檔中的位置信息,確定每個(gè)所述候選詞根的詞項(xiàng)權(quán)重,包括:

5.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述候選詞根的權(quán)重參數(shù),從所述候選詞根中確定與所述文本對(duì)應(yīng)的目標(biāo)詞根,包括:

6.如權(quán)利要求5所述的方法,其特征在于,所述方法還包括:

7.如權(quán)利要求1所述的方法,其特征在于,所述方法包括:

8.一種文本的詞根確定裝置,其特征在于,所述裝置包括:

9.一種計(jì)算機(jī)設(shè)備,其特征在于,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有多條指令;所述處理器從所述存儲(chǔ)器中加載指令,以執(zhí)行如權(quán)利要求1~7任一項(xiàng)所述的文本的詞根確定方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,所述指令適于處理器進(jìn)行加載,以執(zhí)行如權(quán)利要求1~7任一項(xiàng)所述的文本的詞根確定方法的步驟。

11.一種計(jì)算機(jī)軟件,其特征在于,所述計(jì)算機(jī)軟件,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行如權(quán)利要求1~7任一項(xiàng)所述的文本的詞根確定方法的步驟。


技術(shù)總結(jié)
本申請(qǐng)公開(kāi)了一種文本的詞根確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),本申請(qǐng)中,從詞根庫(kù)中查找文本對(duì)應(yīng)的候選詞根,然后根據(jù)所述候選詞根的詞頻逆文檔頻率、詞性信息、所述候選詞根所在文檔的文檔信息、所述候選詞根在所述文檔中的位置信息,確定所述候選詞根的權(quán)重參數(shù),最后根據(jù)所述候選詞根的權(quán)重參數(shù),從所述候選詞根中確定與所述文本對(duì)應(yīng)的目標(biāo)詞根。本申請(qǐng)能夠提升文本詞根確定的準(zhǔn)確性和統(tǒng)一性,并提升數(shù)據(jù)表內(nèi)容的準(zhǔn)確性和規(guī)范性。

技術(shù)研發(fā)人員:謝朝勝
受保護(hù)的技術(shù)使用者:馬上消費(fèi)金融股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1