技術(shù)特征:
1.一種基于深度學(xué)習(xí)的數(shù)值詞處理系統(tǒng),其特征在于,包括:語料獲取模塊、確定原型詞模塊和訓(xùn)練模塊,所述語料獲取模塊用于獲取語料信息;所述原型詞確定模塊從語料中找到具有代表性的原型詞集合;所述訓(xùn)練模塊包括判斷單元、差值單元和數(shù)值詞訓(xùn)練單元;所述判斷單元判斷原型詞集合中的詞是否為數(shù)值詞;所述差值單元用于從原型詞集合中采用差值方法來表示任意數(shù)值詞的詞向量;所述數(shù)值詞訓(xùn)練單元將該數(shù)值詞利用原型詞集合以及插值函數(shù)進(jìn)行插值,得到數(shù)值詞表示;將得到的數(shù)值詞表示輸入skipgram訓(xùn)練模塊進(jìn)行訓(xùn)練,訓(xùn)練得到原型數(shù)值詞詞向量。2.如權(quán)利要求1所述的基于深度學(xué)習(xí)的數(shù)值詞處理系統(tǒng),其特征在于,所述訓(xùn)練模塊還包括非數(shù)值詞訓(xùn)練單元,所述非數(shù)值詞訓(xùn)練單元用于從初始化好的詞向量矩陣中取出非數(shù)值詞,得到非數(shù)值詞詞表示;將得到的非數(shù)值詞輸入skipgram訓(xùn)練模塊進(jìn)行訓(xùn)練,訓(xùn)練得到非數(shù)值詞詞向量矩陣。3.如權(quán)利要求1所述的基于深度學(xué)習(xí)的數(shù)值詞處理系統(tǒng),其特征在于,所述原型詞確定模塊包括自組織映射單元,所述自組織映射單元用于從語料中找出分布均勻的原型詞集合。4.如權(quán)利要求1所述的基于深度學(xué)習(xí)的數(shù)值詞處理系統(tǒng),其特征在于,所述原型詞確定模塊包括高斯混合模型,所述高斯混合模型對(duì)整個(gè)數(shù)據(jù)集上的數(shù)值的分布進(jìn)行建模,用高斯分量的平均值來表示得到的原型詞集合。5.一種基于深度學(xué)習(xí)的數(shù)值詞處理方法,其特征在于,包括:獲取語料信息;從語料中找到具有代表性的原型詞集合;判斷原型詞集合中的詞是否為數(shù)值詞;若是數(shù)值詞,將該數(shù)值詞利用原型詞集合以及插值函數(shù)進(jìn)行插值,得到數(shù)值詞表示;將得到的數(shù)值詞表示輸入skipgram訓(xùn)練模塊進(jìn)行訓(xùn)練,訓(xùn)練得到原型數(shù)值詞詞向量。6.如權(quán)利要求5所述的基于深度學(xué)習(xí)的數(shù)值詞處理方法,其特征在于,還包括:若不是數(shù)值詞,將非數(shù)值詞從初始化好的詞向量矩陣中取出,獲得非數(shù)值詞詞表示;將得到的非數(shù)值詞輸入skipgram訓(xùn)練模塊進(jìn)行訓(xùn)練,訓(xùn)練得到非數(shù)值詞詞向量矩陣。7.如權(quán)利要求5所述的基于深度學(xué)習(xí)的數(shù)值詞處理方法,其特征在于,所述從語料中找到具有代表性的原型詞集合的具體方法包括:采用自組織映射方法從語料中找出分布均勻的原型詞集合。8.如權(quán)利要求5所述的基于深度學(xué)習(xí)的數(shù)值詞處理方法,其特征在于,所述從語料中找到具有代表性的原型詞集合的具體方法包括:采用高斯混合模型對(duì)數(shù)據(jù)集上的數(shù)值的分布進(jìn)行建模,用高斯分量的平均值來表示得到原型詞集合。9.一種智能終端,包括處理器、輸入設(shè)備、輸出設(shè)備和存儲(chǔ)器,所述處理器、輸入設(shè)備、輸出設(shè)備和存儲(chǔ)器相互連接,所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括程序指令,其特征在于,所述處理器被配置用于調(diào)用所述程序指令,執(zhí)行如權(quán)利要求5-8任一項(xiàng)所述的方法。10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,
所述計(jì)算機(jī)程序包括程序指令,所述程序指令當(dāng)被處理器執(zhí)行時(shí)使所述處理器執(zhí)行如權(quán)利要求5-8任一項(xiàng)所述的方法。
技術(shù)總結(jié)
本發(fā)明公開了基于深度學(xué)習(xí)的數(shù)值詞處理系統(tǒng),包括:原型詞確定模塊從語料中找到具有代表性的原型詞集合;訓(xùn)練模塊包括判斷單元、差值單元和數(shù)值詞訓(xùn)練單元;判斷單元判斷原型詞集合中的詞是否為數(shù)值詞;差值單元用于從原型詞集合中采用差值方法來表示任意數(shù)值詞的詞向量;所述數(shù)值詞訓(xùn)練單元將該數(shù)值詞利用原型詞集合以及插值函數(shù)進(jìn)行插值,得到數(shù)值詞表示;將得到的數(shù)值詞表示輸入SkipGram訓(xùn)練模塊進(jìn)行訓(xùn)練,訓(xùn)練得到原型數(shù)值詞詞向量。通過在語料中找到具有代表性的原型詞集合,利用差值方法從有限的原型詞表示任意的數(shù)值詞,將數(shù)值詞輸入SkipGram訓(xùn)練模塊訓(xùn)練,輸出高質(zhì)量的原型數(shù)值詞詞向量。型數(shù)值詞詞向量。型數(shù)值詞詞向量。
技術(shù)研發(fā)人員:沈李斌 屠可偉 蔣承越 奚寧 李波
受保護(hù)的技術(shù)使用者:上??萍即髮W(xué)
技術(shù)研發(fā)日:2020.07.15
技術(shù)公布日:2022/1/21