1.一種文本編碼方法,其特征在于,包括:
預(yù)先構(gòu)建基于依存句法樹的文本編碼模型,所述文本編碼模型用于描述不同依存關(guān)系對應(yīng)的轉(zhuǎn)換矩陣和偏置項、以及每個詞向量映射到隱藏層的轉(zhuǎn)換矩陣和偏置項,相同依存關(guān)系對應(yīng)相同的轉(zhuǎn)換矩陣和偏置項,不同依存關(guān)系對應(yīng)的轉(zhuǎn)換矩陣和/或偏置項不同;
接收待編碼文本;
以句為單位,對所述待編碼文本進行依存句法分析,得到待編碼文本中各句文本的依存句法樹;
利用所述文本編碼模型及待編碼文本中各句文本的依存句法樹對待編碼文本進行編碼,得到編碼后的文本。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述構(gòu)建基于依存句法樹的文本編碼模型包括:
收集文本數(shù)據(jù);
以句為單位,對所述文本數(shù)據(jù)進行依存句法分析,得到每句文本的依存句法樹,所述依存句法樹中包括句中詞與詞之間的依存關(guān)系;
根據(jù)所有依存句法樹訓(xùn)練基于依存句法樹的文本編碼模型。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
在所述對各詞和詞性標注后的文本進行依存句法分析之前,去除每句文本中的無意義字符及非法字符。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對各句文本進行依存句法分析,得到各句文本的依存句法樹包括:
對各句文本進行分詞,得到各句文本中的各詞;
對各詞進行詞性標注;
對各詞和詞性標注后的文本進行依存句法分析,得到各句文本的依存句法樹。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所有依存句法樹訓(xùn)練基于依存句法樹的文本編碼模型包括:
將各依存句法樹中每個詞初始化為詞向量;
前向計算過程:根據(jù)所述依存句法樹中每個詞的詞向量及依存關(guān)系對應(yīng)的轉(zhuǎn)換矩陣和偏置項計算出各節(jié)點映射到隱藏層的值;
后向預(yù)測過程:根據(jù)所述依存句法樹中根節(jié)點隱藏層的值及依存關(guān)系預(yù)測出各子節(jié)點隱藏層的值;
參數(shù)更新過程:通過迭代執(zhí)行所述前向計算過程和后向預(yù)測過程更新模型參數(shù),并且當前向計算出的所有節(jié)點隱藏層的值與后向預(yù)測出的對應(yīng)節(jié)點隱藏層的值之間的誤差小于設(shè)定閾值時,結(jié)束參數(shù)更新過程,得到基于依存句法樹的文本編碼模型的模型參數(shù)。
6.根據(jù)權(quán)利要求1至5任一項所述的方法,其特征在于,所述利用所述文本編碼模型及待編碼文本中各句文本的依存句法樹對待編碼文本進行編碼,得到編碼后的文本包括:
依次將待編碼文本中各句文本的依存句法樹作為文本編碼的結(jié)構(gòu),根據(jù)文本編碼模型的參數(shù),從葉子節(jié)點開始遞歸向上計算每個節(jié)點映射到隱藏層的值,直到根節(jié)點,將計算得到的根節(jié)點映射到隱藏層的值作為該句文本的編碼。
7.一種文本編碼系統(tǒng),其特征在于,包括:
模型構(gòu)建模塊,用于預(yù)先構(gòu)建基于依存句法樹的文本編碼模型,所述文本編碼模型用于描述不同依存關(guān)系對應(yīng)的轉(zhuǎn)換矩陣和偏置項、以及每個詞向量映射到隱藏層的轉(zhuǎn)換矩陣和偏置項,相同依存關(guān)系對應(yīng)相同的轉(zhuǎn)換矩陣和偏置項,不同依存關(guān)系對應(yīng)的轉(zhuǎn)換矩陣和/或偏置項不同。;
文本接收模塊,用于接收待編碼文本;
句法分析模塊,用于以句為單位,對所述待編碼文本進行依存句法分析,得到待編碼文本中各句文本的依存句法樹;
編碼模塊,用于利用所述文本編碼模型及待編碼文本中各句文本的依存句法樹對待編碼文本進行編碼,得到編碼后的文本。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述模型構(gòu)建模塊包括:
數(shù)據(jù)收集單元,用于收集文本數(shù)據(jù);
句法分析單元,用于以句為單位,對所述文本數(shù)據(jù)進行依存句法分析, 得到每句文本的依存句法樹,所述依存句法樹中包括句中詞與詞之間的依存關(guān)系;
模型訓(xùn)練單元,用于根據(jù)所有依存句法樹訓(xùn)練基于依存句法樹的文本編碼模型。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述模型構(gòu)建模塊還包括:
過濾單元,用于在所述句法分析單元對各詞和詞性標注后的文本進行依存句法分析之前,去除每句文本中的無意義字符及非法字符。
10.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述句法分析單元包括:
分詞單元,用于對各句文本進行分詞,得到各句文本中的各詞;
標注單元,用于對各詞進行詞性標注;
分析單元,用于對各詞和詞性標注后的文本進行依存句法分析,得到各句文本的依存句法樹。
11.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述模型訓(xùn)練單元包括:
初始化單元,用于將各依存句法樹中每個詞初始化為詞向量;
前向計算單元,用于執(zhí)行前向計算過程:根據(jù)所述依存句法樹中每個詞的詞向量及依存關(guān)系對應(yīng)的轉(zhuǎn)換矩陣和偏置項計算出各節(jié)點映射到隱藏層的值;
后向預(yù)測單元,用于執(zhí)行后向預(yù)測過程:根據(jù)所述依存句法樹中根節(jié)點隱藏層的值及依存關(guān)系預(yù)測出各子節(jié)點隱藏層的值;
迭代控制單元,用于執(zhí)行參數(shù)更新過程:通過迭代方式觸發(fā)所述前向計算單元執(zhí)行所述前向計算過程、觸發(fā)所述后向預(yù)測單元執(zhí)行所述后向預(yù)測過程,以更新模型參數(shù),并且當前向計算出的所有節(jié)點隱藏層的值與后向預(yù)測出的對應(yīng)節(jié)點隱藏層的值之間的誤差小于設(shè)定閾值時,結(jié)束參數(shù)更新過程,得到基于依存句法樹的文本編碼模型的模型參數(shù)。
12.根據(jù)權(quán)利要求8至11任一項所述的系統(tǒng),其特征在于,
所述編碼模塊,具體用于依次將待編碼文本中各句文本的依存句法樹作為文本編碼的結(jié)構(gòu),根據(jù)文本編碼模型的參數(shù),從葉子節(jié)點開始遞歸向上計算每個節(jié)點映射到隱藏層的值,直到根節(jié)點,將計算得到的根節(jié)點映射到隱藏層的值作為該句文本的編碼。