一種基于漢字屬性向量表示的文本相似性計(jì)算方法及系統(tǒng)與流程

文檔序號(hào)：12719582閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于漢字屬性向量表示的文本相似性計(jì)算方法及系統(tǒng)與流程

技術(shù)特征：

1.一種基于漢字屬性向量表示的文本相似性計(jì)算方法，其特征在于：包括以下步驟:

S1.基于漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型；

S2.基于帶標(biāo)注的短文本集，對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù)，得到成熟的文本相似性計(jì)算模型；

S3.將待計(jì)算相似度的短文本消息輸入成熟的文本相似性計(jì)算模型中，得到短文本對(duì)之間的相似性，并結(jié)果并反饋給用戶。

2.根據(jù)權(quán)利要求1所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法，其特征在于：步驟S1中所述文本相似性計(jì)算模型的數(shù)據(jù)處理方式包括以下子步驟：

S11.基于漢字屬性將短文本消息向量化；

S12.提取向量化后短文本消息的特征語(yǔ)義向量；

S13.依據(jù)短文本的語(yǔ)義特征向量，計(jì)算短文本消息的相似性。

3.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法，其特征在于：所述的步驟S11包括以下子步驟：

S111.對(duì)于短文本消息中的每個(gè)字，基于漢字筆畫(huà)庫(kù)和拼音庫(kù)構(gòu)建其字向量表示，獲得該短文本消息中的各個(gè)字向量c_i，其中c_i表示該短文本中第i個(gè)字的字向量；

S112.將構(gòu)建的字向量按其在短文本中出現(xiàn)的順序進(jìn)行拼接獲得該短文本消息的向量表示。

4.根據(jù)權(quán)利要求3所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法，其特征在于：所述的字向量c_i的維度為32位,1-5位分別為該字中包含的橫、豎、撇、捺、折的個(gè)數(shù)，6-31位為漢字對(duì)應(yīng)的26個(gè)拼音，第32位為漢字拼音的聲調(diào)。

5.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法，其特征在于：所述的步驟S12包括以下子步驟：

S121.設(shè)置滑動(dòng)窗口d，將滑動(dòng)窗口內(nèi)字的字向量按順序拼接形成上下文拼接向量：

第i個(gè)滑動(dòng)窗口內(nèi)的字向量由第i-d,i-d+1,...i,i+1,i+2,...i+d個(gè)字的字向量拼接而成，記為L(zhǎng)_i：

$<mrow> <msub> <mi>L</mi> <mi>i</mi> </msub> <mo>=</mo> <msup> <mrow> <mo>[</mo> <msubsup> <mi>c</mi> <mrow> <mi>i</mi> <mo>-</mo> <mi>d</mi> </mrow> <mi>T</mi> </msubsup> <mo>,</mo> <mo>...</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mi>T</mi> </msubsup> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msubsup> <mi>c</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>d</mi> </mrow> <mi>T</mi> </msubsup> <mo>]</mo> </mrow> <mi>T</mi> </msup> <mo>;</mo> </mrow>$

S122.定義卷積矩陣為W_L，用卷積矩陣W_L和激活函數(shù)tanh作用于上下文拼接向量L_i，獲得局部特征向量F_i：

F_i＝tanh(W_L*L_i)；

S123.將獲得的所有局部特征向量F_i每一個(gè)維度的最大值提取出來(lái)形成表征向量R；

S124.定義語(yǔ)義矩陣為W_S，將語(yǔ)義矩陣W_S和激活函數(shù)tanh作用于表征向量R獲得最終的語(yǔ)義特征向量y：

y＝tanh(W_S*R)。

6.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法，其特征在于：所述的步驟S13包括：基于距離度量方法func計(jì)算兩個(gè)短文本消息構(gòu)成的文本對(duì)之間語(yǔ)義特征向量(y₁,y₂)的相似性:

$<mrow> <mi>f</mi> <mi>u</mi> <mi>n</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>y</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>y</mi> <mn>1</mn> <mi>T</mi> </msubsup> <msub> <mi>y</mi> <mn>2</mn> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>y</mi> <mn>2</mn> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> </mrow>$

式中，y₁表示文本對(duì)中第一個(gè)短文本消息的語(yǔ)義特征向量，y₂表示文本對(duì)中第二個(gè)短文本消息的語(yǔ)義特征向量。

7.根據(jù)權(quán)利要求1所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法，其特征在于：所述的步驟S2包括以下子步驟：

S21.獲取帶有相似性標(biāo)注的短文本集；

S22.利用短文本相似性計(jì)算模型，將短文本集中的短文本消息表征為語(yǔ)義特征向量；

S23.利用短文本相似性計(jì)算模型，計(jì)算短文本對(duì)之間的語(yǔ)義相似性；

S24.根據(jù)短文本集中的標(biāo)注與計(jì)算得到的短文本對(duì)之間的語(yǔ)義相似性,構(gòu)建最小化誤差損失函數(shù)作為目標(biāo)，并利用隨機(jī)梯度下降訓(xùn)練獲得相似性計(jì)算模型中的卷積矩陣參數(shù)W_L和語(yǔ)義矩陣參數(shù)W_S，獲得成熟的相似性計(jì)算模型。

8.根據(jù)權(quán)利要求1所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法，其特征在于：所述步驟S3包括以下子步驟：

S31.將至少兩個(gè)待計(jì)算的相似度的短文本消息輸入成熟的相似性計(jì)算模型中；所述成熟的相似性計(jì)算模型，即訓(xùn)練得到的已知卷積矩陣參數(shù)W_L和語(yǔ)義矩陣參數(shù)W_S的計(jì)算模型；

S32.利用成熟的相似性計(jì)算模型，將各個(gè)輸入短文本消息表征為語(yǔ)義特征向量；

S33.利用成熟的相似性計(jì)算模型，計(jì)算各個(gè)短文本消息兩兩之間的語(yǔ)義相似性；

S34.將計(jì)算得到的結(jié)果反饋給用戶。

9.如權(quán)利要求1～8中任意一項(xiàng)所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法采用的系統(tǒng)，其特征在于：包括服務(wù)端和客戶端；

所述服務(wù)端，用于提供文本相似性計(jì)算服務(wù)，包括：

漢字屬性庫(kù)，包括漢字筆畫(huà)庫(kù)和拼音庫(kù)，用于存儲(chǔ)中文漢字的筆畫(huà)和拼音，為模型構(gòu)建提供依據(jù)；

模型構(gòu)建模塊，用于根據(jù)漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型；

模型訓(xùn)練模塊，用于根據(jù)帶標(biāo)注的短文本集，對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù)，得到成熟的文本相似性計(jì)算模型；

數(shù)據(jù)管理模塊，用于與客戶端通訊，將來(lái)自客戶端的短文本消息輸入成熟的計(jì)算模型中，得到相似性分析結(jié)果，并反饋給客戶端；

存儲(chǔ)模塊，用于將帶標(biāo)注的短文本集、用戶輸入待分析的短文本消息以及相似性分析結(jié)果進(jìn)行存儲(chǔ)；