亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于漢字屬性向量表示的文本相似性計(jì)算方法及系統(tǒng)與流程

文檔序號(hào):12719582閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:包括以下步驟:

S1.基于漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型;

S2.基于帶標(biāo)注的短文本集,對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù),得到成熟的文本相似性計(jì)算模型;

S3.將待計(jì)算相似度的短文本消息輸入成熟的文本相似性計(jì)算模型中,得到短文本對(duì)之間的相似性,并結(jié)果并反饋給用戶。

2.根據(jù)權(quán)利要求1所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:步驟S1中所述文本相似性計(jì)算模型的數(shù)據(jù)處理方式包括以下子步驟:

S11.基于漢字屬性將短文本消息向量化;

S12.提取向量化后短文本消息的特征語(yǔ)義向量;

S13.依據(jù)短文本的語(yǔ)義特征向量,計(jì)算短文本消息的相似性。

3.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S11包括以下子步驟:

S111.對(duì)于短文本消息中的每個(gè)字,基于漢字筆畫(huà)庫(kù)和拼音庫(kù)構(gòu)建其字向量表示,獲得該短文本消息中的各個(gè)字向量ci,其中ci表示該短文本中第i個(gè)字的字向量;

S112.將構(gòu)建的字向量按其在短文本中出現(xiàn)的順序進(jìn)行拼接獲得該短文本消息的向量表示。

4.根據(jù)權(quán)利要求3所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的字向量ci的維度為32位,1-5位分別為該字中包含的橫、豎、撇、捺、折的個(gè)數(shù),6-31位為漢字對(duì)應(yīng)的26個(gè)拼音,第32位為漢字拼音的聲調(diào)。

5.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S12包括以下子步驟:

S121.設(shè)置滑動(dòng)窗口d,將滑動(dòng)窗口內(nèi)字的字向量按順序拼接形成上下文拼接向量:

第i個(gè)滑動(dòng)窗口內(nèi)的字向量由第i-d,i-d+1,...i,i+1,i+2,...i+d個(gè)字的字向量拼接而成,記為L(zhǎng)i

<mrow> <msub> <mi>L</mi> <mi>i</mi> </msub> <mo>=</mo> <msup> <mrow> <mo>&lsqb;</mo> <msubsup> <mi>c</mi> <mrow> <mi>i</mi> <mo>-</mo> <mi>d</mi> </mrow> <mi>T</mi> </msubsup> <mo>,</mo> <mo>...</mo> <msubsup> <mi>c</mi> <mi>i</mi> <mi>T</mi> </msubsup> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msubsup> <mi>c</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>d</mi> </mrow> <mi>T</mi> </msubsup> <mo>&rsqb;</mo> </mrow> <mi>T</mi> </msup> <mo>;</mo> </mrow>

S122.定義卷積矩陣為WL,用卷積矩陣WL和激活函數(shù)tanh作用于上下文拼接向量Li,獲得局部特征向量Fi

Fi=tanh(WL*Li);

S123.將獲得的所有局部特征向量Fi每一個(gè)維度的最大值提取出來(lái)形成表征向量R;

S124.定義語(yǔ)義矩陣為WS,將語(yǔ)義矩陣WS和激活函數(shù)tanh作用于表征向量R獲得最終的語(yǔ)義特征向量y:

y=tanh(WS*R)。

6.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S13包括:基于距離度量方法func計(jì)算兩個(gè)短文本消息構(gòu)成的文本對(duì)之間語(yǔ)義特征向量(y1,y2)的相似性:

<mrow> <mi>f</mi> <mi>u</mi> <mi>n</mi> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>y</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>y</mi> <mn>1</mn> <mi>T</mi> </msubsup> <msub> <mi>y</mi> <mn>2</mn> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>y</mi> <mn>2</mn> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> </mrow>

式中,y1表示文本對(duì)中第一個(gè)短文本消息的語(yǔ)義特征向量,y2表示文本對(duì)中第二個(gè)短文本消息的語(yǔ)義特征向量。

7.根據(jù)權(quán)利要求1所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S2包括以下子步驟:

S21.獲取帶有相似性標(biāo)注的短文本集;

S22.利用短文本相似性計(jì)算模型,將短文本集中的短文本消息表征為語(yǔ)義特征向量;

S23.利用短文本相似性計(jì)算模型,計(jì)算短文本對(duì)之間的語(yǔ)義相似性;

S24.根據(jù)短文本集中的標(biāo)注與計(jì)算得到的短文本對(duì)之間的語(yǔ)義相似性,構(gòu)建最小化誤差損失函數(shù)作為目標(biāo),并利用隨機(jī)梯度下降訓(xùn)練獲得相似性計(jì)算模型中的卷積矩陣參數(shù)WL和語(yǔ)義矩陣參數(shù)WS,獲得成熟的相似性計(jì)算模型。

8.根據(jù)權(quán)利要求1所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述步驟S3包括以下子步驟:

S31.將至少兩個(gè)待計(jì)算的相似度的短文本消息輸入成熟的相似性計(jì)算模型中;所述成熟的相似性計(jì)算模型,即訓(xùn)練得到的已知卷積矩陣參數(shù)WL和語(yǔ)義矩陣參數(shù)WS的計(jì)算模型;

S32.利用成熟的相似性計(jì)算模型,將各個(gè)輸入短文本消息表征為語(yǔ)義特征向量;

S33.利用成熟的相似性計(jì)算模型,計(jì)算各個(gè)短文本消息兩兩之間的語(yǔ)義相似性;

S34.將計(jì)算得到的結(jié)果反饋給用戶。

9.如權(quán)利要求1~8中任意一項(xiàng)所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法采用的系統(tǒng),其特征在于:包括服務(wù)端和客戶端;

所述服務(wù)端,用于提供文本相似性計(jì)算服務(wù),包括:

漢字屬性庫(kù),包括漢字筆畫(huà)庫(kù)和拼音庫(kù),用于存儲(chǔ)中文漢字的筆畫(huà)和拼音,為模型構(gòu)建提供依據(jù);

模型構(gòu)建模塊,用于根據(jù)漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型;

模型訓(xùn)練模塊,用于根據(jù)帶標(biāo)注的短文本集,對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù),得到成熟的文本相似性計(jì)算模型;

數(shù)據(jù)管理模塊,用于與客戶端通訊,將來(lái)自客戶端的短文本消息輸入成熟的計(jì)算模型中,得到相似性分析結(jié)果,并反饋給客戶端;

存儲(chǔ)模塊,用于將帶標(biāo)注的短文本集、用戶輸入待分析的短文本消息以及相似性分析結(jié)果進(jìn)行存儲(chǔ);

所述客戶端,用于為用戶提供輸入的接口便于用戶輸入待分析的短文本消息,同時(shí)將分析結(jié)果呈現(xiàn)給用戶。

10.如權(quán)利要求9中所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法采用的系統(tǒng),其特征在于:所述模型構(gòu)建模塊構(gòu)建的文本相似性計(jì)算模型包括:

短文本消息向量化單元,用于根據(jù)短文本消息中的漢字屬性,將短文本消息向量化;所述的漢字屬性包括漢字的筆畫(huà)和拼音;

語(yǔ)義特征提取單元,用于提取向量化后短文本消息的特征語(yǔ)義向量;

相似性計(jì)算單元,用于依據(jù)短文本的語(yǔ)義特征向量,計(jì)算短文本消息的相似性。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1