1.一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:包括以下步驟:
S1.基于漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型;
S2.基于帶標(biāo)注的短文本集,對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù),得到成熟的文本相似性計(jì)算模型;
S3.將待計(jì)算相似度的短文本消息輸入成熟的文本相似性計(jì)算模型中,得到短文本對(duì)之間的相似性,并結(jié)果并反饋給用戶。
2.根據(jù)權(quán)利要求1所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:步驟S1中所述文本相似性計(jì)算模型的數(shù)據(jù)處理方式包括以下子步驟:
S11.基于漢字屬性將短文本消息向量化;
S12.提取向量化后短文本消息的特征語(yǔ)義向量;
S13.依據(jù)短文本的語(yǔ)義特征向量,計(jì)算短文本消息的相似性。
3.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S11包括以下子步驟:
S111.對(duì)于短文本消息中的每個(gè)字,基于漢字筆畫(huà)庫(kù)和拼音庫(kù)構(gòu)建其字向量表示,獲得該短文本消息中的各個(gè)字向量ci,其中ci表示該短文本中第i個(gè)字的字向量;
S112.將構(gòu)建的字向量按其在短文本中出現(xiàn)的順序進(jìn)行拼接獲得該短文本消息的向量表示。
4.根據(jù)權(quán)利要求3所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的字向量ci的維度為32位,1-5位分別為該字中包含的橫、豎、撇、捺、折的個(gè)數(shù),6-31位為漢字對(duì)應(yīng)的26個(gè)拼音,第32位為漢字拼音的聲調(diào)。
5.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S12包括以下子步驟:
S121.設(shè)置滑動(dòng)窗口d,將滑動(dòng)窗口內(nèi)字的字向量按順序拼接形成上下文拼接向量:
第i個(gè)滑動(dòng)窗口內(nèi)的字向量由第i-d,i-d+1,...i,i+1,i+2,...i+d個(gè)字的字向量拼接而成,記為L(zhǎng)i:
S122.定義卷積矩陣為WL,用卷積矩陣WL和激活函數(shù)tanh作用于上下文拼接向量Li,獲得局部特征向量Fi:
Fi=tanh(WL*Li);
S123.將獲得的所有局部特征向量Fi每一個(gè)維度的最大值提取出來(lái)形成表征向量R;
S124.定義語(yǔ)義矩陣為WS,將語(yǔ)義矩陣WS和激活函數(shù)tanh作用于表征向量R獲得最終的語(yǔ)義特征向量y:
y=tanh(WS*R)。
6.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S13包括:基于距離度量方法func計(jì)算兩個(gè)短文本消息構(gòu)成的文本對(duì)之間語(yǔ)義特征向量(y1,y2)的相似性:
式中,y1表示文本對(duì)中第一個(gè)短文本消息的語(yǔ)義特征向量,y2表示文本對(duì)中第二個(gè)短文本消息的語(yǔ)義特征向量。
7.根據(jù)權(quán)利要求1所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S2包括以下子步驟:
S21.獲取帶有相似性標(biāo)注的短文本集;
S22.利用短文本相似性計(jì)算模型,將短文本集中的短文本消息表征為語(yǔ)義特征向量;
S23.利用短文本相似性計(jì)算模型,計(jì)算短文本對(duì)之間的語(yǔ)義相似性;
S24.根據(jù)短文本集中的標(biāo)注與計(jì)算得到的短文本對(duì)之間的語(yǔ)義相似性,構(gòu)建最小化誤差損失函數(shù)作為目標(biāo),并利用隨機(jī)梯度下降訓(xùn)練獲得相似性計(jì)算模型中的卷積矩陣參數(shù)WL和語(yǔ)義矩陣參數(shù)WS,獲得成熟的相似性計(jì)算模型。
8.根據(jù)權(quán)利要求1所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述步驟S3包括以下子步驟:
S31.將至少兩個(gè)待計(jì)算的相似度的短文本消息輸入成熟的相似性計(jì)算模型中;所述成熟的相似性計(jì)算模型,即訓(xùn)練得到的已知卷積矩陣參數(shù)WL和語(yǔ)義矩陣參數(shù)WS的計(jì)算模型;
S32.利用成熟的相似性計(jì)算模型,將各個(gè)輸入短文本消息表征為語(yǔ)義特征向量;
S33.利用成熟的相似性計(jì)算模型,計(jì)算各個(gè)短文本消息兩兩之間的語(yǔ)義相似性;
S34.將計(jì)算得到的結(jié)果反饋給用戶。
9.如權(quán)利要求1~8中任意一項(xiàng)所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法采用的系統(tǒng),其特征在于:包括服務(wù)端和客戶端;
所述服務(wù)端,用于提供文本相似性計(jì)算服務(wù),包括:
漢字屬性庫(kù),包括漢字筆畫(huà)庫(kù)和拼音庫(kù),用于存儲(chǔ)中文漢字的筆畫(huà)和拼音,為模型構(gòu)建提供依據(jù);
模型構(gòu)建模塊,用于根據(jù)漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型;
模型訓(xùn)練模塊,用于根據(jù)帶標(biāo)注的短文本集,對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù),得到成熟的文本相似性計(jì)算模型;
數(shù)據(jù)管理模塊,用于與客戶端通訊,將來(lái)自客戶端的短文本消息輸入成熟的計(jì)算模型中,得到相似性分析結(jié)果,并反饋給客戶端;
存儲(chǔ)模塊,用于將帶標(biāo)注的短文本集、用戶輸入待分析的短文本消息以及相似性分析結(jié)果進(jìn)行存儲(chǔ);
所述客戶端,用于為用戶提供輸入的接口便于用戶輸入待分析的短文本消息,同時(shí)將分析結(jié)果呈現(xiàn)給用戶。
10.如權(quán)利要求9中所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法采用的系統(tǒng),其特征在于:所述模型構(gòu)建模塊構(gòu)建的文本相似性計(jì)算模型包括:
短文本消息向量化單元,用于根據(jù)短文本消息中的漢字屬性,將短文本消息向量化;所述的漢字屬性包括漢字的筆畫(huà)和拼音;
語(yǔ)義特征提取單元,用于提取向量化后短文本消息的特征語(yǔ)義向量;
相似性計(jì)算單元,用于依據(jù)短文本的語(yǔ)義特征向量,計(jì)算短文本消息的相似性。