1.一種短文本語(yǔ)義相似度的計(jì)算方法,其特征在于,所述計(jì)算方法包括:
對(duì)待計(jì)算短文本進(jìn)行分詞;
通過(guò)連續(xù)詞袋模型對(duì)經(jīng)過(guò)所述分詞后的詞語(yǔ)進(jìn)行擴(kuò)展;
通過(guò)機(jī)器翻譯對(duì)經(jīng)過(guò)所述擴(kuò)展后的詞語(yǔ)進(jìn)行歧義消除;
對(duì)經(jīng)過(guò)所述歧義消除的詞語(yǔ)的重要性進(jìn)行計(jì)算,并對(duì)所述詞語(yǔ)的詞序進(jìn)行加權(quán);
計(jì)算經(jīng)過(guò)所述詞序加權(quán)的詞語(yǔ)的語(yǔ)義距離,并根據(jù)所述語(yǔ)義距離計(jì)算文本相似度。
2.如權(quán)利要求1所述的計(jì)算方法,其特征在于,所述對(duì)待計(jì)算短文本進(jìn)行分詞,包括:
通過(guò)隱馬爾科夫模型HMM以及n-gram語(yǔ)言模型對(duì)待計(jì)算短文本進(jìn)行分詞。
3.如權(quán)利要求2所述的計(jì)算方法,其特征在于,所述通過(guò)HMM以及n-gram語(yǔ)言模型對(duì)待計(jì)算短文本進(jìn)行分詞,包括:
通過(guò)4-Tag標(biāo)注法對(duì)所述待計(jì)算短文本進(jìn)行標(biāo)注;
根據(jù)所述標(biāo)注訓(xùn)練HMM。
4.如權(quán)利要求1所述的計(jì)算方法,其特征在于,如果待計(jì)算短文本沒(méi)有標(biāo)注,則使用Viterbi算法對(duì)所述待計(jì)算短文本進(jìn)行分詞。
5.如權(quán)利要求4所述的計(jì)算方法,其特征在于,所述使用Viterbi算法對(duì)所述待計(jì)算短文本進(jìn)行分詞,包括:
使用Viterbi算法返回待計(jì)算短文本的標(biāo)注序列中概率最大的一個(gè)標(biāo)注序列;
獲取最大概率的路徑作為所述短文本的標(biāo)注結(jié)果;
根據(jù)所述標(biāo)注結(jié)果進(jìn)行分詞。
6.如權(quán)利要求所述的計(jì)算方法,其特征在于,所述對(duì)所述詞語(yǔ)的詞序進(jìn)行加權(quán),包括:
通過(guò)向量空間距離對(duì)詞序進(jìn)行計(jì)算。
7.如權(quán)利要求1所述的計(jì)算方法,其特征在于,所述根據(jù)語(yǔ)義距離計(jì)算文本相似度,包括:
選取詞語(yǔ)權(quán)重較大的n個(gè)詞作為句子的關(guān)鍵詞;
根據(jù)關(guān)鍵詞在概念本體樹(shù)中的上下位關(guān)系對(duì)關(guān)鍵詞進(jìn)行擴(kuò)展;
利用廣度優(yōu)先搜索對(duì)2擴(kuò)展詞進(jìn)行概念向量表示:
S1={a1,a2,…,am}
S2={b1,b2,…,bm};
利用夾角余弦計(jì)算S1,S2的相似度sim(S1,S2),句子S1和S2的相似度值為sim(S1,S2)+α,其中α表示句子S1,S2詞序相似度。