一種短文本語(yǔ)義相似度的計(jì)算方法與流程

文檔序號(hào)：12666057閱讀：來(lái)源：國(guó)知局

技術(shù)特征：

1.一種短文本語(yǔ)義相似度的計(jì)算方法，其特征在于，所述計(jì)算方法包括：

對(duì)待計(jì)算短文本進(jìn)行分詞；

通過(guò)連續(xù)詞袋模型對(duì)經(jīng)過(guò)所述分詞后的詞語(yǔ)進(jìn)行擴(kuò)展；

通過(guò)機(jī)器翻譯對(duì)經(jīng)過(guò)所述擴(kuò)展后的詞語(yǔ)進(jìn)行歧義消除；

對(duì)經(jīng)過(guò)所述歧義消除的詞語(yǔ)的重要性進(jìn)行計(jì)算，并對(duì)所述詞語(yǔ)的詞序進(jìn)行加權(quán)；

計(jì)算經(jīng)過(guò)所述詞序加權(quán)的詞語(yǔ)的語(yǔ)義距離，并根據(jù)所述語(yǔ)義距離計(jì)算文本相似度。

2.如權(quán)利要求1所述的計(jì)算方法，其特征在于，所述對(duì)待計(jì)算短文本進(jìn)行分詞，包括：

通過(guò)隱馬爾科夫模型HMM以及n-gram語(yǔ)言模型對(duì)待計(jì)算短文本進(jìn)行分詞。

3.如權(quán)利要求2所述的計(jì)算方法，其特征在于，所述通過(guò)HMM以及n-gram語(yǔ)言模型對(duì)待計(jì)算短文本進(jìn)行分詞，包括：

通過(guò)4-Tag標(biāo)注法對(duì)所述待計(jì)算短文本進(jìn)行標(biāo)注；

根據(jù)所述標(biāo)注訓(xùn)練HMM。

4.如權(quán)利要求1所述的計(jì)算方法，其特征在于，如果待計(jì)算短文本沒(méi)有標(biāo)注，則使用Viterbi算法對(duì)所述待計(jì)算短文本進(jìn)行分詞。

5.如權(quán)利要求4所述的計(jì)算方法，其特征在于，所述使用Viterbi算法對(duì)所述待計(jì)算短文本進(jìn)行分詞，包括：

使用Viterbi算法返回待計(jì)算短文本的標(biāo)注序列中概率最大的一個(gè)標(biāo)注序列；

獲取最大概率的路徑作為所述短文本的標(biāo)注結(jié)果；

根據(jù)所述標(biāo)注結(jié)果進(jìn)行分詞。

6.如權(quán)利要求所述的計(jì)算方法，其特征在于，所述對(duì)所述詞語(yǔ)的詞序進(jìn)行加權(quán)，包括：

通過(guò)向量空間距離對(duì)詞序進(jìn)行計(jì)算。

7.如權(quán)利要求1所述的計(jì)算方法，其特征在于，所述根據(jù)語(yǔ)義距離計(jì)算文本相似度，包括：

選取詞語(yǔ)權(quán)重較大的n個(gè)詞作為句子的關(guān)鍵詞；

根據(jù)關(guān)鍵詞在概念本體樹(shù)中的上下位關(guān)系對(duì)關(guān)鍵詞進(jìn)行擴(kuò)展；

利用廣度優(yōu)先搜索對(duì)2擴(kuò)展詞進(jìn)行概念向量表示：

S1＝{a1，a2，…，am}

S2＝{b1，b2，…，bm}；

利用夾角余弦計(jì)算S1，S2的相似度sim(S1，S2)，句子S1和S2的相似度值為sim(S1,S2)+α，其中α表示句子S1，S2詞序相似度。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看