亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種短文本語(yǔ)義相似度的計(jì)算方法與流程

文檔序號(hào):12666057閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.一種短文本語(yǔ)義相似度的計(jì)算方法,其特征在于,所述計(jì)算方法包括:

對(duì)待計(jì)算短文本進(jìn)行分詞;

通過(guò)連續(xù)詞袋模型對(duì)經(jīng)過(guò)所述分詞后的詞語(yǔ)進(jìn)行擴(kuò)展;

通過(guò)機(jī)器翻譯對(duì)經(jīng)過(guò)所述擴(kuò)展后的詞語(yǔ)進(jìn)行歧義消除;

對(duì)經(jīng)過(guò)所述歧義消除的詞語(yǔ)的重要性進(jìn)行計(jì)算,并對(duì)所述詞語(yǔ)的詞序進(jìn)行加權(quán);

計(jì)算經(jīng)過(guò)所述詞序加權(quán)的詞語(yǔ)的語(yǔ)義距離,并根據(jù)所述語(yǔ)義距離計(jì)算文本相似度。

2.如權(quán)利要求1所述的計(jì)算方法,其特征在于,所述對(duì)待計(jì)算短文本進(jìn)行分詞,包括:

通過(guò)隱馬爾科夫模型HMM以及n-gram語(yǔ)言模型對(duì)待計(jì)算短文本進(jìn)行分詞。

3.如權(quán)利要求2所述的計(jì)算方法,其特征在于,所述通過(guò)HMM以及n-gram語(yǔ)言模型對(duì)待計(jì)算短文本進(jìn)行分詞,包括:

通過(guò)4-Tag標(biāo)注法對(duì)所述待計(jì)算短文本進(jìn)行標(biāo)注;

根據(jù)所述標(biāo)注訓(xùn)練HMM。

4.如權(quán)利要求1所述的計(jì)算方法,其特征在于,如果待計(jì)算短文本沒(méi)有標(biāo)注,則使用Viterbi算法對(duì)所述待計(jì)算短文本進(jìn)行分詞。

5.如權(quán)利要求4所述的計(jì)算方法,其特征在于,所述使用Viterbi算法對(duì)所述待計(jì)算短文本進(jìn)行分詞,包括:

使用Viterbi算法返回待計(jì)算短文本的標(biāo)注序列中概率最大的一個(gè)標(biāo)注序列;

獲取最大概率的路徑作為所述短文本的標(biāo)注結(jié)果;

根據(jù)所述標(biāo)注結(jié)果進(jìn)行分詞。

6.如權(quán)利要求所述的計(jì)算方法,其特征在于,所述對(duì)所述詞語(yǔ)的詞序進(jìn)行加權(quán),包括:

通過(guò)向量空間距離對(duì)詞序進(jìn)行計(jì)算。

7.如權(quán)利要求1所述的計(jì)算方法,其特征在于,所述根據(jù)語(yǔ)義距離計(jì)算文本相似度,包括:

選取詞語(yǔ)權(quán)重較大的n個(gè)詞作為句子的關(guān)鍵詞;

根據(jù)關(guān)鍵詞在概念本體樹(shù)中的上下位關(guān)系對(duì)關(guān)鍵詞進(jìn)行擴(kuò)展;

利用廣度優(yōu)先搜索對(duì)2擴(kuò)展詞進(jìn)行概念向量表示:

S1={a1,a2,…,am}

S2={b1,b2,…,bm};

利用夾角余弦計(jì)算S1,S2的相似度sim(S1,S2),句子S1和S2的相似度值為sim(S1,S2)+α,其中α表示句子S1,S2詞序相似度。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1