亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

中文文本相似度的確定方法和裝置與流程

文檔序號(hào):12597368閱讀:來源:國(guó)知局

技術(shù)特征:

1.一種中文文本相似度的確定方法,其特征在于,包括:

將第一中文文本中的漢字轉(zhuǎn)化為拼音,得到第一拼音文本,將第二中文文本中的漢字轉(zhuǎn)化為拼音,得到第二拼音文本;

按照漢語拼音的規(guī)則統(tǒng)計(jì)所述第一拼音文本中每種拼音單元的個(gè)數(shù)和所述第二拼音文本中每種拼音單元的個(gè)數(shù);

由所述第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量,由所述第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量;

計(jì)算所述第一特征向量與所述第二特征向量的距離;

根據(jù)所述距離確定所述第一中文文本與所述第二中文文本的相似度,其中,所述距離越小,所述第一中文文本與所述第二中文文本的相似度越高。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,按照漢語拼音的規(guī)則統(tǒng)計(jì)所述第一拼音文本中每種拼音單元的個(gè)數(shù)和所述第二拼音文本中每種拼音單元的個(gè)數(shù)包括:

將漢字中的一個(gè)聲母作為一個(gè)拼音單元,一個(gè)韻母作為一個(gè)拼音單元,統(tǒng)計(jì)所述第一拼音文本中每種聲母和每種韻母的個(gè)數(shù)以及所述第二拼音文本中每種聲母和每種韻母的個(gè)數(shù)。

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,按照漢語拼音的規(guī)則統(tǒng)計(jì)所述第一拼音文本中每種拼音單元的個(gè)數(shù)和所述第二拼音文本中每種拼音單元的個(gè)數(shù)包括:

將漢字中的一個(gè)整體認(rèn)讀音節(jié)作為一個(gè)拼音單元,非整體認(rèn)讀音節(jié)的漢語拼音的一個(gè)聲母作為一個(gè)拼音單元,非整體認(rèn)讀音節(jié)的漢語拼音的一個(gè)韻母作為一個(gè)拼音單元,統(tǒng)計(jì)所述第一拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)以及所述第二拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)。

4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其特征在于,由所述第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量,由所述第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量包括:

將所述第一拼音文本中每種拼音單元的個(gè)數(shù)分別插入到預(yù)設(shè)向量的相應(yīng)維度的位置,得到所述第一特征向量,將所述第二拼音文本中每種拼音單元的個(gè)數(shù)分 別插入到預(yù)設(shè)向量的相應(yīng)維度的位置,得到所述第二特征向量,其中,所述預(yù)設(shè)向量為具有與按照預(yù)設(shè)順序排列的拼音單元的種類一一對(duì)應(yīng)的多個(gè)維度的向量。

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,計(jì)算所述第一特征向量與所述第二特征向量的距離包括:

計(jì)算所述第一特征向量與所述第二特征向量中每個(gè)對(duì)應(yīng)維度的差;

將所述每個(gè)對(duì)應(yīng)維度的差取絕對(duì)值,并將所述絕對(duì)值相加,得到所述距離。

6.一種中文文本相似度的確定裝置,其特征在于,包括:

轉(zhuǎn)化單元,用于將第一中文文本中的漢字轉(zhuǎn)化為拼音,得到第一拼音文本,將第二中文文本中的漢字轉(zhuǎn)化為拼音,得到第二拼音文本;

統(tǒng)計(jì)單元,用于按照漢語拼音的規(guī)則統(tǒng)計(jì)所述第一拼音文本中每種拼音單元的個(gè)數(shù)和所述第二拼音文本中每種拼音單元的個(gè)數(shù);

生成單元,用于由所述第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量,由所述第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量;

計(jì)算單元,用于計(jì)算所述第一特征向量與所述第二特征向量的距離;

確定單元,用于根據(jù)所述距離確定所述第一中文文本與所述第二中文文本的相似度,其中,所述距離越小,所述第一中文文本與所述第二中文文本的相似度越高。

7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述統(tǒng)計(jì)單元具體用于將漢字中的一個(gè)聲母作為一個(gè)拼音單元,一個(gè)韻母作為一個(gè)拼音單元,統(tǒng)計(jì)所述第一拼音文本中每種聲母和每種韻母的個(gè)數(shù)以及所述第二拼音文本中每種聲母和每種韻母的個(gè)數(shù)。

8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述統(tǒng)計(jì)單元具體用于將漢字中的一個(gè)整體認(rèn)讀音節(jié)作為一個(gè)拼音單元,非整體認(rèn)讀音節(jié)的漢語拼音的一個(gè)聲母作為一個(gè)拼音單元,非整體認(rèn)讀音節(jié)的漢語拼音的一個(gè)韻母作為一個(gè)拼音單元,統(tǒng)計(jì)所述第一拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)以及所述第二拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)。

9.根據(jù)權(quán)利要求6至8中任一項(xiàng)所述的裝置,其特征在于,所述生成單元具體用于將所述第一拼音文本中每種拼音單元的個(gè)數(shù)分別插入到預(yù)設(shè)向量的相應(yīng)維度的位置,得到所述第一特征向量,將所述第二拼音文本中每種拼音單元的個(gè)數(shù)分別插 入到預(yù)設(shè)向量的相應(yīng)維度的位置,得到所述第二特征向量,其中,所述預(yù)設(shè)向量為具有與按照預(yù)設(shè)順序排列的拼音單元的種類一一對(duì)應(yīng)的多個(gè)維度的向量。

10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述計(jì)算單元包括:

第一計(jì)算模塊,用于計(jì)算所述第一特征向量與所述第二特征向量中每個(gè)對(duì)應(yīng)維度的差;

第二計(jì)算模塊,用于將所述每個(gè)對(duì)應(yīng)維度的差取絕對(duì)值,并將所述絕對(duì)值相加,得到所述距離。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1