1.一種中文文本相似度的確定方法,其特征在于,包括:
將第一中文文本中的漢字轉(zhuǎn)化為拼音,得到第一拼音文本,將第二中文文本中的漢字轉(zhuǎn)化為拼音,得到第二拼音文本;
按照漢語拼音的規(guī)則統(tǒng)計(jì)所述第一拼音文本中每種拼音單元的個(gè)數(shù)和所述第二拼音文本中每種拼音單元的個(gè)數(shù);
由所述第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量,由所述第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量;
計(jì)算所述第一特征向量與所述第二特征向量的距離;
根據(jù)所述距離確定所述第一中文文本與所述第二中文文本的相似度,其中,所述距離越小,所述第一中文文本與所述第二中文文本的相似度越高。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,按照漢語拼音的規(guī)則統(tǒng)計(jì)所述第一拼音文本中每種拼音單元的個(gè)數(shù)和所述第二拼音文本中每種拼音單元的個(gè)數(shù)包括:
將漢字中的一個(gè)聲母作為一個(gè)拼音單元,一個(gè)韻母作為一個(gè)拼音單元,統(tǒng)計(jì)所述第一拼音文本中每種聲母和每種韻母的個(gè)數(shù)以及所述第二拼音文本中每種聲母和每種韻母的個(gè)數(shù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,按照漢語拼音的規(guī)則統(tǒng)計(jì)所述第一拼音文本中每種拼音單元的個(gè)數(shù)和所述第二拼音文本中每種拼音單元的個(gè)數(shù)包括:
將漢字中的一個(gè)整體認(rèn)讀音節(jié)作為一個(gè)拼音單元,非整體認(rèn)讀音節(jié)的漢語拼音的一個(gè)聲母作為一個(gè)拼音單元,非整體認(rèn)讀音節(jié)的漢語拼音的一個(gè)韻母作為一個(gè)拼音單元,統(tǒng)計(jì)所述第一拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)以及所述第二拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其特征在于,由所述第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量,由所述第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量包括:
將所述第一拼音文本中每種拼音單元的個(gè)數(shù)分別插入到預(yù)設(shè)向量的相應(yīng)維度的位置,得到所述第一特征向量,將所述第二拼音文本中每種拼音單元的個(gè)數(shù)分 別插入到預(yù)設(shè)向量的相應(yīng)維度的位置,得到所述第二特征向量,其中,所述預(yù)設(shè)向量為具有與按照預(yù)設(shè)順序排列的拼音單元的種類一一對(duì)應(yīng)的多個(gè)維度的向量。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,計(jì)算所述第一特征向量與所述第二特征向量的距離包括:
計(jì)算所述第一特征向量與所述第二特征向量中每個(gè)對(duì)應(yīng)維度的差;
將所述每個(gè)對(duì)應(yīng)維度的差取絕對(duì)值,并將所述絕對(duì)值相加,得到所述距離。
6.一種中文文本相似度的確定裝置,其特征在于,包括:
轉(zhuǎn)化單元,用于將第一中文文本中的漢字轉(zhuǎn)化為拼音,得到第一拼音文本,將第二中文文本中的漢字轉(zhuǎn)化為拼音,得到第二拼音文本;
統(tǒng)計(jì)單元,用于按照漢語拼音的規(guī)則統(tǒng)計(jì)所述第一拼音文本中每種拼音單元的個(gè)數(shù)和所述第二拼音文本中每種拼音單元的個(gè)數(shù);
生成單元,用于由所述第一拼音文本中每種拼音單元的個(gè)數(shù)生成第一特征向量,由所述第二拼音文本中每種拼音單元的個(gè)數(shù)生成第二特征向量;
計(jì)算單元,用于計(jì)算所述第一特征向量與所述第二特征向量的距離;
確定單元,用于根據(jù)所述距離確定所述第一中文文本與所述第二中文文本的相似度,其中,所述距離越小,所述第一中文文本與所述第二中文文本的相似度越高。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述統(tǒng)計(jì)單元具體用于將漢字中的一個(gè)聲母作為一個(gè)拼音單元,一個(gè)韻母作為一個(gè)拼音單元,統(tǒng)計(jì)所述第一拼音文本中每種聲母和每種韻母的個(gè)數(shù)以及所述第二拼音文本中每種聲母和每種韻母的個(gè)數(shù)。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述統(tǒng)計(jì)單元具體用于將漢字中的一個(gè)整體認(rèn)讀音節(jié)作為一個(gè)拼音單元,非整體認(rèn)讀音節(jié)的漢語拼音的一個(gè)聲母作為一個(gè)拼音單元,非整體認(rèn)讀音節(jié)的漢語拼音的一個(gè)韻母作為一個(gè)拼音單元,統(tǒng)計(jì)所述第一拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)以及所述第二拼音文本中每種聲母、每種韻母以及每種整體認(rèn)讀音節(jié)的個(gè)數(shù)。
9.根據(jù)權(quán)利要求6至8中任一項(xiàng)所述的裝置,其特征在于,所述生成單元具體用于將所述第一拼音文本中每種拼音單元的個(gè)數(shù)分別插入到預(yù)設(shè)向量的相應(yīng)維度的位置,得到所述第一特征向量,將所述第二拼音文本中每種拼音單元的個(gè)數(shù)分別插 入到預(yù)設(shè)向量的相應(yīng)維度的位置,得到所述第二特征向量,其中,所述預(yù)設(shè)向量為具有與按照預(yù)設(shè)順序排列的拼音單元的種類一一對(duì)應(yīng)的多個(gè)維度的向量。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述計(jì)算單元包括:
第一計(jì)算模塊,用于計(jì)算所述第一特征向量與所述第二特征向量中每個(gè)對(duì)應(yīng)維度的差;
第二計(jì)算模塊,用于將所述每個(gè)對(duì)應(yīng)維度的差取絕對(duì)值,并將所述絕對(duì)值相加,得到所述距離。