文本語義相似度的確定方法及裝置與流程

文檔序號：12464545閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>文本語義相似度的確定方法及裝置與流程

技術(shù)特征：

1.一種文本語義相似度的確定方法，其特征在于，所述方法包括：

獲取第一文本以及第二文本，所述第一文本和所述第二文本是需要進(jìn)行語義相似度計(jì)算的任意兩個文本；

根據(jù)預(yù)設(shè)標(biāo)簽主題Label LDA模型將所述第一文本以及所述第二文本分別轉(zhuǎn)換為第一主題標(biāo)簽向量和第二主題標(biāo)簽向量，所述第一主題標(biāo)簽向量和所述第二主題標(biāo)簽向量中每個維度對應(yīng)一個預(yù)設(shè)主題標(biāo)簽，每個維度對應(yīng)的維度值表示每個預(yù)設(shè)主題標(biāo)簽的權(quán)重值，所述預(yù)設(shè)主題標(biāo)簽為表示文本語義的單個主題詞；

根據(jù)向量相似度算法對所述第一主題標(biāo)簽向量和所述第二主題標(biāo)簽向量進(jìn)行相似度計(jì)算，得到所述第一文本與所述第二文本之間的語義相似度值。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述方法還包括：

獲取訓(xùn)練樣本，所述訓(xùn)練樣本包含大量的不同類型的文本數(shù)據(jù)；

根據(jù)預(yù)設(shè)主題標(biāo)簽對所述訓(xùn)練樣本進(jìn)行標(biāo)注，訓(xùn)練樣本中的每個文本至少對應(yīng)一個預(yù)設(shè)主題標(biāo)簽；

根據(jù)標(biāo)簽主題Label LDA算法對所述訓(xùn)練樣本以及所述訓(xùn)練樣本對應(yīng)的預(yù)設(shè)主題標(biāo)簽進(jìn)行訓(xùn)練，得到所述預(yù)設(shè)標(biāo)簽主題Label LDA模型。

3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于，所述根據(jù)向量相似度算法對所述第一主題標(biāo)簽向量和所述第二主題標(biāo)簽向量進(jìn)行相似度計(jì)算，包括：

分別對所述第一主題標(biāo)簽向量和所述第二主題標(biāo)簽向量進(jìn)行截取，保留所述第一主題標(biāo)簽向量和所述第二主題標(biāo)簽向量中小于等于截取閾值的維度值以及小于等于所述截取閾值的維度值對應(yīng)的維度，所述截取閾值為預(yù)設(shè)主題標(biāo)簽的倒數(shù)；

對截取后的第一主題標(biāo)簽向量和截取后的第二主題標(biāo)簽向量分別進(jìn)行歸一化處理，得到第一有效主題標(biāo)簽向量和第二有效主題標(biāo)簽向量；

根據(jù)最大標(biāo)簽相似度算法計(jì)算所述第一有效主題標(biāo)簽向量和所述第二有效主題標(biāo)簽向量之間的相似度值。

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述根據(jù)最大標(biāo)簽相似度算法計(jì)算第一有效主題標(biāo)簽向量和第二有效主題標(biāo)簽向量之間的相似度值，包括：

根據(jù)余弦相似度算法計(jì)算所述第一有效主題標(biāo)簽向量對應(yīng)的每一個預(yù)設(shè)主題標(biāo)簽分別與所述第二有效主題標(biāo)簽向量對應(yīng)的每一個預(yù)設(shè)主題標(biāo)簽之間的主題標(biāo)簽相似度值；

按照下述公式，計(jì)算所述第一有效主題標(biāo)簽向量和所述第二有效主題標(biāo)簽向量之間的相似度值：

$<mrow> <mi>S</mi> <mi>I</mi> <mi>M</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> </msubsup> <msub> <mi>NT</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>max</mi> <mo>(</mo> <mrow> <msubsup> <mi>p</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>K</mi> <mi>j</mi> </msub> </msubsup> <mrow> <mo>(</mo> <mrow> <mi>L</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mo>,</mo> <mi>L</mi> <msub> <mn>2</mn> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mo>Σ</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>K</mi> <mi>j</mi> </mrow> </msubsup> <msub> <mi>NT</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>max</mi> <mo>(</mo> <mrow> <msubsup> <mi>p</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> </msubsup> <mrow> <mo>(</mo> <mrow> <mi>L</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mo>,</mo> <mi>L</mi> <msub> <mn>2</mn> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mn>2</mn> </mfrac> </mrow>$

其中，SIM為所述第一有效主題標(biāo)簽向量和所述第二有效主題標(biāo)簽向量之間的相似度值，K_i為所述第一有效主題標(biāo)簽向量的維度數(shù)，K_j為第二有效主題標(biāo)簽向量的維度數(shù)，NT_i為第一有效主題標(biāo)簽向量中第i個維度對應(yīng)的維度值,NT_j為第二有效主題標(biāo)簽向量中第j個維度對應(yīng)的維度值；P(L1_i,L2_j)為第一有效主題標(biāo)簽向量中第i個維度值對應(yīng)的預(yù)設(shè)主題標(biāo)簽與第二有效主題標(biāo)簽向量中第j個維度值對應(yīng)的預(yù)設(shè)主題標(biāo)簽之間的主題標(biāo)簽相似度值。

5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述獲取第一文本以及第二文本，包括：

從互聯(lián)網(wǎng)中爬取所述第一文本以及所述第二文本。

6.一種文本語義相似度的確定裝置，其特征在于，所述裝置包括：

文本獲取單元，用于獲取第一文本以及第二文本，所述第一文本和所述第二文本是需要進(jìn)行語義相似度計(jì)算的任意兩個文本；

轉(zhuǎn)換單元，用于根據(jù)預(yù)設(shè)標(biāo)簽主題Label LDA模型將所述第一文本以及所述第二文本分別轉(zhuǎn)換為第一主題標(biāo)簽向量和第二主題標(biāo)簽向量，所述第一主題標(biāo)簽向量和所述第二主題標(biāo)簽向量中每個維度對應(yīng)一個預(yù)設(shè)主題標(biāo)簽，每個維度對應(yīng)的維度值表示每個預(yù)設(shè)主題標(biāo)簽的權(quán)重值，所述預(yù)設(shè)主題標(biāo)簽為表示文本語義的單個主題詞；

計(jì)算單元，用于根據(jù)向量相似度算法對所述第一主題標(biāo)簽向量和所述第二主題標(biāo)簽向量進(jìn)行相似度計(jì)算，得到所述第一文本與所述第二文本之間的語義相似度值。

7.根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述裝置還包括：

樣本獲取單元，用于獲取訓(xùn)練樣本，所述訓(xùn)練樣本包含大量的不同類型的文本數(shù)據(jù)；

標(biāo)注單元，用于根據(jù)預(yù)設(shè)主題標(biāo)簽對所述訓(xùn)練樣本進(jìn)行標(biāo)注，訓(xùn)練樣本中的每個文本至少對應(yīng)一個預(yù)設(shè)主題標(biāo)簽；

訓(xùn)練單元，用于根據(jù)標(biāo)簽主題Label LDA算法對所述訓(xùn)練樣本以及所述訓(xùn)練樣本對應(yīng)的預(yù)設(shè)主題標(biāo)簽進(jìn)行訓(xùn)練，得到所述預(yù)設(shè)標(biāo)簽主題Label LDA模型。

8.根據(jù)權(quán)利要求6或7所述的裝置，其特征在于，所述計(jì)算單元包括：

截取模塊，用于分別對所述第一主題標(biāo)簽向量和所述第二主題標(biāo)簽向量進(jìn)行截取，保留所述第一主題標(biāo)簽向量和所述第二主題標(biāo)簽向量中小于等于截取閾值的維度值以及小于等于所述截取閾值的維度值對應(yīng)的維度，所述截取閾值為預(yù)設(shè)主題標(biāo)簽的倒數(shù)；

歸一化模塊，用于對截取后的第一主題標(biāo)簽向量和截取后的第二主題標(biāo)簽向量分別進(jìn)行歸一化處理，得到第一有效主題標(biāo)簽向量和第二有效主題標(biāo)簽向量；

計(jì)算模塊，用于根據(jù)最大標(biāo)簽相似度算法計(jì)算所述第一有效主題標(biāo)簽向量和所述第二有效主題標(biāo)簽向量之間的相似度值。

9.根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述計(jì)算模塊，用于：

按照下述公式，計(jì)算所述第一有效主題標(biāo)簽向量和所述第二有效主題標(biāo)簽向量之間的相似度值：

$<mrow> <mi>S</mi> <mi>I</mi> <mi>M</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>Σ</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> </msubsup> <msub> <mi>NT</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>(</mo> <msubsup> <mi>p</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>K</mi> <mi>j</mi> </msub> </msubsup> <mo>(</mo> <mi>L</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mo>,</mo> <mi>L</mi> <msub> <mn>2</mn> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> <mo>)</mo> <mo>+</mo> <msubsup> <mi>Σ</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>K</mi> <mi>j</mi> </mrow> </msubsup> <msub> <mi>NT</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>(</mo> <msubsup> <mi>p</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> </msubsup> <mo>(</mo> <mi>L</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mo>,</mo> <mi>L</mi> <msub> <mn>2</mn> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </mfrac> </mrow>$

10.根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述文本獲取單元用于：

從互聯(lián)網(wǎng)中爬取所述第一文本以及所述第二文本。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2 3

相關(guān)技術(shù)