亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種特征提取方法及裝置與流程

文檔序號:12063651閱讀:來源:國知局

技術(shù)特征:

1.一種特征提取方法,其特征在于,所述方法:

從待處理文本中提取各個詞;

獲取所述待處理文本包含的各個主題,并從所述各個主題中選取至少一個目標主題;

計算所述各個詞與各個目標主題的相關(guān)度;

根據(jù)所述各個詞與各個目標主題的相關(guān)度,得到所述各個詞與所述待處理文本的相關(guān)度;

根據(jù)所述各個詞與所述待處理文本的相關(guān)度,從所述各個詞中選取至少一個詞作為所述待處理文本的特征。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算所述各個詞與各個目標主題的相關(guān)度,包括:

計算各個目標主題中各個詞的概率和所述待處理文本中各個目標主題的概率;

計算所述各個目標主題在所述待處理文本中出現(xiàn)的頻率;

計算所述各個詞在所述待處理文本中出現(xiàn)的頻率;

計算所述各個目標主題在所述待處理文本中出現(xiàn)的頻率、所述各個詞在所述待處理文本中出現(xiàn)的頻率、所述各個目標主題中各個詞的概率和所述待處理文本中各個目標主題的概率,計算所述各個詞與各個目標主題的相關(guān)度。

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計算所述各個目標主題在所述待處理文本中出現(xiàn)的頻率,包括:

計算所述待處理文本出現(xiàn)的頻率;

根據(jù)所述待處理文本中各個目標主題的概率和所述待處理文本出現(xiàn)的頻率,計算所述各個目標主題在所述待處理文本中出現(xiàn)的頻率。

4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計算所述各個詞在所述待處理文本中出現(xiàn)的頻率,包括:

計算所述各個詞的詞頻和從所述待處理文本中提取的詞的總數(shù);

根據(jù)所述各個詞的詞頻和從所述待處理文本中提取的詞的總數(shù),計算所述各個詞在所述待處理文本中出現(xiàn)的頻率。

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所包含的各個主題中選取至少一個目標主題,包括:

根據(jù)所述待處理文本中各個主題的概率,對各個主題按照概率由大到小的方式進行排序;

選取排序在其他主題前的預(yù)設(shè)數(shù)量的主題分別作為目標主題。

6.一種特征提取裝置,其特征在于,所述裝置:

提取單元,用于從待處理文本中提取各個詞;

主題獲取單元,用于獲取所述待處理文本包含的各個主題,并從所述各個主題中選取至少一個目標主題;

主題相關(guān)度計算單元,用于計算所述各個詞與各個目標主題的相關(guān)度;

文本相關(guān)度計算單元,用于根據(jù)所述各個詞與各個目標主題的相關(guān)度,得到所述各個詞與所述待處理文本的相關(guān)度;

特征選取單元,用于根據(jù)所述各個詞與所述待處理文本的相關(guān)度,從所述各個詞中選取至少一個詞作為所述待處理文本的特征。

7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述主題相關(guān)度計算單元,包括:

第一計算子單元,用于計算各個目標主題中各個詞的概率和所述待處理文本中各個目標主題的概率;

第二計算子單元,用于計算所述各個目標主題在所述待處理文本中出現(xiàn)的頻率;

第三計算子單元,用于計算所述各個詞在所述待處理文本中出現(xiàn)的頻率;

相關(guān)度計算子單元,用于根據(jù)所述各個目標主題在所述待處理文本中出現(xiàn)的頻率、所述各個詞在所述待處理文本中出現(xiàn)的頻率、所述各個目標主題中各個詞的概率和所述待處理文本中各個目標主題的概率,計算所述各個詞與各個目標主題的相關(guān)度。

8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第二計算子單元,具體用于計算所述待處理文本出現(xiàn)的頻率,并根據(jù)所述待處理文本中各個目標主題的概率和所述待處理文本出現(xiàn)的頻率,計算所述各個目標主題在所述待處理文本中出現(xiàn)的頻率。

9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第三計算子單元,具體用于計算所述各個詞的詞頻和從所述待處理文本中提取的詞的總數(shù),并根據(jù)所述各個詞的詞頻和從所述待處理文本中提取的詞的總數(shù),計算所述各個詞在所述待處理文本中出現(xiàn)的頻率。

10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述主題獲取單元,具體用于根據(jù)所述待處理文本中各個主題的概率,對各個主題按照概率由大到小的方式進行排序,并選取排序在其他主題前的預(yù)設(shè)數(shù)量的主題分別作為目標主題。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1