亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

主題挖掘方法及裝置與流程

文檔序號:12363720閱讀:來源:國知局

技術特征:

1.一種主題挖掘方法,其特征在于,包括:

獲取待挖掘文本;

對文本進行切詞處理,得到文檔集;

針對所述文檔集進行特征詞篩選,其中,提高亞頻詞篩選權重、降低高頻詞篩選權重;所述高頻詞是指出現頻率高于第一頻率的詞項,亞頻詞是指出現頻率高于第二頻率且小于第一頻率的詞項,所述第一頻率和第二頻率是預置的值,且第一頻率大于第二頻率;

根據篩選出的特征詞,采用主題聚類算法,計算得到各個主題的概率分布。

2.如權利要求1所述的方法,其特征在于,采用如下公式實現所述提高亞頻詞篩選權重、降低高頻詞篩選權重:

其中,tfidf(d)表示詞項d的篩選權重。

3.如權利要求1所述的方法,其特征在于,在所述計算得到各個主題的概率分布之后,還包括:

基于主題的語句相似度,生成主題的候選語句列表。

4.如權利要求3所述的方法,其特征在于,所述基于主題的語句相似度,生成主題的候選語句列表,包括:

針對一個主題聚類得到的語句堆,計算各語句之間的相似度;

選擇出相似度大于預定相似度閾值的所有語句,計算各個語句的權重;

按照語句的權重從高至低,選擇出預置數量的相關語句,生成所述主題的候選語句列表。

5.如權利要求4所述的方法,其特征在于,所述計算各語句之間的相似度包括:

針對待計算相似度的兩個語句,分別針對兩個語句中的切詞構建兩個詞項向量;

利用余弦相似度計算并判斷兩個詞項向量的相似度,從而得到這兩個語句的相似度。

6.如權利要求1所述的方法,其特征在于,在對文本進行切詞處理之后、得到文檔集之前,所述方法還包括:

針對切詞得到的詞項進行垃圾內容過濾,由過濾后的詞項構成文檔集。

7.如權利要求6所述的方法,其特征在于,所述針對切詞得到的詞項進行垃圾內容過濾,包括:針對詞項進行停用詞過濾;和/或,針對詞項進行高頻詞過濾;和/或,針對詞項進行廣告、推銷、游戲內容的過濾。

8.一種主題挖掘裝置,其特征在于,包括:

文本獲取單元,用于獲取待挖掘文本;

切詞單元,用于對文本進行切詞處理,得到文檔集;

特征詞篩選單元,用于針對所述文檔集進行特征詞篩選,其中,提高亞頻詞篩選權重、降低高頻詞篩選權重;所述高頻詞是指出現頻率高于第一頻率的詞項目,亞頻詞是指出現頻率高于第二頻率且小于第一頻率的詞項,所述第一頻率和第二頻率是預置的值,且第一頻率大于第二頻率;

主題聚類單元,用于根據篩選出的特征詞,采用主題聚類算法,計算得到各個主題的概率分布。

9.如權利要求8所述的裝置,其特征在于,所述特征詞篩選單元具體用于,采用如下公式實現所述提高亞頻詞篩選權重、降低高頻詞篩選權重:

其中,tfidf(d)表示詞項d的篩選權重。

10.如權利要求7所述的裝置,其特征在于,還包括:

相似語句候選單元,用于基于主題的語句相似度,生成主題的候選語句列表。

11.如權利要求9所述的裝置,其特征在于,所述相似語句候選單元具體用于,針對一個主題聚類得到的語句堆,計算各語句之間的相似度;并選擇出相似度大于預定相似度閾值的所有語句,計算各個語句的權重;以及,按照語句的權重從高至低,選擇出預置數量的相關語句,生成所述主題的候選語句列表。

12.如權利要求11所述的裝置,其特征在于,所述相似語句候選單元具體用于,針對待計算相似度的兩個語句,分別針對兩個語句中的切詞構建兩個詞項向量;利用余弦相似度計算并判斷兩個詞項向量的相似度,從而得到這兩個語句的相似度。

13.如權利要求7所述的裝置,其特征在于,所述裝置還包括:垃圾內容過濾單元,用于針對切詞得到的詞項進行垃圾內容過濾,由過濾后的詞項構成文檔集。

14.如權利要求13所述的裝置,其特征在于,所述垃圾內容過濾單元具體用于,針對詞項進行停用詞過濾;和/或,針對詞項進行高頻詞過濾;和/或,針對詞項進行廣告、推銷、游戲內容的過濾。

當前第2頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1