主題挖掘方法及裝置與流程

文檔序號：12363720閱讀：來源：國知局

技術特征：

1.一種主題挖掘方法，其特征在于，包括：

獲取待挖掘文本；

對文本進行切詞處理，得到文檔集；

針對所述文檔集進行特征詞篩選，其中，提高亞頻詞篩選權重、降低高頻詞篩選權重；所述高頻詞是指出現頻率高于第一頻率的詞項，亞頻詞是指出現頻率高于第二頻率且小于第一頻率的詞項，所述第一頻率和第二頻率是預置的值，且第一頻率大于第二頻率；

根據篩選出的特征詞，采用主題聚類算法，計算得到各個主題的概率分布。

2.如權利要求1所述的方法，其特征在于，采用如下公式實現所述提高亞頻詞篩選權重、降低高頻詞篩選權重：

其中，tfidf(d)表示詞項d的篩選權重。

3.如權利要求1所述的方法，其特征在于，在所述計算得到各個主題的概率分布之后，還包括：

基于主題的語句相似度，生成主題的候選語句列表。

4.如權利要求3所述的方法，其特征在于，所述基于主題的語句相似度，生成主題的候選語句列表，包括：

針對一個主題聚類得到的語句堆，計算各語句之間的相似度；

選擇出相似度大于預定相似度閾值的所有語句，計算各個語句的權重；

按照語句的權重從高至低，選擇出預置數量的相關語句，生成所述主題的候選語句列表。

5.如權利要求4所述的方法，其特征在于，所述計算各語句之間的相似度包括：

針對待計算相似度的兩個語句，分別針對兩個語句中的切詞構建兩個詞項向量；

利用余弦相似度計算并判斷兩個詞項向量的相似度，從而得到這兩個語句的相似度。

6.如權利要求1所述的方法，其特征在于，在對文本進行切詞處理之后、得到文檔集之前，所述方法還包括：

針對切詞得到的詞項進行垃圾內容過濾，由過濾后的詞項構成文檔集。

7.如權利要求6所述的方法，其特征在于，所述針對切詞得到的詞項進行垃圾內容過濾，包括：針對詞項進行停用詞過濾；和/或，針對詞項進行高頻詞過濾；和/或，針對詞項進行廣告、推銷、游戲內容的過濾。

8.一種主題挖掘裝置，其特征在于，包括：

文本獲取單元，用于獲取待挖掘文本；

切詞單元，用于對文本進行切詞處理，得到文檔集；

特征詞篩選單元，用于針對所述文檔集進行特征詞篩選，其中，提高亞頻詞篩選權重、降低高頻詞篩選權重；所述高頻詞是指出現頻率高于第一頻率的詞項目，亞頻詞是指出現頻率高于第二頻率且小于第一頻率的詞項，所述第一頻率和第二頻率是預置的值，且第一頻率大于第二頻率；

主題聚類單元，用于根據篩選出的特征詞，采用主題聚類算法，計算得到各個主題的概率分布。

9.如權利要求8所述的裝置，其特征在于，所述特征詞篩選單元具體用于，采用如下公式實現所述提高亞頻詞篩選權重、降低高頻詞篩選權重：

其中，tfidf(d)表示詞項d的篩選權重。

10.如權利要求7所述的裝置，其特征在于，還包括：

相似語句候選單元，用于基于主題的語句相似度，生成主題的候選語句列表。

11.如權利要求9所述的裝置，其特征在于，所述相似語句候選單元具體用于，針對一個主題聚類得到的語句堆，計算各語句之間的相似度；并選擇出相似度大于預定相似度閾值的所有語句，計算各個語句的權重；以及，按照語句的權重從高至低，選擇出預置數量的相關語句，生成所述主題的候選語句列表。

12.如權利要求11所述的裝置，其特征在于，所述相似語句候選單元具體用于，針對待計算相似度的兩個語句，分別針對兩個語句中的切詞構建兩個詞項向量；利用余弦相似度計算并判斷兩個詞項向量的相似度，從而得到這兩個語句的相似度。

13.如權利要求7所述的裝置，其特征在于，所述裝置還包括：垃圾內容過濾單元，用于針對切詞得到的詞項進行垃圾內容過濾，由過濾后的詞項構成文檔集。

14.如權利要求13所述的裝置，其特征在于，所述垃圾內容過濾單元具體用于，針對詞項進行停用詞過濾；和/或，針對詞項進行高頻詞過濾；和/或，針對詞項進行廣告、推銷、游戲內容的過濾。

完整全部詳細技術資料下載

當前第2頁1 2 3

相關技術

網友詢問留言已有0條留言

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看