1.一種主題挖掘方法,其特征在于,包括:
獲取待挖掘文本;
對文本進行切詞處理,得到文檔集;
針對所述文檔集進行特征詞篩選,其中,提高亞頻詞篩選權重、降低高頻詞篩選權重;所述高頻詞是指出現頻率高于第一頻率的詞項,亞頻詞是指出現頻率高于第二頻率且小于第一頻率的詞項,所述第一頻率和第二頻率是預置的值,且第一頻率大于第二頻率;
根據篩選出的特征詞,采用主題聚類算法,計算得到各個主題的概率分布。
2.如權利要求1所述的方法,其特征在于,采用如下公式實現所述提高亞頻詞篩選權重、降低高頻詞篩選權重:
其中,tfidf(d)表示詞項d的篩選權重。
3.如權利要求1所述的方法,其特征在于,在所述計算得到各個主題的概率分布之后,還包括:
基于主題的語句相似度,生成主題的候選語句列表。
4.如權利要求3所述的方法,其特征在于,所述基于主題的語句相似度,生成主題的候選語句列表,包括:
針對一個主題聚類得到的語句堆,計算各語句之間的相似度;
選擇出相似度大于預定相似度閾值的所有語句,計算各個語句的權重;
按照語句的權重從高至低,選擇出預置數量的相關語句,生成所述主題的候選語句列表。
5.如權利要求4所述的方法,其特征在于,所述計算各語句之間的相似度包括:
針對待計算相似度的兩個語句,分別針對兩個語句中的切詞構建兩個詞項向量;
利用余弦相似度計算并判斷兩個詞項向量的相似度,從而得到這兩個語句的相似度。
6.如權利要求1所述的方法,其特征在于,在對文本進行切詞處理之后、得到文檔集之前,所述方法還包括:
針對切詞得到的詞項進行垃圾內容過濾,由過濾后的詞項構成文檔集。
7.如權利要求6所述的方法,其特征在于,所述針對切詞得到的詞項進行垃圾內容過濾,包括:針對詞項進行停用詞過濾;和/或,針對詞項進行高頻詞過濾;和/或,針對詞項進行廣告、推銷、游戲內容的過濾。
8.一種主題挖掘裝置,其特征在于,包括:
文本獲取單元,用于獲取待挖掘文本;
切詞單元,用于對文本進行切詞處理,得到文檔集;
特征詞篩選單元,用于針對所述文檔集進行特征詞篩選,其中,提高亞頻詞篩選權重、降低高頻詞篩選權重;所述高頻詞是指出現頻率高于第一頻率的詞項目,亞頻詞是指出現頻率高于第二頻率且小于第一頻率的詞項,所述第一頻率和第二頻率是預置的值,且第一頻率大于第二頻率;
主題聚類單元,用于根據篩選出的特征詞,采用主題聚類算法,計算得到各個主題的概率分布。
9.如權利要求8所述的裝置,其特征在于,所述特征詞篩選單元具體用于,采用如下公式實現所述提高亞頻詞篩選權重、降低高頻詞篩選權重:
其中,tfidf(d)表示詞項d的篩選權重。
10.如權利要求7所述的裝置,其特征在于,還包括:
相似語句候選單元,用于基于主題的語句相似度,生成主題的候選語句列表。
11.如權利要求9所述的裝置,其特征在于,所述相似語句候選單元具體用于,針對一個主題聚類得到的語句堆,計算各語句之間的相似度;并選擇出相似度大于預定相似度閾值的所有語句,計算各個語句的權重;以及,按照語句的權重從高至低,選擇出預置數量的相關語句,生成所述主題的候選語句列表。
12.如權利要求11所述的裝置,其特征在于,所述相似語句候選單元具體用于,針對待計算相似度的兩個語句,分別針對兩個語句中的切詞構建兩個詞項向量;利用余弦相似度計算并判斷兩個詞項向量的相似度,從而得到這兩個語句的相似度。
13.如權利要求7所述的裝置,其特征在于,所述裝置還包括:垃圾內容過濾單元,用于針對切詞得到的詞項進行垃圾內容過濾,由過濾后的詞項構成文檔集。
14.如權利要求13所述的裝置,其特征在于,所述垃圾內容過濾單元具體用于,針對詞項進行停用詞過濾;和/或,針對詞項進行高頻詞過濾;和/或,針對詞項進行廣告、推銷、游戲內容的過濾。