1.一種特征提取方法,其特征在于,所述方法:
從待處理文本中提取各個詞;
獲取所述待處理文本包含的各個主題,并從所述各個主題中選取至少一個目標主題;
計算所述各個詞與各個目標主題的相關(guān)度;
根據(jù)所述各個詞與各個目標主題的相關(guān)度,得到所述各個詞與所述待處理文本的相關(guān)度;
根據(jù)所述各個詞與所述待處理文本的相關(guān)度,從所述各個詞中選取至少一個詞作為所述待處理文本的特征。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算所述各個詞與各個目標主題的相關(guān)度,包括:
計算各個目標主題中各個詞的概率和所述待處理文本中各個目標主題的概率;
計算所述各個目標主題在所述待處理文本中出現(xiàn)的頻率;
計算所述各個詞在所述待處理文本中出現(xiàn)的頻率;
計算所述各個目標主題在所述待處理文本中出現(xiàn)的頻率、所述各個詞在所述待處理文本中出現(xiàn)的頻率、所述各個目標主題中各個詞的概率和所述待處理文本中各個目標主題的概率,計算所述各個詞與各個目標主題的相關(guān)度。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計算所述各個目標主題在所述待處理文本中出現(xiàn)的頻率,包括:
計算所述待處理文本出現(xiàn)的頻率;
根據(jù)所述待處理文本中各個目標主題的概率和所述待處理文本出現(xiàn)的頻率,計算所述各個目標主題在所述待處理文本中出現(xiàn)的頻率。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計算所述各個詞在所述待處理文本中出現(xiàn)的頻率,包括:
計算所述各個詞的詞頻和從所述待處理文本中提取的詞的總數(shù);
根據(jù)所述各個詞的詞頻和從所述待處理文本中提取的詞的總數(shù),計算所述各個詞在所述待處理文本中出現(xiàn)的頻率。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所包含的各個主題中選取至少一個目標主題,包括:
根據(jù)所述待處理文本中各個主題的概率,對各個主題按照概率由大到小的方式進行排序;
選取排序在其他主題前的預(yù)設(shè)數(shù)量的主題分別作為目標主題。
6.一種特征提取裝置,其特征在于,所述裝置:
提取單元,用于從待處理文本中提取各個詞;
主題獲取單元,用于獲取所述待處理文本包含的各個主題,并從所述各個主題中選取至少一個目標主題;
主題相關(guān)度計算單元,用于計算所述各個詞與各個目標主題的相關(guān)度;
文本相關(guān)度計算單元,用于根據(jù)所述各個詞與各個目標主題的相關(guān)度,得到所述各個詞與所述待處理文本的相關(guān)度;
特征選取單元,用于根據(jù)所述各個詞與所述待處理文本的相關(guān)度,從所述各個詞中選取至少一個詞作為所述待處理文本的特征。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述主題相關(guān)度計算單元,包括:
第一計算子單元,用于計算各個目標主題中各個詞的概率和所述待處理文本中各個目標主題的概率;
第二計算子單元,用于計算所述各個目標主題在所述待處理文本中出現(xiàn)的頻率;
第三計算子單元,用于計算所述各個詞在所述待處理文本中出現(xiàn)的頻率;
相關(guān)度計算子單元,用于根據(jù)所述各個目標主題在所述待處理文本中出現(xiàn)的頻率、所述各個詞在所述待處理文本中出現(xiàn)的頻率、所述各個目標主題中各個詞的概率和所述待處理文本中各個目標主題的概率,計算所述各個詞與各個目標主題的相關(guān)度。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第二計算子單元,具體用于計算所述待處理文本出現(xiàn)的頻率,并根據(jù)所述待處理文本中各個目標主題的概率和所述待處理文本出現(xiàn)的頻率,計算所述各個目標主題在所述待處理文本中出現(xiàn)的頻率。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第三計算子單元,具體用于計算所述各個詞的詞頻和從所述待處理文本中提取的詞的總數(shù),并根據(jù)所述各個詞的詞頻和從所述待處理文本中提取的詞的總數(shù),計算所述各個詞在所述待處理文本中出現(xiàn)的頻率。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述主題獲取單元,具體用于根據(jù)所述待處理文本中各個主題的概率,對各個主題按照概率由大到小的方式進行排序,并選取排序在其他主題前的預(yù)設(shè)數(shù)量的主題分別作為目標主題。