1.一種推廣信息的檢測方法,包括:
獲取預設的樣本集合,提取所述樣本集合中的各個樣本所包含的信息單元;
統(tǒng)計每個信息單元在所述樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預設的第一閾值的信息單元確定為候選特征單元;
針對每個候選特征單元,分別統(tǒng)計該候選特征單元在各個文檔位置的分布情況,根據(jù)統(tǒng)計結(jié)果確定該候選特征單元是否為推廣特征單元;
根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息。
2.根據(jù)權利要求1所述的方法,其中,所述分別統(tǒng)計該候選特征單元在各個文檔位置的分布情況,根據(jù)統(tǒng)計結(jié)果確定該候選特征單元是否為推廣特征單元的步驟具體包括:
設置用于表示該候選特征單元在各個文檔位置的分布情況的向量;其中,所述向量中的各個元素分別對應于各個文檔位置;
若該候選特征單元在指定文檔位置的分布數(shù)量大于預設的分布閾值,則該指定文檔位置所對應的元素的元素值非零;若該候選特征單元在指定文檔位置的分布數(shù)量不大于預設的分布閾值,則該指定文檔位置所對應的元素的元素值為零;
當所述向量中非零元素的個數(shù)大于預設的元素閾值時,確定該候選特征單元為推廣特征單元。
3.根據(jù)權利要求2所述的方法,其中,所述設置用于表示該候選特征單元在各個文檔位置的分布情況的向量的步驟之前,進一步包括步驟:根據(jù)預設的位置劃分規(guī)則將文檔內(nèi)容劃分為多個文檔位置;其中,所述預設的位置劃分規(guī)則包括:基于段落粒度的劃分規(guī)則、以及基于句子粒度的劃分規(guī)則;
且所述候選特征單元在指定文檔位置的分布數(shù)量包括:所述候選特征單元在指定文檔位置的出現(xiàn)次數(shù)、和/或出現(xiàn)概率。
4.根據(jù)權利要求1-3任一所述的方法,其中,所述獲取預設的樣本集合的步驟具體包括:
對多個候選樣本進行消重處理,根據(jù)消重處理后的候選樣本得到所述樣本集合。
5.根據(jù)權利要求4所述的方法,其中,所述對多個候選樣本進行消重處理的步驟具體包括:
計算各個候選樣本的標題之間的相似度,針對標題之間的相似度大于預設的相似度閾值的候選樣本進行消重;
針對標題之間的相似度不大于預設的相似度閾值的候選樣本,查詢各個候選樣本所對應的關鍵詞集合,若兩個候選樣本所對應的關鍵詞集合中包含的相同關鍵詞的數(shù)量大于預設的數(shù)量閾值,則針對所述兩個候選樣本進行消重。
6.根據(jù)權利要求5所述的方法,其中,所述計算各個候選樣本的標題之間的相似度的步驟具體包括:通過最大公共子序列算法計算各個候選樣本的標題之間的相似度;
且各個候選樣本所對應的關鍵詞集合根據(jù)對候選樣本進行分詞處理后得到的各個詞匯的逆向文件頻率確定;所述數(shù)量閾值根據(jù)杰卡德相似度算法確定。
7.根據(jù)權利要求1-6任一所述的方法,其中,所述根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息的步驟具體包括:
根據(jù)已確定的推廣特征單元及其在各個文檔位置的分布情況,設置對應的文檔檢測模型,根據(jù)所述文檔檢測模型檢測文檔中包含的推廣信息。
8.根據(jù)權利要求7所述的方法,其中,所述根據(jù)已確定的推廣特征單元及其在各個文檔位置的分布情況,設置對應的文檔檢測模型的步驟具體包括:
根據(jù)所述已確定的推廣特征單元及其在各個文檔位置的出現(xiàn)概率以及預設的位置權重,設置所述文檔檢測模型中包含的模型參數(shù)以及各個模型參數(shù)所對應的權重值。
9.根據(jù)權利要求8所述的方法,其中,所述根據(jù)所述文檔檢測模型檢測文檔中包含的推廣信息的步驟具體包括:
從待檢測的文檔所包含的各個信息單元中查找與所述文檔檢測模型中包含的模型參數(shù)相匹配的信息單元;
針對查找到的每個信息單元,根據(jù)該信息單元在所述待檢測的文檔中的文檔位置和/或與該信息單元相匹配的模型參數(shù)的權重值,確定該信息單元的分值,根據(jù)分值確定該信息單元是否為推廣信息。
10.一種推廣信息的檢測裝置,包括:
信息單元提取模塊,用于獲取預設的樣本集合,提取所述樣本集合中的各個樣本所包含的信息單元;
候選單元確定模塊,用于統(tǒng)計每個信息單元在所述樣本集合中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)大于預設的第一閾值的信息單元確定為候選特征單元;
推廣單元確定模塊,用于針對每個候選特征單元,分別統(tǒng)計該候選特征單元在各個文檔位置的分布情況,根據(jù)統(tǒng)計結(jié)果確定該候選特征單元是否為推廣特征單元;
檢測模塊,用于根據(jù)已確定的推廣特征單元檢測文檔中包含的推廣信息。