1.一種相似新聞信息的識(shí)別方法,其特征在于,包括以下步驟:
獲取待識(shí)別的任兩個(gè)新聞信息,所述新聞信息包括新聞標(biāo)題;
判斷兩個(gè)新聞標(biāo)題的相似度是否滿足第一預(yù)設(shè)條件;
在所述兩個(gè)新聞標(biāo)題的相似度滿足所述第一預(yù)設(shè)條件時(shí),確定所述兩個(gè)新聞信息為相似新聞信息。
2.如權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
在所述兩個(gè)新聞標(biāo)題的相似度不滿足所述第一預(yù)設(shè)條件時(shí),判斷所述新聞信息是否包含對(duì)應(yīng)的原始新聞標(biāo)題;
在所述新聞信息包含原始新聞標(biāo)題時(shí),判斷一個(gè)新聞標(biāo)題與另一個(gè)原始新聞標(biāo)題的相似度是否滿足第二預(yù)設(shè)條件;
在所述一個(gè)新聞標(biāo)題與另一個(gè)原始新聞標(biāo)題的相似度滿足所述第二預(yù)設(shè)條件時(shí),確定所述兩個(gè)新聞信息為相似新聞信息。
3.如權(quán)利要求2所述的方法,其特征在于,所述新聞信息還包括新聞?wù)?,所述方法還包括:
在所述新聞信息不包含對(duì)應(yīng)的原始新聞標(biāo)題時(shí)或在一個(gè)新聞標(biāo)題與另一個(gè)原始新聞標(biāo)題的相似度不滿足所述第二預(yù)設(shè)條件時(shí),判斷兩個(gè)新聞?wù)牡南嗨贫仁欠駶M足第三預(yù)設(shè)條件;
在所述兩個(gè)新聞?wù)牡南嗨贫葷M足所述第三預(yù)設(shè)條件時(shí),確定所述兩個(gè)新聞信息為相似新聞信息。
4.如權(quán)利要求1所述的方法,其特征在于,所述判斷兩個(gè)新聞標(biāo)題的相似度是否滿足第一預(yù)設(shè)條件,包括:
判斷所述兩個(gè)新聞標(biāo)題是否相同;
對(duì)應(yīng)地,在所述兩個(gè)新聞標(biāo)題的相似度滿足所述第一預(yù)設(shè)條件時(shí),確定所述兩個(gè)新聞信息為相似新聞信息,包括:
在所述兩個(gè)新聞標(biāo)題相同時(shí),確定所述兩個(gè)新聞信息為相似新聞信息。
5.如權(quán)利要求4所述的方法,其特征在于,還包括:
在所述兩個(gè)新聞標(biāo)題不相同時(shí),獲取對(duì)每個(gè)新聞標(biāo)題進(jìn)行分詞處理后的詞匯集合,所述詞匯集合包括對(duì)新聞標(biāo)題進(jìn)行分詞后的若干詞語(yǔ);
判斷一個(gè)詞匯集合是否包含另一個(gè)詞匯集合中的所有詞語(yǔ);
對(duì)應(yīng)地,在所述兩個(gè)新聞標(biāo)題的相似度滿足所述第一預(yù)設(shè)條件時(shí),確定所述兩個(gè)新聞信息為相似新聞信息,包括:
在所述一個(gè)詞匯集合包含另一個(gè)詞匯集合中的所有詞語(yǔ)時(shí),確定所述兩個(gè)新聞信息為相似新聞信息。
6.如權(quán)利要求5所述的方法,其特征在于,還包括:
在所述一個(gè)詞匯集合不包含另一個(gè)詞匯集合中的所有詞語(yǔ)時(shí),判斷所述一個(gè)詞匯集合中的詞語(yǔ)與另一個(gè)詞匯集合中的詞語(yǔ)的第一匹配度是否大于第一閾值;且根據(jù)依存文法關(guān)系判斷所述一個(gè)詞匯集合中的詞語(yǔ)與另一個(gè)詞匯集合中的詞語(yǔ)的第二匹配度是否大于第二閾值;
對(duì)應(yīng)地,在所述兩個(gè)新聞標(biāo)題的相似度滿足所述第一預(yù)設(shè)條件時(shí),確定所述兩個(gè)新聞信息為相似新聞信息,包括:
在所述第一匹配度大于第一閾值且所述第二匹配度大于第二閾值時(shí),確定所述兩個(gè)新聞信息為相似新聞信息。
7.如權(quán)利要求2所述的方法,其特征在于,所述判斷一個(gè)新聞標(biāo)題與另一個(gè)原始新聞標(biāo)題的相似度是否滿足第二預(yù)設(shè)條件,包括:
判斷所述一個(gè)新聞標(biāo)題與另一個(gè)原始新聞標(biāo)題是否相同;
對(duì)應(yīng)地,在所述一個(gè)新聞標(biāo)題與另一個(gè)原始新聞標(biāo)題的相似度滿足所述第二預(yù)設(shè)條件時(shí),確定所述兩個(gè)新聞信息為相似新聞信息,包括:
在所述述一個(gè)新聞標(biāo)題與另一個(gè)原始新聞標(biāo)題相同時(shí),確定所述兩個(gè)新聞信息為相似新聞信息。
8.如權(quán)利要求3所述的方法,其特征在于,所述判斷兩個(gè)新聞?wù)牡南嗨贫仁欠駶M足第三預(yù)設(shè)條件,包括:
分別提取與所述兩個(gè)新聞標(biāo)題對(duì)應(yīng)的新聞?wù)牡年P(guān)鍵詞,得到第一關(guān)鍵詞集合和第二關(guān)鍵詞集合;
確定所述第一關(guān)鍵詞集合和所述第二關(guān)鍵詞集合中每個(gè)關(guān)鍵詞的權(quán)重;
根據(jù)所述每個(gè)關(guān)鍵詞的名稱和權(quán)重確定所述第一關(guān)鍵詞集合與所述第二關(guān)鍵詞集合中的相同關(guān)鍵詞;
根據(jù)所述相同關(guān)鍵詞確定所述第一關(guān)鍵詞集合與所述第二關(guān)鍵詞集合的關(guān)鍵詞重復(fù)率;
判斷所述重復(fù)率是否大于預(yù)設(shè)概率;
對(duì)應(yīng)地,在所述兩個(gè)新聞?wù)牡南嗨贫葷M足所述第三預(yù)設(shè)條件時(shí),確定所述兩個(gè)新聞信息為相似新聞信息,包括:
在所述重復(fù)率大于預(yù)設(shè)概率時(shí),確定所述兩個(gè)新聞信息為相似新聞信息。
9.一種相似新聞信息的識(shí)別裝置,其特征在于,包括:
獲取模塊,用于獲取待識(shí)別的任兩個(gè)新聞信息,所述新聞信息包括新聞標(biāo)題;
第一判斷模塊,用于判斷兩個(gè)新聞標(biāo)題的相似度是否滿足第一預(yù)設(shè)條件;
第一確定模塊,用于在所述兩個(gè)新聞標(biāo)題的相似度滿足所述第一預(yù)設(shè)條件時(shí),確定所述兩個(gè)新聞信息為相似新聞信息。
10.如權(quán)利要求9所述的裝置,其特征在于,所述裝置還包括:
第二判斷模塊,用于在所述兩個(gè)新聞標(biāo)題的相似度不滿足所述第一預(yù)設(shè)條件時(shí),判斷所述新聞信息是否包含對(duì)應(yīng)的原始新聞標(biāo)題;
第三判斷模塊,用于在所述新聞信息包含原始新聞標(biāo)題時(shí),判斷一個(gè)新聞標(biāo)題與另一個(gè)原始新聞標(biāo)題的相似度是否滿足第二預(yù)設(shè)條件;
第二確定模塊,用于在所述一個(gè)新聞標(biāo)題與另一個(gè)原始新聞標(biāo)題的相似度滿足所述第二預(yù)設(shè)條件時(shí),確定所述兩個(gè)新聞信息為相似新聞信息。