本發(fā)明涉及信息技術(shù)領(lǐng)域,特別涉及一種相似新聞信息的識別方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)新聞、文章等網(wǎng)絡(luò)信息量急增。由于發(fā)布新聞信息的網(wǎng)站眾多,同一個新聞信息往往存在于多個網(wǎng)站中。新聞信息匯聚系統(tǒng)將可將眾多新聞信息從不同的網(wǎng)站上匯聚到本地,但大量重復(fù)的新聞信息給用戶閱讀信息帶來了極大不便。因此,如何識別重復(fù)新聞信息成為一個亟待解決的問題。
技術(shù)實現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決上述技術(shù)問題。
為此,本發(fā)明的第一個目的在于提出一種相似新聞信息的識別方法,能夠準(zhǔn)確、快速地從眾多信息中識別出相似信息。
本發(fā)明的第二個目的在于提出一種相似新聞信息的識別裝置。
為達上述目的,根據(jù)本發(fā)明第一方面實施例提出了一種相似新聞信息的識別方法,包括以下步驟:獲取待識別的任兩個新聞信息,所述新聞信息包括新聞標(biāo)題;判斷兩個新聞標(biāo)題的相似度是否滿足第一預(yù)設(shè)條件;在所述兩個新聞標(biāo)題的相似度滿足所述第一預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息。
另外,根據(jù)本發(fā)明的相似新聞信息的識別方法還可以具有如下附加技術(shù)特征:
在本發(fā)明的一個實施例中,所述方法還包括:
在所述兩個新聞標(biāo)題的相似度不滿足所述第一預(yù)設(shè)條件時,判斷所述新聞信息是否包含對應(yīng)的原始新聞標(biāo)題;
在所述新聞信息包含原始新聞標(biāo)題時,判斷一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度是否滿足第二預(yù)設(shè)條件;
在所述一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度滿足所述第二預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,所述新聞信息還包括新聞?wù)?,所述方法還包括:
在所述新聞信息不包含對應(yīng)的原始新聞標(biāo)題時或在一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度不滿足所述第二預(yù)設(shè)條件時,判斷兩個新聞?wù)牡南嗨贫仁欠駶M足第三預(yù)設(shè)條件;
在所述兩個新聞?wù)牡南嗨贫葷M足所述第三預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,所述判斷兩個新聞標(biāo)題的相似度是否滿足第一預(yù)設(shè)條件,包括:
判斷所述兩個新聞標(biāo)題是否相同;
對應(yīng)地,在所述兩個新聞標(biāo)題的相似度滿足所述第一預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息,包括:
在所述兩個新聞標(biāo)題相同時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,還包括:
在所述兩個新聞標(biāo)題不相同時,獲取對每個新聞標(biāo)題進行分詞處理后的詞匯集合,所述詞匯集合包括對新聞標(biāo)題進行分詞后的若干詞語;
判斷一個詞匯集合是否包含另一個詞匯集合中的所有詞語;
對應(yīng)地,在所述兩個新聞標(biāo)題的相似度滿足所述第一預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息,包括:
在所述一個詞匯集合包含另一個詞匯集合中的所有詞語時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,還包括:
在所述一個詞匯集合不包含另一個詞匯集合中的所有詞語時,判斷所述一個詞匯集合中的詞語與另一個詞匯集合中的詞語的第一匹配度是否大于第一閾值;且根據(jù)依存文法關(guān)系判斷所述一個詞匯集合中的詞語與另一個詞匯集合中的詞語的第二匹配度是否大于第二閾值;
對應(yīng)地,在所述兩個新聞標(biāo)題的相似度滿足所述第一預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息,包括:
在所述第一匹配度大于第一閾值且所述第二匹配度大于第二閾值時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,所述判斷一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度是否滿足第二預(yù)設(shè)條件,包括:
判斷所述一個新聞標(biāo)題與另一個原始新聞標(biāo)題是否相同;
對應(yīng)地,在所述一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度滿足所述第二預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息,包括:
在所述述一個新聞標(biāo)題與另一個原始新聞標(biāo)題相同時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,所述判斷兩個新聞?wù)牡南嗨贫仁欠駶M足第三預(yù)設(shè)條件,包括:
分別提取與所述兩個新聞標(biāo)題對應(yīng)的新聞?wù)牡年P(guān)鍵詞,得到第一關(guān)鍵詞集合和第二關(guān)鍵詞集合;
確定所述第一關(guān)鍵詞集合和所述第二關(guān)鍵詞集合中每個關(guān)鍵詞的權(quán)重;
根據(jù)所述每個關(guān)鍵詞的名稱和權(quán)重確定所述第一關(guān)鍵詞集合與所述第二關(guān)鍵詞集合中的相同關(guān)鍵詞;
根據(jù)所述相同關(guān)鍵詞確定所述第一關(guān)鍵詞集合與所述第二關(guān)鍵詞集合的關(guān)鍵詞重復(fù)率;
判斷所述重復(fù)率是否大于預(yù)設(shè)概率;
對應(yīng)地,在所述兩個新聞?wù)牡南嗨贫葷M足所述第三預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息,包括:
在所述重復(fù)率大于預(yù)設(shè)概率時,確定所述兩個新聞信息為相似新聞信息。
本發(fā)明第二方面實施例提出了一種相似新聞信息的識別裝置,包括:
獲取模塊,用于獲取待識別的任兩個新聞信息,所述新聞信息包括新聞標(biāo)題;
第一判斷模塊,用于判斷兩個新聞標(biāo)題的相似度是否滿足第一預(yù)設(shè)條件;
第一確定模塊,用于在所述兩個新聞標(biāo)題的相似度滿足所述第一預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息。
另外,根據(jù)本發(fā)明的相似新聞信息的識別裝置還可以具有如下附加技術(shù)特征:
在本發(fā)明的一個實施例中,所述裝置還包括:
第二判斷模塊,用于在所述兩個新聞標(biāo)題的相似度不滿足所述第一預(yù)設(shè)條件時,判斷所述新聞信息是否包含對應(yīng)的原始新聞標(biāo)題;
第三判斷模塊,用于在所述新聞信息包含原始新聞標(biāo)題時,判斷一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度是否滿足第二預(yù)設(shè)條件;
第二確定模塊,用于在所述一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度滿足所述第二預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,所述新聞信息還包括新聞?wù)?,所述裝置還包括:
第四判斷模塊,用于在所述新聞信息不包含對應(yīng)的原始新聞標(biāo)題時或在一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度不滿足所述第二預(yù)設(shè)條件時,判斷兩個新聞?wù)牡南嗨贫仁欠駶M足第三預(yù)設(shè)條件;
第三確定模塊,用于在所述兩個新聞?wù)牡南嗨贫葷M足所述第三預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,所述第一判斷模塊用于:
判斷所述兩個新聞標(biāo)題是否相同;
對應(yīng)地,在所述兩個新聞標(biāo)題的相似度滿足所述第一預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息,包括:
在所述兩個新聞標(biāo)題相同時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,所述第一判斷模塊用于:
在所述兩個新聞標(biāo)題不相同時,獲取對每個新聞標(biāo)題進行分詞處理后的詞匯集合,所述詞匯集合包括對新聞標(biāo)題進行分詞后的若干詞語;
判斷一個詞匯集合是否包含另一個詞匯集合中的所有詞語;
對應(yīng)地,所述第一確定模塊用于:
在所述一個詞匯集合包含另一個詞匯集合中的所有詞語時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,所述第一判斷模塊用于:
在所述一個詞匯集合不包含另一個詞匯集合中的所有詞語時,判斷所述一個詞匯集合中的詞語與另一個詞匯集合中的詞語的第一匹配度是否大于第一閾值;且根據(jù)依存文法關(guān)系判斷所述一個詞匯集合中的詞語與另一個詞匯集合中的詞語的第二匹配度是否大于第二閾值;
對應(yīng)地,所述第一確定模塊用于:
在所述第一匹配度大于第一閾值且所述第二匹配度大于第二閾值時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,所述第三判斷模塊用于:
判斷所述一個新聞標(biāo)題與另一個原始新聞標(biāo)題是否相同;
對應(yīng)地,所述第二確定模塊用于:
在所述述一個新聞標(biāo)題與另一個原始新聞標(biāo)題相同時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,所述第四判斷模塊用于:
分別提取與所述兩個新聞標(biāo)題對應(yīng)的新聞?wù)牡年P(guān)鍵詞,得到第一關(guān)鍵詞集合和第二關(guān)鍵詞集合;
確定所述第一關(guān)鍵詞集合和所述第二關(guān)鍵詞集合中每個關(guān)鍵詞的權(quán)重;
根據(jù)所述每個關(guān)鍵詞的名稱和權(quán)重確定所述第一關(guān)鍵詞集合與所述第二關(guān)鍵詞集合中的相同關(guān)鍵詞;
根據(jù)所述相同關(guān)鍵詞確定所述第一關(guān)鍵詞集合與所述第二關(guān)鍵詞集合的關(guān)鍵詞重復(fù)率;
判斷所述重復(fù)率是否大于預(yù)設(shè)概率;
對應(yīng)地,所述第三確定模塊用于:
在所述重復(fù)率大于預(yù)設(shè)概率時,確定所述兩個新聞信息為相似新聞信息。
本發(fā)明實施例的相似新聞信息的識別方法和裝置,通過獲取任意兩個待識別的新聞信息,并在判斷兩個新聞信息的新聞標(biāo)題判斷的相似度滿足第一預(yù)設(shè)條件時,確定兩個新聞信息為相似新聞信息,能夠準(zhǔn)確、快速地從眾多新聞信息中識別出相似新聞信息,從而能夠為新聞信息去重及比對提供依據(jù)。
本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
附圖說明
本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1為根據(jù)本發(fā)明一個實施例的相似新聞信息的識別方法的流程圖;
圖2為根據(jù)本發(fā)明另一個實施例的相似新聞信息的識別方法的流程圖;
圖3為根據(jù)本發(fā)明另一個實施例的相似新聞信息的識別方法的流程圖;
圖4a為根據(jù)本發(fā)明一個實施例的標(biāo)題一的分析結(jié)果示意圖;
圖4b為根據(jù)本發(fā)明一個實施例的標(biāo)題二的分析結(jié)果示意圖;
圖5為根據(jù)本發(fā)明另一個實施例的相似新聞信息的識別方法的流程圖;
圖6a為根據(jù)本發(fā)明一個實施例的新聞?wù)牡脑~性分析結(jié)果示意圖;
圖6b為根據(jù)本發(fā)明一個實施例的新聞?wù)牡膶嶓w類別識別結(jié)果示意圖;
圖7為根據(jù)本發(fā)明一個實施例的關(guān)鍵詞提取結(jié)果示意圖;
圖8為根據(jù)本發(fā)明一個實施例的相似新聞信息的識別裝置的結(jié)構(gòu)示意圖;
圖9為根據(jù)本發(fā)明另一個實施例的相似新聞信息的識別裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
在本發(fā)明的描述中,需要理解的是,術(shù)語“多個”指兩個或兩個以上;術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性。
下面參考附圖描述根據(jù)本發(fā)明實施例的相似新聞信息的識別方法和裝置。
通過本發(fā)明的實施例可識別出相似的新聞信息,以便于后續(xù)對相似的新聞進行去重。
圖1為根據(jù)本發(fā)明一個實施例的相似新聞信息的識別方法的流程圖。
如圖1所示,根據(jù)本發(fā)明實施例的相似新聞信息的識別方法,包括以下步驟。
S101,獲取待識別的任兩個新聞信息,所述新聞信息包括新聞標(biāo)題。
本發(fā)明的實施例可應(yīng)用于不同場景,在不同的場景下可通過對應(yīng)的方式獲取待識別的多個新聞信息,本實施例在對多個新聞信息的相似性進行判斷時,需先對任意獲取到的兩個待識別的新聞信息進行相似性判斷,判斷完成后再獲取另一新聞信息進行下次判斷。下面通過以下幾個應(yīng)用場景對獲取待識別的多個新聞信息的方式進行說明。
場景一
用戶通過新聞客戶端向服務(wù)器發(fā)送新聞搜索請求,服務(wù)器基于用戶的搜索請求獲取對應(yīng)的多個新聞信息。
場景二
服務(wù)器按照預(yù)設(shè)規(guī)則向客戶端的用戶推送新聞信息時,可獲取多個新聞信息,如熱點新聞、用戶關(guān)注領(lǐng)域的新聞等。
場景三
用戶瀏覽新聞時,如果希望對一些新聞信息中的相似新聞進行識別或篩選,則可向服務(wù)器發(fā)送相似新聞識別請求,并將這些新聞信息的標(biāo)識提交至服務(wù)器,進而服務(wù)器可根據(jù)接收到的標(biāo)識獲取新聞信息。
需要說明的是,上述場景僅為示例性的,不應(yīng)理解為對本發(fā)明的限制。本發(fā)明的實施例還可應(yīng)用于其他場景,在此不一一進行說明。
S102,判斷兩個新聞標(biāo)題的相似度是否滿足第一預(yù)設(shè)條件。
其中,當(dāng)兩個新聞標(biāo)題滿足一下條件至少之一時,即可判斷兩個新聞的相似度滿足第一預(yù)設(shè)條件:
兩個新聞標(biāo)題相同;
或者,其中一個新聞標(biāo)題分詞處理后的詞匯集合是否包含另一個新聞標(biāo)題分詞處理后的詞匯集合中的所有詞語;
或者,兩個新聞標(biāo)題中的詞語及其依存文法關(guān)系的匹配度滿足預(yù)設(shè)條件。
S103,在所述兩個新聞標(biāo)題的相似度滿足所述第一預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,可通過圖2所示實施例通過判斷兩個新聞標(biāo)題的相似度是否滿足第一預(yù)設(shè)條件,確定兩個新聞信息是否為相似新聞信息。具體地,如圖2所示,包括步驟S201-S207。
S201,判斷所述兩個新聞標(biāo)題是否相同。
S202,在所述兩個新聞標(biāo)題相同時,確定所述兩個新聞信息為相似新聞信息。
S203,在所述兩個新聞標(biāo)題不相同時,獲取對每個新聞標(biāo)題進行分詞處理后的詞匯集合,所述詞匯集合包括對新聞標(biāo)題進行分詞后的若干詞語。
在所述兩個新聞標(biāo)題不相同時,可通過對兩個新聞標(biāo)題分別進行分詞處理后,得到與兩個新聞標(biāo)題分別對應(yīng)詞匯集合。每個詞匯集合包括相應(yīng)新聞標(biāo)題行分詞后的若干詞語。
S204,判斷一個詞匯集合是否包含另一個詞匯集合中的所有詞語。
S205,在所述一個詞匯集合包含另一個詞匯集合中的所有詞語時,確定所述兩個新聞信息為相似新聞信息。
S206,在所述一個詞匯集合不包含另一個詞匯集合中的所有詞語時,判斷所述一個詞匯集合中的詞語與另一個詞匯集合中的詞語的第一匹配度是否大于第一閾值;且根據(jù)依存文法關(guān)系判斷所述一個詞匯集合中的詞語與另一個詞匯集合中的詞語的第二匹配度是否大于第二閾值。
其中,第一匹配度可為兩個詞匯集合中相同詞語數(shù)量的量化體現(xiàn)。舉例來說,第一匹配度可以是兩個詞匯集合中相同詞語數(shù)量與兩個詞匯集合中任一詞匯集合(例如,詞語數(shù)量較少的一個詞匯集合)中的詞語數(shù)量的比值。
第二匹配度可為兩個詞匯集合中詞語的依存文法關(guān)系的相似度的量化體現(xiàn)。其中,舉例來說,依存文法關(guān)系的相似度為較短的新聞標(biāo)題中依存文法關(guān)系與另一新聞標(biāo)題中重合的依存文法關(guān)系占較短的新聞標(biāo)題中依存文法關(guān)系總數(shù)的比例。
其中,第一閾值和第二閾值為預(yù)設(shè)值。舉例來說,第一閾值可設(shè)置為90%,第二閾值可設(shè)置為80%。
S207,在所述第一匹配度大于第一閾值且所述第二匹配度大于第二閾值時,確定所述兩個新聞信息為相似新聞信息。
舉例來說,對于如下兩篇新聞的新聞標(biāo)題:
標(biāo)題一:走訪長江撈尸人最多一周打撈過70具尸體(來自新聞源一)
標(biāo)題二:法媒走訪長江撈尸人最多一周打撈過70具尸體(來自新聞源二)
對兩個新聞標(biāo)題做分詞處理及依存文法分析可分別得到的圖4a和圖4b的結(jié)果。其中,圖4a為標(biāo)題一的分析結(jié)果示意圖,圖4b為標(biāo)題二的分析結(jié)果示意圖。
通過上述分析結(jié)果可以看出,標(biāo)題一與標(biāo)題二不同,且也滿足在其中一個詞匯集合包含另一個詞匯集合中的所有詞語的條件,因此,可通過對標(biāo)題一和標(biāo)題二對應(yīng)的詞匯集合進行匹配,得到第一匹配度和第二匹配度。二者標(biāo)題第一匹配度大于90%,且第二匹配度大于80%,則可確定標(biāo)題一與標(biāo)題二對應(yīng)的新聞信息為相似新聞信息。
根據(jù)本發(fā)明實施例的相似新聞信息的識別方法,通過獲取任意兩個待識別的新聞信息,并在判斷兩個新聞信息的新聞標(biāo)題判斷的相似度滿足第一預(yù)設(shè)條件時,確定兩個新聞信息為相似新聞信息,能夠準(zhǔn)確、快速地從眾多新聞信息中識別出相似新聞信息,從而能夠為新聞信息去重及比對提供依據(jù)。
在本發(fā)明的一個實施例中,新聞信息可包括新聞標(biāo)題、新聞?wù)?、新聞?wù)蛐侣剚碓淳W(wǎng)站等,可根據(jù)其中一項或多項對相似新聞信息進行識別。
下面通過圖3所示實施例來說明根據(jù)上述一項或多項對相似新聞信息進行識別。如圖3所示,可包括步驟S301-S308。
其中,S301-S303與圖1所示實施例中的S101-S103相同,可參照圖1所示實施例。
S304,在所述兩個新聞標(biāo)題的相似度不滿足所述第一預(yù)設(shè)條件時,判斷所述新聞信息是否包含對應(yīng)的原始新聞標(biāo)題。
由于一些網(wǎng)站中的信息是從其他網(wǎng)站中轉(zhuǎn)摘的,在轉(zhuǎn)摘過程中對原標(biāo)題進行了簡單調(diào)整,或者引用,這種轉(zhuǎn)摘的信息標(biāo)題與原信息標(biāo)題不完全相同,但實質(zhì)上為相同或者相近的信息。因此,為了能夠?qū)@部分相似信息進行識別,本申請的實施例中,可在兩個新聞標(biāo)題的相似度不滿足所述第一預(yù)設(shè)條件時,進一步判斷所述兩個新聞標(biāo)題是否包含對應(yīng)的原始新聞標(biāo)題。如果包含對應(yīng)的原始新聞標(biāo)題,則可執(zhí)行S305。
包含原始新聞標(biāo)題的新聞標(biāo)題,大多有引用結(jié)構(gòu)或者表示引用的關(guān)鍵字,因此,在本發(fā)明的一些實施例中,可根據(jù)新聞標(biāo)題的結(jié)構(gòu)、關(guān)鍵字(如關(guān)鍵字:××網(wǎng)站:)等判斷新聞標(biāo)題是否包含對應(yīng)的原始標(biāo)題。
舉例來說,對于新聞標(biāo)題:
新華社:創(chuàng)新的事業(yè)呼喚創(chuàng)新的人才,
具有引用結(jié)構(gòu)“新華社:”,因此,可判斷該新聞標(biāo)題包含對應(yīng)的原始新聞標(biāo)題“創(chuàng)新的事業(yè)呼喚創(chuàng)新的人才”。
S305,在所述新聞信息包含原始新聞標(biāo)題時,判斷一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度是否滿足第二預(yù)設(shè)條件。
S306,在所述一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度滿足所述第二預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,步驟S305可包括:判斷所述一個新聞標(biāo)題與另一個原始新聞標(biāo)題是否相同。
具體而言,如果兩個新聞標(biāo)題都有原始新聞標(biāo)題,則可判斷兩個原始新聞標(biāo)題是否相同。如果兩個信息標(biāo)題中A有原始標(biāo)題,B沒有原始標(biāo)題,則可將A的原始新聞標(biāo)題與新聞標(biāo)題B進行匹配,以判斷新聞標(biāo)題A的原始標(biāo)題與新聞標(biāo)題B是否相同。
對應(yīng)地,步驟S306可包括:
在所述述一個新聞標(biāo)題與另一個原始新聞標(biāo)題相同時,確定所述兩個新聞信息為相似新聞信息。
S307,在所述新聞信息不包含對應(yīng)的原始新聞標(biāo)題時或在一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度不滿足所述第二預(yù)設(shè)條件時,判斷兩個新聞?wù)牡南嗨贫仁欠駶M足第三預(yù)設(shè)條件。
S308,在所述兩個新聞?wù)牡南嗨贫葷M足所述第三預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息。
具體而言,在本發(fā)明的一個實施例中,S307可包括圖5所示的步驟S501-S505。對應(yīng)地,S308可包括步驟S506。
S501,分別提取與所述兩個新聞標(biāo)題對應(yīng)的新聞?wù)牡年P(guān)鍵詞,得到第一關(guān)鍵詞集合和第二關(guān)鍵詞集合。
具體而言,可分別對兩個新聞標(biāo)題對應(yīng)的新聞?wù)倪M行分詞,并分別對分詞結(jié)果進行關(guān)鍵詞抽取,分別得到兩個新聞?wù)牡年P(guān)鍵詞集合。
具體地,在每個新聞?wù)倪M行分詞后,可對每個分詞進行詞性分析。然后,從分詞中將人名,專有名詞等名詞(可包括)能代表動作主體的詞作標(biāo)注出來,作為候選關(guān)鍵詞。此外,還可根據(jù)信息的特性,識別信息正文中分詞的實體類別。當(dāng)發(fā)現(xiàn)該詞匯為產(chǎn)品名、時間、地點、組織名、人名、職位時也將該詞作為候選關(guān)鍵詞。
舉例來說,圖6a為根據(jù)本發(fā)明一個實施例的新聞?wù)牡脑~性分析結(jié)果示意圖;圖6b為根據(jù)本發(fā)明一個實施例的新聞?wù)牡膶嶓w類別識別結(jié)果示意圖。
在根據(jù)詞性分析以及實體類別分析的結(jié)果提取到候選關(guān)鍵詞后,可對候選關(guān)鍵詞在新聞?wù)闹械脑~頻進行統(tǒng)計,并根據(jù)詞頻從大到小對候選關(guān)鍵詞進行排序,并根據(jù)新聞?wù)膬?nèi)容的長短取舍排在后面的后續(xù)關(guān)鍵詞。舉例來說,如果新聞?wù)陌?00個詞,則可選取排在前50個候選關(guān)鍵詞作為關(guān)鍵詞。如果新聞?wù)陌?00詞,則可選取排在前30個候選關(guān)鍵詞作為關(guān)鍵詞。
S502,確定所述第一關(guān)鍵詞集合和所述第二關(guān)鍵詞集合中每個關(guān)鍵詞的權(quán)重。
具體而言,可根據(jù)詞頻計算選取的關(guān)鍵詞的權(quán)重。
舉例來說,如圖7所示,為根據(jù)本發(fā)明一個實施例的關(guān)鍵詞提取結(jié)果示意圖,其中,包括關(guān)鍵詞列表及各個關(guān)鍵詞對應(yīng)的權(quán)重。
S503,根據(jù)所述每個關(guān)鍵詞的名稱和權(quán)重確定所述第一關(guān)鍵詞集合與所述第二關(guān)鍵詞集合中的相同關(guān)鍵詞。
在本發(fā)明的實施例中,如果第一關(guān)鍵詞集合中的關(guān)鍵詞M與第二關(guān)鍵詞集合中的關(guān)鍵詞N滿足以下條件,則可確定關(guān)鍵詞M與關(guān)鍵詞N相同:
關(guān)鍵詞M的名稱與關(guān)鍵詞N的名稱相同,且,(關(guān)鍵詞M的權(quán)重/關(guān)鍵詞N的權(quán)重)100大于百分比閾值。其中,百分比閾值為預(yù)設(shè)值,可根據(jù)實際情況進行調(diào)整。舉例來說,百分比閾值可為70%。
S504,根據(jù)所述相同關(guān)鍵詞確定所述第一關(guān)鍵詞集合與所述第二關(guān)鍵詞集合的關(guān)鍵詞重復(fù)率。
其中,第一關(guān)鍵詞集合與第二關(guān)鍵詞集合的關(guān)鍵詞重復(fù)率是指,第一關(guān)鍵詞集合與第二關(guān)鍵詞集合中相同的關(guān)鍵詞占關(guān)鍵詞較少的關(guān)鍵詞集合中關(guān)鍵詞總數(shù)的比值。
S505,判斷所述重復(fù)率是否大于預(yù)設(shè)概率。
其中,預(yù)設(shè)概率可根據(jù)實際情況調(diào)整。舉例來說,預(yù)設(shè)概率可為80%。
S506,在所述重復(fù)率大于預(yù)設(shè)概率時,確定所述兩個新聞信息為相似新聞信息。
應(yīng)當(dāng)理解,上述實施例以新聞標(biāo)題和新聞?wù)淖鳛槠ヅ錀l件,進行信息相似度匹配,在本發(fā)明的其他實施例中,還可將新聞?wù)騺碓淳W(wǎng)站等作為輔助相似度匹配的條件,以提高相似度匹配的精準(zhǔn)度。
需要說明的是,在上述通過新聞標(biāo)題匹配、新聞標(biāo)題的原始標(biāo)題的匹配及新聞?wù)牡钠ヅ溥^程中,只要確定兩個新聞信息為相似信息,并結(jié)束后續(xù)匹配過程,能夠有效提升識別效率。
根據(jù)本發(fā)明實施例的相似新聞信息的識別方法,通過獲取任意兩個待識別的新聞信息,并在判斷兩個新聞信息的新聞標(biāo)題判斷的相似度滿足第一預(yù)設(shè)條件時,確定兩個新聞信息為相似新聞信息,能夠準(zhǔn)確、快速地從眾多新聞信息中識別出相似新聞信息,從而能夠為新聞信息去重及比對提供依據(jù)。
進一步地,在識別出相似新聞信息后,可對相似新聞信息進行去重,并將去重后的新聞信息提供給用戶。從而,可從大量新聞中去掉相似新聞,提供給用戶,提升信息閱讀速度,提高用戶獲取信息的效率。
與上述相似新聞信息的識別方法實施例相對應(yīng),本發(fā)明還提出一種相似新聞信息的識別裝置。
圖8為根據(jù)本發(fā)明一個實施例的相似新聞信息的識別裝置的結(jié)構(gòu)示意圖。
如圖8所示,根據(jù)本發(fā)明實施例的相似新聞信息的識別裝置,包括:獲取模塊10、第一判斷模塊20和第一確定模塊30。
具體地,獲取模塊10用于獲取待識別的任兩個新聞信息,所述新聞信息包括新聞標(biāo)題。
本發(fā)明的實施例可應(yīng)用于不同場景,在不同的場景下可通過對應(yīng)的方式獲取待識別的多個新聞信息,本實施例在對多個新聞信息的相似性進行判斷時,需先對任意獲取到的兩個待識別的新聞信息進行相似性判斷,判斷完成后再獲取另一新聞信息進行下次判斷。下面通過以下幾個應(yīng)用場景對獲取待識別的多個新聞信息的方式進行說明。
場景一
用戶通過新聞客戶端向服務(wù)器發(fā)送新聞搜索請求,服務(wù)器基于用戶的搜索請求獲取對應(yīng)的多個新聞信息。
場景二
服務(wù)器按照預(yù)設(shè)規(guī)則向客戶端的用戶推送新聞信息時,可獲取多個新聞信息,如熱點新聞、用戶關(guān)注領(lǐng)域的新聞等。
場景三
用戶瀏覽新聞時,如果希望對一些新聞信息中的相似新聞進行識別或篩選,則可向服務(wù)器發(fā)送相似新聞識別請求,并將這些新聞信息的標(biāo)識提交至服務(wù)器,進而服務(wù)器可根據(jù)接收到的標(biāo)識獲取新聞信息。
需要說明的是,上述場景僅為示例性的,不應(yīng)理解為對本發(fā)明的限制。本發(fā)明的實施例還可應(yīng)用于其他場景,在此不一一進行說明。
第一判斷模塊20用于判斷兩個新聞標(biāo)題的相似度是否滿足第一預(yù)設(shè)條件。
其中,當(dāng)兩個新聞標(biāo)題滿足一下條件至少之一時,第一判斷模塊20即可判斷兩個新聞的相似度滿足第一預(yù)設(shè)條件:
兩個新聞標(biāo)題相同;
或者,其中一個新聞標(biāo)題分詞處理后的詞匯集合是否包含另一個新聞標(biāo)題分詞處理后的詞匯集合中的所有詞語;
或者,兩個新聞標(biāo)題中的詞語及其依存文法關(guān)系的匹配度滿足預(yù)設(shè)條件。
第一確定模塊30用于在所述兩個新聞標(biāo)題的相似度滿足所述第一預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,第一判斷模塊20可用于:判斷所述兩個新聞標(biāo)題是否相同;對應(yīng)地,第一確定模塊30用于在所述兩個新聞標(biāo)題相同時,確定所述兩個新聞信息為相似新聞信息。
進一步地,第一判斷模塊20還可用于:在所述兩個新聞標(biāo)題不相同時,獲取對每個新聞標(biāo)題進行分詞處理后的詞匯集合,所述詞匯集合包括對新聞標(biāo)題進行分詞后的若干詞語;判斷一個詞匯集合是否包含另一個詞匯集合中的所有詞語。對應(yīng)地,所述第一確定模塊30可用于:在所述一個詞匯集合包含另一個詞匯集合中的所有詞語時,確定所述兩個新聞信息為相似新聞信息。
在所述兩個新聞標(biāo)題不相同時,第一判斷模塊20可通過對兩個新聞標(biāo)題分別進行分詞處理后,得到與兩個新聞標(biāo)題分別對應(yīng)詞匯集合。每個詞匯集合包括相應(yīng)新聞標(biāo)題行分詞后的若干詞語。
更進一步地,第一判斷模塊20還可用于:在所述一個詞匯集合不包含另一個詞匯集合中的所有詞語時,判斷所述一個詞匯集合中的詞語與另一個詞匯集合中的詞語的第一匹配度是否大于第一閾值;且根據(jù)依存文法關(guān)系判斷所述一個詞匯集合中的詞語與另一個詞匯集合中的詞語的第二匹配度是否大于第二閾值;對應(yīng)地,第一確定模塊30可用于在所述第一匹配度大于第一閾值且所述第二匹配度大于第二閾值時,確定所述兩個新聞信息為相似新聞信息。
其中,第一匹配度可為兩個詞匯集合中相同詞語數(shù)量的量化體現(xiàn)。舉例來說,第一匹配度可以是兩個詞匯集合中相同詞語數(shù)量與兩個詞匯集合中任一詞匯集合(例如,詞語數(shù)量較少的一個詞匯集合)中的詞語數(shù)量的比值。
第二匹配度可為兩個詞匯集合中詞語的依存文法關(guān)系的相似度的量化體現(xiàn)。其中,舉例來說,依存文法關(guān)系的相似度為較短的新聞標(biāo)題中依存文法關(guān)系與另一新聞標(biāo)題中重合的依存文法關(guān)系占較短的新聞標(biāo)題中依存文法關(guān)系總數(shù)的比例。
其中,第一閾值和第二閾值為預(yù)設(shè)值。舉例來說,第一閾值可設(shè)置為90%,第二閾值可設(shè)置為80%。
舉例來說,對于如下兩篇新聞的新聞標(biāo)題:
標(biāo)題一:走訪長江撈尸人最多一周打撈過70具尸體(來自新聞源一)
標(biāo)題二:法媒走訪長江撈尸人最多一周打撈過70具尸體(來自新聞源二)
對兩個新聞標(biāo)題做分詞處理及依存文法分析可分別得到的圖4a和圖4b的結(jié)果。其中,圖4a為標(biāo)題一的分析結(jié)果示意圖,圖4b為標(biāo)題二的分析結(jié)果示意圖。
通過上述分析結(jié)果可以看出,標(biāo)題一與標(biāo)題二不同,且也滿足在其中一個詞匯集合包含另一個詞匯集合中的所有詞語的條件,因此,可通過對標(biāo)題一和標(biāo)題二對應(yīng)的詞匯集合進行匹配,得到第一匹配度和第二匹配度。二者標(biāo)題第一匹配度大于90%,且第二匹配度大于80%,則可確定標(biāo)題一與標(biāo)題二對應(yīng)的新聞信息為相似新聞信息。
根據(jù)本發(fā)明實施例的相似新聞信息的識別裝置,通過獲取任意兩個待識別的新聞信息,并在判斷兩個新聞信息的新聞標(biāo)題判斷的相似度滿足第一預(yù)設(shè)條件時,確定兩個新聞信息為相似新聞信息,能夠準(zhǔn)確、快速地從眾多新聞信息中識別出相似新聞信息,從而能夠為新聞信息去重及比對提供依據(jù)。
在本發(fā)明的一個實施例中,新聞信息可包括新聞標(biāo)題、新聞?wù)摹⑿侣務(wù)蛐侣剚碓淳W(wǎng)站等,可根據(jù)其中一項或多項對相似新聞信息進行識別。
圖9為根據(jù)本發(fā)明另一個實施例的相似新聞信息的識別裝置的結(jié)構(gòu)示意圖。
如圖9所示,根據(jù)本發(fā)明實施例的相似新聞信息的識別裝置,包括:獲取模塊10、第一判斷模塊20、第一確定模塊30、第二判斷模塊40、第三判斷模塊50、第二確定模塊60、第四判斷模塊70和第三確定模塊80。
其中,獲取模塊10、第一判斷模塊20和第一確定模塊30與圖8所示實施例相同,可參照圖8所述實施例。
第二判斷模塊40用于在所述兩個新聞標(biāo)題的相似度不滿足所述第一預(yù)設(shè)條件時,判斷所述新聞信息是否包含對應(yīng)的原始新聞標(biāo)題。
由于一些網(wǎng)站中的信息是從其他網(wǎng)站中轉(zhuǎn)摘的,在轉(zhuǎn)摘過程中對原標(biāo)題進行了簡單調(diào)整,或者引用,這種轉(zhuǎn)摘的信息標(biāo)題與原信息標(biāo)題不完全相同,但實質(zhì)上為相同或者相近的信息。因此,為了能夠?qū)@部分相似信息進行識別,本申請的實施例中,第二判斷模塊40可在兩個新聞標(biāo)題的相似度不滿足所述第一預(yù)設(shè)條件時,進一步判斷所述兩個新聞標(biāo)題是否包含對應(yīng)的原始新聞標(biāo)題。
包含原始新聞標(biāo)題的新聞標(biāo)題,大多有引用結(jié)構(gòu)或者表示引用的關(guān)鍵字,因此,在本發(fā)明的一些實施例中,可根據(jù)新聞標(biāo)題的結(jié)構(gòu)、關(guān)鍵字(如關(guān)鍵字:××網(wǎng)站:)等判斷新聞標(biāo)題是否包含對應(yīng)的原始標(biāo)題。
舉例來說,對于新聞標(biāo)題:
新華社:創(chuàng)新的事業(yè)呼喚創(chuàng)新的人才,
具有引用結(jié)構(gòu)“新華社:”,因此,可判斷該新聞標(biāo)題包含對應(yīng)的原始新聞標(biāo)題“創(chuàng)新的事業(yè)呼喚創(chuàng)新的人才”。
第三判斷模塊50用于在所述新聞信息包含原始新聞標(biāo)題時,判斷一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度是否滿足第二預(yù)設(shè)條件。
第二確定模塊60用于在所述一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度滿足所述第二預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,第三判斷模塊50可用于判斷所述一個新聞標(biāo)題與另一個原始新聞標(biāo)題是否相同。對應(yīng)地,第二確定模塊60可用于:在所述述一個新聞標(biāo)題與另一個原始新聞標(biāo)題相同時,確定所述兩個新聞信息為相似新聞信息。
具體而言,如果兩個新聞標(biāo)題都有原始新聞標(biāo)題,則第三判斷模塊50可判斷兩個原始新聞標(biāo)題是否相同。如果兩個信息標(biāo)題中A有原始標(biāo)題,B沒有原始標(biāo)題,則可將A的原始新聞標(biāo)題與新聞標(biāo)題B進行匹配,以判斷新聞標(biāo)題A的原始標(biāo)題與新聞標(biāo)題B是否相同。
第四判斷模塊70用于在所述新聞信息不包含對應(yīng)的原始新聞標(biāo)題時或在一個新聞標(biāo)題與另一個原始新聞標(biāo)題的相似度不滿足所述第二預(yù)設(shè)條件時,判斷兩個新聞?wù)牡南嗨贫仁欠駶M足第三預(yù)設(shè)條件。
第三確定模塊80用于在所述兩個新聞?wù)牡南嗨贫葷M足所述第三預(yù)設(shè)條件時,確定所述兩個新聞信息為相似新聞信息。
在本發(fā)明的一個實施例中,第四判斷模塊70可用于執(zhí)行圖5所述實施例中步驟S501-S505。對應(yīng)地,第三確定模塊80可用于執(zhí)行圖5所述實施例中步驟S506。具體可參照圖5所示實施例。
應(yīng)當(dāng)理解,上述實施例以新聞標(biāo)題和新聞?wù)淖鳛槠ヅ錀l件,進行信息相似度匹配,在本發(fā)明的其他實施例中,還可將新聞?wù)騺碓淳W(wǎng)站等作為輔助相似度匹配的條件,以提高相似度匹配的精準(zhǔn)度。
需要說明的是,在上述通過新聞標(biāo)題匹配、新聞標(biāo)題的原始標(biāo)題的匹配及新聞?wù)牡钠ヅ溥^程中,只要確定兩個新聞信息為相似信息,并結(jié)束后續(xù)匹配過程,能夠有效提升識別效率。
根據(jù)本發(fā)明實施例的相似新聞信息的識別裝置,通過獲取任意兩個待識別的新聞信息,并在判斷兩個新聞信息的新聞標(biāo)題判斷的相似度滿足第一預(yù)設(shè)條件時,確定兩個新聞信息為相似新聞信息,能夠準(zhǔn)確、快速地從眾多新聞信息中識別出相似新聞信息,從而能夠為新聞信息去重及比對提供依據(jù)。
進一步地,在識別出相似新聞信息后,可對相似新聞信息進行去重,并將去重后的新聞信息提供給用戶。從而,可從大量新聞中去掉相似新聞,提供給用戶,提升信息閱讀速度,提高用戶獲取信息的效率。
在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結(jié)合和組合。
此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是兩個或兩個以上,除非另有明確具體的限定。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認(rèn)為是用于實現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實現(xiàn)在任何計算機可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計算機的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說明書而言,"計算機可讀介質(zhì)"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計算機可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(RAM),只讀存儲器(ROM),可擦除可編輯只讀存儲器(EPROM或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(CDROM)。另外,計算機可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因為可以例如通過對紙或其他介質(zhì)進行光學(xué)掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。
本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。
上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。