確定新聞之間相關(guān)性的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,涉及一種確定新聞之間相關(guān)性的方法和
目.0
【背景技術(shù)】
[0002]在互聯(lián)網(wǎng)領(lǐng)域內(nèi),當(dāng)新的新聞出現(xiàn)時(shí),需要將其和已有的新聞進(jìn)行比較,確定新的新聞和已有的哪些新聞是相關(guān)新聞關(guān)系,以便于在用戶查看新聞時(shí)將相關(guān)新聞一起推薦給用戶。
[0003]由于已有新聞的數(shù)量龐大,而每個(gè)新的新聞都需要與所有已有新聞進(jìn)行比較,導(dǎo)致計(jì)算量非常巨大,計(jì)算新聞相關(guān)性的效率非常低。
【發(fā)明內(nèi)容】
[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的確定新聞之間相關(guān)性的方法和裝置。
[0005]依據(jù)本發(fā)明的一種確定新聞之間相關(guān)性的方法,包括:將第一新聞與標(biāo)桿新聞進(jìn)行比較,得到所述第一新聞與所述標(biāo)桿新聞的距離;將第二新聞與所述標(biāo)桿新聞進(jìn)行比較,得到所述第二新聞與所述標(biāo)桿新聞的距離;計(jì)算所述第一新聞與所述標(biāo)桿新聞的距離和所述第一新聞與所述標(biāo)桿新聞的距離之間的距離差,根據(jù)所述距離差確定所述第一新聞與所述第二新聞之間的相關(guān)性。
[0006]可選地,前述的方法,在將第一新聞與標(biāo)桿新聞進(jìn)行比較之前,還包括:識(shí)別所述第一新聞的類型,并從標(biāo)桿新聞集合中選擇具有相對(duì)應(yīng)類型的所述標(biāo)桿新聞。
[0007]可選地,前述的方法,在將第一新聞與標(biāo)桿新聞進(jìn)行比較之前,還包括:獲取所述第一新聞中的關(guān)鍵詞,并從標(biāo)桿新聞集合中選擇具有所述關(guān)鍵詞的所述標(biāo)桿新聞。
[0008]可選地,前述的方法,將第一新聞與標(biāo)桿新聞進(jìn)行比較,得到所述第一新聞與所述標(biāo)桿新聞的距離,具體包括:獲取所述第一新聞的特征屬性,并根據(jù)述第一新聞的特征屬性生成所述第一新聞對(duì)應(yīng)的向量,將所述第一新聞對(duì)應(yīng)的向量與所述標(biāo)桿新聞對(duì)應(yīng)的向量進(jìn)行比較;將第二新聞與所述標(biāo)桿新聞進(jìn)行比較,得到所述第一新聞與所述標(biāo)桿新聞的距離,具體包括:獲取所述第二新聞的特征屬性,并根據(jù)述第二新聞的特征屬性生成所述第二新聞對(duì)應(yīng)的向量,并將所述第二新聞對(duì)應(yīng)的向量與所述標(biāo)桿新聞對(duì)應(yīng)的向量進(jìn)行比較。
[0009]可選地,前述的方法,獲取所述第一新聞的特征屬性,具體包括:對(duì)所述第一新聞進(jìn)行分詞得到多個(gè)詞,計(jì)算所述第一新聞的多個(gè)詞的詞頻,作為所述第一新聞的特征屬性;獲取所述第二新聞的特征屬性,具體包括:對(duì)所述第二新聞進(jìn)行分詞得到多個(gè)詞,計(jì)算所述第二新聞的多個(gè)詞的詞頻,作為所述第二新聞的特征屬性。
[0010]可選地,前述的方法,根據(jù)所述距離差確定所述第一新聞與所述第二新聞之間的相關(guān)性,具體包括:在所述距離差位于預(yù)設(shè)區(qū)間時(shí),將所述第二新聞設(shè)置為所述第一新聞的相關(guān)新聞,以用于在需推送所述第一新聞的相關(guān)新聞時(shí)推送所述第二新聞。
[0011]依據(jù)本發(fā)明的一種確定新聞之間相關(guān)性的裝置,包括:第一距離計(jì)算模塊,用于將第一新聞與標(biāo)桿新聞進(jìn)行比較,得到所述第一新聞與所述標(biāo)桿新聞的距離;第二距離計(jì)算模塊,用于將第二新聞與所述標(biāo)桿新聞進(jìn)行比較,得到所述第二新聞與所述標(biāo)桿新聞的距離;相關(guān)性計(jì)算模塊,用于計(jì)算所述第一新聞和所述標(biāo)桿新聞的距離與所述第一新聞與所述標(biāo)桿新聞的距離之間的距離差,根據(jù)所述距離差確定所述第一新聞與所述第二新聞之間的相關(guān)性。
[0012]可選地,前述的裝置,還包括:第一標(biāo)桿新聞獲取模塊,用于識(shí)別所述第一新聞的類型,并從標(biāo)桿新聞集合中選擇具有相對(duì)應(yīng)類型的所述標(biāo)桿新聞。
[0013]可選地,前述的裝置,還包括:第二標(biāo)桿新聞獲取模塊,用于獲取所述第一新聞中的關(guān)鍵詞,并從標(biāo)桿新聞集合中選擇具有所述關(guān)鍵詞的所述標(biāo)桿新聞。
[0014]可選地,前述的裝置,還包括:第一向量生成模塊,用于獲取所述第一新聞的特征屬性,并根據(jù)述第一新聞的特征屬性生成所述第一新聞對(duì)應(yīng)的向量;所述第一標(biāo)桿新聞獲取模塊將所述第一新聞對(duì)應(yīng)的向量與所述標(biāo)桿新聞對(duì)應(yīng)的向量進(jìn)行比較;第二向量生成模塊,用于獲取所述第二新聞的特征屬性,并根據(jù)述第二新聞的特征屬性生成所述第二新聞對(duì)應(yīng)的向量;所述第一標(biāo)桿新聞獲取模塊將所述第二新聞對(duì)應(yīng)的向量與所述標(biāo)桿新聞對(duì)應(yīng)的向量進(jìn)行比較。
[0015]可選地,前述的裝置,所述第一向量生成模塊對(duì)所述第一新聞進(jìn)行分詞得到多個(gè)詞,計(jì)算所述第一新聞的多個(gè)詞的詞頻,作為所述第一新聞的特征屬性;所述第二向量生成模塊對(duì)所述第二新聞進(jìn)行分詞得到多個(gè)詞,計(jì)算所述第二新聞的多個(gè)詞的詞頻,作為所述第二新聞的特征屬性。
[0016]可選地,前述的裝置,所述相關(guān)性計(jì)算模塊在所述距離差位于預(yù)設(shè)區(qū)間時(shí),將所述第二新聞設(shè)置為所述第一新聞的相關(guān)新聞,以用于在需推送所述第一新聞的相關(guān)新聞時(shí)推送所述第二新聞。
[0017]根據(jù)以上技術(shù)方案,本發(fā)明的確定新聞之間相關(guān)性的方法和裝置至少具有以下優(yōu)占.V.
[0018]根據(jù)本發(fā)明的技術(shù)方案,當(dāng)需要分析不同新聞之間的相關(guān)性時(shí),不必進(jìn)行多個(gè)新聞之間的對(duì)比,而是進(jìn)行多個(gè)新聞與標(biāo)桿新聞之間的比較,如果兩個(gè)新聞與標(biāo)桿之間的距離相似,則說(shuō)明兩個(gè)新聞之間具有一定的類似程度;由于標(biāo)桿新聞只有一個(gè),而其他新聞不需要進(jìn)行互相之間的對(duì)比,只需要進(jìn)行與標(biāo)桿新聞的對(duì)比,即可確定多個(gè)新聞之間的相關(guān)性,所以根據(jù)本發(fā)明的技術(shù)方案獲取相關(guān)新聞的效率非常高。
[0019]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說(shuō)明】
[0020]通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0021]圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定新聞之間相關(guān)性的方法的流程圖;
[0022]圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定新聞之間相關(guān)性的裝置的框圖;
[0023]圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定新聞之間相關(guān)性的裝置的框圖。
【具體實(shí)施方式】
[0024]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0025]如圖1所示,本發(fā)明的一個(gè)實(shí)施例中提供了一種確定新聞之間相關(guān)性的方法,包括:
[0026]步驟110,將第一新聞與標(biāo)桿新聞進(jìn)行比較,得到第一新聞與標(biāo)桿新聞的距離。在本實(shí)施例中,對(duì)標(biāo)桿新聞不進(jìn)行限制,任何一篇新聞都可以選定作為標(biāo)桿新聞。
[0027]步驟120,將第二新聞與標(biāo)桿新聞進(jìn)行比較,得到第二新聞與標(biāo)桿新聞的距離。
[0028]步驟130,計(jì)算第一新聞與標(biāo)桿新聞的距離和第一新聞與標(biāo)桿新聞的距離之間的距離差,根據(jù)距離差確定第一新聞與第二新聞之間的相關(guān)性。在本實(shí)施例中,距離反映了新聞之間的差別,本實(shí)施例對(duì)計(jì)算距離的方式不進(jìn)行限制;根據(jù)本實(shí)施例的技術(shù)方案,容易理解,當(dāng)?shù)谝恍侣勁c標(biāo)桿新聞之間的距離,和第二新聞與標(biāo)桿新聞之間的距離相似時(shí),說(shuō)明第一新聞與第二新聞之間的距離較近,也就是兩個(gè)新聞之間的相關(guān)性較強(qiáng);當(dāng)?shù)谝恍侣勁c標(biāo)桿新聞之間距離較近,第二新聞與標(biāo)桿新聞之間的距離較遠(yuǎn)時(shí),說(shuō)明第一新聞與第二新聞之間的距離較遠(yuǎn),兩個(gè)新聞之間的相關(guān)性較弱。
[0029]本發(fā)明的一個(gè)實(shí)施例中還提供一種確定新聞之間相關(guān)性的方法,相比于前述的實(shí)施例,本實(shí)施例的確定新聞之間相關(guān)性的方法,在步驟110之前,還包括:
[0030]識(shí)別第一新聞的類型,并從標(biāo)桿新聞集合中選擇具有相對(duì)應(yīng)類型的標(biāo)桿新聞。在本實(shí)施例中,如果第一新聞、第二新聞與標(biāo)桿新聞之間的距離過(guò)大,只能說(shuō)明第一新聞、第二新聞與標(biāo)桿新聞均有很大不同,但難以說(shuō)明第一新聞、第二新聞之間的相關(guān)性如何;而同類型的新聞之間具有較高的相關(guān)性,則本實(shí)施例使得第一新聞與標(biāo)桿新聞之間的距離較小,說(shuō)明第一新聞與標(biāo)桿新聞相關(guān)性較高,則第二新聞與標(biāo)桿新聞距離大則相當(dāng)于與第一新聞距離大,即第一新聞與第二新聞相關(guān)性較弱,第二新聞與標(biāo)桿新聞距離小則相當(dāng)于與第一新聞距離小,即第一新聞與第二新聞相關(guān)性較強(qiáng)