本發(fā)明屬于信息傳遞技術(shù)領(lǐng)域,特別涉及一種新聞線索個(gè)性化推送方法及系統(tǒng)。
背景技術(shù):
隨著全民參與的互聯(lián)網(wǎng)模式的發(fā)展,新聞媒體也在逐漸變革,傳統(tǒng)媒體基于人才優(yōu)勢(shì)和品牌優(yōu)勢(shì)提供獨(dú)家、獨(dú)到、專業(yè)的新聞內(nèi)容,再輔以多樣化的傳播渠道,就能占領(lǐng)新聞傳播的制高點(diǎn),而如今互聯(lián)網(wǎng)上信息越來越充裕,如何在充足的線索中,根據(jù)用戶群特點(diǎn)快速準(zhǔn)確的從候選新聞線索集中找到用戶需要的有價(jià)值的線索并進(jìn)行推送具有重要意義。
專利文件1(公開號(hào)為CN101694659A)公開了一種基于多主題追蹤的個(gè)性化網(wǎng)絡(luò)新聞推送方法,根據(jù)劃分并維護(hù)多個(gè)用戶子興趣模型,選取與所有子興趣模型的最高相似度最大的新聞報(bào)道推薦給用戶,達(dá)到涵蓋用戶多種興趣特征、推薦準(zhǔn)確率高、系統(tǒng)后續(xù)維護(hù)負(fù)擔(dān)輕的特點(diǎn)。
專利文件2(公開號(hào)為CN104462578A)公開了一種新聞推送方法,根據(jù)制定人群的瀏覽情況選擇新聞使推送用戶能夠接收到指定群體最關(guān)注,或者是影響力最大的新聞,從而準(zhǔn)確的拓寬了推送用戶的接收新聞的種類,并且準(zhǔn)確的使用戶接收到的應(yīng)當(dāng)了解的新聞。
專利文件3(公開號(hào)為CN104090990A)公開了一種新聞推送方法和系統(tǒng),根據(jù)計(jì)算用戶對(duì)多個(gè)目標(biāo)新聞?lì)悇e的興趣權(quán)重值,根據(jù)該權(quán)重調(diào)整不同目標(biāo)新聞?lì)悇e的推送比例新聞推送,達(dá)到為用戶呈現(xiàn)更多樣化的內(nèi)容,引導(dǎo)用戶調(diào)整個(gè)人興趣,使用戶及時(shí)發(fā)現(xiàn)新的興趣,更全面地展現(xiàn)新聞內(nèi)容的特點(diǎn)。
但是上述現(xiàn)有技術(shù)主要通過新聞與用戶興趣匹配程度、關(guān)聯(lián)用戶瀏 覽情況來選取帶推送新聞,不能利用新聞線索本身的特點(diǎn)來發(fā)現(xiàn)最有推送價(jià)值的新聞線索。
技術(shù)實(shí)現(xiàn)要素:
為了解決上述問題,本發(fā)明的目的在于,對(duì)新聞線索進(jìn)行個(gè)性化推送,根據(jù)用戶群特點(diǎn)快速準(zhǔn)確的從候選新聞線索集中找到用戶需要的有價(jià)值的線索并進(jìn)行推送,其中新聞線索是指新聞事件的簡(jiǎn)介,包含事件簡(jiǎn)單描述和事件起止時(shí)間。本發(fā)明對(duì)大量線索候選集進(jìn)行興趣領(lǐng)域分類,使用提出的排序衡量標(biāo)準(zhǔn)選擇得分最高的線索列表推送給用戶,保證用戶盡快獲得其感興趣的新聞線索。
本發(fā)明的新聞線索個(gè)性化推送方法,包括:步驟1,創(chuàng)建新聞線索領(lǐng)域的標(biāo)簽,為每個(gè)所述新聞線索領(lǐng)域分別訓(xùn)練一個(gè)新聞線索的分類模型,使用所述分類模型對(duì)新聞線索候選集中的每條新聞線索進(jìn)行新聞線索領(lǐng)域分類,存入對(duì)應(yīng)領(lǐng)域的新聞線索集;步驟2,基于新聞線索的熱度、時(shí)效性、和可信度建立新聞線索的評(píng)分模型來對(duì)每個(gè)所述新聞線索集中的每條新聞線索進(jìn)行評(píng)分,每個(gè)所述新聞線索集中均選擇得分最高的N條新聞線索作為待推薦線索,N的取值可根據(jù)需求自行設(shè)定;步驟3,由用戶從所述標(biāo)簽中選擇自己感興趣的一個(gè)或多個(gè)新聞線索領(lǐng)域,然后將對(duì)應(yīng)于用戶選擇的新聞線索領(lǐng)域的所述新聞線索集中的所述待推薦線索推送給用戶。
本發(fā)明的新聞線索個(gè)性化推送方法,進(jìn)一步包括:步驟4,在客戶端為每條推送的新聞線索提供打分功能,在用戶打分后將對(duì)應(yīng)的新聞線索和打分結(jié)果上傳至系統(tǒng)服務(wù)器,根據(jù)所述打分結(jié)果更新對(duì)應(yīng)的新聞線索的可信度得分。
本發(fā)明的新聞線索個(gè)性化推送方法,其中,所述步驟1中,利用二值分類器根據(jù)每個(gè)所述新聞線索領(lǐng)域分別建立一個(gè)新聞線索的分類模型,分別用每個(gè)所述分類模型來對(duì)新聞線索候選集中的每條新聞線索進(jìn)行新聞線索領(lǐng)域分類,當(dāng)有m個(gè)分類模型將某條新聞線索分類為真時(shí),則取這m個(gè)所述分類模型所對(duì)應(yīng)的m個(gè)新聞線索領(lǐng)域作為該條新聞線 索所屬的領(lǐng)域,其中m為正整數(shù)。
本發(fā)明的新聞線索個(gè)性化推送方法,其中,所述步驟2中,所述線索熱度根據(jù)新聞線索在搜索引擎中得到的相關(guān)結(jié)果數(shù)來計(jì)算;所述時(shí)效性根據(jù)新聞線索的發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差計(jì)算;所述可信度根據(jù)新聞線索發(fā)現(xiàn)的來源計(jì)算;所述新聞線索的評(píng)分模型為:
其中Vi為新聞線索CSi的綜合得分,Ci為搜索引擎得到的相關(guān)結(jié)果數(shù),ΔTi為新聞線索發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差,單位為小時(shí),avg(ΔT)為所有新聞線索發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差的平均值,SRi表示新聞線索CSi對(duì)應(yīng)的來源Ri的可信度得分,α、β、γ分別為所述新聞線索CSi的線索熱度、時(shí)效性、可信度的權(quán)重系數(shù)。
本發(fā)明的新聞線索個(gè)性化推送方法,其中,所述步驟4進(jìn)一步為,建立新聞線索的可信度評(píng)分更新模型用于根據(jù)用戶的打分結(jié)果計(jì)算更新后的可信度得分SRi',并用該SRi'代替公式(1)中的SRi來更新新聞線索評(píng)分模型,其中所述可信度評(píng)分更新模型為,
SRi'=μ·SRi+(1-μ)·avg(Si) (2)
Si表示新聞線索來源Ri對(duì)應(yīng)的新聞線索打分集合,μ為調(diào)節(jié)因子,取值范圍[0,1]。
另外,本發(fā)明還提供一種新聞線索個(gè)性化推送系統(tǒng),包括:分類模塊,用于創(chuàng)建新聞線索領(lǐng)域的標(biāo)簽,為每個(gè)所述新聞線索領(lǐng)域分別訓(xùn)練一個(gè)新聞線索的分類模型,使用所述分類模型對(duì)新聞線索候選集中的每條新聞線索進(jìn)行新聞線索領(lǐng)域分類,存入對(duì)應(yīng)領(lǐng)域的新聞線索集;評(píng)分模塊,用于基于新聞線索的熱度、時(shí)效性、和可信度建立新聞線索的評(píng)分模型來對(duì)每個(gè)所述新聞線索集中的每條新聞線索進(jìn)行評(píng)分,每個(gè)所述新聞線索集中均選擇得分最高的N條新聞線索作為待推薦線索,N的取值可根據(jù)需求自行設(shè)定;推送模塊,用于由用戶從所述標(biāo)簽中選擇自己感興趣的一個(gè)或多個(gè)新聞線索領(lǐng)域,然后將對(duì)應(yīng)于用戶選擇的新聞線索領(lǐng)域的所述新聞線索集中的所述待推薦線索推送給用戶。
本發(fā)明的新聞線索個(gè)性化推送系統(tǒng),進(jìn)一步包括:反饋模塊,用于在客戶端為每條推送的新聞線索提供打分功能,在用戶打分后將對(duì)應(yīng)的新聞線索和打分結(jié)果上傳至系統(tǒng)服務(wù)器,根據(jù)所述打分結(jié)果更新對(duì)應(yīng)的新聞線索的可信度得分。
本發(fā)明的新聞線索個(gè)性化推送系統(tǒng),其中,所述分類模塊進(jìn)一步包括:分類器判別模塊,利用二值分類器根據(jù)每個(gè)所述新聞線索領(lǐng)域分別建立一個(gè)新聞線索的分類模型,分別用每個(gè)所述分類模型來對(duì)新聞線索候選集中的每條新聞線索進(jìn)行新聞線索領(lǐng)域分類,當(dāng)有m個(gè)分類模型將某條新聞線索分類為真時(shí),則取這m個(gè)所述分類模型所對(duì)應(yīng)的m個(gè)新聞線索領(lǐng)域作為該條新聞線索所屬的領(lǐng)域,其中m為正整數(shù)。
本發(fā)明的新聞線索個(gè)性化推送系統(tǒng),其中,所述評(píng)分模塊中,根據(jù)新聞線索在搜索引擎中得到的相關(guān)結(jié)果數(shù)來計(jì)算所述線索熱度,根據(jù)新聞線索的發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差來計(jì)算所述時(shí)效性,根據(jù)新聞線索發(fā)現(xiàn)的來源來計(jì)算所述可信度;所述評(píng)分模塊采用如下模型對(duì)新聞線索進(jìn)行評(píng)分:
其中Vi為新聞線索CSi的綜合得分,Ci為搜索引擎得到的相關(guān)結(jié)果數(shù),ΔTi為新聞線索發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差,單位為小時(shí),avg(ΔT)為所有新聞線索發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差的平均值,SRi表示新聞線索CSi對(duì)應(yīng)的來源Ri的可信度得分,α、β、γ分別為所述新聞線索CSi的線索熱度、時(shí)效性、可信度的權(quán)重系數(shù)。
本發(fā)明的新聞線索個(gè)性化推送系統(tǒng),其中,所述反饋模塊進(jìn)一步包括可信度評(píng)分更新模塊,所述可信度評(píng)分更新模塊建立可信度評(píng)分更新模型用于根據(jù)用戶的打分結(jié)果計(jì)算更新后的新聞線索的可信度得分SRi',并用該SRi'代替公式(1)中的SRi來更新新聞線索的評(píng)分模型,其中所述可信度評(píng)分更新模型為,
SRi'=μ·SRi+(1-μ)·avg(Si) (2)
Si表示新聞線索來源Ri對(duì)應(yīng)的新聞線索打分集合,μ為調(diào)節(jié)因子, 取值范圍[0,1]。
本發(fā)明的效果如下:
(1)為用戶提供興趣領(lǐng)域的選擇功能,根據(jù)用戶選擇的興趣領(lǐng)域選擇待推送的線索。
(2)能夠?qū)π侣劸€索進(jìn)行自動(dòng)分類。能夠針對(duì)不同領(lǐng)域,訓(xùn)練線索分類模型,同一線索可以屬于不同領(lǐng)域。
(3)提出線索熱度、傳播加速度等衡量指標(biāo),基于這些衡量指標(biāo)對(duì)線索進(jìn)行打分,每個(gè)領(lǐng)域中選取得分最高的Top k個(gè)線索進(jìn)行推送。
(4)在客戶端為每個(gè)推送的線索提供用戶打分功能,在用戶打分后將對(duì)應(yīng)線索和打分結(jié)果上傳系統(tǒng)服務(wù)器,根據(jù)打分結(jié)果更新對(duì)應(yīng)線索來源的質(zhì)量評(píng)分,進(jìn)而更新新聞線索的綜合得分,確保能夠?qū)⒆钣袃r(jià)值的新聞線索推送給用戶。
附圖說明
圖1是本發(fā)明的新聞線索個(gè)性化推送方法的流程圖。
圖2是本發(fā)明的實(shí)施例的新聞線索個(gè)性化推送方法的流程圖。
圖3是本發(fā)明的新聞線索個(gè)性化推送系統(tǒng)的構(gòu)成圖。
圖4是本發(fā)明的實(shí)施例的新聞線索個(gè)性化推送系統(tǒng)的構(gòu)成圖。
圖5為本發(fā)明的新聞線索個(gè)性化推送系統(tǒng)中,客戶端與系統(tǒng)服務(wù)器之間進(jìn)行打分反饋的流程圖。
附圖標(biāo)記說明
1 新聞線索個(gè)性化推送系統(tǒng)
11 分類模塊
12 評(píng)分模塊
13 推送模塊
14 反饋模塊
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖對(duì)本發(fā)明的新聞線索個(gè)性化推送方法及系統(tǒng)進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明的新聞線索個(gè)性化推送方法的流程圖如圖1所示。本發(fā)明的新聞線索個(gè)性化推送方法,包括:步驟1,創(chuàng)建新聞線索領(lǐng)域的標(biāo)簽,并為每個(gè)所述新聞線索領(lǐng)域分別訓(xùn)練一個(gè)新聞線索分類模型,使用所述新聞線索分類模型來對(duì)新聞線索候選集中的每條新聞線索進(jìn)行分類,并存入對(duì)應(yīng)的興趣領(lǐng)域線索集;步驟2,基于線索熱度、時(shí)效性、和可信度建立新聞線索評(píng)分模型來對(duì)每個(gè)所述線索集中的每條新聞線索進(jìn)行評(píng)分,每個(gè)所述線索集中均選擇得分最高的TOP N條線索作為待推薦線索,N的取值可根據(jù)需求自行設(shè)定,N為正整數(shù);步驟3,由用戶從所述標(biāo)簽中選擇自己感興趣的一個(gè)或多個(gè)新聞線索領(lǐng)域,然后將對(duì)應(yīng)于用戶選擇的新聞線索領(lǐng)域的所述待推薦線索推送給用戶。
在上述步驟1中,利用SVM二值分類器訓(xùn)練線索自動(dòng)分類模型,假設(shè)新聞線索領(lǐng)域的標(biāo)簽共有K個(gè)興趣領(lǐng)域,通過訓(xùn)練K個(gè)二值分類器,對(duì)于一條線索CSi,根據(jù)每個(gè)分類器的分類結(jié)果,對(duì)m個(gè)分類為真的分類器對(duì)應(yīng)的m個(gè)興趣領(lǐng)域作為線索CSi所屬的領(lǐng)域。最后每個(gè)領(lǐng)域都對(duì)應(yīng)一個(gè)線索集,算法描述如下:
輸入:線索集CS;
初始化每個(gè)興趣領(lǐng)域的線索集Sk為空,k=1…K;
對(duì)線索集中每一條線索CSi;
對(duì)將CSi作為每一興趣領(lǐng)域的分類器CLk的輸入;
如果CLk分類為真則將CSi添加到Sk中。
輸出:Sk,k=1…K。
在上述步驟2中,對(duì)每個(gè)興趣領(lǐng)域?qū)?yīng)的線索集Sk,根據(jù)線索熱度、 時(shí)效性、可信度三個(gè)維度進(jìn)行打分,每個(gè)線索集Sk中均選擇得分高的Top n個(gè)線索作為該領(lǐng)域的待推送線索。其中,線索熱度用線索在搜索引擎中得到的相關(guān)結(jié)果數(shù)來體現(xiàn),時(shí)效性用線索發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差計(jì)算,可信度則根據(jù)線索發(fā)現(xiàn)的來源計(jì)算。公式如下:
其中Vi為線索i的綜合得分,Ci為搜索引擎得到的相關(guān)結(jié)果數(shù),ΔTi為線索發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差,單位為小時(shí),avg(ΔT)為所有線索發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差的平均值,SRi表示線索i對(duì)應(yīng)的來源Ri的可信度打分,α、β、γ分別為三項(xiàng)的系數(shù),可由經(jīng)驗(yàn)設(shè)定,例如取值為0.3,0.4,0.3。
進(jìn)而,圖2為本發(fā)明的實(shí)施例的新聞線索個(gè)性化推送方法的流程圖,在該實(shí)施方式中,在上述新聞線索個(gè)性化推送方法中添加了用戶反饋的步驟,用戶可以對(duì)其看過的每個(gè)線索進(jìn)行打分,打分后對(duì)應(yīng)線索和打分結(jié)果都將上傳至系統(tǒng)服務(wù)器,根據(jù)打分結(jié)果更新對(duì)應(yīng)線索來源的質(zhì)量評(píng)分,更新公式如下:
SRi'=μ·SRi+(1-μ)·avg(Si) (2)
其中SRi為線索來源Ri的質(zhì)量評(píng)分,Si表示線索來源i對(duì)應(yīng)的線索打分集合,α為調(diào)節(jié)因子,取值范圍[0,1]。
在上述步驟3中,針對(duì)不同用戶具有不同的興趣領(lǐng)域,準(zhǔn)確找到用戶的興趣領(lǐng)域才能推送給用戶想要的線索,而讓用戶自己選擇興趣領(lǐng)域是最直觀也是效果最好的方法,故步驟3中采用由用戶自己從興趣標(biāo)簽中選擇自己感興趣領(lǐng)域的方案。
另外,本發(fā)明還提供一種新聞線索個(gè)性化推送系統(tǒng)1,如圖3所示,包括:分類模塊11,用于創(chuàng)建新聞線索領(lǐng)域的標(biāo)簽,并為每個(gè)所述新聞線索領(lǐng)域分別訓(xùn)練一個(gè)新聞線索分類模型,使用所述新聞線索分類模型來對(duì)新聞線索候選集中的每條新聞線索進(jìn)行分類,并存入對(duì)應(yīng)的興趣領(lǐng)域線索集;評(píng)分模塊12,用于基于線索熱度、時(shí)效性、和可信度建立新聞線索評(píng)分模型來對(duì)每個(gè)所述線索集中的每條新聞線索進(jìn)行評(píng)分,每個(gè) 所述線索集中均選擇得分最高的N條線索作為待推薦線索,N的取值可根據(jù)需求自行設(shè)定;推送模塊13,用于由用戶從所述標(biāo)簽中選擇自己感興趣的一個(gè)或多個(gè)新聞線索領(lǐng)域,然后將對(duì)應(yīng)于用戶選擇的新聞線索領(lǐng)域的所述線索集中的所述待推薦線索推送給用戶。
在本發(fā)明的另一實(shí)施方式的新聞線索個(gè)性化推送系統(tǒng)中,如圖4所示,進(jìn)一步包括:反饋模塊14,用于在客戶端為每條推送的新聞線索提供打分功能,在用戶打分后將對(duì)應(yīng)線索和打分結(jié)果上傳至系統(tǒng)服務(wù)器,根據(jù)所述打分結(jié)果更新對(duì)應(yīng)線索的可信度得分。
圖5為本發(fā)明的新聞線索個(gè)性化推送系統(tǒng)中,客戶端與系統(tǒng)服務(wù)器之間進(jìn)行打分反饋的流程圖。來自興趣領(lǐng)域線索集Sk的新聞線索經(jīng)過評(píng)分模型進(jìn)行評(píng)分后,選擇得分最高的TOP N條新聞線索推送給用戶,用戶閱讀了被推送的新聞線索后,對(duì)新聞線索進(jìn)行打分,在用戶打分后將對(duì)應(yīng)線索和打分結(jié)果上傳至系統(tǒng)服務(wù)器,系統(tǒng)服務(wù)器依據(jù)接收到的打分結(jié)果更新對(duì)應(yīng)線索的可信度評(píng)分,進(jìn)而更新新聞線索的評(píng)分模型,來自興趣領(lǐng)域線索集Sk的新聞線索經(jīng)過更新后的評(píng)分模型進(jìn)行評(píng)分后,繼續(xù)選擇得分最高的TOP N條新聞線索推送給用戶。由此,能夠確保能夠?qū)⒆钣袃r(jià)值的新聞線索推送給用戶。
本發(fā)明的新聞線索個(gè)性化推送系統(tǒng),其中,所述分類模塊進(jìn)一步包括:分類器判別模塊,利用二值分類器根據(jù)每個(gè)所述新聞線索領(lǐng)域分別建立一個(gè)新聞線索的分類模型,分別用每個(gè)所述分類模型來對(duì)新聞線索候選集中的每條新聞線索進(jìn)行分類,當(dāng)有m個(gè)分類模型將某條新聞線索分類為真時(shí),則取這m個(gè)所述分類模型所對(duì)應(yīng)的m個(gè)興趣領(lǐng)域作為該條新聞線索所屬的領(lǐng)域,其中m為正整數(shù)。
本發(fā)明的新聞線索個(gè)性化推送系統(tǒng)中,所述評(píng)分模塊中,根據(jù)新聞線索在搜索引擎中得到的相關(guān)結(jié)果數(shù)來計(jì)算所述線索熱度,根據(jù)新聞線索的發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差來計(jì)算所述時(shí)效性,根據(jù)新聞線索發(fā)現(xiàn)的來源來計(jì)算所述可信度,所述新聞線索評(píng)分模塊采用如下模型對(duì)新聞線索進(jìn)行評(píng)分,
其中Vi為新聞線索CSi的綜合得分,Ci為搜索引擎得到的相關(guān)結(jié)果數(shù),ΔTi為新聞線索發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差,單位為小時(shí),avg(ΔT)為所有新聞線索發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差的平均值,SRi表示新聞線索CSi對(duì)應(yīng)的來源Ri的可信度打分,α、β、γ分別為所述新聞線索CSi的線索熱度、時(shí)效性、可信度的系數(shù),可由經(jīng)驗(yàn)設(shè)定,例如取值為0.3,0.4,0.3。
本發(fā)明的新聞線索個(gè)性化推送系統(tǒng)中,所述反饋模塊進(jìn)一步包括可信度評(píng)分更新模塊,所述可信度評(píng)分更新模塊建立可信度評(píng)分更新模型用于根據(jù)用戶的打分結(jié)果計(jì)算更新后的可信度得分SRi',并用該SRi'代替公式(1)中的SRi來更新新聞線索評(píng)分模型,其中所述可信度評(píng)分更新模型為,
SRi'=μ·SRi+(1-μ)·avg(Si) (2)
Si表示線索來源Ri對(duì)應(yīng)的線索打分集合,μ為調(diào)節(jié)因子,取值范圍[0,1]。
以下,結(jié)合具體數(shù)值實(shí)施例對(duì)本發(fā)明的實(shí)施方式的新聞線索個(gè)性化推送方法及系統(tǒng)進(jìn)行更加詳細(xì)地說明。
首先,本發(fā)明的新聞線索個(gè)性化推送系統(tǒng)為客戶提供了包括汽車、數(shù)碼、游戲、健康、家居、旅游、美食、體育、星座、教育……近幾十種新聞線索的興趣領(lǐng)域標(biāo)簽供用戶進(jìn)行選擇,針對(duì)每個(gè)興趣領(lǐng)域系統(tǒng)分別訓(xùn)練一個(gè)新聞線索分類模型來對(duì)新聞線索候選集中的每條新聞線索進(jìn)行分類,并分別存入對(duì)應(yīng)的興趣領(lǐng)域線索集S1..Sn,n代表興趣領(lǐng)域數(shù),n為正整數(shù)。
具體地,可以利用SVM二值分類器訓(xùn)練上述分類模型,使用n個(gè)二值分類器分別對(duì)新聞候選線索集CS{CS1、CS1、CS3…CSi}(i為正整數(shù))中的每一條新聞線索進(jìn)行打分(一般來說,二值分類器打分范圍為0-1,大于0.5為真,小于0.5為假),對(duì)于新聞線索CS1,假設(shè)只有體育類的二值分類器的分類結(jié)果為真,則將新聞線索CS1放入體育類的線 索集中,即該新聞線索CS1被判定為體育類。對(duì)于新聞線索CS2,假設(shè)汽車類的二值分類器、數(shù)碼類的二值分類器分類結(jié)果都為真,則將該新聞線索CS2分別放入汽車類的線索集和數(shù)碼類的線索集中,即該條線索被判斷為既屬于數(shù)碼類也屬于汽車類。對(duì)于新聞線索CS3,如果所有的二值分類器分類結(jié)果都為假,則丟棄該線索。通過上述方法來計(jì)算線索集CS中的每一條線索CSi,將CSi進(jìn)行放入相應(yīng)的線索集S1….Sn。
具體算法描述如下:
輸入:線索集CS;
初始化每個(gè)興趣領(lǐng)域的線索集Sk為空,k=1…n;
對(duì)線索集中每一條線索CSi;
對(duì)將CSi作為每一興趣領(lǐng)域的分類器CLk的輸入,k=1…n;
如果CLk分類結(jié)果為真則將CSi添加到Sk中。
輸出:Sk,k=1…n。
假設(shè)用戶A在客戶端選擇了汽車、數(shù)碼、體育三項(xiàng)興趣標(biāo)簽作為自己的興趣領(lǐng)域標(biāo)簽。接著,基于線索熱度、時(shí)效性、和可信度建立新聞線索評(píng)分模型來對(duì)所述線索集Sk中的每條新聞線索進(jìn)行評(píng)分,。具體地評(píng)分模型為:
其中Vi為新聞線索CSi的綜合得分,Ci為搜索引擎得到的相關(guān)結(jié)果數(shù),本實(shí)施例只統(tǒng)計(jì)搜索引擎返回的前兩頁(yè)結(jié)果中的相關(guān)結(jié)果數(shù),ΔTi為新聞線索發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差,單位為小時(shí),avg(ΔT)為所有新聞線索發(fā)現(xiàn)時(shí)間與當(dāng)前時(shí)間的時(shí)間差的平均值,SRi表示新聞線索CSi對(duì)應(yīng)的來源Ri的可信度得分,取值范圍0-5(可以估計(jì)大部分的新聞線索打分值在0-5的范圍之內(nèi),有可能會(huì)有少數(shù)新聞線索得分高于5,但最終只選擇得分最高的TOP N條新聞線索作為待推薦線索),α、β、γ分別為所述新聞線索CSi的線索熱度、時(shí)效性、可信度的權(quán)重系數(shù)。在本實(shí)施例中,假設(shè)α、β、γ分別為0.3、0.4、0.3。
對(duì)每條線索完成評(píng)分后,每個(gè)線索集Sk只保留得分最高的Top N條線索,N取值可由系統(tǒng)人員自行設(shè)定,本實(shí)施例中取值為20。
最后,假設(shè)系統(tǒng)某用戶A選擇了汽車、數(shù)碼、體育三個(gè)興趣領(lǐng)域,則將這三個(gè)興趣領(lǐng)域?qū)?yīng)的線索集合并后推送給用戶A。
在客戶端提供線索打分模塊,用戶可以對(duì)每條線索打1到5分,假設(shè)用戶A對(duì)線索CSj打分為3,則將打分上傳至系統(tǒng),系統(tǒng)定時(shí)會(huì)對(duì)所有線索來源Ri對(duì)應(yīng)的線索集Si的用戶打分結(jié)果求均值,并根據(jù)公式:SRi'=μ·SRi+(1-μ)·avg(Si)來更新線索來源Ri的可信度得分SRi,本實(shí)施例中u取值為0.85。