亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

資訊篩選推送方法及裝置制造方法

文檔序號(hào):7777240閱讀:140來(lái)源:國(guó)知局
資訊篩選推送方法及裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種資訊篩選推送方法及裝置。該資訊篩選推送方法包括以下步驟:計(jì)算瀏覽記錄的關(guān)閉時(shí)間和打開(kāi)時(shí)間的時(shí)間間隔,并依據(jù)時(shí)間間隔的大小選取第一類瀏覽記錄和第二類瀏覽記錄;從第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,記錄至關(guān)鍵詞數(shù)據(jù)庫(kù);從第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,記錄至關(guān)鍵詞數(shù)據(jù)庫(kù)中;獲取新資訊;篩選出主題中包含第一主題關(guān)鍵詞且不包含第二主題關(guān)鍵詞的資訊;推送篩選出的資訊。本發(fā)明的資訊篩選推送方法及裝置,能夠高效地自動(dòng)篩選出適應(yīng)用戶個(gè)性化需求的新資訊進(jìn)行推送,節(jié)省了用戶用于搜索資訊的時(shí)間和網(wǎng)絡(luò)流量,同時(shí)篩選推送的資訊具有較佳的準(zhǔn)確性和針對(duì)性。
【專利說(shuō)明】資訊篩選推送方法及裝置
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及一種資訊篩選推送方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的不斷發(fā)展和普及,如今人們?cè)絹?lái)越多通過(guò)網(wǎng)絡(luò)來(lái)了解各類新聞、資訊等,通過(guò)網(wǎng)絡(luò)獲得資訊可以通過(guò)計(jì)算機(jī)、手機(jī)等多種設(shè)備來(lái)完成。這種新的資訊獲取方式不僅有效利用了網(wǎng)絡(luò)傳輸數(shù)據(jù)的高效以及便捷性,更利用了網(wǎng)絡(luò)中的海量資訊來(lái)滿足用戶的幾乎任何對(duì)于資訊的需求。然而,互聯(lián)網(wǎng)上的海量資訊也給用戶帶來(lái)了一些負(fù)面影響,即用戶在獲取資訊時(shí)需要自行進(jìn)行搜索和篩選,這樣就會(huì)浪費(fèi)時(shí)間和網(wǎng)絡(luò)流量。而一些網(wǎng)站為此設(shè)計(jì)的資訊推送方法,則是基于網(wǎng)站方面的統(tǒng)計(jì)將一段時(shí)間內(nèi)比較流行的或者點(diǎn)擊率較高的資訊向用戶端自動(dòng)推送,這種方式盡管一定程度上減少了用戶自行搜索的時(shí)間和網(wǎng)絡(luò)流量,但對(duì)于用戶需求無(wú)法進(jìn)行有效區(qū)分,更無(wú)法適應(yīng)于用戶個(gè)性化的需求,因而在資訊推送的準(zhǔn)確性和效率上仍有明顯不足,即在資訊內(nèi)容上無(wú)法準(zhǔn)確高效地匹配于用戶實(shí)際想要獲取的資訊。

【發(fā)明內(nèi)容】

[0003]本發(fā)明要解決的技術(shù)問(wèn)題是為了克服現(xiàn)有技術(shù)中資訊的推送大多需要用戶進(jìn)行搜索和篩選,而自動(dòng)推送的資訊又無(wú)法適應(yīng)于個(gè)性化的需求,因而篩選推送的資訊的準(zhǔn)確性和效率較低的缺陷,提出一種資訊篩選推送方法及裝置。
[0004]本發(fā)明是通過(guò)下述技術(shù)方案來(lái)解決上述技術(shù)問(wèn)題的:
[0005]本發(fā)明提供了一種資訊篩選推送方法,其特點(diǎn)在于,將客戶端的瀏覽記錄實(shí)時(shí)存入一瀏覽記錄池,每條瀏覽記錄包括主題、資訊文本、打開(kāi)時(shí)間和關(guān)閉時(shí)間,該資訊篩選推送方法還包括以下步驟:
[0006]S1、計(jì)算每條瀏覽記錄的關(guān)閉時(shí)間和打開(kāi)時(shí)間的時(shí)間間隔,將該時(shí)間間隔大于預(yù)設(shè)的第一間隔的瀏覽記錄作為第一類瀏覽記錄,將該時(shí)間間隔小于預(yù)設(shè)的第二間隔的瀏覽記錄作為第二類瀏覽記錄,其中第一間隔大于第二間隔;
[0007]S2、從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至一關(guān)鍵詞數(shù)據(jù)庫(kù)中;
[0008]S3、從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中;
[0009]S4、獲取發(fā)布時(shí)間距離當(dāng)前時(shí)刻之差小于預(yù)設(shè)的第三間隔的新資訊;
[0010]S5、從新資訊中篩選出主題中包含該關(guān)鍵詞數(shù)據(jù)庫(kù)中的至少一第一主題關(guān)鍵詞、且不包含該關(guān)鍵詞數(shù)據(jù)庫(kù)中的任何第二主題關(guān)鍵詞的資訊作為待推送資訊;
[0011]S6、將待推送資訊發(fā)送至該客戶端。
[0012]該資訊篩選推送方法實(shí)質(zhì)上是基于對(duì)客戶端過(guò)去的瀏覽記錄的分析,從新資訊中篩選出和同一客戶端過(guò)去瀏覽的資訊在內(nèi)容上較相近的資訊進(jìn)行推送。其中,主題表示這一瀏覽記錄所對(duì)應(yīng)的資訊的標(biāo)題,資訊文本即資訊的正文內(nèi)容、打開(kāi)時(shí)間和關(guān)閉時(shí)間分別為客戶端打開(kāi)和關(guān)閉這條資訊的時(shí)間。并且,本領(lǐng)域技術(shù)人員容易理解地,這一瀏覽記錄池通??梢栽O(shè)置為僅存儲(chǔ)有最近一段時(shí)間內(nèi)的瀏覽記錄,或者可以設(shè)置為其具有一定的容量并在存入新的瀏覽記錄時(shí)刪除生成時(shí)間最早的瀏覽記錄。
[0013]步驟S1中計(jì)算得到的某一瀏覽記錄的時(shí)間間隔越長(zhǎng),通常說(shuō)明用戶在這一瀏覽記錄上所花費(fèi)的時(shí)間較長(zhǎng),反之亦然。步驟S1中選取了兩類瀏覽記錄,其中第一類瀏覽記錄的時(shí)間間隔較長(zhǎng),第二類瀏覽記錄的時(shí)間間隔較短,第二類瀏覽記錄更可能是由于用戶的誤操作而打開(kāi)的資訊或者是用戶在打開(kāi)這一資訊后很快發(fā)現(xiàn)這一資訊和自己的需求是不一致的,而第一類瀏覽記錄更可能是用戶經(jīng)仔細(xì)閱讀的資訊。因此,將第一類瀏覽記錄作為在資訊篩選中的關(guān)鍵詞來(lái)源,同時(shí)將第二類瀏覽記錄作為資訊篩選中需要排除的關(guān)鍵詞來(lái)源。為此不僅需要區(qū)別這兩類瀏覽記錄,在后續(xù)的步驟S2和S3中將從這兩類瀏覽記錄中提取的關(guān)鍵詞也進(jìn)行區(qū)別。為了更切合用戶使用習(xí)慣來(lái)進(jìn)行瀏覽記錄的區(qū)別,第一間隔和第二間隔的具體數(shù)值可由本領(lǐng)域技術(shù)人員根據(jù)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行設(shè)置。
[0014]在步驟S5中,根據(jù)新資訊的主題對(duì)于新資訊進(jìn)行了篩選,這樣篩選得到的待推送資訊,其內(nèi)容和用戶過(guò)去曾仔細(xì)閱讀的資訊較為接近,并且在篩選中排除了用戶誤操作對(duì)于分析結(jié)果的影響,因而能夠較準(zhǔn)確地適應(yīng)于用戶的實(shí)際需求。
[0015]較佳地,S2包括以下步驟:
[0016]S21、從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中;
[0017]S22、計(jì)算各個(gè)第一主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第一主題關(guān)鍵詞和權(quán)重值;
[0018]S3包括以下步驟:
[0019]S31、從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中;
[0020]S32、計(jì)算各個(gè)第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)的負(fù)數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第二主題關(guān)鍵詞和權(quán)重值;
[0021]S5由步驟S5a替代:
[0022]S5a、計(jì)算每條新資訊的主題中的所有詞組在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和,并選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊。
[0023]其中,步驟S22及S32中計(jì)算各個(gè)第一主題關(guān)鍵詞及第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)時(shí),并不對(duì)同一個(gè)關(guān)鍵詞是提取自哪條瀏覽記錄進(jìn)行區(qū)分。并且,若有一個(gè)詞組同時(shí)以第一主題關(guān)鍵詞和第二主題關(guān)鍵詞的形式出現(xiàn)在該關(guān)鍵詞數(shù)據(jù)庫(kù)中,則通過(guò)步驟S22及S32,在該關(guān)鍵詞數(shù)據(jù)庫(kù)中會(huì)同時(shí)記錄有這一詞組作為第一主題關(guān)鍵詞的權(quán)重值以及作為第二主題關(guān)鍵詞的權(quán)重值。
[0024]在步驟S5a中,首先確定每條新資訊的主題中的詞組,接著對(duì)于其中的每個(gè)詞組、均在該關(guān)鍵詞數(shù)據(jù)庫(kù)中搜索是否有和這一詞組在用詞上相同的關(guān)鍵詞,應(yīng)當(dāng)注意,這里所說(shuō)的關(guān)鍵詞包括上述第一主題關(guān)鍵詞和第二主題關(guān)鍵詞。然后計(jì)算這些用詞相同的關(guān)鍵詞的權(quán)重值之和,最后選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊。也就是說(shuō),步驟S5a中的“詞組在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和”意為該關(guān)鍵詞數(shù)據(jù)庫(kù)中所有和詞組用詞相同的所有關(guān)鍵詞的權(quán)重值之和。通過(guò)這樣的篩選方法,既考慮到了用戶可能的誤操作的影響,又能夠基于量化的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行判斷,篩選結(jié)果更為客觀準(zhǔn)確。
[0025]較佳地,S2還包括以下步驟:
[0026]S23、對(duì)每條第一類瀏覽記錄中的資訊文本采用TF-1DF算法進(jìn)行分詞后,提取關(guān)鍵詞作為第一文本關(guān)鍵詞,并提取第一文本關(guān)鍵詞的權(quán)值;
[0027]S24、取第一文本關(guān)鍵詞和預(yù)設(shè)的一第一修正系數(shù)之積作為第一文本關(guān)鍵詞的權(quán)重值,其中該第一修正系數(shù)大于零;
[0028]S25、在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第一文本關(guān)鍵詞和權(quán)重值;
[0029]S3還包括以下步驟:
[0030]S33、對(duì)每條第二類瀏覽記錄中的資訊文本采用TF-1DF算法進(jìn)行分詞后,提取關(guān)鍵詞作為第二文本關(guān)鍵詞,并提取第二文本關(guān)鍵詞的權(quán)值;
[0031]S34、取第二文本關(guān)鍵詞和預(yù)設(shè)的一第二修正系數(shù)之積作為第二文本關(guān)鍵詞的權(quán)重值,其中該第二修正系數(shù)小于零;
[0032]S35、在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第二文本關(guān)鍵詞和權(quán)重值。
[0033]較佳地,S5a由S5b替代,S5b包括以下步驟:
[0034]S51b、對(duì)每條新資訊的資訊文本采用TF-1DF算法進(jìn)行分詞后,提取權(quán)值較高的若干資訊關(guān)鍵詞;
[0035]S52b、計(jì)算每條新資訊的主題中的所有詞組以及S51b中提取的該若干資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和,并選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊。
[0036]本發(fā)明還提供了一種資訊篩選推送裝置,其特點(diǎn)在于,包括:
[0037]—瀏覽記錄接收模塊,用于接收并存儲(chǔ)客戶端的瀏覽記錄,每條瀏覽記錄包括主題、資訊文本、打開(kāi)時(shí)間和關(guān)閉時(shí)間;
[0038]一時(shí)間篩選模塊,用于計(jì)算每條瀏覽記錄的關(guān)閉時(shí)間和打開(kāi)時(shí)間的時(shí)間間隔,將該時(shí)間間隔大于預(yù)設(shè)的第一間隔的瀏覽記錄作為第一類瀏覽記錄,將該時(shí)間間隔小于預(yù)設(shè)的第二間隔的瀏覽記錄作為第二類瀏覽記錄,其中第一間隔大于第二間隔;
[0039]一第一關(guān)鍵詞提取模塊,用于從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至一關(guān)鍵詞數(shù)據(jù)庫(kù)中;
[0040]一第二關(guān)鍵詞提取模塊,用于從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中;
[0041]一資訊更新模塊,用于獲取發(fā)布時(shí)間距離當(dāng)前時(shí)刻之差小于預(yù)設(shè)的第三間隔的新資訊;
[0042]一資訊篩選模塊,用于從新資訊中篩選出主題中包含該關(guān)鍵詞數(shù)據(jù)庫(kù)中的至少一第一主題關(guān)鍵詞、且不包含該關(guān)鍵詞數(shù)據(jù)庫(kù)中的任何第二主題關(guān)鍵詞的資訊作為待推送資訊;
[0043]一推送模塊,用于將待推送資訊發(fā)送至該客戶端。
[0044]較佳地,該第一關(guān)鍵詞提取模塊包括一第一主題提取單元和一第一主題權(quán)重計(jì)算單元,該第一主題提取單元用于從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞、并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中,該第一主題權(quán)重計(jì)算單元用于計(jì)算各個(gè)第一主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)作為權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第一主題關(guān)鍵詞和權(quán)重值;
[0045]該第二關(guān)鍵詞提取模塊包括一第二主題提取單元和一第二主題權(quán)重計(jì)算單元,該第二主題提取單元用于從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞、并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中,該第二主題權(quán)重計(jì)算單元用于計(jì)算各個(gè)第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)的負(fù)數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第二主題關(guān)鍵詞和權(quán)重值;
[0046]該資訊篩選模塊由一權(quán)重值計(jì)算模塊代替,該權(quán)重值計(jì)算模塊用于計(jì)算每條新資訊的主題中的所有詞組在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和,并選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊。
[0047]較佳地,該第一關(guān)鍵詞提取模塊還包括一第一分詞單元和一第一修正單元,該第一分詞單元用于對(duì)每條第一類瀏覽記錄中的資訊文本采用TF-1DF算法進(jìn)行分詞后、提取關(guān)鍵詞作為第一文本關(guān)鍵詞、并提取第一文本關(guān)鍵詞的權(quán)值,該第一修正單元用于取第一文本關(guān)鍵詞和預(yù)設(shè)的一第一修正系數(shù)之積作為第一文本關(guān)鍵詞的權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第一文本關(guān)鍵詞和權(quán)重值,其中該第一修正系數(shù)大于零;
[0048]該第二關(guān)鍵詞提取模塊還包括一第二分詞單元和一第二修正單元,該第二分詞單元用于對(duì)每條第二類瀏覽記錄中的資訊文本采用TF-1DF算法進(jìn)行分詞后、提取關(guān)鍵詞作為第二文本關(guān)鍵詞、并提取第二文本關(guān)鍵詞的權(quán)值,該第二修正單元用于取第二文本關(guān)鍵詞和預(yù)設(shè)的一第二修正系數(shù)之積作為第二文本關(guān)鍵詞的權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第二文本關(guān)鍵詞和權(quán)重值,其中該第二修正系數(shù)小于零。
[0049]較佳地,該權(quán)重值計(jì)算模塊由一資訊文本分析模塊代替,該資訊文本分析模塊用于對(duì)每條新資訊的資訊文本采用TF-1DF算法進(jìn)行分詞后,提取權(quán)值較高的若干資訊關(guān)鍵詞,然后計(jì)算每條新資訊的主題中的所有詞組以及提取的該若干資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和,并選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊。
[0050]在符合本領(lǐng)域常識(shí)的基礎(chǔ)上,上述各優(yōu)選條件,可任意組合,即得本發(fā)明各較佳實(shí)例。
[0051]本發(fā)明的積極進(jìn)步效果在于:
[0052]本發(fā)明的資訊篩選推送方法及裝置,通過(guò)對(duì)用戶端的瀏覽記錄依據(jù)打開(kāi)時(shí)間和關(guān)閉時(shí)間的間隔的分類,以及進(jìn)一步地對(duì)于瀏覽記錄中的關(guān)鍵詞的提取和統(tǒng)計(jì)分析,能夠高效地自動(dòng)篩選出適應(yīng)用戶個(gè)性化需求的新資訊進(jìn)行推送,節(jié)省了用戶用于搜索資訊的時(shí)間和網(wǎng)絡(luò)流量,同時(shí)篩選推送的資訊具有較佳的準(zhǔn)確性和針對(duì)性。
【專利附圖】

【附圖說(shuō)明】
[0053]圖1為本發(fā)明實(shí)施例1的資訊篩選推送方法的流程圖。
[0054]圖2為本發(fā)明實(shí)施例2的資訊篩選推送方法的流程圖。
【具體實(shí)施方式】
[0055]下面結(jié)合附圖給出本發(fā)明較佳實(shí)施例,以詳細(xì)說(shuō)明本發(fā)明的技術(shù)方案,但并不因此將本發(fā)明限制在所述的實(shí)施例范圍之中。[0056]實(shí)施例1
[0057]本實(shí)施例的資訊篩選推送方法中,將客戶端的瀏覽記錄實(shí)時(shí)存入一瀏覽記錄池,每條瀏覽記錄包括主題、資訊文本、打開(kāi)時(shí)間和關(guān)閉時(shí)間。參考圖1所示,本實(shí)施例的資訊篩選推送方法還包括以下步驟:
[0058]S1、計(jì)算每條瀏覽記錄的關(guān)閉時(shí)間和打開(kāi)時(shí)間的時(shí)間間隔,將該時(shí)間間隔大于預(yù)設(shè)的第一間隔的瀏覽記錄作為第一類瀏覽記錄,將該時(shí)間間隔小于預(yù)設(shè)的第二間隔的瀏覽記錄作為第二類瀏覽記錄,其中第一間隔大于第二間隔;
[0059]S21、從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中;
[0060]S22、計(jì)算各個(gè)第一主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第一主題關(guān)鍵詞和權(quán)重值;
[0061]S31、從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中;
[0062]S32、計(jì)算各個(gè)第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)的負(fù)數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第二主題關(guān)鍵詞和權(quán)重值;
[0063]S4、獲取發(fā)布時(shí)間距離當(dāng)前時(shí)刻之差小于預(yù)設(shè)的第三間隔的新資訊;
[0064]S5a、計(jì)算每條新資訊的主題中的所有詞組在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和,并選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊;
[0065]S6、將待推送資訊發(fā)送至該客戶端。
[0066]本實(shí)施例中,該第一間隔為10秒,該第二間隔為5秒。在步驟31中計(jì)算得到的某一瀏覽記錄的時(shí)間間隔如果大于10秒,也就是說(shuō)用戶在這一瀏覽記錄上所花費(fèi)的時(shí)間較長(zhǎng)。反之如果時(shí)間間隔小于5秒,說(shuō)明用戶在這一瀏覽記錄上僅花費(fèi)了很短的時(shí)間就關(guān)閉了這一瀏覽記錄。因此,第一類瀏覽記錄很可能包括用戶真正感興趣的內(nèi)容,而第二類瀏覽記錄很可能并不包括用戶真正感興趣的內(nèi)容,僅僅由于用戶的誤操作或者對(duì)標(biāo)題信息的誤解才打開(kāi)的資訊。應(yīng)當(dāng)注意的是,盡管根據(jù)時(shí)間間隔的長(zhǎng)短判斷相應(yīng)的一篇資訊內(nèi)容是否是用戶真正感興趣的難以做到完全準(zhǔn)確,但對(duì)于大量的瀏覽記錄而言,從統(tǒng)計(jì)意義上來(lái)說(shuō),如果資訊中包含了用戶真正感興趣的內(nèi)容,那么用戶查看這類資訊所花費(fèi)的時(shí)間會(huì)更長(zhǎng)。因此,將第一類瀏覽記錄作為在資訊篩選中的關(guān)鍵詞來(lái)源,同時(shí)將第二類瀏覽記錄作為資訊篩選中需要排除的關(guān)鍵詞來(lái)源。為此不僅需要區(qū)別這兩類瀏覽記錄,在后續(xù)的步驟中將從這兩類瀏覽記錄中提取的關(guān)鍵詞也進(jìn)行區(qū)別。
[0067]其中,步驟S22及S32中計(jì)算各個(gè)第一主題關(guān)鍵詞及第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)時(shí),并不對(duì)同一個(gè)關(guān)鍵詞是提取自哪條瀏覽記錄進(jìn)行區(qū)分。并且,若有一個(gè)詞組同時(shí)以第一主題關(guān)鍵詞和第二主題關(guān)鍵詞的形式出現(xiàn)在該關(guān)鍵詞數(shù)據(jù)庫(kù)中,則通過(guò)步驟S22及S32,在該關(guān)鍵詞數(shù)據(jù)庫(kù)中會(huì)同時(shí)記錄有這一詞組作為第一主題關(guān)鍵詞的權(quán)重值以及作為第二主題關(guān)鍵詞的權(quán)重值。舉例來(lái)說(shuō),若從5條瀏覽記錄中分別提取了一次第一主題關(guān)鍵詞“電器”,同時(shí)從另外3條瀏覽記錄中分別提取了一次第二主題關(guān)鍵詞“電器”,那么在步驟S22及S32中計(jì)算該第一主題關(guān)鍵詞及第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)時(shí),分別得到第一主題關(guān)鍵詞“電器”的出現(xiàn)次數(shù)為5,第二主題關(guān)鍵詞“電器”的出現(xiàn)次數(shù)為3。也就是說(shuō),在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄了第一主題關(guān)鍵詞“電器”的權(quán)重值為5,第二主題關(guān)鍵詞“電器”的權(quán)重值為-3。
[0068]在步驟S5a中,首先確定每條新資訊的主題中的詞組,接著對(duì)于其中的每個(gè)詞組、均在該關(guān)鍵詞數(shù)據(jù)庫(kù)中搜索是否有和這一詞組在用詞上相同的關(guān)鍵詞,應(yīng)當(dāng)注意,這里所說(shuō)的關(guān)鍵詞包括上述第一主題關(guān)鍵詞和第二主題關(guān)鍵詞。然后計(jì)算這些用詞相同的關(guān)鍵詞的權(quán)重值之和,最后選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊。
[0069]舉例來(lái)說(shuō),在該關(guān)鍵詞數(shù)據(jù)庫(kù)中第一主題關(guān)鍵詞“電器”的權(quán)重值為5,第二主題關(guān)鍵詞“電器”的權(quán)重值為-3,另一第二主題關(guān)鍵詞“空調(diào)”的權(quán)重值為_(kāi)4。并且4條新資訊A、B、C、D的主題中除了詞組“電器”和“空調(diào)”,其他詞組在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值均為零。新資訊A的主題中包括了詞組“電器”和“空調(diào)”,新資訊B的主題中僅包括詞組“電器”,新資訊C的主題中僅包括詞組“空調(diào)”,新資訊D的主題中則不包含詞組“電器”和“空調(diào)”。因此,新資訊A、B、C、D中的詞組在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和分別為_(kāi)2、2、-4、
O。這樣的條件下,若選取權(quán)重值之和相對(duì)較大的2條新資訊,則會(huì)選擇新資訊B、D作為待推送資訊,并在步驟S6中將新資訊B、D發(fā)送至該客戶端。
[0070]本實(shí)施例的資訊篩選推送裝置,包括以下模塊:
[0071]一瀏覽記錄接收模塊,用于接收并存儲(chǔ)客戶端的瀏覽記錄,每條瀏覽記錄包括主題、資訊文本、打開(kāi)時(shí)間和關(guān)閉時(shí)間;
[0072]一時(shí)間篩選模塊,用于計(jì)算每條瀏覽記錄的關(guān)閉時(shí)間和打開(kāi)時(shí)間的時(shí)間間隔,將該時(shí)間間隔大于預(yù)設(shè)的第一間隔的瀏覽記錄作為第一類瀏覽記錄,將該時(shí)間間隔小于預(yù)設(shè)的第二間隔的瀏覽記錄作為第二類瀏覽記錄,其中第一間隔大于第二間隔;
[0073]—第一關(guān)鍵詞提取模塊,用于從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至一關(guān)鍵詞數(shù)據(jù)庫(kù)中;
[0074]一第二關(guān)鍵詞提取模塊,用于從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中;
[0075]—資訊更新模塊,用于獲取發(fā)布時(shí)間距離當(dāng)前時(shí)刻之差小于預(yù)設(shè)的第三間隔的新資訊;
[0076]一資訊篩選模塊,用于從新資訊中篩選出主題中包含該關(guān)鍵詞數(shù)據(jù)庫(kù)中的至少一第一主題關(guān)鍵詞、且不包含該關(guān)鍵詞數(shù)據(jù)庫(kù)中的任何第二主題關(guān)鍵詞的資訊作為待推送資訊;
[0077]一推送模塊,用于將待推送資訊發(fā)送至該客戶端。
[0078]其中,該第一關(guān)鍵詞提取模塊包括一第一主題提取單元和一第一主題權(quán)重計(jì)算單元,該第一主題提取單元用于從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞、并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中,該第一主題權(quán)重計(jì)算單元用于計(jì)算各個(gè)第一主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)作為權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第一主題關(guān)鍵詞和權(quán)重值。
[0079]該第二關(guān)鍵詞提取模塊包括一第二主題提取單元和一第二主題權(quán)重計(jì)算單元,該第二主題提取單元用于從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞、并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中,該第二主題權(quán)重計(jì)算單元用于計(jì)算各個(gè)第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)的負(fù)數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第二主題關(guān)鍵詞和權(quán)重值。[0080]該資訊篩選模塊由一權(quán)重值計(jì)算模塊代替,該權(quán)重值計(jì)算模塊用于計(jì)算每條新資訊的主題中的所有詞組在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和,并選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊。
[0081]實(shí)施例2
[0082]如圖2所示,本實(shí)施例的資訊篩選推送方法和實(shí)施例1相比,差別僅在于:
[0083]S22之后還包括以下步驟:
[0084]S23、對(duì)每條第一類瀏覽記錄中的資訊文本采用TF-1DF算法進(jìn)行分詞后,提取關(guān)鍵詞作為第一文本關(guān)鍵詞,并提取第一文本關(guān)鍵詞的權(quán)值;
[0085]S24、取第一文本關(guān)鍵詞和預(yù)設(shè)的一第一修正系數(shù)之積作為第一文本關(guān)鍵詞的權(quán)重值,其中該第一修正系數(shù)大于零;
[0086]S25、在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第一文本關(guān)鍵詞和權(quán)重值,然后執(zhí)行S31,S32后還包括以下步驟:
[0087]S33、對(duì)每條第二類瀏覽記錄中的資訊文本采用TF-1DF算法進(jìn)行分詞后,提取關(guān)鍵詞作為第二文本關(guān)鍵詞,并提取第二文本關(guān)鍵詞的權(quán)值;
[0088]S34、取第二文本關(guān)鍵詞和預(yù)設(shè)的一第二修正系數(shù)之積作為第二文本關(guān)鍵詞的權(quán)重值,其中該第二修正系數(shù)小于零;
[0089]S35、在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第二文本關(guān)鍵詞和權(quán)重值,然后執(zhí)行S4。
[0090]并且,S5a由S5b替代,S5b包括以下步驟:
[0091]S51b、對(duì)每條新資訊的資訊文本采用TF-1DF算法進(jìn)行分詞后,提取權(quán)值較高的若干資訊關(guān)鍵詞;
[0092]S52b、計(jì)算每條新資訊的主題中的所有詞組以及S51b中提取的該若干資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和,并選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊。
[0093]其中,上述第一文本關(guān)鍵詞和第二文本關(guān)鍵詞的權(quán)值即在相應(yīng)的資訊文本中關(guān)鍵詞的TF-1DF值,其中TF為詞頻、IDF為逆向文件頻率。對(duì)于第一類瀏覽記錄中采用的TF-1DF算法,語(yǔ)料庫(kù)所包含的文件即所有的第一類瀏覽記錄中的資訊文本,對(duì)于第二類瀏覽記錄中采用的TF-1DF算法,語(yǔ)料庫(kù)所包含的文件即所有的第二類瀏覽記錄中的資訊文本。
[0094]此外,在后續(xù)步驟S5a中,同樣首先確定每條新資訊的主題中的詞組,接著對(duì)于其中的每個(gè)詞組、均在該關(guān)鍵詞數(shù)據(jù)庫(kù)中搜索是否有和這一詞組在用詞上相同的關(guān)鍵詞,應(yīng)當(dāng)注意的是,在這一優(yōu)選的技術(shù)方案中,這里的關(guān)鍵詞不僅包括上述第一主題關(guān)鍵詞和第二主題關(guān)鍵詞,還包括第一文本關(guān)鍵詞和第二文本關(guān)鍵詞。然后計(jì)算這些用詞相同的關(guān)鍵詞的權(quán)重值之和,最后選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊。在這一方案中,第一修正系數(shù)和第二修正系數(shù)的取值可由本領(lǐng)域技術(shù)人員根據(jù)需要進(jìn)行設(shè)置,第一修正系數(shù)和第二修正系數(shù)的絕對(duì)值越大,則相應(yīng)的第一文本關(guān)鍵詞和第二文本關(guān)鍵詞在篩選過(guò)程中所起作用相對(duì)于第一和第二主題關(guān)鍵詞所起作用就越大,反之亦然。
[0095]對(duì)于步驟S51b中的TF-1DF算法,其語(yǔ)料庫(kù)包含了所有的新資訊的資訊文本。同時(shí),容易理解地,如果存在資訊關(guān)鍵詞和新資訊的主題中的詞組重復(fù)的情況,計(jì)算在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和無(wú)須重復(fù)執(zhí)行。上述對(duì)于資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和的計(jì)算,實(shí)質(zhì)上是對(duì)于和資訊關(guān)鍵詞在用詞上相同的、該關(guān)鍵詞數(shù)據(jù)庫(kù)中的所有關(guān)鍵詞的權(quán)重值之和的計(jì)算。
[0096]本實(shí)施例的資訊篩選推送裝置和實(shí)施例1相比,差別僅在于:
[0097]該第一關(guān)鍵詞提取模塊還包括一第一分詞單元和一第一修正單元,該第一分詞單元用于對(duì)每條第一類瀏覽記錄中的資訊文本采用TF-1DF算法進(jìn)行分詞后、提取關(guān)鍵詞作為第一文本關(guān)鍵詞、并提取第一文本關(guān)鍵詞的權(quán)值,該第一修正單元用于取第一文本關(guān)鍵詞和預(yù)設(shè)的一第一修正系數(shù)之積作為第一文本關(guān)鍵詞的權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第一文本關(guān)鍵詞和權(quán)重值,其中該第一修正系數(shù)大于零。
[0098]該第二關(guān)鍵詞提取模塊還包括一第二分詞單元和一第二修正單元,該第二分詞單元用于對(duì)每條第二類瀏覽記錄中的資訊文本采用TF-1DF算法進(jìn)行分詞后、提取關(guān)鍵詞作為第二文本關(guān)鍵詞、并提取第二文本關(guān)鍵詞的權(quán)值,該第二修正單元用于取第二文本關(guān)鍵詞和預(yù)設(shè)的一第二修正系數(shù)之積作為第二文本關(guān)鍵詞的權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第二文本關(guān)鍵詞和權(quán)重值,其中該第二修正系數(shù)小于零。
[0099]并且,該權(quán)重值計(jì)算模塊由一資訊文本分析模塊代替,該資訊文本分析模塊用于對(duì)每條新資訊的資訊文本采用TF-1DF算法進(jìn)行分詞后,提取權(quán)值較高的若干資訊關(guān)鍵詞,然后計(jì)算每條新資訊的主題中的所有詞組以及提取的該若干資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和,并選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊。
[0100]雖然以上描述了本發(fā)明的【具體實(shí)施方式】,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說(shuō)明,本發(fā)明的保護(hù)范圍是由所附權(quán)利要求書(shū)限定的。本領(lǐng)域的技術(shù)人員在不背離本發(fā)明的原理和實(shí)質(zhì)的前提下,可以對(duì)這些實(shí)施方式做出多種變更或修改,但這些變更和修改均落入本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1.一種資訊篩選推送方法,其特征在于,將客戶端的瀏覽記錄實(shí)時(shí)存入一瀏覽記錄池,每條瀏覽記錄包括主題、資訊文本、打開(kāi)時(shí)間和關(guān)閉時(shí)間,該資訊篩選推送方法還包括以下步驟: S1、計(jì)算每條瀏覽記錄的關(guān)閉時(shí)間和打開(kāi)時(shí)間的時(shí)間間隔,將該時(shí)間間隔大于預(yù)設(shè)的第一間隔的瀏覽記錄作為第一類瀏覽記錄,將該時(shí)間間隔小于預(yù)設(shè)的第二間隔的瀏覽記錄作為第二類瀏覽記錄,其中第一間隔大于第二間隔; S2、從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至一關(guān)鍵詞數(shù)據(jù)庫(kù)中; S3、從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中; S4、獲取發(fā)布時(shí)間距離當(dāng)前時(shí)刻之差小于預(yù)設(shè)的第三間隔的新資訊; S5、從新資訊中篩選出主題中包含該關(guān)鍵詞數(shù)據(jù)庫(kù)中的至少一第一主題關(guān)鍵詞、且不包含該關(guān)鍵詞數(shù)據(jù)庫(kù)中的任何第二主題關(guān)鍵詞的資訊作為待推送資訊; S6、將待推送資訊發(fā)送至該客戶端。
2.如權(quán)利要求1所述的資訊篩選推送方法,其特征在于,S2包括以下步驟: S21、從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中; S22、計(jì)算各個(gè)第一主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄權(quán)重值; S3包括以下步驟: S31、從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中; S32、計(jì)算各個(gè)第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)的負(fù)數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄權(quán)重值; S5由步驟S5a替代: S5a、計(jì)算每條新資訊的主題中的所有詞組在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和,并選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊。
3.如權(quán)利要求2所述的資訊篩選推送方法,其特征在于,S2還包括以下步驟: S23、對(duì)每條第一類瀏覽記錄中的資訊文本采用TF-1DF算法進(jìn)行分詞后,提取關(guān)鍵詞作為第一文本關(guān)鍵詞,并提取第一文本關(guān)鍵詞的權(quán)值; S24、取第一文本關(guān)鍵詞和預(yù)設(shè)的一第一修正系數(shù)之積作為第一文本關(guān)鍵詞的權(quán)重值,其中該第一修正系數(shù)大于零; S25、在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第一文本關(guān)鍵詞和權(quán)重值; S3還包括以下步驟: S33、對(duì)每條第二類瀏覽記錄中的資訊文本采用TF-1DF算法進(jìn)行分詞后,提取關(guān)鍵詞作為第二文本關(guān)鍵詞,并提取第二文本關(guān)鍵詞的權(quán)值; S34、取第二文本關(guān)鍵詞和預(yù)設(shè)的一第二修正系數(shù)之積作為第二文本關(guān)鍵詞的權(quán)重值,其中該第二修正系數(shù)小于零; S35、在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第二文本關(guān)鍵詞和權(quán)重值。
4.如權(quán)利要求2或3所述的資訊篩選推送方法,其特征在于,S5a由S5b替代,S5b包括以下步驟: S51b、對(duì)每條新資訊的資訊文本采用TF-1DF算法進(jìn)行分詞后,提取權(quán)值較高的若干資訊關(guān)鍵詞; S52b、計(jì)算每條新資訊的主題中的所有詞組以及S51b中提取的該若干資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和,并選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資τΗ ο
5.一種資訊篩選推送裝置,其特征在于,包括: 一瀏覽記錄接收模塊,用于接收并存儲(chǔ)客戶端的瀏覽記錄,每條瀏覽記錄包括主題、資訊文本、打開(kāi)時(shí)間和關(guān)閉時(shí)間; 一時(shí)間篩選模塊,用于計(jì)算每條瀏覽記錄的關(guān)閉時(shí)間和打開(kāi)時(shí)間的時(shí)間間隔,將該時(shí)間間隔大于預(yù)設(shè)的第一間隔的瀏覽記錄作為第一類瀏覽記錄,將該時(shí)間間隔小于預(yù)設(shè)的第二間隔的瀏覽記錄作為第二類瀏覽記錄,其中第一間隔大于第二間隔; 一第一關(guān)鍵詞提取模塊,用于從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞,并記錄至一關(guān)鍵詞數(shù)據(jù)庫(kù)中; 一第二關(guān)鍵詞提取模塊,用于從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞,并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中; 一資訊更新模塊,用于 獲取發(fā)布時(shí)間距離當(dāng)前時(shí)刻之差小于預(yù)設(shè)的第三間隔的新資訊; 一資訊篩選模塊,用于從新資訊中篩選出主題中包含該關(guān)鍵詞數(shù)據(jù)庫(kù)中的至少一第一主題關(guān)鍵詞、且不包含該關(guān)鍵詞數(shù)據(jù)庫(kù)中的任何第二主題關(guān)鍵詞的資訊作為待推送資訊; 一推送模塊,用于將待推送資訊發(fā)送至該客戶端。
6.如權(quán)利要求5所述的資訊篩選推送裝置,其特征在于,該第一關(guān)鍵詞提取模塊包括一第一主題提取單元和一第一主題權(quán)重計(jì)算單元,該第一主題提取單元用于從每條第一類瀏覽記錄中提取主題中的詞組作為第一主題關(guān)鍵詞、并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中,該第一主題權(quán)重計(jì)算單元用于計(jì)算各個(gè)第一主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)作為權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第一主題關(guān)鍵詞和權(quán)重值; 該第二關(guān)鍵詞提取模塊包括一第二主題提取單元和一第二主題權(quán)重計(jì)算單元,該第二主題提取單元用于從每條第二類瀏覽記錄中提取主題中的詞組作為第二主題關(guān)鍵詞、并記錄至該關(guān)鍵詞數(shù)據(jù)庫(kù)中,該第二主題權(quán)重計(jì)算單元用于計(jì)算各個(gè)第二主題關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的出現(xiàn)次數(shù)的負(fù)數(shù)作為權(quán)重值,并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第二主題關(guān)鍵詞和權(quán)重值; 該資訊篩選模塊由一權(quán)重值計(jì)算模塊代替,該權(quán)重值計(jì)算模塊用于計(jì)算每條新資訊的主題中的所有詞組在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和,并選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊。
7.如權(quán)利要求6所述的資訊篩選推送裝置,其特征在于,該第一關(guān)鍵詞提取模塊還包括一第一分詞單元和一第一修正單元,該第一分詞單元用于對(duì)每條第一類瀏覽記錄中的資訊文本采用TF-1DF算法進(jìn)行分詞后、提取關(guān)鍵詞作為第一文本關(guān)鍵詞、并提取第一文本關(guān)鍵詞的權(quán)值,該第一修正單元用于取第一文本關(guān)鍵詞和預(yù)設(shè)的一第一修正系數(shù)之積作為第一文本關(guān)鍵詞的權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第一文本關(guān)鍵詞和權(quán)重值,其中該第一修正系數(shù)大于零; 該第二關(guān)鍵詞提取模塊還包括一第二分詞單元和一第二修正單元,該第二分詞單元用于對(duì)每條第二類瀏覽記錄中的資訊文本采用TF-1DF算法進(jìn)行分詞后、提取關(guān)鍵詞作為第二文本關(guān)鍵詞、并提取第二文本關(guān)鍵詞的權(quán)值,該第二修正單元用于取第二文本關(guān)鍵詞和預(yù)設(shè)的一第二修正系數(shù)之積作為第二文本關(guān)鍵詞的權(quán)重值、并在該關(guān)鍵詞數(shù)據(jù)庫(kù)中記錄第二文本關(guān)鍵詞和權(quán)重值,其中該第二修正系數(shù)小于零。
8.如權(quán)利要求6或7所述的資訊篩選推送裝置,其特征在于,該權(quán)重值計(jì)算模塊由一資訊文本分析模塊代替,該資訊文本分析模塊用于對(duì)每條新資訊的資訊文本采用TF-1DF算法進(jìn)行分詞后,提取權(quán)值較高的若干資訊關(guān)鍵詞,然后計(jì)算每條新資訊的主題中的所有詞組以及提取的該若干資訊關(guān)鍵詞在該關(guān)鍵詞數(shù)據(jù)庫(kù)中的權(quán)重值之和,并選取權(quán)重值之和相對(duì)較大的若干條新資訊作為待推送資訊。
【文檔編號(hào)】H04L29/06GK103559315SQ201310590508
【公開(kāi)日】2014年2月5日 申請(qǐng)日期:2013年11月20日 優(yōu)先權(quán)日:2013年11月20日
【發(fā)明者】張記者 申請(qǐng)人:上海華勤通訊技術(shù)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1