一種互聯(lián)網(wǎng)信息篩選系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種互聯(lián)網(wǎng)信息篩選系統(tǒng)及方法。
【背景技術(shù)】
[0002] 隨著時(shí)代的發(fā)展,網(wǎng)絡(luò)上的信息呈現(xiàn)爆炸式的增長,門戶網(wǎng)站的新聞媒體已經(jīng)不 再是互聯(lián)網(wǎng)內(nèi)容的主要來源,各種社交平臺(tái),微博,微信,朋友圈論壇等每天都會(huì)產(chǎn)生海量 的信息。在大量的信息中及時(shí)、有效的提取出有價(jià)值的熱點(diǎn)網(wǎng)絡(luò)事件信息,將熱點(diǎn)網(wǎng)絡(luò)事件 經(jīng)過編輯、加工成具備營銷特質(zhì)的自有信息,通過自己的網(wǎng)絡(luò)渠道快速發(fā)布出去,增加客戶 粘性和營銷成功率。如何及時(shí)發(fā)布有價(jià)值的事件營銷信息,對(duì)事件信息時(shí)效性的要求也越 來越高,在將最具價(jià)值的事件信息疊加營銷屬性后及時(shí)的展現(xiàn)給用戶也成為了電商的必然 要求,如何快速的篩選熱點(diǎn)事件文檔也成為了電商網(wǎng)站亟待解決的問題。事件信息文檔的 篩選問題本質(zhì)上可以歸結(jié)為文檔的二類分類問題,但同傳統(tǒng)的文檔分類相比而言又有著明 顯的差異性。一是文檔類間界限的不明確性,即分類的標(biāo)準(zhǔn)是由人為確定的所謂熱點(diǎn)事件 價(jià)值決定;二是隨著信息產(chǎn)業(yè)的發(fā)展,尤其是Internet的爆炸式增長,需要分析的熱點(diǎn)事 件數(shù)據(jù)呈現(xiàn)海量性特點(diǎn)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足,提供一種互聯(lián)網(wǎng)信息篩選系 統(tǒng)及方法。
[0004] 本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:
[0005] -種互聯(lián)網(wǎng)信息篩選系統(tǒng),包括通信單元、預(yù)處理單元、權(quán)重計(jì)算單元、策略單元、 閾值篩選單元和執(zhí)行單元;
[0006] 所述通信單元,其用于收集互聯(lián)網(wǎng)的文檔組成文檔庫,并將文檔庫內(nèi)的文檔信息 傳給預(yù)處理單元;還用于收集互聯(lián)網(wǎng)的待分類文檔,并將待分類文檔信息傳給分類器單 元;
[0007] 所述預(yù)處理單元,其用于將文檔庫內(nèi)的文檔進(jìn)行歸類,分詞去噪和頻數(shù)統(tǒng)計(jì);所述 將文檔進(jìn)行歸類是指將文檔按文檔編號(hào)、文檔內(nèi)容和文檔屬性分別歸類,所述將文檔進(jìn)行 分詞去噪是指對(duì)已歸類文檔進(jìn)行分詞去噪,得到的詞條作為value輸出,把詞條所屬的文 檔屬性對(duì)作為key輸出;所述對(duì)文檔進(jìn)行頻數(shù)統(tǒng)計(jì)是指將具有相同文檔屬性的value合并, 并統(tǒng)計(jì)屬于同種文檔屬性的value隊(duì)列中不同value的頻數(shù);
[0008] 所述權(quán)重計(jì)算單元,其用于對(duì)預(yù)處理后的文檔進(jìn)行權(quán)重計(jì)算,具體為計(jì)算出每個(gè) 文檔中每個(gè)詞的權(quán)重,取權(quán)重最大的前K個(gè)詞作為此文檔的特征詞,并合并所有文檔的特 征詞,組成特征詞空間,將得到的文檔權(quán)重結(jié)果映射到特征詞空間上,得出各類文檔的類中 心向量;
[0009] 所述分類器單元,其用于對(duì)待分類文檔進(jìn)行頻數(shù)統(tǒng)計(jì),得出針對(duì)每一文檔的詞條 頻數(shù)的統(tǒng)計(jì)結(jié)果,算出每一文檔在特征詞空間上的權(quán)值,利用權(quán)重計(jì)算單元算出的文檔庫 內(nèi)的文檔的類中心向量,按照反饋機(jī)制進(jìn)行分類,將文檔號(hào)作為value輸出,文檔所屬類別 作為key輸出,得到待分類文檔與文檔庫內(nèi)的文檔的相似度結(jié)果;
[0010] 所述策略單元,其用于設(shè)置篩選待分類文檔與文檔庫內(nèi)的文檔的相似度的閾值;
[0011] 所述閾值篩選單元,其用于按照策略單元設(shè)置的閾值在在待分類文檔中進(jìn)行篩 選,得到目標(biāo)文檔。
[0012] 本發(fā)明的有益效果是:網(wǎng)站服務(wù)器在收集新聞?lì)愇⑿拧⒕W(wǎng)站微博發(fā)布的事件文檔 信息后,突破在大規(guī)模熱點(diǎn)事件信息數(shù)據(jù)集上篩選運(yùn)行時(shí)的性能限制,解決了針對(duì)特定類 別而進(jìn)行的海量熱點(diǎn)事件信息文檔的分類篩選問題,提高了處理速度,能在保證準(zhǔn)確度的 情況下大大提高系統(tǒng)的執(zhí)行速度和效率。滿足了電商營銷對(duì)熱點(diǎn)事件時(shí)效性的要求,能及 時(shí)的從大規(guī)模的熱點(diǎn)事件信息數(shù)據(jù)中篩選出有價(jià)值的信息并予以發(fā)布,促進(jìn)電商網(wǎng)站營銷 及時(shí)性、多樣性的拓展,提高網(wǎng)站交易量和收入。
[0013] 進(jìn)一步的,本發(fā)明的系統(tǒng)還包括執(zhí)行單元,其用于將促銷商品內(nèi)容加載在閾值篩 選單元篩選后的目標(biāo)文檔中,并把加載后的文檔數(shù)據(jù)信息傳給通信單元。
[0014] 進(jìn)一步的,所述權(quán)重計(jì)算單元采用的是改進(jìn)TFIDF = TFxlog (m = (m+k)xN)算法, 其中TF表示某一特征項(xiàng)的詞頻,m表示該特征項(xiàng)的領(lǐng)域內(nèi)文檔頻率,k表示該特征項(xiàng)的非領(lǐng) 域內(nèi)文檔頻率,N表示全部文檔數(shù)。
[0015] 進(jìn)一步的,所述的分類器的采用的反饋機(jī)制,指的是以待分類文檔與文檔庫內(nèi)的 文檔的類中心向量的距離為依據(jù),在分類過程中更新類中心向量;所述的更新類中心向量 依據(jù)的是公式Ci= a · c i+b ^wi,其中ci為第i類的類中心向量,wi是第i類的文檔向量, a、b為反饋系數(shù),且a+b = 1。
[0016] -種互聯(lián)網(wǎng)信息篩選方法,包括以下步驟:
[0017] (1)收集互聯(lián)網(wǎng)的文檔組成文檔庫;
[0018] (2)將文檔庫內(nèi)的文檔進(jìn)行歸類,分詞去噪和頻數(shù)統(tǒng)計(jì);所述將文檔進(jìn)行歸類是 指將文檔按文檔編號(hào)、文檔內(nèi)容和文檔屬性分別歸類,所述將文檔進(jìn)行分詞去噪是指對(duì)已 歸類文檔進(jìn)行分詞去噪,得到的詞條作為value輸出,把詞條所屬的文檔屬性對(duì)作為key輸 出;所述對(duì)文檔進(jìn)行頻數(shù)統(tǒng)計(jì)是指將具有相同文檔屬性的value合并,并統(tǒng)計(jì)屬于同種文 檔屬性的value隊(duì)列中不同value的頻數(shù);
[0019] (3)對(duì)預(yù)處理后的文檔進(jìn)行權(quán)重計(jì)算,具體為計(jì)算出每個(gè)文檔中每個(gè)詞的權(quán)重,取 權(quán)重最大的前K個(gè)詞作為此文檔的特征詞,并合并所有文檔的特征詞,組成特征詞空間,將 得到的文檔權(quán)重結(jié)果映射到特征詞空間上,得各類文檔的類中心向量;
[0020] (4)收集互聯(lián)網(wǎng)的待分類文檔,對(duì)待分類文檔進(jìn)行頻數(shù)統(tǒng)計(jì),得出針對(duì)每一文檔的 詞條頻數(shù)的統(tǒng)計(jì)結(jié)果,算出每一文檔在特征詞空間V上的權(quán)值,將特征詞空間V內(nèi)的待分類 文檔向量VD解析為文檔號(hào)ID,文檔的特征向量wD= (wl,w2, 然后利用步驟(3)中 的文檔庫內(nèi)的文檔的類中心向量,按照反饋機(jī)制進(jìn)行分類,將文檔號(hào)作為value輸出,文檔 所屬類別作為key輸出,得到待分類文檔與文檔庫內(nèi)的文檔的相似度結(jié)果。
[0021] (6)設(shè)置篩選待分類文檔與文檔庫內(nèi)的文檔的相似度的閾值;
[0022] (7)按照設(shè)置的閾值在待分類文檔中進(jìn)行篩選,得到目標(biāo)文檔。
[0023] 進(jìn)一步的,還包括將促銷商品內(nèi)容加載在閾值篩選單元篩選后的目標(biāo)文檔中,并 把加載后的文檔數(shù)據(jù)信息發(fā)送到互聯(lián)網(wǎng)的步驟。
[0024] 進(jìn)一步的,所述步驟(3)中的權(quán)重計(jì)算采用的是改進(jìn)TF-IDF算法,公式為:
[0025] TF-IDF = TFxlog (m = (m+k)xN)
[0026] 其中TF表示某一特征項(xiàng)的詞頻,m表示該特征項(xiàng)的領(lǐng)域內(nèi)文檔頻率,k表示該特征 項(xiàng)的非領(lǐng)域內(nèi)文檔頻率,N表示全部文檔數(shù)。
[0027] 進(jìn)一步的,所述的步驟(4)中的反饋機(jī)制,指的是以待分類文檔與文檔庫內(nèi)的文 檔的類中心向量的距離為依據(jù),在分類過程中更新類中心向量;所述的更新類中心向量依 據(jù)的是公式Ci= a *c i+b ^wi,其中ci為第i類的類中心向量,wi是第i類的文檔向量,a、 b為反饋系數(shù),且a+b = 1。
[0028] 進(jìn)一步的,所述步驟(4)中的頻數(shù)統(tǒng)計(jì)采用的是基于MapReduce的Rocchio算法。
【附圖說明】
[0029] 圖1為本發(fā)明系統(tǒng)示意圖;
[0030] 圖2為本發(fā)明的方法流程圖。
【具體實(shí)施方式】
[0031] 以下結(jié)合附圖對(duì)本發(fā)明的原理和特征進(jìn)行描述,所舉實(shí)例只用于解釋本發(fā)明,并 非用于限定本發(fā)明的范圍。
[0032] 如圖1所示,一種互聯(lián)網(wǎng)信息篩選系統(tǒng),包括通信單元、預(yù)處理單元、權(quán)重計(jì)算單 元、策略單元、閾值篩選單元和執(zhí)行單元;
[0033] 所述通信單元,其用于收集互聯(lián)網(wǎng)的文檔組成文檔庫,并將文檔庫內(nèi)的文檔信息 傳給預(yù)處理單元;還用于收集互聯(lián)網(wǎng)的待分類文檔,并將待分類文檔信息傳給分類器單 元;
[0034] 所述預(yù)處理單元,其用于將文檔庫內(nèi)的文檔進(jìn)行歸類,分詞去噪和頻數(shù)統(tǒng)計(jì);所述 將文檔進(jìn)行歸類是指將文檔按文檔編號(hào)、文檔內(nèi)容和文檔屬性分別歸類,所述將文檔進(jìn)行 分詞去噪是指對(duì)已歸類文檔進(jìn)行分詞去噪,得到的詞條作為value輸出,把詞條所屬的文 檔屬性對(duì)作為key輸出;所述對(duì)文檔進(jìn)行頻數(shù)統(tǒng)計(jì)是指將具有相同文檔屬性的value合并, 并統(tǒng)計(jì)屬于同種文檔屬性的value隊(duì)列中不同value的頻數(shù);
[0035] 所述權(quán)重計(jì)算單元,其用于對(duì)預(yù)處理后的文檔進(jìn)行權(quán)重計(jì)算,具體為計(jì)算出每個(gè) 文檔中每個(gè)詞的權(quán)重,取權(quán)重最大的前K個(gè)詞作為此文檔的特征詞,并合并所有文檔的特 征詞,組成特征詞空間,將得到的文檔權(quán)重結(jié)果映射到特征詞空間上,最后得出各類文檔的 類中心向量;
[0036]