專利名稱:一種信息發(fā)布系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理和傳輸技術(shù),特別是涉及一種網(wǎng)絡(luò)信息發(fā)布系統(tǒng)。
背景技術(shù):
計算機技術(shù)的迅速發(fā)展使得處理數(shù)據(jù)成為可能,這就推動了數(shù)據(jù)庫技術(shù)的極大發(fā)展,但是面對不斷增加的數(shù)據(jù),就數(shù)據(jù)庫技術(shù)而言已經(jīng)顯得無能為力了,同樣,傳統(tǒng)的統(tǒng)計技術(shù)也面臨了極大的挑戰(zhàn),這就急需有新的方法來處理這些海量般的數(shù)據(jù)?,F(xiàn)有技術(shù)中,通過互聯(lián)網(wǎng)傳遞信息的形式越來越廣泛,如,通過即時通訊工具、郵件傳送各類信息或者在網(wǎng)絡(luò)論壇上發(fā)布信息。然而,該類信息中有些信息是用戶不希望接收到或法律禁止發(fā)布的,因此需要對該類信息進(jìn)行過濾。目前,用戶信息過濾的方法是直接根據(jù)關(guān)鍵詞來判斷,當(dāng)用戶信息出現(xiàn)了相應(yīng)的關(guān)鍵詞,就判斷用戶為目標(biāo)用戶。但現(xiàn)有技術(shù)方案只利用關(guān)鍵詞對信息進(jìn)行匹配,無法從其他角度上去分析信息或用戶的特征,會導(dǎo)致很高的誤抓率。另外,由于現(xiàn)有技術(shù)中信息在傳遞過程中沒有加密手段,導(dǎo)致不法人員利用網(wǎng)絡(luò)可以截獲該信息,對信息內(nèi)容的安全性造成威脅,用戶的隱私無法得到較好的保護,不能充分滿足用于的需要。
發(fā)明內(nèi)容
本發(fā)明提供一種信息發(fā)布系統(tǒng),用以解決目前網(wǎng)絡(luò)中信息發(fā)布不安全的弊端,并且通過考慮用戶信息中所含的具體關(guān)鍵詞和與用戶相關(guān)的特征數(shù)據(jù),從用戶行為的多個角度去判斷目標(biāo)用戶的特征,并根據(jù)不同目標(biāo)用戶采用不同處理方式,提高了目標(biāo)用戶信息識別的準(zhǔn)確率,增強了用戶信息安全機制。本發(fā)明提出的一種信息過濾系統(tǒng),包括網(wǎng)絡(luò)服務(wù)器、傳輸網(wǎng)絡(luò)和各個用戶終端,其特征在于所述網(wǎng)絡(luò)服務(wù)器包括接收單元、解密器、過濾單元和發(fā)送單元,所述每個用戶終端包括終端服務(wù)器和加密器,用戶通過終端服務(wù)器輸入信息后通過加密器調(diào)用加密算法對信息進(jìn)行加密后形成密文;連接用戶終端中加密器的接收單元,用于接收加密器發(fā)出的密文和加密密鑰,并將其轉(zhuǎn)發(fā)給解密器;連接數(shù)據(jù)存儲單元的解密器,用于在接收信息后調(diào)用解密算法先解密鑰,再解密文;連接解密器的過濾單元,用于接收經(jīng)過解密的明文,并判斷信息是否有效,將不符合要求的信息過濾掉;連接過濾單元的發(fā)送單元,用于將過濾后的有效信息通過傳輸網(wǎng)絡(luò)進(jìn)行發(fā)布,所述過濾單元包括設(shè)置模塊,用于設(shè)置用戶關(guān)鍵詞、特征數(shù)據(jù)與目標(biāo)用戶信息的過濾方式的對應(yīng)關(guān)系;獲取模塊,用于獲取目標(biāo)用戶的關(guān)鍵詞及特征數(shù)據(jù);過濾模塊,用于根據(jù)所述目標(biāo)用戶的關(guān)鍵字及特征數(shù)據(jù)查找所述對應(yīng)關(guān)系中的過濾方式,根據(jù)所述過濾方式對所述目標(biāo)用戶信息進(jìn)行過濾,其中,所述設(shè)置模塊具體包括參數(shù)生成子模塊,用于設(shè)定目標(biāo)用戶所發(fā)送信息的關(guān)鍵詞和特征數(shù)據(jù),并根據(jù)所述關(guān)鍵詞和特征數(shù)據(jù),生成所述目標(biāo)用戶的特征參數(shù);過濾子模塊,用于過濾所述參數(shù)生成模塊生成的特征參數(shù)中的不規(guī)則數(shù)值;規(guī)則生成子模塊,用于根據(jù)所述過濾模塊過濾后的特征參數(shù),生成對所述目標(biāo)用戶信息的過濾方式。其中,所述參數(shù)生成子模塊具體包括識別單元,用于識別所述特征數(shù)據(jù)中的有效數(shù)據(jù);選擇單元,用于根據(jù)所述識別單元識別的有效數(shù)據(jù),選擇所述目標(biāo)用戶中的樣本用戶;計算單元,用于根據(jù)所述選擇單元所選擇的樣本用戶的特征數(shù)據(jù),計算所述目標(biāo)用戶的特征參數(shù)。其中,所述過濾子模塊具體包括第一過濾單元,用于替換所述特征參數(shù)中的缺失值為替換值;第二過濾單元,用于替換所述特征參數(shù)中的不符合格式規(guī)則的數(shù)值為規(guī)則數(shù)值。其中,所述規(guī)則生成子模塊具體包括參數(shù)選擇單元,用于在所述過濾模塊過濾后的特征參數(shù)中選擇一個或多個特征參數(shù)為規(guī)則生成參數(shù);規(guī)則計算單元,通過調(diào)整過濾方式,根據(jù)所述參數(shù)選擇子模塊所選擇的規(guī)則生成參數(shù),生成多個過濾方式;規(guī)則選擇單元,用于在所述規(guī)則計算單元生成的多個過濾方式中,選擇準(zhǔn)確率最高的過濾方式為所述目標(biāo)用戶的過濾方式。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點1)由于本發(fā)明在用戶終端增加了加密器,使網(wǎng)絡(luò)中傳輸?shù)挠脩粜畔⒉荒軌蜉p易的被他人獲取,較好的維護了網(wǎng)絡(luò)安全,確保用戶的隱私不易外泄,使用戶可以更放心地進(jìn)行網(wǎng)絡(luò)信息傳輸。2)本發(fā)明采用了過濾單元,該過濾單元通過具體關(guān)鍵詞和用戶特征數(shù)據(jù)等對目標(biāo)用戶進(jìn)行判斷,可以從用戶行為的多個角度對用戶行為特征進(jìn)行判斷,并根據(jù)不同的目標(biāo)用戶采用不同的處理方式,提高了目標(biāo)用戶信息識別的準(zhǔn)確率,增強了用戶信息安全機制。
圖1是本發(fā)明的信息發(fā)布系統(tǒng)結(jié)構(gòu)圖;圖2是本發(fā)明的信息發(fā)布方法的流程圖;圖3是本發(fā)明中用戶信息過濾方法的流程圖;圖4是本發(fā)明中設(shè)置用戶關(guān)鍵詞、特征數(shù)據(jù)與對目標(biāo)用戶信息的過濾方式的對應(yīng)關(guān)系具體流程圖;圖5是過濾單元的結(jié)構(gòu)圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明的信息發(fā)布系統(tǒng)做進(jìn)一步詳細(xì)的說明。如圖1所示,該系統(tǒng)包括網(wǎng)絡(luò)服務(wù)器1、多個用戶終端2和傳輸網(wǎng)絡(luò)3,所述網(wǎng)絡(luò)服務(wù)器1包括接收單元11、解密器12、過濾單元13和發(fā)送單元14,所述每個用戶終端2包括終端服務(wù)器21和加密器22,用戶通過終端服務(wù)器21輸入信息后通過加密器22調(diào)用加密算法對信息進(jìn)行加密后形成密文;所述網(wǎng)絡(luò)服務(wù)器1中的接收單元11與用戶終端2中的加密器相連接,接收單元11用于接收加密器22發(fā)出的密文和加密密鑰,并將其轉(zhuǎn)發(fā)給解密器 12 ;連接接收單元11的解密器12,用于在接收信息后調(diào)用解密算法先解密鑰,再解密文;連接解密器12的過濾單元13,用于接收經(jīng)過解密的明文,并判斷信息是否有效,將不符合要求的信息過濾掉;連接過濾單元13的發(fā)送單元14,用于將過濾后的有效信息通過傳輸網(wǎng)絡(luò)進(jìn)行發(fā)布。所述加密器22,用于接收終端服務(wù)器21發(fā)送的合法信息,調(diào)用加密算法對用戶輸入的信息進(jìn)行加密,將明文加密成密文,并且調(diào)用已存儲的密鑰或根據(jù)某種條件生成密鑰, 將密文和密鑰一同發(fā)送給網(wǎng)絡(luò)服務(wù)器的接收單元。所述密鑰可以是已保存在本地系統(tǒng)中的密鑰,也可以在每次發(fā)送信息時按照某種條件生成密鑰。為了保證客戶接收端能夠正常的解開密鑰,必須保持所述客戶發(fā)送端的加密算法和客戶接收端的解密算法一致,所以即時通信系統(tǒng)不對密鑰進(jìn)行經(jīng)常性升級。所述解密器12,用于接收加密器22發(fā)送的密文和密鑰,并調(diào)用相應(yīng)的解密算法, 先解出密鑰,再將密文解密成明文,將明文發(fā)送給過濾單元。如圖5所示,過濾單元13包括設(shè)置模塊130、獲取模塊131和過濾模塊132。所述設(shè)置模塊130用于設(shè)置用戶關(guān)鍵詞、特征數(shù)據(jù)與對目標(biāo)用戶信息的過濾方式的對應(yīng)關(guān)系; 所述獲取模塊131用于獲取目標(biāo)用戶的關(guān)鍵詞及特征數(shù)據(jù);所述過濾模塊132用于根據(jù)所述目標(biāo)用戶的關(guān)鍵字及特征數(shù)據(jù)查找所述對應(yīng)關(guān)系中的過濾方式,根據(jù)所述過濾方式對所述目標(biāo)用戶信息進(jìn)行過濾。設(shè)置模塊130具體包括參數(shù)生成子模塊130a,用于設(shè)定目標(biāo)用戶所發(fā)送信息的關(guān)鍵詞和特征數(shù)據(jù),并根據(jù)所述關(guān)鍵詞和特征數(shù)據(jù),生成所述目標(biāo)用戶的特征參數(shù);過濾子模塊130b,用于過濾所述參數(shù)生成模塊生成的特征參數(shù)中的不規(guī)則數(shù)值;規(guī)則生成子模塊 130c,用于根據(jù)所述過濾模塊過濾后的特征參數(shù),生成對所述目標(biāo)用戶信息的過濾方式。其中,參數(shù)生成子模塊130a具體包括識別單元,用于識別所述特征數(shù)據(jù)中的有效數(shù)據(jù);選擇單元,用于根據(jù)所述識別單元識別的有效數(shù)據(jù),選擇所述目標(biāo)用戶中的樣本用戶;計算單元,用于根據(jù)所述選擇單元所選擇的樣本用戶的特征數(shù)據(jù),計算所述目標(biāo)用戶的特征參數(shù)。過濾子模塊130b具體包括第一過濾單元,用于替換所述特征參數(shù)中的缺失值為替換值;第二過濾單元,用于替換所述特征參數(shù)中的不符合格式規(guī)則的數(shù)值為規(guī)則數(shù)值。規(guī)則生成子模塊130c具體包括參數(shù)選擇單元,用于在所述過濾模塊過濾后的特征參數(shù)中選擇一個或多個特征參數(shù)為規(guī)則生成參數(shù);規(guī)則計算單元,通過調(diào)整過濾方式,根據(jù)所述參數(shù)選擇子模塊所選擇的規(guī)則生成參數(shù),生成多個過濾方式;規(guī)則選擇單元,用于在所述規(guī)則計算單元生成的多個過濾方式中,選擇準(zhǔn)確率最高的過濾方式為所述目標(biāo)用戶的過濾方式。過濾模塊132具體包括查找子模塊132a,用于根據(jù)所述目標(biāo)用戶的關(guān)鍵字及特征數(shù)據(jù)查找所述對應(yīng)關(guān)系中的過濾方式;過濾子模塊132b,用于根據(jù)所述過濾方式對所述目標(biāo)用戶信息進(jìn)行過濾;判斷模塊132c,用于根據(jù)所述目標(biāo)用戶的過濾方式,為所述目標(biāo)用戶計分,當(dāng)所述用戶的計分值超過預(yù)設(shè)的閾值時,觸發(fā)過濾子模塊132b。本發(fā)明的信息發(fā)布系統(tǒng)是通過下述方法實現(xiàn)的,如圖2所示,包括以下步驟步驟201,用戶通過終端服務(wù)器21輸入信息,加密器22從終端服務(wù)器21處接收信息并通過調(diào)用加密算法對信息進(jìn)行加密后形成密文,同時調(diào)用已存儲在終端服務(wù)器21的密鑰或生成密鑰;若信息屬于靜態(tài)文件,加密器22可接收到完整信息后再對其進(jìn)行加密,將密文發(fā)送給網(wǎng)絡(luò)服務(wù)器中的接收單元11 ;若靜態(tài)文件過大,也可以分成若干個數(shù)據(jù)包發(fā)送,加密器22對每個數(shù)據(jù)包或每幾個數(shù)據(jù)包進(jìn)行加密,形成若干個相對不完整的密文,再分別發(fā)送給網(wǎng)絡(luò)服務(wù)器的接收單元11 ;若信息屬于動態(tài)文件,動態(tài)文件多以流媒體的形式傳輸,加密器22可接收到部分流媒體文件后就對其進(jìn)行加密,形成相對不完整的密文,將相對不完整的密文通過發(fā)送單元104發(fā)送給網(wǎng)絡(luò)服務(wù)器的接收單元11 ;也可接收到完整的流媒體文件后再對其進(jìn)行加密,形成完整的密文,將完整的密文發(fā)送給網(wǎng)絡(luò)服務(wù)器的接收單元11。若有多個密文,則一個密文使用一個密鑰,或者多個密文使用同一個密鑰。為了網(wǎng)絡(luò)更加安全,本實施例中一個密文用一個密鑰。步驟202,加密器22將密文和密鑰發(fā)送至網(wǎng)絡(luò)服務(wù)器1中的接收單元11 ;步驟203,接收單元11將密文和密鑰發(fā)送至解密器12 ;所述解密器12用于在接收信息后調(diào)用解密算法先解密鑰,再解密文。由解密器12 調(diào)用相應(yīng)的解密算法,先解出密鑰,再將密文解密成明文,將明文發(fā)送給過濾單元13。若解密器12接收到多個密鑰和相對不完整密文,則解密器12先分別解密密鑰和密文,再將解密后的多個密文,即多個明文整合成完整的明文后發(fā)送給過濾單元13。步驟204,過濾單元13接收經(jīng)過解密器12解密的明文,并判斷信息是否有效,將不符合要求的信息過濾掉;步驟205,發(fā)送單元14將過濾后的有效信息通過傳輸網(wǎng)絡(luò)進(jìn)行發(fā)布。如圖3所示判斷信息是否有效,將不符合要求的信息過濾掉的具體方法包括以下步驟步驟301,設(shè)置用戶關(guān)鍵詞、特征數(shù)據(jù)與對目標(biāo)用戶信息的過濾方式的對應(yīng)關(guān)系。 其中,過濾方式可以為利用某個或某幾個關(guān)鍵詞出現(xiàn)的次數(shù)過濾,例如,當(dāng)關(guān)鍵詞A出現(xiàn) N(N> 1)次,則對來自該用戶的信息進(jìn)行過濾。該過濾方式中包括關(guān)鍵詞與過濾條件(關(guān)鍵詞出現(xiàn)的次數(shù))的對應(yīng)關(guān)系。步驟302,獲取目標(biāo)用戶的關(guān)鍵詞及特征數(shù)據(jù)。步驟303,根據(jù)所述目標(biāo)用戶的關(guān)鍵詞及特征數(shù)據(jù)查找所述對應(yīng)關(guān)系中的過濾方式,根據(jù)所述過濾方式對所述目標(biāo)用戶信息進(jìn)行過濾。如圖4所示,設(shè)置用戶關(guān)鍵詞、特征數(shù)據(jù)與對目標(biāo)用戶信息的過濾方式的對應(yīng)關(guān)系的具體方法包括以下步驟步驟401、設(shè)定目標(biāo)用戶所發(fā)送信息的特征數(shù)據(jù)。其中,特征數(shù)據(jù)包括用戶行為數(shù)據(jù),包括以下信息中的一種或幾種用戶在限定時間內(nèi)所發(fā)送的信息中特征詞組的出現(xiàn)頻率,用戶發(fā)送/接收信息的次數(shù),和用戶發(fā)送/接收信息的信息量;用戶信息數(shù)據(jù),包括以下信息中的一種或幾種用戶初次登錄時間,用戶登陸后的活躍度,和用戶所具有的聯(lián)系人數(shù)量;
網(wǎng)絡(luò)特征數(shù)據(jù),包括以下信息中的一種或幾種同一 IP中的用戶ID數(shù)量,和同一機器碼中的用戶ID數(shù)。步驟402、根據(jù)特征數(shù)據(jù),生成目標(biāo)用戶的特征參數(shù),具體的生成流程包括識別特征數(shù)據(jù)中的有效數(shù)據(jù),即在獲得足夠的數(shù)據(jù)之后,還需要對數(shù)據(jù)進(jìn)行必要的清洗,剔除掉一部分字段或者記錄。例如,根據(jù)用戶需求,設(shè)置數(shù)據(jù)中某些內(nèi)容為必要的, 而另一些內(nèi)容為非必要的,對這些非必要的數(shù)據(jù)內(nèi)容進(jìn)行刪除,使數(shù)據(jù)中只保留必要的數(shù)據(jù)內(nèi)容。根據(jù)有效數(shù)據(jù),選擇目標(biāo)用戶中的樣本用戶。即將商業(yè)目標(biāo)轉(zhuǎn)換模型目標(biāo),抽樣提取的信息記錄,確定規(guī)則模型的建模目標(biāo)用戶,其中,信息記錄指用戶發(fā)送或發(fā)布的信息狀態(tài)。根據(jù)樣本用戶的特征數(shù)據(jù),獲取目標(biāo)用戶的特征參數(shù),該特征參數(shù)為目標(biāo)用戶所具有的特定屬性,例如文本中的繁簡體、大小寫、全角半角狀態(tài)等。根據(jù)模型目標(biāo),利用現(xiàn)有數(shù)據(jù)獲取衍生變量,從更全面的角度理解客戶行為,該衍生變量是根據(jù)多個特征數(shù)據(jù)進(jìn)行組合運算獲得的變量。獲取過程包括計算特征數(shù)據(jù)的出現(xiàn)總量,生成目標(biāo)用戶的匯總變量,該匯總變量是對所有特征數(shù)據(jù)的統(tǒng)計結(jié)果;計算包含特征數(shù)據(jù)的信息的接收/發(fā)送比例,生成目標(biāo)用戶的比例變量,該比例變量體現(xiàn)了目標(biāo)用戶中特征數(shù)據(jù)各種狀態(tài)比例關(guān)系; 計算特征數(shù)據(jù)的平均出現(xiàn)數(shù)量,生成目標(biāo)用戶的均值變量,該均值變量體現(xiàn)了目標(biāo)用戶中特征數(shù)據(jù)單位時間內(nèi)出現(xiàn)的平均數(shù)量。步驟403、過濾特征參數(shù)中的不規(guī)則數(shù)值。尋找需要清洗的變量和對缺失值進(jìn)行替換,具體的過濾流程包括替換特征參數(shù)中的缺失值為替換值,其中包含設(shè)定數(shù)據(jù)的缺失值的替換原則,如將所有缺失值用數(shù)值0替換。替換特征參數(shù)中的不符合格式規(guī)則的數(shù)值為規(guī)則數(shù)值,如將所有的文本消息進(jìn)行繁簡體、大小寫、全角半角轉(zhuǎn)換。步驟404、根據(jù)過濾后的特征參數(shù),生成對目標(biāo)用戶的過濾方式。通過上述的步驟,具備了符合要求的數(shù)據(jù)之后就進(jìn)入到了建立模型的階段。建立模型包括選擇合適的算法、選擇合適的參數(shù)、制定模型驗證方案、數(shù)據(jù)抽樣計劃、模型參數(shù)設(shè)定等工作。具體為在過濾后的特征參數(shù)中選擇一個或多個特征參數(shù)為規(guī)則生成參數(shù);通過調(diào)整過濾方式,根據(jù)規(guī)則生成參數(shù),生成多個過濾方式;通過測試,在多個過濾方式中,選擇準(zhǔn)確率最高的過濾方式為目標(biāo)用戶的過濾方式。建立模型和數(shù)據(jù)準(zhǔn)備是一個交互的過程建立模型的初步結(jié)果會對數(shù)據(jù)準(zhǔn)備產(chǎn)生新的需求,而數(shù)據(jù)準(zhǔn)備的結(jié)果直接影響模型的構(gòu)建。通過上述的流程,生成了對目標(biāo)用戶的規(guī)律規(guī)則,而進(jìn)一步的,在實際應(yīng)用中,系統(tǒng)根據(jù)該目標(biāo)用戶的過濾方式,為用戶計分,當(dāng)用戶的計分值超過預(yù)設(shè)的閾值時,對該用戶信息進(jìn)行過濾,實現(xiàn)對網(wǎng)絡(luò)安全的監(jiān)控和保證。這樣的過濾方式,同樣可以使用于郵件、論壇和即時通訊軟件等可以實現(xiàn)信息通信的網(wǎng)絡(luò)交互過程的信息過濾工作中,這同樣屬于本發(fā)明的保護范圍。
下面結(jié)合附圖和實施例,對本發(fā)明的具體實施方式
作進(jìn)一步詳細(xì)描述以對發(fā)布黃色信息的用戶進(jìn)行過濾為例,對用戶信息過濾方法的流程進(jìn)行說明, 系統(tǒng)通過分析用戶的聊天信息,探尋發(fā)布黃色信息的用戶所發(fā)送信息中蘊含的模型,通過數(shù)據(jù)挖掘模型獲取這些模式,然后利用生成模式生成對發(fā)布黃色信息的用戶的過濾方式, 實現(xiàn)對該類型用戶信息的監(jiān)控。具體過程如下步驟501、通過分析,設(shè)定目標(biāo)用戶的特征數(shù)據(jù)。上述的特征數(shù)據(jù)包括用戶行為數(shù)據(jù)、用戶信息數(shù)據(jù)和網(wǎng)絡(luò)特征數(shù)據(jù),體設(shè)定的范圍和結(jié)果如下1、用戶行為數(shù)據(jù)的設(shè)定,包括(1)目錄、電影、視頻、影視、動畫、卡通、圖片、表演、觀看、下載、在線、黃色、情色、 色情、激情、成人、倫理、女優(yōu)、經(jīng)典、三級、A片、無碼、清晰、AV等關(guān)鍵詞出現(xiàn)的頻次。(2)用戶發(fā)送信息的次數(shù)和字節(jié)數(shù)。(3)用戶接收信息的次數(shù)和字節(jié)數(shù)。(4)用戶向陌生人發(fā)送信息的次數(shù)。2、用戶信息數(shù)據(jù)的設(shè)定范圍包括(1)用戶第一次登錄的時間;(2)用戶的活躍度;(3)用戶的好友數(shù)。3、網(wǎng)絡(luò)特征數(shù)據(jù)的設(shè)定范圍包括(1)同IP上的用戶數(shù);(2)同MAC地址上的用戶數(shù)。完成設(shè)定后,根據(jù)所設(shè)定的特征數(shù)據(jù),生成對目標(biāo)用戶(即發(fā)送黃色信息的用戶) 的特征參數(shù),即用戶反應(yīng)用戶是否發(fā)送黃色信息。通過分析和篩選找到建模需要的用戶。具體過程如下步驟502、識別特征數(shù)據(jù)中的有效數(shù)據(jù),剔除無效變量和觀測。如,根據(jù)現(xiàn)有技術(shù),用戶添加的好友數(shù)和用戶向陌生人發(fā)送信息的次數(shù)數(shù)據(jù)目前尚無法提取,所以,在特征數(shù)據(jù)的設(shè)定結(jié)果中提出此內(nèi)容對應(yīng)的選項。步驟503、選擇樣本用戶,確定目標(biāo)對象。將發(fā)送黃色信息的用戶確定為模型目標(biāo),抽樣提取該類型用戶的信息通信記錄, 如聊天記錄、留言記錄和郵件記錄等數(shù)據(jù),確定模型的建模目步驟504、計算衍生變量。根據(jù)模型目標(biāo),利用上述獲得的數(shù)據(jù)計算衍生變量,從更全面的角度理解客戶行為。在本實施例中,建模使用的衍生變量主要有三類匯總變量、比例變量、均值變量,具體如下1、匯總變量關(guān)鍵詞出現(xiàn)的種類數(shù)。例如如果信息中含AV、女優(yōu)、三級關(guān)鍵詞,則匯總數(shù)據(jù)為 3,即出現(xiàn)了三類關(guān)鍵詞。關(guān)鍵詞分組。例如把觀看、下載、在線等關(guān)鍵詞分到一個同質(zhì)組中,并計算它們的出現(xiàn)的總次數(shù)。2、發(fā)送和接收的比例例如發(fā)送信息次數(shù)和接收信息次數(shù)的比例、發(fā)送信息字節(jié)數(shù)和接收字節(jié)數(shù)的比例。3、均值變量例如每類關(guān)鍵詞平均出現(xiàn)次數(shù),即該關(guān)鍵詞出現(xiàn)次數(shù)除以總的關(guān)鍵詞出現(xiàn)次數(shù)。步驟505、對特征參數(shù)進(jìn)行內(nèi)容過濾。對于含有缺失值的變量,根據(jù)數(shù)據(jù)的缺失值的替換原則進(jìn)行替換,如所有缺失值用數(shù)值0替換;對與文本信息,數(shù)據(jù)的清洗是將所有的文本消息進(jìn)行了繁簡體、大小寫、全角半角轉(zhuǎn)換。具體如表1所示表1替換內(nèi)容對照
權(quán)利要求
1.一種信息發(fā)布系統(tǒng),該系統(tǒng)包括網(wǎng)絡(luò)服務(wù)器、傳輸網(wǎng)絡(luò)和各個用戶終端,其特征在于所述網(wǎng)絡(luò)服務(wù)器包括接收單元、解密器、過濾單元和發(fā)送單元,所述每個用戶終端包括終端服務(wù)器和加密器,用戶通過終端服務(wù)器輸入信息后通過加密器調(diào)用加密算法對信息進(jìn)行加密后形成密文;連接用戶終端中加密器的接收單元,用于接收加密器發(fā)出的密文和加密密鑰,并將其轉(zhuǎn)發(fā)給解密器;連接數(shù)據(jù)存儲單元的解密器,用于在接收信息后調(diào)用解密算法先解密鑰,再解密文;連接解密器的過濾單元,用于接收經(jīng)過解密的明文,并判斷信息是否有效,將不符合要求的信息過濾掉;連接過濾單元的發(fā)送單元,用于將過濾后的有效信息通過傳輸網(wǎng)絡(luò)進(jìn)行發(fā)布,所述過濾單元包括設(shè)置模塊,用于設(shè)置用戶關(guān)鍵詞、特征數(shù)據(jù)與目標(biāo)用戶信息的過濾方式的對應(yīng)關(guān)系; 獲取模塊,用于獲取目標(biāo)用戶的關(guān)鍵詞及特征數(shù)據(jù);過濾模塊,用于根據(jù)所述目標(biāo)用戶的關(guān)鍵字及特征數(shù)據(jù)查找所述對應(yīng)關(guān)系中的過濾方式,根據(jù)所述過濾方式對所述目標(biāo)用戶信息進(jìn)行過濾,
2.如權(quán)利要求1所述的一種信息發(fā)布系統(tǒng),其特征在于所述設(shè)置模塊具體包括參數(shù)生成子模塊,用于設(shè)定目標(biāo)用戶所發(fā)送信息的關(guān)鍵詞和特征數(shù)據(jù),并根據(jù)所述關(guān)鍵詞和特征數(shù)據(jù),生成所述目標(biāo)用戶的特征參數(shù);過濾子模塊,用于過濾所述參數(shù)生成模塊生成的特征參數(shù)中的不規(guī)則數(shù)值; 規(guī)則生成子模塊,用于根據(jù)所述過濾模塊過濾后的特征參數(shù),生成對所述目標(biāo)用戶信息的過濾方式。
3.如權(quán)利要求2所述的一種信息發(fā)布系統(tǒng),其特征在于所述參數(shù)生成子模塊具體包括識別單元,用于識別所述特征數(shù)據(jù)中的有效數(shù)據(jù);選擇單元,用于根據(jù)所述識別單元識別的有效數(shù)據(jù),選擇所述目標(biāo)用戶中的樣本用戶;計算單元,用于根據(jù)所述選擇單元所選擇的樣本用戶的特征數(shù)據(jù),計算所述目標(biāo)用戶的特征參數(shù)。
4.如權(quán)利要求2所述的一種信息發(fā)布系統(tǒng),其特征在于所述過濾子模塊具體包括 第一過濾單元,用于替換所述特征參數(shù)中的缺失值為替換值;第二過濾單元,用于替換所述特征參數(shù)中的不符合格式規(guī)則的數(shù)值為規(guī)則數(shù)值。
5.如權(quán)利要求2所述的一種信息發(fā)布系統(tǒng),其特征在于所述規(guī)則生成子模塊具體包括參數(shù)選擇單元,用于在所述過濾模塊過濾后的特征參數(shù)中選擇一個或多個特征參數(shù)為規(guī)則生成參數(shù);規(guī)則計算單元,通過調(diào)整過濾方式,根據(jù)所述參數(shù)選擇子模塊所選擇的規(guī)則生成參數(shù), 生成多個過濾方式;規(guī)則選擇單元,用于在所述規(guī)則計算單元生成的多個過濾方式中,選擇準(zhǔn)確率最高的過濾方式為所述目標(biāo)用戶的過濾方式。
全文摘要
本發(fā)明涉及信息處理和傳輸技術(shù),特別是涉及一種網(wǎng)絡(luò)信息發(fā)布系統(tǒng),包括網(wǎng)絡(luò)服務(wù)器、傳輸網(wǎng)絡(luò)和各個用戶終端,其特征在于所述網(wǎng)絡(luò)服務(wù)器包括接收單元、解密器、過濾單元和發(fā)送單元,所述每個用戶終端包括終端服務(wù)器和加密器。本發(fā)明在用戶終端增加了加密器,使網(wǎng)絡(luò)中傳輸?shù)挠脩粜畔⒉荒軌蜉p易的被他人獲取,較好的維護了網(wǎng)絡(luò)安全,確保用戶的隱私不易外泄,使用戶可以更放心地進(jìn)行網(wǎng)絡(luò)信息傳輸。另外,本發(fā)明增加的過濾單元通過具體關(guān)鍵詞和用戶特征數(shù)據(jù)等對目標(biāo)用戶進(jìn)行判斷,可以從用戶行為的多個角度對用戶行為特征進(jìn)行判斷,并根據(jù)不同的目標(biāo)用戶采用不同的處理方式,提高了目標(biāo)用戶信息識別的準(zhǔn)確率,增強了用戶信息安全機制。
文檔編號G06F17/30GK102202037SQ20101013129
公開日2011年9月28日 申請日期2010年3月24日 優(yōu)先權(quán)日2010年3月24日
發(fā)明者孫曉波, 張 杰, 曲子恒, 王國臣 申請人:北京創(chuàng)世網(wǎng)贏高科技有限公司