專利名稱:一種通信報(bào)文的分類、訓(xùn)練方法和裝置的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及信息處理技術(shù)領(lǐng)域,特別是涉及一種通信報(bào)文的分類方法和裝置、一種報(bào)文分類器的訓(xùn)練方法和裝置。
背景技術(shù):
海量用戶使用各種網(wǎng)絡(luò)設(shè)備和終端訪問網(wǎng)絡(luò)產(chǎn)生了海量的通信報(bào)文,這些海量的通信報(bào)文中存在各式各樣的報(bào)文類型,為了能對(duì)這些通信報(bào)文進(jìn)行深度的分析和挖掘,必須能正確的識(shí)別各類報(bào)文,也即對(duì)通信報(bào)文進(jìn)行正確地分類。報(bào)文分類也稱為流分類。流是從一個(gè)源到一個(gè)目的的報(bào)文序列,是具有相同屬性的報(bào)文的集合。組成流的最小單位是網(wǎng)絡(luò)報(bào)文。現(xiàn)有的報(bào)文分類方法主要基于報(bào)頭的一個(gè)或多個(gè)域,根據(jù)一定的策略或規(guī)則識(shí)別該報(bào)文所屬的流。 現(xiàn)有的報(bào)文分類方法能夠識(shí)別通信報(bào)文所屬的流,且在網(wǎng)絡(luò)中的很多領(lǐng)域得到了廣泛應(yīng)用。例如,為了限制經(jīng)過加密或模糊之后的P2P(點(diǎn)對(duì)點(diǎn),Peer to Peer)報(bào)文在網(wǎng)絡(luò)中的傳輸,運(yùn)營商需要識(shí)別網(wǎng)絡(luò)中的采用各種特定協(xié)議加密的P2P報(bào)文流?,F(xiàn)有的報(bào)文分類方法通常僅能對(duì)局域網(wǎng)環(huán)境下的P2P報(bào)文等HTTP (超文本傳輸協(xié)定,HyperText Transfer Protocol)應(yīng)用報(bào)文進(jìn)行準(zhǔn)確區(qū)分,也即,僅能識(shí)別到HTTP應(yīng)用的粒度。但是,為了能對(duì)這些通信報(bào)文進(jìn)行深度的分析和挖掘,需要將通信報(bào)文劃分到比HTTP應(yīng)用更為細(xì)致的層面,現(xiàn)有的報(bào)文分類方法不能滿足上述細(xì)粒度需求??傊枰绢I(lǐng)域技術(shù)人員迫切解決的一個(gè)技術(shù)問題就是如何能夠提高通信報(bào)文分類的細(xì)粒度。
發(fā)明內(nèi)容
本申請(qǐng)所要解決的技術(shù)問題是提供一種通信報(bào)文的分類方法和裝置、一種報(bào)文分類器的訓(xùn)練方法和裝置,能夠提高通信報(bào)文分類的細(xì)粒度。為了解決上述問題,本申請(qǐng)公開了一種通信報(bào)文的分類方法,包括獲取通信報(bào)文;對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量;根據(jù)報(bào)文分類器判別該特征向量所屬的報(bào)文類別;其中,所述報(bào)文分類器為依據(jù)與用戶行為類別相應(yīng)的通信報(bào)文樣本所構(gòu)造的分類器。優(yōu)選的,所述對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量的步驟,包括通過分析所述通信報(bào)文的報(bào)文結(jié)構(gòu)和報(bào)文內(nèi)容中的一項(xiàng)或多項(xiàng),提取與所述通信報(bào)文相應(yīng)的特征向量。優(yōu)選的,所述通過分析所述通信報(bào)文的報(bào)文內(nèi)容,提取與所述通信報(bào)文相應(yīng)的特征向量的步驟,包括對(duì)所述通信報(bào)文的報(bào)文內(nèi)容進(jìn)行語義分詞處理,并依據(jù)語義分詞結(jié)果提取相應(yīng)的特征向量。優(yōu)選的,所述通過分析所述通信報(bào)文的報(bào)文內(nèi)容,提取與所述通信報(bào)文相應(yīng)的特征向量的步驟,包括針對(duì)所述通信報(bào)文提取相應(yīng)的變動(dòng)特征;針對(duì)所述通信報(bào)文對(duì)應(yīng)的用戶標(biāo)識(shí),提取與所述通信報(bào)文相應(yīng)的固定特征;所述變動(dòng)特征和固定特征組成所述通信報(bào)文的特征向量。 優(yōu)選的,所述獲取通信報(bào)文的步驟,包括對(duì)用戶與網(wǎng)絡(luò)間的通信報(bào)文進(jìn)行存儲(chǔ),并從相應(yīng)的存儲(chǔ)裝置中獲得通信報(bào)文;或從通信網(wǎng)關(guān)獲得用戶與網(wǎng)絡(luò)間的通信報(bào)文。優(yōu)選的,所述方法還包括依據(jù)該特征向量所屬的報(bào)文類別對(duì)相應(yīng)的通信報(bào)文進(jìn)行處理,所述處理包括記錄、存儲(chǔ)和丟棄處理中的一種或多種。優(yōu)選的,所述用戶行為類別包括用戶登錄行為、用戶搜索行為、用戶點(diǎn)擊行為、用戶展示行為中的一種或多種。優(yōu)選的,在對(duì)所述通信報(bào)文進(jìn)行特征提取,得到相應(yīng)的特征向量的步驟前,所述方法還包括對(duì)所述通信報(bào)文進(jìn)行數(shù)據(jù)清洗;所述對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量的步驟為,對(duì)數(shù)據(jù)清洗后的通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量。另一方面,本申請(qǐng)還公開了一種報(bào)文分類器的訓(xùn)練方法,包括獲取通信報(bào)文樣本;對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量;依據(jù)所述特征向量對(duì)與用戶行為類別相應(yīng)的通信報(bào)文樣本進(jìn)行訓(xùn)練,得到報(bào)文分類器。優(yōu)選的,所述對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟,包括通過分析所述通信報(bào)文樣本的報(bào)文結(jié)構(gòu)和報(bào)文內(nèi)容中一項(xiàng)或多項(xiàng),提取與所述通信報(bào)文樣本相應(yīng)的特征向量。優(yōu)選的,所述通過分析所述通信報(bào)文樣本的報(bào)文內(nèi)容,提取與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟,包括對(duì)所述通信報(bào)文樣本的報(bào)文內(nèi)容進(jìn)行語義分詞處理,并依據(jù)語義分詞結(jié)果提取與所述通信報(bào)文樣本相應(yīng)的特征向量。優(yōu)選的,所述通過分析所述通信報(bào)文樣本的報(bào)文內(nèi)容,提取與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟,包括針對(duì)所述通信報(bào)文樣本提取相應(yīng)的變動(dòng)特征;針對(duì)所述通信報(bào)文樣本對(duì)應(yīng)的用戶標(biāo)識(shí),提取與所述通信報(bào)文樣本相應(yīng)的固定特征;所述變動(dòng)特征和固定特征組成所述通信報(bào)文樣本的特征向量。優(yōu)選的,在對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟前,所述方法還包括對(duì)所述通信報(bào)文樣本進(jìn)行數(shù)據(jù)清洗;所述對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟為,對(duì)數(shù)據(jù)清洗后的通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量。優(yōu)選的,所述獲取通信報(bào)文樣本的步驟,包括對(duì)用戶與網(wǎng)絡(luò)間的通信報(bào)文進(jìn)行存儲(chǔ),并從相應(yīng)的存儲(chǔ)裝置中獲得通信報(bào)文樣本;或從通信網(wǎng)關(guān)獲得用戶與網(wǎng)絡(luò)間的通信報(bào)文樣本。 另一方面,本申請(qǐng)還公開了一種通信報(bào)文的分類裝置,包括報(bào)文獲取模塊,用于獲取通信報(bào)文;特征提取模塊,用于對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量;及分類判別模塊,用于根據(jù)報(bào)文分類器判別該特征向量所屬的報(bào)文類別;其中,所述報(bào)文分類器為依據(jù)與用戶行為類別相應(yīng)的通信報(bào)文樣本所構(gòu)造的分類器。另一方面,本申請(qǐng)還公開了一種報(bào)文分類器的訓(xùn)練裝置,包括樣本獲取模塊,用于獲取通信報(bào)文樣本;樣本特征提取模塊,用于對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量;及特征向量訓(xùn)練模塊,用于依據(jù)所述特征向量對(duì)與用戶行為類別相應(yīng)的通信報(bào)文樣本進(jìn)行訓(xùn)練,得到報(bào)文分類器。與現(xiàn)有技術(shù)相比,本申請(qǐng)具有以下優(yōu)點(diǎn)本申請(qǐng)根據(jù)報(bào)文分類器判別該特征向量所屬的報(bào)文類別;其中,所述報(bào)文分類器為依據(jù)與用戶行為類別相應(yīng)的通信報(bào)文樣本所構(gòu)造的分類器;由于同一用戶行為類別的多個(gè)通信報(bào)文樣本在某些特征上具有一定的相似性,而不同用戶行為類別的通信報(bào)文樣本之間具有一定的差異,故本申請(qǐng)采用訓(xùn)練得到的報(bào)文分類器能夠具有與特定用戶行為類別相應(yīng)的通信報(bào)文樣本的特征描述能力,以及,不同用戶行為類別相應(yīng)的通信報(bào)文樣本之間細(xì)微差別的判別能力。因此,相對(duì)于現(xiàn)有技術(shù)僅能識(shí)別到HTTP應(yīng)用的細(xì)粒度,本申請(qǐng)可以將通信報(bào)文的識(shí)別細(xì)化到用戶行為類別的細(xì)粒度,也即,能夠依據(jù)報(bào)文分類器從通信報(bào)文中識(shí)別出用戶搜索報(bào)文等各種與用戶行為類別相應(yīng)的通信報(bào)文,提高通信報(bào)文分類的細(xì)粒度。
圖I是本申請(qǐng)一種報(bào)文分類器的訓(xùn)練方法實(shí)施例的流程圖;圖2是本申請(qǐng)一種通信報(bào)文的分類方法實(shí)施例的流程圖;圖3是本申請(qǐng)一種報(bào)文分類器的訓(xùn)練裝置實(shí)施例的結(jié)構(gòu)圖;圖4是本申請(qǐng)一種通信報(bào)文的分類裝置實(shí)施例的結(jié)構(gòu)圖。
具體實(shí)施方式
為使本申請(qǐng)的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本申請(qǐng)作進(jìn)一步詳細(xì)的說明。為了能對(duì)這些通信報(bào)文進(jìn)行深度的分析和挖掘,需要將通信報(bào)文劃分到更細(xì)致的層面,一個(gè)典型的例子是從通信報(bào)文中識(shí)別出用戶搜索報(bào)文。本申請(qǐng)發(fā)明人經(jīng)研究發(fā)現(xiàn),用戶行為反映在用戶使用網(wǎng)絡(luò)設(shè)備或終端訪問網(wǎng)絡(luò)產(chǎn)生的通信報(bào)文中;實(shí)際上,用戶搜索報(bào)文就是與用戶行為類別相應(yīng)的一種通信報(bào)文樣本,通常的用戶行為類別具體可以包括用戶登錄行為、用戶搜索行為、用戶點(diǎn)擊行為、用戶展示行為等,那么,用戶搜索報(bào)文就是與用戶搜索行為相應(yīng)的一種通信報(bào)文樣本。綜上,本申請(qǐng)實(shí)施例依據(jù)與用戶行為類別相應(yīng)的通信報(bào)文樣本構(gòu)造報(bào)文分類器; 由于同一用戶行為類別的多個(gè)通信報(bào)文樣本在某些特征上具有一定的相似性,而不同用戶行為類別的通信報(bào)文樣本之間具有一定的差異,故本申請(qǐng)采用訓(xùn)練得到的報(bào)文分類器能夠具有與特定用戶行為類別相應(yīng)的通信報(bào)文樣本的特征描述能力,以及,不同用戶行為類別相應(yīng)的通信報(bào)文樣本之間細(xì)微差別的判別能力。因此,應(yīng)用本申請(qǐng),可以依據(jù)報(bào)文分類器從通信報(bào)文中識(shí)別出用戶搜索報(bào)文等各種與用戶行為類別相應(yīng)的通信報(bào)文,將通信報(bào)文的識(shí)別細(xì)化到用戶行為類別的細(xì)粒度。參照?qǐng)D1,示出了本申請(qǐng)一種報(bào)文分類器的訓(xùn)練方法實(shí)施例的流程圖,具體可以包括步驟101、獲取通信報(bào)文樣本;步驟102、對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量;步驟103、依據(jù)所述特征向量對(duì)與用戶行為類別相應(yīng)的通信報(bào)文樣本進(jìn)行訓(xùn)練,得到報(bào)文分類器。本申請(qǐng)可以提供如下獲取通信報(bào)文樣本的方案獲取方案一、對(duì)用戶與網(wǎng)絡(luò)間的通信報(bào)文進(jìn)行存儲(chǔ),并從相應(yīng)的存儲(chǔ)裝置中獲得通信報(bào)文樣本。方案一主要以離線方式定期獲取通信報(bào)文樣本,在具體實(shí)現(xiàn)中,可采用數(shù)據(jù)庫、日志、文件等形式存儲(chǔ)獲取的通信報(bào)文樣本,這里的定期可以根據(jù)實(shí)際情況設(shè)置,例如每天、每三天、每周等。例如,在本申請(qǐng)的一種應(yīng)用示例中,可以將海量通信報(bào)文數(shù)據(jù)存儲(chǔ)到線下服務(wù)器,然后通過并行計(jì)算平臺(tái)進(jìn)行通信報(bào)文樣本的獲取。采用獲取方案一獲取通信報(bào)文樣本,線下服務(wù)器存儲(chǔ)的往往是用戶歷史行為的通信報(bào)文數(shù)據(jù),這些用戶歷史行為往往在過去(如一周前、三天前等)形成;依據(jù)過去形成的用戶歷史行為所反映的通信報(bào)文樣本數(shù)據(jù)進(jìn)行報(bào)文分類器的訓(xùn)練,能夠使得報(bào)文分類器具有與特定用戶行為類別相應(yīng)的通信報(bào)文樣本的特征描述能力,以及,不同用戶行為類別相應(yīng)的通信報(bào)文樣本之間細(xì)微差別的判別能力。但是,獲取方案一需要占用大量的存儲(chǔ)資源,增加存儲(chǔ)裝置的負(fù)擔(dān)。例如中國上網(wǎng)用戶至少6個(gè)億,一個(gè)登錄操作就可能產(chǎn)生10個(gè)億的報(bào)文,幾小時(shí)的報(bào)文量就可能是百億甚至千億等。另外,互聯(lián)網(wǎng)規(guī)模和覆蓋面的迅速增長帶來了信息超載問題過量信息的同時(shí)呈現(xiàn)使得用戶無法快速從中獲取對(duì)自己有用的部分,信息使用效率反而降低。為了降低用戶享用信息的成本,需要向用戶推薦所需要的信息。其中,向用戶推薦信息需要對(duì)用戶行為進(jìn)行深度的分析和挖掘,以精準(zhǔn)的定位用戶的行為特性。為了更精確地定位用戶的行為特性,可能需要對(duì)某種用戶行為類別進(jìn)行進(jìn)一步細(xì)分,例如,將用戶搜索行為細(xì)分為數(shù)碼類、奢侈品類、護(hù)膚品、服裝類,等等。這樣,如果一周前用戶購買數(shù)碼相機(jī),歸類到數(shù)碼類,一周后購買LV包,在依據(jù)過去形成的用戶歷史行為所反映的通信報(bào)文樣本數(shù)據(jù)進(jìn)行報(bào)文分類器的訓(xùn)練的情況下,容易影響分類結(jié)果的時(shí)效性和準(zhǔn)確性。獲取方案二、針對(duì)上述情形,獲取方案二從通信網(wǎng)關(guān)獲得用戶與網(wǎng)絡(luò)間的通信報(bào)文樣本,也即以在線方式從網(wǎng)關(guān)獲得報(bào)文,只進(jìn)行臨時(shí)存儲(chǔ)或緩存;既能夠減少存儲(chǔ)資源的占用,減輕存儲(chǔ)裝置的負(fù)擔(dān),又能夠避免影響分類結(jié)果的時(shí)效性和準(zhǔn)確性,有利于對(duì)某種用戶行為類別進(jìn)行進(jìn)一步細(xì)分,提高通信報(bào)文分類的細(xì)粒度。 以上對(duì)獲取通信報(bào)文樣本的兩種方案進(jìn)行了介紹,可以理解,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需要,獨(dú)立或聯(lián)合使用上述兩種方案,或者采用其它獲取通信報(bào)文樣本的方案,本申請(qǐng)對(duì)具體的獲取通信報(bào)文樣本的方案不加以限制。本申請(qǐng)可以提供如下對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到相應(yīng)的特征向量的方案在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟,可以進(jìn)一步包括通過分析所述通信報(bào)文樣本的報(bào)文結(jié)構(gòu)和/或報(bào)文內(nèi)容,提取與所述通信報(bào)文樣本相應(yīng)的特征向量。本領(lǐng)域技術(shù)人員可以依據(jù)報(bào)文結(jié)構(gòu)和報(bào)文內(nèi)容中的一項(xiàng)或多項(xiàng)的屬性對(duì)所述通信報(bào)文樣本進(jìn)行相應(yīng)的分析,從而提取相應(yīng)的特征向量,本申請(qǐng)對(duì)具體的分析方法不加以限制。在本申請(qǐng)的另一種優(yōu)選實(shí)施例中,所述通過分析所述通信報(bào)文樣本的報(bào)文內(nèi)容,提取與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟,可以進(jìn)一步包括對(duì)所述通信報(bào)文樣本的報(bào)文內(nèi)容進(jìn)行語義分詞處理,并依據(jù)語義分詞結(jié)果提取相應(yīng)的特征向量。通常報(bào)文內(nèi)容中主要包括URL(統(tǒng)一資源定位符,Uniform Resource Locator)。在本申請(qǐng)的一種應(yīng)用示例中,URL的格式為http://www. soopat. com/,語義分詞結(jié)果可以為http、、//、www、.、soopat、.、com、/,則可以根據(jù)語義分詞的有用性從語義分詞結(jié)果中提取出與原始URL相應(yīng)的特征www、soopat、com,組成特征向量。在本申請(qǐng)的另一種應(yīng)用示例中,還可以在語義分詞的有用性的基礎(chǔ)上,進(jìn)一步提取與原始URL相應(yīng)的特征,例如,URL的格式為http://www. baidu. com/s bs = % CC%EC % B3 % D3 % B6 % D4 % B9 % AC&f = 8&rsv_bp = l&rsv_spt = 3&wd = % CE % DE %CF% DF% C2% B7% D3% C9% C6% F7&inputT = 7687,可以首先根據(jù)語義分詞的有用性提取 www、baidu、com、s bs = % CC % EC % B3% D3% B6% D4% B9% AC&f = 8&rsv_bp =l&rsv_spt = 3&wd =% CE% DE% CF% DF% C2% B7% D3% C9% C6% F7&inputT = 7687等特征,然后進(jìn)一步確定該URL為某搜索引擎的搜索結(jié)果,故可以依據(jù)某搜索引擎的URL規(guī)則提取相應(yīng)的特征(例如,可以得知該搜索結(jié)果相應(yīng)的關(guān)鍵詞為無線路由器),最后根據(jù)提取的特征組成特征向量。通常,特征向量可以用行向量或者列向量表示,以列向量為例,則上述提取的與所述通信報(bào)文樣本相應(yīng)的特征作為列元素組成一個(gè)或多個(gè)列向量;通常列向量的數(shù)目可與特征的數(shù)目相應(yīng)。由于根據(jù)提取的特征組成特征向量為本技術(shù)領(lǐng)域內(nèi)的公知技術(shù),故在此不作贅述。在本申請(qǐng)的再一種優(yōu)選實(shí)施例中,所述通過分析所述通信報(bào)文樣本的報(bào)文內(nèi)容,提取與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟,可以進(jìn)一步包括針對(duì)所述通信報(bào)文樣本提取相應(yīng)的變動(dòng)特征;針對(duì)所述通信報(bào)文樣本對(duì)應(yīng)的用戶標(biāo)識(shí),提取與所述通信報(bào)文樣本相應(yīng)的固定特 征;所述變動(dòng)特征和固定特征組成所述通信報(bào)文樣本的特征向量。評(píng)價(jià)分類器性能主要有兩個(gè)方面的因素,一個(gè)是識(shí)別精度,一個(gè)是算法的效率。其中,影響模型精度的一個(gè)重要因素就是特征的充分性,具體可以包括特征的強(qiáng)弱和數(shù)目。特征提取方案二從增加特征數(shù)目的途徑出發(fā),提高報(bào)文分類器的識(shí)別精度。由于通信報(bào)文是用戶通過用戶行為產(chǎn)生的,針對(duì)所述通信報(bào)文提取相應(yīng)的變動(dòng)特征僅能反映用戶行為本身,如果能依據(jù)所述通信報(bào)文樣本對(duì)應(yīng)的用戶標(biāo)識(shí)提取相應(yīng)的固定特征,則能夠增加特征數(shù)目,提高報(bào)文分類器的識(shí)別精度。在實(shí)際應(yīng)用中,所述變動(dòng)特征與用戶行為直接關(guān)聯(lián),具體可以包括與用戶登錄行為相關(guān)的變動(dòng)特征、與用戶搜索行為相關(guān)的變動(dòng)特征(可根據(jù)需要細(xì)化到搜索關(guān)鍵詞)、與用戶點(diǎn)擊行為相關(guān)的變動(dòng)特征、與用戶展示行為相關(guān)的變動(dòng)特征等等。所述固定特征與用戶標(biāo)識(shí)(用戶ID(Identity)或者用戶IP(網(wǎng)絡(luò)之間互連的協(xié)議,Internet Protocol))直接關(guān)聯(lián),具體可以包括用戶的性別、年齡、職業(yè)、收入、層次、興趣、愛好等等,在實(shí)際中也可以通過用戶在網(wǎng)站的注冊(cè)信息,或者對(duì)用戶在過去一段時(shí)期內(nèi)的歷史行為分析統(tǒng)計(jì)得到,本申請(qǐng)對(duì)具體的獲取變動(dòng)特征的方法不加以限制。通信報(bào)文由用戶使用網(wǎng)絡(luò)設(shè)備或終端訪問網(wǎng)絡(luò)產(chǎn)生。本技術(shù)領(lǐng)域中,可以通過分析所述通信報(bào)文中攜帶的網(wǎng)絡(luò)設(shè)備端或終端的內(nèi)容,識(shí)別相應(yīng)的用戶標(biāo)識(shí)。識(shí)別用戶標(biāo)識(shí)為本技術(shù)領(lǐng)域內(nèi)的公知技術(shù),在此提供一個(gè)識(shí)別用戶標(biāo)識(shí)的示例當(dāng)該用戶注冊(cè)或登錄時(shí),以該用戶的ID作為該用戶的標(biāo)識(shí);當(dāng)該用戶以未登錄狀態(tài)瀏覽時(shí),根據(jù)該用戶的cookie (用于存儲(chǔ)用戶私有信息的小文本文件)識(shí)別該用戶的標(biāo)識(shí)。在實(shí)際應(yīng)用中,對(duì)于一個(gè)需要用戶ID注冊(cè)登錄的網(wǎng)站來說,用戶唯一標(biāo)識(shí)符的選擇可以遵從以下順序當(dāng)用戶注冊(cè)登錄時(shí)以用戶ID為準(zhǔn),當(dāng)用戶在未登錄狀態(tài)瀏覽時(shí)以用戶的cookie為準(zhǔn)。其中,基于cookie的用戶識(shí)別是現(xiàn)有一種典型的用戶識(shí)別方法。當(dāng)通過自定義Apache日志格式或者JavaScript的方法獲得用戶cookie時(shí),其實(shí)已經(jīng)找到了一個(gè)非常有效的用戶識(shí)別的手段。cookie在未被清除的前提下可以認(rèn)為是跟某個(gè)訪問客戶端電腦綁定的,所以基于cookie的用戶識(shí)別的準(zhǔn)確度比較高。例如,如在某網(wǎng)站注冊(cè)過的用戶,便會(huì)有cookies信息存儲(chǔ)在用戶的電腦的c盤里面,當(dāng)該用戶再次訪問該網(wǎng)站時(shí),該網(wǎng)站的系統(tǒng)會(huì)去指定的路徑去取cookies信息,如果取到了,則即使該用戶不登錄,也能取到登錄名,如果取不到,則會(huì)新建一個(gè)cookies信息到用戶的電腦里面。目前大多數(shù)用戶都不清除自己的cookies信息。所以,可以利用該技術(shù),得到用戶的標(biāo)識(shí)。上述對(duì)對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量的幾種方案進(jìn)行了介紹,可以理解,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需要,獨(dú)立或聯(lián)合使用上述幾種方案,或者采用其它方案,本申請(qǐng)對(duì)具體的對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量的方案不加以限制。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,在對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到相應(yīng)的特征向量的步驟前,所述方法還可以包括
對(duì)所述通信報(bào)文樣本進(jìn)行數(shù)據(jù)清洗;則所述對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟可以為,對(duì)數(shù)據(jù)清洗后的通信報(bào)文樣本進(jìn)行特征提取,得到相應(yīng)的特征向量。數(shù)據(jù)清洗的主要任務(wù)是過濾那些不符合要求的數(shù)據(jù),不符合要求的數(shù)據(jù)主要可以包括不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)等等。在具體實(shí)現(xiàn)中,可以依據(jù)報(bào)文結(jié)構(gòu)和報(bào)文內(nèi)容中一項(xiàng)或多項(xiàng)設(shè)置清洗規(guī)則。由于報(bào)文內(nèi)容主要是URL,故可以依據(jù)規(guī)定的URL格式進(jìn)行清洗,例如,協(xié)議的一個(gè)清洗規(guī)定為只允許保留HTTP的請(qǐng)求報(bào)文。另外,本領(lǐng)域技術(shù)人員還可以依據(jù)自定義的URL清洗規(guī)則進(jìn)行清洗,凡是不符合規(guī)定或規(guī)則的結(jié)構(gòu)就不再保留。自定義URL清洗規(guī)則一個(gè)例子是,比如url中含有單獨(dú)的ad字符串,就會(huì)被丟棄,t匕如 http://xxx. XX. xxx/ad/xxx, http://xxx. xx. xxx/ad. html 等等都被會(huì)丟棄,而http://xxx. xx. xxx/xxadxx/xxx 不會(huì)被丟棄。自定義URL清洗規(guī)則另一個(gè)例子是,假設(shè)本領(lǐng)域技術(shù)人員欲從通信報(bào)文中識(shí)別出用戶搜索報(bào)文,則需要構(gòu)造兩類的報(bào)文分類器,用以判別用戶搜索類別和非用戶搜索類別,而凡是以“js”結(jié)尾的URL都與用戶搜索行為無關(guān),故在對(duì)所述通信報(bào)文樣本進(jìn)行數(shù)據(jù)清洗的過程中,可以將以“js”結(jié)尾的URL從用戶搜索類別的通信報(bào)文樣本中丟棄,可選地,還可以將以“js”結(jié)尾的URL放至非用戶搜索類別的通信報(bào)文樣本中。本步驟是在所述特征向量基礎(chǔ)上訓(xùn)練得到報(bào)文分類器;所述報(bào)文分類器用于從通信報(bào)文中識(shí)別出用戶搜索報(bào)文等各種與用戶行為類別相應(yīng)的通信報(bào)文。在實(shí)際應(yīng)用中,可以對(duì)步驟101獲取的通信報(bào)文樣本標(biāo)注相應(yīng)的報(bào)文類別以備接下來的訓(xùn)練。本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際需要,構(gòu)造兩類或兩類以上的報(bào)文分類器。例如,兩類的報(bào)文分類器用于兩類的判別,例如可以用于判別待分類的通信報(bào)文“是否”為與特定用戶行為類別相應(yīng)的通信報(bào)文;又如,多類的報(bào)文分類器可以用于多類的判別,如四類的報(bào)文分類器可以用于將待分類的通信報(bào)文判別中下述四種類別中的一種用戶登錄報(bào)文類別、用戶搜索報(bào)文類別、用戶點(diǎn)擊報(bào)文類別、用戶展示報(bào)文類別。以兩類的報(bào)文分類器為例,可以將用戶搜索報(bào)文類別的通信報(bào)文樣本的特征向量作為訓(xùn)練的正樣本特征,將非用戶搜索報(bào)文類別的通信報(bào)文樣本的特征向量作為訓(xùn)練的反樣本特征,構(gòu)造一個(gè)具有判別能力的報(bào)文分類器。在眾多機(jī)器學(xué)習(xí)方法中,支持向量機(jī)(SVM, support vector machine)是一種使得分類結(jié)構(gòu)化誤差最小的分類器構(gòu)造方法,是一種具有更好推廣性的分類器構(gòu)造方法。因而,本發(fā)明優(yōu)選采用支持向量機(jī)作為兩類分類器來構(gòu)造所述報(bào)文分類器假臉模型,所述構(gòu)造報(bào)文分類器假臉模型的步驟可以通過以下子步驟來實(shí)現(xiàn)子步驟E1、按照學(xué)習(xí)能力對(duì)通信報(bào)文樣本及特征向量組成的訓(xùn)練數(shù)據(jù)進(jìn)行分組;子步驟E2、針對(duì)當(dāng)前組訓(xùn)練數(shù)據(jù),訓(xùn)練獲得相應(yīng)的報(bào)文分類器,依據(jù)所述報(bào)文分類器計(jì)算得到錯(cuò)分樣本集,并判斷當(dāng)前組訓(xùn)練數(shù)據(jù)是否為最后一組訓(xùn)練數(shù)據(jù),若是,則判斷當(dāng)前報(bào)文分類器的分類錯(cuò)誤率是否在預(yù)置范圍內(nèi),若是,則結(jié)束本次操作,否則從第一組數(shù)據(jù)開始訓(xùn)練;否則,依據(jù)所述錯(cuò)分樣本集更新當(dāng)前組訓(xùn)練數(shù)組,并進(jìn)行下一組訓(xùn)練。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,可以根據(jù)通信報(bào)文分類的準(zhǔn)確性來調(diào)整所述報(bào)文分類器的參數(shù),使得所述報(bào)文分類器的參數(shù)為最優(yōu)參數(shù),具體而言,所述方法還可以包括 對(duì)所述報(bào)文分類器進(jìn)行開放測(cè)試,并依據(jù)開放測(cè)試結(jié)果調(diào)整所述報(bào)文分類器的參數(shù)。本技術(shù)領(lǐng)域中,開放測(cè)試主要用于對(duì)系統(tǒng)或模型的精度進(jìn)行測(cè)試,本申請(qǐng)實(shí)施例中則是用于測(cè)試報(bào)文分類器的精度。其中,開放測(cè)試所用的測(cè)試樣本并不屬于步驟101獲取的訓(xùn)練樣本集合,開放測(cè)試的流程大致為將測(cè)試樣本作為待測(cè)試通信報(bào)文輸入至報(bào)文分類器,輸出相應(yīng)的分類結(jié)果,如果分類結(jié)果有誤,則可以相應(yīng)調(diào)整報(bào)文分類器的參數(shù),如果分類結(jié)果正確,則可以不作任何調(diào)整。另外,一旦步驟101獲取通信報(bào)文樣本有所更新,本申請(qǐng)都會(huì)不斷執(zhí)行步驟102和步驟103,以保證所述報(bào)文分類器的參數(shù)時(shí)效性,提高通信報(bào)文分類的準(zhǔn)確性。參照?qǐng)D2,示出了本申請(qǐng)一種通信報(bào)文的分類方法實(shí)施例的流程圖,具體可以包括步驟201、獲取通信報(bào)文;步驟202、對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量;步驟203、根據(jù)報(bào)文分類器判別該特征向量所屬的報(bào)文類別;其中,所述報(bào)文分類器為依據(jù)與用戶行為類別相應(yīng)的通信報(bào)文樣本所構(gòu)造的分類器。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,可以采用如下步驟中的一項(xiàng)或多項(xiàng)獲取通信報(bào)文步驟R1、對(duì)用戶與網(wǎng)絡(luò)間的通信報(bào)文進(jìn)行存儲(chǔ),并從相應(yīng)的存儲(chǔ)裝置中獲得通信報(bào)文;步驟R2、從通信網(wǎng)關(guān)獲得用戶與網(wǎng)絡(luò)間的通信報(bào)文。在具體實(shí)現(xiàn)中,所述報(bào)文分類器可以通過以下訓(xùn)練步驟獲得步驟SI、獲取通信報(bào)文樣本;步驟S2、對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到相應(yīng)的特征向量;步驟S3、依據(jù)所述特征向量對(duì)與用戶行為類別相應(yīng)的通信報(bào)文樣本進(jìn)行訓(xùn)練,得到報(bào)文分類器。在本申請(qǐng)實(shí)施例中,優(yōu)選的是,所述用戶行為類別具體可以包括用戶登錄行為、用戶搜索行為、用戶點(diǎn)擊行為、用戶展示行為中的一種或多種。為了提高通信報(bào)文分類的準(zhǔn)確率,本實(shí)施例采用與訓(xùn)練步驟(步驟S2)相同的方法對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量。本申請(qǐng)可以提供如下對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量的方案,在實(shí)際中,可依據(jù)訓(xùn)練步驟從中選擇一種或多種加以利用在本申請(qǐng)的一種優(yōu)選實(shí)施例中,可以通過分析所述通信報(bào)文的報(bào)文結(jié)構(gòu)和報(bào)文內(nèi)容中的一項(xiàng)或多項(xiàng),提取與所述通信報(bào)文相應(yīng)的特征向量;在本申請(qǐng)的另一種優(yōu)選實(shí)施例中,所述通過分析所述通信報(bào)文的報(bào)文內(nèi)容,提取與所述通信報(bào)文相應(yīng)的特征向量的步驟,可以進(jìn)一步包括對(duì)所述通信報(bào)文的報(bào)文內(nèi)容進(jìn)行語義分詞處理,并依據(jù)語義分詞結(jié)果提取相應(yīng)的特征向量。 在本申請(qǐng)的再一種優(yōu)選實(shí)施例中,所述通過分析所述通信報(bào)文的報(bào)文內(nèi)容,提取與所述通信報(bào)文相應(yīng)的特征向量的步驟,可以進(jìn)一步包括針對(duì)所述通信報(bào)文提取相應(yīng)的變動(dòng)特征;針對(duì)所述通信報(bào)文對(duì)應(yīng)的用戶標(biāo)識(shí),提取與所述通信報(bào)文相應(yīng)的固定特征;所述變動(dòng)特征和固定特征組成所述通信報(bào)文的特征向量。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述根據(jù)報(bào)文分類器判別該特征向量所屬的報(bào)文類別的步驟可以為,將該特征向量輸入到所述報(bào)文分類器中,輸出相應(yīng)的報(bào)文分類結(jié)果,以兩類的報(bào)文分類器(用戶搜索報(bào)文類別和非用戶搜索報(bào)文類別)為例,所述根據(jù)報(bào)文分類器判別該特征向量所屬的報(bào)文類別的步驟具體可以包括步驟Tl、將步驟202提取的特征向量作為報(bào)文分類器的輸入特征向量z,得到報(bào)文分類器輸出的數(shù)值;步驟T2、根據(jù)該數(shù)值對(duì)待分類的通信報(bào)文進(jìn)行判別,若該數(shù)值> 1,則輸出屬于用戶搜索報(bào)文類別的分類結(jié)果;若該數(shù)值< -1,則輸出屬于非用戶搜索報(bào)文類別的分類結(jié)果;若_1 <該數(shù)值< 1,則根據(jù)計(jì)算得到的置信值,輸出分類結(jié)果。例如,訓(xùn)練步驟采用SVM方法,最終得到待認(rèn)證用戶的報(bào)文分類器為
J(Z) = YjyiWiKiZ,Zi) + b,其中,η代表樣本類別數(shù),Zi為某類別一樣本的特征向量,Yi為該
i=\
樣本所屬的樣本類別,b為分類閾值,Wi為訓(xùn)練得到的最優(yōu)分類參數(shù),K為SVM所使用的核函數(shù),z為待分類通信報(bào)文的特征向量。假設(shè)報(bào)文分類器為兩類分類器,用于判別用戶搜索報(bào)文類別和用戶點(diǎn)擊報(bào)文類另|J,則上例中η = 2,yi代表用戶搜索報(bào)文類別,Y2代表用戶點(diǎn)擊報(bào)文類別,W1和W2分別為上述兩種類別的參數(shù),Z1和Z2分別為上述兩種類別的特征向量。不同的與用戶行為類別相應(yīng)的通信報(bào)文樣本的報(bào)文內(nèi)容及提取的特征均存在著差異,例如,可從某搜索引擎的搜索結(jié)果提取出“Result”這一特征,而可從針對(duì)該搜索引擎的某搜索結(jié)果的點(diǎn)擊網(wǎng)頁中提取出“TiffFile”特征等等,故Z1的特征向量中可能包括“Result”這一特征,且Z2的特征向量中可能包括“TiffFile”這一特征。那么,判別過程可以為①「若f (z) ^ 1,則判別所述通信報(bào)文為用戶搜索報(bào)文類別;②「若f(z) ( -1,則判別所述通信報(bào)文為非用戶搜索報(bào)文類別;③「若-l<f(z) < 1,則設(shè)定置信函數(shù)g(z)= 1 + fZ)*100% ,根據(jù)計(jì)算得到的置信值,判別所述通信報(bào)文的分類結(jié)果。
需要說明的是,上述SVM只是作為報(bào)文分類器的一種示例,實(shí)際上,本申請(qǐng)的報(bào)文分類器還可以是貝葉斯分類器、神經(jīng)網(wǎng)絡(luò)分類器、決策樹分類器、自適應(yīng)增強(qiáng)(adaboost,adaptive boosting)分類器等等,本申請(qǐng)對(duì)報(bào)文分類器所使用的分類器算法不加以限制。對(duì)于報(bào)文分類方法實(shí)施例而言,由于其訓(xùn)練步驟與圖I所示的訓(xùn)練方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見訓(xùn)練方法實(shí)施例的部分說明即可。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,在對(duì)所述通信報(bào)文進(jìn)行特征提取,得到相應(yīng)的特征向量的步驟前,所述方法還可以包括對(duì)所述通信報(bào)文進(jìn)行數(shù)據(jù)清洗;所述對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量的步驟可以為,對(duì)數(shù)據(jù)清洗后的通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量。 在實(shí)際應(yīng)用中報(bào)文分類器需要處理的數(shù)據(jù)量非常龐大。例如,中國上網(wǎng)用戶至上6個(gè)億,一個(gè)登錄操作就可能產(chǎn)生10個(gè)億的報(bào)文,幾小時(shí)的報(bào)文量就可能是百億甚至千億等,如果加上點(diǎn)擊操作和搜索操作,那么報(bào)文分類器需要處理的數(shù)據(jù)量將不堪設(shè)想。針對(duì)上述情形,本優(yōu)選實(shí)施例通過數(shù)據(jù)清洗丟棄那些沒必要進(jìn)行分類的通信報(bào)文,以減輕報(bào)文分類器的負(fù)擔(dān)。具體的數(shù)據(jù)清洗方案可參照前述說明。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述方法還可以包括依據(jù)該特征向量所屬的報(bào)文類別對(duì)相應(yīng)的通信報(bào)文進(jìn)行處理,所述處理具體可以包括記錄、存儲(chǔ)和丟棄處理中的一種或多種。在實(shí)際中,對(duì)某些類別的通信報(bào)文可以只記錄統(tǒng)計(jì)結(jié)果,然后丟棄通信報(bào)文。例如用戶登錄網(wǎng)站時(shí)發(fā)生的通信報(bào)文只進(jìn)行記錄訪問次數(shù)、時(shí)間等信息。對(duì)某些類別的通信報(bào)文可以進(jìn)行存儲(chǔ)處理,例如,可以存儲(chǔ)用戶搜索報(bào)文類別、用戶點(diǎn)擊報(bào)文類別、用戶展示報(bào)文類別的通信報(bào)文等等??傊?,本申請(qǐng)可以針對(duì)不同報(bào)文類別的通信報(bào)文進(jìn)行不同的處理,本申請(qǐng)對(duì)具體的報(bào)文類別與處理方式之間的對(duì)應(yīng)關(guān)系以及具體的處理方式不加以限制。與前述訓(xùn)練方法相應(yīng),本申請(qǐng)還提供了一種報(bào)文分類器的訓(xùn)練裝置實(shí)施例,參照?qǐng)D3所示的結(jié)構(gòu)圖,具體可以包括樣本獲取模塊301,用于獲取通信報(bào)文樣本;樣本特征提取模塊302,用于對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量;及特征向量訓(xùn)練模塊303,用于依據(jù)所述特征向量對(duì)與用戶行為類別相應(yīng)的通信報(bào)文樣本進(jìn)行訓(xùn)練,得到報(bào)文分類器。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述樣本特征提取模塊302可以進(jìn)一步包括樣本分析提取子模塊,用于通過分析所述通信報(bào)文樣本的報(bào)文結(jié)構(gòu)和報(bào)文內(nèi)容中的一項(xiàng)或多項(xiàng),提取與所述通信報(bào)文樣本相應(yīng)的特征向量。在本申請(qǐng)的另一種優(yōu)選實(shí)施例中,所述樣本分析提取子模塊可以包括樣本語義分詞單元,用于對(duì)所述通信報(bào)文樣本的報(bào)文內(nèi)容進(jìn)行語義分詞處理;樣本提取單元,用于依據(jù)語義分詞結(jié)果提取與所述通信報(bào)文樣本相應(yīng)的特征向量。在本申請(qǐng)的再一種優(yōu)選實(shí)施例中,所述樣本特征提取模塊302可以進(jìn)一步包括樣本變動(dòng)提取子模塊,用于針對(duì)所述通信報(bào)文樣本提取相應(yīng)的變動(dòng)特征;
樣本固定提取子模塊,用于針對(duì)所述通信報(bào)文樣本對(duì)應(yīng)的用戶標(biāo)識(shí),提取與所述通信報(bào)文樣本相應(yīng)的固定特征;所述變動(dòng)特征和固定特征組成所述通信報(bào)文樣本的特征向量。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述裝置還可以包括數(shù)據(jù)清洗模塊,用于在對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟前,對(duì)所述通信報(bào)文樣本進(jìn)行數(shù)據(jù)清洗;則所述樣本特征提取模塊302,可具體用于對(duì)數(shù)據(jù)清洗后的通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述樣本獲取模塊301具體可以包括第一樣本獲取子模塊,用于對(duì)用戶與網(wǎng)絡(luò)間的通信報(bào)文進(jìn)行存儲(chǔ),并從相應(yīng)的存 儲(chǔ)裝置中獲得通信報(bào)文樣本;或第二樣本獲取子模塊,用于從通信網(wǎng)關(guān)獲得用戶與網(wǎng)絡(luò)間的通信報(bào)文樣本。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述裝置還可以包括開放測(cè)試模塊,用于對(duì)所述報(bào)文分類器進(jìn)行開放測(cè)試;參數(shù)調(diào)整模塊,用于依據(jù)開放測(cè)試結(jié)果調(diào)整所述報(bào)文分類器的參數(shù)。對(duì)于訓(xùn)練裝置實(shí)施例而言,由于其與圖I所示的訓(xùn)練方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見訓(xùn)練方法實(shí)施例的部分說明即可。與前述分類方法實(shí)施例相應(yīng),本申請(qǐng)還公開了一種通信報(bào)文的分類裝置,參照?qǐng)D4所示的結(jié)構(gòu)圖,具體可以包括報(bào)文獲取模塊401,用于獲取通信報(bào)文;特征提取模塊402,用于對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量;及分類判別模塊403,用于根據(jù)報(bào)文分類器判別該特征向量所屬的報(bào)文類別;其中,所述報(bào)文分類器為依據(jù)與用戶行為類別相應(yīng)的通信報(bào)文樣本所構(gòu)造的分類器。在本申請(qǐng)實(shí)施例中,優(yōu)選的是,所述用戶行為類別具體可以包括用戶登錄行為、用戶搜索行為、用戶點(diǎn)擊行為、用戶展示行為中的一神或多種。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述特征提取模塊402可以進(jìn)一步包括分析提取子模塊,用于通過分析所述通信報(bào)文的報(bào)文結(jié)構(gòu)和報(bào)文內(nèi)容中的一項(xiàng)或多項(xiàng),提取與所述通信報(bào)文相應(yīng)的特征向量。在本申請(qǐng)的另一種優(yōu)選實(shí)施例中,所述分析提取子模塊具體可以包括語義分詞單元,用于對(duì)所述通信報(bào)文的報(bào)文內(nèi)容進(jìn)行語義分詞處理;提取單元,用于依據(jù)語義分詞結(jié)果提取與所述通信報(bào)文相應(yīng)的特征向量。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述特征提取模塊402可以進(jìn)一步包括變動(dòng)提取子模塊,用于針對(duì)所述通信報(bào)文提取相應(yīng)的變動(dòng)特征;固定提取子模塊,用于針對(duì)所述通信報(bào)文對(duì)應(yīng)的用戶標(biāo)識(shí),提取與所述通信報(bào)文相應(yīng)的固定特征;所述變動(dòng)特征和固定特征組成所述通信報(bào)文的特征向量。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述報(bào)文獲取模塊401可以進(jìn)一步包括第一報(bào)文獲取子模塊,用于對(duì)用戶與網(wǎng)絡(luò)間的通信報(bào)文進(jìn)行存儲(chǔ),并從相應(yīng)的存儲(chǔ)裝置中獲得通信報(bào)文;或
第二報(bào)文獲取子模塊,用于從通信網(wǎng)關(guān)獲得用戶與網(wǎng)絡(luò)間的通信報(bào)文。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述裝置還可以包括類別處理模塊,用于依據(jù)該特征向量所屬的報(bào)文類別對(duì)相應(yīng)的通信報(bào)文進(jìn)行處理,所述處理具體可以包括記錄、存儲(chǔ)和丟棄處理中的一種或多種。對(duì)于分類裝置實(shí)施例而言,由于其與圖2所示的分類方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見分類方法實(shí)施例的部分說明即可。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序 產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。盡管已描述了本申請(qǐng)的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本申請(qǐng)范圍的所有變更和修改。本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。以上對(duì)本申請(qǐng)所提供的一種通信報(bào)文的分類方法和裝置、一種報(bào)文分類器的訓(xùn)練方法和裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本申請(qǐng)的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本申請(qǐng)的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請(qǐng)的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本申請(qǐng)的限制。
權(quán)利要求
1.一種通信報(bào)文的分類方法,其特征在于,包括 獲取通信報(bào)文; 對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量; 根據(jù)報(bào)文分類器判別該特征向量所屬的報(bào)文類別;其中,所述報(bào)文分類器為依據(jù)與用戶行為類別相應(yīng)的通信報(bào)文樣本所構(gòu)造的分類器。
2.如權(quán)利要求I所述的方法,其特征在于,所述對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量的步驟,包括 通過分析所述通信報(bào)文的報(bào)文結(jié)構(gòu)和報(bào)文內(nèi)容中的一項(xiàng)或多項(xiàng),提取與所述通信報(bào)文相應(yīng)的特征向量。
3.如權(quán)利要求2所述的方法,其特征在于,所述通過分析所述通信報(bào)文的報(bào)文內(nèi)容,提取與所述通信報(bào)文相應(yīng)的特征向量的步驟,包括 對(duì)所述通信報(bào)文的報(bào)文內(nèi)容進(jìn)行語義分詞處理,并依據(jù)語義分詞結(jié)果提取相應(yīng)的特征向量。
4.如權(quán)利要求2所述的方法,其特征在于,所述通過分析所述通信報(bào)文的報(bào)文內(nèi)容,提取與所述通信報(bào)文相應(yīng)的特征向量的步驟,包括 針對(duì)所述通信報(bào)文提取相應(yīng)的變動(dòng)特征; 針對(duì)所述通信報(bào)文對(duì)應(yīng)的用戶標(biāo)識(shí),提取與所述通信報(bào)文相應(yīng)的固定特征; 所述變動(dòng)特征和固定特征組成所述通信報(bào)文的特征向量。
5.如權(quán)利要求I至4中任一項(xiàng)所述的方法,其特征在于,所述獲取通信報(bào)文的步驟,包括 對(duì)用戶與網(wǎng)絡(luò)間的通信報(bào)文進(jìn)行存儲(chǔ),并從相應(yīng)的存儲(chǔ)裝置中獲得通信報(bào)文;或 從通信網(wǎng)關(guān)獲得用戶與網(wǎng)絡(luò)間的通信報(bào)文。
6.如權(quán)利要求I至4中任一項(xiàng)所述的方法,其特征在于,還包括 依據(jù)該特征向量所屬的報(bào)文類別對(duì)相應(yīng)的通信報(bào)文進(jìn)行處理,所述處理包括記錄、存儲(chǔ)和丟棄處理中的一種或多種。
7.如權(quán)利要求I至4中任一項(xiàng)所述的方法,其特征在于,所述用戶行為類別包括用戶登錄行為、用戶搜索行為、用戶點(diǎn)擊行為、用戶展示行為中的一種或多種。
8.如權(quán)利要求I至4中任一項(xiàng)所述的方法,其特征在于,在對(duì)所述通信報(bào)文進(jìn)行特征提取,得到相應(yīng)的特征向量的步驟前,所述方法還包括 對(duì)所述通信報(bào)文進(jìn)行數(shù)據(jù)清洗; 所述對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量的步驟為,對(duì)數(shù)據(jù)清洗后的通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量。
9.一種報(bào)文分類器的訓(xùn)練方法,其特征在于,包括 獲取通信報(bào)文樣本; 對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量; 依據(jù)所述特征向量對(duì)與用戶行為類別相應(yīng)的通信報(bào)文樣本進(jìn)行訓(xùn)練,得到報(bào)文分類器。
10.如權(quán)利要求9所述的方法,其特征在于,所述對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟,包括通過分析所述通信報(bào)文樣本的報(bào)文結(jié)構(gòu)和報(bào)文內(nèi)容中一項(xiàng)或多項(xiàng),提取與所述通信報(bào)文樣本相應(yīng)的特征向量。
11.如權(quán)利要求10所述的方法,其特征在于,所述通過分析所述通信報(bào)文樣本的報(bào)文內(nèi)容,提取與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟,包括 對(duì)所述通信報(bào)文樣本的報(bào)文內(nèi)容進(jìn)行語義分詞處理,并依據(jù)語義分詞結(jié)果提取與所述通信報(bào)文樣本相應(yīng)的特征向量。
12.如權(quán)利要求10所述的方法,其特征在于,所述通過分析所述通信報(bào)文樣本的報(bào)文內(nèi)容,提取與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟,包括 針對(duì)所述通信報(bào)文樣本提取相應(yīng)的變動(dòng)特征; 針對(duì)所述通信報(bào)文樣本對(duì)應(yīng)的用戶標(biāo)識(shí),提取與所述通信報(bào)文樣本相應(yīng)的固定特征; 所述變動(dòng)特征和固定特征組成所述通信報(bào)文樣本的特征向量。
13.如權(quán)利要求9至12中任一項(xiàng)所述的方法,其特征在于,在對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟前,所述方法還包括 對(duì)所述通信報(bào)文樣本進(jìn)行數(shù)據(jù)清洗; 所述對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量的步驟為,對(duì)數(shù)據(jù)清洗后的通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量。
14.如權(quán)利要求9至12中任一項(xiàng)所述的方法,其特征在于,所述獲取通信報(bào)文樣本的步驟,包括 對(duì)用戶與網(wǎng)絡(luò)間的通信報(bào)文進(jìn)行存儲(chǔ),并從相應(yīng)的存儲(chǔ)裝置中獲得通信報(bào)文樣本;或 從通信網(wǎng)關(guān)獲得用戶與網(wǎng)絡(luò)間的通信報(bào)文樣本。
15.一種通信報(bào)文的分類裝置,其特征在于,包括 報(bào)文獲取模塊,用于獲取通信報(bào)文; 特征提取模塊,用于對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量;及 分類判別模塊,用于根據(jù)報(bào)文分類器判別該特征向量所屬的報(bào)文類別;其中,所述報(bào)文分類器為依據(jù)與用戶行為類別相應(yīng)的通信報(bào)文樣本所構(gòu)造的分類器。
16.一種報(bào)文分類器的訓(xùn)練裝置,其特征在于,包括 樣本獲取模塊,用于獲取通信報(bào)文樣本; 樣本特征提取模塊,用于對(duì)所述通信報(bào)文樣本進(jìn)行特征提取,得到與所述通信報(bào)文樣本相應(yīng)的特征向量;及 特征向量訓(xùn)練模塊,用于依據(jù)所述特征向量對(duì)與用戶行為類別相應(yīng)的通信報(bào)文樣本進(jìn)行訓(xùn)練,得到報(bào)文分類器。
全文摘要
本申請(qǐng)?zhí)峁┝艘环N通信報(bào)文的分類方法和裝置、一種報(bào)文分類器的訓(xùn)練方法和裝置,其中的通信報(bào)文的分類方法具體包括獲取通信報(bào)文;對(duì)所述通信報(bào)文進(jìn)行特征提取,得到與所述通信報(bào)文相應(yīng)的特征向量;根據(jù)報(bào)文分類器判別該特征向量所屬的報(bào)文類別;其中,所述報(bào)文分類器為依據(jù)與用戶行為類別相應(yīng)的通信報(bào)文樣本所構(gòu)造的分類器。本申請(qǐng)能夠提高通信報(bào)文分類的細(xì)粒度。
文檔編號(hào)H04L12/56GK102684997SQ20121011054
公開日2012年9月19日 申請(qǐng)日期2012年4月13日 優(yōu)先權(quán)日2012年4月13日
發(fā)明者李娜, 羅峰, 黃蘇支 申請(qǐng)人:億贊普(北京)科技有限公司