專利名稱:一種用戶特征信息的確定方法、裝置及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種用戶特征信息的確定方法、裝置及系統(tǒng)。
背景技術(shù):
目前針對于移動用戶使用用戶終端享有網(wǎng)絡(luò)服務(wù)行為的分析,主要包括基于用戶通信行為的分析和用戶消費(fèi)行為的分析,并根據(jù)兩者的分析結(jié)果確定用戶的特征信息。例如,基于通信行為的分析得到的分析結(jié)果可以包括通話時(shí)長、主叫時(shí)長、上行短信量、入網(wǎng)時(shí)長等,基于消費(fèi)行為的分析得到的分析結(jié)果可以包括總費(fèi)用、數(shù)據(jù)業(yè)務(wù)費(fèi)用、通話費(fèi)等。相應(yīng)的,基于這些分析結(jié)果確定出用戶的特征信息,例如,可以包括用戶消費(fèi)能力信息、用戶傾向的網(wǎng)絡(luò)服務(wù)類型信息、用戶享有網(wǎng)絡(luò)服務(wù)的趨勢等。在確定用戶特征信息的基礎(chǔ)上,可以基于用戶的這些特征信息,有針對性的進(jìn)行營銷。然而,隨著3G時(shí)代的到來,用戶可享有的網(wǎng)絡(luò)服務(wù)更加豐富,所以傳統(tǒng)的針對用 戶通信行為以及用戶消費(fèi)行為的分析,已經(jīng)不足以全面的反應(yīng)用戶的網(wǎng)絡(luò)行為習(xí)慣,從而所確定的用戶特征信息也不能夠全面的表征用戶的特征。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種用戶特征信息的確定方法、裝置及系統(tǒng),用以使得基于用戶網(wǎng)絡(luò)行為分析所確定的用戶特征信息更全面。本發(fā)明實(shí)施例提供一種用戶特征信息的確定方法,包括確定用戶使用用戶終端已訪問的網(wǎng)頁的統(tǒng)一資源定位符URL ;生成與確定的所述URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù);執(zhí)行生成的所述網(wǎng)絡(luò)爬蟲抓取任務(wù),抓取網(wǎng)頁的頁面內(nèi)容;對抓取的所述頁面內(nèi)容進(jìn)行分析,得到表征用戶網(wǎng)絡(luò)行為特征的第一類信息;根據(jù)得到的所述第一類信息,確定所述用戶的特征信息。本發(fā)明實(shí)施例還提供一種用戶特征信息的確定裝置,包括第一確定單元,用于確定用戶使用用戶終端已訪問的網(wǎng)頁的統(tǒng)一資源定位符URL ;生成單元,用于生成與確定的所述URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù);執(zhí)行單元,用于執(zhí)行生成的所述網(wǎng)絡(luò)爬蟲抓取任務(wù),抓取所述URL對應(yīng)網(wǎng)頁的頁面內(nèi)容;分析單元,用于對抓取的所述頁面內(nèi)容進(jìn)行分析,得到表征用戶網(wǎng)絡(luò)行為特征的
第一類信息;第二確定單元,用于根據(jù)得到的所述第一類信息,確定所述用戶的特征信息。本發(fā)明實(shí)施例提供的方法中,首先確定用戶使用用戶終端已訪問的網(wǎng)頁的統(tǒng)一資源定位符(URL, Uniform Resource Locator),并生成與確定的該URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù),執(zhí)行生成的該網(wǎng)絡(luò)爬蟲抓取任務(wù),抓取網(wǎng)頁的頁面內(nèi)容,并對抓取的頁面內(nèi)容進(jìn)行分析,得到表征用戶網(wǎng)絡(luò)行為特征的第一類信息,以及根據(jù)得到的該第一類信息,確定用戶的特征信息。由于上述方案中得到的表征用戶網(wǎng)絡(luò)行為特征的第一類信息,是通過對用戶已訪問網(wǎng)頁的頁面內(nèi)容的分析得到的,所以該第一類信息不同于現(xiàn)有技術(shù)通過對用戶通信行為和用戶消費(fèi)行為進(jìn)行分析得到的信息,所以,根據(jù)得到的該第一類信息所確定的用戶特征信息,也不同于現(xiàn)有技術(shù)中得到的用戶特征信息,因此,采用本發(fā)明實(shí)施例提供的方案,能夠使得基于用戶網(wǎng)絡(luò)行為分析所確定的用戶特征信息更全面。
圖I為本發(fā)明實(shí)施例提供的用戶特征信息的確定方法的流程圖;圖2為本發(fā)明實(shí)施例I中提供的用戶特征信息的確定方法的流程圖;圖3為本發(fā)明實(shí)施例2中提供的用戶特征信息的確定裝置的結(jié)構(gòu)示意圖;
圖4為本發(fā)明實(shí)施例3中提供的用戶特征信息的確定系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施例方式為了給出使得基于用戶網(wǎng)絡(luò)行為分析所確定的用戶特征信息更全面的實(shí)現(xiàn)方案,本發(fā)明實(shí)施例提供了一種用戶特征信息的確定方法、裝置及系統(tǒng),以下結(jié)合說明書附圖對本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。并且在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。本發(fā)明實(shí)施例提供一種用戶特征信息的確定方法,如圖I所示,包括步驟SIOI、確定用戶使用用戶終端已訪問的網(wǎng)頁的URL。步驟S102、生成與確定的該URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù)。步驟S103、執(zhí)行生成的該網(wǎng)絡(luò)爬蟲抓取任務(wù),抓取網(wǎng)頁的頁面內(nèi)容。步驟S104、對抓取的該頁面內(nèi)容進(jìn)行分析,得到表征用戶網(wǎng)絡(luò)行為特征的第一類信息。步驟S105、根據(jù)得到的該第一類信息,確定該用戶的特征信息。下面結(jié)合附圖,用具體實(shí)施例對本發(fā)明提供的方法及裝置和相應(yīng)系統(tǒng)進(jìn)行詳細(xì)描述。實(shí)施例I :本實(shí)施例I提供一種用戶特征信息的確定方法,如圖2所示,具體包括如下步驟步驟S201、用戶使用用戶終端能夠訪問網(wǎng)絡(luò),針對用戶訪問網(wǎng)絡(luò)的這一行為,本步驟中,確定出用戶使用用戶終端已訪問的網(wǎng)頁的URL。由于用戶終端在訪問網(wǎng)絡(luò)時(shí),將在網(wǎng)關(guān)留下用戶訪問日志文件,對于移動用戶,是在無線應(yīng)用協(xié)議(WAP, Wireless Application Protocol)網(wǎng)關(guān)留下用戶訪問日志文件,用戶訪問日志文件中則存在用戶信息及對應(yīng)用戶已訪問的網(wǎng)頁的URL,所以,本實(shí)施例具體可以采用如下方式首先獲取網(wǎng)關(guān)保存的用戶訪問日志文件,然后對獲取的該用戶訪問日志文件的內(nèi)容進(jìn)行分析,提取其中的用戶信息,并從該用戶訪問日志文件的內(nèi)容中,確定提取的該用戶信息對應(yīng)的用戶已訪問的網(wǎng)頁的URL。
步驟S202、本步驟對已確定出的用戶已訪問的網(wǎng)頁的URL進(jìn)行過濾處理,具體的過濾策略可根據(jù)實(shí)際需要進(jìn)行設(shè)置。例如,當(dāng)后續(xù)對抓取的頁面內(nèi)容進(jìn)行分析是進(jìn)行文本分析時(shí),則可在此設(shè)置過濾策略為保留本文類網(wǎng)頁對應(yīng)的URL,丟棄非文本類網(wǎng)頁的URL。較佳的,本實(shí)施例I中,在后續(xù)生成URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù)后,還可保存已對應(yīng)生成網(wǎng)絡(luò)爬蟲抓取任務(wù)的URL,并在本步驟的URL過濾處理中,保留未對應(yīng)生成過網(wǎng)絡(luò)爬蟲抓取任務(wù)的URL,丟棄已對應(yīng)生成過網(wǎng)絡(luò)爬蟲抓取任務(wù)的URL。但對于這類已對應(yīng)生成過網(wǎng)絡(luò)爬蟲抓取任務(wù)的URL,可直接獲取對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù)的執(zhí)行結(jié)果,以便進(jìn)行后續(xù)處理,或者也可以直接獲取針對該對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù)所得到的表征用戶網(wǎng)絡(luò)行為特征的第一類信息,或者所確定的用戶的特征信息。執(zhí)行本步驟S202的目的是為了后續(xù)有選擇的生成網(wǎng)絡(luò)爬蟲抓取任務(wù),以便提高本實(shí)施例I方案的處理效率,所以,本步驟S202為可選步驟,當(dāng)不執(zhí)行本步驟時(shí),可在執(zhí)行完上述步驟S201后直接進(jìn)入后續(xù)步驟S203。
步驟S203、在確定出用戶已訪問的網(wǎng)頁的URL后,即可對應(yīng)該用戶,生成與確定的該URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù)。如果方案中包括上述步驟S202中的過濾處理步驟,則相應(yīng)的,生成與過濾處理后保留的URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù),例如,生成與保留的文本類網(wǎng)頁對應(yīng)的URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù)。步驟S204、在生成網(wǎng)絡(luò)爬蟲抓取任務(wù)后,即可執(zhí)行生成的網(wǎng)絡(luò)爬蟲抓取任務(wù),抓取網(wǎng)頁的頁面內(nèi)容。目前現(xiàn)有技術(shù)中,分布式爬蟲系統(tǒng)多采用基于二級散列映射的任務(wù)分割調(diào)度策略,主要是基于均勻分配的策略進(jìn)行爬蟲任務(wù)的分配,沒有考慮爬蟲任務(wù)優(yōu)先級的影響和執(zhí)行爬蟲任務(wù)的爬蟲服務(wù)器的負(fù)載情況,從而使得爬蟲系統(tǒng)的爬蟲任務(wù)調(diào)度不合理,進(jìn)而導(dǎo)致整個(gè)爬蟲系統(tǒng)處理爬蟲任務(wù)的效率較低。本實(shí)施例I中,為解決這一問題,在上述步驟S203中生成網(wǎng)絡(luò)爬蟲抓取任務(wù)后,在本步驟S204中還確定生成的網(wǎng)絡(luò)爬蟲抓取任務(wù)的優(yōu)先級,具體可基于URL的頁面重要性指標(biāo)值、抓取頻率指標(biāo)值和頁面深度指標(biāo)值這三個(gè)指標(biāo)值之一,或三個(gè)指標(biāo)值中的任意組合,確定生成的該網(wǎng)絡(luò)爬蟲抓取任務(wù)的優(yōu)先級。優(yōu)先級設(shè)置策略為當(dāng)其它指標(biāo)值相同時(shí),頁面重要性指標(biāo)值越大,所設(shè)置的優(yōu)先級越高;當(dāng)其它指標(biāo)值相同時(shí),抓取頻率指標(biāo)值越大,所設(shè)置的優(yōu)先級越高;當(dāng)其它指標(biāo)值相同時(shí),頁面深度指標(biāo)值越小,所設(shè)置的優(yōu)先級越高。較佳的,具體可采用如下方式確定確定網(wǎng)絡(luò)爬蟲抓取任務(wù)的優(yōu)先級權(quán)重值為URL的頁面重要性評價(jià)因子、抓取頻率評價(jià)因子和頁面深度評價(jià)因子的負(fù)數(shù)中至少兩項(xiàng)的和值,優(yōu)先級權(quán)重值越大,該URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù)的優(yōu)先級越高;其中,頁面重要性評價(jià)因子采用如下公式計(jì)算
權(quán)利要求
1.一種用戶特征信息的確定方法,其特征在于,包括 確定用戶使用用戶終端已訪問的網(wǎng)頁的統(tǒng)一資源定位符URL ; 生成與確定的所述URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù); 執(zhí)行生成的所述網(wǎng)絡(luò)爬蟲抓取任務(wù),抓取網(wǎng)頁的頁面內(nèi)容; 對抓取的所述頁面內(nèi)容進(jìn)行分析,得到表征用戶網(wǎng)絡(luò)行為特征的第一類信息; 根據(jù)得到的所述第一類信息,確定所述用戶的特征信息。
2.如權(quán)利要求I所述的方法,其特征在于,根據(jù)得到的所述第一類信息,確定所述用戶的特征信息,具體包括 將得到的所述第一類信息,確定為所述用戶的特征信息;或者 將表征所述用戶的通信行為特征的第二類信息、表征所述用戶的消費(fèi)行為特征的第三類信息和所述用戶的身份信息中的至少一種信息,與得到的所述第一類信息相結(jié)合,確定所述用戶的特征信息。
3.如權(quán)利要求I所述的方法,其特征在于,對抓取的所述頁面內(nèi)容進(jìn)行分析,具體為 對抓取的所述頁面內(nèi)容進(jìn)行文本分析。
4.如權(quán)利要求3所述的方法,其特征在于,在生成與確定的所述URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù)前,還包括 對確定的所述URL進(jìn)行過濾,保留文本類網(wǎng)頁對應(yīng)的URL ; 生成與確定的所述URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù),具體為 生成與保留的文本類網(wǎng)頁對應(yīng)的URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù)。
5.如權(quán)利要求I所述的方法,其特征在于,確定用戶使用用戶終端已訪問的網(wǎng)頁的URL,具體包括 獲取網(wǎng)關(guān)保存的用戶訪問日志文件; 對所述用戶訪問日志文件的內(nèi)容進(jìn)行分析,提取用戶信息; 從所述用戶訪問日志文件的內(nèi)容中,確定所述用戶信息對應(yīng)的用戶已訪問的網(wǎng)頁的URL。
6.如權(quán)利要求I所述的方法,其特征在于,在生成與確定的所述URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù)后,還包括 基于所述URL的頁面重要性指標(biāo)值、抓取頻率指標(biāo)值和頁面深度指標(biāo)值中的至少一種指標(biāo)值,確定生成的所述網(wǎng)絡(luò)爬蟲抓取任務(wù)的優(yōu)先級; 執(zhí)行生成的所述網(wǎng)絡(luò)爬蟲抓取任務(wù),具體為 按照所述優(yōu)先級從高到低的順序,執(zhí)行生成的所述網(wǎng)絡(luò)爬蟲抓取任務(wù)。
7.如權(quán)利要求6所述的方法,其特征在于,基于所述URL的頁面重要性指標(biāo)值、抓取頻率指標(biāo)值和頁面深度指標(biāo)值中的至少一種指標(biāo)值,確定生成的所述網(wǎng)絡(luò)爬蟲抓取任務(wù)的優(yōu)先級,具體包括 確定所述網(wǎng)絡(luò)爬蟲抓取任務(wù)的優(yōu)先級權(quán)重值為所述URL的頁面重要性評價(jià)因子、抓取頻率評價(jià)因子和頁面深度評價(jià)因子的負(fù)數(shù)中至少兩項(xiàng)的和值,所述優(yōu)先級權(quán)重值越大,所述URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù)的優(yōu)先級越高; 其中,所述頁面重要性評價(jià)因子采用如下公式計(jì)算
8.如權(quán)利要求I所述的方法,其特征在于,執(zhí)行生成的所述網(wǎng)絡(luò)爬蟲抓取任務(wù),具體包括 采用如下公式計(jì)算用于執(zhí)行網(wǎng)絡(luò)爬蟲抓取任務(wù)的一爬蟲組服務(wù)器中各爬蟲服務(wù)器的調(diào)度參考值
9.一種用戶特征信息的確定裝置,其特征在于,包括 第一確定單元,用于確定用戶使用用戶終端已訪問的網(wǎng)頁的統(tǒng)一資源定位符URL ; 生成單元,用于生成與確定的所述URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù); 執(zhí)行單元,用于執(zhí)行生成的所述網(wǎng)絡(luò)爬蟲抓取任務(wù),抓取所述URL對應(yīng)網(wǎng)頁的頁面內(nèi)容; 分析單元,用于對抓取的所述頁面內(nèi)容進(jìn)行分析,得到表征用戶網(wǎng)絡(luò)行為特征的第一類信息; 第二確定單元,用于根據(jù)得到的所述第一類信息,確定所述用戶的特征信息。
10.如權(quán)利要求9所述的裝置,其特征在于,所述生成單元,還用于基于所述URL的頁面重要性指標(biāo)值、抓取頻率指標(biāo)值和頁面深度指標(biāo)值中的至少一種指標(biāo)值,確定生成的所述網(wǎng)絡(luò)爬蟲抓取任務(wù)的優(yōu)先級; 所述執(zhí)行單元,具體用于按照所述優(yōu)先級從高到低的順序,執(zhí)行生成的所述網(wǎng)絡(luò)爬蟲抓取任務(wù)。
11.如權(quán)利要求9所述的裝置,其特征在于,所述執(zhí)行單元,具體用于采用如下公式計(jì)算用于執(zhí)行網(wǎng)絡(luò)爬蟲抓取任務(wù)的一組爬蟲服務(wù)器中各爬蟲服務(wù)器的調(diào)度參考值,并從所述各爬蟲服務(wù)器中選擇所述調(diào)度參考值最小的爬蟲服務(wù)器,執(zhí)行當(dāng)前待分配的網(wǎng)絡(luò)爬蟲抓取任務(wù)Ss,=^c~s*Wsi,其中,Ssi為爬蟲服務(wù)器Si的調(diào)度參考值,Csi為爬蟲服務(wù)器Si執(zhí)行網(wǎng)絡(luò)爬蟲抓取任務(wù)的當(dāng)前連接數(shù),E Cs為各爬蟲服務(wù)器的當(dāng)前連接數(shù)的和值,Wsi為爬蟲服務(wù)器Ssi的當(dāng)前負(fù)載指標(biāo)值。
12.—種用戶特征信息的確定系統(tǒng),其特征在于,包括分析服務(wù)器和爬蟲服務(wù)器,其 中 分析服務(wù)器,用于確定用戶使用用戶終端已訪問的網(wǎng)頁的統(tǒng)一資源定位符URL;并生成與確定的所述URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù);以及對爬蟲服務(wù)器執(zhí)行所述網(wǎng)絡(luò)爬蟲抓取任務(wù)后抓取的頁面內(nèi)容進(jìn)行分析,得到表征用戶網(wǎng)絡(luò)行為特征的第一類信息;并根據(jù)得到的所述第一類信息,確定所述用戶的特征信息; 爬蟲服務(wù)器,用于執(zhí)行所述分析服務(wù)器生成的所述網(wǎng)絡(luò)爬蟲抓取任務(wù),抓取所述URL對應(yīng)網(wǎng)頁的所述頁面內(nèi)容。
13.如權(quán)利要求12所述的系統(tǒng),其特征在于,還包括 ETL調(diào)度中心,用于獲取網(wǎng)關(guān)保存的用戶訪問日志文件; 數(shù)據(jù)庫服務(wù)器,用于存儲所述ETL調(diào)度中心獲取的所述用戶訪問日志文件; 所述分析服務(wù)器,具體用于對所述數(shù)據(jù)庫服務(wù)器中存儲的所述用戶訪問日志文件的內(nèi)容進(jìn)行分析,提取用戶信息;并從所述用戶訪問日志文件的內(nèi)容中,確定所述用戶信息對應(yīng)的用戶已訪問的網(wǎng)頁的URL。
全文摘要
本發(fā)明公開了一種用戶特征信息的確定方法、裝置及系統(tǒng),包括確定用戶使用用戶終端已訪問的網(wǎng)頁的URL;并生成與確定的該URL對應(yīng)的網(wǎng)絡(luò)爬蟲抓取任務(wù);并執(zhí)行生成的該網(wǎng)絡(luò)爬蟲抓取任務(wù),抓取網(wǎng)頁的頁面內(nèi)容;并對抓取的該頁面內(nèi)容進(jìn)行分析,得到表征用戶網(wǎng)絡(luò)行為特征的第一類信息;以及根據(jù)得到的該第一類信息,確定該用戶的特征信息。采用本發(fā)明實(shí)施例提供的方案,使得基于用戶網(wǎng)絡(luò)行為分析所確定的用戶特征信息更全面。
文檔編號G06F17/30GK102855248SQ20111018025
公開日2013年1月2日 申請日期2011年6月29日 優(yōu)先權(quán)日2011年6月29日
發(fā)明者劉曉峰, 甘雯, 王濤, 羅鵬 申請人:中國移動通信集團(tuán)廣西有限公司