本發(fā)明屬于數(shù)據(jù)量化領(lǐng)域,特別涉及一種基于分類語料庫-關(guān)鍵詞詞頻-記錄關(guān)聯(lián)的網(wǎng)絡(luò)行為習慣量化方法,用于為研究網(wǎng)絡(luò)行為習慣規(guī)律提供準確可靠的量化方法,提高研究網(wǎng)絡(luò)行為習慣規(guī)律的準確性。
背景技術(shù):
掌握數(shù)據(jù)量化方法對于分析網(wǎng)絡(luò)行為習慣數(shù)據(jù)有重要的作用和意義,隨著互聯(lián)網(wǎng)的不斷普及,越來越多的人選擇通過網(wǎng)絡(luò)來獲取感興趣的信息,而網(wǎng)絡(luò)內(nèi)容有信息量大、復雜、重復率高和格式不統(tǒng)一的特點。量化這些上網(wǎng)記錄,可以提高研究網(wǎng)絡(luò)行為習慣規(guī)律結(jié)果的準確性。一般的量化方法有詞頻統(tǒng)計和數(shù)據(jù)關(guān)聯(lián)。
數(shù)據(jù)量化的相關(guān)論文有:李翼鴻. 基于瀏覽日志和瀏覽行為的用戶興趣模型研究. 上海交通大學碩士論文. 2008;李力沛. 基于改進用戶瀏覽行為量化分析的興趣網(wǎng)頁獲取. 電腦知識與技術(shù):學術(shù)交流. 2012(27): 6481-6482;朱征宇, 周智, 羅穎,等. 基于瀏覽行為量化分析的興趣網(wǎng)頁提取. 重慶工學院學報:自然科學版. 2009,Vol.23(7): 79-84);朱全銀等人已有的研究基礎(chǔ)包括:李翔, 朱全銀. 聯(lián)合聚類和評分矩陣共享的協(xié)同過濾推薦. 計算機科學與探索. 2014. Vol.8(6):751-759;Suqun Cao, Quanyin Zhu, Zhiwei Hou. Customer Segmentation Based on a Novel Hierarchical Clustering Algorithm. 2009, p:1-5;Quanyin Zhu,Sunqun Cao. A Novel Classifier-independent Feature Selection Algorithm for Imbalanced Datasets. 2009, p:77-82;Suqun Cao,Zhiwei Hou, Liuyang Wang, Quanyin Zhu. Kernelized Fuzzy Fisher Criterion based Clustering Algorithm. DCABES 2010, p:87-91;Quanyin Zhu, Yunyang Yan, Jin Ding, Jin Qian. The Case Study for Price Extracting of Mobile Phone Sell Online. 2011, p:282-285;Quanyin Zhu, Suqun Cao, Pei Zhou, Yunyang Yan, Hong Zhou. Integrated Price Forecast based on Dichotomy Backfilling and Disturbance Factor Algorithm. International Review on Computers and Software, 2011, Vol.6(6):1089-1093;Suqun Cao, Gelan Yang, Quanyin Zhu, Haihei Zhai. A novel feature extraction method for mechanical part recognition. Applied Mechanics and Materials, 2011, p:116-121;Pei Zhou, Quanyin Zhu. Multi-factor Matching Method for Basic Information of Science and Technology Experts Based on Web Mining. 2012, P:718-720;Jianping Deng, Fengwen Cao, Quanyin Zhu, Yu Zhang. The Web Data Extracting and Application for Shop Online Based on Commodities Classified. Communications in Computer and Information Science, Vol.234(4):120-128;Hui Zong, Quanyin Zhu, Ming Sun, Yahong Zhang. The case study for human resource management research based on web mining and semantic analysis. Applied Mechanics and Materials, Vol.488,2014 p:1336-1339;朱全銀等人申請、公開與授權(quán)的相關(guān)專利有:朱全銀, 胡蓉靜, 曹蘇群, 周培等. 一種基于線性插補與自適應(yīng)滑動窗口的商品價格預(yù)測方法. 中國專利:ZL 2011 1 0423015.5, 2015.07.01;朱全銀, 曹蘇群, 嚴云洋, 胡蓉靜等. 一種基于二分數(shù)據(jù)修補與擾動因子的商品價格預(yù)測方法. 中國專利:ZL 2011 1 0422274.6, 2013.01.02;朱全銀, 尹永華, 嚴云洋, 陳婷, 曹蘇群. 一種基于神經(jīng)網(wǎng)絡(luò)的多品種商品價格預(yù)測的數(shù)據(jù)預(yù)處理方法. 中國專利:ZL 2012 1 0325368.6, 2016.06.08;朱全銀, 潘祿, 劉文儒, 李翔, 周泓, 胡榮林, 丁瑾, 金鷹, 邵武杰, 唐海波. 一種科技新聞的增量學習多層次二分類方法. 中國專利公開號:CN 105205163A, 2015.12.30;朱全銀, 嚴云洋, 黃濤貽, 張亮, 張于洋, 辛誠. 一種校園個性化掌上服務(wù)及用戶行為習慣分析的實現(xiàn)方法. 中國專利公開號:CN 104731971A, 2015.06.24;朱全銀,沈恩強,錢亞平,周泓等. 一種基于K-means聚類多權(quán)重自適應(yīng)的學生學習行為分析方法. 中國專利申請?zhí)枺?01610222553.0, 2016.04.13;朱全銀,邵武杰,唐海波,周泓,李翔,胡榮林,金鷹,曹蘇群,潘舒新. 一種科學新聞標題的多層次多分類方法. 中國專利公開號:CN 105205163A, 2016.07.13;李翔,朱全銀,胡榮林,周泓. 一種基于譜聚類的冷鏈物流配載智能推薦方法. 中國專利公開號:CN 105654267A, 2016.06.08。
基于HowNet的VSM模型改進:
在經(jīng)典的VSM模型中,采用Bag Of Words的方式,即不考慮詞與詞之間的關(guān)聯(lián),詞是獨立的分析元素。這樣構(gòu)造出的向量必然存在數(shù)據(jù)稀疏問題,影響聚類效果。對于這個問題,國外的學者將WordNet等語義詞典的信息,擴展到VSM模型中,在英文文本聚類上取得了一定的成效。在中文文本聚類中,也有學者采用HowNet的義原信息來擴展VSM模型。在義原權(quán)值取值方面,通常考慮的義原的類別信息、已經(jīng)義原相關(guān)的關(guān)鍵詞的TF-IDF權(quán)重等。而在HowNet中,義原所處的深度越深,所代表語義信息就越具體;這些具體的義原應(yīng)當要具有比語義較空泛的義原具有更大的權(quán)重。
瀏覽行為量化分析(BAQA):
主要參與量化的瀏覽行為有瀏覽時間、鼠標點擊、頁面滾動、以及菜單操作,最后輔以用戶主動判定興趣網(wǎng)頁的操作。前四種行為的量化方法依據(jù)的公式為Vaction=(Anavigate-Amean×Baction) ×Maction (1)
其中,Vaction是某一行為的貢獻值,而Anavigate則是在某一網(wǎng)頁上的某一行為的統(tǒng)計值,Amean是用戶在某一行為上的平均統(tǒng)計值,Baction是該行為的貢獻基數(shù),Maction是該行為的獎勵因子。最終通過公式(2)量化用戶對某一網(wǎng)頁的興趣度。
V=∑Vaction+Vuser (2)
其中,Vaction代表瀏覽時間、 鼠標點擊、 頁面滾動及菜單操作四種瀏覽行為,如果用戶選擇主動判斷,則會給Vuser賦上很大的數(shù)值。
TF-IDF 方法:
TF-IDF(Term Frequency-Inverse Document Frequency)是一種統(tǒng)計方法,用以評估詞項對于文檔在整個語料庫中的貢獻。詞項的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF 詞頻是指某個詞或短語在一篇文章中出現(xiàn)的頻率,IDF 逆向文件頻率(inverse document frequency)是由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到。IDF 的主要思想是 :如果包含詞項t 的文檔越少,也就是 n 越小,IDF 越大,則說明詞項 t 具有很好的類別區(qū)分能力。特征權(quán)重對于文本自動分類有著至關(guān)重要的作用,其反映了特征能夠區(qū)分文本類別的能力大小。合理的特征權(quán)重算法可以提高文本之間的區(qū)分度。因此,權(quán)重對于文本自動分類有著重要作用。其中, TF-IDF 權(quán)重法是應(yīng)用比較廣泛的方法。
技術(shù)實現(xiàn)要素:
為了幫助研究人員處理人員的上網(wǎng)數(shù)據(jù),通過綜合分析上網(wǎng)記錄與分類語料庫的聯(lián)系,采用多層次的數(shù)據(jù)關(guān)聯(lián)和統(tǒng)計方法,設(shè)計實現(xiàn)了一種基于分類語料庫-關(guān)鍵詞詞頻-記錄關(guān)聯(lián)的網(wǎng)絡(luò)行為習慣量化方法,為研究網(wǎng)絡(luò)行為習慣規(guī)律提供準確可靠的量化模型。
為了便于理解本發(fā)明專利的理論基礎(chǔ),對本發(fā)明的理論與傳統(tǒng)理論的區(qū)別描述如下:
在數(shù)據(jù)量化方法中,傳統(tǒng)方法是對分詞處理后的記錄文本中所有關(guān)鍵詞統(tǒng)一編號,再統(tǒng)計詞頻,以此達到數(shù)據(jù)量化的目的。本發(fā)明專利在傳統(tǒng)方法的基礎(chǔ)上,以關(guān)鍵詞為中間值,將人員上網(wǎng)瀏覽記錄與關(guān)鍵詞的分類標簽-頻數(shù)相關(guān)聯(lián),以此達到網(wǎng)絡(luò)行為習慣數(shù)據(jù)量化的目的。
本發(fā)明的技術(shù)方案是:利用搜狗實驗室的互聯(lián)網(wǎng)分類語料庫(SogouT)和全體人員上網(wǎng)記錄,結(jié)合數(shù)據(jù)關(guān)聯(lián)和統(tǒng)計方法,先對搜狗語料庫中語料-分類標簽集和全體人員上網(wǎng)記錄集進行預(yù)處理和頻數(shù)統(tǒng)計,存儲分類標簽-關(guān)鍵詞-詞頻集的計算中間結(jié)果,之后將人員的分類-標簽集與中間結(jié)果進行數(shù)據(jù)關(guān)聯(lián)和統(tǒng)計,以此完成對人員網(wǎng)絡(luò)行為習慣的量化;其中,包含語料庫處理流程步驟A和關(guān)鍵詞關(guān)聯(lián)記錄流程步驟B:
語料庫處理流程步驟A從步驟A1到步驟A12:
步驟A1:設(shè)從搜狗實驗室獲取語料集CORP={CORP1, CORP2, …, CORPCORPN},設(shè)語料集總數(shù)為CORPN,設(shè)分類標簽集為LABEL={LABEL1,LABEL2,…,LABELLABELN},設(shè)分類標簽總數(shù)為LABELN,設(shè)語料-分類標簽集為CORPLAB={(CORPa1,LABELb1),(CORPa2,LABELb2),…,(CORPam,LABELbm)},設(shè)停用詞集為STOPWORD={STOPWORD1,STOPWORD2,…,STOPWORDa},設(shè)全體人員上網(wǎng)記錄集為RECORD={(RSTUrs1,RKEYrk1),(RSTUrs2,RKEYrk2),…,(RSTUrsf,RKEYrkf)},其中,RSTUrs1、…、RSTUrsf代表單個人員的唯一標識,RKEYrk1、…、RKEYrkf代表關(guān)鍵詞,設(shè)全體人員上網(wǎng)記錄總數(shù)為RECORDN;
步驟A2:設(shè)全局關(guān)鍵詞集為KEY,設(shè)全局關(guān)鍵詞總數(shù)為KEYN,設(shè)全局分類標簽-關(guān)鍵詞-詞頻集為CATEKEYF,設(shè)人員唯一標識集為STUID,設(shè)人員總數(shù)為STUIDN,設(shè)全體人員的分類標簽-頻數(shù)集為GSTUCATEF,設(shè)單個語料的關(guān)鍵詞集為corpskey,設(shè)單個語料的關(guān)鍵詞總數(shù)為corpskeyn,設(shè)單個語料的分類標簽-關(guān)鍵詞-詞頻集為skeyf,設(shè)單個人員的關(guān)鍵詞集為stuskey,設(shè)單個人員的關(guān)鍵詞總數(shù)為stuskeyn,設(shè)單個關(guān)鍵詞的分類標簽-詞頻集為keycatef,設(shè)單個人員的分類標簽-頻數(shù)集為stucatef;
步驟A3:設(shè)語料集CORP當前語料的循環(huán)下標變量為i,當前語料對應(yīng)的分類標簽為label,其中,CORP是步驟A1中從搜狗實驗室獲取的語料集,并且循環(huán)下標變量滿足i<=CORPN;
步驟A4:從步驟A1中的語料與分類標簽關(guān)系集中篩選出包含CORPi的分類標簽集合,即,,其中,CORPi的下標來自步驟A3中的循環(huán)下標變量i,label來自步驟A3中當前語料CORPi對應(yīng)的分類標簽;
步驟A5:利用步驟A1中停用詞集STOPWORD={STOPWORD1, STOPWORD2, …, STOPWORDa},對步驟A3中的語料CORPi分詞,形成語料CORPi的關(guān)鍵詞集corpskey={corpskey1, corpskey2, …, corpskeyb};
步驟A6:將步驟A5中生成的關(guān)鍵詞集corpskey中的停用詞去除,即,corpskey=corpskey-STOPWORD={corpskeys1, corpskeys2, …, corpskeysb};
步驟A7:更新步驟A2中的全局關(guān)鍵詞集KEY,將步驟A6處理得出的corpskey與全局關(guān)鍵詞集KEY進行并集運算,即,KEY=KEY∪corpskey={KEY1, KEY2, …, KEYc},再根據(jù)corpskey包含的關(guān)鍵詞數(shù)量corpskeyn更新步驟A2中的全局關(guān)鍵詞總數(shù)KEYN,即,KEYN=KEYN+corpskeyn;
步驟A8:設(shè)步驟A3中的語料CORPi的分類標簽-關(guān)鍵詞-詞頻集為skeyf,統(tǒng)計語料CORPi的關(guān)鍵詞集corpskey中關(guān)鍵詞的詞頻,其中,設(shè)fk1, fk2, …, fkd為關(guān)鍵詞在語料中出現(xiàn)的次數(shù),并將結(jié)果按照分類標簽-關(guān)鍵詞-關(guān)鍵詞詞頻的格式添加到分類標簽-關(guān)鍵詞-詞頻集skeyf中,即,skeyf={(label, KEY1, fk1), (label, KEY2, fk2),… ,(label, KEYd, fkd)};
步驟A9:更新全局分類標簽-關(guān)鍵詞-詞頻集,即,CATEKEYF=CATEKEYF∪skeyf={(LABELl1, KEYck1, ff1), (LABELl2, KEYck2, ff2), …, (LABELle, KEYcke, ffe)},其中,全局分類標簽-關(guān)鍵詞-詞頻集CATEKEYF來自步驟A2;
步驟A10:當步驟A3中的循環(huán)變量i大于全部語料集個數(shù)CORPN時,則執(zhí)行步驟A11,否則,循環(huán)變量i的值增加1,即,i=i+1,執(zhí)行步驟A4到步驟A9;
步驟A11:執(zhí)行步驟B;
步驟A12:返回全體人員的分類標簽-頻數(shù)集,即,GSTUCATEF={(STUID1, {(LABEL1, fkl1,1),(LABEL2, fkl1,2), …, (LABELo, fkl1,o)}),(STUID2, {(LABEL1, fkl2,1), (LABEL2, fkl2,2), …, (LABELo, fkl2,o)}), …, (STUIDg, {(LABEL1, fklg,1), (LABEL2, fklg,2), …, (LABELo, fklg,o)})};
關(guān)鍵詞關(guān)聯(lián)記錄流程步驟B從步驟B1到步驟B9:
步驟B1:從全體人員上網(wǎng)記錄集RECORD中提取出當前人員唯一標識集STUID,并計算出人員總數(shù)STUIDN,即,STUID=Π1(RECORD) ={STUID1,STUID2,…,STUIDg};
步驟B2:設(shè)當前人員標識的下標循環(huán)變量為j,j<=STUIDN,其中,全體人員上網(wǎng)記錄總數(shù)STUIDN來自步驟B1;
步驟B3:設(shè)當前人員標識STUIDj對應(yīng)的關(guān)鍵詞集為stuskey,并統(tǒng)計人員STUIDj的關(guān)鍵詞總數(shù)stuskeyn,即,{stuskey1, stuskey2, …, stuskeyh},其中,j是步驟B2中的循環(huán)變量;
步驟B4:設(shè)當前關(guān)鍵詞的下標循環(huán)變量為k,即,k<=stuskeyn,其中,stuskeyn 是步驟B3中當前人員標識STUIDj對應(yīng)的stuskey所包含的關(guān)鍵詞總數(shù);
步驟B5:從步驟B1中的全局分類標簽-關(guān)鍵詞-詞頻集CATEKEYF中篩選出關(guān)鍵詞stuskeyk的分類標簽-詞頻集keycatef,即, ={(LABEL1, fkl1), (LABEL2, fkl2), …, (LABELo, fklo)},其中,LABEL1 , LABEL2 , …, LABELo代表分類標簽,fkl1, fkl2 , …, fklo分別代表標簽LABEL1 , LABEL2 , …, LABELo所對應(yīng)的頻數(shù);
步驟B6:疊加關(guān)鍵詞的分類標簽-詞頻記錄keycatef中相同LABEL分類標簽的詞頻,然后更新人員STUIDj的分類標簽-頻數(shù)記錄,即,fgkl1=fgkl1+fkl1, fgkl2=fgkl2+fkl2, …, fgklo=fgklo+fklo, stucatef={(LABEL1, fgkl1), (LABEL2, fgkl2), …, (LABELo, fgklo)},其中,LABEL∈{LABEL1 , LABEL2 , …, LABELo};
步驟B7:當步驟B4中的循環(huán)變量k大于步驟B3中的當前人員標識STUIDj對應(yīng)的stuskey所包含的關(guān)鍵詞總數(shù)stuskeyn時,執(zhí)行步驟B8,否則,循環(huán)變量k增加1,使k=k+1,執(zhí)行步驟B5到步驟B6;
步驟B8:更新全體人員的分類標簽-頻數(shù)集GSTUCATEF,將GSTUCATEF與步驟B3中的STUIDj和步驟B5中的keycatef形成的元組做并集運算,即,GSTUCATEF=GSTUCATEF∪{(STUIDj, stucatef)}={(STUID1, {(LABEL1, fkl1,1),(LABEL2, fkl1,2), …, (LABELo, fkl1,o)}),(STUID2, {(LABEL1, fkl2,1), (LABEL2, fkl2,2), …, (LABELo, fkl2,o)}), …, (STUIDg, {(LABEL1, fklg,1), (LABEL2, fklg,2), …, (LABELo, fklg,o)})},其中,GSTUCATEF來自步驟B1;
步驟B9:當步驟B2中的循環(huán)變量j大于步驟B1中的人員總數(shù)STUIDN時,執(zhí)行步驟A12,否則,循環(huán)變量j的值增加1,即,j=j+1,執(zhí)行步驟B3到步驟B8。
其中,CORP由文本組成,并以文件的形式存在,分類標簽集LABEL是CORP所有所屬分類的集合,CORPLAB描述了CORP集合中的元素與LABEL集合中的元素的對應(yīng)關(guān)系。
其中,關(guān)聯(lián)數(shù)據(jù)是指將全體人員上網(wǎng)記錄提取出關(guān)鍵詞,將關(guān)鍵詞與搜狗實驗室的互聯(lián)網(wǎng)分類語料庫中的關(guān)鍵詞相關(guān)聯(lián),統(tǒng)計數(shù)據(jù)是指首先統(tǒng)計搜狗實驗室的互聯(lián)網(wǎng)分類語料庫中的關(guān)鍵詞在不同分類標簽中出現(xiàn)的頻數(shù),再統(tǒng)計關(guān)聯(lián)后的全體人員上網(wǎng)記錄中相同分類標簽的頻數(shù)。
其中,步驟A8到步驟A9統(tǒng)計語料的關(guān)鍵詞詞頻并確定關(guān)鍵詞的標簽,更新步驟A2中的全局分類標簽-關(guān)鍵詞-詞頻集CATEKEYF;步驟B5到步驟B6是從步驟A2中的全局分類標簽-關(guān)鍵詞-詞頻集CATEKEYF篩選出分類標簽-頻數(shù)集,再根據(jù)相同的分類標簽疊加頻數(shù);步驟B8是根據(jù)步驟B5到步驟B6生成的分類標簽-頻數(shù)集,更新步驟A2中的全體人員的分類標簽-頻數(shù)集GSTUCATEF。
本發(fā)明創(chuàng)造性的提出的一種基于分類語料庫-關(guān)鍵詞詞頻-記錄關(guān)聯(lián)的網(wǎng)絡(luò)行為習慣量化方法,通過多層次的數(shù)據(jù)關(guān)聯(lián),區(qū)分、降低量化過程中的不確定性,達到提高數(shù)據(jù)量化的準確性、可靠性的目的。
本發(fā)明提出的一種基于分類語料庫-關(guān)鍵詞詞頻-記錄關(guān)聯(lián)的網(wǎng)絡(luò)行為習慣量化方法可以作為聚類算法的預(yù)處理過程,也可以作為有監(jiān)督的機器學習算法的樣本訓練流程。
附圖說明
附圖1為語料庫處理流程。
附圖2為關(guān)鍵詞關(guān)聯(lián)記錄流程。
具體實施方式
如附圖1,語料庫處理流程步驟A從步驟A1到步驟A12:
步驟A1:設(shè)從搜狗實驗室獲取語料集CORP={CORP1, CORP2, …, CORPCORPN},設(shè)語料集總數(shù)為CORPN,設(shè)分類標簽集為LABEL={LABEL1,LABEL2,…,LABELLABELN},設(shè)分類標簽總數(shù)為LABELN,設(shè)語料-分類標簽集為CORPLAB={(CORPa1,LABELb1),(CORPa2,LABELb2),…,(CORPam,LABELbm)},設(shè)停用詞集為STOPWORD={STOPWORD1,STOPWORD2,…,STOPWORDa},設(shè)全體人員上網(wǎng)記錄集為RECORD={(RSTUrs1,RKEYrk1),(RSTUrs2,RKEYrk2),…,(RSTUrsf,RKEYrkf)},其中,RSTUrs1、…、RSTUrsf代表單個人員的唯一標識,RKEYrk1、…、RKEYrkf代表關(guān)鍵詞,設(shè)全體人員上網(wǎng)記錄總數(shù)為RECORDN;
步驟A2:設(shè)全局關(guān)鍵詞集為KEY,設(shè)全局關(guān)鍵詞總數(shù)為KEYN,設(shè)全局分類標簽-關(guān)鍵詞-詞頻集為CATEKEYF,設(shè)人員唯一標識集為STUID,設(shè)人員總數(shù)為STUIDN,設(shè)全體人員的分類標簽-頻數(shù)集為GSTUCATEF,設(shè)單個語料的關(guān)鍵詞集為corpskey,設(shè)單個語料的關(guān)鍵詞總數(shù)為corpskeyn,設(shè)單個語料的分類標簽-關(guān)鍵詞-詞頻集為skeyf,設(shè)單個人員的關(guān)鍵詞集為stuskey,設(shè)單個人員的關(guān)鍵詞總數(shù)為stuskeyn,設(shè)單個關(guān)鍵詞的分類標簽-詞頻集為keycatef,設(shè)單個人員的分類標簽-頻數(shù)集為stucatef;
步驟A3:設(shè)語料集CORP當前語料的循環(huán)下標變量為i,當前語料對應(yīng)的分類標簽為label,其中,CORP是步驟A1中從搜狗實驗室獲取的語料集,并且循環(huán)下標變量滿足i<=CORPN;
步驟A4:從步驟A1中的語料與分類標簽關(guān)系集中篩選出包含CORPi的分類標簽集合,即,,其中,CORPi的下標來自步驟A3中的循環(huán)下標變量i,label來自步驟A3中當前語料CORPi對應(yīng)的分類標簽;
步驟A5:利用步驟A1中停用詞集STOPWORD={STOPWORD1, STOPWORD2, …, STOPWORDa},對步驟A3中的語料CORPi分詞,形成語料CORPi的關(guān)鍵詞集corpskey={corpskey1, corpskey2, …, corpskeyb};
步驟A6:將步驟A5中生成的關(guān)鍵詞集corpskey中的停用詞去除,即,corpskey=corpskey-STOPWORD={corpskeys1, corpskeys2, …, corpskeysb};
步驟A7:更新步驟A2中的全局關(guān)鍵詞集KEY,將步驟A6處理得出的corpskey與全局關(guān)鍵詞集KEY進行并集運算,即,KEY=KEY∪corpskey={KEY1, KEY2, …, KEYc},再根據(jù)corpskey包含的關(guān)鍵詞數(shù)量corpskeyn更新步驟A2中的全局關(guān)鍵詞總數(shù)KEYN,即,KEYN=KEYN+corpskeyn;
步驟A8:設(shè)步驟A3中的語料CORPi的分類標簽-關(guān)鍵詞-詞頻集為skeyf,統(tǒng)計語料CORPi的關(guān)鍵詞集corpskey中關(guān)鍵詞的詞頻,其中,設(shè)fk1, fk2, …, fkd為關(guān)鍵詞在語料中出現(xiàn)的次數(shù),并將結(jié)果按照分類標簽-關(guān)鍵詞-關(guān)鍵詞詞頻的格式添加到分類標簽-關(guān)鍵詞-詞頻集skeyf中,即,skeyf={(label, KEY1, fk1), (label, KEY2, fk2),… ,(label, KEYd, fkd)};
步驟A9:更新全局分類標簽-關(guān)鍵詞-詞頻集,即,CATEKEYF=CATEKEYF∪skeyf={(LABELl1, KEYck1, ff1), (LABELl2, KEYck2, ff2), …, (LABELle, KEYcke, ffe)},其中,全局分類標簽-關(guān)鍵詞-詞頻集CATEKEYF來自步驟A2;
步驟A10:當步驟A3中的循環(huán)變量i大于全部語料集個數(shù)CORPN時,則執(zhí)行步驟A11,否則,循環(huán)變量i的值增加1,即,i=i+1,執(zhí)行步驟A4到步驟A9;
步驟A11:執(zhí)行步驟B;
步驟A12:返回全體人員的分類標簽-頻數(shù)集,即,GSTUCATEF={(STUID1, {(LABEL1, fkl1,1),(LABEL2, fkl1,2), …, (LABELo, fkl1,o)}),(STUID2, {(LABEL1, fkl2,1), (LABEL2, fkl2,2), …, (LABELo, fkl2,o)}), …, (STUIDg, {(LABEL1, fklg,1), (LABEL2, fklg,2), …, (LABELo, fklg,o)})};
如附圖2,關(guān)鍵詞關(guān)聯(lián)記錄流程步驟B從步驟B1到步驟B9:
步驟B1:從全體人員上網(wǎng)記錄集RECORD中提取出當前人員唯一標識集STUID,并計算出人員總數(shù)STUIDN,即,STUID=Π1(RECORD) ={STUID1,STUID2,…,STUIDg};
步驟B2:設(shè)當前人員標識的下標循環(huán)變量為j,j<=STUIDN,其中,全體人員上網(wǎng)記錄總數(shù)STUIDN來自步驟B1;
步驟B3:設(shè)當前人員標識STUIDj對應(yīng)的關(guān)鍵詞集為stuskey,并統(tǒng)計人員STUIDj的關(guān)鍵詞總數(shù)stuskeyn,即,{stuskey1, stuskey2, …, stuskeyh},其中,j是步驟B2中的循環(huán)變量;
步驟B4:設(shè)當前關(guān)鍵詞的下標循環(huán)變量為k,即,k<=stuskeyn,其中,stuskeyn 是步驟B3中當前人員標識STUIDj對應(yīng)的stuskey所包含的關(guān)鍵詞總數(shù);
步驟B5:從步驟B1中的全局分類標簽-關(guān)鍵詞-詞頻集CATEKEYF中篩選出關(guān)鍵詞stuskeyk的分類標簽-詞頻集keycatef,即, ={(LABEL1, fkl1), (LABEL2, fkl2), …, (LABELo, fklo)},其中,LABEL1 , LABEL2 , …, LABELo代表分類標簽,fkl1, fkl2 , …, fklo分別代表標簽LABEL1 , LABEL2 , …, LABELo所對應(yīng)的頻數(shù);
步驟B6:疊加關(guān)鍵詞的分類標簽-詞頻記錄keycatef中相同LABEL分類標簽的詞頻,然后更新人員STUIDj的分類標簽-頻數(shù)記錄,即,fgkl1=fgkl1+fkl1, fgkl2=fgkl2+fkl2, …, fgklo=fgklo+fklo, stucatef={(LABEL1, fgkl1), (LABEL2, fgkl2), …, (LABELo, fgklo)},其中,LABEL∈{LABEL1 , LABEL2 , …, LABELo};
步驟B7:當步驟B4中的循環(huán)變量k大于步驟B3中的當前人員標識STUIDj對應(yīng)的stuskey所包含的關(guān)鍵詞總數(shù)stuskeyn時,執(zhí)行步驟B8,否則,循環(huán)變量k增加1,使k=k+1,執(zhí)行步驟B5到步驟B6;
步驟B8:更新全體人員的分類標簽-頻數(shù)集GSTUCATEF,將GSTUCATEF與步驟B3中的STUIDj和步驟B5中的keycatef形成的元組做并集運算,即,GSTUCATEF=GSTUCATEF∪{(STUIDj, stucatef)}={(STUID1, {(LABEL1, fkl1,1),(LABEL2, fkl1,2), …, (LABELo, fkl1,o)}),(STUID2, {(LABEL1, fkl2,1), (LABEL2, fkl2,2), …, (LABELo, fkl2,o)}), …, (STUIDg, {(LABEL1, fklg,1), (LABEL2, fklg,2), …, (LABELo, fklg,o)})},其中,GSTUCATEF來自步驟B1;
步驟B9:當步驟B2中的循環(huán)變量j大于步驟B1中的人員總數(shù)STUIDN時,執(zhí)行步驟A12,否則,循環(huán)變量j的值增加1,即,j=j+1,執(zhí)行步驟B3到步驟B8。
其中,CORP由文本組成,并以文件的形式存在,分類標簽集LABEL是CORP所有所屬分類的集合,CORPLAB描述了CORP集合中的元素與LABEL集合中的元素的對應(yīng)關(guān)系。
其中,關(guān)聯(lián)數(shù)據(jù)是指將全體人員上網(wǎng)記錄提取出關(guān)鍵詞,將關(guān)鍵詞與搜狗實驗室的互聯(lián)網(wǎng)分類語料庫中的關(guān)鍵詞相關(guān)聯(lián),統(tǒng)計數(shù)據(jù)是指首先統(tǒng)計搜狗實驗室的互聯(lián)網(wǎng)分類語料庫中的關(guān)鍵詞在不同分類標簽中出現(xiàn)的頻數(shù),再統(tǒng)計關(guān)聯(lián)后的全體人員上網(wǎng)記錄中相同分類標簽的頻數(shù)。
其中,步驟A8到步驟A9統(tǒng)計語料的關(guān)鍵詞詞頻并確定關(guān)鍵詞的標簽,更新步驟A2中的全局分類標簽-關(guān)鍵詞-詞頻集CATEKEYF;步驟B5到步驟B6是從步驟A2中的全局分類標簽-關(guān)鍵詞-詞頻集CATEKEYF篩選出分類標簽-頻數(shù)集,再根據(jù)相同的分類標簽疊加頻數(shù);步驟B8是根據(jù)步驟B5到步驟B6生成的分類標簽-頻數(shù)集,更新步驟A2中的全體人員的分類標簽-頻數(shù)集GSTUCATEF。
為了更好地說明本方法的有效性,從搜狗實驗室獲取的互聯(lián)網(wǎng)分類語料庫(SogouT),共10個分類,每個分類下有8000個文件;再加上學生三千多萬條上網(wǎng)記錄數(shù)據(jù)作為測試數(shù)據(jù),其中,每條記錄包括上網(wǎng)時間、學生唯一標識、瀏覽的網(wǎng)頁的標題。將語料庫中的每一個語料分詞、計算詞頻、確定分類后,形成122428條關(guān)鍵詞-分類標簽-詞頻數(shù)據(jù)。將學生上網(wǎng)記錄數(shù)據(jù)中的瀏覽網(wǎng)頁的標題進行分詞操作,之后再將分詞之后形成的關(guān)鍵詞與關(guān)鍵詞-分類標簽-詞頻數(shù)據(jù)關(guān)聯(lián),最終形成全體學生的分類標簽-頻數(shù)集合。
傳統(tǒng)的K-means聚類需要計算記錄與中心點之間的距離,通過本方法對初始數(shù)據(jù)進行量化,可以滿足K-means聚類的需求。通過對5153個學生的上網(wǎng)瀏覽數(shù)據(jù)使用本方法進行量化,再使用K-means算法聚類,然后將同樣的數(shù)據(jù)使用LDA文檔主題提取模型來聚類,以此驗證K-means聚類效果。最終能夠確定4574人的分類,占總數(shù)的88.76%。
本發(fā)明創(chuàng)造性的提出了一種基于分類語料庫-關(guān)鍵詞詞頻-記錄關(guān)聯(lián)的網(wǎng)絡(luò)行為習慣量化方法,通過多層次的數(shù)據(jù)關(guān)聯(lián),區(qū)分、降低量化過程中的不確定性,達到提高數(shù)據(jù)量化的準確性、可靠性的目的。
本發(fā)明可與計算機系統(tǒng)結(jié)合,從而自動完成人員上網(wǎng)瀏覽記錄與關(guān)鍵詞的量化。
本發(fā)明提出的一種基于分類語料庫-關(guān)鍵詞詞頻-記錄關(guān)聯(lián)的網(wǎng)絡(luò)行為習慣量化方法可以作為聚類算法的預(yù)處理過程,也可以作為有監(jiān)督的機器學習算法的樣本訓練流程。