亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于分類語(yǔ)料庫(kù)?關(guān)鍵詞詞頻?記錄關(guān)聯(lián)的網(wǎng)絡(luò)行為習(xí)慣量化方法與流程

文檔序號(hào):11950802閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.一種基于分類語(yǔ)料庫(kù)-關(guān)鍵詞詞頻-記錄關(guān)聯(lián)的網(wǎng)絡(luò)行為習(xí)慣量化方法,其特征在于利用搜狗實(shí)驗(yàn)室的互聯(lián)網(wǎng)分類語(yǔ)料庫(kù)(SogouT)和全體人員上網(wǎng)記錄,結(jié)合數(shù)據(jù)關(guān)聯(lián)和統(tǒng)計(jì)方法,先對(duì)搜狗語(yǔ)料庫(kù)中語(yǔ)料-分類標(biāo)簽集和全體人員上網(wǎng)記錄集進(jìn)行預(yù)處理和頻數(shù)統(tǒng)計(jì),存儲(chǔ)分類標(biāo)簽-關(guān)鍵詞-詞頻集的計(jì)算中間結(jié)果,之后將人員的分類-標(biāo)簽集與中間結(jié)果進(jìn)行數(shù)據(jù)關(guān)聯(lián)和統(tǒng)計(jì),以此完成對(duì)人員網(wǎng)絡(luò)行為習(xí)慣的量化;其中,包含語(yǔ)料庫(kù)處理流程步驟A和關(guān)鍵詞關(guān)聯(lián)記錄流程步驟B:

語(yǔ)料庫(kù)處理流程步驟A從步驟A1到步驟A12:

步驟A1:設(shè)從搜狗實(shí)驗(yàn)室獲取語(yǔ)料集CORP={CORP1, CORP2, …, CORPCORPN},設(shè)語(yǔ)料集總數(shù)為CORPN,設(shè)分類標(biāo)簽集為L(zhǎng)ABEL={LABEL1,LABEL2,…,LABELLABELN},設(shè)分類標(biāo)簽總數(shù)為L(zhǎng)ABELN,設(shè)語(yǔ)料-分類標(biāo)簽集為CORPLAB={(CORPa1,LABELb1),(CORPa2,LABELb2),…,(CORPam,LABELbm)},設(shè)停用詞集為STOPWORD={STOPWORD1,STOPWORD2,…,STOPWORDa},設(shè)全體人員上網(wǎng)記錄集為RECORD={(RSTUrs1,RKEYrk1),(RSTUrs2,RKEYrk2),…,(RSTUrsf,RKEYrkf)},其中,RSTUrs1、…、RSTUrsf代表單個(gè)人員的唯一標(biāo)識(shí),RKEYrk1、…、RKEYrkf代表關(guān)鍵詞,設(shè)全體人員上網(wǎng)記錄總數(shù)為RECORDN;

步驟A2:設(shè)全局關(guān)鍵詞集為KEY,設(shè)全局關(guān)鍵詞總數(shù)為KEYN,設(shè)全局分類標(biāo)簽-關(guān)鍵詞-詞頻集為CATEKEYF,設(shè)人員唯一標(biāo)識(shí)集為STUID,設(shè)人員總數(shù)為STUIDN,設(shè)全體人員的分類標(biāo)簽-頻數(shù)集為GSTUCATEF,設(shè)單個(gè)語(yǔ)料的關(guān)鍵詞集為corpskey,設(shè)單個(gè)語(yǔ)料的關(guān)鍵詞總數(shù)為corpskeyn,設(shè)單個(gè)語(yǔ)料的分類標(biāo)簽-關(guān)鍵詞-詞頻集為skeyf,設(shè)單個(gè)人員的關(guān)鍵詞集為stuskey,設(shè)單個(gè)人員的關(guān)鍵詞總數(shù)為stuskeyn,設(shè)單個(gè)關(guān)鍵詞的分類標(biāo)簽-詞頻集為keycatef,設(shè)單個(gè)人員的分類標(biāo)簽-頻數(shù)集為stucatef;

步驟A3:設(shè)語(yǔ)料集CORP當(dāng)前語(yǔ)料的循環(huán)下標(biāo)變量為i,當(dāng)前語(yǔ)料對(duì)應(yīng)的分類標(biāo)簽為label,其中,CORP是步驟A1中從搜狗實(shí)驗(yàn)室獲取的語(yǔ)料集,并且循環(huán)下標(biāo)變量滿足i<=CORPN;

步驟A4:從步驟A1中的語(yǔ)料與分類標(biāo)簽關(guān)系集中篩選出包含CORPi的分類標(biāo)簽集合,即,,其中,CORPi的下標(biāo)來(lái)自步驟A3中的循環(huán)下標(biāo)變量i,label來(lái)自步驟A3中當(dāng)前語(yǔ)料CORPi對(duì)應(yīng)的分類標(biāo)簽;

步驟A5:利用步驟A1中停用詞集STOPWORD={STOPWORD1, STOPWORD2, …, STOPWORDa},對(duì)步驟A3中的語(yǔ)料CORPi分詞,形成語(yǔ)料CORPi的關(guān)鍵詞集corpskey={corpskey1, corpskey2, …, corpskeyb};

步驟A6:將步驟A5中生成的關(guān)鍵詞集corpskey中的停用詞去除,即,corpskey=corpskey-STOPWORD={corpskeys1, corpskeys2, …, corpskeysb};

步驟A7:更新步驟A2中的全局關(guān)鍵詞集KEY,將步驟A6處理得出的corpskey與全局關(guān)鍵詞集KEY進(jìn)行并集運(yùn)算,即,KEY=KEY∪corpskey={KEY1, KEY2, …, KEYc},再根據(jù)corpskey包含的關(guān)鍵詞數(shù)量corpskeyn更新步驟A2中的全局關(guān)鍵詞總數(shù)KEYN,即,KEYN=KEYN+corpskeyn;

步驟A8:設(shè)步驟A3中的語(yǔ)料CORPi的分類標(biāo)簽-關(guān)鍵詞-詞頻集為skeyf,統(tǒng)計(jì)語(yǔ)料CORPi的關(guān)鍵詞集corpskey中關(guān)鍵詞的詞頻,其中,設(shè)fk1, fk2, …, fkd為關(guān)鍵詞在語(yǔ)料中出現(xiàn)的次數(shù),并將結(jié)果按照分類標(biāo)簽-關(guān)鍵詞-關(guān)鍵詞詞頻的格式添加到分類標(biāo)簽-關(guān)鍵詞-詞頻集skeyf中,即,skeyf={(label, KEY1, fk1), (label, KEY2, fk2),… ,(label, KEYd, fkd)};

步驟A9:更新全局分類標(biāo)簽-關(guān)鍵詞-詞頻集,即,CATEKEYF=CATEKEYF∪skeyf={(LABELl1, KEYck1, ff1), (LABELl2, KEYck2, ff2), …, (LABELle, KEYcke, ffe)},其中,全局分類標(biāo)簽-關(guān)鍵詞-詞頻集CATEKEYF來(lái)自步驟A2;

步驟A10:當(dāng)步驟A3中的循環(huán)變量i大于全部語(yǔ)料集個(gè)數(shù)CORPN時(shí),則執(zhí)行步驟A11,否則,循環(huán)變量i的值增加1,即,i=i+1,執(zhí)行步驟A4到步驟A9;

步驟A11:執(zhí)行步驟B;

步驟A12:返回全體人員的分類標(biāo)簽-頻數(shù)集,即,GSTUCATEF={(STUID1, {(LABEL1, fkl1,1),(LABEL2, fkl1,2), …, (LABELo, fkl1,o)}),(STUID2, {(LABEL1, fkl2,1), (LABEL2, fkl2,2), …, (LABELo, fkl2,o)}), …, (STUIDg, {(LABEL1, fklg,1), (LABEL2, fklg,2), …, (LABELo, fklg,o)})};

關(guān)鍵詞關(guān)聯(lián)記錄流程步驟B從步驟B1到步驟B9:

步驟B1:從全體人員上網(wǎng)記錄集RECORD中提取出當(dāng)前人員唯一標(biāo)識(shí)集STUID,并計(jì)算出人員總數(shù)STUIDN,即,STUID=Π1(RECORD) ={STUID1,STUID2,…,STUIDg};

步驟B2:設(shè)當(dāng)前人員標(biāo)識(shí)的下標(biāo)循環(huán)變量為j,j<=STUIDN,其中,全體人員上網(wǎng)記錄總數(shù)STUIDN來(lái)自步驟B1;

步驟B3:設(shè)當(dāng)前人員標(biāo)識(shí)STUIDj對(duì)應(yīng)的關(guān)鍵詞集為stuskey,并統(tǒng)計(jì)人員STUIDj的關(guān)鍵詞總數(shù)stuskeyn,即, {stuskey1, stuskey2, …, stuskeyh},其中,j是步驟B2中的循環(huán)變量;

步驟B4:設(shè)當(dāng)前關(guān)鍵詞的下標(biāo)循環(huán)變量為k,即,k<=stuskeyn,其中,stuskeyn 是步驟B3中當(dāng)前人員標(biāo)識(shí)STUIDj對(duì)應(yīng)的stuskey所包含的關(guān)鍵詞總數(shù);

步驟B5:從步驟B1中的全局分類標(biāo)簽-關(guān)鍵詞-詞頻集CATEKEYF中篩選出關(guān)鍵詞stuskeyk的分類標(biāo)簽-詞頻集keycatef,即,={(LABEL1, fkl1), (LABEL2, fkl2), …, (LABELo, fklo)},其中,LABEL1 , LABEL2 , …, LABELo代表分類標(biāo)簽,fkl1, fkl2 , …, fklo分別代表標(biāo)簽LABEL1 , LABEL2 , …, LABELo所對(duì)應(yīng)的頻數(shù);

步驟B6:疊加關(guān)鍵詞的分類標(biāo)簽-詞頻記錄keycatef中相同LABEL分類標(biāo)簽的詞頻,然后更新人員STUIDj的分類標(biāo)簽-頻數(shù)記錄,即,fgkl1=fgkl1+fkl1, fgkl2=fgkl2+fkl2, …, fgklo=fgklo+fklo, stucatef={(LABEL1, fgkl1), (LABEL2, fgkl2), …, (LABELo, fgklo)},其中,LABEL∈{LABEL1 , LABEL2 , …, LABELo};

步驟B7:當(dāng)步驟B4中的循環(huán)變量k大于步驟B3中的當(dāng)前人員標(biāo)識(shí)STUIDj對(duì)應(yīng)的stuskey所包含的關(guān)鍵詞總數(shù)stuskeyn時(shí),執(zhí)行步驟B8,否則,循環(huán)變量k增加1,使k=k+1,執(zhí)行步驟B5到步驟B6;

步驟B8:更新全體人員的分類標(biāo)簽-頻數(shù)集GSTUCATEF,將GSTUCATEF與步驟B3中的STUIDj和步驟B5中的keycatef形成的元組做并集運(yùn)算,即,GSTUCATEF=GSTUCATEF∪{(STUIDj, stucatef)}={(STUID1, {(LABEL1, fkl1,1),(LABEL2, fkl1,2), …, (LABELo, fkl1,o)}),(STUID2, {(LABEL1, fkl2,1), (LABEL2, fkl2,2), …, (LABELo, fkl2,o)}), …, (STUIDg, {(LABEL1, fklg,1), (LABEL2, fklg,2), …, (LABELo, fklg,o)})},其中,GSTUCATEF來(lái)自步驟B1;

步驟B9:當(dāng)步驟B2中的循環(huán)變量j大于步驟B1中的人員總數(shù)STUIDN時(shí),執(zhí)行步驟A12,否則,循環(huán)變量j的值增加1,即,j=j+1,執(zhí)行步驟B3到步驟B8。

2.根據(jù)權(quán)利要求1所述的一種基于分類語(yǔ)料庫(kù)-關(guān)鍵詞詞頻-記錄關(guān)聯(lián)的網(wǎng)絡(luò)行為習(xí)慣量化方法,其特征在于,其中,CORP由文本組成,并以文件的形式存在,分類標(biāo)簽集LABEL是CORP所有所屬分類的集合,CORPLAB描述了CORP集合中的元素與LABEL集合中的元素的對(duì)應(yīng)關(guān)系。

3.根據(jù)權(quán)利要求1所述的一種基于分類語(yǔ)料庫(kù)-關(guān)鍵詞詞頻-記錄關(guān)聯(lián)的網(wǎng)絡(luò)行為習(xí)慣量化方法,其特征在于,其中,關(guān)聯(lián)數(shù)據(jù)是指將全體人員上網(wǎng)記錄提取出關(guān)鍵詞,將關(guān)鍵詞與搜狗實(shí)驗(yàn)室的互聯(lián)網(wǎng)分類語(yǔ)料庫(kù)中的關(guān)鍵詞相關(guān)聯(lián),統(tǒng)計(jì)數(shù)據(jù)是指首先統(tǒng)計(jì)搜狗實(shí)驗(yàn)室的互聯(lián)網(wǎng)分類語(yǔ)料庫(kù)中的關(guān)鍵詞在不同分類標(biāo)簽中出現(xiàn)的頻數(shù),再統(tǒng)計(jì)關(guān)聯(lián)后的全體人員上網(wǎng)記錄中相同分類標(biāo)簽的頻數(shù)。

4.根據(jù)權(quán)利要求1所述的一種基于分類語(yǔ)料庫(kù)-關(guān)鍵詞詞頻-記錄關(guān)聯(lián)的網(wǎng)絡(luò)行為習(xí)慣量化方法,其特征在于,其中,步驟A8到步驟A9統(tǒng)計(jì)語(yǔ)料的關(guān)鍵詞詞頻并確定關(guān)鍵詞的標(biāo)簽,更新步驟A2中的全局分類標(biāo)簽-關(guān)鍵詞-詞頻集CATEKEYF;步驟B5到步驟B6是從步驟A2中的全局分類標(biāo)簽-關(guān)鍵詞-詞頻集CATEKEYF篩選出分類標(biāo)簽-頻數(shù)集,再根據(jù)相同的分類標(biāo)簽疊加頻數(shù);步驟B8是根據(jù)步驟B5到步驟B6生成的分類標(biāo)簽-頻數(shù)集,更新步驟A2中的全體人員的分類標(biāo)簽-頻數(shù)集GSTUCATEF。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1