一種基于布隆過濾器的數(shù)據(jù)分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù)分類處理技術(shù)領(lǐng)域,特別是一種基于布隆過濾器的數(shù)據(jù)分類方法。
【背景技術(shù)】
[0002 ]在UGC時(shí)代,每天用戶創(chuàng)造的內(nèi)容,可以用I3B來衡量,同時(shí)用戶在互聯(lián)網(wǎng)上的身份信息與屬性,在其創(chuàng)建之初,就已經(jīng)基本確定。而在數(shù)據(jù)量越來越大的情況,如何根據(jù)用戶的屬性將其產(chǎn)生的內(nèi)容進(jìn)行快速有效的分類,就成為了一個(gè)問題。
[0003]中國發(fā)明專利申請(qǐng)CN102253991 A公開了一種URL存儲(chǔ)方法,包括:步驟Sll,根據(jù)預(yù)定分類規(guī)則對(duì)URL進(jìn)行分類;步驟S12,分別生成用于存儲(chǔ)各類型URL的布隆過濾器;步驟S13,根據(jù)各URL的類型,將所述URL存儲(chǔ)在對(duì)應(yīng)的所述布隆過濾器中。雖然,本發(fā)明能夠在執(zhí)行網(wǎng)頁過濾時(shí)提供高效率的URL查詢,從而提高網(wǎng)絡(luò)性能;但是,此發(fā)明并不能在UGC實(shí)時(shí)處理環(huán)節(jié),快速有效的將內(nèi)容進(jìn)行分類。
【發(fā)明內(nèi)容】
[0004]本發(fā)明需要解決的技術(shù)問題提供一種在UGC實(shí)時(shí)處理環(huán)節(jié)判斷且快速有效將內(nèi)容分類的數(shù)據(jù)分類方法。
[0005]為解決上述的技術(shù)問題,本發(fā)明的一種基于布隆過濾器的數(shù)據(jù)分類方法,包括以下步驟,
[0006]步驟SlOl:布隆過濾器選擇,根據(jù)hadoop離線分析出來的用戶屬性,生成相應(yīng)的布隆過濾器;
[0007]步驟S102:過濾判斷鍵組裝,根據(jù)內(nèi)容創(chuàng)建者,進(jìn)行布隆過濾器判斷鍵組裝;
[0008]步驟S103:內(nèi)容分類是否包含判斷,根據(jù)生成的布隆過濾器判斷鍵到指定的布隆過濾器進(jìn)行是否包含判斷,如果是,則進(jìn)入步驟S104;如果否,則進(jìn)入步驟S105;
[0009]步驟S104:內(nèi)容分類,將內(nèi)容進(jìn)行已定的分類,打上相應(yīng)的tag;
[0010]步驟S105:進(jìn)行下一屬性分類。
[0011]進(jìn)一步的,步驟SlOl中所述的用戶屬性包括標(biāo)簽、社交粉絲數(shù)和robot。
[0012]進(jìn)一步的,步驟S103中所述的指定的布隆過濾器為根據(jù)內(nèi)容分類的用戶屬性,選擇已生成的布隆過濾器。
[0013]進(jìn)一步的,步驟S103中所述生成的布隆過濾器判斷鍵為根據(jù)用戶與分類類別生成的布隆過濾器判斷鍵。
[0014]采用上述方法后,本發(fā)明的一種基于布隆過濾器的數(shù)據(jù)分類方法在實(shí)時(shí)處理環(huán)節(jié),根據(jù)用戶屬性,將用戶創(chuàng)造的內(nèi)容進(jìn)行有效的分類,與hadoop等離線分析相比,具有實(shí)時(shí)性。
【附圖說明】
[0015]下面將結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0016]圖1為本發(fā)明一種基于布隆過濾器的數(shù)據(jù)分類方法的流程圖。
【具體實(shí)施方式】
[0017]如圖1所示,本發(fā)明一種基于布隆過濾器的數(shù)據(jù)分類方法,包括以下步驟,
[0018]步驟SlOl:布隆過濾器選擇,根據(jù)hadoop離線分析出來的用戶屬性,生成相應(yīng)的布隆過濾器。本實(shí)施方式中所述的用戶屬性包括標(biāo)簽、社交粉絲數(shù)和robot。
[0019]步驟S102:過濾判斷鍵組裝,根據(jù)內(nèi)容創(chuàng)建者,進(jìn)行布隆過濾器判斷鍵組裝。
[0020]步驟S103:內(nèi)容分類是否包含判斷,根據(jù)生成的布隆過濾器判斷鍵到指定的布隆過濾器進(jìn)行是否包含判斷,如果是,則進(jìn)入步驟S104;如果否,則進(jìn)入步驟S105。這里指定的布隆過濾器為根據(jù)內(nèi)容分類的用戶屬性,選擇已生成的布隆過濾器,已生成的布隆過濾器為步驟SlOl中生成的布隆過濾器。這里所述生成的布隆過濾器判斷鍵為根據(jù)用戶與分類類別生成的布隆過濾器判斷鍵。
[0021]步驟S104:內(nèi)容分類,將內(nèi)容進(jìn)行已定的分類,打上相應(yīng)的tag。
[0022]步驟S105:進(jìn)行下一屬性分類。
[0023]雖然以上描述了本發(fā)明的【具體實(shí)施方式】,但是本領(lǐng)域熟練技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說明,可以對(duì)本實(shí)施方式作出多種變更或修改,而不背離發(fā)明的原理和實(shí)質(zhì),本發(fā)明的保護(hù)范圍僅由所附權(quán)利要求書限定。
【主權(quán)項(xiàng)】
1.一種基于布隆過濾器的數(shù)據(jù)分類方法,其特征在于,包括以下步驟, 步驟SlOl:布隆過濾器選擇,根據(jù)hadoop離線分析出來的用戶屬性,生成相應(yīng)的布隆過濾器; 步驟S102:過濾判斷鍵組裝,根據(jù)內(nèi)容創(chuàng)建者,進(jìn)行布隆過濾器判斷鍵組裝; 步驟S103:內(nèi)容分類是否包含判斷,根據(jù)生成的布隆過濾器判斷鍵到指定的布隆過濾器進(jìn)行是否包含判斷,如果是,則進(jìn)入步驟S104;如果否,則進(jìn)入步驟S105; 步驟S104:內(nèi)容分類,將內(nèi)容進(jìn)行已定的分類,打上相應(yīng)的tag; 步驟S105:進(jìn)行下一屬性分類。2.按照權(quán)利要求1所述的一種基于布隆過濾器的數(shù)據(jù)分類方法,其特征在于:步驟SlOl中所述的用戶屬性包括標(biāo)簽、社交粉絲數(shù)和robot。3.按照權(quán)利要求1所述的一種基于布隆過濾器的數(shù)據(jù)分類方法,其特征在于:步驟S103中所述的指定的布隆過濾器為根據(jù)內(nèi)容分類的用戶屬性,選擇已生成的布隆過濾器。4.按照權(quán)利要求1所述的一種基于布隆過濾器的數(shù)據(jù)分類方法,其特征在于:步驟S103中所述生成的布隆過濾器判斷鍵為根據(jù)用戶與分類類別生成的布隆過濾器判斷鍵。
【專利摘要】本發(fā)明涉及大數(shù)據(jù)分類處理技術(shù)領(lǐng)域,特別是一種基于布隆過濾器的數(shù)據(jù)分類方法,包括以下步驟,步驟S101:布隆過濾器選擇,根據(jù)hadoop離線分析出來的用戶屬性,生成相應(yīng)的布隆過濾器;步驟S102:過濾判斷鍵組裝,根據(jù)內(nèi)容創(chuàng)建者,進(jìn)行布隆過濾器判斷鍵組裝;步驟S103:內(nèi)容分類是否包含判斷,根據(jù)生成的布隆過濾器判斷鍵到指定的布隆過濾器進(jìn)行是否包含判斷,如果是,則進(jìn)入步驟S104;如果否,則進(jìn)入步驟S105;步驟S104:內(nèi)容分類,將內(nèi)容進(jìn)行已定的分類,打上相應(yīng)的tag;步驟S105:進(jìn)行下一屬性分類。采用上述方法后,本發(fā)明的一種基于布隆過濾器的數(shù)據(jù)分類方法在實(shí)時(shí)處理環(huán)節(jié),根據(jù)用戶屬性,將用戶創(chuàng)造的內(nèi)容進(jìn)行有效的分類,與hadoop等離線分析相比,具有實(shí)時(shí)性。
【IPC分類】G06F17/30
【公開號(hào)】CN105653627
【申請(qǐng)?zhí)枴?br>【發(fā)明人】曹志富
【申請(qǐng)人】湖南蟻坊軟件有限公司
【公開日】2016年6月8日
【申請(qǐng)日】2015年12月28日