1.一種URL的聚類方法,其特征在于,包括:
獲取URL數(shù)據(jù)集,所述URL數(shù)據(jù)集包括多條URL,所述多條URL隸屬于至少一個域名;
分別對每個域名下的URL進行分割處理,并根據(jù)分割處理得到的字段的統(tǒng)計結(jié)果確定每個域名對應(yīng)的多個熱門字段;
針對每個域名下的URL,對包括該域名對應(yīng)的熱門字段的URL,根據(jù)該域名對應(yīng)的熱門字段進行聚類,得到每個域名對應(yīng)的第一聚類結(jié)果;
針對每個域名下的URL,對不包括該域名對應(yīng)的熱門字段的URL進行聚類,得到每個域名對應(yīng)的第二聚類結(jié)果。
2.根據(jù)權(quán)利要求1所述的URL的聚類方法,其特征在于,分別對每個域名下的URL進行分割處理之前,還包括:
對所述URL數(shù)據(jù)集中的多條URL進行降維,以去除符合預(yù)設(shè)格式的冗余信息。
3.根據(jù)權(quán)利要求2所述的URL的聚類方法,其特征在于,所述冗余信息包括數(shù)字和搜索詞。
4.根據(jù)權(quán)利要求1所述的URL的聚類方法,其特征在于,還包括:
對于所述第一聚類結(jié)果和所述第二聚類結(jié)果,將其中URL數(shù)量超過第一預(yù)設(shè)閾值的聚類類別進行拆分,并將其中URL數(shù)量小于第二預(yù)設(shè)閾值的聚類類別進行合并,所述第一預(yù)設(shè)閾值大于所述第二預(yù)設(shè)閾值。
5.根據(jù)權(quán)利要求1所述的URL的聚類方法,其特征在于,所述分別對每個域名下的URL進行分割處理,并根據(jù)分割處理得到的字段的統(tǒng)計結(jié)果確定每個域名對應(yīng)的多個熱門字段,包括:
對每個域名下的每條URL,按照字符“/”進行分割,并去除其中表示主機名的字符串;
統(tǒng)計每個域名下的URL被分割后得到的字符串的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)大于次數(shù)閾值的字符串或按照出現(xiàn)次數(shù)排序的前M個字符串作為所述熱門字段,其中,M為大于或等于0的整數(shù)。
6.根據(jù)權(quán)利要求1所述的URL的聚類方法,其特征在于,所述針對每個域名下的URL,對不包括該域名對應(yīng)的熱門字段的URL進行聚類,得到每個域名對應(yīng)的第二聚類結(jié)果,包括:
對所述多條URL進行分割處理后得到的字符串去重,以得到總字符串序列,所述總字符串序列包含K個依序排列的字符串;
分別將每個域名下的每條URL映射成長度為K的一維向量,以得到每個域名對應(yīng)的矩陣,所述矩陣的大小為S*K,其中,S為每個域名下的URL的數(shù)量;
將每個域名下的URL的數(shù)量的均方根值作為聚類數(shù),并根據(jù)所述聚類數(shù)和所述矩陣采用Kmeans算法進行聚類,以得到每個域名對應(yīng)的第二聚類結(jié)果。
7.根據(jù)權(quán)利要求6所述的URL的聚類方法,其特征在于,所述將每個域名下的每條URL映射成長度為K的一維向量,包括:
針對當前URL,生成長度為K的全零一維向量,所述當前URL為所述多條URL中的任一個;
根據(jù)對所述當前URL進行分割處理得到的字符串確定當前字符串序列和每個字符串在所述當前字符串序列中的出現(xiàn)位置,所述當前字符串序列包含N個字符串;
對于所述當前URL被分割處理后得到的每個字符串,統(tǒng)計其在所述URL數(shù)據(jù)集中所有URL被分割處理后得到的字符串中的出現(xiàn)頻次;
在所述全零一維向量的基礎(chǔ)上,根據(jù)所述當前URL被分割處理后得到的每個字符串的所述出現(xiàn)頻次和所述出現(xiàn)位置,將所述當前URL映射成長度為K的一維向量。
8.根據(jù)權(quán)利要求7所述的URL的聚類方法,其特征在于,所述在所述全零一維向量的基礎(chǔ)上,根據(jù)所述當前URL被分割處理后得到的每個字符串的所述出現(xiàn)頻次和所述出現(xiàn)位置,將所述當前URL映射成長度為K的一維向量,包括:
對于所述當前URL被分割處理后得到的每個字符串,確定其在總字符串序列中的位置計數(shù)i,i大于等于1且小于等于K;
采用公式vec[i]=(N-P)/log X計算所述一維向量中的第i列的向量值;
其中,vec[i]為第i列的向量值,X為所述字符串的出現(xiàn)頻次,P為所述字符串在所述當前字符串序列中的位置計數(shù)。
9.一種URL的聚類裝置,其特征在于,包括:
獲取單元,適于獲取URL數(shù)據(jù)集,所述URL數(shù)據(jù)集包括多條URL,所述多條URL隸屬于至少一個域名;
熱門字段獲取單元,適于分別對每個域名下的URL進行分割處理,并根據(jù)分割處理得到的字段的統(tǒng)計結(jié)果確定每個域名對應(yīng)的多個熱門字段;
第一聚類單元,適于針對每個域名下的URL,對包括該域名對應(yīng)的熱門字段的URL,根據(jù)該域名對應(yīng)的熱門字段進行聚類,得到每個域名對應(yīng)的第一聚類結(jié)果;
第二聚類單元,適于針對每個域名下的URL,對不包括該域名對應(yīng)的熱門字段的URL進行聚類,得到每個域名對應(yīng)的第二聚類結(jié)果。
10.根據(jù)權(quán)利要求9所述的URL的聚類裝置,其特征在于,還包括:
降維單元,適于對所述URL數(shù)據(jù)集中的多條URL進行降維,以去除符合預(yù)設(shè)格式的冗余信息。
11.根據(jù)權(quán)利要求10所述的URL的聚類裝置,其特征在于,所述冗余信息包括數(shù)字和搜索詞。
12.根據(jù)權(quán)利要求9所述的URL的聚類裝置,其特征在于,還包括:
聚類結(jié)果調(diào)整單元,適于對于所述第一聚類結(jié)果和所述第二聚類結(jié)果,將其中URL數(shù)量超過第一預(yù)設(shè)閾值的聚類類別進行拆分,并將其中URL數(shù)量小于第二預(yù)設(shè)閾值的聚類類別進行合并,所述第一預(yù)設(shè)閾值大于所述第二預(yù)設(shè)閾值。
13.根據(jù)權(quán)利要求9所述的URL的聚類裝置,其特征在于,所述熱門字段獲取單元包括:
分割子單元,適于對每個域名下的每條URL,按照字符“/”進行分割,并去除其中表示主機名的字符串;
統(tǒng)計子單元,適于統(tǒng)計每個域名下的URL被分割后得到的字符串的出現(xiàn)次數(shù),并將出現(xiàn)次數(shù)大于次數(shù)閾值的字符串或按照出現(xiàn)次數(shù)排序的前M個字符串作為所述熱門字段,其中,M為大于或等于0的整數(shù)。
14.根據(jù)權(quán)利要求9所述的URL的聚類裝置,其特征在于,所述第二聚類單元包括:
總字符串序列獲取子單元,適于對所述多條URL進行分割處理后得到的字符串去重,以得到總字符串序列,所述總字符串序列包含K個依序排列的字符串;
矩陣獲取子單元,適于分別將每個域名下的每條URL映射成長度為K的一維向量,以得到每個域名對應(yīng)的矩陣,所述矩陣的大小為S*K,其中,S為每個域名下的URL的數(shù)量;
第二聚類結(jié)果獲取子單元,適于將每個域名下的URL的數(shù)量的均方根值作為聚類數(shù),并根據(jù)所述聚類數(shù)和所述矩陣采用Kmeans算法進行聚類,以得到每個域名對應(yīng)的第二聚類結(jié)果。
15.根據(jù)權(quán)利要求14所述的URL的聚類裝置,其特征在于,所述矩陣獲取子單元包括:
全零向量獲取模塊,適于針對當前URL,生成長度為K的全零一維向量,所述當前URL為所述多條URL中的任一個;
當前字符串序列獲取模塊,適于根據(jù)對所述當前URL進行分割處理得到的字符串確定當前字符串序列和每個字符串在所述當前字符串序列中的出現(xiàn)位置,所述當前字符串序列包含N個字符串;
出現(xiàn)頻次統(tǒng)計模塊,適于對于所述當前URL被分割處理后得到的每個字符串,統(tǒng)計其在所述URL數(shù)據(jù)集中所有URL被分割處理后得到的字符串中的出現(xiàn)頻次;
映射模塊,適于在所述全零一維向量的基礎(chǔ)上,根據(jù)所述當前URL被分割處理后得到的每個字符串的所述出現(xiàn)頻次和所述出現(xiàn)位置,將所述當前URL映射成長度為K的一維向量。
16.根據(jù)權(quán)利要求15所述的URL的聚類裝置,其特征在于,所述映射模塊包括:
位置計數(shù)子模塊,適于對于所述當前URL被分割處理后得到的每個字符串,確定其在總字符串序列中的位置計數(shù)i,i大于等于1且小于等于K;
向量值計算子模塊,適于采用公式vec[i]=(N-P)/log X計算所述一維向量中的第i列的向量值;
其中,vec[i]為第i列的向量值,X為所述字符串的出現(xiàn)頻次,P為所述字符串在所述當前字符串序列中的位置計數(shù)。