技術總結
一種URL的聚類方法及裝置,所述方法包括:獲取URL數(shù)據(jù)集,所述URL數(shù)據(jù)集包括多條URL,所述多條URL隸屬于至少一個域名;分別對每個域名下的URL進行分割處理,并根據(jù)分割處理得到的字段的統(tǒng)計結果確定每個域名對應的多個熱門字段;針對每個域名下的URL,對包括該域名對應的熱門字段的URL,根據(jù)該域名對應的熱門字段進行聚類,得到每個域名對應的第一聚類結果;針對每個域名下的URL,對不包括該域名對應的熱門字段的URL進行聚類,得到每個域名對應的第二聚類結果。上述方案可提升網(wǎng)絡系統(tǒng)資源的利用率。
技術研發(fā)人員:湯奇峰;方煒超
受保護的技術使用者:晶贊廣告(上海)有限公司
文檔號碼:201610675697
技術研發(fā)日:2016.08.16
技術公布日:2017.01.04