1.一種基于用戶真實流量數(shù)據(jù)補全App的Host/Url特征集的方法,其特征在于,該方法包括以下步驟:
(1)從某個App的初始Host/Url特征集中選取種子特征集,記為{urlseed}。
(2)對種子特征集{urlseed}中的每個成員,都在多用戶的真實流量數(shù)據(jù)中進行特征補全。
(3)從補全后的特征集中選取新的種子,構(gòu)成新的種子特征集,迭代地進行特征補全,直到不再得到新的種子為止。
2.根據(jù)權(quán)利要求1所述的一種基于用戶真實流量數(shù)據(jù)補全App的Host/Url特征集的方法,其特征在于,所述的步驟1中從某個App的初始Host/Url特征集中選取種子特征集,具體包括以下步驟:
(1)統(tǒng)計該App初始特征集中的每個Host/Url特征出現(xiàn)在不同App的Host/Url特征集中的次數(shù)。只出現(xiàn)在該App中則次數(shù)為1,出現(xiàn)在2個不同的App中則次數(shù)為2,以此類推。
(2)種子特征集{urlseed}中的成員,將優(yōu)先選取所有出現(xiàn)在不同App的特征集中次數(shù)只有1次的Host/Url特征。如果在初始特征集中沒有出現(xiàn)次數(shù)只有1次的Host/Url特征,則選取出現(xiàn)次數(shù)最少的幾個Host/Url特征,將其作為種子特征集的唯一成員。
3.根據(jù)權(quán)利要求1所述的一種基于用戶真實流量數(shù)據(jù)補全App的Host/Url特征集的方法,其特征在于,所述的步驟2中對種子特征集{urlseed}中的每個種子urli,都在多用戶的真實流量數(shù)據(jù)中進行特征補全,具體包括以下步驟:
(1)從多個用戶各自的流量數(shù)據(jù)中提取種子urli訪問時刻前后一段時間范圍內(nèi)的Host/Url特征,構(gòu)成{urlcand}。
(2)對來自N個用戶的候選特征集{urlcand}k(k=1,2,...,N)進行關(guān)聯(lián)分析,得到若干個頻繁項集。
(3)將得到的頻繁項集中不屬于初始Host/Url特征集的新Host/Url特征提取出來,對初始特征集進行補全。