本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,特別是一種相似用戶識別方法和裝置。
背景技術(shù):
用戶相似度分析是用戶行為分析處理的一個較為熱門的方面,目前業(yè)內(nèi)用戶相似度識別技術(shù)復(fù)雜多樣,包括通過手機imei(internationalmobileequipmentidentity,國際移動設(shè)備標(biāo)識)對比分析識別,以及基于用戶呼叫行為頻率相關(guān)指標(biāo)實現(xiàn)交往圈余弦相似度計算。
但是,基于手機imei對比分析識別的適用面小、準(zhǔn)確率低;而基于呼叫行為頻率的交往圈余弦相似度計算僅根據(jù)用戶通話詳單數(shù)據(jù)就通話頻次進行計算,準(zhǔn)確度低,不能起到有效的識別作用,且余弦相似度計算復(fù)雜度高、效率低,不利于拓展應(yīng)用。一種高適用度、高準(zhǔn)確度和高效率的用戶相似度分析方法是發(fā)展用戶行為分析的迫切需求。
技術(shù)實現(xiàn)要素:
本發(fā)明的一個目的在于提高用戶相似度分析的效率、準(zhǔn)確度和通用性。
根據(jù)本發(fā)明的一個方面,提出一種相似用戶識別方法,包括:提取用戶通信行為發(fā)生的位置和時間;根據(jù)用戶在預(yù)定時間段內(nèi)通信行為發(fā)生的位置和時間計算用戶相對于基站的基站常用指數(shù);根據(jù)用戶相對于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量;根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度 指數(shù)。
可選地,用戶通信行為包括通話和/或連接數(shù)據(jù)網(wǎng)絡(luò);用戶通信行為發(fā)生的位置為用戶發(fā)生通信行為時交互的基站。
可選地,根據(jù)用戶在預(yù)定時間段內(nèi)通信行為發(fā)生的位置和時間計算用戶相對于基站的基站常用指數(shù)包括:在預(yù)定時間段內(nèi),獲取預(yù)定周期基站常用指數(shù),其中,預(yù)定周期基站常用指數(shù)為用戶與基站發(fā)生過交互的預(yù)定周期的個數(shù)與預(yù)定時間段內(nèi)預(yù)定周期的個數(shù)的比值;預(yù)定周期包括一個月、十日、七日、三日和/或一日;根據(jù)預(yù)定周期基站常用指數(shù)確定基站常用指數(shù)。
可選地,獲取預(yù)定周期基站常用指數(shù)包括:根據(jù)公式
確定預(yù)定周期基站常用指數(shù),其中,i為預(yù)定周期基站常用指數(shù),n為預(yù)定時間段內(nèi)預(yù)定周期的個數(shù),i為預(yù)定時間段內(nèi)的預(yù)定周期標(biāo)號,ti為第i個預(yù)定周期內(nèi)用戶是否與基站發(fā)生過交互的標(biāo)識:若在第i個預(yù)定周期內(nèi)用戶與基站發(fā)生過交互,則ti為1;若在第i個預(yù)定周期內(nèi)用戶與基站未發(fā)生過交互,則ti為0。
可選地,根據(jù)預(yù)定周期基站常用指數(shù)確定基站常用指數(shù)包括:根據(jù)公式
ci=35my+30ty+16wy+12thy+8dy
確定基站常用指數(shù),其中,ci為用戶在預(yù)定時間段內(nèi)的基站常用指數(shù),my為預(yù)定周期為一個月的預(yù)定周期基站常用指數(shù);ty為預(yù)定周期為十日的預(yù)定周期基站常用指數(shù);wy為預(yù)定周期為七日的預(yù)定周期基站常用指數(shù);thy為預(yù)定周期為三日的預(yù)定周期基站常用指數(shù);dy為預(yù)定周期為一日的預(yù)定周期基站常用指數(shù)。
可選地,根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)包括:根據(jù)公式
s=(pm∩pn)/y
確定用戶相似度指數(shù),其中,m、n為用戶標(biāo)識,s為用戶n與用戶m的相似度指數(shù),pm為用戶m的常用基站特征向量,pn為用戶 n的常用基站特征向量,pm∩pn為pm與pn中相同的基站數(shù)量,y為用戶常用基站特征向量中基站的數(shù)量。
可選地,提取用戶通信行為發(fā)生的位置和時間包括:提取用戶工作日的通信行為發(fā)生的位置和時間;根據(jù)用戶在預(yù)定時間段內(nèi)通信行為發(fā)生的位置和時間計算用戶相對于基站的基站常用指數(shù)包括:根據(jù)用戶在預(yù)定時間段中工作日的通信行為發(fā)生的位置和時間計算用戶相對于基站的工作日基站常用指數(shù);根據(jù)用戶相對于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量包括:根據(jù)用戶相對于不同基站的工作日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶工作日常用基站特征向量;根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)包括:根據(jù)不同用戶的用戶工作日常用基站特征向量確定用戶相似度指數(shù)。
可選地,提取用戶通信行為發(fā)生的位置和時間包括:提取用戶節(jié)假日的通信行為發(fā)生的位置和時間;根據(jù)用戶在預(yù)定時間段內(nèi)通信行為發(fā)生的位置和時間計算用戶相對于基站的基站常用指數(shù)包括:根據(jù)用戶在預(yù)定時間段中節(jié)假日的通信行為發(fā)生的位置和時間計算用戶相對于基站的節(jié)假日基站常用指數(shù);根據(jù)用戶相對于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量包括:根據(jù)用戶相對于不同基站的節(jié)假日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶節(jié)假日常用基站特征向量;根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)包括:根據(jù)不同用戶的用戶節(jié)假日常用基站特征向量確定用戶相似度指數(shù)。
可選地,根據(jù)用戶在預(yù)定時間段內(nèi)通信行為發(fā)生的位置和時間計算用戶相對于基站的基站常用指數(shù)包括:根據(jù)用戶在預(yù)定時間段中工作日的通信行為發(fā)生的位置和時間計算用戶相對于基站的工作日基站常用指數(shù);根據(jù)用戶在預(yù)定時間段中節(jié)假日的通信行為發(fā)生的位置和時間計算用戶相對于基站的節(jié)假日基站常用指數(shù);根據(jù)用戶相對于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量包括:根據(jù)用戶相對于不同基站的工作日基站常用指數(shù)的大小提取 預(yù)定數(shù)量基站,生成用戶工作日常用基站特征向量;根據(jù)用戶相對于不同基站的節(jié)假日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶節(jié)假日常用基站特征向量;根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)包括:根據(jù)不同用戶的用戶工作日常用基站特征向量確定用戶工作日相似度指數(shù);根據(jù)不同用戶的用戶節(jié)假日常用基站特征向量確定用戶節(jié)假日相似度指數(shù);基于用戶工作日相似度指數(shù)和用戶節(jié)假日相似度指數(shù)確定用戶綜合相似度指數(shù)。
可選地,還包括:將相似度指數(shù)與預(yù)定閾值相比較;若相似度指數(shù)不小于預(yù)定閾值,則確定用戶為相似用戶;若相似度指數(shù)小于預(yù)定閾值,則確定用戶為非相似用戶。
通過這樣的方法,能夠基于通信行為發(fā)生的位置和時間獲取用戶常用基站特征向量,再根據(jù)用戶常用基站特征向量計算用戶相似度指數(shù),具有很好的通用性;由于考慮到了地域和時間兩個維度,能夠有效的提高相似度計算的準(zhǔn)確度;采用特征向量計算的方式確定相似度指數(shù)復(fù)雜度較低,提高了運算效率,降低了對運算設(shè)備的性能要求。
根據(jù)本發(fā)明的另一個方面,提出一種相似用戶識別裝置,包括:數(shù)據(jù)提取模塊,用于提取用戶通信行為發(fā)生的位置和時間;常用指數(shù)獲取模塊,用于根據(jù)用戶在預(yù)定時間段內(nèi)通信行為發(fā)生的位置和時間計算用戶相對于基站的基站常用指數(shù);特征向量獲取模塊,用于根據(jù)用戶相對于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量;相似度指數(shù)確定模塊,用于根據(jù)不同用戶的用戶常用基站特征向量獲取用戶相似度指數(shù)。
可選地,用戶通信行為包括通話和/或連接數(shù)據(jù)網(wǎng)絡(luò);用戶通信行為發(fā)生的位置為用戶發(fā)生通信行為時交互的基站。
可選地,常用指數(shù)獲取模塊包括:周期指數(shù)確定單元,用于在預(yù)定時間段內(nèi),獲取預(yù)定周期基站常用指數(shù),其中,預(yù)定周期基站常用指數(shù)為用戶與基站發(fā)生過交互的預(yù)定周期的個數(shù)與預(yù)定時間段內(nèi)預(yù)定周期的個數(shù)的比值;預(yù)定周期包括一個月、十日、七日、三日和/或一日;常用指數(shù)確定單元,用于根據(jù)預(yù)定周期基站常用指數(shù)確定基站常 用指數(shù)。
可選地,周期指數(shù)確定單元用于:根據(jù)公式
確定預(yù)定周期基站常用指數(shù),其中,i為預(yù)定周期基站常用指數(shù),n為預(yù)定時間段內(nèi)預(yù)定周期的個數(shù),i為預(yù)定時間段內(nèi)的預(yù)定周期標(biāo)號,ti為第i個預(yù)定周期內(nèi)用戶是否與基站發(fā)生過交互的標(biāo)識:若在第i個預(yù)定周期內(nèi)用戶與基站發(fā)生過交互,則ti為1;若在第i個預(yù)定周期內(nèi)用戶與基站未發(fā)生過交互,則ti為0。
可選地,常用指數(shù)確定單元用于:根據(jù)公式
ci=35my+30ty+16wy+12thy+8dy
確定基站常用指數(shù),其中,ci為用戶在預(yù)定時間段內(nèi)的基站常用指數(shù),my為預(yù)定周期為一個月的預(yù)定周期基站常用指數(shù);ty為預(yù)定周期為十日的預(yù)定周期基站常用指數(shù);wy為預(yù)定周期為七日的預(yù)定周期基站常用指數(shù);thy為預(yù)定周期為三日的預(yù)定周期基站常用指數(shù);dy為預(yù)定周期為一日的預(yù)定周期基站常用指數(shù)。
可選地,相似度指數(shù)獲取模塊用于:根據(jù)公式
s=(pm∩pn)/y
確定用戶相似度指數(shù),其中,m、n為用戶標(biāo)識,s為用戶n與用戶m的相似度指數(shù),pm為用戶m的常用基站特征向量,pn為用戶n的常用基站特征向量,pm∩pn為pm與pn中相同的基站數(shù)量,y為用戶常用基站特征向量中基站的數(shù)量。
可選地,數(shù)據(jù)提取模塊用于提取用戶工作日的通信行為發(fā)生的位置和時間;常用指數(shù)獲取模塊用于根據(jù)用戶在預(yù)定時間段中工作日的通信行為發(fā)生的位置和時間計算用戶相對于基站的工作日基站常用指數(shù);特征向量獲取模塊用于根據(jù)用戶相對于不同基站的工作日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶工作日常用基站特征向量;相似度指數(shù)確定模塊用于根據(jù)不同用戶的用戶工作日常用基站特征向量確定用戶相似度指數(shù)。
可選地,數(shù)據(jù)提取模塊用于提取用戶節(jié)假日的通信行為發(fā)生的位 置和時間;常用指數(shù)獲取模塊用于根據(jù)用戶在預(yù)定時間段中節(jié)假日的通信行為發(fā)生的位置和時間計算用戶相對于基站的節(jié)假日基站常用指數(shù);特征向量獲取模塊用于根據(jù)用戶相對于不同基站的節(jié)假日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶節(jié)假日常用基站特征向量;相似度指數(shù)確定模塊用于根據(jù)不同用戶的用戶節(jié)假日常用基站特征向量確定用戶相似度指數(shù)。
可選地,常用指數(shù)獲取模塊用于根據(jù)用戶在預(yù)定時間段中工作日的通信行為發(fā)生的位置和時間計算用戶相對于基站的工作日基站常用指數(shù),以及根據(jù)用戶在預(yù)定時間段中節(jié)假日的通信行為發(fā)生的位置和時間計算用戶相對于基站的節(jié)假日基站常用指數(shù);特征向量獲取模塊用于根據(jù)用戶相對于不同基站的工作日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶工作日常用基站特征向量,以及根據(jù)用戶相對于不同基站的節(jié)假日基站常用指數(shù)的大小提取預(yù)定數(shù)量基站,生成用戶節(jié)假日常用基站特征向量;相似度指數(shù)確定模塊包括:工作日相似度確定單元,用于根據(jù)不同用戶的用戶工作日常用基站特征向量確定用戶相似度指數(shù);節(jié)假日相似度確定單元,用于根據(jù)不同用戶的用戶節(jié)假日常用基站特征向量確定用戶相似度指數(shù);綜合相似度確定單元,用于基于用戶工作日相似度指數(shù)和用戶節(jié)假日相似度指數(shù)確定用戶綜合相似度指數(shù)。
可選地,還包括:相似用戶確定模塊,用于將相似度指數(shù)與預(yù)定閾值相比較,若相似度指數(shù)不小于預(yù)定閾值,則確定用戶為相似用戶;若相似度指數(shù)小于預(yù)定閾值,則確定用戶為非相似用戶。
這樣的裝置能夠基于通信行為發(fā)生的位置和時間獲取用戶常用基站特征向量,再根據(jù)用戶常用基站特征向量計算用戶相似度指數(shù),具有很好的通用性;由于考慮到了地域和時間兩個維度,能夠有效的提高相似度計算的準(zhǔn)確度;采用特征向量計算的方式確定相似度指數(shù)復(fù)雜度較低,提高了運算效率,降低了對運算設(shè)備的性能要求。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1為本發(fā)明的相似用戶識別方法的一個實施例的流程圖。
圖2為本發(fā)明的相似用戶識別方法的另一個實施例的流程圖。
圖3為本發(fā)明的相似用戶識別方法的又一個實施例的流程圖。
圖4為本發(fā)明的相似用戶識別裝置的一個實施例的示意圖。
圖5為本發(fā)明的相似用戶識別裝置的另一個實施例的示意圖。
圖6為本發(fā)明的相似用戶識別裝置的又一個實施例的示意圖。
具體實施方式
下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
本發(fā)明的相似用戶識別方法的一個實施例的流程圖如圖1所示。
在步驟101中,提取用戶通信行為發(fā)生的位置和時間。在一個實施例中,用戶的通信行為可以包括通話業(yè)務(wù),也可以包括連接數(shù)據(jù)網(wǎng)絡(luò)。用戶通信行為發(fā)生的位置可以用用戶發(fā)生通信行為時交互的基站作為標(biāo)識,用戶通信行為發(fā)生的時間可以為用戶發(fā)生通信行為的日期。在一個實施例中,可以提取基站數(shù)據(jù),確定用戶與該基站發(fā)生交互的時間。
在步驟102中,根據(jù)用戶在預(yù)定時間段內(nèi)通信行為發(fā)生的位置和時間計算用戶相對于基站的基站常用指數(shù)。用戶的基站常用指數(shù)可以稱為用戶基站指紋指數(shù),體現(xiàn)了用戶在預(yù)定時間段內(nèi)對該基站的常用程度。
在步驟103中,根據(jù)用戶相對于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量。在一個實施例中,可以將用戶相對于每個基站的基站常用指數(shù)按照從大到小的順序排序,提取預(yù)定數(shù)量的基站生成用戶常用基站特征向量。
在步驟104中,根據(jù)不同用戶的用戶常用基站特征向量確定用戶 相似度指數(shù)。可以通過計算兩個用戶的用戶常用基站特征向量的交集的方式確定兩個用戶的相似度指數(shù)。
通過這樣的方法,能夠基于通信行為發(fā)生的位置和時間獲取用戶常用基站特征向量,再根據(jù)用戶常用基站特征向量計算用戶相似度指數(shù),具有很好的通用性;由于考慮到地域和時間兩個維度,能夠有效的提高相似度計算的準(zhǔn)確度;采用特征向量計算的方式確定相似度指數(shù)復(fù)雜度較低,提高了運算效率,降低了對運算設(shè)備的性能要求。
本發(fā)明的相似用戶識別方法的另一個實施例的流程圖如圖2所示。
在步驟201中,提取用戶通信行為發(fā)生的位置和時間。
在步驟202中,根據(jù)設(shè)定的預(yù)定周期確定用戶在預(yù)定時間段內(nèi)的預(yù)定周期基站常用指數(shù)。預(yù)定周期可以包括一個月、十日、七日、三日、一日。預(yù)定周期基站常用指數(shù)可以是在預(yù)定時間段內(nèi)用戶與基站發(fā)生過交互的預(yù)定周期的個數(shù)與預(yù)定時間段內(nèi)預(yù)定周期的個數(shù)的比值。在一個實施例中,可以根據(jù)公式:
計算預(yù)定周期基站常用指數(shù)。其中,i為預(yù)定周期基站常用指數(shù),n為預(yù)定時間段內(nèi)預(yù)定周期的個數(shù),i為預(yù)定時間段內(nèi)的預(yù)定周期標(biāo)號,ti為第i個周期內(nèi)用戶是否與基站發(fā)生過交互的標(biāo)識:若在第i個預(yù)定周期內(nèi)用戶與基站發(fā)生過交互,則ti=1;若在第i個預(yù)定周期內(nèi)用戶與基站未發(fā)生過交互,則ti=0。
在步驟203中,根據(jù)不同預(yù)定周期的預(yù)定周期基站常用指數(shù)確定基站常用指數(shù)。在一個實施例中,可以根據(jù)公式:
ci=35my+30ty+16wy+12thy+8dy(2)
確定基站常用指數(shù),其中,ci為用戶在預(yù)定時間段內(nèi)的基站常用指數(shù),my為預(yù)定周期為一個月的預(yù)定周期基站常用指數(shù);ty為預(yù)定周期為十日的預(yù)定周期基站常用指數(shù);wy為預(yù)定周期為七日的預(yù)定周期基站常用指數(shù);thy為預(yù)定周期為三日的預(yù)定周期基站常用指數(shù); dy為預(yù)定周期為一日的預(yù)定周期基站常用指數(shù)。
在步驟204中,根據(jù)用戶相對于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量。在一個實施例中,可以基于用戶在預(yù)定時間段內(nèi)發(fā)生交互的基站生成用戶交互地域圈信息,記錄用戶相對于每個基站的基站常用指數(shù)。在一個實施例中,可以將用戶相對于每個基站的基站常用指數(shù)按照從大到小的順序排序,提取預(yù)定數(shù)量的基站生成用戶常用基站特征向量。在一個實施例中,用戶常用基站特征向量可以為p=(c1,c2,c3……,cy),其中,c1、c2、c3、cy均為基站標(biāo)識,y為預(yù)定數(shù)量。
在步驟205中,根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)??梢酝ㄟ^計算兩個用戶的用戶常用基站特征向量的交集的方式確定兩個用戶的相似度指數(shù)。在一個實施例中,可以根據(jù)公式
s=(pm∩pn)/y(3)
確定用戶相似度指數(shù),其中,m、n為用戶標(biāo)識,s為用戶n與用戶m的相似度指數(shù),pm為用戶m的常用基站特征向量,pn為用戶n的常用基站特征向量,pm∩pn為pm與pn中相同的基站數(shù)量,y為用戶常用基站特征向量中基站的數(shù)量。
通過這樣的方法,能夠通過低復(fù)雜度的計算確定用戶相似度指數(shù),提高了運算效率,降低了對運行設(shè)備的要求;以預(yù)定周期基站常用指數(shù)確定基站常用指數(shù),充分考慮到了用戶行為的周期性,使計算的結(jié)果更加準(zhǔn)確。
在一個實施例中,可以每隔預(yù)定周期進行一次計算,確定預(yù)定周期基站常用指數(shù)并存儲計算結(jié)果,當(dāng)達到預(yù)定時間段的截止日期時,根據(jù)該預(yù)定時間段內(nèi)計算出的預(yù)定周期基站常用指數(shù)確定基站常用指數(shù),并將基站常用指數(shù)存入特征庫,根據(jù)特征庫中存儲的數(shù)據(jù)計算用戶常用基站特征向量。如:預(yù)定周期包括一個月、十日、七日、三日和一日,則以預(yù)定時間段的起始日期為起點,每天計算一次以一日為周期的預(yù)定周期基站常用指數(shù)、每三天計算一次以三日為周期的預(yù)定周期基站常用指數(shù)、每七天計算一次以七日為周期的預(yù)定周期基站常 用指數(shù)、每十天計算一次以十日為周期的預(yù)定周期基站常用指數(shù)、每月計算一次以一月為周期的預(yù)定周期基站常用指數(shù),在達到預(yù)定時間段的截止日期時,根據(jù)預(yù)定時間段內(nèi)所有預(yù)定周期基站常用指數(shù)計算基站常用指數(shù)。
通過這樣的方法,能夠隨著時間的推移逐步計算預(yù)定周期基站常用指數(shù),在預(yù)定時間段結(jié)束時根據(jù)之前的計算結(jié)果得到基站常用指數(shù),從而進一步減少運算的等待時間,提高了運算效率。
在一個實施例中,可以提取用戶在工作日的通信行為發(fā)生的位置和時間,基于用戶在預(yù)定時間段內(nèi)工作日的通信行為發(fā)生的位置和時間得到的是用戶相對于基站的工作日基站常用指數(shù)。在一個實施例中,可以利用公式(1),以預(yù)定時間段內(nèi)的工作日數(shù)據(jù)為基礎(chǔ)計算工作日基站常用指數(shù)。根據(jù)工作日基站常用指數(shù)得到用戶工作日常用基站特征向量,以不同用戶的用戶工作日常用基站特征向量為基礎(chǔ)計算得到的用戶相似度指數(shù)為用戶工作日相似度指數(shù),能夠體現(xiàn)用戶在工作日的相似情況,便于識別工作日相似用戶。
在一個實施例中,可以提取用戶在節(jié)假日的通信行為發(fā)生的位置和時間,基于用戶在預(yù)定時間段內(nèi)節(jié)假日的通信行為發(fā)生的位置和時間得到的是用戶相對于基站的節(jié)假日基站常用指數(shù)。在一個實施例中,可以利用公式(1),以預(yù)定時間段內(nèi)的節(jié)假日數(shù)據(jù)為基礎(chǔ)計算節(jié)假日基站常用指數(shù)。根據(jù)節(jié)假日基站常用指數(shù)得到用戶節(jié)假日常用基站特征向量,以不同用戶的用戶節(jié)假日常用基站特征向量為基礎(chǔ)計算得到的用戶相似度指數(shù)為用戶節(jié)假日相似度指數(shù),能夠體現(xiàn)用戶在節(jié)假日的相似情況,便于識別節(jié)假日相似用戶。
由于節(jié)假日和工作日的用戶行為會有較大區(qū)別,因此將工作日和節(jié)假日的區(qū)別納入考慮范圍能夠?qū)崿F(xiàn)對用戶相似度的更準(zhǔn)確的計算;基于時間和地域兩個維度的相似度計算能夠?qū)崿F(xiàn)較高準(zhǔn)確度的相似用戶識別。
在一個實施例中,可以分別獲取用戶工作日相似度指數(shù)和用戶節(jié)假日相似度指數(shù),配合對應(yīng)的預(yù)定權(quán)值獲得用戶綜合相似度指數(shù),基 于用戶綜合相似度指數(shù)判斷用戶相似情況。在一個實施例中,可以基于公式:
s=a*sw+b*sh
計算用戶綜合相似度指數(shù)。其中,s為用戶綜合相似度指數(shù),sw為用戶工作日相似度指數(shù),sh為用戶節(jié)假日相似度指數(shù),a為用戶工作日相似度指數(shù)權(quán)重,b為用戶節(jié)假日相似度指數(shù)權(quán)重。
通過這樣的方法,能夠基于用戶工作日和節(jié)假日的相似狀況綜合考慮用戶相似度,從而得到更加全面的用戶相似度指數(shù),使相似用戶的識別更加準(zhǔn)確。
本發(fā)明的相似用戶識別方法的又一個實施例的流程圖如圖3所示。
在步驟301中,提取用戶通信行為發(fā)生的位置和時間。在一個實施例中,可以提取基站數(shù)據(jù),確定用戶與該基站發(fā)生交互的時間。
在步驟302中,根據(jù)用戶在預(yù)定時間段內(nèi)通信行為發(fā)生的位置和時間計算用戶相對于基站的基站常用指數(shù)。
在步驟303中,根據(jù)用戶相對于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量。在一個實施例中,可以將用戶相對于每個基站的基站常用指數(shù)按照從大到小的順序排序,提取預(yù)定數(shù)量的基站生成用戶常用基站特征向量。
在步驟304中,根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)。可以通過計算兩個用戶的用戶常用基站特征向量的交集的方式確定兩個用戶的相似度指數(shù)。
在步驟305中,將用戶相似度指數(shù)與預(yù)定閾值相比較;若相似度指數(shù)不小于預(yù)定閾值,則確定兩用戶為相似用戶;若相似度指數(shù)小于預(yù)定閾值,則確定兩用戶為非相似用戶。在一個實施例中,可以輸出相似用戶清單,或標(biāo)記相似用戶,便于后續(xù)處理和研究。
通過這樣的方法,能夠通過閾值比較的方法根據(jù)用戶的相似度指數(shù)確定相似用戶,從而能夠識別相似用戶,便于根據(jù)相似用戶數(shù)據(jù)進行處理和研究分析。
本發(fā)明的相似用戶識別裝置的一個實施例示意圖如圖4所示。其中,數(shù)據(jù)提取模塊401能夠提取用戶通信行為發(fā)生的位置和時間。在一個實施例中,用戶的通信行為可以包括通話業(yè)務(wù),也可以包括連接數(shù)據(jù)網(wǎng)絡(luò)。用戶通信行為發(fā)生的位置可以用用戶發(fā)生通信行為時交互的基站作為標(biāo)識,用戶通信行為發(fā)生的時間可以為用戶發(fā)生通信行為的日期。在一個實施例中,可以提取基站數(shù)據(jù),確定用戶與該基站發(fā)生交互的時間。常用指數(shù)獲取模塊402能夠根據(jù)用戶在預(yù)定時間段內(nèi)通信行為發(fā)生的位置和時間計算用戶相對于基站的基站常用指數(shù)。用戶的基站常用指數(shù)可以稱為用戶基站指紋指數(shù),體現(xiàn)了用戶在預(yù)定時間段內(nèi)對該基站的常用程度。特征向量獲取模塊403能夠根據(jù)用戶相對于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量。在一個實施例中,可以將用戶相對于每個基站的基站常用指數(shù)按照從大到小的順序排序,提取預(yù)定數(shù)量的基站生成用戶常用基站特征向量。相似度指數(shù)確定模塊404能夠根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù),在一個實施例中,可以通過計算兩個用戶的用戶常用基站特征向量的交集的方式確定兩個用戶的相似度指數(shù)。
這樣的裝置能夠基于通信行為發(fā)生的位置和時間獲取用戶常用基站特征向量,再根據(jù)用戶常用基站特征向量計算用戶相似度指數(shù),具有很好的通用性;由于考慮到了地域和時間兩個維度,能夠有效的提高相似度計算的準(zhǔn)確度;采用特征向量計算的方式確定相似度指數(shù)復(fù)雜度較低,提高了運算效率,降低了對運算設(shè)備的性能要求。
本發(fā)明的相似用戶識別裝置的另一個實施例示意圖如圖5所示。其中,數(shù)據(jù)提取模塊51用于提取用戶通信行為發(fā)生的位置和時間。常用指數(shù)獲取模塊52包括周期指數(shù)確定單元521和常用指數(shù)確定單元522,周期指數(shù)確定單元521用于根據(jù)設(shè)定的預(yù)定周期先確定用戶在預(yù)定時間段內(nèi)的預(yù)定周期基站常用指數(shù)。預(yù)定周期可以包括一個月、十日、七日、三日、一日。預(yù)定周期基站常用指數(shù)可以是在預(yù)定時間段內(nèi)用戶與基站發(fā)生過交互的預(yù)定周期的個數(shù)與預(yù)定時間段內(nèi)預(yù)定周期 的個數(shù)的比值。在一個實施例中,可以根據(jù)公式:
計算預(yù)定周期基站常用指數(shù)。其中,i為預(yù)定周期基站常用指數(shù),n為預(yù)定時間段內(nèi)預(yù)定周期的個數(shù),i為預(yù)定時間段內(nèi)的預(yù)定周期標(biāo)號,ti為第i個周期內(nèi)用戶是否與基站發(fā)生過交互的標(biāo)識:若在第i個預(yù)定周期內(nèi)用戶與基站發(fā)生過交互,則ti=1;若在第i個預(yù)定周期內(nèi)用戶與基站未發(fā)生過交互,則ti=0。
常用指數(shù)確定單元522用于根據(jù)不同預(yù)定周期的預(yù)定周期基站常用指數(shù)確定基站常用指數(shù)。在一個實施例中,可以根據(jù)公式:
ci=35my+30ty+16wy+12thy+8dy(2)
確定基站常用指數(shù),其中,ci為用戶在預(yù)定時間段內(nèi)的基站常用指數(shù),my為預(yù)定周期為一個月的預(yù)定周期基站常用指數(shù);ty為預(yù)定周期為十日的預(yù)定周期基站常用指數(shù);wy為預(yù)定周期為七日的預(yù)定周期基站常用指數(shù);thy為預(yù)定周期為三日的預(yù)定周期基站常用指數(shù);dy為預(yù)定周期為一日的預(yù)定周期基站常用指數(shù)。
特征向量獲取模塊53用于根據(jù)用戶相對于不同基站的基站常用指數(shù)提取預(yù)定數(shù)量基站,生成用戶常用基站特征向量。在一個實施例中,可以將用戶相對于每個基站的基站常用指數(shù)按照從大到小的順序排序,提取預(yù)定數(shù)量的基站生成用戶常用基站特征向量。在一個實施例中,用戶常用基站特征向量可以為p=(c1,c2,c3……cy),其中,c1、c2、c3、cy均為基站標(biāo)識,y為預(yù)定數(shù)量。
相似度指數(shù)確定模塊54用于根據(jù)不同用戶的用戶常用基站特征向量確定用戶相似度指數(shù)。可以通過計算兩個用戶的用戶常用基站特征向量的交集的方式確定兩個用戶的相似度指數(shù)。在一個實施例中,可以根據(jù)公式
s=(pm∩pn)/y(3)
確定用戶相似度指數(shù),其中,m、n為用戶標(biāo)識,s為用戶n與用戶m的相似度指數(shù),pm為用戶m的常用基站特征向量,pn為用戶 n的常用基站特征向量,pm∩pn為pm與pn中相同的基站數(shù)量,y為用戶常用基站特征向量中基站的數(shù)量。
這樣的裝置能夠通過低復(fù)雜度的計算確定用戶相似度指數(shù),提高了運算效率,降低了對設(shè)備的要求;以預(yù)定周期基站常用指數(shù)確定基站常用指數(shù),充分考慮到了用戶行為的周期性,使計算的結(jié)果更加準(zhǔn)確。
在一個實施例中,周期指數(shù)確定單元521可以每隔預(yù)定周期進行一次計算,確定預(yù)定周期基站常用指數(shù)并存儲計算結(jié)果,當(dāng)達到預(yù)定時間段的截止日期時,常用指數(shù)確定單元522根據(jù)該預(yù)定時間段內(nèi)計算出的預(yù)定周期基站常用指數(shù)確定基站常用指數(shù),并將基站常用指數(shù)存入特征庫,根據(jù)特征庫中存儲的數(shù)據(jù)計算用戶常用基站特征向量。如:預(yù)定周期包括一個月、十日、七日、三日和一日,則以預(yù)定時間段的起始日期為起點,周期指數(shù)確定單元521每天計算一次以一日為周期的預(yù)定周期基站常用指數(shù)、每三天計算一次以三日為周期的預(yù)定周期基站常用指數(shù)、每七天計算一次以七日為周期的預(yù)定周期基站常用指數(shù)、每十天計算一次以十日為周期的預(yù)定周期基站常用指數(shù)、每月計算一次以一月為周期的預(yù)定周期基站常用指數(shù),在達到預(yù)定時間段的截止日期時,常用指數(shù)確定單元522根據(jù)預(yù)定時間段內(nèi)所有預(yù)定周期基站常用指數(shù)計算基站常用指數(shù)。
這樣的裝置能夠隨著時間的推移逐步計算預(yù)定周期基站常用指數(shù),在預(yù)定時間段結(jié)束時根據(jù)之前的計算結(jié)果得到基站常用指數(shù),從而進一步減少運算的等待時間,提高了運算效率。
在一個實施例中,數(shù)據(jù)提取模塊用于提取用戶在工作日的通信行為發(fā)生的位置和時間,常用指數(shù)獲取模塊基于用戶在預(yù)定時間段內(nèi)工作日的通信行為發(fā)生的位置和時間得到的是用戶相對于基站的工作日基站常用指數(shù),特征向量獲取模塊根據(jù)工作日基站常用指數(shù)得到用戶工作日常用基站特征向量,相似度指數(shù)確定模塊以不同用戶的用戶工作日常用基站特征向量為基礎(chǔ)計算得到的用戶相似度指數(shù)為用戶工作日相似度指數(shù),能夠體現(xiàn)用戶在工作日的相似情況,便于識別工作日 相似用戶。
在一個實施例中,數(shù)據(jù)提取模塊用于提取用戶在工作日的通信行為發(fā)生的位置和時間,常用指數(shù)獲取模塊基于用戶在預(yù)定時間段內(nèi)節(jié)假日的通信行為發(fā)生的位置和時間得到的是用戶相對于基站的節(jié)假日基站常用指數(shù),特征向量獲取模塊根據(jù)節(jié)假日基站常用指數(shù)得到用戶節(jié)假日常用基站特征向量,相似度指數(shù)確定模塊以不同用戶的用戶節(jié)假日常用基站特征向量為基礎(chǔ)計算得到的用戶相似度指數(shù)為用戶節(jié)假日相似度指數(shù),能夠體現(xiàn)用戶在節(jié)假日的相似情況,便于識別節(jié)假日相似用戶。
由于節(jié)假日和工作日的用戶行為會有較大區(qū)別,因此將工作日和節(jié)假日的區(qū)別納入考慮范圍能夠?qū)崿F(xiàn)對用戶相似度的更準(zhǔn)確的計算;基于時間和地域兩個維度的相似度計算能夠?qū)崿F(xiàn)較高準(zhǔn)確度的相似用戶識別。
在一個實施例中,相似度指數(shù)確定模塊可以包括工作日相似度確定單元、節(jié)假日相似度確定單元和綜合相似度確定單元,其中,工作日相似度確定單元用于獲取用戶工作日相似度指數(shù),節(jié)假日相似度確定單元用于獲取用戶節(jié)假日相似度指數(shù),綜合相似度確定單元用于基于用戶工作日相似度指數(shù)和用戶節(jié)假日相似度指數(shù)配合對應(yīng)的預(yù)定權(quán)值獲得用戶綜合相似度指數(shù),基于用戶綜合相似度指數(shù)判斷用戶相似情況。在一個實施例中,綜合相似度確定單元可以基于公式:
s=a*sw+b*sh
計算用戶綜合相似度指數(shù)。其中,s為用戶綜合相似度指數(shù),sw為用戶工作日相似度指數(shù),sh為用戶節(jié)假日相似度指數(shù),a為用戶工作日相似度指數(shù)權(quán)重,b為用戶節(jié)假日相似度指數(shù)權(quán)重。
這樣的裝置能夠基于用戶工作日和節(jié)假日的相似狀況綜合考慮用戶相似度,從而得到更加全面的用戶相似度指數(shù),使相似用戶的識別更加準(zhǔn)確。
本發(fā)明的相似用戶識別裝置的又一個實施例示意圖如圖6所示。其中,數(shù)據(jù)提取模塊601、常用指數(shù)獲取模塊602、特征向量獲取模塊 603和相似度指數(shù)確定模塊604的結(jié)構(gòu)和功能與圖4的實施例中相似。相似用戶識別裝置還包括相似用戶確定模塊605,用于將用戶相似度指數(shù)與預(yù)定閾值相比較;若相似度指數(shù)不小于預(yù)定閾值,則確定兩用戶為相似用戶;若相似度指數(shù)小于預(yù)定閾值,則確定兩用戶為非相似用戶。在一個實施例中,可以輸出相似用戶清單,或標(biāo)記相似用戶,便于后續(xù)處理和研究。
這樣的裝置能夠通過閾值比較的方法根據(jù)用戶的相似度指數(shù)確定相似用戶,從而能夠識別相似用戶,便于根據(jù)相似用戶數(shù)據(jù)進行處理和研究分析。
最后應(yīng)當(dāng)說明的是:以上實施例僅用以說明本發(fā)明的技術(shù)方案而非對其限制;盡管參照較佳實施例對本發(fā)明進行了詳細的說明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:依然可以對本發(fā)明的具體實施方式進行修改或者對部分技術(shù)特征進行等同替換;而不脫離本發(fā)明技術(shù)方案的精神,其均應(yīng)涵蓋在本發(fā)明請求保護的技術(shù)方案范圍當(dāng)中。