專利名稱:一種客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)業(yè)務(wù)技術(shù)領(lǐng)域,特別是一種客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法及裝置。
背景技術(shù):
目前,各個運營商的小區(qū)短信系統(tǒng)覆蓋的MSC(Mobile Switch Center,移動交換 中心)/MGW(Media Gateway,媒體網(wǎng)關(guān))非常多。小區(qū)短信系統(tǒng)主要在移動通信運營商現(xiàn)有的網(wǎng)絡(luò)基礎(chǔ)上,收集指定熱點小區(qū)客戶 活動的信息。小區(qū)短信系統(tǒng)采集的數(shù)據(jù)是基于移動客戶和移動局間傳輸?shù)男帕钚畔⒎治龅?到的,不管客戶是否使用移動業(yè)務(wù),都能夠提供客戶全天的網(wǎng)絡(luò)行為信息,比BOSS話單等 數(shù)據(jù)具備更全面的客戶行為信息。利用小區(qū)短信系統(tǒng)采集的客戶網(wǎng)絡(luò)行為信息,結(jié)合地理分布數(shù)據(jù),可以提取客戶 的相關(guān)特征,經(jīng)過多維度的分析處理,還可以挖掘出許多有價值的客戶信息,如客戶屬性、 客戶流動性、人口密度、客戶日常生活軌跡等等。這些客戶信息具備很大的應(yīng)用價值,可以 為精確營銷支撐、商業(yè)信息精確推送、公共應(yīng)急預(yù)報發(fā)布等提供準確的客戶數(shù)據(jù)。然而現(xiàn)有的小區(qū)短信系統(tǒng)采集的客戶網(wǎng)絡(luò)行為數(shù)據(jù)的數(shù)據(jù)量很大,可能達到數(shù)億 條數(shù)據(jù),這么龐大的數(shù)據(jù)量不僅需要耗費大量的存儲空間,而且原始數(shù)據(jù)中存在的冗余數(shù) 據(jù)和異常數(shù)據(jù)將會影響數(shù)據(jù)挖掘分析的準確性。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法及裝置,降低小區(qū)短信系統(tǒng) 采集的客戶網(wǎng)絡(luò)行為數(shù)據(jù)所耗費的存儲空間,并提高數(shù)據(jù)的整體質(zhì)量。為了實現(xiàn)上述目的,本發(fā)明實施例提供了一種客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,包 括將客戶網(wǎng)絡(luò)行為數(shù)據(jù)分為客戶主動行為數(shù)據(jù)和客戶被動行為數(shù)據(jù);從客戶的主動行為數(shù)據(jù)中提取客戶的行為信息并保存到行為信息事實表中;從客戶的主動行為數(shù)據(jù)和被動行為數(shù)據(jù)中提取客戶的位置信息,并利用所述位置 信息得到第一有向序列圖;所述第一有向序列圖中的點表示小區(qū),以第一小區(qū)為起點,以第 二小區(qū)為終點的邊表示用戶從第一小區(qū)移動到第二小區(qū);基于圖論對所述第一有向序列圖進行分析處理,刪除所述第一有向序列圖中冗余 數(shù)據(jù)對應(yīng)的冗余的邊和/或點,得到第二有向序列圖;將所述第二有向序列圖記錄的位置信息保存到客戶位置信息事實表。上述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,其中,所述客戶網(wǎng)絡(luò)行為數(shù)據(jù)為從小區(qū)短信系統(tǒng)接口采集到的原始客戶網(wǎng)絡(luò)行為數(shù)據(jù);或?qū)λ鲈伎蛻艟W(wǎng)絡(luò)行為數(shù)據(jù)進行數(shù)據(jù)清洗得到的數(shù)據(jù)。上述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,其中,所述冗余數(shù)據(jù)為異常位置更新行為數(shù) 據(jù)、乒乓切換數(shù)據(jù)或循環(huán)走動數(shù)據(jù)。
上述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,其中,基于圖論對所述第一有向序列圖進行 分析處理,刪除所述第一有向序列圖中冗余數(shù)據(jù)對應(yīng)的冗余的邊和/或點,得到第二有向 序列圖具體為清除第一有向序列圖中所有從自身到自身的有向序列邊,得到所述第二有向序列 圖。上述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,其中,基于圖論對所述第一有向序列圖進行 分析處理,刪除所述第一有向序列圖中冗余數(shù)據(jù)對應(yīng)的冗余的邊和/或點,得到第二有向 序列圖具體為根據(jù)所述第一有向序列圖中獲取所有的目標(biāo)集,所述目標(biāo)集中任意兩個相鄰的點 之間都可能存在乒乓切換;對于每一個目標(biāo)集,計算其中的每個點的總度數(shù);在目標(biāo)集中的任意一個點的總度數(shù)大于預(yù)設(shè)閾值時,保留目標(biāo)集中總度數(shù)最大的 點,并將所述第一有向序列圖中連接到目標(biāo)集的邊都連接到總度數(shù)最大的點上,所有從目 標(biāo)集出去的邊都改為從總度數(shù)最大的點出去,得到所述第二有向序列圖。上述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,其中,基于圖論對所述第一有向序列圖進行 分析處理,刪除所述第一有向序列圖中冗余數(shù)據(jù)對應(yīng)的冗余的邊和/或點,得到第二有向 序列圖具體為根據(jù)所述第一有向序列圖中獲取由有向回路組成的第一集合;從所述第一集合中刪除部分有向回路,得到第二集合,被刪除的有向回路的點集 為其他有向回路的真子集,或者被刪除的有向回路的點集與其他有向回路的點集的交集不 是空集,且被刪除的有向回路包括的點的數(shù)量較小,或者被刪除的有向回路的點集與其他 有向回路的點集的交集不是空集,且被刪除的有向回路較晚出現(xiàn);從第一有向序列圖中刪除第二集合中的有向回路所對應(yīng)的邊,并刪除孤立點,得 到所述第二有向序列圖。上述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,其中,行為信息事實表和客戶位置信息事實 表利用時段記錄時間信息。為了實現(xiàn)上述目的,本發(fā)明實施例還提供了一種戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其特 征在于,包括劃分模塊,用于將客戶網(wǎng)絡(luò)行為數(shù)據(jù)分為客戶主動行為數(shù)據(jù)和客戶被動行為數(shù) 據(jù);行為信息提取及保存模塊,用于從客戶的主動行為數(shù)據(jù)中提取客戶的行為信息并 保存到行為信息事實表中;第一圖構(gòu)建模塊,用于從客戶的主動行為數(shù)據(jù)和被動行為數(shù)據(jù)中提取客戶的位置 信息,并利用所述位置信息得到第一有向序列圖;所述第一有向序列圖中的點表示小區(qū),以 第一小區(qū)為起點,以第二小區(qū)為終點的邊表示用戶從第一小區(qū)移動到第二小區(qū);第二圖構(gòu)建模塊,用于基于圖論對所述第一有向序列圖進行分析處理,刪除所述 第一有向序列圖中冗余數(shù)據(jù)對應(yīng)的冗余的邊和/或點,得到第二有向序列圖;位置信息保存模塊,將將所述第二有向序列圖記錄的位置信息保存到客戶位置信 息事實表。
上述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其中,所述客戶網(wǎng)絡(luò)行為數(shù)據(jù)為從小區(qū)短信系統(tǒng)接口采集到的原始客戶網(wǎng)絡(luò)行為數(shù)據(jù);或?qū)λ鲈伎蛻艟W(wǎng)絡(luò)行為數(shù)據(jù)進行數(shù)據(jù)清洗得到的數(shù)據(jù)。上述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其中,所述冗余數(shù)據(jù)為異常位置更新行為數(shù) 據(jù)、乒乓切換數(shù)據(jù)或循環(huán)走動數(shù)據(jù)。上述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其中,第二圖構(gòu)建模塊具體包括用于清除第一有向序列圖中所有從自身到自身的有向序列邊,得到所述第二有向 序列圖的單元。上述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其中,第二圖構(gòu)建模塊具體包括用于根據(jù)所述第一有向序列圖中獲取所有的目標(biāo)集的單元,所述目標(biāo)集中任意兩 個相鄰的點之間都可能存在乒乓切換;用于對每一個目標(biāo)集,計算其中的每個點的總度數(shù)的單元;用于在目標(biāo)集中的任意一個點的總度數(shù)大于預(yù)設(shè)閾值時,保留所述目標(biāo)集中總度 數(shù)最大的點,并將所述第一有向序列圖中連接到目標(biāo)集的邊都連接到總度數(shù)最大的點上, 所有從目標(biāo)集出去的邊都改為從總度數(shù)最大的點出去,得到所述第二有向序列圖的單元。上述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其中,第二圖構(gòu)建模塊具體包括用于根據(jù)所述第一有向序列圖中獲取由有向回路組成的第一集合的單元;用于從所述第一集合中刪除部分有向回路,得到第二集合的單元,被刪除的有向 回路的點集為其他有向回路的真子集,或者被刪除的有向回路的點集與其他有向回路的點 集的交集不是空集,且被刪除的有向回路包括的點的數(shù)量較小,或者被刪除的有向回路的 點集與其他有向回路的點集的交集不是空集,且被刪除的有向回路較晚出現(xiàn);用于從第一有向序列圖中刪除第二集合中的有向回路所對應(yīng)的邊,并刪除孤立 點,得到所述第二有向序列圖的單元。上述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其中,行為信息事實表和客戶位置信息事實 表利用時段記錄時間信息。本發(fā)明實施例具有以下的有益效果本發(fā)明實施例中,將客戶網(wǎng)絡(luò)行為數(shù)據(jù)劃分為客戶主動行為數(shù)據(jù)和客戶被動行為 數(shù)據(jù),并基于圖論進行客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu),從客戶網(wǎng)絡(luò)行為數(shù)據(jù)中分析提取出客戶的 行為信息和位置信息,在保證數(shù)據(jù)符合業(yè)務(wù)要求的前提下,不僅大幅度壓縮了數(shù)據(jù)的存儲 空間,而且提高了數(shù)據(jù)的整體質(zhì)量,在此基礎(chǔ)上構(gòu)建了一個面向客戶網(wǎng)絡(luò)行為分析主題的、 數(shù)據(jù)占用存儲空間少而數(shù)據(jù)質(zhì)量高的數(shù)據(jù)集市。
圖1為本發(fā)明實施例的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法的流程示意圖;圖2為客戶登記小區(qū)情況為aabac時對應(yīng)的有向序列圖;圖3為本發(fā)明實施例的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置的流程示意圖;圖4-圖5為利用本發(fā)明實施例的方法處理乒乓切換數(shù)據(jù)的有向序列圖;圖6-圖7為利用本發(fā)明實施例的方法處理循環(huán)走動數(shù)據(jù)的有向序列圖。
具體實施例方式本發(fā)明實施例中,針對客戶網(wǎng)絡(luò)行為數(shù)據(jù)的特點,從圖論的角度出發(fā),把小區(qū)表示 為有向圖中的點,把客戶在小區(qū)之間的位置移動表示為連結(jié)對應(yīng)點的有向邊,從而使用有 向序列圖的理論對客戶網(wǎng)絡(luò)行為數(shù)據(jù)中存在的異常位置更新、乒乓切換和循環(huán)走動數(shù)據(jù)進 行分析和優(yōu)化處理,并最終轉(zhuǎn)換成客戶的位置信息和行為信息裝載到數(shù)據(jù)集市中。在保證 數(shù)據(jù)符合業(yè)務(wù)要求的前提下,該方法不僅大幅度壓縮了數(shù)據(jù)的存儲空間,還提高了數(shù)據(jù)質(zhì) 量,為進一步的數(shù)據(jù)挖掘分析提供了良好的數(shù)據(jù)準備,具有較強的實用推廣價值。在對本發(fā)明實施例進行詳細描述之前,先對本發(fā)明實施例涉及到的概念進行描 述,以便于更好的理解本發(fā)明實施例。客戶網(wǎng)絡(luò)行為數(shù)據(jù)記錄客戶網(wǎng)絡(luò)行為(如開機、關(guān)機、收短信、發(fā)短信、語音主 叫、語音被叫、正常位置更新和周期位置更新等)的數(shù)據(jù)??蛻糁鲃有袨閿?shù)據(jù)客戶網(wǎng)絡(luò)行為中,客戶有意識地進行參與的,并且與客戶實 際通信行為相對應(yīng)的網(wǎng)絡(luò)行為為客戶主動行為,在小區(qū)短信系統(tǒng)采集的客戶網(wǎng)絡(luò)行為數(shù)據(jù) 中,記錄客戶主動行為(如開機、關(guān)機、收短信、發(fā)短信、語音主叫和語音被叫)的數(shù)據(jù)為客 戶主動行為數(shù)據(jù)。客戶被動行為數(shù)據(jù)客戶網(wǎng)絡(luò)行為中,客戶無意識進行參與的網(wǎng)絡(luò)行為作為客戶 被動行為,在小區(qū)短信系統(tǒng)采集的客戶網(wǎng)絡(luò)行為數(shù)據(jù)中,記錄客戶被動行為(如正常位置 更新和周期位置更新行為等)的數(shù)據(jù)為客戶被動行為數(shù)據(jù)。客戶位置信息事實表在構(gòu)建的數(shù)據(jù)集市中,用于保存客戶位置信息的事實表,主 要是記錄客戶在某個小區(qū)所停留的時長,用于表明客戶的位置變化情況??蛻粜袨樾畔⑹聦嵄碓跇?gòu)建的數(shù)據(jù)集市中,用于保存客戶行為信息的事實表。主 要是記錄客戶的主動行為數(shù)據(jù),用于表明客戶的行為情況。如圖1所示,本發(fā)明實施例的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法包括步驟11,將客戶網(wǎng)絡(luò)行為數(shù)據(jù)分為客戶主動行為數(shù)據(jù)和客戶被動行為數(shù)據(jù);步驟12,從客戶的主動行為數(shù)據(jù)中提取客戶的行為信息并保存到行為信息事實表 中;步驟13,從客戶的主動行為數(shù)據(jù)和被動行為數(shù)據(jù)中提取客戶的位置信息,并利用 所述位置信息得到第一有向序列圖;所述第一有向序列圖中的點表示小區(qū),以第一小區(qū)為 起點,以第二小區(qū)為終點的邊表示用戶從第一小區(qū)移動到第二小區(qū);本發(fā)明實施例中從圖論的角度來分析處理客戶的位置變化數(shù)據(jù)。首先,R局中的 每個小區(qū)用有向序列圖中的一個點Ci來表示,而客戶在某兩個小區(qū)之間的位置移動則可以 用一條連結(jié)對應(yīng)點的有向序列邊Iij來表示。這樣對位置信息的分析處理就可以運用圖論 的理論對有向序列圖進行分析處理。例如客戶在某個時段內(nèi)的登記小區(qū)情況為aabaC(a、b、c分別代表不同的小區(qū)), 則有向序列圖的表示如圖2所示。步驟14,基于圖論對所述第一有向序列圖進行分析處理,刪除所述第一有向序列 圖中冗余數(shù)據(jù)對應(yīng)的冗余的邊和/或點,得到第二有向序列圖;步驟15,將所述第二有向序列圖記錄的位置信息保存到客戶位置信息事實表。如圖3所示,本發(fā)明實施例的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置包括
劃分模塊,用于將客戶網(wǎng)絡(luò)行為數(shù)據(jù)分為客戶主動行為數(shù)據(jù)和客戶被動行為數(shù) 據(jù);行為信息提取及保存模塊,用于從客戶的主動行為數(shù)據(jù)中提取客戶的行為信息并 保存到行為信息事實表中;第一圖構(gòu)建模塊,用于從客戶的主動行為數(shù)據(jù)和被動行為數(shù)據(jù)中提取客戶的位置 信息,并利用所述位置信息得到第一有向序列圖;所述第一有向序列圖中的點表示小區(qū),以 第一小區(qū)為起點,以第二小區(qū)為終點的邊表示用戶從第一小區(qū)移動到第二小區(qū);第二圖構(gòu)建模塊,用于基于圖論對所述第一有向序列圖進行分析處理,刪除所述 第一有向序列圖中冗余數(shù)據(jù)對應(yīng)的冗余的邊和/或點,得到第二有向序列圖;位置信息保存模塊,將所述第二有向序列圖記錄的位置信息保存到客戶位置信息 事實表。當(dāng)然,在本發(fā)明的具體實施例中,該客戶網(wǎng)絡(luò)行為數(shù)據(jù)可以是如下兩種數(shù)據(jù)由采集模塊從小區(qū)短信系統(tǒng)接口采集到的原始客戶網(wǎng)絡(luò)行為數(shù)據(jù);對采集模塊從小區(qū)短信系統(tǒng)接口采集到的原始客戶網(wǎng)絡(luò)行為數(shù)據(jù)進行數(shù)據(jù)清洗 得到的數(shù)據(jù)。在本發(fā)明的具體實施例中,該清洗具體為清除所述原始客戶網(wǎng)絡(luò)行為數(shù)據(jù)中的 異常數(shù)據(jù)或數(shù)據(jù)質(zhì)量較差的數(shù)據(jù),如客戶號碼為空或者小區(qū)CGI為空的數(shù)據(jù)。
本發(fā)明具體實施例中,對數(shù)據(jù)的重構(gòu)是以客戶為單位進行的。首先,從客戶網(wǎng)絡(luò)行為數(shù)據(jù)中抽取每個客戶一個時間段的所有記錄,并按時間先 后進行排序,同時為每個記錄加上一個標(biāo)記位以標(biāo)識該記錄在記錄集中的序號,用以表示 該客戶一天所有網(wǎng)絡(luò)行為發(fā)生的先后順序;對于行為信息提取及保存模塊,需要從每個客戶的一個時間段(如一天)的主動 行為數(shù)據(jù)中提取出客戶的行為信息,加上客戶號碼所包含的具體信息(如品牌、地區(qū)、運營 商),一并裝載到數(shù)據(jù)集市的客戶行為信息事實表中,就完成了 了行為信息的提取及保存。由于這些行為信息都已經(jīng)記錄在每一條客戶網(wǎng)絡(luò)行為數(shù)據(jù),從中提取出來非常容 易實現(xiàn),在此不作詳細說明。而對于位置信息的提取及保存,也需要從從每個客戶的一個時間段(如一天)的 所有行為數(shù)據(jù)中提取出客戶的位置信息,并按照時間順序?qū)ζ溥M行分段處理,詳細說明如 下。在本發(fā)明具體實施例中,該冗余數(shù)據(jù)可以是異常位置更新行為數(shù)據(jù)、乒乓切換數(shù) 據(jù)、循環(huán)走動數(shù)據(jù)等,下面對其進行說明如下。異常位置更新行為數(shù)據(jù)客戶短時間內(nèi)在同一個注冊小區(qū)發(fā)生連續(xù)多次重復(fù)的位 置更新行為為異常位置更新行為,而該行為對應(yīng)的數(shù)據(jù)為異常位置更新行為數(shù)據(jù),異常位 置更新行為產(chǎn)生的原因可能是信號出現(xiàn)異常所致。乒乓切換數(shù)據(jù)當(dāng)客戶處于相鄰LA的邊界小區(qū)時,由于基站信號的不穩(wěn)定,客戶 會在這些相鄰LA之間不斷發(fā)生切換行為,而由此產(chǎn)生的頻繁位置更新行為數(shù)據(jù)為乒乓切 換數(shù)據(jù)。乒乓切換數(shù)據(jù)屬于半異常數(shù)據(jù),必須對其進行優(yōu)化處理,以保證進一步挖掘分析的 準確性。循環(huán)走動數(shù)據(jù)當(dāng)客戶從一個小區(qū)出發(fā),在一定時間內(nèi)短暫停留其他小區(qū)后又回到初始小區(qū),這樣的位置變化為循環(huán)走動。根據(jù)業(yè)務(wù)需求,循環(huán)走動對于客戶的流動性分析 存在一定的干擾,需要對其進行優(yōu)化處理。下面分別針對上述3種數(shù)據(jù)的處理進行詳細說明。<異常位置更新行為數(shù)據(jù)>從圖論的角度分析,某個時段內(nèi)的小區(qū)位置變化情況可以用有向序列圖G來表 示,異常位置更新行為數(shù)據(jù)為一個小區(qū)集合A,該小區(qū)集合A中的每一個元素(小區(qū))均存 在從自身到自身的有向序列邊,也就是具有自反性。為了從第一有向序列圖中排除異常位置更新行為數(shù)據(jù),則對于這種客戶短時間 內(nèi)在同一個注冊小區(qū)發(fā)生連續(xù)多次重復(fù)的位置更新行為,在本發(fā)明的具體實施例中,清除 第一有向序列圖中所有從自身到自身的有向序列邊,剩余的有向序列邊組成第二有向序列 圖。<乒乓切換數(shù)據(jù)>從圖論的角度分析,某個時段內(nèi)的位置變化情況可以用有向序列圖G來表示。如 果兩個小區(qū)Ci, Cj之間的地理位置距離小于它們所屬基站的覆蓋半徑之和,則認為Ci, Cj之 間可能存在乒乓切換。當(dāng)然,判斷兩個小區(qū)是否存在乒乓切換的可能也可以采用其他的判 斷方式,在此不一一列舉。在本發(fā)明具體實施例中,根據(jù)所述第一有向序列圖中獲取所有的目標(biāo)集,所述目 標(biāo)集中任意兩個相鄰的點之間都可能存在乒乓切換;對于每一個目標(biāo)集,計算其中的每個頂點的總度數(shù),并在其中任意一個頂點的總 度數(shù)大于預(yù)設(shè)閾值時,保留所述目標(biāo)集中總度數(shù)最大的點,并將連接到目標(biāo)集的邊都連接 到總度數(shù)最大的點上,所有從目標(biāo)集出去的邊都改為從總度數(shù)最大的點出去。下面進行詳細說明。對于一個位置變化序列,如果其中任意兩個相鄰的點之間都可能存在乒乓切換, 那么記這個位置變化序列為目標(biāo)集P。設(shè)G中可能存在乒乓切換的點的集合為F,乒乓切換數(shù)據(jù)就是指集合F中的目標(biāo)集 集合 Set = (P1 P1 .. .,PqI ο設(shè)定一個閾值valve,對于每一個目標(biāo)集Pi,分別計算每個頂點的總度數(shù), 記為 D(Pi) = {d(Cl),d(c2), ···,d(Cj)}(Ck e Ci, (Kci)為 Ci 的出入度之和),如果 3k(d(ck)> να/ve測稱目標(biāo)集Pi滿足乒乓切換的條件。對乒乓切換數(shù)據(jù)的處理方式如下令d(Ct) =MAXid(C1), d(c2), ...,d(Cj)}(即選擇總度數(shù)最大的點),則目標(biāo)集 Pi中只保留點ct,其余的點和邊都刪除。最后更新G中的有向序列邊,Mkab Oi = (cb e Ci),即將所有連接到目標(biāo)集Pi的邊都連接到Ct上,所有從目標(biāo)集Pi出去的邊都改為 從4出去。對上述的處理過程說明如下。例如,設(shè)F = {a,b,c},客戶在該時段的位置變化情況為abcbabd,閾值valve = 4。 則有向序列圖G如圖4所示,其中d(a) =3,d(b) = 5,d(c) =2,d(b) >valve且d(b)= MAX。則經(jīng)過目標(biāo)集刪除和邊更新后的圖如圖5所示。
〈循環(huán)走動數(shù)據(jù)〉從圖論的角度分析,某個時段內(nèi)的位置變化情況可以用有向序列圖G來表示。對 于一個位置變化序列,如果起始小區(qū)與終點小區(qū)相同,那么記這個序列為有向回路Tit5循環(huán) 走動數(shù)據(jù)就是指G中的有向回路集合kt = {T”!^,...}。對循環(huán)走動數(shù)據(jù)的處理方法如下根據(jù)所述第一有向序列圖中獲取由有向回路組成的第一集合;從所述第一集合中刪除部分有向回路,得到第二集合,被刪除的有向回路的點集 為其他有向回路的真子集,或者被刪除的有向回路的點集與其他有向回路的點集的交集不 是空集,且被刪除的有向回路包括的點的數(shù)量較小,或者被刪除的有向回路的點集與其他 有向回路的點集的交集不是空集,且被刪除的有向回路較晚出現(xiàn);從第一有向序列圖中刪除第二集合中的有向回路所對應(yīng)的邊,并刪除孤立點,得 到所述第二有向序列圖。具體說明如下。Set = Set -T1 ( 3J(T, czT^v BjXTi ^Tj ^ φ a IeniTi) < IeniTj)))。如果 Ti 中的點集是L中的點集的子集,則認為K e Tj ;如果Ti中的點集與&中的點集存在交集,并且Ti的點 數(shù)量(即 Ien (Ti))小于 Tj 的點數(shù)量(即 Ien (Tj)),則認為 Ti Π Tj ^ Φ "len (Ti) < Ien (Tj)。 如果Ti與Tj的點集相等,則只保留最早出現(xiàn)的那個有向回路。處理后集合中剩下的就是兩兩不相交的最大長度有向回路。對于有向回路集合中 的所有Li,在G中刪除Li所包含的所有邊,同時刪除孤立點。例如,假設(shè)客戶在該時段的位置變化情況為abcdaed,則有向序列圖G如圖6所示, 在G中刪除Li所包含的所有邊,同時刪除孤立點后如圖7所示。在本發(fā)明的具體實施例中,從小區(qū)短信系統(tǒng)接口采集到的原始客戶網(wǎng)絡(luò)行為數(shù)據(jù) 原始表中表明時間的字段形式為“年-月-日時分秒”,而數(shù)據(jù)集市中的行為信息事 實表和位置信息事實表的表名已經(jīng)包含了年月日的信息,另外,根據(jù)業(yè)務(wù)需求,在進行挖掘 分析時時間精度要求精確到半個小時就可以了,因此本方案按半個小時為一個時段,將一 天劃分為48個時段,并將具體時間映射到對應(yīng)的時段,客戶行為的時間信息就是這樣保存 在事實表中的。原始客戶網(wǎng)絡(luò)行為數(shù)據(jù)原始表中用于表明小區(qū)編號的字段為小區(qū)的CGI,CGI表 示格式為“460-00-X X X X-X X X X X ”,其中“ X ”表示具體的數(shù)字,這種表示格式需要 存儲空間大,且存在冗余,不僅不利于進行數(shù)據(jù)分析,也增加了結(jié)果數(shù)據(jù)的存儲成本,因此 需要對其進行轉(zhuǎn)換。本發(fā)明具體實施例建立一個對照表,將字符串形式的CGI轉(zhuǎn)換為整數(shù) 形式的cell_id保存到事實表中,cell_id與CGI —一對應(yīng)。記錄數(shù)壓縮比表示行為信息事實表和位置信息事實表的記錄總數(shù)相對于原始表 記錄總數(shù)所減少的比例。而容量壓縮比則表示行為信息事實表和位置信息事實表的記錄所 占總?cè)萘肯鄬τ谠急碛涗浰既萘克鶞p少的比例。記錄數(shù)壓縮比Np為Np=I-AiJiη其中,An為行為信息事實表的記錄總數(shù),Ln為位置信息事實表的記錄總數(shù);0η為原始表的記錄總數(shù)。
容量壓縮比Cp為
權(quán)利要求
1.一種客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,其特征在于,包括將客戶網(wǎng)絡(luò)行為數(shù)據(jù)分為客戶主動行為數(shù)據(jù)和客戶被動行為數(shù)據(jù); 從客戶的主動行為數(shù)據(jù)中提取客戶的行為信息并保存到行為信息事實表中; 從客戶的主動行為數(shù)據(jù)和被動行為數(shù)據(jù)中提取客戶的位置信息,并利用所述位置信息 得到第一有向序列圖;所述第一有向序列圖中的點表示小區(qū),以第一小區(qū)為起點,以第二小 區(qū)為終點的邊表示用戶從第一小區(qū)移動到第二小區(qū);基于圖論對所述第一有向序列圖進行分析處理,刪除所述第一有向序列圖中冗余數(shù)據(jù) 對應(yīng)的冗余的邊和/或點,得到第二有向序列圖;將所述第二有向序列圖記錄的位置信息保存到客戶位置信息事實表。
2.根據(jù)權(quán)利要求1所述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,其特征在于,所述客戶網(wǎng)絡(luò)行 為數(shù)據(jù)為從小區(qū)短信系統(tǒng)接口采集到的原始客戶網(wǎng)絡(luò)行為數(shù)據(jù);或 對所述原始客戶網(wǎng)絡(luò)行為數(shù)據(jù)進行數(shù)據(jù)清洗得到的數(shù)據(jù)。
3.根據(jù)權(quán)利要求1或2所述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,其特征在于,所述冗余數(shù)據(jù) 為異常位置更新行為數(shù)據(jù)、乒乓切換數(shù)據(jù)或循環(huán)走動數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,其特征在于,基于圖論對所述 第一有向序列圖進行分析處理,刪除所述第一有向序列圖中冗余數(shù)據(jù)對應(yīng)的冗余的邊和/ 或點,得到第二有向序列圖具體為清除第一有向序列圖中所有從自身到自身的有向序列邊,得到所述第二有向序列圖。
5.根據(jù)權(quán)利要求3所述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,其特征在于,基于圖論對所述 第一有向序列圖進行分析處理,刪除所述第一有向序列圖中冗余數(shù)據(jù)對應(yīng)的冗余的邊和/ 或點,得到第二有向序列圖具體為根據(jù)所述第一有向序列圖中獲取所有的目標(biāo)集,所述目標(biāo)集中任意兩個相鄰的點之間 都可能存在乒乓切換;對于每一個目標(biāo)集,計算其中的每個點的總度數(shù);在目標(biāo)集中的任意一個點的總度數(shù)大于預(yù)設(shè)閾值時,保留目標(biāo)集中總度數(shù)最大的點, 并將所述第一有向序列圖中連接到目標(biāo)集的邊都連接到總度數(shù)最大的點上,所有從目標(biāo)集 出去的邊都改為從總度數(shù)最大的點出去,得到所述第二有向序列圖。
6.根據(jù)權(quán)利要求3所述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,其特征在于,基于圖論對所述 第一有向序列圖進行分析處理,刪除所述第一有向序列圖中冗余數(shù)據(jù)對應(yīng)的冗余的邊和/ 或點,得到第二有向序列圖具體為根據(jù)所述第一有向序列圖中獲取由有向回路組成的第一集合; 從所述第一集合中刪除部分有向回路,得到第二集合,被刪除的有向回路的點集為其 他有向回路的真子集,或者被刪除的有向回路的點集與其他有向回路的點集的交集不是空 集,且被刪除的有向回路包括的點的數(shù)量較小,或者被刪除的有向回路的點集與其他有向 回路的點集的交集不是空集,且被刪除的有向回路較晚出現(xiàn);從第一有向序列圖中刪除第二集合中的有向回路所對應(yīng)的邊,并刪除孤立點,得到所 述第二有向序列圖。
7.根據(jù)權(quán)利要求1或2所述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法,其特征在于,行為信息事實表和客戶位置信息事實表利用時段記錄時間信息。
8.一種客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其特征在于,包括劃分模塊,用于將客戶網(wǎng)絡(luò)行為數(shù)據(jù)分為客戶主動行為數(shù)據(jù)和客戶被動行為數(shù)據(jù); 行為信息提取及保存模塊,用于從客戶的主動行為數(shù)據(jù)中提取客戶的行為信息并保存 到行為信息事實表中;第一圖構(gòu)建模塊,用于從客戶的主動行為數(shù)據(jù)和被動行為數(shù)據(jù)中提取客戶的位置信 息,并利用所述位置信息得到第一有向序列圖;所述第一有向序列圖中的點表示小區(qū),以第 一小區(qū)為起點,以第二小區(qū)為終點的邊表示用戶從第一小區(qū)移動到第二小區(qū);第二圖構(gòu)建模塊,用于基于圖論對所述第一有向序列圖進行分析處理,刪除所述第一 有向序列圖中冗余數(shù)據(jù)對應(yīng)的冗余的邊和/或點,得到第二有向序列圖;位置信息保存模塊,將將所述第二有向序列圖記錄的位置信息保存到客戶位置信息事 實表。
9.根據(jù)權(quán)利要求8所述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其特征在于,所述客戶網(wǎng)絡(luò)行 為數(shù)據(jù)為從小區(qū)短信系統(tǒng)接口采集到的原始客戶網(wǎng)絡(luò)行為數(shù)據(jù);或 對所述原始客戶網(wǎng)絡(luò)行為數(shù)據(jù)進行數(shù)據(jù)清洗得到的數(shù)據(jù)。
10.根據(jù)權(quán)利要求8或9所述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其特征在于,所述冗余數(shù) 據(jù)為異常位置更新行為數(shù)據(jù)、乒乓切換數(shù)據(jù)或循環(huán)走動數(shù)據(jù)。
11.根據(jù)權(quán)利要求10所述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其特征在于,第二圖構(gòu)建模 塊具體包括用于清除第一有向序列圖中所有從自身到自身的有向序列邊,得到所述第二有向序列 圖的單元。
12.根據(jù)權(quán)利要求10所述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其特征在于,第二圖構(gòu)建模 塊具體包括用于根據(jù)所述第一有向序列圖中獲取所有的目標(biāo)集的單元,所述目標(biāo)集中任意兩個相 鄰的點之間都可能存在乒乓切換;用于對每一個目標(biāo)集,計算其中的每個點的總度數(shù)的單元;用于在目標(biāo)集中的任意一個點的總度數(shù)大于預(yù)設(shè)閾值時,保留所述目標(biāo)集中總度數(shù)最 大的點,并將所述第一有向序列圖中連接到目標(biāo)集的邊都連接到總度數(shù)最大的點上,所有 從目標(biāo)集出去的邊都改為從總度數(shù)最大的點出去,得到所述第二有向序列圖的單元。
13.根據(jù)權(quán)利要求10所述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其特征在于,第二圖構(gòu)建模 塊具體包括用于根據(jù)所述第一有向序列圖中獲取由有向回路組成的第一集合的單元; 用于從所述第一集合中刪除部分有向回路,得到第二集合的單元,被刪除的有向回路 的點集為其他有向回路的真子集,或者被刪除的有向回路的點集與其他有向回路的點集的 交集不是空集,且被刪除的有向回路包括的點的數(shù)量較小,或者被刪除的有向回路的點集 與其他有向回路的點集的交集不是空集,且被刪除的有向回路較晚出現(xiàn);用于從第一有向序列圖中刪除第二集合中的有向回路所對應(yīng)的邊,并刪除孤立點,得 到所述第二有向序列圖的單元。
14.根據(jù)權(quán)利要求8或9所述的客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)裝置,其特征在于,行為信息事 實表和客戶位置信息事實表利用時段記錄時間信息。
全文摘要
本發(fā)明提供一種客戶網(wǎng)絡(luò)行為數(shù)據(jù)重構(gòu)方法及裝置,該方法包括將客戶網(wǎng)絡(luò)行為數(shù)據(jù)分為客戶主動行為數(shù)據(jù)和客戶被動行為數(shù)據(jù);從客戶的主動行為數(shù)據(jù)中提取客戶的行為信息并保存到行為信息事實表中;從客戶的主動行為數(shù)據(jù)和被動行為數(shù)據(jù)中提取客戶的位置信息,并利用所述位置信息得到第一有向序列圖;所述第一有向序列圖中的點表示小區(qū),以第一小區(qū)為起點,以第二小區(qū)為終點的邊表示用戶從第一小區(qū)移動到第二小區(qū);基于圖論對所述第一有向序列圖進行分析處理,刪除所述第一有向序列圖中冗余數(shù)據(jù)對應(yīng)的冗余的邊和/或點,得到第二有向序列圖;將所述第二有向序列圖記錄的位置信息保存到客戶位置信息事實表。本發(fā)明壓縮了數(shù)據(jù)的存儲空間,提高了數(shù)據(jù)的質(zhì)量。
文檔編號G06F17/30GK102056189SQ20091023589
公開日2011年5月11日 申請日期2009年10月28日 優(yōu)先權(quán)日2009年10月28日
發(fā)明者何瑩, 周旋新, 彭宏, 林古立, 王永雄, 肖萍, 馬千里 申請人:中國移動通信集團廣東有限公司, 華南理工大學(xué)