一種基于移動(dòng)電話數(shù)據(jù)識(shí)別城市特定區(qū)域的方法
【專利摘要】本發(fā)明公開(kāi)了一種基于移動(dòng)電話數(shù)據(jù)識(shí)別城市特定區(qū)域的方法,包括:(1)對(duì)移動(dòng)基站網(wǎng)絡(luò)進(jìn)行Vinornoi分割;(2)統(tǒng)計(jì)移動(dòng)基站網(wǎng)絡(luò)中每個(gè)基站的鄰基站集合,得到基站鄰接矩陣;(3)利用Hadoop集群的負(fù)載均衡將數(shù)據(jù)分割成大小相同的若干分片;(4)根據(jù)用戶標(biāo)識(shí)和時(shí)間順序,得到每個(gè)用戶的軌跡路線;(5)抽取每個(gè)用戶的地理位置發(fā)生變化的遷移;(6)根據(jù)得到的起始點(diǎn)區(qū)域和終止點(diǎn)區(qū)域,合并所有的遷移。(7)在Hadoop中統(tǒng)計(jì)所有(起始點(diǎn),終止點(diǎn),時(shí)間)三元組合的個(gè)數(shù),得到通話遷移矩陣;(8)利用基站鄰接矩陣和通話遷移矩陣識(shí)別城市中的特定區(qū)域。本發(fā)明可以根據(jù)用戶的移動(dòng)特征反映地理屬性,識(shí)別城市的特定區(qū)域。
【專利說(shuō)明】—種基于移動(dòng)電話數(shù)據(jù)識(shí)別城市特定區(qū)域的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及移動(dòng)數(shù)據(jù)挖掘技術(shù),具體涉及一種基于移動(dòng)電話數(shù)據(jù)識(shí)別城市特定區(qū)域的方法。
【背景技術(shù)】
[0002]移動(dòng)終端設(shè)備的應(yīng)用大大方便了人們的生活,相比于傳統(tǒng)的有線電話網(wǎng)絡(luò),移動(dòng)手機(jī)終端具有攜帶方便,移動(dòng)范圍廣泛的特點(diǎn),而且能夠長(zhǎng)時(shí)間反映用戶的基本信息。隨著3G網(wǎng)絡(luò)的廣泛使用,用戶不僅僅有基本的語(yǔ)音和短信業(yè)務(wù),還能使用數(shù)據(jù)流量業(yè)務(wù)。正因?yàn)橐苿?dòng)終端設(shè)備方便攜帶,同時(shí)集眾多功能于一身,移動(dòng)業(yè)務(wù)已經(jīng)廣泛存在于生活當(dāng)中。
[0003]一般而言,一個(gè)簡(jiǎn)單的移動(dòng)網(wǎng)絡(luò)由移動(dòng)終端,通信基站和承載網(wǎng)絡(luò)組成。對(duì)于手機(jī)運(yùn)營(yíng)商而言,該網(wǎng)絡(luò)不僅可以用于普通的計(jì)費(fèi),而且可以得到用戶的通話時(shí)間和時(shí)長(zhǎng)、通話對(duì)方、通話地點(diǎn)等信息。此豐富信息能夠反映用戶的地理移動(dòng)特征和生活習(xí)慣,因而可以用于建設(shè)“智慧城市”,創(chuàng)造更加智能的生活環(huán)境,比如可以被用于分析交通堵塞的問(wèn)題、局部區(qū)域的廣告信息投放、用戶和興趣推薦、移動(dòng)社交網(wǎng)絡(luò)的發(fā)展以及劃分用戶類(lèi)型等。
【發(fā)明內(nèi)容】
[0004]鑒于此,本發(fā)明的目的在于提出一種基于移動(dòng)電話數(shù)據(jù)識(shí)別城市特定區(qū)域的方法,該方法可以根據(jù)用戶的移動(dòng)特征反映地理屬性,識(shí)別城市的特定區(qū)域。
[0005]為實(shí)現(xiàn)以上發(fā)明目的,本發(fā)明采用以下技術(shù)方案:
[0006]一種基于移動(dòng)電話數(shù)據(jù)識(shí)別城市特定區(qū)域的方法,包括以下步驟:
[0007](I)假定各個(gè)基站的覆蓋范圍互不相交,對(duì)移動(dòng)基站網(wǎng)絡(luò)進(jìn)行Vinornoi分割;
[0008](2)統(tǒng)計(jì)移動(dòng)基站網(wǎng)絡(luò)中每個(gè)基站的鄰基站集合,得到基站鄰接矩陣;
[0009](3)利用Hadoop集群的負(fù)載均衡將數(shù)據(jù)分割成大小相同的若干分片;
[0010](4)根據(jù)用戶標(biāo)識(shí)(prd)和時(shí)間順序,得到每個(gè)用戶的軌跡路線;
[0011](5)抽取每個(gè)用戶的地理位置發(fā)生變化的遷移,該遷移包含有起始點(diǎn)和終止點(diǎn)的區(qū)域范圍以及時(shí)間信息;
[0012](6)根據(jù)得到的起始點(diǎn)區(qū)域和終止點(diǎn)區(qū)域,合并所有的遷移。
[0013](7)在Hadoop中統(tǒng)計(jì)所有(起始點(diǎn),終止點(diǎn),時(shí)間)三元組合的個(gè)數(shù),得到維度為基站總數(shù)量的通話遷移矩陣(Transition Matrix);
[0014](8)利用基站鄰接矩陣和通話遷移矩陣識(shí)別城市中的特定區(qū)域。
[0015]本發(fā)明具有以下有益效果:
[0016]可以根據(jù)用戶的移動(dòng)特征反映地理屬性,識(shí)別城市的特定區(qū)域,并進(jìn)一步用于分析交通堵塞、局部區(qū)域的廣告信息投放、用戶和興趣推薦、移動(dòng)社交網(wǎng)絡(luò)的發(fā)展以及劃分用戶類(lèi)型等問(wèn)題。
【專利附圖】
【附圖說(shuō)明】[0017]參照下面的說(shuō)明,結(jié)合附圖,可以對(duì)本發(fā)明有最佳的理解。在附圖中,相同的部分可由相同的標(biāo)號(hào)表不。
[0018]圖1是本發(fā)明較優(yōu)實(shí)施例的整體流程示意圖;
[0019]圖2是對(duì)一個(gè)基站網(wǎng)絡(luò)作Vinornoi分割的示意圖。
【具體實(shí)施方式】
[0020]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及示例性實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的示例性實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明的適用范圍。
[0021]數(shù)據(jù)準(zhǔn)備
[0022]用戶通話數(shù)據(jù),主要包含以下字段:
[0023]用戶id
[0024]用戶呼叫時(shí)間(發(fā)起電話或接聽(tīng)電話)
[0025]基站cell id
[0026]通話時(shí)長(zhǎng)
[0027]這些數(shù)據(jù)能夠反映用戶的通話習(xí)慣和移動(dòng)模式,以上的數(shù)據(jù)存放在Hadoop數(shù)據(jù)庫(kù)中,數(shù)據(jù)量至少為千萬(wàn)條。
[0028]根據(jù)基站cell id得到地理位置
[0029]根據(jù)通話數(shù)據(jù)中反映基站的標(biāo)識(shí)cell id,在工參表中查詢到基站所處的地理經(jīng)緯度。一個(gè)基站的覆蓋面積較大,用戶打電話的地理位置不能僅依靠該地理位置。通過(guò)工參表中對(duì)應(yīng)基站的其他參數(shù),如輻射角,波束方向等信息進(jìn)行定位,可以大致分析出用戶所在的位置,具有較好的精度。此外,通話過(guò)程中,因?yàn)榛镜奶兒拓?fù)載均衡,基站的位置可能和實(shí)際的地理位置有偏差,此時(shí)可以用用戶常出現(xiàn)位置的概率和地點(diǎn)變換之間的時(shí)間差來(lái)估計(jì)用戶實(shí)際所處的地理范圍。通過(guò)以上方法,可以得到基站之間的距離和是否相鄰以及用戶較為精確的行為軌跡等信息。把用戶在各個(gè)基站間的移動(dòng)作為聯(lián)系基站間的橋梁,根據(jù)用戶的行為模式得到區(qū)域的功能屬性分類(lèi),進(jìn)而分析局部區(qū)域的特性。
[0030]特性定義
[0031]軌跡:一個(gè)移動(dòng)用戶在一段時(shí)間里移動(dòng)的地理位置按時(shí)間排序,得到一組連續(xù)的地理位置序列。比如移動(dòng)用戶user早上起床后在A處打了電話,之后上公交路上B接到了他人的電話,到達(dá)公司C后給其他部分給了若干各電話通知。那么這段時(shí)間里該用戶user的軌跡則為在時(shí)間上按序排列的(A, tA)-(B, tB)-(C, tcl)-(C, tC2)。
[0032]遷移(Transition):表明移動(dòng)用戶在地理位置上的變化,反映了通話流量在不同地點(diǎn)間的流動(dòng),是一個(gè)由起點(diǎn)、終點(diǎn)和時(shí)間表示的組合。根據(jù)以上的軌跡定義,得到形如[(A, tA), (B,tB)]、[ (B, tB), (C, tcl)]的組合,因?yàn)閇(C, tcl), (C, tC2)]發(fā)生的地點(diǎn)沒(méi)有改變,該組合不屬于遷移的定義。
[0033]地理鄰居(Spatial Neighbors):根據(jù)基站覆蓋圖可知,每個(gè)基站周?chē)加腥舾蓚€(gè)鄰居,這些鄰居基站和中心基站構(gòu)成了 GSM的蜂窩網(wǎng)絡(luò)。因?yàn)榈乩砦恢蒙鲜窍噜彽?,因此將這些鄰居定義為地理鄰居Spatial Neighbors,這些Spatial Neighbors的個(gè)數(shù)為Ni。
[0034]時(shí)間鄰居(Temporal neighbors):由移動(dòng)用戶的遷移圖可知,用戶的移動(dòng)模式可能發(fā)生在地域上不相鄰的位置,定義用戶遷移的基站組合為時(shí)間上的鄰居Temporalneighbors.也即,用戶從起始點(diǎn)到終止點(diǎn),如果在時(shí)間上跨度很緊密,那么這兩個(gè)地方就是時(shí)間鄰居。
[0035]根據(jù)以上定義,可以得到移動(dòng)用戶軌跡網(wǎng)絡(luò)圖G(V,E),其中V表示基站的覆蓋范圍,E表示用戶的遷移(Transition)。移動(dòng)用戶在一段時(shí)間(例如一天、一個(gè)星期、半個(gè)月或者一個(gè)月等)的軌跡圖則可以用帶權(quán)重的一系列Trace=(E, Weight)來(lái)表示。通過(guò)分析群體用戶在不同時(shí)間段上的遷移規(guī)律,可以得到群體用戶的移動(dòng)模式。所謂移動(dòng)模式,是反映用戶群體使用移動(dòng)電話在地理上的遷移特性。這種特性可能是由于城市中的特定區(qū)域(例如地理位置上的不通暢)造成的,因此,利用人們的這種移動(dòng)模式可以識(shí)別城市的特定區(qū)域。
[0036]在以上原理介紹的基礎(chǔ)上,參見(jiàn)圖1,下面詳細(xì)說(shuō)明本發(fā)明提出的一種基于移動(dòng)電話數(shù)據(jù)識(shí)別城市特定區(qū)域的方法,包括以下步驟:
[0037](I)假定各個(gè)基站的覆蓋范圍互不相交,對(duì)移動(dòng)基站網(wǎng)絡(luò)進(jìn)行Vinornoi分割。
[0038]在移動(dòng)網(wǎng)絡(luò)中,一般而言,移動(dòng)用戶的接入和通話都由附近的基站負(fù)責(zé)。由于不同地點(diǎn)人群的密集程度不同和手機(jī)信號(hào)的切換,一個(gè)基站信號(hào)的覆蓋范圍有大有小,甚至還有宏基站和蜂窩基站同時(shí)存在,因此,移動(dòng)用戶設(shè)備接入時(shí),會(huì)收到來(lái)自周?chē)亩鄠€(gè)基站id列表,然后從中選取SNR最優(yōu)的基站進(jìn)行接入。
[0039]在本實(shí)施例中,假定各個(gè)基站的覆蓋范圍互不相交,處于某一地點(diǎn)的用戶只能被最近的基站服務(wù)。根據(jù)該假定,基站網(wǎng)絡(luò)可以用經(jīng)典的VinOToni圖來(lái)近似劃分,從而得到移動(dòng)網(wǎng)絡(luò)的基站覆蓋圖。如圖2所示,對(duì)一個(gè)基站網(wǎng)絡(luò)作Vinornoi分割,圖中的X表示基站的地理位置,每個(gè)X點(diǎn)外面用虛線圍繞的區(qū)域近似表示該基站的覆蓋區(qū)域。
[0040](2)統(tǒng)計(jì)移動(dòng)基站網(wǎng)絡(luò)中每個(gè)基站的鄰基站集合,得到基站鄰接矩陣。
[0041 ] 具體而目,統(tǒng)計(jì)鄰基站就是得到每個(gè)基站的鄰基站集合,以圖1中的基站X9為例,其鄰基站集合為{X4,X5,X10,X13,X8}。然后,用一個(gè)鄰接矩陣來(lái)存儲(chǔ)兩兩基站之間的地理位置關(guān)系,如果兩基站在地理上相鄰,則相應(yīng)的矩陣元素為1,反之則為O。
[0042](3)利用Hadoop集群的負(fù)載均衡將數(shù)據(jù)分割成大小相同的若干分片。
[0043]原始的用戶通話數(shù)據(jù)預(yù)先存放在數(shù)據(jù)庫(kù)中,數(shù)量巨大,因此采用Hadoop平臺(tái)對(duì)數(shù)據(jù)進(jìn)行處理。具體而言,在Hadoop中使用20個(gè)slave節(jié)點(diǎn)存取數(shù)據(jù),Hadoop自身有負(fù)載均衡的功能,可以將大數(shù)據(jù)均勻分布到各臺(tái)機(jī)器,也可以根據(jù)各個(gè)機(jī)器的空間容量等比例來(lái)分配,在本實(shí)施例中,可以使用前者。此外,還可以定義不同數(shù)量的maper和reducer的個(gè)數(shù)來(lái)調(diào)整Hadoop集群運(yùn)算的性能。
[0044](4)根據(jù)用戶標(biāo)識(shí)(prd)和時(shí)間順序,得到每個(gè)用戶的軌跡路線。
[0045](5)抽取每個(gè)用戶的地理位置發(fā)生變化的遷移,該遷移包含有起始點(diǎn)和終止點(diǎn)的區(qū)域范圍以及時(shí)間信息。
[0046]其中,理論上的起始點(diǎn)和終止點(diǎn)為經(jīng)緯度坐標(biāo),由于不能得到具體的地理位置,因此本實(shí)施例中,用區(qū)域范圍來(lái)大致表示起始點(diǎn)和終止點(diǎn),例如可以用小區(qū)(cel I)表示。
[0047](6)根據(jù)得到的起始點(diǎn)區(qū)域和終止點(diǎn)區(qū)域,合并所有的遷移。
[0048](7)在Hadoop中統(tǒng)計(jì)所有(起始點(diǎn),終止點(diǎn),時(shí)間)三元組合的個(gè)數(shù),得到維度為基站總數(shù)量的通話遷移矩陣(Transition Matrix)。
[0049]統(tǒng)計(jì)用戶連續(xù)兩次通話的地理跨度,發(fā)現(xiàn)大部分地理間距集中在0.5km的范圍,這說(shuō)明移動(dòng)用戶的大部分通話在地理上的遷移距離很短,極大可能就在相鄰的基站之間。因此,下面主要分析單個(gè)基站遷移特性。
[0050](8)利用基站鄰接矩陣和通話遷移矩陣識(shí)別城市中的特定區(qū)域。
[0051]對(duì)于某個(gè)基站A,統(tǒng)計(jì)在一定時(shí)間內(nèi)從基站A到其他地方的遷移(可以由通話遷移矩陣的一個(gè)矩陣元素表示)頻率,也即通話遷移矩陣中的矩陣元素在該一定時(shí)間內(nèi)出現(xiàn)的頻率,將通話遷移矩陣中的各個(gè)元素按出現(xiàn)頻率大小從大到小排序。通過(guò)對(duì)通話遷移矩陣(Transition Matrix)和基站鄰接矩陣的觀察,得知排名靠前的幾個(gè)時(shí)間鄰居大多都是地理上相鄰的基站。
[0052]設(shè)基站A的地理鄰居為Na個(gè),根據(jù)基站鄰接矩陣得到其地理鄰居集合,記為SN (A),基站A的時(shí)間鄰居中排名前Na的時(shí)間鄰居集合記作TN (A),那么SN (A) -TN (A)表示地理上和基站A相鄰但是通話遷移不相鄰的基站集合,將該集合定義為異常集合(OutliersSet)。在本實(shí)施例中,主要考慮以一天為單位時(shí)間的聚合特性。為了更精確地得到基站間的聯(lián)系,還可以進(jìn)一步劃分時(shí)間段。
[0053]下面結(jié)合實(shí)際地圖來(lái)分析異常集合(Outliers Set)的特點(diǎn)。在基站覆蓋圖上添加地圖層,并且,將正常集合SN(A) n TN(A)中的基站用藍(lán)色線段相連,而上述異常集合中的基站用紅色線段相連。結(jié)果表明,異常集合占據(jù)的區(qū)域大多都是一些可以稱為“城市阻礙”的特定區(qū)域,例如江河湖泊、公園、正在開(kāi)發(fā)的大型基礎(chǔ)建設(shè)工程項(xiàng)目等。
[0054]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種基于移動(dòng)電話數(shù)據(jù)識(shí)別城市特定區(qū)域的方法,包括以下步驟: (1)假定各個(gè)基站的覆蓋范圍互不相交,對(duì)移動(dòng)基站網(wǎng)絡(luò)進(jìn)行Vinornoi分割; (2)統(tǒng)計(jì)移動(dòng)基站網(wǎng)絡(luò)中每個(gè)基站的鄰基站集合,得到基站鄰接矩陣; (3)利用Hadoop集群的負(fù)載均衡將數(shù)據(jù)分割成大小相同的若干分片; (4)根據(jù)用戶標(biāo)識(shí)(prd)和時(shí)間順序,得到每個(gè)用戶的軌跡路線; (5)抽取每個(gè)用戶的地理位置發(fā)生變化的遷移,該遷移包含有起始點(diǎn)和終止點(diǎn)的區(qū)域范圍以及時(shí)間信息; (6)根據(jù)得到的起始點(diǎn)區(qū)域和終止點(diǎn)區(qū)域,合并所有的遷移; (7)在Hadoop中統(tǒng)計(jì)所有(起始點(diǎn),終止點(diǎn),時(shí)間)三元組合的個(gè)數(shù),得到維度為基站總數(shù)量的通話遷移矩陣(Transition Matrix); (8)利用基站鄰接矩陣和通話遷移矩陣識(shí)別城市中的特定區(qū)域。
2.根據(jù)權(quán)利要求1所述的方法,步驟(8)具體包括: 對(duì)于某個(gè)基站A,統(tǒng)計(jì)一定時(shí)間內(nèi)從基站A到其他地方的遷移頻率,也即通話遷移矩陣中的矩陣元素在該一定時(shí)間內(nèi)出現(xiàn)的頻率,將通話遷移矩陣中的各個(gè)元素按出現(xiàn)頻率大小從大到小排序; 設(shè)基站A的地理鄰居為Na個(gè),根據(jù)基站鄰接矩陣得到其地理鄰居集合,記為SN(A),基站A的時(shí)間鄰居中排名前Na的時(shí)間鄰居集合記作TN(A),那么SN(A)-TN(A)表示地理上和基站A相鄰但是通話遷移不相鄰的基站集合,將該集合定義為異常集合(Outliers Set),異常集合占據(jù)的區(qū)域即為識(shí)別出的特定區(qū)域。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述一定時(shí)間為一天。
【文檔編號(hào)】G06F17/30GK103841516SQ201410071669
【公開(kāi)日】2014年6月4日 申請(qǐng)日期:2014年2月28日 優(yōu)先權(quán)日:2014年2月28日
【發(fā)明者】向峰, 涂來(lái), 黃本雄, 方宸 申請(qǐng)人:華中科技大學(xué)