本發(fā)明屬于大數(shù)據(jù)處理技術(shù)領(lǐng)域,具體地涉及一種基于Spark集群的多數(shù)據(jù)源位置信息融合方法及系統(tǒng)。
背景技術(shù):
隨著基于位置信息的應(yīng)用在各行業(yè)的推廣,應(yīng)用前景廣闊,各行業(yè)需求強(qiáng)烈,無(wú)論是旅游行業(yè),還是交通、民政、統(tǒng)計(jì)局等政府機(jī)關(guān)還是零售等行業(yè),都有非常迫切的需求,為大數(shù)據(jù)應(yīng)用提供了非常好的落地場(chǎng)景。
位置信息基于用戶電信2、3、4G網(wǎng)絡(luò)信令位置、無(wú)線側(cè)話單數(shù)據(jù)、WIFI上網(wǎng)記錄、用戶上網(wǎng)行為記錄中提取的GPS數(shù)據(jù)及用戶相關(guān)的屬性數(shù)據(jù)。提供特定區(qū)域人口密度監(jiān)測(cè)、人群歸屬地分析、人群特征分析、客流量預(yù)測(cè)、停留時(shí)長(zhǎng)分析、客流對(duì)比分析、人群軌跡分析、目標(biāo)區(qū)域關(guān)聯(lián)的服務(wù)。
用戶的位置信息數(shù)據(jù)來(lái)源多,數(shù)據(jù)量大且實(shí)時(shí)性非常高,需要實(shí)時(shí)準(zhǔn)確的對(duì)多種數(shù)據(jù)源進(jìn)行融合處理并輸出結(jié)果。
Spark是UC伯克利大學(xué)AMP Labs開發(fā)的新的分布式計(jì)算協(xié)議棧(BDAS)的計(jì)算系統(tǒng),它充分利用內(nèi)存,因此運(yùn)行快;它釋放了更多的API,因此編寫簡(jiǎn)單(Scala語(yǔ)言)。它很可能在將來(lái)替代Hadoop中的MapReduce。其他技術(shù)在處理時(shí)效性方面都無(wú)法達(dá)到實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的地步,但是在某些場(chǎng)景,比如算法交易、欺詐檢測(cè)、實(shí)時(shí)處理等方面,需要從大量的信息中及時(shí)發(fā)現(xiàn)潛在模式,這種情況下,就要使用流處理的技術(shù)——Stream。Lambda架構(gòu)提供了一個(gè)流處理和批處理聯(lián)合的最佳實(shí)踐。
因此,有必要提供出一種可以對(duì)各種數(shù)據(jù)源中的位置數(shù)據(jù)進(jìn)行采集分析、記錄所有相關(guān)的位置,根據(jù)各個(gè)位置獲取時(shí)間及相關(guān)事件通過(guò)特定的算法,將所有的位置信息進(jìn)行整合,為上層應(yīng)用提供最準(zhǔn)確、最實(shí)時(shí)的位置數(shù)據(jù)的基于Spark集群的多數(shù)據(jù)源位置信息融合方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種可以對(duì)各種數(shù)據(jù)源中的位置數(shù)據(jù)進(jìn)行采集分析、記錄所有相關(guān)的位置,根據(jù)各個(gè)位置獲取時(shí)間及相關(guān)事件通過(guò)特定的算法,將所有的位置信息進(jìn)行整合,為上層應(yīng)用提供最準(zhǔn)確、最實(shí)時(shí)的位置數(shù)據(jù)的基于Spark集群的多數(shù)據(jù)源位置信息融合方法。
本發(fā)明的技術(shù)方案如下:一種基于Spark集群的多數(shù)據(jù)源位置信息融合方法,包括如下步驟:
一、通過(guò)接口接收海量位置信息數(shù)據(jù),所述位置信息數(shù)據(jù)來(lái)源于省級(jí)運(yùn)營(yíng)商的信令采集系統(tǒng)以及互聯(lián)網(wǎng)用戶行為大數(shù)據(jù)平臺(tái);
二、通過(guò)預(yù)處理程序?qū)⒉杉降奈谋疚募M(jìn)行加密、清洗,剔除無(wú)效數(shù)據(jù),處理后的數(shù)據(jù)實(shí)時(shí)放入Kafka中;
三、通過(guò)Spark Streaming對(duì)實(shí)時(shí)的數(shù)據(jù)進(jìn)行處理,包括對(duì)實(shí)時(shí)位置的計(jì)算、融合、統(tǒng)計(jì)、軌跡生成操作獲得全量位置信息,并將處理后的所述全量位置信息存入到Redis數(shù)據(jù)庫(kù)中;
四、在所述Redis數(shù)據(jù)庫(kù)中,按設(shè)定的周期對(duì)所述全量位置信息進(jìn)行切片導(dǎo)出,將導(dǎo)出的數(shù)據(jù)存入到HDFS中,通過(guò)Spark SQL接口提供給上層應(yīng)用調(diào)用查詢歷史數(shù)據(jù)。
優(yōu)選地,在步驟二中通過(guò)預(yù)處理程序?qū)⒉杉降奈谋疚募M(jìn)行加密、清洗,剔除無(wú)效數(shù)據(jù)步驟包括如下步驟:
通過(guò)Socket接口,從信令共享平臺(tái)接收實(shí)時(shí)的信令數(shù)據(jù),從無(wú)線網(wǎng)優(yōu)平臺(tái)獲取無(wú)線網(wǎng)優(yōu)話單數(shù)據(jù);
對(duì)每一條信令數(shù)據(jù)進(jìn)行判斷處理,收取與位置相關(guān)的信令信息;
對(duì)信令數(shù)據(jù)進(jìn)行清洗過(guò)濾,剔除字段缺失、字段異常等錯(cuò)誤或無(wú)效的數(shù)據(jù);
對(duì)獲取的位置信令信息與標(biāo)準(zhǔn)化的基站基礎(chǔ)信息進(jìn)行匹配關(guān)聯(lián),得到經(jīng)緯度信息。
優(yōu)選地,所述步驟一中,所述位置信息數(shù)據(jù)包括基站位置數(shù)據(jù)、通話短信數(shù)據(jù)、無(wú)線話單數(shù)據(jù)信息、GPS數(shù)據(jù)、Wifi上網(wǎng)記錄數(shù)據(jù)和4G信令數(shù)據(jù)。
優(yōu)選地,在步驟三中,融合遵循數(shù)據(jù)準(zhǔn)確度優(yōu)先級(jí),越精確的數(shù)據(jù)優(yōu)先級(jí)最高,數(shù)據(jù)精確性優(yōu)先級(jí)從高到低為GPS數(shù)據(jù)、4G數(shù)據(jù)、2G/3G基站位置數(shù)據(jù)。
優(yōu)選地,在步驟四中,對(duì)于Redis中的實(shí)時(shí)位置數(shù)據(jù),可以提供實(shí)時(shí)的API查詢統(tǒng)計(jì)數(shù)據(jù),供上層應(yīng)用使用。
一種根據(jù)上述基于Spark集群的多數(shù)據(jù)源位置信息融合方法的系統(tǒng),包括:實(shí)時(shí)數(shù)據(jù)采集過(guò)濾模塊、實(shí)時(shí)數(shù)據(jù)融合模塊和數(shù)據(jù)分析擴(kuò)散模塊,所述實(shí)時(shí)數(shù)據(jù)采集過(guò)濾模塊,用于通過(guò)接口接收海量位置信息數(shù)據(jù),并通過(guò)預(yù)處理程序?qū)⒉杉降奈谋疚募M(jìn)行加密、清洗,剔除無(wú)效數(shù)據(jù),處理后的數(shù)據(jù)實(shí)時(shí)放入Kafka中;所述實(shí)時(shí)數(shù)據(jù)融合模塊,用于通過(guò)Spark Streaming對(duì)實(shí)時(shí)的數(shù)據(jù)進(jìn)行處理,包括對(duì)實(shí)時(shí)位置的計(jì)算、融合、統(tǒng)計(jì)、軌跡生成操作獲得全量位置信息,并將處理后的所述全量位置信息存入到Redis數(shù)據(jù)庫(kù)中;所述數(shù)據(jù)分析擴(kuò)散模塊,用于按設(shè)定的周期對(duì)所述全量位置信息進(jìn)行切片導(dǎo)出,將導(dǎo)出的數(shù)據(jù)存入到HDFS中,通過(guò)Spark SQL接口提供給上層應(yīng)用調(diào)用查詢歷史數(shù)據(jù)。
優(yōu)選地,在所述實(shí)時(shí)數(shù)據(jù)融合模塊中,融合遵循數(shù)據(jù)準(zhǔn)確度優(yōu)先級(jí),越精確的數(shù)據(jù)優(yōu)先級(jí)最高,數(shù)據(jù)精確性優(yōu)先級(jí)從高到低為GPS數(shù)據(jù)、4G數(shù)據(jù)、2G/3G基站位置數(shù)據(jù)。
優(yōu)選地,在所述數(shù)據(jù)分析擴(kuò)散模塊中,基于融合性數(shù)據(jù)源,利用Spark集群離線計(jì)算能力,對(duì)HDFS中的存量數(shù)據(jù)進(jìn)行分析、統(tǒng)計(jì)、擴(kuò)樣,并封裝成相應(yīng)的API接口。
本發(fā)明提供的技術(shù)方案具有如下有益效果:
1.基于位置信息形成融合的、標(biāo)準(zhǔn)化的位置輸出能力。通過(guò)從移動(dòng)網(wǎng)DPI中提取基站小區(qū)位置、從移動(dòng)網(wǎng)DPI中提取GPS位置信息、從4G信令數(shù)據(jù)中提取基站位置信息,彌補(bǔ)單一從2G基站獲取的位置信息精度不高及實(shí)時(shí)性不高的問(wèn)題。融合多數(shù)據(jù)源后,形成的位置數(shù)據(jù)基礎(chǔ)能力,提高用戶位置信息的精確度、持續(xù)性、完整性,形成完整的位置信息能力輸出。
2.利用Spark計(jì)算集群的實(shí)時(shí)處理能力,對(duì)海量的多數(shù)據(jù)源實(shí)現(xiàn)不間斷的連續(xù)在線處理分析,處理能力達(dá)到每秒20000條以上記錄,處理的時(shí)延小于5min,而傳統(tǒng)的數(shù)據(jù)入庫(kù)-處理-分析的流程,至少有3-6個(gè)小時(shí)的時(shí)延,無(wú)法提供實(shí)時(shí)準(zhǔn)確的位置數(shù)據(jù)。同時(shí),使用Spark的離線數(shù)據(jù)分析處理能力對(duì)歷史存量數(shù)據(jù)進(jìn)行挖掘分析,相較于傳統(tǒng)的Map/Reduce的方式提高了10倍以上的性能。
3.形成基于位置數(shù)據(jù)的實(shí)時(shí)應(yīng)用能力。基于實(shí)時(shí)的位置數(shù)據(jù),以系統(tǒng)的方式提供:實(shí)時(shí)客流分析,游客來(lái)源地分析,游客屬性分析,停留時(shí)間統(tǒng)計(jì),客流對(duì)比分析,客流預(yù)測(cè)分析,景區(qū)關(guān)聯(lián)分析等實(shí)時(shí)分析功能。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例提供的基于Spark集群的多數(shù)據(jù)源位置信息融合方法的流程示意圖;
圖2是圖1所示基于Spark集群的多數(shù)據(jù)源位置信息融合方法的數(shù)據(jù)處理流程示意圖;
圖3是圖1所示基于Spark集群的多數(shù)據(jù)源位置信息融合方法的實(shí)時(shí)數(shù)據(jù)采集過(guò)濾的流程示意圖;
圖4是圖1所示基于Spark集群的多數(shù)據(jù)源位置信息融合方法的實(shí)時(shí)數(shù)據(jù)融合的流程示意圖;
圖5是基于圖1所示基于Spark集群的多數(shù)據(jù)源位置信息融合方法的結(jié)構(gòu)框圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
除非上下文另有特定清楚的描述,本發(fā)明中的元件和組件,數(shù)量既可以單個(gè)的形式存在,也可以多個(gè)的形式存在,本發(fā)明并不對(duì)此進(jìn)行限定。本發(fā)明中的步驟雖然用標(biāo)號(hào)進(jìn)行了排列,但并不用于限定步驟的先后次序,除非明確說(shuō)明了步驟的次序或者某步驟的執(zhí)行需要其他步驟作為基礎(chǔ),否則步驟的相對(duì)次序是可以調(diào)整的??梢岳斫?,本文中所使用的術(shù)語(yǔ)“和/或”涉及且涵蓋相關(guān)聯(lián)的所列項(xiàng)目中的一者或一者以上的任何和所有可能的組合。
請(qǐng)同時(shí)參閱圖1和圖2,本發(fā)明實(shí)施例提供的基于Spark集群的多數(shù)據(jù)源位置信息融合方法包括如下步驟:
一、通過(guò)接口接收海量位置信息數(shù)據(jù),所述位置信息數(shù)據(jù)來(lái)源于省級(jí)運(yùn)營(yíng)商的信令采集系統(tǒng)以及互聯(lián)網(wǎng)用戶行為大數(shù)據(jù)平臺(tái)。
具體地,在步驟一中,所述位置信息數(shù)據(jù)包括基站位置數(shù)據(jù)、通話數(shù)據(jù)、無(wú)線話單數(shù)據(jù)信息、GPS數(shù)據(jù)、Wifi上網(wǎng)記錄數(shù)據(jù)和4G信令數(shù)據(jù)。
如圖3所示,所述基站位置數(shù)據(jù)包括用戶的號(hào)碼、IMSI、上報(bào)時(shí)間、基站小區(qū)等基礎(chǔ)信息;所述通話短信數(shù)據(jù)包括主被叫用戶號(hào)碼、IMSI、時(shí)間、基站小區(qū)等基礎(chǔ)信息;所述無(wú)線話單數(shù)據(jù)信息包括包括用戶IMSI、時(shí)間、基站信息、相鄰基站(用于三點(diǎn)定位);所述GPS數(shù)據(jù)提取自DPI中APP軟件(如百度地圖等)上報(bào)的用戶實(shí)時(shí)GPS經(jīng)緯度;所述Wifi上網(wǎng)記錄數(shù)據(jù)包括使用公共Wifi用戶號(hào)碼、時(shí)間、熱點(diǎn)位置等信息;所述4G信令數(shù)據(jù)包括用戶號(hào)碼、IMSI、4G基站、時(shí)間等信息。
二、通過(guò)預(yù)處理程序?qū)⒉杉降奈谋疚募M(jìn)行加密、清洗,剔除無(wú)效數(shù)據(jù),處理后的數(shù)據(jù)實(shí)時(shí)放入Kafka中。
具體地,步驟二中通過(guò)預(yù)處理程序?qū)⒉杉降奈谋疚募M(jìn)行加密、清洗,剔除無(wú)效數(shù)據(jù)步驟包括如下步驟:
通過(guò)Socket接口,從信令共享平臺(tái)接收實(shí)時(shí)的信令數(shù)據(jù),從無(wú)線網(wǎng)優(yōu)平臺(tái)獲取無(wú)線網(wǎng)優(yōu)話單數(shù)據(jù);
對(duì)每一條信令數(shù)據(jù)進(jìn)行判斷處理,收取與位置相關(guān)的信令信息;
對(duì)信令數(shù)據(jù)進(jìn)行清洗過(guò)濾,剔除字段缺失、字段異常等錯(cuò)誤或無(wú)效的數(shù)據(jù);
對(duì)獲取的位置信令信息與標(biāo)準(zhǔn)化的基站基礎(chǔ)信息進(jìn)行匹配關(guān)聯(lián),得到經(jīng)緯度信息。
其中,所述信令信息包括包括2\3G周期性位置更新、通話、短信,4G的S1MME控制信令,而且信令中包含的基站小區(qū)編號(hào)(2、3G為CI,4G為ECI)標(biāo)識(shí)了當(dāng)前記錄所在的位置。進(jìn)一步的,在對(duì)所述信令數(shù)據(jù)處理過(guò)程中,可以實(shí)現(xiàn)每秒8000條的處理性能。
三、通過(guò)Spark Streaming對(duì)實(shí)時(shí)的數(shù)據(jù)進(jìn)行處理,包括對(duì)實(shí)時(shí)位置的計(jì)算、融合、統(tǒng)計(jì)、軌跡生成操作獲得全量位置信息,并將處理后的所述全量位置信息存入到Redis數(shù)據(jù)庫(kù)中。
具體地,基于單一數(shù)據(jù)源的位置數(shù)據(jù)并不能包含準(zhǔn)確全面的信息,因此需要進(jìn)行多數(shù)據(jù)源的整合。在步驟三中,位置數(shù)據(jù)融合多數(shù)據(jù)源的數(shù)據(jù),包括基站位置數(shù)據(jù)、通話數(shù)據(jù)、短信數(shù)據(jù)、GPS數(shù)據(jù)以及4G信令數(shù)據(jù)等。
而且,在步驟三中,融合遵循數(shù)據(jù)準(zhǔn)確度優(yōu)先級(jí),越精確的數(shù)據(jù)優(yōu)先級(jí)最高,數(shù)據(jù)精確性優(yōu)先級(jí)從高到低為GPS數(shù)據(jù)、4G數(shù)據(jù)、2G/3G基站位置數(shù)據(jù)。此外,最近更新的數(shù)據(jù)也擁有高優(yōu)先級(jí),位置融合需滿足的規(guī)則如圖4所示。
四、在所述Redis數(shù)據(jù)庫(kù)中,按設(shè)定的周期對(duì)所述全量位置信息進(jìn)行切片導(dǎo)出,將導(dǎo)出的數(shù)據(jù)存入到HDFS中,通過(guò)Spark SQL接口提供給上層應(yīng)用調(diào)用查詢歷史數(shù)據(jù)。
具體地,在步驟四中,對(duì)于Redis中的實(shí)時(shí)位置數(shù)據(jù),可以提供實(shí)時(shí)的API查詢統(tǒng)計(jì)數(shù)據(jù),供上層應(yīng)用使用。
進(jìn)一步的,在步驟四中,還可以基于融合性數(shù)據(jù)源,利用Spark集群離線計(jì)算能力,對(duì)HDFS中的存量數(shù)據(jù)進(jìn)行分析、統(tǒng)計(jì)、擴(kuò)樣,以形成一些固化的業(yè)務(wù)能力,封裝成相應(yīng)的API接口,供其他業(yè)務(wù)系統(tǒng)使用。
如圖5所示,一種根據(jù)圖1所示的基于Spark集群的多數(shù)據(jù)源位置信息融合方法的系統(tǒng),包括:實(shí)時(shí)數(shù)據(jù)采集過(guò)濾模塊10、實(shí)時(shí)數(shù)據(jù)融合模塊20和數(shù)據(jù)分析擴(kuò)散模塊30。
其中,所述實(shí)時(shí)數(shù)據(jù)采集過(guò)濾模塊10用于通過(guò)接口接收海量位置信息數(shù)據(jù),并通過(guò)預(yù)處理程序?qū)⒉杉降奈谋疚募M(jìn)行加密、清洗,剔除無(wú)效數(shù)據(jù),處理后的數(shù)據(jù)實(shí)時(shí)放入Kafka中。
具體地,在所述實(shí)時(shí)數(shù)據(jù)采集過(guò)濾模塊10中,通過(guò)Socket接口、FTP傳輸方式,將原始的清單數(shù)據(jù)實(shí)時(shí)收集到采集接口機(jī)上,在采集機(jī)上通過(guò)預(yù)處理程序?qū)Σ煌吹臄?shù)據(jù)進(jìn)行格式和加密預(yù)處理,形成統(tǒng)一格式的位置信息源文件。同時(shí),對(duì)原始信息中的無(wú)效、錯(cuò)誤數(shù)據(jù)進(jìn)行過(guò)濾。
所述實(shí)時(shí)數(shù)據(jù)融合模塊20用于通過(guò)Spark Streaming對(duì)實(shí)時(shí)的數(shù)據(jù)進(jìn)行處理,包括對(duì)實(shí)時(shí)位置的計(jì)算、融合、統(tǒng)計(jì)、軌跡生成操作獲得全量位置信息,并將處理后的所述全量位置信息存入到Redis數(shù)據(jù)庫(kù)中。
具體地,在所述實(shí)時(shí)數(shù)據(jù)融合模塊20中,利用Spark集群的處理能力,對(duì)采集并預(yù)處理之后的文件進(jìn)行實(shí)時(shí)處理,根據(jù)數(shù)據(jù)源的類型的準(zhǔn)確度,依據(jù)GPS、WiFi、無(wú)線話單、4G信令、2G信令的優(yōu)先級(jí)進(jìn)行排序,如用戶在同一時(shí)間片(5min內(nèi))收到多個(gè)數(shù)據(jù)源的數(shù)據(jù),將以上述優(yōu)先級(jí)提取用戶的位置信息。并且根據(jù)每種數(shù)據(jù)源的特點(diǎn),都有設(shè)置相應(yīng)的有效時(shí)長(zhǎng),在有效時(shí)間內(nèi),除非有更高優(yōu)先級(jí)的數(shù)據(jù)源數(shù)據(jù)被采集到,否則不會(huì)更新用戶當(dāng)前位置。融合后的數(shù)據(jù)保存在Redis數(shù)據(jù)庫(kù)中,并且按周期導(dǎo)出到HDFS中存儲(chǔ)。
所述數(shù)據(jù)分析擴(kuò)散模塊30用于按設(shè)定的周期對(duì)所述全量位置信息進(jìn)行切片導(dǎo)出,將導(dǎo)出的數(shù)據(jù)存入到HDFS中,通過(guò)Spark SQL接口提供給上層應(yīng)用調(diào)用查詢歷史數(shù)據(jù)。
具體地,在所述數(shù)據(jù)分析擴(kuò)散模塊30中,基于融合性數(shù)據(jù)源,利用Spark集群離線計(jì)算能力,對(duì)HDFS中的存量數(shù)據(jù)進(jìn)行分析、統(tǒng)計(jì)、擴(kuò)樣,并封裝成相應(yīng)的API接口。
需要說(shuō)明的是,在所述數(shù)據(jù)分析擴(kuò)散模塊30中,由樣本用戶到全量用戶的反推,具備較高的精確度。樣本估計(jì)值的精確度,與樣本量的絕對(duì)大小關(guān)系密切,與樣本在總體中的比例關(guān)系不大,在實(shí)際抽樣過(guò)程中,抽樣的樣本量是總體的25%(電信的市場(chǎng)占有量)抽樣準(zhǔn)確度達(dá)到99.9%。因此理論上,具備反推全量可行性。
基于統(tǒng)計(jì)分析與數(shù)據(jù)挖掘方法,建立反推模型,進(jìn)而計(jì)算指定區(qū)域全量用戶流量。
基于多種算法進(jìn)行訓(xùn)練建模。選定一元及多元線性回歸進(jìn)行算法擬合,計(jì)算最優(yōu)解;利用n-fold交叉驗(yàn)證及均方誤差(MSE)進(jìn)行算法調(diào)優(yōu)?;诟嗟挠?xùn)練數(shù)據(jù),可以進(jìn)行省內(nèi)各地市及省外的多元線性與非線性回歸進(jìn)行算法擬合,訓(xùn)練效果可以有一定的提高。
在本實(shí)施例中,所述系統(tǒng)基于融合的位置數(shù)據(jù)源,能夠提供如下基礎(chǔ)的位置能力輸出:
一、實(shí)時(shí)客流量
基于融合后用戶的位置信息,選定指定的區(qū)域范圍(如風(fēng)景區(qū)、商圈、交通樞紐等)的實(shí)時(shí)用戶數(shù)量及指定時(shí)間范圍內(nèi)(一天、一周等)的用戶數(shù)量。
二、軌跡合成與輸出
以用戶號(hào)碼為主鍵,時(shí)間軸的5分鐘或1分鐘為時(shí)間間隔,數(shù)據(jù)集為某一點(diǎn)位置,位置信息包含了2/3/4G的CI經(jīng)緯度,覆蓋區(qū)域,DPI經(jīng)緯度信息,景點(diǎn)或商圈信息,以及在這個(gè)點(diǎn)的其他擴(kuò)展信息,例如停留時(shí)長(zhǎng),為后續(xù)應(yīng)用提供過(guò)濾條件。
軌跡可分為實(shí)時(shí)的軌跡與每天的軌跡,每天的軌跡數(shù)據(jù)都保存在Hadoop等大數(shù)據(jù)平臺(tái)內(nèi),實(shí)時(shí)數(shù)據(jù)保存在內(nèi)存數(shù)據(jù)庫(kù)Redis內(nèi)。對(duì)外輸出提供Restful等API,提供大數(shù)據(jù)平臺(tái)通過(guò)Spark離線分析來(lái)計(jì)算。
三、位置信息切片輸出
實(shí)現(xiàn)全量的用戶實(shí)時(shí)位置數(shù)據(jù)定時(shí)導(dǎo)出并入庫(kù),供用戶位置軌跡查詢時(shí)使用,同時(shí)也可以通過(guò)ftp方式共享,供其它應(yīng)用系統(tǒng)使用。
四、實(shí)時(shí)位置查詢
基于用戶位置信息,查詢用戶實(shí)時(shí)的位置信息,以及用戶當(dāng)天(前N小時(shí))的軌跡查詢。查詢的結(jié)果一方面可以通過(guò)API接口提供給其他應(yīng)用,也可以在平臺(tái)的地圖上進(jìn)行呈現(xiàn)。對(duì)于特定的區(qū)域(如商圈、酒店、風(fēng)景區(qū)等)范圍內(nèi)的實(shí)時(shí)用戶,查詢其之前一段時(shí)間在城市的分布區(qū)域及來(lái)源軌跡。
五、網(wǎng)格化地理位置
由于各種數(shù)據(jù)源的位置是不標(biāo)準(zhǔn)、不統(tǒng)一的,基于融合數(shù)據(jù)后的位置信息,都要使用統(tǒng)一為經(jīng)緯度的方式,最后將所有的區(qū)域已網(wǎng)格化的方式進(jìn)行輸出,應(yīng)用系統(tǒng)可通過(guò)網(wǎng)格化的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析及展現(xiàn)。
六、位置數(shù)據(jù)核準(zhǔn)
通過(guò)對(duì)DPI上網(wǎng)數(shù)據(jù)的挖掘與分析,可從中獲取用戶上網(wǎng)時(shí),所在的精確位置,通過(guò)長(zhǎng)久大量的數(shù)據(jù)分析,可比較精確的畫出無(wú)線基站的覆蓋范圍。最終可用于無(wú)線基站無(wú)線范圍覆蓋的清晰范圍,為故障定位,設(shè)備維護(hù)等提供了方便。并為位置的相關(guān)應(yīng)用提供了基礎(chǔ)數(shù)據(jù)。
七、用戶出行及速度計(jì)算
通過(guò)用戶軌跡、位置數(shù)據(jù),結(jié)合道路和基站分布、公交、軌道交通等分布信息,根據(jù)用戶實(shí)時(shí)位置變動(dòng)信息,測(cè)算用戶移動(dòng)速度,進(jìn)而確定用戶出行方式。
應(yīng)用點(diǎn)有交通樞紐的人流、速度計(jì)算,擁堵的情況的預(yù)測(cè)等。
相較于現(xiàn)有技術(shù),本發(fā)明實(shí)施例具有如下有益效果:
1.基于位置信息形成融合的、標(biāo)準(zhǔn)化的位置輸出能力。通過(guò)從移動(dòng)網(wǎng)DPI中提取基站小區(qū)位置、從移動(dòng)網(wǎng)DPI中提取GPS位置信息、從4G信令數(shù)據(jù)中提取基站位置信息,彌補(bǔ)單一從2G基站獲取的位置信息精度不高及實(shí)時(shí)性不高的問(wèn)題。融合多數(shù)據(jù)源后,形成的位置數(shù)據(jù)基礎(chǔ)能力,提高用戶位置信息的精確度、持續(xù)性、完整性,形成完整的位置信息能力輸出。
2.利用Spark計(jì)算集群的實(shí)時(shí)處理能力,對(duì)海量的多數(shù)據(jù)源實(shí)現(xiàn)不間斷的連續(xù)在線處理分析,處理能力達(dá)到每秒20000條以上記錄,處理的時(shí)延小于5min,而傳統(tǒng)的數(shù)據(jù)入庫(kù)-處理-分析的流程,至少有3-6個(gè)小時(shí)的時(shí)延,無(wú)法提供實(shí)時(shí)準(zhǔn)確的位置數(shù)據(jù)。同時(shí),使用Spark的離線數(shù)據(jù)分析處理能力對(duì)歷史存量數(shù)據(jù)進(jìn)行挖掘分析,相較于傳統(tǒng)的Map/Reduce的方式提高了10倍以上的性能。
3.形成基于位置數(shù)據(jù)的實(shí)時(shí)應(yīng)用能力?;趯?shí)時(shí)的位置數(shù)據(jù),以系統(tǒng)的方式提供:實(shí)時(shí)客流分析,游客來(lái)源地分析,游客屬性分析,停留時(shí)間統(tǒng)計(jì),客流對(duì)比分析,客流預(yù)測(cè)分析,景區(qū)關(guān)聯(lián)分析等實(shí)時(shí)分析功能。
對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無(wú)論從哪一點(diǎn)來(lái)看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說(shuō)明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。
此外,應(yīng)當(dāng)理解,雖然本說(shuō)明書按照實(shí)施方式加以描述,但并非每個(gè)實(shí)施方式僅包含一個(gè)獨(dú)立的技術(shù)方案,說(shuō)明書的這種敘述方式僅僅是為清楚起見(jiàn),本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說(shuō)明書作為一個(gè)整體,各實(shí)施例中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實(shí)施方式。