亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于社交數(shù)據(jù)的區(qū)域高速路網(wǎng)車(chē)流狀態(tài)分析方法與流程

文檔序號(hào):12179330閱讀:294來(lái)源:國(guó)知局
一種基于社交數(shù)據(jù)的區(qū)域高速路網(wǎng)車(chē)流狀態(tài)分析方法與流程

本發(fā)明涉及交通領(lǐng)域。具體而言涉及一種基于社交網(wǎng)絡(luò)的區(qū)域高速路網(wǎng)車(chē)流狀態(tài)分析方法。



背景技術(shù):

隨著基于地理位置的社交網(wǎng)絡(luò)(Location-based Social Network,LBSN)服務(wù)的快速發(fā)展和使用人數(shù)的迅速增長(zhǎng),基于LBSN的用戶行為挖掘分析日益成為研究的熱點(diǎn)。結(jié)合GPS、移動(dòng)終端分享技術(shù)和Web2.0,用戶可以實(shí)時(shí)記錄個(gè)人動(dòng)態(tài)并分享所在位置。常見(jiàn)的LBSN如微波、微信朋友圈、Facebook、Twitter等,包含了地理網(wǎng)絡(luò)層、社交網(wǎng)絡(luò)層、信息內(nèi)容層和時(shí)間軸的多層框架。由于LBSN包含了用戶現(xiàn)實(shí)生活行為多方面的信息,因而能更真實(shí)地反映用戶的現(xiàn)實(shí)生活行為,為分析用戶群體行為提供了龐大而豐富的數(shù)據(jù)。

由于LBSN能夠提供用戶地理位置及信息內(nèi)容,因此利用LBSN進(jìn)行節(jié)假日期間的區(qū)域路網(wǎng)的車(chē)流狀態(tài)分析是可行且富有創(chuàng)新性的。目前的車(chē)流狀態(tài)分析大部分是基于傳統(tǒng)的交通信息收集技術(shù),如浮動(dòng)車(chē)技術(shù),存在滲透率低,設(shè)備成本較高的問(wèn)題。相較于傳統(tǒng)的交通信息數(shù)據(jù)收集系統(tǒng),基于LBSN的用戶滲透率更高。以新浪微博為例,日活躍用戶超過(guò)五千萬(wàn),日均發(fā)布約1.2億條微博(2012年)。對(duì)某一用戶或多個(gè)用戶的帶有時(shí)間信息,地理位置信息及文字內(nèi)容信息的微博進(jìn)行聚類(lèi)分析,能夠綠色高效地獲得用戶的出行OD點(diǎn)(起終點(diǎn)),再結(jié)合用戶發(fā)布信息的挖掘分析,能夠提取出與區(qū)域路網(wǎng)車(chē)流狀態(tài)的相關(guān)信息,從而可以進(jìn)行車(chē)流的狀態(tài)分析作為路網(wǎng)狀態(tài)分析的補(bǔ)充手段。這種方法充分發(fā)揮了交通大數(shù)據(jù)技術(shù)的優(yōu)勢(shì),提高了社交網(wǎng)絡(luò)海量數(shù)據(jù)的價(jià)值。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明旨在利用基于地理位置的社交網(wǎng)絡(luò)(LBSN)所發(fā)布的帶有地理位置信息、時(shí)間標(biāo)簽等信息的文字消息,分析區(qū)域路網(wǎng)的車(chē)流運(yùn)行狀態(tài),為相關(guān)部門(mén)在車(chē)流高峰期間的交通管控提供數(shù)據(jù)支持,并為人們的日常出行提供指導(dǎo)。它主要是用采集到的社交平臺(tái)的信息,對(duì)這些信息進(jìn)行挖掘和聚類(lèi),得到用戶的出行的OD點(diǎn)。經(jīng)過(guò)統(tǒng)計(jì)得到節(jié)假日期間不同OD點(diǎn)間的車(chē)流運(yùn)行狀態(tài)。

本發(fā)明是一種基于社交網(wǎng)絡(luò)的區(qū)域高速路網(wǎng)車(chē)流狀態(tài)分析方法,主要通過(guò)以下步驟實(shí)現(xiàn):

步驟一:采集基于地理位置的社交網(wǎng)絡(luò)(LBSN)發(fā)布的信息,得到地理位置、時(shí)間信息、文字信息等內(nèi)容;

步驟二:將采集到的信息進(jìn)行清洗和挖掘,剔除無(wú)效和錯(cuò)誤數(shù)據(jù),并通過(guò)聚類(lèi)方法得到用戶節(jié)假日和非節(jié)假日的出行OD點(diǎn)。

步驟三:通過(guò)統(tǒng)計(jì)方法,得到節(jié)假日期間不同OD點(diǎn)間的車(chē)流運(yùn)行狀態(tài),也即節(jié)假日期間某區(qū)域路網(wǎng)的路段車(chē)流分配。

所述步驟一中,為得到大量有效信息,以國(guó)內(nèi)用戶量較多、發(fā)布信息內(nèi)容較多的社交平臺(tái)——新浪微博為例進(jìn)行說(shuō)明,且該平臺(tái)具有豐富的API接口,可以得到用戶的好友列表,讀取用戶的位置動(dòng)態(tài),獲取用戶發(fā)布的微博內(nèi)容等功能。需要指出的是,本發(fā)明專(zhuān)利不局限于新浪微博,其他社交平臺(tái)也能應(yīng)用。

所述步驟二中,運(yùn)用聚類(lèi)算法獲得用戶的居住地信息與可能出行地的信息,用到K-means聚類(lèi)算法,其過(guò)程為:

(1)采集到的第i個(gè)數(shù)據(jù)定義為向量。

其中,其中x_i1表示第i個(gè)點(diǎn)的經(jīng)度,x_i2表示第i個(gè)點(diǎn)的緯度,x_i3表示第i個(gè)點(diǎn)的時(shí)間,x_i4表示第i個(gè)點(diǎn)所對(duì)應(yīng)的微博內(nèi)容。

(2)聚類(lèi)得到用戶的OD點(diǎn)。定義某一個(gè)節(jié)假日集的第k個(gè)地點(diǎn)聚類(lèi)中心為:

其中,n表示點(diǎn)的總數(shù);分配系數(shù)

然后定義第i個(gè)點(diǎn)xi與第k個(gè)聚類(lèi)中心μk之間的距離為:

Dik=(xik)T(xik)

計(jì)算步驟包括:先隨機(jī)初始化聚類(lèi)均值μ1、μ2、μ3;對(duì)每個(gè)點(diǎn)xi都找到使Dik最小的k,將i點(diǎn)聚到該中心,并設(shè)置該分配系數(shù)zik=1;如果所有的zik與上一次迭代沒(méi)有變化,則停止聚類(lèi),輸出μ1、μ2、μ3;否則按照①式更新μ1、μ2、μ3;

并用同樣的方法得到非節(jié)假日集的一個(gè)聚類(lèi)中心ρ1

(3)當(dāng)μ1、μ2、μ3、ρ1屬于不同地方,認(rèn)為該用戶在節(jié)假日期間存在出行行為,將其確定為下一步研究對(duì)象。

(4)對(duì)該對(duì)象的微博內(nèi)容進(jìn)行挖掘,將高速公路出行相關(guān)的語(yǔ)句字典中內(nèi)容作為關(guān)鍵字,判斷用戶是否選擇高速公路作為出行路徑,若是,則將其確定為研究的目標(biāo)用戶;并統(tǒng)計(jì)得到目標(biāo)用戶的總數(shù)N;

步驟三:通過(guò)統(tǒng)計(jì)方法,預(yù)測(cè)得到節(jié)假日期間高速公路的車(chē)流量;

所述步驟三中,根據(jù)上步確定的目標(biāo)用戶的用戶居住地和預(yù)測(cè)的目的地,定義表示節(jié)假日期間第i個(gè)城市到第j個(gè)城市之間的車(chē)流量,表示節(jié)假日期間第j個(gè)城市到第i個(gè)城市之間的車(chē)流量。并根據(jù)步驟二統(tǒng)計(jì)出的目標(biāo)用戶的總數(shù)N,定義節(jié)假日高速公路微博用戶出行率矩陣:

當(dāng)某區(qū)域在節(jié)假日期間的高速公路總車(chē)流量為W時(shí),則該區(qū)域高速路網(wǎng)各路段在節(jié)假日期間的車(chē)流量為

與現(xiàn)有的技術(shù)相比,本發(fā)明有益效果在于:

(1)LBSN用戶量龐大,相比于其他技術(shù),其滲透率更高,成本低廉,數(shù)據(jù)量豐富且龐大,更適宜數(shù)據(jù)挖掘的相關(guān)工作。

(2)LBSN的信息來(lái)源于人們的日常生活,記錄日常生活中人們的真實(shí)行為,因而能更貼切的反應(yīng)人們出行動(dòng)機(jī)和出行行為。

(3)基于K-means的聚類(lèi)算法易于理解、容易實(shí)現(xiàn),且時(shí)間復(fù)雜度低,可以客觀反映用戶OD點(diǎn)的相關(guān)性關(guān)系。

附圖說(shuō)明

圖1為本發(fā)明具體實(shí)施方式中一種基于社交網(wǎng)絡(luò)的區(qū)域高速路網(wǎng)車(chē)流狀態(tài)分析方法的原理圖;

圖2為本發(fā)明所述的基于社交網(wǎng)絡(luò)的區(qū)域高速路網(wǎng)車(chē)流狀態(tài)分析方法的流程圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本專(zhuān)利的具體實(shí)施方式進(jìn)行詳細(xì)說(shuō)明。需要指出的是,該具體實(shí)施方式僅僅是對(duì)本專(zhuān)利優(yōu)選技術(shù)方案的舉例。并不能理解為對(duì)本專(zhuān)利保護(hù)范圍的限制。其目的在于對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說(shuō)明,以令本領(lǐng)域技術(shù)人員參照說(shuō)明書(shū)能夠據(jù)以實(shí)施。

如圖1、圖2所示。本具體實(shí)施方式提供了一種基于社交網(wǎng)絡(luò)的區(qū)域高速路網(wǎng)車(chē)流狀態(tài)分析方法,所述方法包括如下步驟:

步驟一,社交軟件數(shù)據(jù)采集步驟,所述社交軟件數(shù)據(jù)采集包括獲取社交軟件的信息數(shù)據(jù),并從中采集到微博內(nèi)容、地理位置、時(shí)間等信息。

在本步驟中,以微博數(shù)據(jù)為例,可以利用微博提供的開(kāi)放接口抓取發(fā)布的微博中的相關(guān)信息數(shù)據(jù)??梢酝ㄟ^(guò)設(shè)置抓取條件的方式來(lái)獲取上述數(shù)據(jù),所述條件包括微博內(nèi)容、地理位置信息、時(shí)間信息、朋友關(guān)聯(lián)關(guān)系等。

比如,在地理位置信息中,可以設(shè)置北京;抓取的數(shù)據(jù)的時(shí)間信息中,抓取的數(shù)據(jù)量至少為一個(gè)月,并可以不斷地實(shí)時(shí)抓取并更新。

步驟二、對(duì)所述數(shù)據(jù)采集步驟采集到的數(shù)據(jù)進(jìn)行挖掘,得到節(jié)假日與非節(jié)假日期間用戶出行的OD點(diǎn)。

在本步驟中,首先將用戶數(shù)據(jù)按照日期切分為非節(jié)假日集與節(jié)假日集(如:將10月1日至10月7日的用戶數(shù)據(jù)劃歸至節(jié)假日集中),然后利用K-means聚類(lèi)算法分別對(duì)非節(jié)假日集與節(jié)假日集進(jìn)行聚類(lèi)以獲得用戶的居住地信息與可能出行地的信息。

所述K-means聚類(lèi)算法包括:K-means算法是很典型的基于距離的聚類(lèi)算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為兩個(gè)對(duì)象的距離越近,其相似度就越大。該算法認(rèn)為簇是由距離靠近的對(duì)象組成的,因此把得到緊湊且獨(dú)立的簇作為最終目標(biāo)。

k個(gè)初始類(lèi)聚類(lèi)中心點(diǎn)的選取對(duì)聚類(lèi)結(jié)果具有較大的影響,因?yàn)樵谠撍惴ǖ谝徊街惺请S機(jī)的選取任意k個(gè)對(duì)象作為初始聚類(lèi)的中心,初始地代表一個(gè)簇。該算法在每次迭代中對(duì)數(shù)據(jù)集中剩余的每個(gè)對(duì)象,根據(jù)其與各個(gè)簇中心的距離將每個(gè)對(duì)象重新賦給最近的簇。當(dāng)考察完所有數(shù)據(jù)對(duì)象后,一次迭代運(yùn)算完成,新的聚類(lèi)中心被計(jì)算出來(lái)。如果在一次迭代前后,距離的值沒(méi)有發(fā)生變化,說(shuō)明算法已經(jīng)收斂。

在本例中,采集到的第i個(gè)數(shù)據(jù)可以定義為向量:(粗體字母代表向量,下同),其中表示第i個(gè)點(diǎn)的經(jīng)度,表示第i個(gè)點(diǎn)的緯度,表示第i個(gè)點(diǎn)的時(shí)間,表示第i個(gè)點(diǎn)所對(duì)應(yīng)的微博內(nèi)容。在計(jì)算地點(diǎn)聚類(lèi)中心之前可以先利用時(shí)間進(jìn)行分類(lèi),根據(jù)即微博的發(fā)布時(shí)間將數(shù)據(jù)集分割為節(jié)假日集與非節(jié)假日集。例如,可以設(shè)定將用戶于春節(jié)、五一勞動(dòng)節(jié)、端午節(jié)、中秋節(jié)、國(guó)慶節(jié)等發(fā)布的內(nèi)容劃歸到節(jié)假日集(每一個(gè)假期的數(shù)據(jù)屬于單獨(dú)的一個(gè)節(jié)假日集)中,其余時(shí)間段發(fā)布的內(nèi)容劃歸到非節(jié)假日集中。這一步實(shí)現(xiàn)了初步的數(shù)據(jù)過(guò)濾與分類(lèi),有利于后續(xù)步驟的聚類(lèi)。

接下來(lái)進(jìn)行地點(diǎn)聚類(lèi),在非節(jié)假日集和節(jié)假日集中分別選出1個(gè)點(diǎn)和3個(gè)點(diǎn)作為備選點(diǎn),即確定聚類(lèi)中心數(shù)k=1和k=3。如此取值的原因是:用戶一般有固定的居住地,即會(huì)集中居住在某一個(gè)城市,而旅游時(shí)往往會(huì)有幾個(gè)目的地。先定義某一個(gè)節(jié)假日集的第k個(gè)地點(diǎn)聚類(lèi)中心為:

其中,分配系數(shù)該公式的意義是將參與了該節(jié)假日集第k個(gè)地點(diǎn)聚類(lèi)的點(diǎn)的經(jīng)緯度計(jì)算平均值,計(jì)算出的經(jīng)緯度作為第k個(gè)聚類(lèi)中心的坐標(biāo)。

然后定義第i個(gè)點(diǎn)xi與第k個(gè)聚類(lèi)中心μk之間的距離為:

Dik=(xik)T(xik)

(1)先隨機(jī)初始化聚類(lèi)均值μ1、μ2、μ3;

(2)對(duì)每個(gè)點(diǎn)xi都找到使Dik最小的k,將i點(diǎn)聚到該中心,并設(shè)置該分配系數(shù)zik=1;

(3)如果所有的zik與上一次迭代沒(méi)有變化,則停止聚類(lèi),輸出μ1、μ2、μ3;

(4)否則按照①式更新μ1、μ2、μ3;

用同樣的辦法可以得到非節(jié)假日集的一個(gè)聚類(lèi)中心ρ1。

然后結(jié)合地圖數(shù)據(jù)判斷出μ1、μ2、μ3、ρ1分別屬于哪幾個(gè)城市(精確到地級(jí)行政區(qū)),例如μ1∈(青島)、μ2∈(秦皇島)、μ3∈(煙臺(tái))、ρ1∈(北京),那么可以知道該用戶居住地在北京,在某一個(gè)假期去了青島、秦皇島和煙臺(tái)三個(gè)地方游玩,這說(shuō)明了在該假期期間,北京與青島、秦皇島、煙臺(tái)三個(gè)地方之間存在一定客運(yùn)量。如果μ1、μ2、μ3、ρ1屬于不同地方,那么認(rèn)為該用戶在節(jié)假日期間存在出行行為,統(tǒng)計(jì)所有具有出行行為的用戶,設(shè)總數(shù)為N。如果μ1、μ2、μ3、ρ1屬于同一個(gè)地方,那么認(rèn)為該用戶在節(jié)假日期間沒(méi)有出行,不將該用戶作為研究的目標(biāo)用戶。

然后對(duì)該用戶的微博數(shù)據(jù)進(jìn)行挖掘,如果在節(jié)假日期間,該用戶發(fā)布的內(nèi)容中包含了“公路”、“高速公路”、“堵”、“擁堵”等與高速公路相關(guān)的關(guān)鍵字,那么判斷該用戶在節(jié)假日的出行采取了高速公路的出行方式,從而將該用戶設(shè)為目標(biāo)用戶進(jìn)行下一步的研究。統(tǒng)計(jì)所有以高速公路出行的微博用戶的數(shù)量,記為N。

用上述k-means聚類(lèi)算法既可以實(shí)現(xiàn)數(shù)據(jù)篩選的功能,也可以實(shí)現(xiàn)數(shù)據(jù)聚類(lèi)的功能,有利于挖掘出用戶真正的居住地點(diǎn)(O點(diǎn))與旅游地點(diǎn)(D點(diǎn))。

步驟三、統(tǒng)計(jì)得到節(jié)假日期間不同OD點(diǎn)間的車(chē)流運(yùn)行狀態(tài),也即節(jié)假日期間某區(qū)域路網(wǎng)的路段車(chē)流分配。

經(jīng)過(guò)第二步的聚類(lèi),得到了單個(gè)用戶的居住地信息與節(jié)假日期間可能的旅游地信息,用同樣的方法挖掘出每一個(gè)用戶的居住地信息與節(jié)假日期間可能的旅游地信息。定義節(jié)假日高速公路微博用戶出行矩陣Q如下:

其中Qij表示第i個(gè)城市到第j個(gè)城市之間的客運(yùn)量,Qji表示第j個(gè)城市到第i個(gè)城市之間的客運(yùn)量,Qij≠Q(mào)ji。當(dāng)i=j(luò)時(shí),Qij=0,表示同城不產(chǎn)生高速公路客運(yùn)量。截至2016年9月30日,我國(guó)共有334個(gè)地級(jí)行政區(qū),所以可取n=334。統(tǒng)計(jì)步驟二中目標(biāo)用戶OD點(diǎn)數(shù)據(jù),如果客戶在節(jié)假日期間在城市i與城市j之間存在出行行為,那么Qij加1;如果客戶在節(jié)假日期間在城市j與城市i之間存在出行行為,那么Qji加1,用這種方式遍歷所有目標(biāo)用戶,生成上述OD點(diǎn)矩陣Q。在步驟二中已經(jīng)統(tǒng)計(jì)出所有具有出行行為的用戶總數(shù)N,所以可以定義節(jié)假日高速公路微博用戶出行率矩陣η如下:

下面說(shuō)明社交網(wǎng)絡(luò)與區(qū)域路網(wǎng)車(chē)流的統(tǒng)計(jì)關(guān)系。研究表明,某區(qū)域的總?cè)丝谂c該區(qū)域高速路網(wǎng)總車(chē)流存在一定的關(guān)系。而某區(qū)域不是所有人都使用微博,因此可以將該區(qū)域的微博用戶看成是總?cè)丝诘囊粋€(gè)抽樣,那么這個(gè)抽樣的規(guī)律能夠在一定程度上反映出該區(qū)域高速路網(wǎng)車(chē)流的規(guī)律。假設(shè)節(jié)假日某區(qū)域高速路網(wǎng)中的微博用戶總數(shù)N中,從城市i到城市j的微博用戶數(shù)為Qij,那么我們認(rèn)為,其比率約等于城市i到城市j的高速公路車(chē)流占整個(gè)區(qū)域高速路網(wǎng)的總車(chē)流的比率。

假設(shè)利用某區(qū)域收費(fèi)站的數(shù)據(jù)得到其高速路網(wǎng)總車(chē)流量為W,那么可以計(jì)算出分配到高速公路路段上的車(chē)流量為:

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1