1.一種基于社交網(wǎng)絡的互聯(lián)網(wǎng)班車線路優(yōu)化方法,其特征在于,所述方法包括如下步驟:
步驟一,社交軟件數(shù)據(jù)采集步驟,所述社交軟件數(shù)據(jù)采集包括獲取社交軟件的信息數(shù)據(jù),并從中采集到與班車線路有關的信息。
在本步驟中,通過設置抓取條件的方式從獲取所述社交軟件提供的開放接口,抓取發(fā)布的微博中的相關信息數(shù)據(jù);所述條件包括地理位置信息、時間信息、朋友關聯(lián)關系。
步驟二、對所述數(shù)據(jù)采集步驟采集到的數(shù)據(jù)進行挖掘,得到用戶不同出行時段的OD點(起終點)。
在本步驟中,利用K-means聚類算法對所述采集到的所述相關信息數(shù)據(jù)進行挖掘;在本步驟中將采集到所述數(shù)據(jù)中的的第i個數(shù)據(jù)定義為向量:
xi=(xi1,xi2,xi3),其中xi表示向量,xi1表示第i個點的經(jīng)度,xi2表示第i個點的緯度,xi3表示第i個點的時間;
在計算地點聚類中心之前先利用時間進行分類,根據(jù)所述社交軟件的發(fā)布時間xi3將數(shù)據(jù)集分割為上班集與下班集;當xi3∈(5,9)時,將xi點放進上班集進行地點聚類,當xi3∈(16,20)時,將xi點放進下班集中進行地點聚類,其余數(shù)據(jù)點視為無效點被過濾掉;這一步實現(xiàn)了初步的數(shù)據(jù)過濾與分類,有利于后續(xù)步驟的聚類;
然后進行第一次地點聚類,分別在上班集和下班集中各選出3個點作為備選點,即確定聚類中心數(shù)k=3;先定義上班集的第k個地點聚類中心為:
其中,該公式的意義是將參與了第k個上班集地點聚類的點的經(jīng)緯度計算平均值,計算出的經(jīng)緯度作為第k個上班集的聚類中心的坐標;所述n為所采集的有效數(shù)據(jù)點的個數(shù);
定義第i個點xi與第k個聚類中心μk之間的距離為:
則所述第一次地點聚類的計算步驟包括上班集聚類和下班集聚類,所述上上班集聚類包括:(1)先隨機初始化聚類均值μ1、μ2、μ3;(2)對每個點xi都找到使Dik最小的k,將i點聚到該中心,并設置該分配系數(shù)zik=1;(3)如果所有的zik與上一次迭代沒有變化,則停止聚類,輸出μ1、μ2、μ3;(4)否則按照①式更新μ1、μ2、μ3;
用與所述上班集聚類同樣的辦法可以得到下班集的三個聚類中心ρ1、ρ2、ρ3;
步驟三、目標用戶關系挖掘,在找到目標用戶之后,根據(jù)其微博的朋友關系,尋找與其出行規(guī)律相似的用戶,從而進一步擴大目標用戶的范圍。
遍歷目標用戶的朋友圈關系,找出滿足預定條件的所有重點朋友,然后計算出每一個朋友s的上班集聚類中心μs=(μ1、μ2、μ3)和下班集聚類中心ρs=(ρ1、ρ2、ρ3);然后余弦相似度可以定義上班集線路相似度計算每一個重點朋友s與目標用戶d(μd、ρd)的線路相似度:
所述cosθ為閾值,如果cosθ大于預定的數(shù)值,則認為朋友s和目標用戶d的線路相似,將所有相似的朋友放進一個新的集合中,進行第四步的二次聚類;
步驟四、對目標用戶群體進行聚類,得到用戶群最終的聚類中心(μk,ρk),此值即可作為互聯(lián)網(wǎng)班車線路的OD點。
在本步驟中,利用K-means聚類算法對所述采集到的所述相關信息數(shù)據(jù)進行挖掘;將步驟三得到的用戶群的(μ、ρ)按照上班集與下班集分為兩個集合,分別計算兩個聚類點;由于經(jīng)過步驟三的相似度判斷,所以在本步驟中設定聚類中心數(shù)為1,設μ=(μ1,μ2,...,μ3n),當k=1時,根據(jù)步驟二的公式可以推出最終的上班集聚類中心為:
同理可以算出下班集聚類中心為:
最終得到第k個用戶群的OD點為(μk,ρk),以根據(jù)這個點來增設互聯(lián)網(wǎng)班車線路。
2.根據(jù)權利要求1所述的方法,其特征在于,所述社交網(wǎng)絡包括微博。
3.根據(jù)權利要求1所訴的方法,其特征在于,在所述步驟三中,所述預定條件包括:條件1,和目標用戶是互相關注關系;條件2,和目標用戶在微博中頻繁互動;條件3,和目標用戶有共同的朋友。以上條件1、條件2、條件3之間可以是和的關系,也可以是或的關系。