本發(fā)明涉及通信領(lǐng)域,尤其是涉及一種高鐵用戶分離方法及裝置。
背景技術(shù):
:隨著高速鐵路的發(fā)展,航空公司會迫于運營成本壓力停飛高鐵沿線站點的部分航線。航空公司失去的該部分客戶可能不在乎出行成本,但更在乎出行時間以及出行期間的通信需求,高速鐵路也必將贏得一部分高端商務(wù)人士的青睞,這些商務(wù)人士也往往是運營商們最為重視的高ARPU(AverageRevenuePerUser,每用戶平均收入)值用戶。因此,如何有效識別高鐵用戶以及將高鐵用戶從其它用戶分離出來,將是打造優(yōu)質(zhì)穩(wěn)定的高速鐵路網(wǎng)絡(luò)和保證這些高端用戶的通信需求的有力保障。為了達到將高鐵用戶從普通用戶分離出來的目的,目前通常采用三種方式:方式1、基于A口和Abis口信令數(shù)據(jù)進行高鐵用戶的分離,該方式需要建立高鐵常駐用戶數(shù)據(jù)庫,在確定高鐵常駐用戶之后才能確定高鐵用戶,由于高鐵常駐用戶更新慢,導(dǎo)致不能適應(yīng)高鐵用戶快速變化的需求,而且容易存分離誤判的問題;方式2、通過接收用戶上報的位置更新信息確定高鐵用戶,該方式需要預(yù)設(shè)上報時間和位置更新次數(shù)閾值,而這些值的合適選取和設(shè)定存在很大難度,而且對于用戶沒有發(fā)生位置更新的情況,容易導(dǎo)致高鐵用戶的確定不準確;方式3、在方式1的基礎(chǔ)上結(jié)合使用高鐵實際路測數(shù)據(jù)來分離沿線常駐用戶外的高鐵用戶和沿線低速用戶,該方式也存在數(shù)據(jù)庫更新慢導(dǎo)致無法快速適應(yīng)適應(yīng)高鐵用戶快速變化的需求。因此,傳統(tǒng)的高鐵用戶分離方式的分離實時性較低,分離不準確,導(dǎo)致無法適應(yīng)高鐵用戶的快速變化,也無法滿足基站和鐵路網(wǎng)快速更新的需求。技術(shù)實現(xiàn)要素:本發(fā)明的主要目的在于提供一種無需建立高鐵常駐用戶數(shù)據(jù)庫,無需精確設(shè)定用戶上報位置更新信息的時間和位置更新次數(shù)閾值,也無需使用高鐵實際路測數(shù)據(jù)的高鐵用戶分離方案,以解決傳統(tǒng)分離方案存在實時性較低,分離不準確,導(dǎo)致無法適應(yīng)高鐵用戶的快速變化等問題。為了達到上述目的,本發(fā)明提供了一種高鐵用戶分離方法,包括:獲取高鐵沿線基站的覆蓋范圍內(nèi)移動終端的信令數(shù)據(jù),作為第一信令數(shù)據(jù);根據(jù)預(yù)設(shè)的高鐵用戶特征提取模板對所述第一信令數(shù)據(jù)進行特征提取,得到所述移動終端的用戶特征信息;將所述用戶特征信息輸入預(yù)設(shè)的高鐵用戶識別模型進行識別,得到識別概率;判斷所述識別概率是否大于預(yù)設(shè)概率,得到判斷結(jié)果,如果所述判斷結(jié)果為是,確定使用移動終端的用戶為高鐵用戶。優(yōu)選地,獲取高鐵沿線基站的覆蓋范圍內(nèi)移動終端的信令數(shù)據(jù)包括:采集運營商服務(wù)范圍內(nèi)所有移動終端的信令數(shù)據(jù),作為第二信令數(shù)據(jù);根據(jù)所述高鐵沿線基站的預(yù)設(shè)配置信息對所述第二信令數(shù)據(jù)進行過濾,得到所述第一信令數(shù)據(jù)。優(yōu)選地,所述預(yù)設(shè)配置信息包括:位置區(qū)編碼(LAC)、小區(qū)標識(CID)以及基站到高鐵始發(fā)站的直線距離。優(yōu)選地,所述第一信令數(shù)據(jù)和所述第二信令數(shù)據(jù)均包括以下參數(shù):事件開始時間、基站控制器(BSC)信令點編碼、移動交換中心(MSC)信令點編碼、事件類型、移動臺綜合業(yè)務(wù)數(shù)字網(wǎng)號碼(MSISDN)、國際移動用戶識別碼(IMSI)、業(yè)務(wù)發(fā)起的位置區(qū)編碼(LAC)、業(yè)務(wù)發(fā)起的小區(qū)標識(CID)、業(yè)務(wù)終止的LAC、業(yè)務(wù)終止的CID以及移動設(shè)備國際身份碼(IMEI)。優(yōu)選地,所述高鐵用戶特征提取模板包括以下參數(shù):移動終端切換位置、移動終端切換頻率、移動終端切換基站序列、移動終端運動速度、同一基站的覆蓋范圍中發(fā)生的切換事件及所述切換事件的次數(shù)。優(yōu)選地,所述高鐵用戶識別模型為:識別概率與用戶特征信息呈線性關(guān)系的邏輯回歸模型,其中,用于表達所述線性關(guān)系的線性參數(shù)是通過將預(yù)先選取的高鐵用戶特征信息作為訓(xùn)練樣本,進行邏輯回歸訓(xùn)練后得到的。本發(fā)明還提供了一種高鐵用戶分離裝置,應(yīng)用于運營商管理系統(tǒng),包括:獲取模塊,用于獲取高鐵沿線基站的覆蓋范圍內(nèi)移動終端的信令數(shù)據(jù),作為第一信令數(shù)據(jù);提取模塊,用于根據(jù)預(yù)設(shè)的高鐵用戶特征提取模板對所述第一信令數(shù)據(jù)進行特征提取,得到所述移動終端的用戶特征信息;識別模塊,用于將所述用戶特征信息輸入預(yù)設(shè)的高鐵用戶識別模型進行識別,得到識別概率;判定模塊,用于判斷所述識別概率是否大于預(yù)設(shè)概率,得到判斷結(jié)果,如果所述判斷結(jié)果為是,確定使用移動終端的用戶為高鐵用戶。優(yōu)選地,所述獲取模塊包括:采集單元,用于采集運營商服務(wù)范圍內(nèi)所有移動終端的信令數(shù)據(jù),作為第二信令數(shù)據(jù);過濾單元,用于根據(jù)所述高鐵沿線基站的預(yù)設(shè)配置信息對所述第二信令數(shù)據(jù)進行過濾,得到所述第一信令數(shù)據(jù)。優(yōu)選地,所述預(yù)設(shè)配置信息包括:位置區(qū)編碼(LAC)、小區(qū)標識(CID)以及基站到高鐵始發(fā)站的直線距離。優(yōu)選地,所述第一信令數(shù)據(jù)和所述第二信令數(shù)據(jù)均包括以下參數(shù):事件開始時間、基站控制器(BSC)信令點編碼、移動交換中心(MSC)信令點編碼、事件類型、移動臺綜合業(yè)務(wù)數(shù)字網(wǎng)號碼(MSISDN)、國際移動用戶識別碼(IMSI)、業(yè)務(wù)發(fā)起的位置區(qū)編碼(LAC)、業(yè)務(wù)發(fā)起的小區(qū)標識(CID)、業(yè)務(wù)終止的LAC、業(yè)務(wù)終止的CID以及移動設(shè)備國際身份碼(IMEI)。優(yōu)選地,所述高鐵用戶特征提取模板包括以下參數(shù):移動終端切換位置、移動終端切換頻率、移動終端切換基站序列、移動終端運動速度、同一基站的覆蓋范圍中發(fā)生的切換事件及所述切換事件的次數(shù)。優(yōu)選地,所述高鐵用戶識別模型為:識別概率與用戶特征信息呈線性關(guān)系的邏輯回歸模型,其中,用于表達所述線性關(guān)系的線性參數(shù)是通過將預(yù)先選取的高鐵用戶特征信息作為訓(xùn)練樣本,進行邏輯回歸訓(xùn)練后得到的。與現(xiàn)有技術(shù)相比,本發(fā)明所述的高鐵用戶分離方法及裝置,通過預(yù)設(shè)的高鐵用戶識別模型對大范圍采集手機的信令數(shù)據(jù)中的用戶特征信息進行識別的方式,將高鐵用戶從普通用戶中分離出來,相比于傳統(tǒng)分離方式需建立高鐵沿線的常駐用戶數(shù)據(jù)庫或結(jié)合進行路測得到的路測數(shù)據(jù)才能夠確定高鐵用戶的方式,具有分離成本,分離精度高,實時性強的優(yōu)勢,而且,可以根據(jù)實際路網(wǎng)和高鐵運行情況自適應(yīng)地將高鐵用戶進行分離,更好地適應(yīng)高鐵用戶的快速變化的特點。附圖說明圖1是根據(jù)本發(fā)明實施例的高鐵用戶分離方法流程圖;圖2是根據(jù)本發(fā)明實施例的高鐵用戶確定過程示意圖;圖3是根據(jù)本發(fā)明實施例的高鐵用戶分離裝置的結(jié)構(gòu)框圖;以及圖4是根據(jù)本發(fā)明實施例的優(yōu)選高鐵用戶分離裝置的示意圖。具體實施方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明的一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域的普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。本發(fā)明實施例提供了一種高鐵用戶分離方法。圖1是根據(jù)本發(fā)明實施例的高鐵用戶分離方法流程圖,如圖1所示,該流程包括以下步驟(步驟S102-步驟S108):步驟S102、獲取高鐵沿線基站的覆蓋范圍內(nèi)移動終端的信令數(shù)據(jù),作為第一信令數(shù)據(jù)。在本發(fā)明實施例中,該步驟S102的實現(xiàn)可以采用這樣的方式:先實時采集運營商服務(wù)范圍內(nèi)所有移動終端的信令數(shù)據(jù),作為第二信令數(shù)據(jù),再根據(jù)所述高鐵沿線基站的預(yù)設(shè)配置信息對所述第二信令數(shù)據(jù)進行過濾,得到所述第一信令數(shù)據(jù)。其中,所述第一信令數(shù)據(jù)和所述第二信令數(shù)據(jù)均可以包括以下參數(shù):事件開始時間、BSC(BaseStationController,基站控制器)信令點編碼、MSC(MobileSwitchingCenter,移動交換中心)信令點編碼、事件類型、MSISDN(MobileStationIntegratedServicesDigitalNetworknumber,移動臺綜合業(yè)務(wù)數(shù)字網(wǎng)號碼)、IMSI(InternationalMobileSubscriberIdentificationNumber,國際移動用戶識別碼)、業(yè)務(wù)發(fā)起的LAC(LocationAreaCode,位置區(qū)編碼)、業(yè)務(wù)發(fā)起的CID(CellID,小區(qū)標識)、業(yè)務(wù)終止的LAC、業(yè)務(wù)終止的CID以及IMEI(InternationalMobileEquipmentIdentity,移動設(shè)備國際身份碼)。在實際應(yīng)用中,這些參數(shù)的值都屬于CDR(CallDetailsRecordDatabase,呼叫細節(jié)記錄)數(shù)據(jù),都是可以通過運營商管理系統(tǒng)中的預(yù)先設(shè)置的信令采集終端(或稱為信令采集器)進行實時采集得到的,需要說明的是,信令采集終端可以與運營商管理系統(tǒng)中的管理服務(wù)器集中設(shè)置的,也可以是獨立于管理服務(wù)器而單獨設(shè)置的,例如可以設(shè)置在基站中,也可以設(shè)置在用于管理一個或多個基站的基站控制器中,這些不同的設(shè)置方式不會影響信令采集終端的實時性。當(dāng)然,本發(fā)明實施例中先實時采集運營商服務(wù)范圍內(nèi)所有移動終端的信令數(shù)據(jù)的方式可能涉及的采集范圍比較大,進行信令數(shù)據(jù)濾除的過程中需要濾除的信令數(shù)據(jù)比較多,但是這種方式(可以稱之為方式一)并不需要對采集范圍進行選擇或設(shè)定。如果為了縮小采集范圍,也可以預(yù)先對需要進行信令數(shù)據(jù)采集的范圍進行預(yù)先選擇(可以稱之為方式二),例如選擇高鐵沿線一定距離范圍內(nèi)的基站所覆蓋的范圍作為采集范圍,需要說明書的是,這兩種方式的效果區(qū)別并不大,在實際應(yīng)中,可以選擇采用哪種方式,本發(fā)明實施例中并不對此作出限定。對于本發(fā)明實施例采用的方式一,信令采集終端采集到所述第二信令數(shù)據(jù)后,可以將所述第二信令數(shù)據(jù)發(fā)送給運營商管理系統(tǒng)中的服務(wù)器端,接著服務(wù)器端可以根據(jù)高鐵沿線基站中的預(yù)設(shè)配置信息對所述第二信令數(shù)據(jù)進行過濾,以得到所述第一信令數(shù)據(jù),在本發(fā)明實施例中,所述預(yù)設(shè)配置信息是在高鐵沿線建設(shè)基站時存儲在基站中的,其包括位置區(qū)編碼(LAC)、小區(qū)標識(CID)以及基站到高鐵始發(fā)站的直線距離,也就是說,由于所述第二信令數(shù)據(jù)是從大量基站中采集到的,但是有些從距離高鐵沿線距離較遠的基站采集到的信令數(shù)據(jù)并無太大用處,可以將這些數(shù)據(jù)拋棄,而只從所述第二信令數(shù)據(jù)中過濾出從高鐵沿線基站采集到的信令數(shù)據(jù),即所述第一信令數(shù)據(jù))。例如,所述第一信令數(shù)據(jù)標識和所述第二信令數(shù)據(jù)標識可以采用以下的集合方式表達:Sigi={Stime,Sbsc,Smsc,Sevent,Smsisdn,Simsi,Slac_start,Sci_start,Slac_end,Sci_ebd,Simei}。步驟S104、根據(jù)預(yù)設(shè)的高鐵用戶特征提取模板對所述第一信令數(shù)據(jù)進行特征提取,得到所述移動終端的用戶特征信息。在本發(fā)明實施例中,所述高鐵用戶特征提取模板可以包括以下參數(shù):移動終端切換位置、移動終端切換頻率、移動終端切換基站序列、移動終端運動速度、同一基站的覆蓋范圍中發(fā)生的切換事件及所述切換事件的次數(shù)。在實際應(yīng)用中,使用這些參數(shù)作為所述高鐵用戶特征提取模板可以盡可能地從所述第一信令數(shù)據(jù)中提取出每個移動終端的用戶特征信息,在提取過程中,所述第一信令數(shù)據(jù)中并不是每個移動終端的用戶特征信息都具有所述高鐵用戶特征提取模板中的上述參數(shù),有的可能具有多個參數(shù),有的可能只有一個參數(shù),這是因為有的移動終端可能觸發(fā)了多個事件,例如,進行了語音通話,使用了多媒體數(shù)據(jù)等等,而又的移動終端可能只觸發(fā)了一個事件,例如,只進行了語音通話。當(dāng)然,所述高鐵用戶特征提取模板涵蓋上述多個參數(shù)的目的也是為了能夠從多維角度對移動終端的信令數(shù)據(jù)進行提取,以找到更多符合預(yù)定要求的用戶特征,以提高用戶特征準確度。步驟S106、將所述用戶特征信息輸入預(yù)設(shè)的高鐵用戶識別模型進行識別,得到識別概率。在本發(fā)明實施例中,所述高鐵用戶識別模型可以為:識別概率與用戶特征信息呈線性關(guān)系的邏輯回歸模型,其中,用于表達所述線性關(guān)系的線性參數(shù)是通過將預(yù)先選取的高鐵用戶特征信息作為訓(xùn)練樣本,進行邏輯回歸訓(xùn)練后得到的。在實際應(yīng)用中,對于所述高鐵用戶識別模型的設(shè)計并不作出限定。而且,為了提高所述高鐵用戶識別模型的準確度,在通過本發(fā)明實施例確定出預(yù)定數(shù)量的高鐵用戶之后,還可以將確定出的高鐵用戶作為訓(xùn)練樣本重新代入所述邏輯回歸模型進行邏輯訓(xùn)練,這樣可以提高線性參數(shù)的精度,自然也就提高了所述高鐵用戶識別模型的準確度。步驟S108、判斷所述識別概率是否大于預(yù)設(shè)概率,得到判斷結(jié)果,如果所述判斷結(jié)果為是,確定使用移動終端的用戶為高鐵用戶。為了更加了解圖1所示的上述流程,以下將結(jié)合圖2進行進一步的描述。圖2是根據(jù)本發(fā)明實施例的高鐵用戶確定過程示意圖,如圖2所示,該過程可以采用以下步驟實現(xiàn):S202,數(shù)據(jù)采集,得到運營商服務(wù)范圍內(nèi)的大量信令數(shù)據(jù)(即上述第二信令數(shù)據(jù))。該信令數(shù)據(jù)的采集可以由運營商管理系統(tǒng)中預(yù)設(shè)的信令數(shù)據(jù)采集終端實時采集服務(wù)范圍內(nèi)所有手機的信令數(shù)據(jù)得到(這些數(shù)據(jù)都屬于CDR數(shù)據(jù)),而后將這些大量信令數(shù)據(jù)發(fā)送到服務(wù)器端,具體內(nèi)容如前面所述,可以包括:事件開始時間、BSC信令點碼、MSC信令點碼、事件類型、MSISDN、IMSI、業(yè)務(wù)發(fā)起的LAC、業(yè)務(wù)發(fā)起的CID、業(yè)務(wù)終止的LAC、業(yè)務(wù)終止的CID以及IMEI。其中,信令數(shù)據(jù)可以用以下公式表示:Sigi={Stime,Sbsc,Smsc,Sevent,Smsisdn,Simsi,Slac_start,Sci_start,Slac_end,Sci_ebd,Simei};例如,這些信令數(shù)據(jù)如表1所示(其中,每一行代表一個時刻的信令數(shù)據(jù)):表1接著,先根據(jù)高鐵沿線基站的位置信息以及覆蓋范圍將高鐵沿線的終端信令數(shù)據(jù)(即上述第一信令數(shù)據(jù))過濾出來,然后對過濾后的信令數(shù)據(jù)以及終端對應(yīng)的通話信息進行特征抽取,形成單臺終端的切換位置、切換頻次、切換基站序列、運行速度以及同一時間窗口內(nèi)某一基站發(fā)生切換的事件以及其對應(yīng)的次數(shù)等。具體過程如下:S204,信令數(shù)據(jù)過濾。當(dāng)終端信令在高鐵沿線基站覆蓋范圍內(nèi)時,其終端用戶才可能為高鐵用戶,因此可以將采集到的信令數(shù)據(jù)進行過濾,可以以避免后續(xù)處理的用戶數(shù)據(jù)較大。即:其中,Li,Ci為高鐵沿線基站的LAC,CID。過濾時,可以根據(jù)所述高鐵沿線基站的預(yù)設(shè)配置信息對采集到的信令數(shù)據(jù)(即上述第二信令數(shù)據(jù))進行過濾,其中,預(yù)設(shè)配置信息可以是預(yù)先設(shè)置在高鐵沿線基站中的一張高鐵資源表,如表2所示:表2這樣,采用表2對采集的數(shù)據(jù)進行過濾后得到的信令數(shù)據(jù)Sigj為:IMSI時間LACCID1358B9C6761733D26D036DF8471E1DE02014120815550016722543372ED01A23525059840612778998103BC2014120815545016721375272ED01A23525059840612778998103BC2014120815550016841401172ED01A23525059840612778998103BC20141208155600167212823F5A4E13AB3A423072490C0D41000158D20141208155600168414011F5A4E13AB3A423072490C0D41000158D20141208155500167225433S206,高鐵用戶特征抽取。使用預(yù)先設(shè)置的高鐵用戶特征提取模板(可以包括以下參數(shù):移動終端切換位置、移動終端切換頻率、移動終端切換基站序列、移動終端運動速度、同一基站的覆蓋范圍中發(fā)生的切換事件及所述切換事件的次數(shù)),抽取用戶的特征:其中,表示移動終端切換位置Ci、移動終端切換頻率Ti,其中,Ti通過計算該用戶在時間窗口T內(nèi)切換次數(shù),表示用戶在時間窗口T內(nèi)發(fā)生切換的基站(CellID)序列,表示用戶在時間窗口T內(nèi)發(fā)生切換基站時的運行速度,其中,表示時間窗口T內(nèi)某一基站Ci發(fā)生切換的事件Ei的次數(shù)Tei。例如,根據(jù)上述信令數(shù)據(jù),72ED01A23525059840612778998103BC用戶在20141208155600時刻的位置C600={0,0,1,0},時間T=30min內(nèi)的頻率T600={2,1,2,1},時間T=30min的基站切換序列為切換速度為:切換終端數(shù)為:這樣組成用戶特征向量(用戶特征信息):Fi={2,1,2,1,2,3,4,1,2,1,2,1}。S208,將用戶特征向量輸入高鐵用戶識別模型進行識別。高鐵用戶分離屬于二元分類預(yù)測問題,對于二元分類預(yù)測問題,可以選用決策樹、神經(jīng)網(wǎng)絡(luò)、邏輯回歸、判別分析等數(shù)據(jù)挖掘算法進行分析建模。本發(fā)明實施例中,選用了邏輯回歸(Logistic回歸模型是一種概率分類模型),其是以用戶是高鐵用戶的概率為因變量,以用戶特征信息為自變量建立的回歸模型。以p表示用戶是高鐵用戶的概率,函數(shù)p對Fi的變化在p=0或p=1的附近是不敏感的、緩慢的,且非線性的程度較高。按照Logistic變換(或稱為p的Logit變換),即:θ(p)對Fi就可以是線性的關(guān)系了,即可以表示為:以下對預(yù)先建立高鐵用戶識別的建模流程進行簡要介紹:1)預(yù)先選取一些運營商已經(jīng)掌握的高鐵用戶特征信息作為建模樣本,首先進行樣本切分:按高鐵用戶標志隨機分層抽樣,將80%作為建模需要的訓(xùn)練集,將另外20%作為測試集。2)用訓(xùn)練集進行分步Logistics回歸訓(xùn)練,最終擬合出變量Fi的系數(shù)(即上述線性系數(shù),也即Logistics回歸模型公式中的β)。3)用測試集評估模型的準確率,不斷優(yōu)化模型。當(dāng)建立測試數(shù)據(jù)集對模型進行測試時,使用準確率、LIFT值分別對模型進行評估。其中:準確率=準確預(yù)測某類的人數(shù)/被預(yù)測為某類的人數(shù);LIFT值=模型預(yù)測準確率/隨機抽取準確率;LIFT值代表了選用模型預(yù)測名單比隨機選取時的提升倍數(shù),當(dāng)LIFT值大于1時,說明模型有實用價值,且LIFT值越大,其價值越大。模型構(gòu)建后得到高鐵用戶概率的計算公式,用于識別高鐵用戶。S210,判斷計算出的高鐵用戶概率p是否大于預(yù)設(shè)頻率p0;S212A、S212B,如果p大于p0,標示高鐵用戶為1,即確定用戶為高鐵用戶,標示高鐵用戶為0,即確定用戶為非高鐵用戶。對應(yīng)于上述高鐵用戶分離方法,本發(fā)明實施例還提供了一種高鐵用戶分離裝置,該裝置可以應(yīng)用于運營商管理系統(tǒng),用執(zhí)行上述高鐵用戶分離方法。圖3是根據(jù)本發(fā)明實施例的高鐵用戶分離裝置的結(jié)構(gòu)框圖,如圖3所示,該裝置包括:獲取模塊10,提取模塊20,識別模塊30以及判定模塊40,其中:獲取模塊10,用于獲取高鐵沿線基站的覆蓋范圍內(nèi)移動終端的信令數(shù)據(jù),作為第一信令數(shù)據(jù);提取模塊20,用于根據(jù)預(yù)設(shè)的高鐵用戶特征提取模板對所述第一信令數(shù)據(jù)進行特征提取,得到所述移動終端的用戶特征信息;識別模塊30,用于將所述用戶特征信息輸入預(yù)設(shè)的高鐵用戶識別模型進行識別,得到識別概率;判定模塊40,用于判斷所述識別概率是否大于預(yù)設(shè)概率,得到判斷結(jié)果,如果所述判斷結(jié)果為是,確定使用移動終端的用戶為高鐵用戶。在圖3所示的高鐵用戶分離裝置的基礎(chǔ)上,本發(fā)明實施例還提供了一種優(yōu)選高鐵用戶分離裝置。圖4是根據(jù)本發(fā)明實施例的優(yōu)選高鐵用戶分離裝置的示意圖,如圖4所示:所述獲取模塊10可以進一步包括:采集單元12,用于采集運營商服務(wù)范圍內(nèi)所有移動終端的信令數(shù)據(jù),作為第二信令數(shù)據(jù);過濾單元14,用于根據(jù)所述高鐵沿線基站的預(yù)設(shè)配置信息對所述第二信令數(shù)據(jù)進行過濾,得到所述第一信令數(shù)據(jù)。在本發(fā)明實施例中,所述預(yù)設(shè)配置信息可以包括:位置區(qū)編碼(LAC)、小區(qū)標識(CID)以及基站到高鐵始發(fā)站的直線距離。所述第一信令數(shù)據(jù)和所述第二信令數(shù)據(jù)均可以包括以下參數(shù):事件開始時間、基站控制器(BSC)信令點編碼、移動交換中心(MSC)信令點編碼、事件類型、移動臺綜合業(yè)務(wù)數(shù)字網(wǎng)號碼(MSISDN)、國際移動用戶識別碼(IMSI)、業(yè)務(wù)發(fā)起的位置區(qū)編碼(LAC)、業(yè)務(wù)發(fā)起的小區(qū)標識(CID)、業(yè)務(wù)終止的LAC、業(yè)務(wù)終止的CID以及移動設(shè)備國際身份碼(IMEI)。所述高鐵用戶特征提取模板可以包括以下參數(shù):移動終端切換位置、移動終端切換頻率、移動終端切換基站序列、移動終端運動速度、同一基站的覆蓋范圍中發(fā)生的切換事件及所述切換事件的次數(shù)。所述高鐵用戶識別模型可以為:識別概率與用戶特征信息呈線性關(guān)系的邏輯回歸模型,其中,用于表達所述線性關(guān)系的線性參數(shù)是通過將預(yù)先選取的高鐵用戶特征信息作為訓(xùn)練樣本,進行邏輯回歸訓(xùn)練后得到的。本發(fā)明實施例,通過預(yù)設(shè)的高鐵用戶識別模型對大范圍采集手機的信令數(shù)據(jù)中的用戶特征信息進行識別的方式,將高鐵用戶從普通用戶中分離出來,不需要建立高鐵沿線的常駐用戶數(shù)據(jù)庫,也無需進行路測結(jié)合路測數(shù)據(jù)才能夠確定高鐵用戶,而且進行信令采集時可以利用現(xiàn)有的信令采集設(shè)備,這樣可以降低分離成本。而且,由于從大量信令數(shù)據(jù)中提取的用戶特征信息包含參數(shù)比較全面,相對于傳統(tǒng)分離方法只基于用戶的運動速度和位置更新次數(shù)范圍的方式來說,大大提高了分離精度,可以更準確地將高鐵起停過程中的用戶進行分離。另外,由于大量信令數(shù)據(jù)采集的實時性比較強,可以根據(jù)實際路網(wǎng)和高鐵運行情況自適應(yīng)地將高鐵用戶進行分離,當(dāng)路網(wǎng)或基站信息發(fā)生變化時,可以快速對模型進行更新。以上所述是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明所述原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為包含在本發(fā)明的保護范圍之內(nèi)。當(dāng)前第1頁1 2 3