基于聚類的城市基礎(chǔ)設(shè)施突發(fā)事件的檢測方法
【專利摘要】本發(fā)明公開了一種基于聚類的城市基礎(chǔ)設(shè)施突發(fā)事件的檢測方法,首先,接收市民反映城市基礎(chǔ)設(shè)施問題的電話,并記錄到工單數(shù)據(jù)庫中;對數(shù)據(jù)庫篩選后,用中文分詞技術(shù)對所篩選出的工單提取語義關(guān)鍵詞,整理語義關(guān)鍵詞間的因果關(guān)系,然后提取該工單的地址關(guān)鍵詞;對工單做語義聚類;對語義層面上的每個聚類做空間聚類;對空間層面上的每個聚類做時間聚類,從而得到時間層面上的聚類,認定時間層面上的聚類是城市基礎(chǔ)設(shè)施突發(fā)事件,用城市基礎(chǔ)設(shè)施突發(fā)事件的根節(jié)點的可視設(shè)計方案在地圖上展示這些城市基礎(chǔ)設(shè)施突發(fā)事件的分布,從而檢測出城市基礎(chǔ)設(shè)施突發(fā)事件,讓用戶做出更快更明智的決策來解決城市基礎(chǔ)設(shè)施的問題。
【專利說明】基于聚類的城市基礎(chǔ)設(shè)施突發(fā)事件的檢測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種考慮時間、空間和語義三個維度的聚類算法從城市基礎(chǔ)設(shè)施訴求問題中檢測出突發(fā)事件,支持決策。
【背景技術(shù)】
[0002]現(xiàn)在,城市基礎(chǔ)設(shè)施發(fā)展,不管對于一個國家或者是人們都是非常重要的。越來越多的管理者開始關(guān)注城市基礎(chǔ)設(shè)施發(fā)展。對此,人們關(guān)注最多的莫過于生活中的供水、電、燃氣、排水、出行交通等方面,北方的人們還會關(guān)注供熱的問題。這些行業(yè)的發(fā)展和管理,和人們的生活狀態(tài)和城市的發(fā)展運營都息息相關(guān)。在不同的國家,不同的城市,開始產(chǎn)生了各種城市的管理服務(wù)的系統(tǒng)或者機構(gòu),比如美國的311系統(tǒng),英國的101系統(tǒng),中國的12319系統(tǒng)。像供水、燃氣等等這樣和市民生活相關(guān)的數(shù)據(jù)也開始變得越來越可用。在這樣的背景下,對城市基礎(chǔ)設(shè)施發(fā)展和管理的研究也變得有意義和價值。像供水、燃氣這樣的行業(yè),如果有一些設(shè)施的故障或整修,這樣的突發(fā)事件會對市民的生活有很大的影響。
[0003]本發(fā)明在技術(shù)上是和聚類相關(guān)的,在應(yīng)用上是和城市基礎(chǔ)設(shè)施相關(guān)的。一般的單個的科研工作已經(jīng)有很多國內(nèi)外科研專家研究,也已經(jīng)有了大量的研究成果,但是用考慮時間、空間和語義三個維度的聚類方法來研究城市基礎(chǔ)設(shè)施相關(guān)的數(shù)據(jù)的情況并不多。
[0004]如今有很多人研究城市基礎(chǔ)設(shè)施數(shù)據(jù),在這些基礎(chǔ)設(shè)施數(shù)據(jù)逐漸變得可用的時候,對城市基礎(chǔ)設(shè)施的研究有很多。有研究人員針對公共服務(wù)對未來100年的風(fēng)險和不確定性做了估計;有的人建立了一種關(guān)于基礎(chǔ)設(shè)施間相互依賴的模型,希望能夠發(fā)現(xiàn)不同類型基礎(chǔ)設(shè)施之間的關(guān)系,驗證可能一類基礎(chǔ)設(shè)施的問題會導(dǎo)致另一類設(shè)施的問題。但大多數(shù)的研究者只是從管網(wǎng)數(shù)據(jù)中研究問題,而本發(fā)明依據(jù)12319電話數(shù)據(jù),它是市民針對基礎(chǔ)設(shè)施問題真實反映的訴求;而管網(wǎng)數(shù)據(jù)并不能完全地包含市民反映的問題,它只是突發(fā)事件發(fā)生后的一個整體的情況,它所涉及到的粒度沒有一個個的電話訴求那么細,所以當(dāng)管網(wǎng)數(shù)據(jù)沒有顯示基礎(chǔ)設(shè)施有問題時,并不代表真的就沒有問題。
[0005]聚類算法在各個領(lǐng)域上運用的很廣泛,有專家發(fā)展了一種迭代的聚類算法,有人則基于語義聚類發(fā)展了一種路徑查詢算法。聚類作為一種數(shù)據(jù)挖掘手段已經(jīng)被廣泛使用,但是大部分聚類算法只是在時間或空間上處理,也有一些專門的文本聚類算法,少有同時時間、空間和語義的聚類。而本發(fā)明由于數(shù)據(jù)和研究的需要,定義兩個工單是否相近,就應(yīng)該考慮齊全它們的屬性,即綜合時間、空間、語義做聚類。
[0006]關(guān)于城市基礎(chǔ)設(shè)施的聚類也很多,有人在空間掃描統(tǒng)計方法上擴展成一種可以檢測水分布網(wǎng)絡(luò)爆管點的聚類事件的方法。但真正和本發(fā)明研究的方向和模型相似的方法并不多,更何況,在很多國家和城市,不存在供熱的問題。
[0007]地理資訊系統(tǒng)(Geographic Informat1n System,簡稱GIS)相關(guān)的研究就更多了,GIS在很多需要地圖的項目(例如實時交通網(wǎng)絡(luò))和研究中都有被用到。城市是一個有面積的實體,也就是說它是適合地圖應(yīng)用的。另外,在GIS的基礎(chǔ)上加入其他技術(shù)和應(yīng)用的例子也不少,有人基于GIS提出了一個整合的基礎(chǔ)設(shè)施管理系統(tǒng)。也有人結(jié)合GIS和城市基礎(chǔ)設(shè)施做了研究,而本發(fā)明則在GIS基礎(chǔ)上加入要研究的應(yīng)用。
【發(fā)明內(nèi)容】
[0008]城市管理服務(wù)熱線系統(tǒng)的數(shù)據(jù)是以市民訴求工單的形式存在,然而突發(fā)事件的信息對城市管理者來說更有價值。本發(fā)明旨在對電話訴求數(shù)據(jù)進行清洗和處理后,在時間、空間和語義內(nèi)容三個尺度上對工單做綜合的聚類,進而找出相似的反映同一個突發(fā)事件的工單。當(dāng)城市管理者知道有這樣一些工單實際上是一個突發(fā)事件的反映,他們就能更快的根據(jù)總結(jié)出來的在某個地區(qū)某個時間段發(fā)生的突發(fā)事件做出處理的決策,而不是根據(jù)一條條表面上看不出聯(lián)系的工單。本發(fā)明是從處理對象一工單出發(fā),從圖1也可以看出來這個基于聚類的城市基礎(chǔ)設(shè)施突發(fā)事件檢測方法的最終目的是,檢測出城市基礎(chǔ)設(shè)施突發(fā)事件,從而可以做出更快更明智的決策來解決城市基礎(chǔ)設(shè)施的問題。在經(jīng)過語義和地址關(guān)鍵詞的處理和語義、空間、時間聚類后,對得到的突發(fā)事件做可視分析設(shè)計,通過根節(jié)點的方案可以更深入地看到突發(fā)事件在地圖上的分布情況、更直觀地在突發(fā)事件中發(fā)現(xiàn)嚴(yán)重的突發(fā)事件,如圖5 ;所以突發(fā)事件的可視分析設(shè)計讓用戶在突發(fā)事件發(fā)生后很快地得知突發(fā)事件的具體原因、相應(yīng)后果和發(fā)生的位置,幫助其決策。
[0009]為了解決上述技術(shù)問題,本發(fā)明一種基于聚類的城市基礎(chǔ)設(shè)施突發(fā)事件的檢測方法包括以下步驟:
[0010]步驟一、利用城市管理服務(wù)熱線系統(tǒng)接收市民反映城市基礎(chǔ)設(shè)施問題的電話,然后,將該電話內(nèi)容記錄到一工單數(shù)據(jù)庫中,所述工單數(shù)據(jù)庫至少包括以下內(nèi)容:
[0011]工單編號、接收工單的時間、工單反映的問題所涉及到的城市基礎(chǔ)設(shè)施的類別、描述該電話所反映的城市基礎(chǔ)設(shè)施問題的文本和該電話所反映的城市基礎(chǔ)設(shè)施問題的地址;其中,所述工單反映的問題所涉及到的城市基礎(chǔ)設(shè)施的類別包括供熱、自來水、燃氣、排水和供熱,城市基礎(chǔ)設(shè)施問題的地址是層級的;
[0012]步驟二、根據(jù)接收工單的時間和工單反映的問題所涉及到的城市基礎(chǔ)設(shè)施的類別對工單數(shù)據(jù)庫進行篩選;
[0013]使用中文分詞技術(shù)對所篩選出的工單提取工單描述的電話所反映的城市基礎(chǔ)設(shè)施問題的文本中的語義關(guān)鍵詞,所述語義關(guān)鍵詞是城市基礎(chǔ)設(shè)施問題的原因或結(jié)果的詞語;整理對應(yīng)的語義關(guān)鍵詞間的因果關(guān)系,用于定義城市基礎(chǔ)設(shè)施突發(fā)事件在語義內(nèi)容這一維度上的種類;
[0014]使用中文分詞技術(shù)對所篩選出的工單提取工單所反映的城市基礎(chǔ)設(shè)施問題的地址中的地址關(guān)鍵詞,從而提取出工單所反映的城市基礎(chǔ)設(shè)施問題的地址的每個層級的地址單元;
[0015]步驟三、對步驟二處理后的工單進行語義聚類:
[0016]根據(jù)工單的語義關(guān)鍵詞的提取統(tǒng)計信息和整理的語義關(guān)鍵詞間的因果關(guān)系把工單歸到匹配的城市基礎(chǔ)設(shè)施突發(fā)事件語義種類中,從而得到在語義層面上的聚類,包括:
[0017]如果工單反映的城市基礎(chǔ)設(shè)施問題的文本中包括步驟二確定的某種反映城市基礎(chǔ)設(shè)施突發(fā)事件的原因的語義關(guān)鍵詞,則將該工單歸到這種城市基礎(chǔ)設(shè)施突發(fā)事件中;
[0018]如果工單反映的城市基礎(chǔ)設(shè)施問題的文本中同時出現(xiàn)了多個反映不同類別的城市基礎(chǔ)設(shè)施突發(fā)事件的原因的語義關(guān)鍵詞,則將該工單歸到這些城市基礎(chǔ)設(shè)施突發(fā)事件中含有反映城市基礎(chǔ)設(shè)施突發(fā)事件的結(jié)果的語義關(guān)鍵詞最多的城市基礎(chǔ)設(shè)施突發(fā)事件中;
[0019]如果工單反映的城市基礎(chǔ)設(shè)施問題的文本中只出現(xiàn)了反映城市基礎(chǔ)設(shè)施突發(fā)事件的結(jié)果的語義關(guān)鍵詞X,則在該工單的接收時間的前后2天內(nèi)找在語義上出現(xiàn)了和上述結(jié)果的語義關(guān)鍵詞有因果關(guān)系的原因的語義關(guān)鍵詞的工單,
[0020]如果找到的符合條件的工單已經(jīng)歸到相應(yīng)的城市基礎(chǔ)設(shè)施突發(fā)事件中,則把該工單也歸到這種城市基礎(chǔ)設(shè)施突發(fā)事件中;
[0021]如果沒有找到符合條件的工單,則把該工單歸到包含結(jié)果的語義關(guān)鍵詞X的城市基礎(chǔ)設(shè)施突發(fā)事件,且該城市基礎(chǔ)設(shè)施突發(fā)事件是所有包含結(jié)果的語義關(guān)鍵詞X的城市基礎(chǔ)設(shè)施突發(fā)事件中優(yōu)先級最高的城市基礎(chǔ)設(shè)施突發(fā)事件;城市基礎(chǔ)設(shè)施突發(fā)事件的優(yōu)先級是規(guī)定城市基礎(chǔ)設(shè)施突發(fā)事件發(fā)生后需要做出反應(yīng)并解決的緊急程度;
[0022]如果工單反映的城市基礎(chǔ)設(shè)施問題的文本中沒有任何反映城市基礎(chǔ)設(shè)施突發(fā)事件的原因或結(jié)果的語義關(guān)鍵詞,則該條工單在語義上不屬于任何城市基礎(chǔ)設(shè)施突發(fā)事件;
[0023]步驟四、對步驟三中得到的語義層面上的每個聚類進行空間聚類,從而得到在空間層面上的聚類:
[0024]遍歷每個聚類中的工單,判斷聚類中有相同的地址關(guān)鍵詞的工單的個數(shù)是否大于等于3,
[0025]當(dāng)聚類中有相同的地址關(guān)鍵詞的工單的個數(shù)大于等于3時,則初步認定這些工單的集合成為一個城市基礎(chǔ)設(shè)施突發(fā)事件;
[0026]當(dāng)聚類中有相同的地址關(guān)鍵詞的工單的個數(shù)小于3時,定義一個最大經(jīng)緯度距離D,遍歷該聚類中的所有工單,如果兩條工單的經(jīng)緯度距離d大于O而小于等于D,則把它們歸為一個空間層面上的聚類;
[0027]遍歷后,要求空間層面上的聚類包含的工單的個數(shù)大于等于3 ;否則,舍棄這樣的空間層面上的聚類;
[0028]步驟五、對步驟四中得到的空間層面上的每個聚類進行時間聚類,從而得到在時間層面上的聚類:
[0029]設(shè)定時間聚類中最大的時間尺度為5天,空間層面上的每個聚類中的工單可能在同一天或者相鄰的天數(shù)內(nèi)被接收,統(tǒng)計空間層面上的每個聚類中的所有工單的被接收的時間,得到所有的日期、每個日期對應(yīng)的出現(xiàn)的次數(shù)和接收時間是該日期的所有工單的集合;按照日期出現(xiàn)的次數(shù)從大到小對日期排序后得到日期的集合F,遍歷日期的集合F的每個日期Y,
[0030]如果日期的集合F中,存在與日期Y相差前后2天內(nèi)的日期Z,則將空間層面上的聚類中接收時間在日期Y和Z的工單聚在一起,并從日期的集合F將日期Y和日期Z刪除;[0031 ] 如果日期的集合F中,不存在與日期Y相差前后2天內(nèi)的日期,則遍歷日期的集合F中的下一個日期;
[0032]遍歷后,得到在時間層面上的聚類,要求它們包含的工單的個數(shù)大于等于3;否貝U,舍棄這樣的時間層面上的聚類;
[0033]步驟六、認定步驟五中得到的時間層面上的聚類是城市基礎(chǔ)設(shè)施突發(fā)事件,用城市基礎(chǔ)設(shè)施突發(fā)事件的根節(jié)點的可視設(shè)計方案在地圖上展示這些城市基礎(chǔ)設(shè)施突發(fā)事件的分布,從而檢測出城市基礎(chǔ)設(shè)施突發(fā)事件;所述的城市基礎(chǔ)設(shè)施突發(fā)事件的根節(jié)點,是指城市基礎(chǔ)設(shè)施突發(fā)事件中的第一個所反映的城市基礎(chǔ)設(shè)施問題的文本包含反映城市基礎(chǔ)設(shè)施突發(fā)事件原因或結(jié)果的語義關(guān)鍵詞的工單。
[0034]相比現(xiàn)有的技術(shù),本發(fā)明不僅僅考慮時間和空間維度,還加入了語義維度來全面權(quán)衡工單的相似性。根據(jù)城市基礎(chǔ)設(shè)施的訴求數(shù)據(jù)的自身特性,語義內(nèi)容作為描述工單的重要屬性,理應(yīng)被考慮到檢測突發(fā)事件的聚類算法中。相比一般的聚類算法,本發(fā)明的創(chuàng)新之處是結(jié)合文本處理做了語義、空間和時間三個維度上的聚類。在事件發(fā)生之后用本發(fā)明能迅速地找到問題的根本并快速地解決它,而且本發(fā)明充分地利用了市民反映的真實的信息,既來源于12319城市管理服務(wù)熱線系統(tǒng),也可以被應(yīng)用到12319城市管理服務(wù)熱線系統(tǒng)中,給人們帶來更多的便利。
【專利附圖】
【附圖說明】
[0035]圖1是基于聚類的城市基礎(chǔ)設(shè)施突發(fā)事件的檢測方法的流程圖;
[0036]圖2(a)是對選定的工單做語義聚類的結(jié)果圖;
[0037]圖2 (b)是圖2 (a)的單獨一種語義聚類的效果圖;
[0038]圖2(c)是對圖2(b)包含的工單做空間聚類的效果圖;
[0039]圖2(d)是對圖2(c)包含的工單做時間聚類的效果圖;
[0040]圖3是城市基礎(chǔ)設(shè)施一燃氣的突發(fā)事件和灰度映射的示意圖;
[0041]圖4是城市基礎(chǔ)設(shè)施一自來水的突發(fā)事件和灰度映射的示意圖;
[0042]圖5是使用突發(fā)事件的根節(jié)點顯示突發(fā)事情分布情況的效果圖;
[0043]圖6是用本發(fā)明檢測到2010年自來水基礎(chǔ)設(shè)施的工單數(shù)據(jù)中的特大型突發(fā)事件;
[0044]圖7是圖6中嚴(yán)重突發(fā)事件的3個工單的詳細內(nèi)容的示意圖。
【具體實施方式】
[0045]本發(fā)明提供一種基于聚類的城市基礎(chǔ)設(shè)施突發(fā)事件的檢測方法,主要考慮聚類對象的語義內(nèi)容、空間和時間3個維度的聚類算法來檢測城市基礎(chǔ)設(shè)施的突發(fā)事件。下面結(jié)合附圖和具體實施例(以天津12319城市管理服務(wù)熱線系統(tǒng)為例)對本發(fā)明技術(shù)方案作進一步詳細描述。本發(fā)明方法包括以下步驟:
[0046]步驟一、利用天津12319城市管理服務(wù)熱線系統(tǒng)接收市民反映城市基礎(chǔ)設(shè)施問題的電話,然后,將該電話內(nèi)容記錄到一工單數(shù)據(jù)庫中,所述工單數(shù)據(jù)庫至少包括以下內(nèi)容:
[0047]工單編號、接收工單的時間、工單反映的問題所涉及到的城市基礎(chǔ)設(shè)施的類別、描述該電話所反映的城市基礎(chǔ)設(shè)施問題的文本和該電話所反映的城市基礎(chǔ)設(shè)施問題的地址;其中,所述工單反映的問題所涉及到的城市基礎(chǔ)設(shè)施的類別包括供熱、自來水、燃氣、排水和供熱,城市基礎(chǔ)設(shè)施問題的地址是層級的。
[0048]根據(jù)12319系統(tǒng)數(shù)據(jù)的特征,盡管現(xiàn)有聚類方法大多只考慮時間和空間2個維度,但本發(fā)明提供一種考慮聚類對象的語義內(nèi)容、空間和時間3個維度的聚類算法來檢測城市基礎(chǔ)設(shè)施的突發(fā)事件。
[0049]步驟二、如圖1,根據(jù)接收工單的時間和工單反映的問題所涉及到的城市基礎(chǔ)設(shè)施的類別對工單數(shù)據(jù)庫進行篩選;
[0050]使用中文分詞技術(shù)對所篩選出的工單提取工單描述的電話所反映的城市基礎(chǔ)設(shè)施問題的文本中的語義關(guān)鍵詞,所述語義關(guān)鍵詞是城市基礎(chǔ)設(shè)施問題的原因或結(jié)果的詞語;對語義關(guān)鍵詞的要求是它們必須反映工單文本內(nèi)容的本質(zhì)問題,如“漏氣”;所以工單的語義關(guān)鍵詞是工單的主題的主要貢獻者,判斷2個工單在語義內(nèi)容上是否相近,等價于判斷工單的語義關(guān)鍵詞是否相近。使用中文分詞技術(shù)提取出工單語義內(nèi)容的語義關(guān)鍵詞,該分詞技術(shù)的技術(shù)是檢查一個句子中是否有詞庫中的詞并記錄這些詞。所述詞庫是在充分了解和熟悉了工單數(shù)據(jù)庫之后定義的,它包含反映城市基礎(chǔ)設(shè)施問題的語義關(guān)鍵詞,如“燃氣設(shè)施”、“燃氣事故”和“漏氣”。整理對應(yīng)的語義關(guān)鍵詞間的因果關(guān)系,用于定義城市基礎(chǔ)設(shè)施突發(fā)事件在語義內(nèi)容這一維度上的種類;如圖1所示,提取了語義關(guān)鍵詞之后,還需要整理關(guān)鍵詞間的因果關(guān)系。上述總結(jié)的語義關(guān)鍵詞分為表示突發(fā)事件語義原因的關(guān)鍵詞和表示突發(fā)事件結(jié)果的關(guān)鍵詞,例如“燃氣事故”導(dǎo)致“無氣”;這兩類語義關(guān)鍵詞存在一定的因果關(guān)系,這樣的因果關(guān)系就構(gòu)成了突發(fā)事件的語義內(nèi)容,所以本發(fā)明規(guī)定用原因、結(jié)果關(guān)鍵詞的因果關(guān)系來定義突發(fā)事件在語義內(nèi)容這一維度上的種類。
[0051]使用中文分詞技術(shù)對所篩選出的工單提取工單所反映的城市基礎(chǔ)設(shè)施問題的地址中的地址關(guān)鍵詞,從而提取出工單所反映的城市基礎(chǔ)設(shè)施問題的地址的每個層級的地址單元;工單的地址信息大多是層級的,如“河西區(qū)黑牛城道純雅公寓I號樓4門202”;本步驟就是為了提取出每個層級的地址單元,如“河西區(qū)”、“黑牛城道”、“純雅公寓”。
[0052]步驟三、如圖1,對步驟二處理后的工單進行語義聚類:
[0053]根據(jù)工單的語義關(guān)鍵詞的提取統(tǒng)計信息和整理的語義關(guān)鍵詞間的因果關(guān)系把工單歸到匹配的城市基礎(chǔ)設(shè)施突發(fā)事件語義種類中,從而得到在語義層面上的聚類。給步驟二處理后的每條工單設(shè)一個數(shù)組PREPAREMASK,其數(shù)據(jù)結(jié)構(gòu)通過一個例子展示。假設(shè)現(xiàn)在總結(jié)的共有3種因果關(guān)系,所以PREPAREMASK數(shù)組中有3個元素,表示特定的城市基礎(chǔ)設(shè)施的突發(fā)事件的語義種類的個數(shù);因為每個突發(fā)事件在語義維度上用原因、結(jié)果關(guān)鍵詞的因果關(guān)系來定義,所以PREPAREMASK數(shù)組的每個元素是包含2個數(shù)值的數(shù)組,第一個數(shù)值記錄特定突發(fā)事件的原因關(guān)鍵詞在工單語義內(nèi)容中出現(xiàn)的次數(shù),相應(yīng)的第二個數(shù)值記錄特定突發(fā)事件的結(jié)果關(guān)鍵詞在工單語義內(nèi)容中出現(xiàn)的次數(shù)。所以PREPAREMASK的結(jié)構(gòu)是如[[1,0],[1,1], [O, 2]]這樣的形式,廣義的說是n*2格式的,η是特定基礎(chǔ)設(shè)施的突發(fā)事件的語義種類的個數(shù)。當(dāng)一條工單中出現(xiàn)了某種突發(fā)事件語義上的原因的關(guān)鍵詞,就給PREPAREMASK中表征這個原因的數(shù)值量加I ;當(dāng)出現(xiàn)了某種突發(fā)事件語義上的結(jié)果的關(guān)鍵詞,就給PREPAREMASK中表征這個結(jié)果的數(shù)值量加I。所以[[1,0],[1,1],[0,2]]就表示這個工單的語義內(nèi)容中出現(xiàn)了 O號突發(fā)事件的一種語義的原因,I號突發(fā)事件的一種語義的原因和一種語義的結(jié)果,2號突發(fā)事件的兩種語義的結(jié)果。本發(fā)明在熟悉數(shù)據(jù)庫之后規(guī)定每個突發(fā)事件語義種類的原因關(guān)鍵詞只有一種,但結(jié)果關(guān)鍵詞有多種;即一種原因可以導(dǎo)致多種結(jié)果。
[0054]對篩選的工單做語義聚類時,依據(jù)工單的PREPAREMASK數(shù)組做判斷,把工單歸到適合的突發(fā)事件語義種類中(以燃氣基礎(chǔ)設(shè)施為例,定義篩選出的工單集合為B):
[0055]如果工單反映的城市基礎(chǔ)設(shè)施問題的文本中包括步驟二確定的某種反映城市基礎(chǔ)設(shè)施突發(fā)事件的原因的語義關(guān)鍵詞,則將該工單歸到這種城市基礎(chǔ)設(shè)施突發(fā)事件中;
[0056]如果工單反映的城市基礎(chǔ)設(shè)施問題的文本中同時出現(xiàn)了多個反映不同類別的城市基礎(chǔ)設(shè)施突發(fā)事件的原因的語義關(guān)鍵詞,則將該工單歸到這些城市基礎(chǔ)設(shè)施突發(fā)事件中含有反映城市基礎(chǔ)設(shè)施突發(fā)事件的結(jié)果的語義關(guān)鍵詞最多的城市基礎(chǔ)設(shè)施突發(fā)事件中;具體的說,如果集合B中的工單C的PREPAREMASK[j] [O] = I且PREPAREMASK[j] [I]是語義原因值為I的突發(fā)事件中的最大結(jié)果值,那么C的聚類編號則為j。其中j是PREPAREMASK的index,PREPAREMASK中的元素是按突發(fā)事件優(yōu)先級排序的,所以j代表的是燃氣基礎(chǔ)設(shè)施下的突發(fā)事件的編號,可能是O,I, 2,3 (因為本發(fā)明規(guī)定燃氣基礎(chǔ)設(shè)施有4種語義突發(fā)事件種類,這是整理語義關(guān)鍵詞時整理得到的)。
[0057]如果工單反映的城市基礎(chǔ)設(shè)施問題的文本中只出現(xiàn)了反映城市基礎(chǔ)設(shè)施突發(fā)事件的結(jié)果的語義關(guān)鍵詞X,則在該工單的接收時間的前后2天內(nèi)找在語義上出現(xiàn)了和上述結(jié)果的語義關(guān)鍵詞有因果關(guān)系的原因的語義關(guān)鍵詞的工單,如果找到的符合條件的工單已經(jīng)歸到相應(yīng)的城市基礎(chǔ)設(shè)施突發(fā)事件中,則把該工單也歸到這種城市基礎(chǔ)設(shè)施突發(fā)事件中;如果沒有找到符合條件的工單,則把該工單歸到包含結(jié)果的語義關(guān)鍵詞X的城市基礎(chǔ)設(shè)施突發(fā)事件,且該城市基礎(chǔ)設(shè)施突發(fā)事件是所有包含結(jié)果的語義關(guān)鍵詞X的城市基礎(chǔ)設(shè)施突發(fā)事件中優(yōu)先級最高的城市基礎(chǔ)設(shè)施突發(fā)事件;城市基礎(chǔ)設(shè)施突發(fā)事件的優(yōu)先級是規(guī)定城市基礎(chǔ)設(shè)施突發(fā)事件發(fā)生后需要做出反應(yīng)并解決的緊急程度;如“燃氣事故”這樣的突發(fā)事件的優(yōu)先級就高于“燃氣設(shè)施”這樣的突發(fā)事件。
[0058]如果工單反映的城市基礎(chǔ)設(shè)施問題的文本中沒有任何反映城市基礎(chǔ)設(shè)施突發(fā)事件的原因或結(jié)果的語義關(guān)鍵詞,則該條工單在語義上不屬于任何城市基礎(chǔ)設(shè)施突發(fā)事件。
[0059]圖2(a)、圖2(b)、圖2(c)和圖2(d)是選取了燃氣基礎(chǔ)設(shè)施下的同一個工單集合來說明聚類的過程,圖中的點是工單在地圖上的映射(依據(jù)工單的地址信息);這些圖中不直的線構(gòu)成了天津市區(qū)的邊界圖,市內(nèi)六區(qū)包括和平區(qū)、南開區(qū)、紅橋區(qū)、河北區(qū)、河?xùn)|區(qū)和河西區(qū)。燃氣的突發(fā)事件和灰度映射關(guān)系如圖3,可以看出燃氣基礎(chǔ)設(shè)施下共有4種語義類型的突發(fā)事件“燃氣事故”、“燃氣設(shè)施”、“截門”和“燃氣表”,由于各個類型的突發(fā)事件有不同的原因關(guān)鍵詞,所以使用原因關(guān)鍵詞做突發(fā)事件的標(biāo)志。對篩選出來的燃氣基礎(chǔ)設(shè)施下的工單做語義聚類之后得到了 4種突發(fā)事件,如圖2(a)所示,有4種不同灰度的點。因為很多工單有可能發(fā)生在相同的或者相鄰的地理位置,所以圖中有點覆蓋的現(xiàn)象。
[0060]步驟四、如圖1,對步驟三中得到的語義層面上的每個聚類進行空間聚類,從而得到在空間層面上的聚類:
[0061]遍歷每個聚類中的工單,判斷聚類中有相同的地址關(guān)鍵詞(如道、路、街、大街、里、小區(qū)、花園、公寓、莊)的工單的個數(shù)是否大于等于3,當(dāng)聚類中有相同的地址關(guān)鍵詞的工單的個數(shù)大于等于3時,則初步認定這些工單的集合成為一個城市基礎(chǔ)設(shè)施突發(fā)事件;當(dāng)聚類中有相同的地址關(guān)鍵詞的工單的個數(shù)小于3時,定義一個最大經(jīng)緯度距離D,遍歷該聚類中的所有工單,如果兩條工單的經(jīng)緯度距離d大于O而小于等于D,則把它們歸為一個空間層面上的聚類。遍歷后,要求空間層面上的聚類包含的工單的個數(shù)大于等于3;否則,舍棄這樣的空間層面上的聚類;
[0062]為了能更好地用圖說明空間聚類的過程,從圖2(a)中抽取一種語義集合(效果如圖2(b))做空間聚類之后能夠發(fā)現(xiàn)局部有一些空間聚類,如圖2(c)。
[0063]步驟五、根據(jù)圖1的流程圖,時間聚類是檢測城市基礎(chǔ)設(shè)施突發(fā)事件的聚類算法的最后一步聚類。對步驟四中得到的空間層面上的每個聚類進行時間聚類,從而得到在時間層面上的聚類:
[0064]設(shè)定時間聚類中最大的時間尺度為5天(一個日期的前后2天),空間層面上的每個聚類中的工單可能在同一天或者相鄰的天數(shù)內(nèi)被接收,統(tǒng)計空間層面上的每個聚類中的所有工單的被接收的時間,得到所有的日期、每個日期對應(yīng)的出現(xiàn)的次數(shù)和接收時間是該日期的所有工單的集合;按照日期出現(xiàn)的次數(shù)從大到小對日期排序后得到日期的集合F,遍歷日期的集合F的每個日期Y,如果日期的集合F中,存在與日期Y相差前后2天內(nèi)的日期Z,則將空間層面上的聚類中接收時間在日期Y和Z的工單聚在一起,并從日期的集合F將日期Y和日期Z刪除;如果日期的集合F中,不存在與日期Y相差前后2天內(nèi)的日期,則遍歷日期的集合F中的下一個日期。遍歷后,得到在時間層面上的聚類,要求它們包含的工單的個數(shù)大于等于3 ;否則,舍棄這樣的時間層面上的聚類。
[0065]舉例來說,次數(shù)和日期的分布是(4,G),(2,H),(I, I), (1,J),是按次數(shù)從大到小排序,G日期出現(xiàn)了 4次。找相鄰的聚類就是找一個日期的前后2天的日期,假定H = G-1,且I =H-2,J = G+1,加法表示是一個日期的后一天,減法表示是一個日期的前一天。所以G和H相鄰,H和I相鄰,G和J相鄰但是G和I不相鄰。所以,遍歷G,H,I,J之后,H是和G聚在一起,還是和I聚在一起就看誰的出現(xiàn)次數(shù)更大了。G的次數(shù)最大,所以優(yōu)先考慮G,最后得到的分類結(jié)果是(7,G,H,J),(O, H), (1,1), (0,J),H,J的次數(shù)被加到G的數(shù)組上;接著看H,由于它的次數(shù)是O說明它已經(jīng)被加到別的聚類了,所以跳過;再看I,它雖然和H相鄰,但H已經(jīng)和G聚在一起J的情況和H相似。所以時間的聚類結(jié)果是G,H,J為一類,I為一類;最后要驗證聚類的工單個數(shù)大于等于3的條件,一類的日期總出現(xiàn)次數(shù)其實就是這個時間聚類中的工單個數(shù),所以只有G,H,J的聚類滿足條件,將空間層面上的聚類中接收時間在日期G,H,和J的工單聚在一起。
[0066]對圖2(c)中的所有聚類的工單接著做時間聚類,可以發(fā)現(xiàn)由于時間上相近的要求和一個聚類的工單個數(shù)大于等于3的硬性指標(biāo)去除了圖2(c)中的大部分工單,如圖2(d),經(jīng)過語義、空間和時間上的聚類得到了在語義、空間和時間維度上都相近的工單的集八口 ο
[0067]步驟六、突發(fā)事件可視設(shè)計??梢曉O(shè)計是指用可視分析的方案來獲取信息,而可視分析是一種用交互式界面進行推理分析的科學(xué),相比于文字信息,可視化的方法更為直接,讓人更深入地理解信息。認定步驟五中得到的時間層面上的聚類是城市基礎(chǔ)設(shè)施突發(fā)事件,用城市基礎(chǔ)設(shè)施突發(fā)事件的根節(jié)點的可視設(shè)計方案在地圖上展示這些城市基礎(chǔ)設(shè)施突發(fā)事件的分布,從而檢測出城市基礎(chǔ)設(shè)施突發(fā)事件;所述的城市基礎(chǔ)設(shè)施突發(fā)事件的根節(jié)點,是指城市基礎(chǔ)設(shè)施突發(fā)事件中的第一個所反映的城市基礎(chǔ)設(shè)施問題的文本包含反映城市基礎(chǔ)設(shè)施突發(fā)事件原因或結(jié)果的語義關(guān)鍵詞的工單。
[0068]在整個聚類過程完成后,得到了在語義內(nèi)容、空間和時間3個維度上都相近的工單的聚類。如果僅僅使用將工單映射成地圖上的點的方案來展示一個突發(fā)事件,那么在地圖上工單點的覆蓋很嚴(yán)重影響到突發(fā)事件的識別。為了很好的展示選定的時間段和選定的城市基礎(chǔ)設(shè)施下的突發(fā)事件的分布情況,本發(fā)明用突發(fā)事件根節(jié)點的方案展示多突發(fā)事件的分布。對一個突發(fā)事件,城市基礎(chǔ)設(shè)施發(fā)生故障之后,總會有第一個打電話反映這個事件相關(guān)問題的市民。隨著時間的推移,會有越來越多的人反映這個事件。第一個真正反映突發(fā)事件原因或結(jié)果的工單對這個突發(fā)事件是非常重要的,它就像是一個突發(fā)事件的源頭,本發(fā)明定義為突發(fā)事件的根節(jié)點。這個根節(jié)點也屬于突發(fā)事件中的一個工單,所以它不會導(dǎo)致整個突發(fā)事件的地理位置信息有特別大的損失,效果圖如圖5所示,圖5的聚類結(jié)果的工單來源于城市基礎(chǔ)設(shè)施——自來水。突發(fā)事件的嚴(yán)重程度是突發(fā)事件的優(yōu)先級和突發(fā)事件包含的工單的個數(shù)共同決定的,即突發(fā)事件的優(yōu)先級別越高、包含的工單個數(shù)越多,突發(fā)事件的嚴(yán)重程度越高;反之。以突發(fā)事件根節(jié)點為圓心畫一個圓,突發(fā)事件根節(jié)點的圓圈的不透明度和突發(fā)事件中的工單的個數(shù)成正比,具體映射關(guān)系如下:
[0069]opacity = casesNumber/maxCasesNumber^0.7+0.2
[0070]其中opacity是當(dāng)前突發(fā)事件根節(jié)點圓圈的不透明度值,opacity取值范圍是O?I ;casesNumber是當(dāng)前突發(fā)事件包含的工單的個數(shù);和當(dāng)前突發(fā)事件在同一時間段和相同基礎(chǔ)設(shè)施條件下聚類得出的所有突發(fā)事件中,包含工單的個數(shù)的最大值是maxCasesNumber。各個突發(fā)事件的工單個數(shù)各有不同,為了減小這種差異和滿足opacity的取值范圍,用casesNumber/maxCasesNumber這種比值的方法使得opacity大于0.2 (當(dāng)casesNumber達到最小值3),小于等于0.9 (當(dāng)casesNumber達到最大值maxCasesNumber)。
[0071]這樣的方式使得突發(fā)事件根節(jié)點的圓圈不會完全透明而在地圖上顯現(xiàn)不出,也不會完全不透明而覆蓋相同的或者相鄰的地理位置上的突發(fā)事件根節(jié)點的圓圈。也就是說,突發(fā)事件根節(jié)點的圓圈越不透明,突發(fā)事件的工單數(shù)越多;反之。而且這種方法也適當(dāng)緩解了突發(fā)事件根節(jié)點的圓圈間的覆蓋現(xiàn)象。
[0072]突發(fā)事件根節(jié)點的圓圈的灰度反映了突發(fā)事件的語義種類,燃氣和自來水基礎(chǔ)設(shè)施的映射關(guān)系分別如圖3和圖4。更加明顯地區(qū)別突發(fā)事件的語義種類,在圖5中用引線做標(biāo)識,除了有引出的箭頭的三個突發(fā)事件根節(jié)點的圓圈是“管道”類型的突發(fā)事件;圖中的其他事件都是“施工”類型的突發(fā)事件。在圖5中之所以只出現(xiàn)了兩種語義類型的突發(fā)事件是因為系統(tǒng)只選擇顯示這2種突發(fā)事件。
[0073]突發(fā)事件根節(jié)點的圓圈的半徑和突發(fā)事件的影響范圍成正比,具體映射關(guān)系如下:
[0074]eventsRadius = casesDistance/maxCasesDistance*dMax+dBegin
[0075]其中eventsRadius是當(dāng)前突發(fā)事件根節(jié)點圓圈的半徑;casesDistance是當(dāng)前突發(fā)事件中最遠的兩點(對應(yīng)于兩個工單)間經(jīng)緯度距離;和當(dāng)前突發(fā)事件在同一時間段和相同基礎(chǔ)設(shè)施條件下聚類得出的所有突發(fā)事件中,最遠的兩點間經(jīng)緯度距離最大的是maxCasesDistance ;dMax限制的是突發(fā)事件根節(jié)點的圓圈的最大半徑;dBegin限制的是突發(fā)事件根節(jié)點的圓圈的最小半徑;dMax和dBegin都是經(jīng)驗值。eventsRadius的計算原理和突發(fā)事件根節(jié)點的圓圈的不透明度的設(shè)定原理相似。雖然根節(jié)點的方案用突發(fā)事件根節(jié)點的圓圈的不透明度和半徑緩解了突發(fā)事件根節(jié)點的圓圈間的覆蓋現(xiàn)象,但是圖5還是有一些圓圈覆蓋的情況,這是不可完全避免的。
[0076]本發(fā)明規(guī)定,對于各種優(yōu)先級的突發(fā)事件,當(dāng)其根節(jié)點的圓圈的不透明度大于等于0.7(經(jīng)驗值)時,這樣的突發(fā)事件就是嚴(yán)重的。為了能夠在地圖上更加突顯嚴(yán)重的突發(fā)事件,給這樣的突發(fā)事件根節(jié)點的圓圈在外部加一個有灰度的圓環(huán),如圖5中的A事件,A外部被一個有灰度的圓環(huán)包圍,使得它很容易被決策者觀察到。
[0077]附圖中的圖5、圖6和圖7都是選取了自來水基礎(chǔ)設(shè)施;自來水的突發(fā)事件和灰度的映射關(guān)系如圖4,可以看出自來水基礎(chǔ)設(shè)施下共有6種語義類型的突發(fā)事件“管道”、“施工”、“二次供水”、“ 口徑”、“截門”和“水表”。
[0078]本發(fā)明是從處理對象一工單出發(fā),從圖1也可以看出來這個基于聚類的城市基礎(chǔ)設(shè)施突發(fā)事件的最終目的是,檢測出城市基礎(chǔ)設(shè)施突發(fā)事件,從而可以做出更快更明智的決策來解決城市基礎(chǔ)設(shè)施的問題。在經(jīng)過語義和地址關(guān)鍵詞的處理和語義、空間、時間聚類后,對得到的突發(fā)事件做可視分析設(shè)計,通過根節(jié)點的方案可以更深入地看到突發(fā)事件在地圖上的分布情況、更直觀地在突發(fā)事件中發(fā)現(xiàn)嚴(yán)重的突發(fā)事件,如圖5 ;所以突發(fā)事件的可視分析設(shè)計讓用戶在突發(fā)事件發(fā)生后很快地得知突發(fā)事件的具體原因、相應(yīng)后果和發(fā)生的位置,幫助其決策。
[0079]研究材料.2010年I月大雪
[0080]在熟悉工單數(shù)據(jù)庫后,發(fā)現(xiàn)自來水基礎(chǔ)設(shè)施在2010年I月份左右的工單數(shù)要比前后2個月的工單數(shù)多很多,通過歷史材料發(fā)現(xiàn)這個月發(fā)生了特大型的自來水管道凍裂事件。用本發(fā)明提供的基于聚類的城市基礎(chǔ)設(shè)施突發(fā)事件的檢測方法,可以很好地驗證2010年I月的暴雪導(dǎo)致了天津市和平區(qū)和河西區(qū)的自來水管道凍裂事件。首先,篩選時間段為2010年I月、基礎(chǔ)設(shè)施為自來水的工單,定義為集合T。具體聚類步驟如下:
[0081]1.提取T中工單的語義關(guān)鍵詞;
[0082]2.整理上述步驟2得到的語義關(guān)鍵詞的因果關(guān)系;
[0083]3.提取T中工單的地址關(guān)鍵詞;
[0084]4.針對T中所有工單進行語義聚類;
[0085]5.針對上述步驟4得到的所有語義維度上的集合進行空間聚類;
[0086]6.針對上述步驟5得到的所有空間維度上的集合進行時間聚類;
[0087]7.對上述步驟6得到的所有集合——突發(fā)事件做可視設(shè)計,如圖6所示。從圖6中可以直觀地發(fā)現(xiàn)相比其他突發(fā)事件根節(jié)點的圓圈而言,半徑更大、不透明度更大的2個嚴(yán)重的突發(fā)事件。它們的語義突發(fā)事件類型是“管道”,驗證了 2010年I月的大雪的確導(dǎo)致了自來水管道凍裂;而且它們的確發(fā)生在天津市和平區(qū)和河西區(qū)。查看圖6中的2個嚴(yán)重突發(fā)事件的工單的文本內(nèi)容,如圖7,展示了 3個工單的信息。這3個工單的工單內(nèi)容的確反映的是自來水管道凍裂問題。所以如果在2010年I月的大雪發(fā)生之后使用本發(fā)明提供的聚類方法,就可以檢測出是天津市和平區(qū)和河西區(qū)的自來水管道凍裂事件。
[0088]本發(fā)明提供的基于聚類的城市基礎(chǔ)設(shè)施突發(fā)事件的檢測方法可以檢測出特定時間段和基礎(chǔ)設(shè)施的工單內(nèi)的突發(fā)事件;并提供好的可視設(shè)計讓用戶可以深入地看到突發(fā)事件在地圖上的分布情況、更直觀地在突發(fā)事件中發(fā)現(xiàn)嚴(yán)重的突發(fā)事件;就2010年I月的暴雪這個研究材料,本發(fā)明的檢測方法讓用戶在暴雪發(fā)生后很快地得知是暴雪導(dǎo)致了自來水管道凍裂事件、這些管道凍裂事件又導(dǎo)致了市區(qū)無水、管道跑水等問題、以及管道凍裂事件主要發(fā)生在天津市和平區(qū)和河西區(qū)等有利的信息,幫助其決策。同時,2010年I月的暴雪也是一個有力證明本發(fā)明的檢測方法的有效性的研究材料。
[0089]盡管上面結(jié)合附圖對本發(fā)明進行了描述,但是本發(fā)明并不局限于上述的【具體實施方式】,上述的【具體實施方式】僅僅是示意性的,而不是限制性的,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的啟示下,在不脫離本發(fā)明宗旨的情況下,還可以做出很多變形,這些均屬于本發(fā)明的保護之內(nèi)。
【權(quán)利要求】
1.一種基于聚類的城市基礎(chǔ)設(shè)施突發(fā)事件的檢測方法,其特征在于: 步驟一、利用城市管理服務(wù)熱線系統(tǒng)接收市民反映城市基礎(chǔ)設(shè)施問題的電話,然后,將該電話內(nèi)容記錄到一工單數(shù)據(jù)庫中,所述工單數(shù)據(jù)庫至少包括以下內(nèi)容: 工單編號、接收工單的時間、工單反映的問題所涉及到的城市基礎(chǔ)設(shè)施的類別、描述該電話所反映的城市基礎(chǔ)設(shè)施問題的文本和該電話所反映的城市基礎(chǔ)設(shè)施問題的地址;其中,所述工單反映的問題所涉及到的城市基礎(chǔ)設(shè)施的類別包括供熱、自來水、燃氣、排水和供熱,城市基礎(chǔ)設(shè)施問題的地址是層級的; 步驟二、根據(jù)接收工單的時間和工單反映的問題所涉及到的城市基礎(chǔ)設(shè)施的類別對工單數(shù)據(jù)庫進行篩選; 使用中文分詞技術(shù)對所篩選出的工單提取工單描述的電話所反映的城市基礎(chǔ)設(shè)施問題的文本中的語義關(guān)鍵詞,所述語義關(guān)鍵詞是城市基礎(chǔ)設(shè)施問題的原因或結(jié)果的詞語;整理對應(yīng)的語義關(guān)鍵詞間的因果關(guān)系,用于定義城市基礎(chǔ)設(shè)施突發(fā)事件在語義內(nèi)容這一維度上的種類; 使用中文分詞技術(shù)對所篩選出的工單提取工單所反映的城市基礎(chǔ)設(shè)施問題的地址中的地址關(guān)鍵詞,從而提取出工單所反映的城市基礎(chǔ)設(shè)施問題的地址的每個層級的地址單元; 步驟三、對步驟二處理后的工單進行語義聚類: 根據(jù)工單的語義關(guān)鍵詞的提取統(tǒng)計信息和整理的語義關(guān)鍵詞間的因果關(guān)系把工單歸到匹配的城市基礎(chǔ)設(shè)施突發(fā)事件語義種類中,從而得到在語義層面上的聚類,包括: 如果工單反映的城市基礎(chǔ)設(shè)施問題的文本中包括步驟二確定的某種反映城市基礎(chǔ)設(shè)施突發(fā)事件的原因的語義關(guān)鍵詞,則將該工單歸到這種城市基礎(chǔ)設(shè)施突發(fā)事件中; 如果工單反映的城市基礎(chǔ)設(shè)施問題的文本中同時出現(xiàn)了多個反映不同類別的城市基礎(chǔ)設(shè)施突發(fā)事件的原因的語義關(guān)鍵詞,則將該工單歸到這些城市基礎(chǔ)設(shè)施突發(fā)事件中含有反映城市基礎(chǔ)設(shè)施突發(fā)事件的結(jié)果的語義關(guān)鍵詞最多的城市基礎(chǔ)設(shè)施突發(fā)事件中; 如果工單反映的城市基礎(chǔ)設(shè)施問題的文本中只出現(xiàn)了反映城市基礎(chǔ)設(shè)施突發(fā)事件的結(jié)果的語義關(guān)鍵詞X,則在該工單的接收時間的前后2天內(nèi)找在語義上出現(xiàn)了和上述結(jié)果的語義關(guān)鍵詞有因果關(guān)系的原因的語義關(guān)鍵詞的工單, 如果找到的符合條件的工單已經(jīng)歸到相應(yīng)的城市基礎(chǔ)設(shè)施突發(fā)事件中,則把該工單也歸到這種城市基礎(chǔ)設(shè)施突發(fā)事件中; 如果沒有找到符合條件的工單,則把該工單歸到包含結(jié)果的語義關(guān)鍵詞X的城市基礎(chǔ)設(shè)施突發(fā)事件,且該城市基礎(chǔ)設(shè)施突發(fā)事件是所有包含結(jié)果的語義關(guān)鍵詞X的城市基礎(chǔ)設(shè)施突發(fā)事件中優(yōu)先級最高的城市基礎(chǔ)設(shè)施突發(fā)事件;城市基礎(chǔ)設(shè)施突發(fā)事件的優(yōu)先級是規(guī)定城市基礎(chǔ)設(shè)施突發(fā)事件發(fā)生后需要做出反應(yīng)并解決的緊急程度; 如果工單反映的城市基礎(chǔ)設(shè)施問題的文本中沒有任何反映城市基礎(chǔ)設(shè)施突發(fā)事件的原因或結(jié)果的語義關(guān)鍵詞,則該條工單在語義上不屬于任何城市基礎(chǔ)設(shè)施突發(fā)事件; 步驟四、對步驟三中得到的語義層面上的每個聚類進行空間聚類,從而得到在空間層面上的聚類: 遍歷每個聚類中的工單,判斷聚類中有相同的地址關(guān)鍵詞的工單的個數(shù)是否大于等于
.3, 當(dāng)聚類中有相同的地址關(guān)鍵詞的工單的個數(shù)大于等于3時,則初步認定這些工單的集合成為一個城市基礎(chǔ)設(shè)施突發(fā)事件; 當(dāng)聚類中有相同的地址關(guān)鍵詞的工單的個數(shù)小于3時,定義一個最大經(jīng)緯度距離D,遍歷該聚類中的所有工單,如果兩條工單的經(jīng)緯度距離d大于O而小于等于D,則把它們歸為一個空間層面上的聚類; 遍歷后,要求空間層面上的聚類包含的工單的個數(shù)大于等于3;否則,舍棄這樣的空間層面上的聚類; 步驟五、對步驟四中得到的空間層面上的每個聚類進行時間聚類,從而得到在時間層面上的聚類: 設(shè)定時間聚類中最大的時間尺度為5天,空間層面上的每個聚類中的工單可能在同一天或者相鄰的天數(shù)內(nèi)被接收,統(tǒng)計空間層面上的每個聚類中的所有工單的被接收的時間,得到所有的日期、每個日期對應(yīng)的出現(xiàn)的次數(shù)和接收時間是該日期的所有工單的集合;按照日期出現(xiàn)的次數(shù)從大到小對日期排序后得到日期的集合F,遍歷日期的集合F的每個日期Y, 如果日期的集合F中,存在與日期Y相差前后2天內(nèi)的日期Z,則將空間層面上的聚類中接收時間在日期Y和Z的工單聚在一起,并從日期的集合F將日期Y和日期Z刪除;如果日期的集合F中,不存在與日期Y相差前后2天內(nèi)的日期,則遍歷日期的集合F中的下一個日期; 遍歷后,得到在時間層面上的聚類,要求它們包含的工單的個數(shù)大于等于3;否則,舍棄這樣的時間層面上的聚類; 步驟六、認定步驟五中得到的時間層面上的聚類是城市基礎(chǔ)設(shè)施突發(fā)事件,用城市基礎(chǔ)設(shè)施突發(fā)事件的根節(jié)點的可視設(shè)計方案在地圖上展示這些城市基礎(chǔ)設(shè)施突發(fā)事件的分布,從而檢測出城市基礎(chǔ)設(shè)施突發(fā)事件;所述的城市基礎(chǔ)設(shè)施突發(fā)事件的根節(jié)點,是指城市基礎(chǔ)設(shè)施突發(fā)事件中的第一個所反映的城市基礎(chǔ)設(shè)施問題的文本包含反映城市基礎(chǔ)設(shè)施突發(fā)事件原因或結(jié)果的語義關(guān)鍵詞的工單。
【文檔編號】G06Q50/26GK104299182SQ201410525969
【公開日】2015年1月21日 申請日期:2014年10月8日 優(yōu)先權(quán)日:2014年10月8日
【發(fā)明者】張加萬, 許冰晗, 鄂艷麗, 趙雅慧, 孫麗婷, 馬婧 申請人:天津大學(xué)