本發(fā)明涉及城市案件管理技術領域,具體為一種城市管理案件短文本分類的方法。
背景技術:
信息化時代的來臨使得世界各國的城市化發(fā)展步入數(shù)字化的軌道,城市管理也邁入了數(shù)字化、科技化、移動化的階段。城市管理案件的上報將依賴于更多的信息化設備,例如智能手機等。通過手機App,包括環(huán)衛(wèi)工人在內的各部門工作人員,發(fā)現(xiàn)案件即可一鍵上報。案件的來源得到了極大的豐富,提高了發(fā)現(xiàn)問題的能力。隨著案件數(shù)量的大幅提升,案件的快速派發(fā)與處理成為了目前以及將來需要處理并解決的重要問題之一。針對龐大的案件數(shù)量,如果再通過人工的方式來手動分類,工作量將是巨大的,并且會產生很大的成本開支與較高的錯誤率。為此,找到一種快速高效的案件自動分類方法是至關重要的。
城市管理案件上報的內容主要包括案件文本描述、案件語音描述、案發(fā)照片、案發(fā)位置等,其中案件文本描述是必填內容并且通過案件的文本描述即可判斷出相應案件類型,因此,城管案件的自動分類可以通過案件描述短文本的自動分類來實現(xiàn)。文本自動分類技術是信息檢索以及自然語言處理領域研究的熱點和關鍵技術,近年來已得到了快速的發(fā)展,并取得了一定的研究成果。但到目前為止,還沒有一套統(tǒng)一的文本自動分類系統(tǒng)可以完美的解決各種類型的文本分類問題,例如,微博、新聞標題、文章、聊天信息等。特別是在文本的特征處理方面,例如,特征表示、特征選擇等。文本特征處理是文本分類的基礎,對最終的分類效果影響巨大,因此,針對不同的實際問題,選擇最合適的特征處理方法顯得尤為重要。
本發(fā)明要研究的城市管理案件描述文本與普通文本有很大的不同。第一,案件描述文本是一種短文本,字數(shù)一般在100字以內,甚至很多情況下,案件描述只有幾個字。這就造成文本向量長度非常短,很不利于訓練學習,需要對文本的特征長度進行擴展。第二,案件描述短文本一般對事物的現(xiàn)狀進行描述,多采用緊湊的主謂(如,機動車占道)、動賓(如,發(fā)小廣告)或并列(如,雨水井蓋)等結構,從學習的角度看,短語特征要比僅以分割的詞作特征描述能力更強。因此,若直接對案件描述短文本原始特征進行特征選擇,不但會使得文本向量長度更短,而且無法選擇得到分類效果更好的短語特征。為此,本發(fā)明研究了一種新的特征生成算法即互鄰特征組合算法,先對原始文本特征進行處理,擴展文本向量長度并生成描述力更強的組合特征,然后再對文本進行特征選擇。在特征選擇算法實現(xiàn)方面,本發(fā)明改進了基于類別特征域的特征選擇方法,通過綜合考慮類內類間分散度以及詞頻因素提出了一種新的隸屬度函數(shù)替換了傳統(tǒng)的隸屬度函數(shù)(互信息)。實驗結果表明:改善后的特征選擇方法對案件短文本分類效果較其它幾種特征選擇方法有著更好的分類性能。
技術實現(xiàn)要素:
本發(fā)明針對上述問題,提供一種基于文本分類的城市管理案件分類方法,該短文本分類的方法在進行特征選擇之前先用互鄰特征組合算法對原始特征空間進行了處理,在生成短語特征的同時擴展了特征空間,這就使得后面在進行特征選擇時,有了更多的選擇空間。
實現(xiàn)本發(fā)明目的的技術方案為:
一種基于文本分類的城市管理案件分類方法,包括以下步驟:
S1:預處理,對短文本進行預處理,進行分詞、去除文本中的停用詞、統(tǒng)計詞頻等操作,其中停用詞包括標點符號、表情符號、語氣助詞、介詞和連接詞;
S2:互鄰特征組合,通過互鄰特征組合算法對文本特征空間中的特征進行組合,形成新的特征,并擴展特征空間;
S3:基于類別特征域的特征選擇,經上述互鄰特征組合算法進行特征擴展之后,整個短文本的特征空間變得十分龐大,在產生對短文本分類描述力更強的組合特征的同時,也產生了很多對分類效果貢獻不大甚至有影響的特征,需要對其進行特征選擇:
首先,為短文本中的每一類都分別分配一個類標識碼,設類別ci的類標識碼為di;然后,對于短文本D的每一個特征t都按照如下方式進行處理:
a.若t屬于且僅屬于類別ci的類別特征域,則ci的類標識碼di將被作為短文本D的一個特征;
b.若t同時屬于m個類別ci1,ci2,…,cim的類別特征域,則上述m個類別的類標識碼di1,di2,…,dim都將被作為短文本D的特征;
c.若t不屬于任何一類的類別特征域,則將t本身作為短文本D的一個特征;
從上述過程中可以看出:各類的類別特征域中的特征將被替換為對應的類標識碼;如果在一條短文本中有多個特征屬于同一類別特征域,即多個特征對應同一類標識碼,那么它們的權重將被累加并作為這個類標識碼在該短文本中的權重,這樣,主要特征將獲得更大的權重值,有助于提升文本的分類效果;
S4:采用tf-idf加權,計算每個文本特征向量,tf-idf權重被廣泛應用于文本分類領域,其基本思想是通過某一特征項在不同文本中出現(xiàn)頻率的差異性大小來判斷該特征項對分類的貢獻度,即如果某一特征項在一個文本中出現(xiàn)的頻率很高,并且很少在其他文本中出現(xiàn),那么就認為該特征具有較高的類別識別度,更有利于文本分類,因此,tf-idf的值與文本中該特征項的詞頻數(shù)成正比,而與文本集中包含該特征項的文本數(shù)的比重成反比,常通過特征項的詞頻數(shù)與反文本數(shù)的乘積來計算,公式如下:
其中,wtd為特征項t在文本d中的權重值;tftd是文本d中特征t出現(xiàn)頻數(shù);N為總文本數(shù);nt表示含有特征t的文本數(shù),通常還會對TF-IDF權重進行規(guī)范化處理,公式為:
S5:訓練分類器并對測試文本分類,本方法中使用LibLinear作為文本分類器,LibLinear可高效的解決大規(guī)模線性分類問題,并已經成為一種解決大型數(shù)據(jù)稀疏問題的重要學習技術。
優(yōu)選的,所述互鄰特征組合算法具體為:
當一條案件描述短文本初步分詞結果如下:
S=(w1,w2,w3,w4,w5) (1)
其中w1,w2,w3,w4,w5分別代表短文本S的五個特征詞;
互鄰特征組合算法執(zhí)行后結果為:
S=(w1,w2,w3,w4,w5,w12,w23,w34,w45) (2)
其中w1,w2,w3,w4,w5不變,w12為特征詞w1與w2相連后形成的新的特征詞,w23,w34,w45同理。
優(yōu)選的,所述類別特征域為每個類中的主要特征集合,一個特征是否屬于某個類的主要特征集通過該特征與相應類別之間的隸屬度函數(shù)值大小進行判定。
優(yōu)選的,所述類別特征域根據(jù)隸屬度函數(shù)計算公式構建,類別ci的類別特征域構建步驟如下:
1)設定一個閾值d,分別計算類別ci中每個特征t的隸屬度函數(shù)值,其中,閾值d的大小由最終特征選擇保留特征的數(shù)目所確定;
2)若高于閾值d,就認為特征t屬于類別ci的類別特征域;
通過上述類別特征域的構造方式,如果某一個詞條在多個類別中都有出現(xiàn),并且滿足相應類別特征域的所屬條件,那么該詞條將同時屬于多個類的類別特征域。
優(yōu)選的,所述隸屬度函數(shù)計算公式為:
式中,tfit表示在類別ci中特征t出現(xiàn)的詞頻數(shù);tft表示在所有類別中特征t出現(xiàn)的詞頻數(shù);fit表示在類別ci中含有特征t的文本數(shù);Ci表示在類別ci中的文本總數(shù);ft表示在所有類別中含有特征t的文本數(shù);N表示文本集的總文本數(shù);
用于計算類間分散度,tfit越大tft-tfit越小即表明特征t在某一類別中大量出現(xiàn)而在其他類別中較少出現(xiàn),則說明該特征對文本分類的貢獻度越大,為防止分母為零,對tft-tfit進行加1處理;
用于計算類內分散度,越大越小即表明在某一類別中包含該特征t的文本數(shù)越多,同時在所有類別中包含特征t的文本數(shù)越少,則說明該特征對文本分類的貢獻度越大;為防止出現(xiàn)負數(shù),對進行加1處理。
本發(fā)明的優(yōu)點為:
(1)本發(fā)明方法在進行特征選擇之前先用互鄰特征組合算法對原始特征空間進行了處理,在生成短語特征的同時擴展了特征空間,這就使得后面在進行特征選擇時,有了更多的選擇空間。
(2)本發(fā)明中的新的隸屬度函數(shù)充分考慮了類內類間分散度和詞頻因素,在構造類別特征域時明顯要比只考慮文檔數(shù)目的互信息的方法有效很多。
(3)基于類別特征域的特征選擇算法在特征約減時,是將特征替換為相應的類標識碼并加權,過程中并沒有直接移除特征,不但沒有信息的丟失,而且在很大程度上解決了數(shù)據(jù)稀疏問題,所以保留特征的數(shù)量對分類性能的影響不大。
附圖說明
圖1為本發(fā)明基于特征生成與選擇的案件短文本分類的方法流程圖;
圖2為本發(fā)明在不同特征數(shù)情況下各特征選擇算法對應的宏平均F1值;
圖3為本發(fā)明在不同特征數(shù)情況下各特征選擇算法對應的微平均F1值。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
請參閱圖1-3,本發(fā)明提供一種技術方案:一種基于文本分類的城市管理案件分類方法,包括以下步驟:
S1:預處理,對短文本進行預處理,進行分詞、去除文本中的停用詞、統(tǒng)計詞頻等操作,其中停用詞包括標點符號、表情符號、語氣助詞、介詞和連接詞,文本處理的過程首先是從分詞開始,中文分詞大部分采用的是基于詞典的最大匹配算法,而匹配的過程中難免會造成匹配錯誤,并且很大一部分匹配不上的短語有可能對文本的分類效果有著更好的提升,例如:“井蓋破損”,分詞之后會生成“井蓋”與“破損”兩個詞語,而這兩個詞語作為特征顯然不如合在一起組成的“井蓋破損”這一個特征更具有分類性能;
S2:互鄰特征組合,通過互鄰特征組合算法對文本特征空間中的特征進行組合,形成新的特征,并擴展特征空間;所述互鄰特征組合算法具體為:
當一條案件描述短文本初步分詞結果如下:
S=(w1,w2,w3,w4,w5) (1)
其中w1,w2,w3,w4,w5分別代表短文本S的五個特征詞;
互鄰特征組合算法執(zhí)行后結果為:
S=(w1,w2,w3,w4,w5,w12,w23,w34,w45) (2)
其中w1,w2,w3,w4,w5不變,w12為特征詞w1與w2相連后形成的新的特征詞,w23,w34,w45同理。
S3:基于類別特征域的特征選擇,經上述互鄰特征組合算法進行特征擴展之后,整個短文本的特征空間變得十分龐大,在產生對短文本分類描述力更強的組合特征的同時,也產生了很多對分類效果貢獻不大甚至有影響的特征,需要對其進行特征選擇:
首先,為短文本中的每一類都分別分配一個類標識碼,設類別ci的類標識碼為di;然后,對于短文本D的每一個特征t都按照如下方式進行處理:
a.若t屬于且僅屬于類別ci的類別特征域,則ci的類標識碼di將被作為短文本D的一個特征;
b.若t同時屬于m個類別ci1,ci2,…,cim的類別特征域,則上述m個類別的類標識碼di1,di2,…,dim都將被作為短文本D的特征;
c.若t不屬于任何一類的類別特征域,則將t本身作為短文本D的一個特征;
從上述過程中可以看出:各類的類別特征域中的特征將被替換為對應的類標識碼;如果在一條短文本中有多個特征屬于同一類別特征域,即多個特征對應同一類標識碼,那么它們的權重將被累加并作為這個類標識碼在該短文本中的權重,這樣,主要特征將獲得更大的權重值,有助于提升文本的分類效果;所述類別特征域為每個類中的主要特征集合,一個特征是否屬于某個類的主要特征集通過該特征與相應類別之間的隸屬度函數(shù)值大小進行判定,所述隸屬度函數(shù)計算公式為:
式中,tfit表示在類別ci中特征t出現(xiàn)的詞頻數(shù);tft表示在所有類別中特征t出現(xiàn)的詞頻數(shù);fit表示在類別ci中含有特征t的文本數(shù);Ci表示在類別ci中的文本總數(shù);ft表示在所有類別中含有特征t的文本數(shù);N表示文本集的總文本數(shù);
用于計算類間分散度,tfit越大tft-tfit越小即表明特征t在某一類別中大量出現(xiàn)而在其他類別中較少出現(xiàn),則說明該特征對文本分類的貢獻度越大,為防止分母為零,對tft-tfit進行加1處理;
用于計算類內分散度,越大越小即表明在某一類別中包含該特征t的文本數(shù)越多,同時在所有類別中包含特征t的文本數(shù)越少,則說明該特征對文本分類的貢獻度越大;為防止出現(xiàn)負數(shù),對進行加1處理。
S4:采用tf-idf加權,計算每個文本特征向量,tf-idf權重被廣泛應用于文本分類領域,其基本思想是通過某一特征項在不同文本中出現(xiàn)頻率的差異性大小來判斷該特征項對分類的貢獻度,即如果某一特征項在一個文本中出現(xiàn)的頻率很高,并且很少在其他文本中出現(xiàn),那么就認為該特征具有較高的類別識別度,更有利于文本分類,因此,tf-idf的值與文本中該特征項的詞頻數(shù)成正比,而與文本集中包含該特征項的文本數(shù)的比重成反比,常通過特征項的詞頻數(shù)與反文本數(shù)的乘積來計算,公式如下:
其中,wtd為特征項t在文本d中的權重值;tftd是文本d中特征t出現(xiàn)頻數(shù);N為總文本數(shù);nt表示含有特征t的文本數(shù),通常還會對TF-IDF權重進行規(guī)范化處理,公式為:
S5:訓練分類器并對測試文本分類,本方法中使用LibLinear作為文本分類器,LibLinear可高效的解決大規(guī)模線性分類問題,并已經成為一種解決大型數(shù)據(jù)稀疏問題的重要學習技術。
本發(fā)明設計合理,傳統(tǒng)文本處理的過程首先是從分詞開始,中文分詞大部分采用的是基于詞典的最大匹配算法,而匹配的過程中難免會造成匹配錯誤。并且很大一部分匹配不上的短語有可能對文本的分類效果有著更好的提升。例如:“井蓋破損”,分詞之后會生成“井蓋”與“破損”兩個詞語,而這兩個詞語作為特征顯然不如合在一起組成的“井蓋破損”這一個特征更具有分類性能。為此,本發(fā)明提出互鄰特征組合算法來解決上面提到的問題。該算法思想是對相鄰特征進行兩兩組合形成新的特征以解決在分詞上面的不足與短文本特征較少的問題,并且互鄰特征組合算法能夠生成大量對分類效果良好的短語特征。經過本發(fā)明上面提出的互鄰特征組合算法進行特征擴展之后,整個文本的特征空間變得十分龐大,在產生對文本分類描述力更強的組合特征的同時也產生了很多對分類效果貢獻不大甚至有影響的特征,并使得向量特征空間更稀疏,需要進一步的對特征進行優(yōu)化與處理。
在短文本分類過程中,判斷某一特征項是否有利于某一類別的判定,可以通過該特征項在該類別中出現(xiàn)的頻率與在其它類別中出現(xiàn)頻率的差異性進行判斷,例如,某個特征大量出現(xiàn)在一個類別中,而在其它類別中,該特征卻出現(xiàn)較少或者不出現(xiàn),那么我們就可初步認定該特征有利于分類。這種根據(jù)類別間特征分布情況來判斷特征優(yōu)劣的方式可以由類間分散度來計算。而與類間分散度相對的是類內分散度,我們考慮在同一類別中,如果某一特征項大量出現(xiàn)在某一文本中,而在其它文本中,該特征項卻較少出現(xiàn)或不出現(xiàn)。那么這樣的特征對類別的判定作用較小,甚至可認為是冗余特征。類內分散度便能較好的對這種類內特征的分布情況進行判別,通過使用類內類間分散度設計的新隸屬度函數(shù)能夠很好的解決上述問題。
通過上面類別特征域的構造方式,如果某一個詞條在多個類別中都有出現(xiàn),并且滿足相應類別特征域的所屬條件,那么該詞條將同時屬于多個類的類別特征域。例如,“井蓋”一詞,可能既是“雨水井蓋”類的特征,又是“電力井蓋”類的特征,如果特征詞“井蓋”同時滿足這兩個類的類別特征域判定條件,那么“井蓋”這個特征詞就同時屬于“雨水井蓋”與“電力井蓋”兩個類的類別特征域。
應用實驗對本發(fā)明方法的有效性等進行驗證,實驗驗證及結果分析過程如下:
本實驗數(shù)據(jù)來源于合作研發(fā)的“城管通”應用系統(tǒng)。該系統(tǒng)通過手機APP(有Android和iOS兩個版本)上報案件到服務端,服務端收到案件并對案件進行分派處理。目前,該系統(tǒng)包括案件、指揮調度和人員精細化管理等五個子系統(tǒng),管理有34個責任網格,每個網格都有城管、環(huán)衛(wèi)、街道、市政、住建、園林、交警、工商等部門,實現(xiàn)了案件上報、分類、處置、監(jiān)督等業(yè)務流程的自動化,從而支持多部門協(xié)同執(zhí)法。該系統(tǒng)日常用戶已接近5000人,每日從凌晨4點起包括環(huán)衛(wèi)工人在內的各崗位工作人員就開始上報案件,晚上的案件則上報到23點以后,平均每天上報案件數(shù)量超過2000條。針對如此龐大數(shù)量的案件、較長的時間范圍,自動分類方法的研究顯得尤為重要。為了驗證本文所提出的特征選擇方法對案件短文本的分類效果,本文從案件數(shù)量最多的53種案件類型(包括,私搭亂建、雨水箅子、道路不潔、綠地臟亂、樹木毀壞、道路破損、條幅廣告、亂堆物料,等)中選取53000個樣本集(其中每種案件選取樣本1000個)。訓練集與測試集的樣本數(shù)為9:1,即訓練集有47700個樣本,而測試集有5300個樣本。
應用本文方法進行案件短文本自動分類的具體流程如圖1所示,包括對訓練文本集和測試文本集的短文本進行預處理,對短文本進行預處理之后,用前面提出的互鄰特征組合算法對短文本特征空間中的互鄰特征進行組合,構建類別特征域,利用類別特征域合并特征;采用tf-idf加權計算每個樣本特征向量,再采用分類訓練器通過分類模型測試文本特征,進而利用分類器判定樣本類別,最后對分類效果進行評價。
特征處理方法的好壞可以直接影響最終的分類性能,因此,可以通過評價分類的效果來判斷特征處理方法的有效性。這里,我們采用準確率P(Precision)、召回率R(Recall)以及F1值等通用的文本分類性能評價標準。具體公式如下:
第j類的準確率:
Pj=(lj/mj)×100% (4)
其中,lj為第j類分類正確的分本數(shù),mj為分類系統(tǒng)實際分類為j的分本數(shù)。
第j類的召回率:
Rj=(lj/nj)×100% (5)
其中,lj為第j類分類正確的分本數(shù),nj為第j類實際包含的文本數(shù)。
第j類的F1值:
本實驗中的分類是多分類問題,因此采用微平均和宏平均兩種計算準確率、召回率和F1值得方法。定義如下所示:
宏平均準確率:
宏平均召回率:
宏平均F1值:
微平均準確率:
微平均召回率:
微平均F1值:
實驗結果及分析為:文檔頻率(DF)、信息增益(IG)、互信息(MI)以及CHI統(tǒng)計等特征選擇方法在英文文本分類中有著很好的效果。本實驗中分別對DF、MI、IG、CHI,以及通過類別特征域進行特征選擇的三種算法,即FDBC(采用現(xiàn)有的隸屬度函數(shù))、FDBC-N(采用本文提出的新隸屬度函數(shù)),以及本文方法(互鄰特征組合+本文提出的新隸屬度函數(shù))共七種方法進行了實驗對比。實驗中分別比較了七種方法在保留1000,2000,4000,…,14000個特征時,分類系統(tǒng)的分類宏平均準確率、宏平均召回率、宏平均F1值以及微平均F1值。其中特征總數(shù)為102734,原始特征有14174個,組合特征有88560個。實驗結果分別如表1、表2、圖2和圖3所示。
表1在不同特征數(shù)情況下各特征選擇算法對應的宏平均準確率
表2在不同特征數(shù)情況下各特征選擇算法對應的宏平均召回率
由表1、表2、圖2和圖3綜合可見,對每一組特征集,無論是宏平均值還是微平均值,基于類別特征域進行特征選擇的三種方法(FDBC、FDBC-N、本發(fā)明方法)在文本分類效果和穩(wěn)定性上均明顯高于其它算法,特別是本發(fā)明方法和FDBC-N算法,優(yōu)勢尤其明顯。之所以會產生這么大的分類效果差距,主要原因有:
(1)本發(fā)明方法在進行特征選擇之前先用互鄰特征組合算法對原始特征空間進行了處理。在生成短語特征的同時擴展了特征空間,使特征數(shù)量由14174個擴展到了102734個,這就使得后面在進行特征選擇時,有了更多的選擇空間。
(2)DF、MI、CHI等算法是以包含某一特征的文檔數(shù)為衡量標準對特征進行約減,保留特征越少,舍棄的特征越多,很多有利于提升分類效果的特征被丟棄,導致分類的效果有較大落差。并且案件短文本本身就特征稀疏,這樣特征選擇后會使數(shù)據(jù)稀疏問題更加嚴重。而基于類別特征域的特征選擇算法在特征約減時,是將特征替換為相應的類標識碼并加權,過程中并沒有直接移除特征,不但沒有信息的丟失,而且在很大程度上解決了數(shù)據(jù)稀疏問題,所以保留特征的數(shù)量對分類性能的影響不大。
(3)本發(fā)明中新的隸屬度函數(shù)充分考慮了類內類間分散度和詞頻因素。在構造類別特征域時明顯要比只考慮文檔數(shù)目的互信息的方法好很多。
盡管已經示出和描述了本發(fā)明的實施例,對于本領域的普通技術人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權利要求及其等同物限定。