本發(fā)明涉及基于文本挖掘技術(shù)的客戶投訴預(yù)警監(jiān)測分析方法,所屬領(lǐng)域為電力行業(yè)客戶危機(jī)管理領(lǐng)域。
背景技術(shù):
隨著電力體制改革的逐步深化,電力銷售市場競爭加劇,迫切需要供電企業(yè)迅速改變傳統(tǒng)的思維方式和工作模式,進(jìn)一步樹立市場化服務(wù)意識,創(chuàng)新商業(yè)化服務(wù)模式,提升定制化、個性化服務(wù)水平,贏得客戶的信任,確保市場份額。同時,隨著民眾自主意識和維權(quán)意識的不斷提升,供電企業(yè)每一次的電價調(diào)整、服務(wù)手續(xù)變更甚至故障搶修,都受到了廣大民眾的密切關(guān)注。
作為與客戶交流、溝通的重要窗口,95598客戶服務(wù)系統(tǒng)記錄了海量的客戶信息。該系統(tǒng)中的數(shù)據(jù)主要分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。目前,針對系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù),系統(tǒng)通過對投訴數(shù)量、客戶的滿意度打分或問題處理時效等方面進(jìn)行統(tǒng)計分析。對于客戶反饋信息非結(jié)構(gòu)化數(shù)據(jù)主要是以人工抽檢梳理為主,不便于及時準(zhǔn)確的掌握客戶關(guān)注熱點(diǎn)問題;且僅限于從時間、區(qū)域、業(yè)務(wù)類型等維度進(jìn)行統(tǒng)計分析,使得監(jiān)測分析的精細(xì)化程度不夠;同時對投訴工單的文本數(shù)據(jù)雖然進(jìn)行逐一的人工溯源分析,缺乏自動化監(jiān)測分析,且側(cè)重于事后追責(zé),無法實現(xiàn)事前預(yù)警。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)不足,提供一種基于文本挖掘技術(shù)的投訴預(yù)警監(jiān)測方法,能夠針對專業(yè)管理部門及時、準(zhǔn)確掌握客戶反饋熱點(diǎn)問題,以及事前預(yù)警客戶投訴風(fēng)險的要求,在客戶反饋信息紛繁復(fù)雜、表達(dá)方式靈活多樣下實現(xiàn)對客戶投訴風(fēng)險度的預(yù)警,解決了目前人工梳理效率低和事后溯源追責(zé)的被動式管理問題,從而保證了對每條工單的投訴風(fēng)險等級預(yù)測,便于及時開展主動服務(wù),提升了客戶滿意度。
為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案是:
一種基于文本挖掘技術(shù)的投訴預(yù)警監(jiān)測分析方法,包括:
步驟1,文本數(shù)據(jù)規(guī)范化步驟,將錄入的文本數(shù)據(jù)轉(zhuǎn)成統(tǒng)一規(guī)則的規(guī)范化數(shù)據(jù)模式;
步驟2,規(guī)范化數(shù)據(jù)分析預(yù)警步驟,通過建立投訴分析等級聚類模型對規(guī)范化數(shù)據(jù)模式進(jìn)行分析,根據(jù)聚類結(jié)果劃分投訴風(fēng)險等級,再根據(jù)風(fēng)險所在等級發(fā)出相應(yīng)的預(yù)警。
采用文本數(shù)據(jù)規(guī)范化步驟將文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化、標(biāo)準(zhǔn)化的規(guī)范化表達(dá)式,便于后期 處理應(yīng)用;采用規(guī)范化數(shù)據(jù)分析預(yù)警步驟實現(xiàn)對客戶投訴風(fēng)險等級的判定與預(yù)警,省去人工梳理和判別,有效提高了工作效率。
作為本發(fā)明的進(jìn)一步限定方案,文本數(shù)據(jù)規(guī)范化步驟包括:
步驟1.1,文本初始處理步驟,對錄入的文本數(shù)據(jù)進(jìn)行分詞和去噪處理,獲得各個文本數(shù)據(jù)中的關(guān)鍵詞;
步驟1.2,文本特征向量化步驟,將各個關(guān)鍵詞進(jìn)行向量化并作歸一化處理,獲得由各個關(guān)鍵詞Wi在文件dj中的向量化歸一化結(jié)果建立的實數(shù)值矩陣,關(guān)鍵詞Wi在文件dj中的向量化歸一化結(jié)果為:
式中:N表示文件總數(shù)量;Ni表示包含關(guān)鍵詞Wi的文件數(shù)量;n為關(guān)鍵詞總次數(shù);Wi為第i個關(guān)鍵詞;dj表示第j個文件;tfij為關(guān)鍵詞Wi在文件dj中的詞頻;為所有關(guān)鍵詞在文件dj中的詞頻平方和;為文件總數(shù)量與包含關(guān)鍵詞Wi文件的數(shù)量比值加上調(diào)整項0.01后取對數(shù);
步驟1.3,文本數(shù)據(jù)相似性匹配步驟,根據(jù)建立的實數(shù)值矩陣,利用余弦定理計算各關(guān)鍵詞間的余弦相似度,并將余弦距離最近的文本數(shù)據(jù)進(jìn)行匹配,形成近義詞詞庫;
步驟1.4,規(guī)范化數(shù)據(jù)生成步驟,將匹配好的文本數(shù)據(jù)按照設(shè)定的統(tǒng)一規(guī)范化模式生成規(guī)范化數(shù)據(jù)。
作為本發(fā)明的進(jìn)一步限定方案,規(guī)范化數(shù)據(jù)分析預(yù)警步驟包括:
步驟2.1,情感傾向度計算步驟,對規(guī)范化數(shù)據(jù)進(jìn)行情感判斷并劃分為積極、消極和中心三類;
步驟2.2,投訴風(fēng)險等級劃分步驟,根據(jù)客戶等級、業(yè)務(wù)類型、積極傾向度以及投訴歷史參數(shù)建立投訴分析等級聚類模型,并根據(jù)聚類結(jié)果制定投訴風(fēng)險等級規(guī)則;
步驟2.3,投訴分析預(yù)警步驟,根據(jù)制定的投訴風(fēng)險等級規(guī)則,選擇模型變量參數(shù),利用貝葉斯分類建立分類學(xué)習(xí)模型,通過對分類學(xué)習(xí)模型的訓(xùn)練實現(xiàn)對未知文本數(shù)據(jù)的投訴風(fēng)險等級的預(yù)測。
作為本發(fā)明的進(jìn)一步限定方案,情感傾向度計算步驟的具體工作步驟為:
(1)建立連詞和否定詞詞典庫;
(2)根據(jù)連詞和否定詞詞典庫從規(guī)范化數(shù)據(jù)中抽取連詞和否定詞,并標(biāo)記相應(yīng)詞在規(guī)范化數(shù)據(jù)中的位置;
(3)匹配現(xiàn)有的情感詞典庫,獲得詞匯的極性及其情感評分值;
(4)通過連詞位置,確定前句與后句所占比重,再根據(jù)否定詞位置判斷雙重否定以及鄰近詞匯的極性反轉(zhuǎn);
(5)利用詞匯的極性及其情感評分值帶入連詞和否定詞后對規(guī)范化數(shù)據(jù)進(jìn)行累加獲得情感計算評分;
(6)循環(huán)步驟(2)至(5),若情感計算評分為正則為積極,為負(fù)則為消極,否則為中心。
作為本發(fā)明的進(jìn)一步限定方案,投訴風(fēng)險等級規(guī)則用于根據(jù)聚類結(jié)果將投訴風(fēng)險等級劃分為高危極、危險級、有投訴傾向級、一般級以及無投訴傾向級這五個風(fēng)險等級。
作為本發(fā)明的進(jìn)一步限定方案,在制定投訴風(fēng)險等級規(guī)則需要對規(guī)則進(jìn)行驗證,將驗證集數(shù)據(jù)輸入建立的分類學(xué)習(xí)模型,獲得驗證集數(shù)據(jù)中各文本數(shù)據(jù)的投訴風(fēng)險等級,并將結(jié)果集與驗證集數(shù)據(jù)中對應(yīng)的等級數(shù)據(jù)進(jìn)行比對,計算模型預(yù)測的正確率。
本發(fā)明的有益效果在于:利用文本挖掘技術(shù),將文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化、標(biāo)準(zhǔn)化的規(guī)范化表達(dá)式;其次對客戶反饋的文本信息進(jìn)行情感分析,并計算其情感傾向度;最后利用有監(jiān)督的分類學(xué)習(xí)算法,建立投訴預(yù)警監(jiān)測模型,實現(xiàn)對客戶投訴風(fēng)險等級的判定與預(yù)警。
附圖說明
圖1為規(guī)范化表達(dá)式建立流程示意圖;
圖2為本發(fā)明提出的投訴風(fēng)險等級計算流程圖;
圖3為本發(fā)明提出的投訴預(yù)警模型建立步驟示意圖;
圖4為本發(fā)明提出的投訴預(yù)警模型驗證流程示意圖;
圖5為各區(qū)域工單數(shù)分布圖;
圖6為各等級工單數(shù)據(jù)分布圖。
具體實施方式
下面結(jié)合附圖,對本發(fā)明作詳細(xì)說明:
本發(fā)明一種基于文本挖掘技術(shù)的投訴預(yù)警監(jiān)測分析方法,包括文本數(shù)據(jù)規(guī)范化步驟和規(guī)范化數(shù)據(jù)分析預(yù)警步驟,其中,文本數(shù)據(jù)規(guī)范化步驟,用于將錄入的文本數(shù)據(jù)轉(zhuǎn)成統(tǒng)一規(guī)則的規(guī)范化數(shù)據(jù)模式;規(guī)范化數(shù)據(jù)分析預(yù)警步驟,用于通過建立投訴分析等級聚類模型對規(guī)范 化數(shù)據(jù)模式進(jìn)行分析,根據(jù)聚類結(jié)果劃分投訴風(fēng)險等級,根據(jù)風(fēng)險所在等級發(fā)出相應(yīng)的預(yù)警。
采用文本數(shù)據(jù)規(guī)范化步驟將文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化、標(biāo)準(zhǔn)化的規(guī)范化表達(dá)式,便于后期處理應(yīng)用;采用規(guī)范化數(shù)據(jù)分析預(yù)警步驟實現(xiàn)對客戶投訴風(fēng)險等級的判定與預(yù)警,省去人工梳理和判別,有效提高了工作效率。
文本數(shù)據(jù)規(guī)范化步驟包括文本初始處理步驟、文本特征向量化步驟、文本數(shù)據(jù)相似性匹配步驟以及規(guī)范化數(shù)據(jù)生成步驟。文本數(shù)據(jù)規(guī)范化步驟的具體處理步驟如圖1所示,首先將錄入的文本數(shù)據(jù)(95598工單數(shù)據(jù))進(jìn)行分詞、去噪處理;接著進(jìn)行向量化處理成向量矩陣、詞相關(guān)矩陣;然后進(jìn)行關(guān)聯(lián)分析生成近義詞詞庫;根據(jù)業(yè)務(wù)類型和近義詞詞庫對文本數(shù)據(jù)進(jìn)行規(guī)范化表達(dá)。
其中,文本初始處理步驟,用于對錄入的文本數(shù)據(jù)進(jìn)行分詞和去噪處理,獲得各個文本數(shù)據(jù)中的關(guān)鍵詞;
文本特征向量化步驟,用于將各個關(guān)鍵詞進(jìn)行向量化并作歸一化處理,獲得由各個關(guān)鍵詞Wi在文件dj中的向量化歸一化結(jié)果建立的實數(shù)值矩陣,關(guān)鍵詞Wi在文件dj中的向量化歸一化結(jié)果為:
式中:N表示文件總數(shù)量;Ni表示包含關(guān)鍵詞Wi的文件數(shù)量;n為關(guān)鍵詞總次數(shù);Wi為第i個關(guān)鍵詞;dj表示第j個文件;tfij為關(guān)鍵詞Wi在文件dj中的詞頻;為所有關(guān)鍵詞在文件dj中的詞頻平方和;為文件總數(shù)量與包含關(guān)鍵詞Wi文件的數(shù)量比值加上調(diào)整項0.01后取對數(shù);
文本數(shù)據(jù)相似性匹配步驟,用于根據(jù)建立的實數(shù)值矩陣,利用余弦定理計算各關(guān)鍵詞間的余弦相似度,并將余弦距離最近的文本數(shù)據(jù)進(jìn)行匹配,形成近義詞詞庫;
規(guī)范化數(shù)據(jù)生成步驟,用于將匹配好的文本數(shù)據(jù)按照設(shè)定的統(tǒng)一規(guī)范化模式生成規(guī)范化數(shù)據(jù)。
作為本發(fā)明進(jìn)一步公開方案,規(guī)范化數(shù)據(jù)分析預(yù)警步驟包括:
情感傾向度計算步驟,用于對規(guī)范化數(shù)據(jù)進(jìn)行情感判斷并劃分為積極、消極和中心三類;
投訴風(fēng)險等級劃分步驟,用于根據(jù)客戶等級、業(yè)務(wù)類型、積極傾向度以及投訴歷史參數(shù)建立投訴分析等級聚類模型,并根據(jù)聚類結(jié)果制定投訴風(fēng)險等級規(guī)則;在制定投訴風(fēng)險等級 規(guī)則需要對規(guī)則進(jìn)行驗證,將驗證集數(shù)據(jù)輸入建立的分類學(xué)習(xí)模型,獲得驗證集數(shù)據(jù)中各文本數(shù)據(jù)的投訴風(fēng)險等級,并將結(jié)果集與驗證集數(shù)據(jù)中對應(yīng)的等級數(shù)據(jù)進(jìn)行比對,計算模型預(yù)測的正確率;
投訴分析預(yù)警步驟,用于根據(jù)制定的投訴風(fēng)險等級規(guī)則,選擇模型變量參數(shù)(如有無投訴歷史、業(yè)務(wù)類型以及客戶等級),利用貝葉斯分類建立分類學(xué)習(xí)模型,通過對分類學(xué)習(xí)模型的訓(xùn)練實現(xiàn)對未知文本數(shù)據(jù)的投訴風(fēng)險等級的預(yù)測。
本發(fā)明基于文本挖掘技術(shù)的投訴預(yù)警監(jiān)測分析系統(tǒng)實現(xiàn)的具體步驟為:
(一)建立規(guī)范化表達(dá)式
1、中文分詞
基于95598工單數(shù)據(jù),建立分詞語料庫和特殊符號表,對預(yù)料庫中相鄰共現(xiàn)的各個字的組合的頻度進(jìn)行統(tǒng)計,計算其相關(guān)度。計算公式如下:
其中,M表示預(yù)料庫字?jǐn)?shù),NA表示A在預(yù)料庫中出現(xiàn)的次數(shù),NB表示B在預(yù)料庫中出現(xiàn)的次數(shù),NAB表示AB在預(yù)料庫中一起出現(xiàn)的次數(shù)。
2、文本特征向量化
從95598工單文本內(nèi)容中選擇出一部分最為有效的特征,使得新特征空間的維度往往遠(yuǎn)小于原始空間維度,實現(xiàn)對文本特征向量的進(jìn)一步凈化,并在保持原文本含義的情況下,計算最能反饋文本內(nèi)容,又簡潔的特征向量。通過對文本特征項做歸一化處理,減輕了不同長度文本對文本相似度計算結(jié)果的影響。計算公式如下:
式中:N表示文件總數(shù)量;Ni表示包含關(guān)鍵詞Wi的文件數(shù)量;n為關(guān)鍵詞總次數(shù);Wi為第i個關(guān)鍵詞;dj表示第j個文件;tfij為關(guān)鍵詞Wi在文件dj中的詞頻;為所有關(guān)鍵詞在文件dj中的詞頻平方和;為文件總數(shù)量與包含關(guān)鍵詞Wi文件的數(shù)量比值加上調(diào)整項0.01后取對數(shù)。
3、根據(jù)詞向量轉(zhuǎn)換后的實數(shù)值矩陣,利用余弦定理,計算各個詞組間的余弦相似度,并將余弦距離最近的詞進(jìn)行匹配,形成近義詞詞庫。
4、建立規(guī)范化表達(dá)式
結(jié)合95598系統(tǒng)業(yè)務(wù)分類,實現(xiàn)對客戶反饋文本信息的規(guī)范化表示,形如:投訴-超崔人員-態(tài)度。
(二)建立投訴預(yù)警監(jiān)測模型
1、計算情感傾向度
(1)基于大連理工大學(xué)情感詞典,以95598工單業(yè)務(wù)類別為表揚(yáng)文本作為補(bǔ)充修改,同時建立連詞和否定詞詞典,建立情感訓(xùn)練庫。
(2)從95598工單中抽取連詞和否定詞,并標(biāo)記相應(yīng)詞位置。
(3)匹配情感詞典,確定詞匯極性及其情感評分值,詞匯極性和情感評分值為情感詞典中現(xiàn)有的基本參數(shù)。
(4)通過連詞位置,確定前句與后句所占比重,同時根據(jù)否定詞位置判讀雙重否定,以及鄰進(jìn)詞匯的極性反轉(zhuǎn)。
(5)累加工單文本情感計算評分。
(6)循環(huán)步驟(2)至(5),若為正則為積極,為負(fù)則為消極,否則為中心。
2、制定投訴風(fēng)險等級
通過將工單文本數(shù)據(jù)轉(zhuǎn)換成向量化矩陣,選取客戶等級、積極傾向度、投訴歷史等參數(shù),建立投訴分析等級聚類模型,最終根據(jù)聚類結(jié)果,將投訴風(fēng)險等級劃分為5類,如圖2所示。
3、建立投訴分析預(yù)警模型
將數(shù)據(jù)源分為模型訓(xùn)練集和驗證集,并根據(jù)制定的投訴風(fēng)險等級規(guī)則,選擇模型變量(如有無投訴歷史、業(yè)務(wù)類型、客戶等級等),利用貝葉斯分類建立分類學(xué)習(xí)模型,通過模型訓(xùn)練實現(xiàn)對未知工單的投訴風(fēng)險等級的預(yù)測,模型訓(xùn)練的步驟如圖3所示。
4、模型驗證
如圖4所示,將驗證集數(shù)據(jù)輸入分類學(xué)習(xí)模型,通過模型預(yù)測各工單的投訴風(fēng)險等級,并將結(jié)果集與驗證集中的數(shù)據(jù)進(jìn)行比對,計算模型預(yù)測的正確率。
實施例
收集95598系統(tǒng)南京市8月份工單數(shù)據(jù),共計87359條。包括業(yè)務(wù)咨詢、故障報修、建議、意見、投訴、舉報等九類工單的數(shù)據(jù)。其中南京市區(qū)產(chǎn)生工單最多為58151條,其次為江寧區(qū)為13248條,各區(qū)域工單數(shù)分布詳見圖5。
1、8月份主動服務(wù)等級工單監(jiān)測分析
通過模型計算,將8月份南京市工單分為五類主動服務(wù)等級。其中一級工單為232條,二級工單為208條,由于一級、二級工單的主動服務(wù)等級較高,需要進(jìn)行及時處理,所以以 下重點(diǎn)分析一級、二級工單在各區(qū)域的分布情況以及模型驗證監(jiān)測分析。各等級工單數(shù)據(jù)分布詳情見圖6:
(1)各等級工單在區(qū)域的監(jiān)測分析
根據(jù)模型監(jiān)測結(jié)果,南京市區(qū)一級、二級工單數(shù)量最多分別為109條和90條;其次為江寧區(qū)分別為66條和62條;浦口、六合、溧水相對較少,其中浦口分別為20、24條,六合分別為14、14條,溧水區(qū)分別為14、10條;高淳區(qū)最少分別為9、8條。各等級工單在區(qū)域的業(yè)務(wù)和數(shù)量分布詳見下表:
(2)一級、二級工單內(nèi)容分析
根據(jù)模型監(jiān)測結(jié)果,各區(qū)域一級工單內(nèi)容排名最高的為報修-無電,占比分別為江寧約占26%,浦口約占28%,市區(qū)約占22%,六合約占31%,高淳約占26%,溧水約占31%;一級工單內(nèi)容排名第二的為設(shè)備-故障和報修-多戶-無電,其中江寧、浦口和南京市區(qū)排名第二的內(nèi)容是設(shè)備-故障,分別占16%、18%和21%,六合、高淳和溧水排名第二的內(nèi)容為報修-多戶-無電,分別占18%、19%和25%。二級工單內(nèi)容在各區(qū)域的占比排名情況與第一等級類似。
2、模型預(yù)警監(jiān)測分析
在監(jiān)測周期內(nèi),利用主動服務(wù)預(yù)警模型,共預(yù)警一級、二級工單440條(投訴類工單128條,非投訴類工單312條)。經(jīng)過驗證發(fā)現(xiàn),在一級、二級非投訴類工單中有35條最終引起客戶投訴,其中有13條工單(一級工單7條,二級工單6條)直接引起客戶投訴,主要業(yè)務(wù)類型是故障報修5條、服務(wù)申請3條、業(yè)務(wù)咨詢5條;剩余22條(一級工單12條,二級工單10條)工單是通過關(guān)聯(lián)最終引起客戶投訴,共9條。在這35條工單中,業(yè)務(wù)咨詢占比最高約為54%,其次是故障報修和服務(wù)申請,分別約為34%、12%。
通過對模型預(yù)警結(jié)果的監(jiān)測分析,在實際發(fā)生的128條投訴工單中,有106條是客戶在沒有歷史行為的情況下直接進(jìn)行投訴。剩余工單是客戶在投訴前有相應(yīng)的故障報修、業(yè)務(wù)咨詢等歷史行為,且全部包含在本次監(jiān)測結(jié)果中。驗證了模型對監(jiān)測周期內(nèi)非投訴類工單后期轉(zhuǎn)化為投訴工單的捕獲能力。
利用投訴預(yù)警模型,及時捕獲投訴風(fēng)險度較的工單,便于業(yè)務(wù)部門及時開展主動服務(wù),從而降低投訴工單數(shù)據(jù),提升客戶的滿意度。