本發(fā)明涉及智能化技術(shù)領(lǐng)域,特別是涉及一種咨詢熱點(diǎn)分析方法及裝置。
背景技術(shù):
現(xiàn)有技術(shù)中,國網(wǎng)客服中心首先通過95598客戶服務(wù)熱線、手機(jī)app、短信等方式獲取客戶的咨詢內(nèi)容,然后錄入咨詢內(nèi)容并生成咨詢文檔。咨詢文檔生成后,話務(wù)員等相關(guān)服務(wù)人員對按照客戶實(shí)際的咨詢類別對咨詢文檔進(jìn)行歸類,結(jié)果導(dǎo)入數(shù)據(jù)庫。根據(jù)數(shù)據(jù)庫中的數(shù)據(jù)生成咨詢內(nèi)容、咨詢類別以及各類別咨詢文檔數(shù)目的統(tǒng)計信息。依據(jù)咨詢文檔的統(tǒng)計信息,獲得咨詢熱點(diǎn),并針對獲得的咨詢熱點(diǎn)進(jìn)行分析。
但是,隨著客戶咨詢內(nèi)容日漸多樣、咨詢文檔數(shù)量日益增長,僅僅依靠人工方式對大量的咨詢文檔進(jìn)行分類,然后對分類后的咨詢文檔進(jìn)行統(tǒng)計,進(jìn)而得到咨詢熱點(diǎn),并對咨詢熱點(diǎn)進(jìn)行分析,導(dǎo)致無法實(shí)現(xiàn)高效地對咨詢熱點(diǎn)進(jìn)行分析的問題產(chǎn)生。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種咨詢熱點(diǎn)分析方法及裝置,用以解決現(xiàn)有技術(shù)中無法實(shí)現(xiàn)高效、全面、及時地對咨詢熱點(diǎn)進(jìn)行分析的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案為:
本發(fā)明提供了一種咨詢熱點(diǎn)分析方法,包括:
獲取多個咨詢文檔;
從所述多個咨詢文檔中提取k個咨詢文檔,將所述k個咨詢文檔分別作為k個文檔類別的初始聚類的中心;其中,k為正整數(shù);
分別計算所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔與每個所述初始聚類的中心之間的相似度;
獲取所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔的所述相似度中,所述相似度最大值對應(yīng)的所述初始聚類的中心;
將除所述k個咨詢文檔之外的其他每個咨詢文檔,分類到所述相似度最大值對應(yīng)的所述初始聚類的中心所在文檔類別中;
提取所述文檔類別中每個咨詢文檔的關(guān)鍵詞,得到所述文檔類別對應(yīng)的咨詢熱點(diǎn);
對所述咨詢熱點(diǎn)進(jìn)行分析。
優(yōu)選地,所述分別計算所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔與每個所述初始聚類的中心之間的相似度包括:
對每個所述咨詢文檔分別進(jìn)行分詞處理,獲得對應(yīng)于每個所述咨詢文檔的多個咨詢詞語;
從每個所述咨詢詞語中分別提取關(guān)鍵詞,得到對應(yīng)于每個所述咨詢文檔的關(guān)鍵詞;
依據(jù)所述關(guān)鍵詞,分別計算所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔與每個所述初始聚類的中心之間的相似度。
優(yōu)選地,所述對每個所述咨詢文檔分別進(jìn)行分詞處理,獲得對應(yīng)于每個所述咨詢文檔的多個咨詢詞語包括:
對每個所述咨詢文檔中包括的原始字符串進(jìn)行原子切分,得到原子切分結(jié)果;
對所述原子切分結(jié)果進(jìn)行N-最短路徑粗切分,得到N個分詞結(jié)果;所述N個分詞結(jié)果以二元分詞表的形式存儲;其中,每個所述分詞結(jié)果中包含的詞語之間具有連接性;
計算位于所述二元分詞表一端的詞語與位于所述二元分詞表另一端的詞語之間存在的所有路徑的第一距離;
將所述第一距離最小值對應(yīng)的路徑中包含的詞語作為咨詢詞語。
優(yōu)選地,所述從每個所述咨詢詞語中分別提取關(guān)鍵詞,得到對應(yīng)于每個所述咨詢文檔的關(guān)鍵詞包括:
分別統(tǒng)計每個咨詢詞語在所述咨詢文檔中出現(xiàn)的次數(shù);
對所述每個咨詢詞語在所述咨詢文檔中出現(xiàn)的次數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,得到所述每個咨詢詞語的詞頻;
分別統(tǒng)計一個語料庫中,包括所述每個咨詢詞語的文檔的個數(shù);
通過所述語料庫中所述文檔的總數(shù)以及所述文檔中包括所述每個咨詢詞語的所述文檔的個數(shù),分別計算所述每個咨詢詞語的逆文檔頻率;
將所述每個咨詢詞語的詞頻與所述每個咨詢詞語的逆文檔頻率相乘,得到所述每個咨詢詞語的頻率計算結(jié)果;
選取所述頻率計算結(jié)果中大于預(yù)設(shè)閾值的頻率計算結(jié)果對應(yīng)的咨詢詞語為所述咨詢文檔的關(guān)鍵詞。
優(yōu)選地,所述依據(jù)所述關(guān)鍵詞,分別計算所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔與每個所述初始聚類的中心之間的相似度包括:
獲取需要計算相似度的兩個咨詢文檔中包括的所有關(guān)鍵詞;其中,兩個咨詢文檔中一個為作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔,另一個為除k個咨詢文檔之外的一個咨詢文檔;
分別計算所述所有關(guān)鍵詞在所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中出現(xiàn)的次數(shù);
依據(jù)所述所有關(guān)鍵詞在所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中出現(xiàn)的次數(shù),得到所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量;
分別計算所述所有關(guān)鍵詞在除k個咨詢文檔之外的一個咨詢文檔中出現(xiàn)的次數(shù);
依據(jù)所述所有關(guān)鍵詞在所述除k個咨詢文檔中的一個咨詢文檔中出現(xiàn)的次數(shù),得到所述除k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量;
利用余弦定理,計算所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量與所述除k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量之間的夾角余弦值;
其中,所述夾角余弦值表示所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔與所述除k個咨詢文檔之外的一個咨詢文檔之間的相似度。
優(yōu)選地,所述獲取所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔的所述相似度中,所述相似度最大值對應(yīng)的所述初始聚類的中心包括:
利用所述相似度分別計算所述除k個咨詢文檔之外的其他每個咨詢文檔到各個所述初始聚類的中心的第二距離;
獲取所述第二距離最小值對應(yīng)的所述初始聚類的中心;
其中,所述第二距離越小,所述相似度越大。
優(yōu)選地,所述將除所述k個咨詢文檔之外的其他每個咨詢文檔,分類到所述相似度最大值對應(yīng)的所述初始聚類的中心所在文檔類別中包括:
將所述除k個咨詢文檔之外的其他每個咨詢文檔劃分到與所述第二距離最小值對應(yīng)的所述初始聚類的中心所在文檔類別中;
判斷除選取為初始聚類的中心外,其他每個咨詢文檔是否都已經(jīng)分別劃分到k個文檔類別中;
當(dāng)判斷結(jié)果為是時,重新計算k個文檔類別中每個文檔類別的中心,得到k個第一聚類的中心;
分別比較所述k個第一聚類的中心與k個初始聚類的中心是否相同;
若不同,則將所述k個第一聚類的中心作為k個文檔類別的新聚類中心;
利用所述相似度分別計算所述多個咨詢文檔到各個所述新聚類中心的第三距離;
將所述多個咨詢文檔劃分到與所述第三距離最小值對應(yīng)的所述新聚類中心所在文檔類別中;
判斷所述多個咨詢文檔是否都已經(jīng)分別劃分到k個文檔類別中;
當(dāng)判斷結(jié)果為是時,重新計算k個文檔類別中每個文檔類別的中心,得到k個第二聚類的中心;
分別比較所述k個第二聚類的中心與上一次聚類的中心是否相同;
若不同,則將所述k個第二聚類的中心作為k個文檔類別的新聚類中心;
返回執(zhí)行利用所述相似度分別計算所述多個咨詢文檔到各個所述新聚類中心的第三距離。
本發(fā)明還提供了一種咨詢熱點(diǎn)分析裝置,包括:
第一獲取單元,用于獲取多個咨詢文檔;
第一提取單元,用于從所述多個咨詢文檔中提取k個咨詢文檔,將所述k個咨詢文檔分別作為k個文檔類別的初始聚類的中心;其中,k為正整數(shù);
第一計算單元,用于分別計算所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔與所述每個所述初始聚類的中心之間的相似度;
第二獲取單元,用于獲取所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔的所述相似度中,所述相似度最大值對應(yīng)的所述初始聚類的中心;
第一分類單元,用于將除所述k個咨詢文檔之外的其他每個咨詢文檔,分類到所述相似度最大值對應(yīng)的所述初始聚類的中心所在文檔類別中;
第二提取單元,用于提取所述文檔類別中每個咨詢文檔的關(guān)鍵詞,得到所述文檔類別對應(yīng)的咨詢熱點(diǎn);
分析單元,用于對所述咨詢熱點(diǎn)進(jìn)行分析。
優(yōu)選地,還包括:
分詞處理單元,用于對每個所述咨詢文檔分別進(jìn)行分詞處理,獲得對應(yīng)于每個所述咨詢文檔的多個咨詢詞語;
關(guān)鍵詞提取單元,用于從每個所述咨詢詞語中分別提取關(guān)鍵詞,得到對應(yīng)于每個所述咨詢文檔的關(guān)鍵詞;
所述第一計算單元,用于依據(jù)所述關(guān)鍵詞,分別計算所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔與每個所述初始聚類的中心之間的相似度。
優(yōu)選地,所述分詞處理單元包括:
原子切分單元,用于對每個所述咨詢文檔中包括的原始字符串進(jìn)行原子切分,得到原子切分結(jié)果;
最短路徑粗切分單元,用于對所述原子切分結(jié)果進(jìn)行N-最短路徑粗切分,得到N個分詞結(jié)果;
第二計算單元,用于計算二元分詞表一端的詞語與位于二元分詞表另一端的詞語之間存在的所有路徑的第一距離;
確定單元,用于從所述第一距離中確定所述第一距離最小值,將所述第一距離最小值對應(yīng)的路徑中包含的詞語作為咨詢詞語。
優(yōu)選地,所述關(guān)鍵詞提取單元包括:
第一統(tǒng)計單元,用于分別統(tǒng)計每個咨詢詞語在所述咨詢文檔中出現(xiàn)的次數(shù);
標(biāo)準(zhǔn)化單元,用于對所述每個咨詢詞語在所述咨詢文檔中出現(xiàn)的次數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,得到所述每個咨詢詞語的詞頻;
第二統(tǒng)計單元,用于分別統(tǒng)計一個語料庫中,包括所述每個咨詢詞語的文檔的個數(shù);
逆文檔頻率計算單元,用于通過所述語料庫中所述文檔的總數(shù)以及所述文檔中包括所述每個咨詢詞語的所述文檔的個數(shù),分別計算所述每個咨詢詞語的逆文檔頻率;
頻率計算單元,用于將所述每個咨詢詞語的詞頻與所述每個咨詢詞語的逆文檔頻率相乘,得到所述每個咨詢詞語的頻率計算結(jié)果;
選取單元,用于選取所述頻率計算結(jié)果中大于預(yù)設(shè)閾值的頻率計算結(jié)果對應(yīng)的咨詢詞語為所述咨詢文檔的關(guān)鍵詞。
優(yōu)選地,所述第一計算單元包括:
第三獲取單元,用于獲取需要計算相似度的兩個咨詢文檔中包括的所有關(guān)鍵詞;其中,兩個咨詢文檔中一個為作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔,另一個為除k個咨詢文檔之外的一個咨詢文檔;
第三計算單元,用于分別計算所述所有關(guān)鍵詞在所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中出現(xiàn)的次數(shù);
詞頻向量單元,用于依據(jù)所述所有關(guān)鍵詞在所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中出現(xiàn)的次數(shù),得到所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量;
夾角余弦值計算單元,用于利用余弦定理,計算所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量與所述除k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量之間的夾角余弦值;
其中,所述夾角余弦值表示所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔與所述除k個咨詢文檔之外的一個咨詢文檔之間的相似度。
優(yōu)選地,所述第二獲取單元包括:第四計算單元,用于利用相似度分別計算所述除k個咨詢文檔之外的其他每個咨詢文檔到各個初始聚類的中心的第二距離;
第四獲取單元,用于獲取所述第二距離最小值對應(yīng)的所述初始聚類的中心;
其中,所述第二距離越小,所述相似度越大。
優(yōu)選地,所述第一分類單元包括:
第二分類單元,用于將所述除k個咨詢文檔之外的其他每個咨詢文檔劃分到與所述第二距離最小值對應(yīng)的所述初始聚類的中心所在文檔類別中;
判斷單元,用于判斷除選取為初始聚類的中心外,其他每個咨詢文檔是否都已經(jīng)劃分到k個文檔類別中;第五計算單元,用于當(dāng)所述判斷單元的判斷結(jié)果為是時,重新計算k個文檔類別中每個文檔類別的中心,得到k個第一聚類的中心;
第一比較單元,用于分別比較所述k個第一聚類的中心與k個初始聚類的中心是否相同;
第六計算單元,用于當(dāng)所述第一比較單元的比較結(jié)果為不同時,將所述k個第一聚類的中心作為k個文檔類別的新聚類中心,利用所述相似度分別計算所述多個咨詢文檔到各個所述新聚類中心的第三距離;
第三分類單元,用于將所述多個咨詢文檔劃分到與所述第三距離最小值對應(yīng)的所述新聚類中心所在文檔類別中;
第二判斷單元,用于判斷所述多個咨詢文檔是否都已經(jīng)分別劃分到k個文檔類別中;
第七計算單元,用于當(dāng)所述第二判斷單元的判斷結(jié)果為是時,重新計算k個文檔類別中每個文檔類別的中心,得到k個第二聚類的中心;
第二比較單元,用于分別比較所述k個第二聚類的中心與上一次聚類的中心是否相同;
所述第六計算單元,還用于當(dāng)所述第二比較單元的比較結(jié)果為不同時,將所述k個第二聚類的中心作為k個文檔類別的新聚類中心;利用所述相似度分別計算所述多個咨詢文檔到各個所述新聚類中心的第三距離。
經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本申請通過從多個咨詢文檔中提取k個咨詢文檔,并將k個咨詢文檔分別作為k個文檔類別的初始聚類的中心,然后分別計算其他咨詢文檔與每個文檔類別之間的相似度,并將咨詢文檔分類到相似度最大值對應(yīng)的文檔類別中,進(jìn)而實(shí)現(xiàn)了將獲取到的多個咨詢文檔自動分類的過程,并對分類后的一類咨詢文檔進(jìn)行關(guān)鍵詞提取,進(jìn)而可以得到一類咨詢文檔的統(tǒng)計信息,得到咨詢文檔對應(yīng)的咨詢熱點(diǎn)問題。相較于現(xiàn)有技術(shù)需要人工完成對咨詢文檔的分類和統(tǒng)計后,才能獲取咨詢熱點(diǎn),并對咨詢熱點(diǎn)進(jìn)行分析的技術(shù)方案而言,提高了對咨詢文檔分類的效率。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例公開的一種咨詢熱點(diǎn)分析方法的流程圖;
圖2為本發(fā)明實(shí)施例公開的另一種咨詢熱點(diǎn)分析方法的流程圖;
圖3為本發(fā)明實(shí)施例公開的二元分詞表的示意圖;
圖4為本發(fā)明實(shí)施例公開的另一種咨詢熱點(diǎn)分析方法的流程圖;
圖5為本發(fā)明實(shí)施例公開的一種咨詢熱點(diǎn)分析裝置的結(jié)構(gòu)示意圖;
圖6為本發(fā)明實(shí)施例公開的一種咨詢熱點(diǎn)分析裝置的另一種結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
參見圖1,示出了本發(fā)明實(shí)施例提供的一種咨詢熱點(diǎn)分析方法的流程圖,所述咨詢熱點(diǎn)分析方法包括:
S101、獲取多個咨詢文檔;
當(dāng)用戶通過短信、電子郵件或傳真的方式,將咨詢內(nèi)容發(fā)送給客服中心時,由于短信、電子郵件或傳真是以文檔形式存在的,因此,直接將用戶發(fā)送的包含咨詢內(nèi)容的文檔作為咨詢文檔,并將其存儲在數(shù)據(jù)庫中。
當(dāng)用戶通過語音方式,將咨詢語音發(fā)送給客服中心時,需要通過語音識別技術(shù)對咨詢語音進(jìn)行識別,并將其轉(zhuǎn)化為文本信息,將文本信息作為咨詢文檔,并存儲在數(shù)據(jù)庫中。
例如,當(dāng)用戶通過電話呼叫客戶服務(wù)熱線進(jìn)行的咨詢會形成咨詢語音信號,語音識別技術(shù)通過信號處理、模式識別、人工智能、概率論、信息論、發(fā)生機(jī)理和聽覺機(jī)理等技術(shù)將非結(jié)構(gòu)化的咨詢語音信息轉(zhuǎn)換為結(jié)構(gòu)化的索引,實(shí)現(xiàn)對大量咨詢語音的知識挖掘和快速檢索。從包含咨詢文檔的數(shù)據(jù)庫中,獲取多個咨詢文檔,通過對獲取的多個咨詢文檔的處理,進(jìn)而得到與獲取的多個咨詢文檔相關(guān)的咨詢熱點(diǎn)。
S102、從所述多個咨詢文檔中提取k個咨詢文檔,將所述k個咨詢文檔分別作為k個文檔類別的初始聚類的中心;其中,k為正整數(shù);
k的取值可以根據(jù)實(shí)際需要進(jìn)行選擇,具體的根據(jù)需要得到咨詢熱點(diǎn)的個數(shù)進(jìn)行選擇。例如,需要從獲取的多個咨詢文檔中得到4個咨詢熱點(diǎn),則從所述多個咨詢文檔中提取4個咨詢文檔,即k=4。
S103、分別計算所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔與每個所述初始聚類的中心之間的相似度;
若從數(shù)據(jù)庫中獲取了n個咨詢文檔,并從n個咨詢文檔中選擇了k個咨詢文檔作為k個文檔類別的初始聚類的中心,其中,n≥k,則需要分別計算n個咨詢文檔中剩余的n-k個咨詢文檔與每個初始聚類的中心之間的相似度。
具體地,n=10時,即從數(shù)據(jù)庫中獲取了10個咨詢文檔,分別記作:n1、n2……n10,從10個咨詢文檔中提取了4個咨詢文檔,4個咨詢文檔分別是n1、n2、n3、n4,將n1、n2、n3、n4作為4個文檔類別的初始聚類的中心,然后,分別計算n5……n10與n1、n2、n3、n4中每個咨詢文檔之間的相似度。
S104、獲取所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔的所述相似度中,所述相似度最大值對應(yīng)的所述初始聚類的中心;S105、 將除所述k個咨詢文檔之外的其他每個咨詢文檔,分類到所述相似度最大值對應(yīng)的所述初始聚類的中心所在文檔類別中;
以n5為例,若n5與n1、n2、n3、n4之間的相似度中,n5與n1之間的相似度值最大,那么將n5分類到n1這一初始聚類的中心所在文檔類別中。
依次,分別將n6……n10分類到n1、n2、n3、n4這四個初始聚類的中心所在的文檔類別中。
S106、提取所述文檔類別中每個咨詢文檔的關(guān)鍵詞,得到所述文檔類別對應(yīng)的咨詢熱點(diǎn);
針對上述分類過程,若分類的結(jié)果是:n1、n5、n10;n2、n6;n3、n7;n4、n8、n9;以n1這一咨詢文檔所在的文檔類別為例,這一文檔類別共包括三個咨詢文檔,分別是n1、n5、n10,需要分別提取n1、n5、n10的關(guān)鍵詞,得到這三個文檔類別對應(yīng)的咨詢熱點(diǎn)。
S107、對所述咨詢熱點(diǎn)進(jìn)行分析。
本發(fā)明實(shí)施例所提供的技術(shù)方案中,通過從多個咨詢文檔中提取k個咨詢文檔,并將k個咨詢文檔分別作為k個文檔類別的初始聚類的中心,然后分別計算其他咨詢文檔與每個文檔類別之間的相似度,并將咨詢文檔分類到相似度最大值對應(yīng)的文檔類別中,進(jìn)而實(shí)現(xiàn)了將獲取到的多個咨詢文檔自動分類的過程,并對分類后的一類咨詢文檔進(jìn)行關(guān)鍵詞提取,進(jìn)而可以得到一類咨詢文檔的統(tǒng)計信息,得到咨詢文檔對應(yīng)的咨詢熱點(diǎn)問題。相較于現(xiàn)有技術(shù)需要人工完成對咨詢文檔的分類和統(tǒng)計后,才能獲取咨詢熱點(diǎn),并對咨詢熱點(diǎn)進(jìn)行分析的技術(shù)方案而言,提高了對咨詢文檔分類的效率。
如圖2所示,本發(fā)明實(shí)施例公開了一種咨詢熱點(diǎn)分析方法,本實(shí)施例的方法包括:
S201、獲取多個咨詢文檔;
S202、從所述多個咨詢文檔中提取k個咨詢文檔,將所述k個咨詢文檔分別作為k個文檔類別的初始聚類的中心;其中,k為正整數(shù);
本實(shí)施例的步驟S201和步驟S202的操作過程分別與圖1所示實(shí)施例的步驟S101和S102的操作過程類似,在此不再贅述。
S203、對每個所述咨詢文檔分別進(jìn)行分詞處理,獲得對應(yīng)于每個所述咨 詢文檔的多個咨詢詞語;
可選地,對每個所述咨詢文檔分別進(jìn)行分詞處理可以通過漢語詞法分析系統(tǒng)(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)實(shí)現(xiàn)。
通過ICTCLAS對每個咨詢文檔分別進(jìn)行分詞處理包括:
S2031、對每個所述咨詢文檔中包括的原始字符串進(jìn)行原子切分,得到原子切分結(jié)果;
S2032、對所述原子切分結(jié)果進(jìn)行N-最短路徑粗切分,得到N個分詞結(jié)果;所述N個分詞結(jié)果以二元分詞表的形式存儲;其中,每個所述分詞結(jié)果中包含的詞語之間具有連接性;
S2033、計算位于所述二元分詞表一端的詞語與位于所述二元分詞表另一端的詞語之間存在的所有路徑的第一距離;
S2034、將所述第一距離最小值對應(yīng)的路徑中包含的詞語作為咨詢詞語。
在實(shí)際應(yīng)用中,通過ICTCLAS對每個咨詢文檔分別進(jìn)行分詞處理的過程可以分為5個步驟,即將原始字符串的分詞過程分為5個步驟。第1個步驟對應(yīng)原子切分,第2個步驟對應(yīng)N-最短路徑粗切分,第3個步驟對應(yīng)二元分詞表,第4個步驟對應(yīng)分詞結(jié)果,第5個步驟對應(yīng)詞性標(biāo)注。
例如,計算機(jī)1946年誕生為原始字符串。
首先進(jìn)行第1個步驟對應(yīng)的原子切分,得到原子切分結(jié)果為:計\算\機(jī)\1946\年\誕\生。
其次,進(jìn)行第2個步驟對應(yīng)的N-最短路徑粗切分,即通過原子切分結(jié)果找出包含正確結(jié)果的N種分詞結(jié)果,其中,包含正確結(jié)果指的是符合語言學(xué)邏輯的詞語。例如,將N設(shè)置為2,進(jìn)行2-最短路徑粗切分,得到的2個分詞結(jié)果為:(1)計算機(jī)\1946年\誕生,(2)計算機(jī)\1946\年\誕生。
然后,進(jìn)行第3個步驟對應(yīng)的二元分詞表,上述2個分詞結(jié)果對應(yīng)的二元分詞表可以表示為如圖3所示。
其中,每個分詞結(jié)果中分別包含的詞語之間具有連接性,以能夠明確詞語的排序順序。
比如說第1個分詞結(jié)果計算機(jī)\1946年\誕生中包含的3個詞語分別是:計算機(jī)、1946年和誕生,3個詞語之間正是由于分詞結(jié)果中包含的詞語之間具 有連接性,二元分詞表中存儲的分詞結(jié)果才是以計算機(jī)為第1個詞語,1946年為第2個詞語,誕生為第3個詞語。
再進(jìn)行第4個步驟對應(yīng)的分詞結(jié)果,即計算位于二元分詞表一端的詞語與位于所述二元分詞表另一端的詞語之間存在的所有路徑的第一距離;將所述第一距離最小值對應(yīng)的路徑中包含的詞語作為咨詢詞語。
例如,在二元分詞表一端的詞語為計算機(jī),另一端的詞語為誕生,第1個分詞結(jié)果對應(yīng)的路徑的第一距離為2,而第2個分詞結(jié)果對應(yīng)的路徑的第一距離為3,明顯地,第1個分詞結(jié)果對應(yīng)的第一距離小于第2分詞結(jié)果對應(yīng)的第一距離。因此將第1個分詞結(jié)果對應(yīng)的路徑中包含的計算機(jī)、1946年和誕生這三個詞語作為咨詢詞語。
實(shí)質(zhì)上,當(dāng)執(zhí)行到第4個步驟對應(yīng)的分詞結(jié)果時,就完成了對字符串的分詞過程,但是,如果進(jìn)一步需要明確咨詢詞語的詞性,則可以繼續(xù)執(zhí)行第5個步驟對應(yīng)的詞性標(biāo)注。通過執(zhí)行第5個步驟對應(yīng)的詞性標(biāo)注,可以對得到的咨詢詞語進(jìn)行詞性標(biāo)注,進(jìn)而明確各個咨詢詞語的詞性是動詞、形容詞還是名詞等。
S204、從每個所述咨詢詞語中分別提取關(guān)鍵詞,得到對應(yīng)于每個所述咨詢文檔的關(guān)鍵詞;
可選地,從每個所述咨詢詞語中分別提取關(guān)鍵詞可以通過信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)(term frequency–inverse document frequency,TF-IDF)實(shí)現(xiàn)。其中,“TF”表示詞頻,“IDF”表示逆文檔頻率。
通過TF-IDF從每個所述咨詢詞語中分別提取關(guān)鍵詞,包括:
S2041、分別統(tǒng)計每個咨詢詞語在所述咨詢文檔中出現(xiàn)的次數(shù);
S2042、對所述每個咨詢詞語在所述咨詢文檔中出現(xiàn)的次數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,得到所述每個咨詢詞語的詞頻;
統(tǒng)計咨詢文檔的詞頻,即某個咨詢詞語在此咨詢文檔中出現(xiàn)的次數(shù),標(biāo)準(zhǔn)化后得到詞頻,計算方法如下:
其中,n為咨詢詞語在咨詢文檔中出現(xiàn)的次數(shù),m為咨詢文檔包括的總咨詢詞語的個數(shù)。
S2043、分別統(tǒng)計一個語料庫中,包括所述每個咨詢詞語的文檔的個數(shù);
S2044、通過所述語料庫中所述文檔的總數(shù)以及所述文檔中包括所述每個咨詢詞語的所述文檔的個數(shù),分別計算所述每個咨詢詞語的逆文檔頻率;
在實(shí)際應(yīng)用中,一個咨詢文檔中詞頻最高的一般是“的”、“是”等干擾詞語,這時需要統(tǒng)計一個語料庫中包括的文檔中包括此咨詢詞語的文檔的個數(shù),并通過所述語料庫中所述文檔的總數(shù)以及所述文檔中包括所述每個咨詢詞語的所述文檔的個數(shù),分別計算所述每個咨詢詞語的逆文檔頻率。
逆文檔頻率的計算方法如下:
其中,y為一個語料庫中包括的文檔總數(shù),x為語料庫中包括此咨詢詞語的文檔個數(shù)。由上述逆文檔頻率的計算公式可以得知,x越大,即語料庫中包括此咨詢詞語的文檔個數(shù)越多,逆文檔頻率值就越低,說明這個咨詢詞語就越不重要。
分母為x+1是為了避免分母等于0,即當(dāng)一個語料庫中不存在包括此咨詢詞語的文檔時,不會出現(xiàn)除以0的情況,進(jìn)而避免逆文檔頻率不能得到具體數(shù)值的情況產(chǎn)生。
S2045、將所述每個咨詢詞語的詞頻與所述每個咨詢詞語的逆文檔頻率相乘,得到所述每個咨詢詞語的頻率計算結(jié)果;
S2046、選取所述頻率計算結(jié)果中大于預(yù)設(shè)閾值的頻率計算結(jié)果對應(yīng)的咨詢詞語為所述咨詢文檔的關(guān)鍵詞。
將每個咨詢詞語的詞頻與每個咨詢詞語的逆文檔頻率相乘,得到的乘積值較大,則說明此咨詢詞語是咨詢文檔的關(guān)鍵詞,否則不是咨詢文檔的關(guān)鍵詞。
例如,得到的一個咨詢文檔的咨詢詞語包括:大用戶、直購、的、電費(fèi)和構(gòu)成,通過TF-IDF算法得到的結(jié)果為如下表1:
從表1中可以得知,雖然“的”在咨詢文檔中出現(xiàn)次數(shù)很多,TF值很大,但是,它的TF-IDF值為0,因此,在提取咨詢文檔的關(guān)鍵詞時,“的”將會被過濾掉。
表1中,得到所述每個咨詢詞語的頻率計算結(jié)果為TF-IDF,若預(yù)設(shè)閾值為0.05,那么TF-IDF中大于預(yù)設(shè)閾值0.05對應(yīng)的咨詢詞語為大用戶、直購和電費(fèi),則此咨詢文檔的關(guān)鍵詞為大用戶、直購和電費(fèi)。
S205、依據(jù)所述關(guān)鍵詞,分別計算所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔與每個所述初始聚類的中心之間的相似度
可選地,通過余弦相似性計算咨詢文檔之間的相似度。
如表2所示:
通過余弦相似性計算咨詢文檔之間的相似度包括:
S2051、獲取需要計算相似度的兩個咨詢文檔中包括的所有關(guān)鍵詞;其中,兩個咨詢文檔中一個為作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔,另一個為除k個咨詢文檔之外的一個咨詢文檔;
以上述表2為例,若咨詢文檔1為作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔,,而咨詢文檔2和咨詢文檔3都是除k個咨詢文檔之外的其他咨詢文檔。當(dāng)前需要計算相似度的兩個咨詢文檔為咨詢文檔1和咨詢文檔2。獲取咨詢文檔1和咨詢文檔2中包括的關(guān)鍵詞,由于咨詢文檔1包括的關(guān)鍵詞為:大用戶、直購和電費(fèi),咨詢文檔2包括的關(guān)鍵詞為:大用戶、直購和申請。則獲取需要計算相似度的兩個咨詢文檔中包括的所有關(guān)鍵詞為四個,分別是大用戶、直購、電費(fèi)和申請。
S2052、分別計算所述所有關(guān)鍵詞在所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中出現(xiàn)的次數(shù);
所有關(guān)鍵詞為大用戶、直購、電費(fèi)和申請,在咨詢文檔1中出現(xiàn)的次數(shù)分別是:30、28、31和2。
S2053、依據(jù)所述所有關(guān)鍵詞在所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中出現(xiàn)的次數(shù),得到所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量;
咨詢文檔1中對應(yīng)的大用戶、直購、電費(fèi)和申請的詞頻向量為[30,28,31,2]。
S2054、分別計算所述所有關(guān)鍵詞在除k個咨詢文檔之外的一個咨詢文檔中出現(xiàn)的次數(shù);
所有關(guān)鍵詞為大用戶、直購、電費(fèi)和申請,在咨詢文檔2中出現(xiàn)的次數(shù)分別是:31、29、3和30。
S2055、依據(jù)所述所有關(guān)鍵詞在所述除k個咨詢文檔中的一個咨詢文檔中出現(xiàn)的次數(shù),得到所述除k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量;
咨詢文檔2中對應(yīng)的大用戶、直購、電費(fèi)和申請的詞頻向量為[31,29,3,30]。
S2056、利用余弦定理,計算所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量與所述除k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量之間的夾角余弦值;
其中,所述夾角余弦值表示所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔與所述除k個咨詢文檔之外的一個咨詢文檔之間的相似度。夾角余弦值的計算公式為:
其中,A和B表示需要計算相似度的兩個咨詢文檔分別對應(yīng)的關(guān)鍵詞的詞頻向量;Ai表示詞頻向量A中的元素;Bi表示詞頻向量B中的元素;n為向量的維度。
從上述夾角余弦值的計算公式中可以得知,余弦值越接近1,表示夾角越接近0度,即兩個咨詢文檔之間的相似度越高。
在表2中,利用余弦定理,計算得到的咨詢文檔1與咨詢文檔2之間的相似度得到的計算結(jié)果為0.8。咨詢文檔1與咨詢文檔3之間的相似度為0.1。顯然,咨詢文檔的關(guān)鍵詞有兩個重疊的咨詢文檔1和咨詢文檔2之間的相似度高。
S206、獲取所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔的所述相似度中,所述相似度最大值對應(yīng)的所述初始聚類的中心;
S207、將除所述k個咨詢文檔之外的其他每個咨詢文檔,分類到所述相似度最大值對應(yīng)的所述初始聚類的中心所在文檔類別中;
S208、提取所述文檔類別中每個咨詢文檔的關(guān)鍵詞,得到所述文檔類別對應(yīng)的咨詢熱點(diǎn);
S209、對所述咨詢熱點(diǎn)進(jìn)行分析。
本實(shí)施例的步驟S206-S209的操作過程分別與圖1所示實(shí)施例的步驟S104-S107的操作過程類似,在此不再贅述。
在上述實(shí)施例中,本申請通過從需要計算相似度的兩個咨詢文檔中提取所有關(guān)鍵詞,得到各個咨詢文檔中所有關(guān)鍵詞的詞頻向量,并依據(jù)詞頻向量,采用余弦定理計算兩個咨詢文檔之間的相似度。
由于一般咨詢文檔的詞頻向量都是稀疏的,即詞頻向量中只有較少個數(shù)的非零值,直接計算兩個詞頻向量之間的距離,會使得兩個詞頻向量中有大量的零值匹配,導(dǎo)致兩個實(shí)際上不相似的詞頻向量距離很小,進(jìn)而導(dǎo)致誤判斷兩個咨詢文檔之間的相似度較高?;诖?,采用余弦定理計算兩個詞頻向 量之間的相似度,可以避免詞頻向量中零值的干擾。提高了判斷兩個詞頻向量之間相似度的準(zhǔn)確性,而由于相似度是咨詢文檔分類的依據(jù),因此,進(jìn)而提高了咨詢文檔分類的準(zhǔn)確性。
如圖4所示,本發(fā)明實(shí)施例公開了一種咨詢熱點(diǎn)分析方法,本實(shí)施例的方法包括:
S301、獲取多個咨詢文檔;
S302、從所述多個咨詢文檔中提取k個咨詢文檔,將所述k個咨詢文檔分別作為k個文檔類別的初始聚類的中心;其中,k為正整數(shù);
S303、對每個所述咨詢文檔分別進(jìn)行分詞處理,獲得對應(yīng)于每個所述咨詢文檔的多個咨詢詞語;
S304、從每個所述咨詢詞語中分別提取關(guān)鍵詞,得到對應(yīng)于每個所述咨詢文檔的關(guān)鍵詞;
S305、依據(jù)所述關(guān)鍵詞,分別計算所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔與每個所述初始聚類的中心之間的相似度本實(shí)施例的步驟S301-S305的操作過程分別與圖2所示實(shí)施例的步驟S201和S205的操作過程類似,在此不再贅述。
S306、利用所述相似度分別計算所述除k個咨詢文檔之外的其他每個咨詢文檔到各個所述初始聚類的中心的第二距離;
S307、獲取所述第二距離最小值對應(yīng)的所述初始聚類的中心;其中,所述第二距離越小,所述相似度越大;
S308、將所述除k個咨詢文檔之外的其他每個咨詢文檔劃分到與所述第二距離最小值對應(yīng)的所述初始聚類的中心所在文檔類別中;
將選取的多個咨詢文檔中除k個咨詢文檔之外的其他所有咨詢文檔作為樣本,把每個樣本分類到與之距離最近的文檔類別中,即使得樣本與聚類的中心之間的距離最小,計算距離的公式為:
C(i):=arg minjcos(x(i),μj)
其中,C(i)為第i個樣本分配到的文檔類別,x(i)為第i個樣本,μj為第j個文檔類別的中心,其含義為將第i個樣本分配給與其夾角余弦值最小的中心對應(yīng)的文檔類別中。
S309、判斷除選取為初始聚類的中心外,其他每個咨詢文檔是否都已經(jīng)分別劃分到k個文檔類別中;
S3010、當(dāng)判斷結(jié)果為是時,重新計算k個文檔類別中每個文檔類別的中心,得到k個第一聚類的中心;
其中第j個文檔類別的中心的計算公式為:
其中,
m為樣本的總個數(shù)。
可以理解的是,當(dāng)判斷結(jié)果為否時,說明除選取為初始聚類的中心外的其他咨詢文檔中,有沒有劃分到k個初始聚類的中心的咨詢文檔。此時,返回執(zhí)行S308,即繼續(xù)執(zhí)行將沒有劃分到k個初始聚類的中心的咨詢文檔劃分到與所述第二距離中最小值對應(yīng)的所述初始聚類的中心對應(yīng)的文檔類別的步驟。
S3011、分別比較所述k個第一聚類的中心與k個初始聚類的中心是否相同;
若不同,則執(zhí)行S3012。
S3012、將所述k個第一聚類的中心作為k個文檔類別的新聚類中心;k個第一聚類的中心與k個初始聚類的中心不同,則說明將除k個咨詢文檔之外的其他每個咨詢文檔劃分到初始聚類的中心所在文檔類別后,k個文檔類別的聚類中心發(fā)生了變化,不再是k個初始聚類的中心。此時需要對所有的咨詢文檔重新聚類,即重新進(jìn)行劃分。
S3013、利用所述相似度分別計算所述多個咨詢文檔到各個所述新聚類中心的第三距離;
S3014、將所述多個咨詢文檔劃分到與所述第三距離最小值對應(yīng)的所述新聚類中心所在文檔類別中;
以新聚類中心,將所有咨詢文檔重新聚類。注意此時的新聚類中心可以不是一個咨詢文檔,其可以僅僅是一個關(guān)鍵詞或多個關(guān)鍵詞。
S3015、判斷所述多個咨詢文檔是否都已經(jīng)分別劃分到k個文檔類別中;
S3016、當(dāng)判斷結(jié)果為是時,重新計算k個文檔類別中每個文檔類別的中心,得到k個第二聚類的中心;
S3017、分別比較所述k個第二聚類的中心與上一次聚類的中心是否相同;
即比較第二聚類的中心與第一聚類的中心是否相同。
若不同,執(zhí)行S3018。
S3018、將所述k個第二聚類的中心作為k個文檔類別的新聚類中心;返回執(zhí)行S3013。
S3019、提取所述文檔類別中每個咨詢文檔的關(guān)鍵詞,得到所述文檔類別對應(yīng)的咨詢熱點(diǎn);
可以通過TF-IDF算法提取文檔類別中每個咨詢文檔的關(guān)鍵詞,得到所述文檔類別對應(yīng)的咨詢熱點(diǎn)。
在本實(shí)施例中,通過TF-IDF算法實(shí)現(xiàn)的是提取單一咨詢文檔的關(guān)鍵詞,而在S3012中實(shí)現(xiàn)的是對一整個文檔類別中的所有咨詢文檔提取關(guān)鍵詞,進(jìn)而得到一整個文檔類別所對應(yīng)的咨詢熱點(diǎn)。
例如,上述表2中,若將咨詢文檔1和咨詢文檔2被分類為一個文檔類別,通過TF-IDF算法提取文檔類別中每個咨詢文檔的關(guān)鍵詞,得到此文檔類別對應(yīng)的咨詢熱點(diǎn)為“大用戶直購”。
S3020、對所述咨詢熱點(diǎn)進(jìn)行分析。
本實(shí)施例中,通過從多個咨詢文檔中提取k個咨詢文檔,并將k個咨詢文檔分別作為k個文檔類別的初始聚類的中心,然后分別計算其他咨詢文檔與每個文檔類別之間的相似度,并將咨詢文檔分類到相似度最大值對應(yīng)的文檔類別中,進(jìn)而實(shí)現(xiàn)了將獲取到的多個咨詢文檔通過K-Means算法自動分類的過程,并對分類后的一類咨詢文檔進(jìn)行關(guān)鍵詞提取,進(jìn)而可以得到一類咨詢文檔的統(tǒng)計信息,得到咨詢文檔對應(yīng)的咨詢熱點(diǎn)問題。相較于現(xiàn)有技術(shù)需要人工完成對咨詢文檔的分類和統(tǒng)計后,才能獲取咨詢熱點(diǎn),并對咨詢熱點(diǎn)進(jìn)行分析的技術(shù)方案而言,提高了對咨詢文檔分類的效率。
且,本申請中對多個咨詢文檔自動分類、提取關(guān)鍵詞并得到一類文檔類別的咨詢熱點(diǎn)后,對咨詢熱點(diǎn)分析。基于此,對客服中心的話務(wù)員進(jìn)行培訓(xùn)后,使得話務(wù)員對客戶咨詢問題有了整體的把握,當(dāng)話務(wù)員接收到客戶的咨 詢內(nèi)容時,可以有方向性的將當(dāng)前客戶咨詢內(nèi)容人工劃分到一類文檔類別中,并從知識庫中查找關(guān)于此文檔類別熱點(diǎn)的解答和處理,進(jìn)而可以快速查找到關(guān)于當(dāng)前客戶咨詢內(nèi)容的標(biāo)準(zhǔn)化程度高的答案,不僅實(shí)現(xiàn)了快速解答客戶咨詢內(nèi)容的功能,同時,解決了現(xiàn)有技術(shù)中話務(wù)員對客戶咨詢內(nèi)容解答時解答方式缺乏單一性、答案主觀性強(qiáng)、標(biāo)準(zhǔn)化程度低的問題。
對應(yīng)圖1所示的一種咨詢熱點(diǎn)分析方法,本發(fā)明還提供了一種咨詢熱點(diǎn)分析裝置,其結(jié)構(gòu)示意圖請參閱圖5所示,本實(shí)施例提供的一種咨詢熱點(diǎn)分析裝置包括:第一獲取單元11、第一提取單元12、第一計算單元13、第二獲取單元14、第一分類單元15、第二提取單元16和分析單元17。
第一獲取單元11,用于獲取多個咨詢文檔;
第一提取單元12,用于從所述多個咨詢文檔中提取k個咨詢文檔,將所述k個咨詢文檔分別作為k個文檔類別的初始聚類的中心;其中,k為正整數(shù);
第一計算單元13,用于分別計算所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔與所述每個所述初始聚類的中心之間的相似度;
第二獲取單元14,用于獲取所述多個咨詢文檔中除k個咨詢文檔之外的其他每個咨詢文檔的所述相似度中,所述相似度最大值對應(yīng)的所述初始聚類的中心;第一分類單元15,用于將除所述k個咨詢文檔之外的其他每個咨詢文檔,分類到所述相似度最大值對應(yīng)的所述初始聚類的中心所在文檔類別中;
第二提取單元16,用于提取所述文檔類別中每個咨詢文檔的關(guān)鍵詞,得到所述文檔類別對應(yīng)的咨詢熱點(diǎn);
分析單元17,用于對所述咨詢熱點(diǎn)進(jìn)行分析。
本實(shí)施例公開了一種咨詢熱點(diǎn)分析裝置,通過第一獲取單元獲取多個咨詢文檔,第一提取單元從多個咨詢文檔中提取k個咨詢文檔,并將k個咨詢文檔分別作為k個文檔類別的初始聚類的中心,然后通過第一計算單元分別計算其他咨詢文檔與每個文檔類別之間的相似度,并通過第一分類單元將咨詢文檔分類到第二獲取單元獲取到的相似度最大值對應(yīng)的文檔類別中,進(jìn)而實(shí)現(xiàn)了將獲取到的多個咨詢文檔自動分類的目的,并通過第二提取單元對分類后的一類咨詢文檔進(jìn)行關(guān)鍵詞提取,進(jìn)而可以得到一類咨詢文檔的統(tǒng)計信 息,得到咨詢文檔對應(yīng)的咨詢熱點(diǎn)問題。相較于現(xiàn)有技術(shù)需要人工完成對咨詢文檔的分類和統(tǒng)計后,才能獲取咨詢熱點(diǎn),并對咨詢熱點(diǎn)進(jìn)行分析的技術(shù)方案而言,提高了對咨詢文檔分類的效率。
請參閱圖6,其示出了本申請實(shí)施例提供的一種咨詢熱點(diǎn)分析裝置的另一種結(jié)構(gòu)示意圖,在圖5的基礎(chǔ)上,還可以包括:分詞處理單元21和關(guān)鍵詞提取單元22。
分詞處理單元21,用于對每個所述咨詢文檔分別進(jìn)行分詞處理,獲得對應(yīng)于每個所述咨詢文檔的多個咨詢詞語。
其中,所述分詞處理單元21包括:原子切分單元31、最短路徑粗切分單元32、第二計算單元33和確定單元34。
原子切分單元31,用于對每個所述咨詢文檔中包括的原始字符串進(jìn)行原子切分,得到原子切分結(jié)果;
最短路徑粗切分單元32,用于對所述原子切分結(jié)果進(jìn)行N-最短路徑粗切分,得到N個分詞結(jié)果;
第二計算單元33,用于計算二元分詞表一端的詞語與位于二元分詞表另一端的詞語之間存在的所有路徑的第一距離;
確定單元34,用于從所述第一距離中確定所述第一距離最小值,將所述第一距離最小值對應(yīng)的路徑中包含的詞語作為咨詢詞語。關(guān)鍵詞提取單元22,用于從每個所述咨詢詞語中分別提取關(guān)鍵詞,得到對應(yīng)于每個所述咨詢文檔的關(guān)鍵詞。
其中,所述關(guān)鍵詞提取單元22包括:第一統(tǒng)計單元41、標(biāo)準(zhǔn)化單元42、第二統(tǒng)計單元43、逆文檔頻率計算單元44、頻率計算單元45和選取單元46。
第一統(tǒng)計單元41,用于分別統(tǒng)計每個咨詢詞語在所述咨詢文檔中出現(xiàn)的次數(shù);
標(biāo)準(zhǔn)化單元42,用于對所述每個咨詢詞語在所述咨詢文檔中出現(xiàn)的次數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,得到所述每個咨詢詞語的詞頻;
第二統(tǒng)計單元43,用于分別統(tǒng)計一個語料庫中,包括所述每個咨詢詞語的文檔的個數(shù);
逆文檔頻率計算單元44,用于通過所述語料庫中所述文檔的總數(shù)以及所述文檔中包括所述每個咨詢詞語的所述文檔的個數(shù),分別計算所述每個咨詢詞語的逆文檔頻率;
頻率計算單元45,用于將所述每個咨詢詞語的詞頻與所述每個咨詢詞語的逆文檔頻率相乘,得到所述每個咨詢詞語的頻率計算結(jié)果;
選取單元46,用于選取所述頻率計算結(jié)果中大于預(yù)設(shè)閾值的頻率計算結(jié)果對應(yīng)的咨詢詞語為所述咨詢文檔的關(guān)鍵詞。
可選地,在本實(shí)施例中,所述第一計算單元13包括:第三獲取單元51、第三計算單元52、詞頻向量單元53和夾角余弦值計算單元54。
第三獲取單元51,用于獲取需要計算相似度的兩個咨詢文檔中包括的所有關(guān)鍵詞;其中,兩個咨詢文檔中一個為作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔,另一個為除k個咨詢文檔之外的一個咨詢文檔;
第三計算單元52,用于分別計算所述所有關(guān)鍵詞在所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中出現(xiàn)的次數(shù);
詞頻向量單元53,用于依據(jù)所述所有關(guān)鍵詞在所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中出現(xiàn)的次數(shù),得到所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量;
夾角余弦值計算單元54,用于利用余弦定理,計算所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量與所述除k個咨詢文檔中的一個咨詢文檔中所述所有關(guān)鍵詞的詞頻向量之間的夾角余弦值;
其中,所述夾角余弦值表示所述作為初始聚類的中心的k個咨詢文檔中的一個咨詢文檔與所述除k個咨詢文檔之外的一個咨詢文檔之間的相似度。
可選地,在本實(shí)施例中,所述第二獲取單元14包括:第四計算單元61、第四獲取單元62;
所述第一分類單元15包括:第二分類單元63、判斷單元64、第五計算單元65、第一比較單元66、第六計算單元67、第三分類單元68、第二判斷單元69、第七計算單元70和第二比較單元71。
第四計算單元61,用于利用相似度分別計算所述除k個咨詢文檔之外的其他每個咨詢文檔到各個初始聚類的中心的第二距離;
第四獲取單元62,用于獲取所述第二距離最小值對應(yīng)的所述初始聚類的中心;
其中,所述第二距離越小,所述相似度越大。
第二分類單元63,用于將所述除k個咨詢文檔之外的其他每個咨詢文檔劃分到與所述第二距離最小值對應(yīng)的所述初始聚類的中心所在文檔類別中;
判斷單元64,用于判斷除選取為初始聚類的中心外,其他每個咨詢文檔是否都已經(jīng)劃分到k個文檔類別中;第五計算單元65,用于當(dāng)所述判斷單元的判斷結(jié)果為是時,重新計算k個文檔類別中每個文檔類別的中心,得到k個第一聚類的中心;第一比較單元66,用于分別比較所述k個第一聚類的中心與k個初始聚類的中心是否相同;
第六計算單元67,用于當(dāng)所述第一比較單元的比較結(jié)果為不同時,將所述k個第一聚類的中心作為k個文檔類別的新聚類中心,利用所述相似度分別計算所述多個咨詢文檔到各個所述新聚類中心的第三距離;
第三分類單元68,用于將所述多個咨詢文檔劃分到與所述第三距離最小值對應(yīng)的所述新聚類中心所在文檔類別中;
第二判斷單元69,用于判斷所述多個咨詢文檔是否都已經(jīng)分別劃分到k個文檔類別中;
第七計算單元70,用于當(dāng)所述第二判斷單元的判斷結(jié)果為是時,重新計算k個文檔類別中每個文檔類別的中心,得到k個第二聚類的中心;
第二比較單元71,用于分別比較所述k個第二聚類的中心與上一次聚類的中心是否相同;
所述第六計算單元67,還用于當(dāng)所述第二比較單元的比較結(jié)果為不同時,將所述k個第二聚類的中心作為k個文檔類別的新聚類中心;利用所述相似度分別計算所述多個咨詢文檔到各個所述新聚類中心的第三距離。
本實(shí)施例公開了一種咨詢熱點(diǎn)分析裝置,通過第一獲取單元獲取多個咨詢文檔,第一提取單元從多個咨詢文檔中提取k個咨詢文檔,并將k個咨詢文檔分別作為k個文檔類別的初始聚類的中心,然后通過第一計算單元分別計算其他咨詢文檔與每個文檔類別之間的相似度,并通過第一分類單元將咨詢文檔分類到第二獲取單元獲取到的相似度最大值對應(yīng)的文檔類別中,進(jìn)而實(shí)現(xiàn)了將獲取到的多個咨詢文檔自動分類的目的,并通過第二提取單元對分類后的一類咨詢文檔進(jìn)行關(guān)鍵詞提取,進(jìn)而可以得到一類咨詢文檔的統(tǒng)計信息,得到咨詢文檔對應(yīng)的咨詢熱點(diǎn)問題。相較于現(xiàn)有技術(shù)需要人工完成對咨詢文檔的分類和統(tǒng)計后,才能獲取咨詢熱點(diǎn),并對咨詢熱點(diǎn)進(jìn)行分析的技術(shù)方案而言,提高了對咨詢文檔分類的效率。
且,本申請中對多個咨詢文檔自動分類、提取關(guān)鍵詞并得到一類文檔類別的咨詢熱點(diǎn)后,對咨詢熱點(diǎn)分析?;诖?,對客服中心的話務(wù)員進(jìn)行培訓(xùn)后,使得話務(wù)員對客戶咨詢問題有了整體的把握,當(dāng)話務(wù)員接收到客戶的咨詢內(nèi)容時,可以有方向性的將當(dāng)前客戶咨詢內(nèi)容人工劃分到一類文檔類別中,并從知識庫中查找關(guān)于此文檔類別熱點(diǎn)的解答和處理,進(jìn)而可以快速查找到關(guān)于當(dāng)前客戶咨詢內(nèi)容的標(biāo)準(zhǔn)化程度高的答案,不僅實(shí)現(xiàn)了快速解答客戶咨詢內(nèi)容的功能,同時,解決了現(xiàn)有技術(shù)中話務(wù)員對客戶咨詢內(nèi)容解答時解答方式缺乏單一性、答案主觀性強(qiáng)、標(biāo)準(zhǔn)化程度低的問題。
需要說明的是,本說明書中的各個實(shí)施例均采用遞進(jìn)的方式描述,每個實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個實(shí)施例之間相同相似的部分互相參見即可。對于實(shí)施例提供的裝置而言,由于其與實(shí)施例提供的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……” 限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當(dāng)然,在實(shí)施本申請時可以把各單元的功能在同一個或多個軟件和/或硬件中實(shí)現(xiàn)。
通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn)?;谶@樣的理解,本申請的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實(shí)施例或者實(shí)施例的某些部分所述的方法。
以上對本申請所提供的一種數(shù)據(jù)共享方法、系統(tǒng)及移動終端進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本申請的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在具體實(shí)施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請的限制。