亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于數(shù)據(jù)驅(qū)動預(yù)測用戶問題的方法及裝置與流程

文檔序號:11708155閱讀:382來源:國知局
一種基于數(shù)據(jù)驅(qū)動預(yù)測用戶問題的方法及裝置與流程

本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種基于數(shù)據(jù)驅(qū)動預(yù)測用戶問題的方法及裝置。



背景技術(shù):

用戶在使用產(chǎn)品或者服務(wù)的時候經(jīng)常會遇到自己無法處理的問題,進(jìn)而會尋求客服幫助。通??头藛T需要和用戶經(jīng)過多輪對話才能確定用戶遇到的是什么問題,這樣需要投入大量的人力成本。如果能夠提前對用戶可能遇到的問題做出預(yù)測,則可以智能推送相關(guān)答案或幫助客服人員更有效的定位用戶問題。

提前對用戶可能遇到的問題做出預(yù)測是一個典型的多分類問題,通常由特征選擇和模型建模兩個部分組成。在已有的方法中,特征選擇端提取特征時,通常由人為設(shè)定一些規(guī)則,這些規(guī)則從經(jīng)驗上被認(rèn)為與用戶可能提問的問題相關(guān),如該用戶是否開通了某種服務(wù)、在過去幾天內(nèi)是否有過消費記錄等。通過與這些規(guī)則的匹配可以得到描述該用戶提問前狀態(tài)的特征。而后采用邏輯回歸的技術(shù)對這些特征進(jìn)行建模,得到分類器并用于進(jìn)行新特征的預(yù)測。

在現(xiàn)有技術(shù)中,由人為設(shè)定一些經(jīng)驗上被認(rèn)為與用戶可能遇到問題相關(guān)的規(guī)則,通過與這些規(guī)則的匹配得到描述該用戶提問前狀態(tài)的特征。這存在兩個問題:1.并非數(shù)據(jù)驅(qū)動,而是需要強(qiáng)烈的人為干預(yù),并要求干預(yù)者充分了解和熟悉相應(yīng)產(chǎn)品或業(yè)務(wù),在產(chǎn)品變動頻繁或業(yè)務(wù)覆蓋范圍擴(kuò)展時會引入許多不便,可擴(kuò)展性不強(qiáng)。2.未能考慮到用戶在尋求客服人員幫助前短時間內(nèi)的行為與該用戶問題之間的關(guān)系,通常用戶在尋求客服人員幫助前短時間內(nèi)(例如2小時內(nèi))會有一系列的行為,這些行為包括但不限于手機(jī)、平板客戶端點擊、pc網(wǎng)頁瀏覽以及其它由該用戶進(jìn)行的操作, 這其中包含了用戶在提問前的行為軌跡信息,理論上這些行為軌跡與用戶后續(xù)求助存在強(qiáng)烈關(guān)聯(lián)。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的是提供一種基于數(shù)據(jù)驅(qū)動預(yù)測用戶問題的方法及裝置,用于在已知一些用戶信息和操作的情況下,在用戶未描述問題前盡可能準(zhǔn)確的預(yù)測用戶遇到的問題,能夠避免現(xiàn)有技術(shù)人為干預(yù)的影響,提高了分類預(yù)測的準(zhǔn)確性。

為了實現(xiàn)上述目的,本發(fā)明技術(shù)方案如下:

一種基于數(shù)據(jù)驅(qū)動預(yù)測用戶問題的方法,所述預(yù)測用戶問題的方法包括:

當(dāng)收到用戶提出的問題時,采集用戶行為數(shù)據(jù)并進(jìn)行預(yù)處理;

從預(yù)處理后的用戶行為數(shù)據(jù)中截取對用戶提出的問題有貢獻(xiàn)的待選行為數(shù)據(jù);

通過設(shè)定的目標(biāo)行為數(shù)據(jù)集合對待選行為數(shù)據(jù)進(jìn)行篩選,從待選行為數(shù)據(jù)中篩選出目標(biāo)行為數(shù)據(jù)集合包含的待選行為數(shù)據(jù),將篩選出的待選行為數(shù)據(jù)輸入訓(xùn)練好的分類器模型,預(yù)測出用戶提出的問題所屬的類別。

進(jìn)一步地,所述訓(xùn)練好的分類器模型,訓(xùn)練過程包括如下步驟:

采集用戶反饋的問題及其對應(yīng)的行為數(shù)據(jù),對采集的用戶行為數(shù)據(jù)進(jìn)行預(yù)處理;

從預(yù)處理后的用戶行為數(shù)據(jù)中截取對用戶反饋的問題有貢獻(xiàn)的行為數(shù)據(jù)作為待選行為數(shù)據(jù);

根據(jù)所有用戶反饋的問題及其對應(yīng)的待選行為數(shù)據(jù),采用數(shù)據(jù)驅(qū)動的方法對每一個用戶反饋的問題對應(yīng)的待選行為數(shù)據(jù)進(jìn)行打分,并篩選出符合設(shè)定條件的目標(biāo)行為數(shù)據(jù),對所有用戶反饋的問題對應(yīng)的目標(biāo)行為數(shù)據(jù)取并集構(gòu)成篩選出的目標(biāo)行為數(shù)據(jù)集合;

根據(jù)每一個用戶反饋的問題及目標(biāo)行為數(shù)據(jù)集合,訓(xùn)練得到分類器模型。

進(jìn)一步地,所述預(yù)處理包括:

去除頻次低于設(shè)定的頻次閾值的干擾行為數(shù)據(jù)。

所述預(yù)處理還包括:

對用戶行為數(shù)據(jù)進(jìn)行數(shù)字化標(biāo)識。對行為數(shù)據(jù)進(jìn)行數(shù)字化標(biāo)識,是為了便于后續(xù)步驟中直接以該數(shù)字化標(biāo)識來進(jìn)行處理,從而不需要根據(jù)行為數(shù)據(jù)的具體數(shù)據(jù)例如網(wǎng)址或api名等長字符串?dāng)?shù)據(jù)進(jìn)行處理,處理起來更加簡單。

進(jìn)一步地,本發(fā)明從預(yù)處理后的用戶行為數(shù)據(jù)中截取對用戶提出的問題有貢獻(xiàn)的待選行為數(shù)據(jù)采用加窗截斷的方法,所述加窗截斷包括:

截取在發(fā)生問題前最近一段時間內(nèi)的用戶行為數(shù)據(jù)。

進(jìn)一步地,所述對所有用戶反饋的問題對應(yīng)的目標(biāo)行為數(shù)據(jù)取并集構(gòu)成篩選出的目標(biāo)行為數(shù)據(jù)集合之后,還包括:

重新對目標(biāo)行為數(shù)據(jù)集合中的目標(biāo)行為數(shù)據(jù)進(jìn)行數(shù)字化標(biāo)識。

進(jìn)一步地,所述訓(xùn)練得到分類器模型之前,還包括步驟:

對目標(biāo)行為數(shù)據(jù)集合中的目標(biāo)行為數(shù)據(jù)進(jìn)行矢量化處理。

進(jìn)一步地,所述將篩選出的待選行為數(shù)據(jù)輸入訓(xùn)練好的分類器模型之前,還包括:

對待選行為數(shù)據(jù)進(jìn)行矢量化處理。矢量化后的用戶行為數(shù)據(jù)可直接訓(xùn)練分類器模型和用于實際預(yù)測,計算更加簡便。

本發(fā)明還提出了一種基于數(shù)據(jù)驅(qū)動預(yù)測用戶問題的裝置,所述預(yù)測用戶問題的裝置包括:

預(yù)處理模塊,用于當(dāng)收到用戶提出的問題時,采集用戶行為數(shù)據(jù)并進(jìn)行預(yù)處理;

截取模塊,用于從預(yù)處理后的用戶行為數(shù)據(jù)中截取對用戶提出的問題有貢獻(xiàn)的待選行為數(shù)據(jù);

預(yù)測模塊,用于通過設(shè)定的目標(biāo)行為數(shù)據(jù)集合對待選行為數(shù)據(jù)進(jìn)行篩選,從待選行為數(shù)據(jù)中篩選出目標(biāo)行為數(shù)據(jù)集合包含的待選行為數(shù)據(jù),將篩選出的待選行為數(shù)據(jù)輸入訓(xùn)練好的分類器模型,預(yù)測出用戶提出的問題所屬的類別。

進(jìn)一步地,所述裝置還包括模型訓(xùn)練模塊,用于訓(xùn)練分類器模型,所 述模型訓(xùn)練模型在訓(xùn)練分類器模型時,執(zhí)行如下操作:

采集用戶反饋的問題及其對應(yīng)的行為數(shù)據(jù),對采集的用戶行為數(shù)據(jù)進(jìn)行預(yù)處理;

從預(yù)處理后的用戶行為數(shù)據(jù)中截取對用戶反饋的問題有貢獻(xiàn)的行為數(shù)據(jù)作為待選行為數(shù)據(jù);

根據(jù)所有用戶反饋的問題及其對應(yīng)的待選行為數(shù)據(jù),采用數(shù)據(jù)驅(qū)動的方法對每一個用戶反饋的問題對應(yīng)的待選行為數(shù)據(jù)進(jìn)行打分,并篩選出符合設(shè)定條件的目標(biāo)行為數(shù)據(jù),對所有用戶反饋的問題對應(yīng)的目標(biāo)行為數(shù)據(jù)取并集構(gòu)成篩選出的目標(biāo)行為數(shù)據(jù)集合;

根據(jù)每一個用戶反饋的問題及目標(biāo)行為數(shù)據(jù)集合,訓(xùn)練得到分類器模型。

本發(fā)明所述預(yù)處理模塊在對采集的用戶行為數(shù)據(jù)進(jìn)行預(yù)處理時,執(zhí)行如下步驟:

去除頻次低于設(shè)定的頻次閾值的干擾行為數(shù)據(jù)。

所述預(yù)處理模塊還用于對用戶行為數(shù)據(jù)進(jìn)行數(shù)字化標(biāo)識。

進(jìn)一步地,所述截取模塊在從預(yù)處理后的用戶行為數(shù)據(jù)中截取對用戶提出的問題有貢獻(xiàn)的待選行為數(shù)據(jù)時,采用加窗截斷的方法,所述加窗截斷包括:

截取在發(fā)生問題前最近一段時間內(nèi)的用戶行為數(shù)據(jù)。

進(jìn)一步地,所述模型訓(xùn)練模塊對所有用戶反饋的問題對應(yīng)的目標(biāo)行為數(shù)據(jù)取并集構(gòu)成篩選出的目標(biāo)行為數(shù)據(jù)集合之后,還用于重新對目標(biāo)行為數(shù)據(jù)集合中的目標(biāo)行為數(shù)據(jù)進(jìn)行數(shù)字化標(biāo)識。

進(jìn)一步地,所述模型訓(xùn)練模塊在訓(xùn)練得到分類器模型之前,還用于對目標(biāo)行為數(shù)據(jù)集合中的目標(biāo)行為數(shù)據(jù)進(jìn)行矢量化處理。

進(jìn)一步地,所述預(yù)測模塊在將篩選出的待選行為數(shù)據(jù)輸入訓(xùn)練好的分類器模型之前,還用于對待選行為數(shù)據(jù)進(jìn)行矢量化處理。

本發(fā)明提出的一種基于數(shù)據(jù)驅(qū)動預(yù)測用戶問題的方法及裝置,利用用戶短時間內(nèi)的行為軌跡信息進(jìn)行用戶問題的分類預(yù)測以提升分類準(zhǔn)確率,顯著提升未包含這些信息的模型預(yù)測效果。

附圖說明

圖1為本發(fā)明訓(xùn)練分類器模型的流程圖;

圖2為本發(fā)明基于數(shù)據(jù)驅(qū)動預(yù)測用戶問題的方法流程圖;

圖3為本發(fā)明基于數(shù)據(jù)驅(qū)動預(yù)測用戶問題的裝置結(jié)構(gòu)示意圖。

具體實施方式

下面結(jié)合附圖和實施例對本發(fā)明技術(shù)方案做進(jìn)一步詳細(xì)說明,以下實施例不構(gòu)成對本發(fā)明的限定。

本發(fā)明的總體思想是采用訓(xùn)練數(shù)據(jù)訓(xùn)練出分類器模型,根據(jù)訓(xùn)練的分類器模型對用戶行為數(shù)據(jù)進(jìn)行分析,來預(yù)測用戶遇到的問題。

如圖1所示,本實施例采用訓(xùn)練數(shù)據(jù)訓(xùn)練出分類器模型的過程如下:

f1、采集用戶反饋的問題及其對應(yīng)的行為數(shù)據(jù),對采集的用戶行為數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理包括去除干擾行為數(shù)據(jù),以及對行為數(shù)據(jù)進(jìn)行數(shù)字化標(biāo)識。

對于任何用戶反饋的問題,都采集該用戶的行為數(shù)據(jù),從而得到大量的行為數(shù)據(jù)。行為數(shù)據(jù)是一些用戶操作,包括手機(jī)、平板客戶端點擊、pc網(wǎng)頁瀏覽以及其它由該用戶進(jìn)行的操作,這些操作以網(wǎng)址或api名表示,其前冠以unix時間戳。例如一個用戶x在過去一段時間的行為可以表示為:

1438661879:alipay.mappprod.shop.querypage

1438661885:alipay.client.mobileapp.checkresult

1438661889:alipay.commerce.category.querybycategoryid

1438661899:alipay.siteprobe.sync.querywifis

1438661909:alipay.charity.mobile.donate.deduct.unsign

…..

…..

1438661999:https://couriercore.alipay.com/errorrepeatsubmit.htm

1438662999:https://cshall.alipay.com/lab/question.htm

為了更加準(zhǔn)確和便于后續(xù)的處理,本實施例預(yù)處理包括去除干擾行為數(shù)據(jù),以及對行為數(shù)據(jù)進(jìn)行數(shù)字化標(biāo)識。

其中去除干擾行為數(shù)據(jù),是指出現(xiàn)的頻次極低的行為數(shù)據(jù),例如低于設(shè)定的頻次閾值。這些出現(xiàn)頻次極低的行為數(shù)據(jù)造成用戶反饋的問題的可能比較低,本實施例不予考慮,從而排除出現(xiàn)頻次極低的行為數(shù)據(jù)帶來的干擾。

其中對行為數(shù)據(jù)進(jìn)行數(shù)字化標(biāo)識,是為了便于后續(xù)步驟中直接以該數(shù)字化標(biāo)識來進(jìn)行處理,從而不需要根據(jù)行為數(shù)據(jù)的具體數(shù)據(jù)例如網(wǎng)址或api名等長字符串?dāng)?shù)據(jù)進(jìn)行處理,處理起來更加簡單。

對行為數(shù)據(jù)進(jìn)行數(shù)字化標(biāo)識,可以將以上行為數(shù)據(jù)的網(wǎng)址或api按照事先準(zhǔn)備好的映射表進(jìn)行數(shù)字化標(biāo)識;或通過對行為數(shù)據(jù)出現(xiàn)的頻次進(jìn)行統(tǒng)計,按照頻次數(shù)量的大小進(jìn)行排序編號,以該編號作為行為數(shù)據(jù)的數(shù)字化標(biāo)識;或者根據(jù)行為數(shù)據(jù)的具體內(nèi)容通過hash計算得到其對應(yīng)的數(shù)字化標(biāo)識。數(shù)字化標(biāo)識后的行為數(shù)據(jù)變?yōu)椋?/p>

1438661879:2

1438661885:65

1438661889:11

1438661899:6

1438661909:18

…..

…..

1438661999:108

1438662999:111

在后續(xù)步驟中直接以該數(shù)字化標(biāo)識來進(jìn)行篩選和處理。

f2、從預(yù)處理后的用戶行為數(shù)據(jù)中截取對用戶提出的問題有貢獻(xiàn)的待選行為數(shù)據(jù)。

對于大量的用戶行為數(shù)據(jù),真正對用戶反饋的問題帶來影響的往往是用戶在發(fā)生問題前最近一段時間內(nèi)的行為數(shù)據(jù)。即對用戶反饋的問題有貢獻(xiàn)的行為數(shù)據(jù)是用戶最近時間的行為數(shù)據(jù),歷史行為數(shù)據(jù)可以忽略其影響。 因此本實施例需要截取用戶行為數(shù)據(jù),選擇用戶最近時間的行為數(shù)據(jù)作為待選行為數(shù)據(jù)。

具體地,通過加窗來進(jìn)行截取,可以選擇固定窗長或可變窗長。固定窗長例如30-120個行為數(shù)據(jù),即從當(dāng)前行為數(shù)據(jù)往前選取30-120個行為數(shù)據(jù);可變窗長是從當(dāng)前行為數(shù)據(jù)往前選取一定時長的行為數(shù)據(jù),例如當(dāng)前時間往前0.5小時-2小時內(nèi)的行為數(shù)據(jù)。

例如,對于上述行為數(shù)據(jù),加窗截斷時從最后一個行為數(shù)據(jù),即1438662999:111往前回溯,長度固定窗長(30-120個數(shù)據(jù))或可變窗長(0.5小時-2小時,通過unix時間戳確定)。假設(shè)通過加窗截斷后數(shù)據(jù)變?yōu)椋?/p>

1438661885:65

1438661889:11

1438661899:6

1438661909:18

…..

…..

1438661999:108

1438662999:111

從而得到對用戶反饋的問題有貢獻(xiàn)的待選行為數(shù)據(jù),遍歷每一個用戶反饋的問題對應(yīng)的行為數(shù)據(jù),得到每一個用戶反饋的問題對應(yīng)的待選行為數(shù)據(jù)。

f3、根據(jù)所有用戶反饋的問題及其對應(yīng)的待選行為數(shù)據(jù),采用數(shù)據(jù)驅(qū)動的方法對每一個用戶反饋的問題對應(yīng)的待選行為數(shù)據(jù)進(jìn)行打分,并篩選出符合設(shè)定條件的目標(biāo)行為數(shù)據(jù),對所有用戶反饋的問題對應(yīng)的目標(biāo)行為數(shù)據(jù)取并集構(gòu)成篩選出的目標(biāo)行為數(shù)據(jù)集合。

本實施例將所有用戶反饋的問題作為文件集,每一個用戶反饋的問題作為一個文件。本實施例數(shù)據(jù)驅(qū)動的方法為tf-idf方法,tf-idf方法是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出 現(xiàn)的頻率成反比下降。對于本實施例來說,字詞相當(dāng)于待選行為數(shù)據(jù),所有用戶反饋的問題作為文件集,每一個用戶反饋的問題作為一個文件,通過tf-idf對每一個用戶反饋的問題對應(yīng)的待選行為數(shù)據(jù)進(jìn)行打分。

tf-idf的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率tf高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。tfidf實際上是:tfxidf,tf詞頻(termfrequency),idf逆文檔頻率(inversedocumentfrequency)。tf表示詞條,在文檔d中出現(xiàn)的頻率。idf的主要思想是:如果包含詞條t的文檔越少,也就是n越小,idf越大,則說明詞條t具有很好的類別區(qū)分能力。如果某一類c.中包含詞條t的文檔數(shù)為m,而其它類包含t的文檔總數(shù)為k,顯然所有包含t的文檔數(shù)n=m+k,當(dāng)m大的時候,n也大,按照idf公式得到的idf的值會小,就說明該詞條t類別區(qū)分能力不強(qiáng)。

詳細(xì)算法如下:

第一步,計算詞頻。

第二步,計算逆文檔頻率。

第三步,計算tf-idf。

tf-idf=詞頻(tf)×逆文檔頻率(idf)

用戶行為數(shù)據(jù)從某種程度上可以看作是字詞,字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度,將tf-idf技術(shù)借鑒過來,應(yīng)用于行為數(shù)據(jù)的篩選,篩選出適合用來分類的行為數(shù)據(jù),將這些篩選出的行為數(shù)據(jù)稱為目標(biāo)行為數(shù)據(jù),

本實施例通過對每一個用戶反饋的問題取打分最高的前n(50-200)個或高于一定閾值的行為數(shù)據(jù),作為目標(biāo)行為數(shù)據(jù)。并對所有用戶反饋的問題對應(yīng)的目標(biāo)行為數(shù)據(jù)取并集構(gòu)成篩選出的目標(biāo)行為數(shù)據(jù)集合,該集合包含的行為數(shù)據(jù)數(shù)量遠(yuǎn)小于所有訓(xùn)練數(shù)據(jù)中的行為數(shù)據(jù)數(shù)量。

例如問題a對應(yīng)的行為數(shù)據(jù)為(以數(shù)字化標(biāo)識來表示):

61819779869………………….

………………………………8818987

對所有的數(shù)字化標(biāo)識進(jìn)行tf-idf打分,并從高到低取對問題a最重要的topn(如50),可以得到對問題a最重要的行為數(shù)據(jù):

a:1118……..108…….

取所有問題對應(yīng)的數(shù)字化標(biāo)識集合的并集即構(gòu)成了目標(biāo)行為數(shù)據(jù)集合,可見當(dāng)上述用戶反饋的問題經(jīng)過識別為已知的問題時,上述目標(biāo)行為數(shù)據(jù)集合包含了所有已知問題的目標(biāo)行為數(shù)據(jù)。

進(jìn)一步地,還對目標(biāo)行為數(shù)據(jù)集合中的目標(biāo)行為數(shù)據(jù)進(jìn)行重新數(shù)字化標(biāo)識,使得該集合更加簡單,便于進(jìn)行后續(xù)處理。

f4、根據(jù)每一個用戶反饋的問題及目標(biāo)行為數(shù)據(jù)集合,訓(xùn)練得到分類器模型。

利用已知問題及其對應(yīng)的目標(biāo)行為數(shù)據(jù)訓(xùn)練出分類器模型,通過該分類器模型,從而當(dāng)有用戶反饋了一個問題時,能夠通過對用戶的行為數(shù)據(jù)進(jìn)行分析,預(yù)測出該問題可能是哪一個已知的問題,從而便于客服回答用戶的問題,并給出解決辦法。

分類器模型包括但不限于邏輯回歸模型、深度神經(jīng)網(wǎng)絡(luò)模型、支持向量機(jī)模型、遞歸神經(jīng)網(wǎng)絡(luò)模型等。鑒于現(xiàn)有技術(shù)根據(jù)訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練得到模型的方法比較多,這里不再贅述。

如圖2所示,本實施例一種基于數(shù)據(jù)驅(qū)動預(yù)測用戶問題的方法,包括:

步驟s1、當(dāng)收到用戶提出的問題時,采集用戶行為數(shù)據(jù)并進(jìn)行預(yù)處理。

步驟s2、從預(yù)處理后的用戶行為數(shù)據(jù)中截取對用戶反饋的問題有貢獻(xiàn)的行為數(shù)據(jù)作為待選行為數(shù)據(jù)。

客服接收到用戶提出的問題后,則可以抓取用戶行為數(shù)據(jù)進(jìn)行預(yù)處理,關(guān)于預(yù)處理的具體辦法以及如何進(jìn)行加窗截斷,在上文訓(xùn)練分類器模型時已經(jīng)描述,這里不再贅述。

步驟s3、通過設(shè)定的目標(biāo)行為數(shù)據(jù)集合對待選行為數(shù)據(jù)進(jìn)行篩選,從待選行為數(shù)據(jù)中篩選出目標(biāo)行為數(shù)據(jù)集合包含的待選行為數(shù)據(jù),將篩選 出的待選行為數(shù)據(jù)輸入訓(xùn)練好的分類器模型,預(yù)測出用戶提出的問題所屬的類別。

例如,用戶x的行為數(shù)據(jù)通過目標(biāo)行為數(shù)據(jù)集合的篩選后即變?yōu)椋?/p>

1438661889:11

1438661909:18

…..

…..

1438661999:108

假設(shè)目標(biāo)行為數(shù)據(jù)集合中不包括1438661885:65,1438661899:6,1438662999:111,則該三條數(shù)據(jù)會被去掉,因為其不包含在目標(biāo)行為數(shù)據(jù)集合中。

由于前面已經(jīng)通過篩選得到了目標(biāo)行為數(shù)據(jù)集合,并訓(xùn)練得到了分類器模型。因此在有用戶向客服提交問題時,客服就能夠?qū)⒂脩舻拇x行為數(shù)據(jù)提交給訓(xùn)練好的分類器模型,分類器模型計算出用戶提出的問題具體是哪一類的問題,輸出對應(yīng)于不同問題的概率,選擇概率最高的問題作為用戶提出的問題所屬的類別。

進(jìn)一步地,為了便于訓(xùn)練分類器模型,以及后續(xù)的預(yù)測,本實施例一種基于數(shù)據(jù)驅(qū)動預(yù)測用戶問題的方法,還分別對目標(biāo)行為數(shù)據(jù)集合中的目標(biāo)行為數(shù)據(jù)進(jìn)行矢量化處理,以及對待選行為數(shù)據(jù)進(jìn)行矢量化處理。進(jìn)行矢量化處理

矢量化處理分為二值化和數(shù)量化,二值化指出現(xiàn)則在對應(yīng)矢量位置置1,不出現(xiàn)置0;數(shù)量化指在對應(yīng)矢量位置該行為出現(xiàn)的次數(shù)。矢量化后的用戶行為數(shù)據(jù)可直接訓(xùn)練分類器模型和用于實際預(yù)測,也可以和原有特征結(jié)合訓(xùn)練分類器模型和用于實際預(yù)測。

如圖3所示,與上述方法對應(yīng)地,本發(fā)明還提出了一種基于數(shù)據(jù)驅(qū)動預(yù)測用戶問題的裝置,該裝置包括:

預(yù)處理模塊,用于當(dāng)收到用戶提出的問題時,采集用戶行為數(shù)據(jù)并進(jìn)行預(yù)處理;

截取模塊,用于從預(yù)處理后的用戶行為數(shù)據(jù)中截取對用戶提出的問題 有貢獻(xiàn)的待選行為數(shù)據(jù);

預(yù)測模塊,用于通過設(shè)定的目標(biāo)行為數(shù)據(jù)集合對待選行為數(shù)據(jù)進(jìn)行篩選,從待選行為數(shù)據(jù)中篩選出目標(biāo)行為數(shù)據(jù)集合包含的待選行為數(shù)據(jù),將篩選出的待選行為數(shù)據(jù)輸入訓(xùn)練好的分類器模型,預(yù)測出用戶提出的問題所屬的類別。

本實施例預(yù)測用戶問題的裝置還包括模型訓(xùn)練模塊,用于訓(xùn)練分類器模型,模型訓(xùn)練模型在訓(xùn)練分類器模型時,執(zhí)行如下操作:

采集用戶反饋的問題及其對應(yīng)的行為數(shù)據(jù),對采集的用戶行為數(shù)據(jù)進(jìn)行預(yù)處理;

從預(yù)處理后的用戶行為數(shù)據(jù)中截取對用戶反饋的問題有貢獻(xiàn)的行為數(shù)據(jù)作為待選行為數(shù)據(jù);

根據(jù)所有用戶反饋的問題及其對應(yīng)的待選行為數(shù)據(jù),采用數(shù)據(jù)驅(qū)動的方法對每一個用戶反饋的問題對應(yīng)的待選行為數(shù)據(jù)進(jìn)行打分,并篩選出符合設(shè)定條件的目標(biāo)行為數(shù)據(jù),對所有用戶反饋的問題對應(yīng)的目標(biāo)行為數(shù)據(jù)取并集構(gòu)成篩選出的目標(biāo)行為數(shù)據(jù)集合;

根據(jù)每一個用戶反饋的問題及目標(biāo)行為數(shù)據(jù)集合,訓(xùn)練得到分類器模型。

本實施例預(yù)處理模塊在對采集的用戶行為數(shù)據(jù)進(jìn)行預(yù)處理時,執(zhí)行如下步驟:

去除頻次低于設(shè)定的頻次閾值的干擾行為數(shù)據(jù)。

進(jìn)一步地,預(yù)處理模塊還用于對用戶行為數(shù)據(jù)進(jìn)行數(shù)字化標(biāo)識。

本實施例截取模塊在從預(yù)處理后的用戶行為數(shù)據(jù)中截取對用戶提出的問題有貢獻(xiàn)的待選行為數(shù)據(jù)時,采用加窗截斷的方法,所述加窗截斷包括:

截取在發(fā)生問題前最近一段時間內(nèi)的用戶行為數(shù)據(jù)。

與上述方法對應(yīng)地,本實施例模型訓(xùn)練模塊對所有用戶反饋的問題對應(yīng)的目標(biāo)行為數(shù)據(jù)取并集構(gòu)成篩選出的目標(biāo)行為數(shù)據(jù)集合之后,還用于重新對目標(biāo)行為數(shù)據(jù)集合中的目標(biāo)行為數(shù)據(jù)進(jìn)行數(shù)字化標(biāo)識。

本實施例模型訓(xùn)練模塊在訓(xùn)練得到分類器模型之前,還用于對目標(biāo)行 為數(shù)據(jù)集合中的目標(biāo)行為數(shù)據(jù)進(jìn)行矢量化處理。

與上述方法對應(yīng)地,本實施例預(yù)測模塊在將篩選出的待選行為數(shù)據(jù)輸入訓(xùn)練好的分類器模型之前,還用于對待選行為數(shù)據(jù)進(jìn)行矢量化處理。

以上實施例僅用以說明本發(fā)明的技術(shù)方案而非對其進(jìn)行限制,在不背離本發(fā)明精神及其實質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1