裝置可以設(shè)置在服務(wù)器上,可用于實(shí)現(xiàn)本發(fā)明上述各方法實(shí)施例。如圖4所示,該實(shí)施例的裝置包括獲取單元401、過濾單元402和第一匹配單元403,其中:
[0067]獲取單元401,可以用于獲取通信運(yùn)營(yíng)商發(fā)送給用戶的文本信息;
[0068]過濾單元402,可以用于通過預(yù)設(shè)過濾規(guī)則對(duì)文本信息的內(nèi)容進(jìn)行過濾,以得到過濾后的文本信息;
[0069]第一匹配單元403,可以用于利用第一正則表達(dá)式對(duì)過濾后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。其中,業(yè)務(wù)類型包括流量、短信、彩信、通話時(shí)長(zhǎng)和話費(fèi)中的一項(xiàng)或多項(xiàng)。
[0070]本實(shí)施例提供的訓(xùn)練語料的獲取裝置,在獲取到通信運(yùn)營(yíng)商發(fā)送給用戶的文本信息后,先對(duì)文本信息的內(nèi)容進(jìn)行過濾,然后通過正則表達(dá)式匹配出包含業(yè)務(wù)類型和該業(yè)務(wù)的使用情況信息的短文本作為訓(xùn)練語料,與現(xiàn)有技術(shù)人工獲取訓(xùn)練語料的方式相比,大大提高了獲取訓(xùn)練語料的效率,從而提高了運(yùn)營(yíng)效率。
[0071]圖5是本發(fā)明訓(xùn)練語料的獲取裝置另一個(gè)實(shí)施例的框圖。如圖5所示,該實(shí)施例的裝置還可以包括:第二匹配單元501,用于利用第二正則表達(dá)式對(duì)短文本進(jìn)行匹配,以提取出各業(yè)務(wù)的使用量名稱作為第二訓(xùn)練語料。
[0072]本實(shí)施例一方面,在利用第一正則表達(dá)式對(duì)文本信息進(jìn)行匹配之前先進(jìn)行去重處理,從而可以進(jìn)一步提高訓(xùn)練語料的獲取效率;另一方面,在在利用第一正則表達(dá)式對(duì)文本信息進(jìn)行匹配時(shí),考慮了文本消息的去重率,可以更進(jìn)一步提高訓(xùn)練語料的獲取效率。
[0073]圖6是本發(fā)明訓(xùn)練語料的獲取裝置又一個(gè)實(shí)施例的框圖。該實(shí)施例中的第一匹配單元403可以包括拆分模塊413和匹配模塊423,其中:拆分模塊413用于將過濾后的文本信息拆分為多個(gè)短句,每個(gè)短句中包含業(yè)務(wù)類型的不同業(yè)務(wù);匹配模塊423用于利用每個(gè)業(yè)務(wù)對(duì)應(yīng)的第一正則表達(dá)式對(duì)相應(yīng)的短句進(jìn)行匹配,以提取出包含該業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0074]圖7是本發(fā)明訓(xùn)練語料的獲取裝置再一個(gè)實(shí)施例的框圖。該實(shí)施例的裝置與圖4所示實(shí)施例相比還可以包括:去重單元701,用于對(duì)過濾后的文本信息進(jìn)行去重處理。
[0075]進(jìn)一步地,該實(shí)施例中的第一匹配單元403可以包括:重復(fù)率獲取模塊713和匹配模塊723,其中:復(fù)率獲取模塊713用于獲取去重后的文本信息的重復(fù)率;匹配模塊723用于利用第一正則表達(dá)式按照重復(fù)率的高低依次對(duì)去重后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0076]本實(shí)施例一方面,在利用第一正則表達(dá)式對(duì)文本信息進(jìn)行匹配之前先進(jìn)行去重處理,從而可以進(jìn)一步提高訓(xùn)練語料的獲取效率;另一方面,在在利用第一正則表達(dá)式對(duì)文本信息進(jìn)行匹配時(shí),考慮了文本消息的去重率,可以更進(jìn)一步提高訓(xùn)練語料的獲取效率。
[0077]圖8是本發(fā)明訓(xùn)練語料的獲取裝置還一個(gè)實(shí)施例的框圖。該實(shí)施例的裝置與圖4所示實(shí)施例相比還可以包括:去重單元701,用于對(duì)過濾后的文本信息進(jìn)行去重處理。
[0078]進(jìn)一步地,該實(shí)施例中的第一匹配單元403可以包括:排序模塊813,用于獲取去重后的文本信息的重復(fù)率,按照重復(fù)率的高低對(duì)文本信息進(jìn)行排序;提取模塊823,用于從排序后的文本信息中提取出重復(fù)率大于預(yù)設(shè)值的文本信息作為需要加強(qiáng)訓(xùn)練的文本信息;替代模塊833,用于以多組隨機(jī)數(shù)字替代需要加強(qiáng)訓(xùn)練的文本信息中的數(shù)字,以便將每個(gè)文本信息變?yōu)槎鄠€(gè)文本信息;匹配模塊843,用于利用第一正則表達(dá)式對(duì)所述多個(gè)文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0079]本發(fā)明實(shí)施例提供了以下技術(shù)方案:
[0080]1、一種訓(xùn)練語料的獲取方法,包括:
[0081 ]獲取通信運(yùn)營(yíng)商發(fā)送給用戶的文本信息;
[0082]通過預(yù)設(shè)過濾規(guī)則對(duì)所述文本信息的內(nèi)容進(jìn)行過濾,以得到過濾后的文本信息;
[0083]利用第一正則表達(dá)式對(duì)過濾后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0084]2、根據(jù)I所述的方法,還包括:
[0085]利用第二正則表達(dá)式對(duì)所述短文本進(jìn)行匹配,以提取出各業(yè)務(wù)的使用量名稱作為第二訓(xùn)練語料。
[0086]3、根據(jù)I或2所述的方法,所述利用第一正則表達(dá)式對(duì)過濾后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料包括:
[0087]將過濾后的文本信息拆分為多個(gè)短句,其中,每個(gè)短句中包含該業(yè)務(wù)類型的不同業(yè)務(wù);
[0088]利用每個(gè)業(yè)務(wù)對(duì)應(yīng)的第一正則表達(dá)式對(duì)相應(yīng)的短句進(jìn)行匹配,以提取出包含該業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0089]4、根據(jù)1-3任意一項(xiàng)所述的方法,在利用第一正則表達(dá)式對(duì)過濾后的文本信息進(jìn)行匹配之前,還包括:
[0090]對(duì)過濾后的文本信息進(jìn)行去重處理。
[0091]5、根據(jù)4所述的方法,所述利用第一正則表達(dá)式對(duì)過濾后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料包括:
[0092]獲取去重后的文本彳目息的重復(fù)率;
[0093]利用第一正則表達(dá)式按照重復(fù)率的高低依次對(duì)去重后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0094]6、根據(jù)4所述的方法,所述利用第一正則表達(dá)式對(duì)過濾后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料包括:
[0095]獲取去重后的文本信息的重復(fù)率,按照重復(fù)率的高低對(duì)文本信息進(jìn)行排序;
[0096]從排序后的文本信息中提取出重復(fù)率大于預(yù)設(shè)值的文本信息作為需要加強(qiáng)訓(xùn)練的文本信息;
[0097]以多組隨機(jī)數(shù)字替代需要加強(qiáng)訓(xùn)練的文本信息中的數(shù)字,以便將每個(gè)文本信息變?yōu)槎鄠€(gè)文本信息;
[0098]利用第一正則表達(dá)式對(duì)所述多個(gè)文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0099]7、根據(jù)1-6任意一項(xiàng)所述的方法,所述業(yè)務(wù)類型包括流量、短信、彩信、通話時(shí)長(zhǎng)和話費(fèi)中的一項(xiàng)或多項(xiàng)。
[0100]8、一種訓(xùn)練語料的獲取裝置,包括:
[0101]獲取單元,用于獲取通信運(yùn)營(yíng)商發(fā)送給用戶的文本信息;
[0102]過濾單元,用于通過預(yù)設(shè)過濾規(guī)則對(duì)所述文本信息的內(nèi)容進(jìn)行過濾,以得到過濾后的文本信息;
[0103]第一匹配單元,用于利用第一正則表達(dá)式對(duì)過濾后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0104]9、根據(jù)8所述的裝置,還包括:
[0105]第二匹配單元,用于利用第二正則表達(dá)式對(duì)所述短文本進(jìn)行匹配,以提取出各業(yè)務(wù)的使用量名稱作為第二訓(xùn)練