訓(xùn)練語料的獲取方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其是一種訓(xùn)練語料的獲取方法和裝置。
【背景技術(shù)】
[0002]移動通信運營商為用戶提供通信業(yè)務(wù)的查詢功能,例如,用戶可以通過短信、電話、客戶端等多種方式進行查詢,但是,上述幾種方式均需要用戶進行大量的操作,實時性較差,不能滿足用戶的要求。
[0003]隨著互連網(wǎng)技術(shù)的發(fā)展,出現(xiàn)了很多在終端側(cè)進行通信業(yè)務(wù)使用量的監(jiān)測的技術(shù),從而可以及時向用戶報告。然而,在終端側(cè)監(jiān)測到的數(shù)據(jù)經(jīng)常會出現(xiàn)與通信運營商的統(tǒng)計數(shù)據(jù)不一致,因此,現(xiàn)有的通信業(yè)務(wù)使用量的監(jiān)控方法需要定期根據(jù)通信運營商的統(tǒng)計數(shù)據(jù)進行校準。
[0004]一種有效的校準方法是利用條件隨機場(CRF)識別模型對截取到的運營商發(fā)給用戶的短信進行識別,這種方法可以提高校準的精度。但是,條件隨機場識別模型需要訓(xùn)練語料進行訓(xùn)練得到,而現(xiàn)有技術(shù)中訓(xùn)練語料均是通過人工的方式來獲取,效率低下,影響運營效率。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實施例所要解決的一個技術(shù)問題是:提供一種訓(xùn)練語料的獲取方法和裝置,以提高訓(xùn)練語料的獲取效率。
[0006]本發(fā)明實施例提供的一種訓(xùn)練語料的獲取方法包括:獲取通信運營商發(fā)送給用戶的文本信息;通過預(yù)設(shè)過濾規(guī)則對所述文本信息的內(nèi)容進行過濾,以得到過濾后的文本信息;利用第一正則表達式對過濾后的文本信息進行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0007]在基于本發(fā)明上述方法的另一個實施例中,還包括:利用第二正則表達式對所述短文本進行匹配,以提取出各業(yè)務(wù)的使用量名稱作為第二訓(xùn)練語料。
[0008]在基于本發(fā)明上述方法的另一個實施例中,所述利用第一正則表達式對過濾后的文本信息進行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料包括:將過濾后的文本信息拆分為多個短句,其中,每個短句中包含該業(yè)務(wù)類型的不同業(yè)務(wù);利用每個業(yè)務(wù)對應(yīng)的第一正則表達式對相應(yīng)的短句進行匹配,以提取出包含該業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0009]在基于本發(fā)明上述方法的另一個實施例中,在利用第一正則表達式對過濾后的文本信息進行匹配之前,還包括:對過濾后的文本信息進行去重處理。
[0010]在基于本發(fā)明上述方法的另一個實施例中,所述利用第一正則表達式對過濾后的文本信息進行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料包括:獲取去重后的文本信息的重復(fù)率;利用第一正則表達式按照重復(fù)率的高低依次對去重后的文本信息進行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0011]在基于本發(fā)明上述方法的另一個實施例中,所述利用第一正則表達式對過濾后的文本信息進行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料包括:獲取去重后的文本信息的重復(fù)率,按照重復(fù)率的高低對文本信息進行排序;從排序后的文本信息中提取出重復(fù)率大于預(yù)設(shè)值的文本信息作為需要加強訓(xùn)練的文本信息;以多組隨機數(shù)字替代需要加強訓(xùn)練的文本信息中的數(shù)字,以便將每個文本信息變?yōu)槎鄠€文本信息;利用第一正則表達式對所述多個文本信息進行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0012]在基于本發(fā)明上述方法的另一個實施例中,所述業(yè)務(wù)類型包括流量、短信、彩信、通話時長和話費中的一項或多項。
[0013]本發(fā)明實施例提供的一種訓(xùn)練語料的獲取裝置,包括:獲取單元,用于獲取通信運營商發(fā)送給用戶的文本信息;過濾單元,用于通過預(yù)設(shè)過濾規(guī)則對所述文本信息的內(nèi)容進行過濾,以得到過濾后的文本信息;第一匹配單元,用于利用第一正則表達式對過濾后的文本信息進行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0014]在基于本發(fā)明上述裝置的另一個實施例中,還包括:第二匹配單元,用于利用第二正則表達式對所述短文本進行匹配,以提取出各業(yè)務(wù)的使用量名稱作為第二訓(xùn)練語料。
[0015]在基于本發(fā)明上述裝置的另一個實施例中,所述第一匹配單元包括:拆分模塊,用于將過濾后的文本信息拆分為多個短句,其中,每個短句中包含所述業(yè)務(wù)類型的不同業(yè)務(wù);匹配模塊,用于利用每個業(yè)務(wù)對應(yīng)的第一正則表達式對相應(yīng)的短句進行匹配,以提取出包含該業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0016]基于本發(fā)明上述實施例提供的訓(xùn)練語料的獲取方法和裝置,在獲取到通信運營商發(fā)送給用戶的文本信息后,先對文本信息的內(nèi)容進行過濾,然后通過正則表達式匹配出包含業(yè)務(wù)類型和該業(yè)務(wù)的使用情況信息的短文本作為訓(xùn)練語料,與現(xiàn)有技術(shù)人工獲取訓(xùn)練語料的方式相比,大大提高了獲取訓(xùn)練語料的效率,從而提高了運營效率。
[0017]下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
【附圖說明】
[0018]構(gòu)成說明書的一部分的附圖描述了本發(fā)明的實施例,并且連同描述一起用于解釋本發(fā)明的原理。
[0019]參照附圖,根據(jù)下面的詳細描述,可以更加清楚地理解本發(fā)明,其中:
[0020]圖1是本發(fā)明訓(xùn)練語料的獲取方法一個實施例的流程圖;
[0021]圖2是本發(fā)明訓(xùn)練語料的獲取方法另一個實施例的流程圖;
[0022]圖3是本發(fā)明訓(xùn)練語料的獲取方法又一個實施例的流程圖;
[0023]圖4是本發(fā)明訓(xùn)練語料的獲取裝置一個實施例的框圖;
[0024]圖5是本發(fā)明訓(xùn)練語料的獲取裝置另一個實施例的框圖;
[0025]圖6是本發(fā)明訓(xùn)練語料的獲取裝置又一個實施例的框圖;
[0026]圖7是本發(fā)明訓(xùn)練語料的獲取裝置再一個實施例的框圖;
[0027]圖8是本發(fā)明訓(xùn)練語料的獲取裝置再一個實施例的框圖。
【具體實施方式】
[0028]現(xiàn)在將參照附圖來詳細描述本發(fā)明的各種示例性實施例。應(yīng)注意到:除非另外具體說明,否則在這些實施例中闡述的部件和步驟的相對布置、數(shù)字表達式和數(shù)值不限制本發(fā)明的范圍。
[0029]同時,應(yīng)當明白,為了便于描述,附圖中所示出的各個部分的尺寸并不是按照實際的比例關(guān)系繪制的。
[0030]以下對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發(fā)明及其應(yīng)用或使用的任何限制。
[0031]對于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細討論,但在適當情況下,所述技術(shù)、方法和設(shè)備應(yīng)當被視為說明書的一部分。
[0032]應(yīng)注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步討論。
[0033]圖1是本發(fā)明訓(xùn)練語料的獲取方法一個實施例的流程圖。該實施例的方法可以由設(shè)置在服務(wù)器上的訓(xùn)練語料的獲取裝置來實施,如圖1所示,該實施例的方法包括如下步驟:
[0034]