模板構(gòu)建方法和裝置、信息識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本公開涉及數(shù)據(jù)處理技術(shù),特別涉及一種模板構(gòu)建方法和裝置、信息識(shí)別方法和
目.ο
【背景技術(shù)】
[0002]日常生活中,用戶可能會(huì)接收到各種各樣的運(yùn)營商短信或其他類信息。以運(yùn)營商短信為例,運(yùn)營商發(fā)送的話費(fèi)余額提醒短信、或者剩余流量通知短信,或者,銀行發(fā)送的賬戶信息短信,或者信用卡還款短信。這些短信都是用于通知用戶一些數(shù)字信息,比如,話費(fèi)余額、賬戶余額、剩余流量等,以使得用戶及時(shí)了解這些信息。
【發(fā)明內(nèi)容】
[0003]本公開提供一種模板構(gòu)建方法和裝置、信息識(shí)別方法和裝置,以提高信息識(shí)別的準(zhǔn)確性。
[0004]根據(jù)本公開實(shí)施例的第一方面,提供一種模板構(gòu)建方法,包括:
[0005]獲取原始信息樣本集,所述原始信息樣本集包括至少一條預(yù)設(shè)類別的原始信息;
[0006]在所述原始信息中包括預(yù)設(shè)關(guān)鍵詞時(shí),根據(jù)預(yù)設(shè)關(guān)鍵詞集合對(duì)所述預(yù)設(shè)關(guān)鍵詞進(jìn)行標(biāo)注,得到樣本訓(xùn)練集;
[0007]對(duì)所述樣本訓(xùn)練集中的包括所述預(yù)設(shè)關(guān)鍵詞的分句進(jìn)行分詞,得到若干個(gè)詞語;
[0008]從所述若干個(gè)詞語中提取出指定特征集合,所述指定特征集合包括至少一個(gè)特征詞;
[0009]根據(jù)所述預(yù)設(shè)關(guān)鍵詞和所述指定特征集合中的所述特征詞構(gòu)建所述模板;
[0010]根據(jù)所述樣本訓(xùn)練集中的標(biāo)注結(jié)果對(duì)所述模板進(jìn)行訓(xùn)練。
[0011]在一個(gè)例子中,所述從所述若干個(gè)詞語中提取出指定特征集合,包括以下兩個(gè)步驟中的其中一個(gè):根據(jù)卡方檢驗(yàn)從所述若干個(gè)詞語中提取出所述指定特征集合;或根據(jù)信息增益從所述若干個(gè)詞語中提取出所述指定特征集合。
[0012]在一個(gè)例子中,根據(jù)所述預(yù)設(shè)關(guān)鍵詞和所述指定特征集合中的所述特征詞構(gòu)建所述模板,包括:將所述指定特征集合中的所述特征詞和預(yù)設(shè)關(guān)鍵詞構(gòu)建樸素貝葉斯分類器,各個(gè)特征詞在所述樸素貝葉斯分類器中互相獨(dú)立。
[0013]在一個(gè)例子中,所述根據(jù)所述樣本訓(xùn)練集中的標(biāo)注結(jié)果對(duì)所述模板進(jìn)行訓(xùn)練,包括:對(duì)于所述樸素貝葉斯分類器中的每個(gè)所述特征詞,根據(jù)所述樣本訓(xùn)練集中的標(biāo)注結(jié)果,統(tǒng)計(jì)出攜帶有所述特征詞和所述預(yù)設(shè)關(guān)鍵詞的分句為第一分句的數(shù)量;根據(jù)各個(gè)所述特征詞、所述預(yù)設(shè)關(guān)鍵詞和所述數(shù)量,得到訓(xùn)練后的所述樸素貝葉斯分類器。
[0014]在一個(gè)例子中,所述在所述原始信息中包括預(yù)設(shè)關(guān)鍵詞時(shí),根據(jù)預(yù)設(shè)關(guān)鍵詞集合對(duì)所述預(yù)設(shè)關(guān)鍵詞進(jìn)行標(biāo)注,得到樣本訓(xùn)練集,包括:在所述原始信息中包括數(shù)字信息時(shí),根據(jù)預(yù)設(shè)關(guān)鍵詞集合對(duì)所述數(shù)字信息進(jìn)行標(biāo)注,得到樣本訓(xùn)練集,其中,所述預(yù)設(shè)關(guān)鍵詞集合包括指示數(shù)字信息的屬性的信息。
[0015]根據(jù)本公開實(shí)施例的第二方面,提供一種信息識(shí)別方法,包括:
[0016]獲取待識(shí)別的目標(biāo)信息中的至少一個(gè)分句,所述分句中包括預(yù)設(shè)關(guān)鍵詞;
[0017]對(duì)所述分句進(jìn)行分詞得到若干個(gè)詞語,并從所述若干個(gè)詞語中提取出指定特征集合,所述指定特征集合包括至少一個(gè)特征詞;
[0018]根據(jù)所述預(yù)設(shè)關(guān)鍵詞、特征詞以及預(yù)先構(gòu)建的模板,識(shí)別所述分句中的預(yù)設(shè)關(guān)鍵詞的標(biāo)注結(jié)果。
[0019]在一個(gè)例子中,所述方法還包括:若識(shí)別的標(biāo)注結(jié)果是預(yù)設(shè)標(biāo)注結(jié)果的分句的數(shù)量為多個(gè),則將識(shí)別概率最大的分句中的預(yù)設(shè)關(guān)鍵詞作為預(yù)設(shè)標(biāo)注結(jié)果的信息。
[0020]在一個(gè)例子中,所述從所述若干個(gè)詞語中提取出指定特征集合,包括以下兩個(gè)步驟中的其中一個(gè):根據(jù)卡方檢驗(yàn)從所述若干個(gè)詞語中提取出所述指定特征集合;或根據(jù)信息增益從所述若干個(gè)詞語中提取出所述指定特征集合。
[0021]在一個(gè)例子中,所述預(yù)設(shè)關(guān)鍵詞為數(shù)字信息,所述標(biāo)注結(jié)果為所述數(shù)字信息的屬性。
[0022]根據(jù)本公開實(shí)施例的第三方面,提供一種模板構(gòu)建裝置,包括:
[0023]樣本獲取模塊,用于獲取原始信息樣本集,所述原始信息樣本集包括至少一條預(yù)設(shè)類別的原始信息;
[0024]樣本處理模塊,用于在所述原始信息中包括預(yù)設(shè)關(guān)鍵詞時(shí),根據(jù)預(yù)設(shè)關(guān)鍵詞集合對(duì)所述預(yù)設(shè)關(guān)鍵詞進(jìn)行標(biāo)注,得到樣本訓(xùn)練集;
[0025]分詞處理模塊,用于對(duì)所述樣本訓(xùn)練集中的包括所述預(yù)設(shè)關(guān)鍵詞的分句進(jìn)行分詞,得到若干個(gè)詞語;
[0026]特征提取模塊,用于從所述若干個(gè)詞語中提取出指定特征集合,所述指定特征集合包括至少一個(gè)特征詞;
[0027]模板構(gòu)建模塊,用于根據(jù)所述預(yù)設(shè)關(guān)鍵詞和所述指定特征集合中的所述特征詞構(gòu)建所述模板;
[0028]模板訓(xùn)練模塊,用于根據(jù)所述樣本訓(xùn)練集中的標(biāo)注結(jié)果對(duì)所述模板進(jìn)行訓(xùn)練。
[0029]在一個(gè)例子中,所述特征提取模塊,用于通過如下兩個(gè)步驟中的其中一個(gè)從若干個(gè)詞語中提取出指定特征集合:根據(jù)卡方檢驗(yàn)從所述若干個(gè)詞語中提取出所述指定特征集合;或者,根據(jù)信息增益從所述若干個(gè)詞語中提取出指定特征集合。
[0030]在一個(gè)例子中,所述模板構(gòu)建模塊,用于將所述指定特征集合中的所述特征詞和所述預(yù)設(shè)關(guān)鍵詞構(gòu)建樸素貝葉斯分類器,各個(gè)特征詞在所述樸素貝葉斯分類器中互相獨(dú)立。
[0031]在一個(gè)例子中,所述模板訓(xùn)練模塊,用于對(duì)于所述樸素貝葉斯分類器中的每個(gè)所述特征詞,根據(jù)所述樣本訓(xùn)練集中的標(biāo)注結(jié)果,統(tǒng)計(jì)出攜帶有所述特征詞和所述預(yù)設(shè)關(guān)鍵詞的分句為第一分句的數(shù)量;根據(jù)各個(gè)所述特征詞、所述預(yù)設(shè)關(guān)鍵詞和所述數(shù)量,得到訓(xùn)練后的所述樸素貝葉斯分類器。
[0032]在一個(gè)例子中,所述預(yù)設(shè)關(guān)鍵詞為數(shù)字信息,所述標(biāo)注結(jié)果為所述數(shù)字信息的屬性。
[0033]根據(jù)本公開實(shí)施例的第四方面,提供一種信息識(shí)別裝置,包括:
[0034]分句獲取模塊,用于獲取待識(shí)別的目標(biāo)信息中的至少一個(gè)分句,所述分句中包括預(yù)設(shè)關(guān)鍵詞;
[0035]詞語提取模塊,用于對(duì)所述分句進(jìn)行分詞得到若干個(gè)詞語,并從所述若干個(gè)詞語中提取出指定特征集合,所述指定特征集合包括至少一個(gè)特征詞;
[0036]識(shí)別處理模塊,用于根據(jù)所述預(yù)設(shè)關(guān)鍵詞、特征詞以及預(yù)先構(gòu)建的模板,識(shí)別所述分句中的預(yù)設(shè)關(guān)鍵詞的標(biāo)注結(jié)果。
[0037]在一個(gè)例子中,所述識(shí)別處理模塊,用于若識(shí)別的標(biāo)注結(jié)果是預(yù)設(shè)標(biāo)注結(jié)果的分句的數(shù)量為多個(gè),將識(shí)別概率最大的分句中的預(yù)設(shè)關(guān)鍵詞作為預(yù)設(shè)標(biāo)注結(jié)果的信息。
[0038]在一個(gè)例子中,所述詞語提取模塊,用于通過如下兩個(gè)步驟中的其中一個(gè)從若干個(gè)詞語中提取出指定特征集合:根據(jù)卡方檢驗(yàn)從所述若干個(gè)詞語中提取出所述指定特征集合;或者根據(jù)信息增益從所述若干個(gè)詞語中提取出所述指定特征集合。
[0039]在一個(gè)例子中,所述預(yù)設(shè)關(guān)鍵詞為數(shù)字信息,所述標(biāo)注結(jié)果為所述數(shù)字信息的屬性。
[0040]根據(jù)本公開實(shí)施例的第五方面,提供一種模板構(gòu)建裝置,包括:
[0041]處理器;
[0042]用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;
[0043]其中,所述處理器被配置為:獲取原始信息樣本集,所述原始信息樣本集包括至少一條預(yù)設(shè)類別的原始信息;在所述原始信息中包括預(yù)設(shè)關(guān)鍵詞時(shí),根據(jù)預(yù)設(shè)關(guān)鍵詞集合對(duì)所述預(yù)設(shè)關(guān)鍵詞進(jìn)行標(biāo)注,得到樣本訓(xùn)練集;對(duì)所述樣本訓(xùn)練集中的包括所述預(yù)設(shè)關(guān)鍵詞的分句進(jìn)行分詞,得到若干個(gè)詞語;從所述若干個(gè)詞語中提取出指定特征集合,所述指定特征集合包括至少一個(gè)特征詞;根據(jù)所述預(yù)設(shè)關(guān)鍵詞和所述指定特征集合中的所述特征詞構(gòu)建所述模板;根據(jù)所述樣本訓(xùn)練集中的標(biāo)注結(jié)果對(duì)所述模板進(jìn)行訓(xùn)練。
[0044]根據(jù)本公開實(shí)施例的第六方面,提供一種信息識(shí)別裝置,包括:
[0045]處理器;
[0046]用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;
[0047]其中,所述處理器被配置為:獲取待識(shí)別的目標(biāo)信息中的至少一個(gè)分句,所述分句中包括預(yù)設(shè)關(guān)鍵詞;對(duì)所述分句進(jìn)行分詞得到若干個(gè)詞語,并從所述若干個(gè)詞語中提取出指定特征集合,所述指定特征集合包括至少一個(gè)特征詞;根據(jù)所述預(yù)設(shè)關(guān)鍵詞、特征詞以及預(yù)先構(gòu)建的模板,識(shí)別所述分句中的預(yù)設(shè)關(guān)鍵詞的標(biāo)注結(jié)果。
[0048]本公開的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:通過根據(jù)包含預(yù)設(shè)關(guān)鍵詞的樣本進(jìn)行訓(xùn)練,構(gòu)建識(shí)別所用的模板,并根據(jù)該模板識(shí)別信息中的關(guān)鍵詞標(biāo)注結(jié)果,使得信息識(shí)別更加準(zhǔn)確。
[0049]應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
【附圖說明】
[0050]此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實(shí)施例,并與說明書一起用于解釋本公開的原理。
[0051 ]圖1是根據(jù)一示例性實(shí)施例示出的一種模板構(gòu)建方法的流程圖;
[0052]圖2是根據(jù)一示例性實(shí)施例示出的另一種模板構(gòu)建方法的流程圖;
[0053]圖3是根據(jù)一示例性實(shí)施例示出的應(yīng)用本公開的方法識(shí)別短信中數(shù)字信息的系統(tǒng);
[0054]圖4是根據(jù)一示例性實(shí)施例示出的又一種模板構(gòu)建方法的流程圖;
[0055]圖5是根據(jù)一示例性實(shí)施例示出的又一種模板構(gòu)建方法的流程圖;
[0056]圖6是根據(jù)一示例性實(shí)施例示出的一種快捷接口的顯示方式;
[0057]圖