進(jìn)行語句識別的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理技術(shù),尤其涉及進(jìn)行語句識別的方法及裝置。
【背景技術(shù)】
[0002]目前的信息處理應(yīng)用中,常涉及對語句進(jìn)行識別以確定其分類結(jié)果的場景。
[0003]例如,在網(wǎng)絡(luò)問答系統(tǒng)中,用戶輸入自然語言文本語句,網(wǎng)絡(luò)側(cè)對其進(jìn)行識別,得到分類結(jié)果,根據(jù)分類結(jié)果提取出對應(yīng)的應(yīng)答數(shù)據(jù),反饋給用戶。該實(shí)例通過對用戶輸入的語句進(jìn)行處理分析,最終執(zhí)行用戶請求,返回用戶所需的信息。
[0004]問答系統(tǒng)中,回答的準(zhǔn)確性是比較重要的核定指標(biāo)。要想回答精準(zhǔn),須盡可能精準(zhǔn)的識別出語句的分類結(jié)果。
[0005]現(xiàn)有進(jìn)行語句識別的方案一般基于普通分類模型(如支持向量機(jī),隨機(jī)森林、貝葉斯、Adaboost等)實(shí)現(xiàn),具體包括:
[0006]采用實(shí)例語料對普通分類器進(jìn)行訓(xùn)練,得到訓(xùn)練后的分類模型。后續(xù)在需要時(shí),向訓(xùn)練后的分類模型輸入語句,將返回一個分類結(jié)果。有了分類結(jié)果后,就可以調(diào)用相應(yīng)的任務(wù)處理邏輯組裝回答用戶的問題了。
[0007]現(xiàn)有通過普通分類器進(jìn)行語句識別的方案存在以下缺陷:由于普通分類模型基于對實(shí)例語料進(jìn)行統(tǒng)計(jì)的方式訓(xùn)練得到,它識別的正確率到了一定程度后就不容易提升,并且對于一些相差非常小的語句很難識別準(zhǔn)確。
[0008]綜上,現(xiàn)有進(jìn)行語句識別的方案具有局限性,且識別準(zhǔn)確率低。
【發(fā)明內(nèi)容】
[0009]本發(fā)明提供了一種進(jìn)行語句識別的方法,該方法能夠提高對語句識別的準(zhǔn)確率。
[0010]本發(fā)明提供了一種進(jìn)行語句識別的裝置,該裝置能夠提高對語句識別的準(zhǔn)確率。[0011 ] 一種進(jìn)行語句識別的方法,該方法包括:
[0012]對實(shí)例語料進(jìn)行分類標(biāo)注,得到標(biāo)準(zhǔn)分類結(jié)果;并對實(shí)例語料進(jìn)行特征向量提??;
[0013]定制出映射分類器,映射分類器中設(shè)置特征向量與分類結(jié)果之間的映射關(guān)系;將普通分類器和映射分類器組合成弱分類器;
[0014]將語料樣本輸入弱分類器進(jìn)行分類識別,所述語料樣本包含實(shí)例語料的特征向量;當(dāng)弱分類器為普通分類器時(shí),先對普通分類器進(jìn)行訓(xùn)練,再由訓(xùn)練后的分類模型進(jìn)行分類識別;
[0015]將弱分類器識別出的分類結(jié)果與標(biāo)準(zhǔn)分類結(jié)果進(jìn)行比較,如果一致,則分類正確,如果不一致,則分類錯誤;統(tǒng)計(jì)出弱分類器分類識別的錯誤率,根據(jù)錯誤率設(shè)置相應(yīng)弱分類器的權(quán)重;
[0016]該方法還包括:
[0017]將待分類語句輸入各弱分類器,弱分類器對待分類語句進(jìn)行分類,得到分類結(jié)果;
[0018]對輸出相同分類結(jié)果的所有弱分類器的權(quán)重進(jìn)行統(tǒng)計(jì),得到相應(yīng)分類結(jié)果的幾率值;
[0019]將幾率值最大的分類結(jié)果作為待分類語句的最終識別結(jié)果。
[0020]一種進(jìn)行語句識別的裝置,該裝置包括語料標(biāo)注單元、語料訓(xùn)練單元和識別單元;
[0021]所述語料標(biāo)注單元,對實(shí)例語料進(jìn)行分類標(biāo)注,得到標(biāo)準(zhǔn)分類結(jié)果;并對實(shí)例語料進(jìn)行特征向量提?。?br>[0022]所述語料訓(xùn)練單元,定制出映射分類器,映射分類器中設(shè)置特征向量與分類結(jié)果之間的映射關(guān)系;將普通分類器和映射分類器組合成弱分類器;將語料樣本輸入弱分類器進(jìn)行分類識別,所述語料樣本包含實(shí)例語料的特征向量,當(dāng)弱分類器為普通分類器時(shí),先對普通分類器進(jìn)行訓(xùn)練,再由訓(xùn)練后的分類模型進(jìn)行分類識別;將弱分類器識別出的分類結(jié)果與標(biāo)準(zhǔn)分類結(jié)果進(jìn)行比較,如果一致,則分類正確,如果不一致,則分類錯誤;統(tǒng)計(jì)出弱分類器分類識別的錯誤率,根據(jù)錯誤率設(shè)置相應(yīng)弱分類器的權(quán)重;
[0023]所述識別單元,將待分類語句輸入各弱分類器,弱分類器對待分類語句進(jìn)行分類,得到分類結(jié)果;對輸出相同分類結(jié)果的所有弱分類器的權(quán)重進(jìn)行統(tǒng)計(jì),得到相應(yīng)分類結(jié)果的幾率值;將幾率值最大的分類結(jié)果作為待分類語句的最終識別結(jié)果。
[0024]從上述方案可以看出,本發(fā)明中,定制出映射分類器,映射分類器中設(shè)置特征向量與分類結(jié)果之間的映射關(guān)系,將普通分類器和映射分類器組合成弱分類器;然后采用語料樣本對組合成的弱分類器進(jìn)行訓(xùn)練,得到各弱分類器的權(quán)重。而后,基于帶權(quán)重的弱分類器對待分類語句進(jìn)行識別,對輸出相同分類結(jié)果的所有弱分類器的權(quán)重進(jìn)行統(tǒng)計(jì),得到相應(yīng)分類結(jié)果的幾率值;將幾率值最大的分類結(jié)果作為待分類語句的最終識別結(jié)果。本發(fā)明采用普通分類器和映射分類器結(jié)合對待分類語句進(jìn)行識別,且映射分類器中的映射關(guān)系可自行設(shè)置,這樣,相比于僅采用普通分類器進(jìn)行數(shù)據(jù)識別的方式,提高了識別的準(zhǔn)確性。
【附圖說明】
[0025]圖1為本發(fā)明進(jìn)行語句識別的方法示意性流程圖;
[0026]圖2為本發(fā)明進(jìn)行語料訓(xùn)練的方法流程圖實(shí)例;
[0027]圖3為本發(fā)明基于帶權(quán)重的弱分類器進(jìn)行語句識別的方法流程圖實(shí)例;
[0028]圖4為本發(fā)明進(jìn)行語句識別的裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0029]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面結(jié)合實(shí)施例和附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。
[0030]本發(fā)明中,定制出映射分類器,映射分類器中設(shè)置特征向量與分類結(jié)果之間的映射關(guān)系;采用普通分類器和映射分類器結(jié)合對待分類語句進(jìn)行識別,且映射分類器中的映射關(guān)系可自行設(shè)置,這樣,相比于僅采用普通分類器進(jìn)行數(shù)據(jù)識別的方式,提高了識別的準(zhǔn)確性。
[0031]參見圖1,為本發(fā)明進(jìn)行語句識別的方法示意性流程圖,其包括以下步驟:
[0032]步驟101,對實(shí)例語料進(jìn)行分類標(biāo)注,得到標(biāo)準(zhǔn)分類結(jié)果;并對實(shí)例語料進(jìn)行特征向量提取。
[0033]實(shí)例語料用于訓(xùn)練分類器。
[0034]對實(shí)例語料進(jìn)行分類標(biāo)注,給予準(zhǔn)確的分類結(jié)果,即標(biāo)準(zhǔn)分類結(jié)果。例如,實(shí)例語料為“這個手機(jī)有什么配件”,其標(biāo)準(zhǔn)分類結(jié)果為“配件查詢”。對實(shí)例語料進(jìn)行特征向量提取為已有技術(shù),同樣以前述的實(shí)例語料進(jìn)行說明,其特征向量包括“手機(jī)、有、什么、配件”。
[0035]步驟102,定制出映射分類器,映射分類器中設(shè)置特征向量與分類結(jié)果之間的映射關(guān)系;將普通分類器和映射分類器組合成弱分類器。
[0036]具體實(shí)現(xiàn)時(shí),針對實(shí)例語料,本步驟設(shè)置出特征向量與分類結(jié)果之間的映射關(guān)系,定制出映射分類器。映射關(guān)系尤其可針對相差非常小的語句,以及一些需要特別進(jìn)行分類結(jié)果設(shè)置的語句;當(dāng)然,映射關(guān)系也可針對一般語句進(jìn)行分類結(jié)果的映射。
[0037]映射關(guān)系可根據(jù)需要自行設(shè)置。
[0038]步驟103,將語料樣本輸入弱分類器進(jìn)行分類識別,所述語料樣本包含實(shí)例語料的特征向量;當(dāng)弱分類器為普通分類器時(shí),先對普通分類器進(jìn)行訓(xùn)練,再由訓(xùn)練后的分類模型進(jìn)行分類識別。
[0039]弱分類器包含映射分類器和普通分類器,當(dāng)為映射分類器時(shí),輸入語料樣本,便可根據(jù)特征向量在映射關(guān)系中查找出相應(yīng)的分類結(jié)果,作為輸出。若為弱分類器,則需要對普通分類器進(jìn)行訓(xùn)練,采用實(shí)例語料訓(xùn)練普通分類器為已有技術(shù),這里不多贅述;訓(xùn)練得到的分類模型可對語料樣本進(jìn)行分類識別,輸出分類結(jié)果。
[0040]步驟104,將弱分類器識別出的分類結(jié)果與標(biāo)準(zhǔn)分類結(jié)果進(jìn)行比較,如果一致,則分類正確,如果不一致,則分類錯誤;統(tǒng)計(jì)出弱分類器分類識別的錯誤率,根據(jù)錯誤率設(shè)置相應(yīng)弱分類器的權(quán)重。
[0041]為了進(jìn)一步提高分類準(zhǔn)確性,還可為語料樣本設(shè)置權(quán)重,并對權(quán)重進(jìn)行調(diào)整;具體地,所有語料樣本的初始權(quán)重可設(shè)置為相同數(shù)值,在對語料樣本進(jìn)行分類識別后,再進(jìn)行權(quán)重調(diào)整,具體地:
[0042