亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種中文分詞糾錯(cuò)方法、離線訓(xùn)練裝置及在線處理裝置與流程

文檔序號(hào):12176957閱讀:336來源:國知局
一種中文分詞糾錯(cuò)方法、離線訓(xùn)練裝置及在線處理裝置與流程

本發(fā)明涉及搜索技術(shù)領(lǐng)域,具體涉及一種中文分詞糾錯(cuò)方法及裝置。



背景技術(shù):

詞是最小的能夠獨(dú)立活動(dòng)的有意義的語言成分。不同于英文等印歐語系詞語之間以空格分開,中文是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標(biāo)記。因此,中文文本處理的第一步就是要把中文句子按詞的邊界分割,即中文分詞。很多中文信息處理相關(guān)的應(yīng)用領(lǐng)域,例如,機(jī)器翻譯、文本檢索及搜索引擎、問答系統(tǒng)等,都需要先進(jìn)行中文分詞。因此,中文分詞是中文信息處理的基礎(chǔ)與關(guān)鍵。

目前,已有的中文分詞方法包括多種類型,例如基于詞典的機(jī)械分詞、基于隱馬爾科夫模型的分詞、基于條件隨機(jī)場地分詞等。雖然近些年來在中文分詞方面取得的進(jìn)步較大,但是無論哪種中文分詞方法都不可避免地會(huì)出現(xiàn)分詞錯(cuò)誤。特別地,在互聯(lián)網(wǎng)的大環(huán)境下,各種新詞和專業(yè)領(lǐng)域詞匯層出不窮,提高了中文分詞的難度。常見的分詞錯(cuò)誤主要包括:分詞歧義消解錯(cuò)誤,人名、地名等專有名詞識(shí)別錯(cuò)誤,未登錄詞識(shí)別錯(cuò)誤等。這些分詞錯(cuò)誤對(duì)于后續(xù)的處理環(huán)節(jié)很不利。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供一種中文分詞糾錯(cuò)方法、離線訓(xùn)練裝置及在線處理裝置。本發(fā)明能夠通過構(gòu)建糾錯(cuò)規(guī)則庫有效的提高中文分詞的精準(zhǔn)性,同時(shí)能夠不斷適應(yīng)新詞出現(xiàn)的需求。

本發(fā)明的目的是采用下述技術(shù)方案實(shí)現(xiàn)的:

一種中文分詞糾錯(cuò)方法,其改進(jìn)之處在于,所述方法包括:

(1)給定原始語料庫及其對(duì)應(yīng)的正確的分詞結(jié)果集,采用BMES標(biāo)簽將所述正確的分詞結(jié)果集轉(zhuǎn)換為BMES形式,獲取正確的分詞語料庫C;

(2)采用原始分詞器對(duì)所述原始語料庫進(jìn)行分詞,并采用BMES標(biāo)簽將所述原始語料庫的分詞結(jié)果轉(zhuǎn)換為BMES形式,獲取分詞結(jié)果集Ci,i的初始值為0;

(3)將所述分詞結(jié)果集Ci與所述正確的分詞語料庫C進(jìn)行比較,根據(jù)滑動(dòng)窗口長度n獲取糾錯(cuò)規(guī)則集Ri,n為正整數(shù),糾錯(cuò)規(guī)則包括:糾錯(cuò)規(guī)則的觸發(fā)條件和糾錯(cuò)規(guī)則的糾錯(cuò)動(dòng)作;

(4)統(tǒng)計(jì)所述糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的使用頻次、正確率和效用值;

(5)分別設(shè)定使用頻次、正確率和效用值的閾值,過濾所述糾錯(cuò)規(guī)則集Ri中小于該閾值的糾錯(cuò)規(guī)則,并將過濾后的糾錯(cuò)規(guī)則集Ri加入到糾錯(cuò)規(guī)則庫R中;

(6)根據(jù)過濾后的糾錯(cuò)規(guī)則集Ri對(duì)所述分詞結(jié)果集Ci進(jìn)行糾錯(cuò)處理,獲取更新后的分詞結(jié)果集Ci+1;

(7)對(duì)所述更新后的分詞結(jié)果集Ci+1迭代執(zhí)行步驟(3)至步驟(6),直至所述更新后的分詞結(jié)果集Ci+1中不存在糾錯(cuò)規(guī)則,訓(xùn)練完成,獲取最終的糾錯(cuò)規(guī)則庫R;

(8)在線獲取原始分詞器處理后的句子,并采用BMES標(biāo)簽將所述句子中的字轉(zhuǎn)換為BMES形式;

(9)根據(jù)滑動(dòng)窗口長度n依次獲取所述句子中字以及字的左右鄰接字,所述句子中字的左右鄰接字共n-1個(gè),并獲取所述句子中字以及字的左右鄰接字的BMES標(biāo)簽,將所述句子中字以及字的左右鄰接字與所述句子中字以及字的左右鄰接字的BMES標(biāo)簽進(jìn)行組合,將組合形式作為所述糾錯(cuò)規(guī)則的觸發(fā)條件匹配所述糾錯(cuò)規(guī)則庫R中糾錯(cuò)規(guī)則,獲取匹配后的糾錯(cuò)規(guī)則;

(10)選擇效用值最高的匹配后的糾錯(cuò)規(guī)則對(duì)所述待處理句子中字進(jìn)行糾錯(cuò)處理;

(11)對(duì)糾錯(cuò)處理后的句子中字的BMES標(biāo)簽進(jìn)行合法性檢查。

優(yōu)選的,所述BMES標(biāo)簽包括:B表示詞的開頭字,M表示詞的中間字,E表示詞的結(jié)尾字,S表示獨(dú)立成詞字,F(xiàn)表示英文單詞,N表示數(shù)字串。

優(yōu)選的,所述步驟(3)中,將所述分詞結(jié)果集Ci與所述正確的分詞語料庫C進(jìn)行比較,根據(jù)滑動(dòng)窗口長度n獲取糾錯(cuò)規(guī)則集Ri,n為正整數(shù),包括:

若字V在所述分詞結(jié)果集Ci中和正確的分詞語料庫C中對(duì)應(yīng)的BMES標(biāo)簽不同,則獲取所述字V和所述字V的左右鄰接字,并獲取所述字V和所述字V的左右鄰接字在所述分詞結(jié)果集Ci中對(duì)應(yīng)的BMES標(biāo)簽,將所述字V和所述字V的左右鄰接字與所述字V和所述字V的左右鄰接字在所述分詞結(jié)果集Ci中的BMES標(biāo)簽進(jìn)行組合,每條組合形式作為所述糾錯(cuò)規(guī)則的觸發(fā)條件,每條組合形式對(duì)應(yīng)的所述字V和所述字V修正后的BMES標(biāo)簽作為糾錯(cuò)規(guī)則的糾錯(cuò)動(dòng)作,所述字V和所述字V的左右鄰接字共n個(gè)。

優(yōu)選的,所述步驟(4)中,統(tǒng)計(jì)所述糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的使用頻次、正確率和效用值,包括:

計(jì)算所述糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的正確率p(r),公式為:

p(r)=g(r)/(g(r)+b(r)) (1)

式(1)中,r為第r個(gè)糾錯(cuò)規(guī)則,g(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的正例,b(r)為應(yīng) 用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的反例;

計(jì)算糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的效用值u(r),公式為:

u(r)=g(r)-b(r) (2)

式(2)中,g(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的正例,b(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的反例。

優(yōu)選的,所述步驟(11)中,對(duì)糾錯(cuò)處理后的句子中字的BMES標(biāo)簽進(jìn)行合法性檢查,包括:

(11-1)當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為B時(shí),左鄰接字的BMES標(biāo)簽非B、E、F和N中的一個(gè)或右鄰接字的BMES標(biāo)簽非M和E中的一個(gè),則該字的BMES標(biāo)簽不合法;

(11-2)當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為M時(shí),左鄰接字的BMES標(biāo)簽非B或右鄰接字的BMES標(biāo)簽非E,則該字的BMES標(biāo)簽不合法;

(11-3)當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為E時(shí),左鄰接字的BMES標(biāo)簽非B和M中的一個(gè)或右鄰接字的BMES標(biāo)簽非B、S、N和F中的一個(gè),則該字的BMES標(biāo)簽不合法;

(11-4)當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為S、N或F時(shí),左鄰接字的BMES標(biāo)簽非E、S、F和N中的一個(gè)或右鄰接字的BMES標(biāo)簽非B、S、N和F中的一個(gè),則該字的BMES標(biāo)簽不合法。

一種中文分詞糾錯(cuò)離線訓(xùn)練裝置,其改進(jìn)之處在于,所述裝置包括:

第一獲取單元,用于給定原始語料庫及其對(duì)應(yīng)的正確的分詞結(jié)果集,采用BMES標(biāo)簽將所述正確的分詞結(jié)果集轉(zhuǎn)換為BMES形式,獲取正確的分詞語料庫C;

第二獲取單元,用于采用原始分詞器對(duì)所述原始語料庫進(jìn)行分詞,并采用BMES標(biāo)簽將所述原始語料庫的分詞結(jié)果轉(zhuǎn)換為BMES形式,獲取分詞結(jié)果集Ci,i的初始值為0;

第三獲取單元,用于將所述分詞結(jié)果集Ci與所述正確的分詞語料庫C進(jìn)行比較,根據(jù)滑動(dòng)窗口長度n獲取糾錯(cuò)規(guī)則集Ri,n為正整數(shù),糾錯(cuò)規(guī)則包括:糾錯(cuò)規(guī)則的觸發(fā)條件和糾錯(cuò)規(guī)則的糾錯(cuò)動(dòng)作;

統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的使用頻次、正確率和效用值;

過濾單元,用于分別設(shè)定使用頻次、正確率和效用值的閾值,過濾所述糾錯(cuò)規(guī)則集Ri中小于該閾值的糾錯(cuò)規(guī)則,并將過濾后的糾錯(cuò)規(guī)則集Ri加入到糾錯(cuò)規(guī)則庫R中;;

處理單元,根據(jù)糾錯(cuò)規(guī)則集Ri對(duì)所述分詞結(jié)果集Ci進(jìn)行糾錯(cuò)處理,獲取更新后的分詞結(jié)果集Ci+1;

優(yōu)選的,所述BMES標(biāo)簽包括:B表示詞的開頭字,M表示詞的中間字,E表示詞的結(jié)尾字,S表示獨(dú)立成詞字,F(xiàn)表示英文單詞,N表示數(shù)字串。

優(yōu)選的,所述第三獲取單元,包括:

第三獲取子單元,用于若字V在所述分詞結(jié)果集Ci中和正確的分詞語料庫C中對(duì)應(yīng)的BMES標(biāo)簽不同,則獲取所述字V和所述字V的左右鄰接字,并獲取所述字V和所述字V的左右鄰接字在所述分詞結(jié)果集Ci中對(duì)應(yīng)的BMES標(biāo)簽,將所述字V和所述字V的左右鄰接字與所述字V和所述字V的左右鄰接字在所述分詞結(jié)果集Ci中的BMES標(biāo)簽進(jìn)行組合,每條組合形式作為所述糾錯(cuò)規(guī)則的觸發(fā)條件,每條組合形式對(duì)應(yīng)的所述字V和所述字V修正后的BMES標(biāo)簽作為糾錯(cuò)規(guī)則的糾錯(cuò)動(dòng)作,所述字V和所述字V的左右鄰接字共n個(gè)。

優(yōu)選的,所述統(tǒng)計(jì)單元,包括:

第一統(tǒng)計(jì)子單元,用于計(jì)算所述糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的正確率p(r),公式為:

p(r)=g(r)/(g(r)+b(r)) (1)

式(1)中,r為第r個(gè)糾錯(cuò)規(guī)則,g(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的正例,b(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的反例;

第二統(tǒng)計(jì)子單元,用于計(jì)算所述糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的效用值u(r),公式為:

u(r)=g(r)-b(r) (2)

式(2)中,g(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的正例,b(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的反例。

一種中文分詞糾錯(cuò)在線處理裝置,其改進(jìn)之處在于,所述裝置包括:

第四獲取單元,用于在線獲取原始分詞器處理后的句子,并采用BMES標(biāo)簽將所述句子中的字轉(zhuǎn)換為BMES形式;

第五獲取單元,用于根據(jù)滑動(dòng)窗口長度n依次獲取所述句子中字以及字的左右鄰接字,所述句子中字的左右鄰接字共n-1個(gè),并獲取所述句子中字以及字的左右鄰接字的BMES標(biāo)簽,將所述句子中字以及字的左右鄰接字與所述句子中字以及字的左右鄰接字的BMES標(biāo)簽進(jìn)行組合,將組合形式作為所述糾錯(cuò)規(guī)則的觸發(fā)條件匹配所述糾錯(cuò)規(guī)則庫R中糾錯(cuò)規(guī)則,獲取匹配后的糾錯(cuò)規(guī)則;

選擇單元,用于選擇效用值最高的匹配后的糾錯(cuò)規(guī)則對(duì)所述待處理句子中字進(jìn)行糾錯(cuò)處理;

檢查單元,用于對(duì)糾錯(cuò)處理后的句子中字的BMES標(biāo)簽進(jìn)行合法性檢查。

優(yōu)選的,所述檢查單元,包括:

第一檢查子單元,用于當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為B時(shí),左鄰接字的BMES標(biāo)簽非B、E、F和N中的一個(gè)或右鄰接字的BMES標(biāo)簽非M和E中的一個(gè),則該字的BMES標(biāo)簽不合法;

第二檢查子單元,用于當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為M時(shí),左鄰接字的BMES標(biāo)簽非B或右鄰接字的BMES標(biāo)簽非E,則該字的BMES標(biāo)簽不合法;

第三檢查子單元,用于當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為E時(shí),左鄰接字的BMES標(biāo)簽非B和M中的一個(gè)或右鄰接字的BMES標(biāo)簽非B、S、N和F中的一個(gè),則該字的BMES標(biāo)簽不合法;

第四檢查子單元,用于當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為S、N或F時(shí),左鄰接字的BMES標(biāo)簽非E、S、F和N中的一個(gè)或右鄰接字的BMES標(biāo)簽非B、S、N和F中的一個(gè),則該字的BMES標(biāo)簽不合法。

與最接近的現(xiàn)有技術(shù)相比,本發(fā)明具有的有益效果:

本發(fā)明提供的一種中文分詞糾錯(cuò)方法、離線訓(xùn)練裝置及在線處理裝置,能夠從語料庫上自動(dòng)訓(xùn)練得到分詞糾錯(cuò)器,比較當(dāng)前分詞結(jié)果集與正確的分詞結(jié)果集,對(duì)錯(cuò)誤的分詞結(jié)果進(jìn)行統(tǒng)計(jì),自動(dòng)總結(jié)出糾錯(cuò)規(guī)則,并對(duì)每條糾錯(cuò)規(guī)則計(jì)算統(tǒng)計(jì)指標(biāo),過濾不可靠的糾錯(cuò)規(guī)則。這樣不停迭代計(jì)算,不斷發(fā)現(xiàn)新的糾錯(cuò)規(guī)則從而構(gòu)建糾錯(cuò)規(guī)則庫,再根據(jù)糾錯(cuò)規(guī)則庫對(duì)在線句子進(jìn)行分詞糾錯(cuò)處理,避免了分詞歧義消解,人名、地名等專有名詞識(shí)別,未登錄詞識(shí)別等錯(cuò)誤的出現(xiàn),有效的提高了中文分詞的精準(zhǔn)性的同時(shí)還能夠不斷適應(yīng)新詞出現(xiàn)的需求;特別的,本發(fā)明提供的一種中文分詞糾錯(cuò)方法、離線訓(xùn)練裝置及在線處理裝置可移植性強(qiáng),能夠把通用的分詞器移植到給定領(lǐng)域。

附圖說明

圖1是本發(fā)明提供的一種中文分詞糾錯(cuò)方法流程圖;

圖2是本發(fā)明提供的一種中文分詞糾錯(cuò)離線訓(xùn)練裝置示意圖;

圖3是本發(fā)明提供的一種中文分詞糾錯(cuò)在線處理裝置示意圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步的詳細(xì)說明。

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明提供了一種中文分詞糾錯(cuò)方法及裝置,如圖1所示,包括:

(1)給定原始語料庫及其對(duì)應(yīng)的正確的分詞結(jié)果集,采用BMES標(biāo)簽將所述正確的分詞 結(jié)果集轉(zhuǎn)換為BMES形式,獲取正確的分詞語料庫C;

(2)采用原始分詞器對(duì)所述原始語料庫進(jìn)行分詞,并采用BMES標(biāo)簽將所述原始語料庫的分詞結(jié)果轉(zhuǎn)換為BMES形式,獲取分詞結(jié)果集Ci,i的初始值為0;

(3)將所述分詞結(jié)果集Ci與所述正確的分詞語料庫C進(jìn)行比較,根據(jù)滑動(dòng)窗口長度n獲取糾錯(cuò)規(guī)則集Ri,n為正整數(shù),糾錯(cuò)規(guī)則包括:糾錯(cuò)規(guī)則的觸發(fā)條件和糾錯(cuò)規(guī)則的糾錯(cuò)動(dòng)作;

(4)統(tǒng)計(jì)所述糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的使用頻次、正確率和效用值;

(5)分別設(shè)定使用頻次、正確率和效用值的閾值,過濾所述糾錯(cuò)規(guī)則集Ri中小于該閾值的糾錯(cuò)規(guī)則,并將過濾后的糾錯(cuò)規(guī)則集Ri加入到糾錯(cuò)規(guī)則庫R中;

例如:出現(xiàn)頻次小于5或者正確率小于閾值0.7或者效用值小于閾值5的規(guī)則,可以直接過濾掉,將剩余糾錯(cuò)規(guī)則加入至糾錯(cuò)規(guī)則庫R中;

(6)根據(jù)過濾后的糾錯(cuò)規(guī)則集Ri對(duì)所述分詞結(jié)果集Ci進(jìn)行糾錯(cuò)處理,獲取更新后的分詞結(jié)果集Ci+1;

(7)對(duì)所述更新后的分詞結(jié)果集Ci+1迭代執(zhí)行步驟(3)至步驟(6),直至所述更新后的分詞結(jié)果集Ci+1中不存在糾錯(cuò)規(guī)則,訓(xùn)練完成,獲取最終的糾錯(cuò)規(guī)則庫R;

(8)在線獲取原始分詞器處理后的句子,并采用BMES標(biāo)簽將所述句子中的字轉(zhuǎn)換為BMES形式;

(9)根據(jù)滑動(dòng)窗口長度n依次獲取所述句子中字以及字的左右鄰接字,所述句子中字的左右鄰接字共n-1個(gè),并獲取所述句子中字以及字的左右鄰接字的BMES標(biāo)簽,將所述句子中字以及字的左右鄰接字與所述句子中字以及字的左右鄰接字的BMES標(biāo)簽進(jìn)行組合,將組合形式作為所述糾錯(cuò)規(guī)則的觸發(fā)條件匹配所述糾錯(cuò)規(guī)則庫R中糾錯(cuò)規(guī)則,獲取匹配后的糾錯(cuò)規(guī)則;

例如:滑動(dòng)窗口長度n=5,在線獲取原始分詞器處理后的句子為“系統(tǒng)/集成/員/”,用BMES標(biāo)簽來表示為“系/B統(tǒng)/E集/B成/E員/S”,對(duì)于“集”字,其左右4個(gè)鄰接字為“系統(tǒng)成員”,則將“系、統(tǒng)、集、成、員”及其對(duì)應(yīng)的BMES標(biāo)簽“B、E、B、E、S”進(jìn)行組合,再例如,組合形式為“系/B統(tǒng)/E集/B成/E員/S”,則將組合形式為“系/B統(tǒng)/E集/B成/E員/S”與糾錯(cuò)規(guī)則庫R中糾錯(cuò)規(guī)則進(jìn)行匹配,匹配到相應(yīng)的糾錯(cuò)規(guī)則的糾錯(cuò)動(dòng)作,根據(jù)匹配到的糾錯(cuò)動(dòng)作對(duì)“集”字進(jìn)行糾錯(cuò)處理;

(10)選擇效用值最高的匹配后的糾錯(cuò)規(guī)則對(duì)所述待處理句子中字進(jìn)行糾錯(cuò)處理;

(11)對(duì)糾錯(cuò)處理后的句子中字的BMES標(biāo)簽進(jìn)行合法性檢查。

其中,所述BMES標(biāo)簽包括:B表示詞的開頭字,M表示詞的中間字,E表示詞的結(jié)尾字, S表示獨(dú)立成詞字,F(xiàn)表示英文單詞,N表示數(shù)字串。

例如:切分結(jié)果“系統(tǒng)/集成/員/”,用BMES標(biāo)簽來表示就是“系/B統(tǒng)/E集/B成/E員/S”。

所述步驟(3)中,將所述分詞結(jié)果集Ci與所述正確的分詞語料庫C進(jìn)行比較,根據(jù)滑動(dòng)窗口長度n獲取糾錯(cuò)規(guī)則集Ri,n為正整數(shù),包括:

若字V在所述分詞結(jié)果集Ci中和正確的分詞語料庫C中對(duì)應(yīng)的BMES標(biāo)簽不同,則獲取所述字V和所述字V的左右鄰接字,并獲取所述字V和所述字V的左右鄰接字在所述分詞結(jié)果集Ci中對(duì)應(yīng)的BMES標(biāo)簽,將所述字V和所述字V的左右鄰接字與所述字V和所述字V的左右鄰接字在所述分詞結(jié)果集Ci中的BMES標(biāo)簽進(jìn)行組合,每條組合形式作為所述糾錯(cuò)規(guī)則的觸發(fā)條件,每條組合形式對(duì)應(yīng)的所述字V和所述字V修正后的BMES標(biāo)簽作為糾錯(cuò)規(guī)則的糾錯(cuò)動(dòng)作,所述字V和所述字V的左右鄰接字共n個(gè)。

例如:在分詞結(jié)果集Ci中,系統(tǒng)集成員招聘”被錯(cuò)誤地切分為“系統(tǒng)/集/成員/招聘/”,用BMES序列表示就是“系/B統(tǒng)/E集/S成/B員/E招/B聘/E”,而正確的切分結(jié)果是“系統(tǒng)/集成/員/招聘/”,用BMES序列表示就是“系/B統(tǒng)/E集/B成/E員/S招/B聘/E”;對(duì)于“集”字,可以抽取滑動(dòng)窗口長度n=5的糾錯(cuò)規(guī)則:“系/B統(tǒng)/E集/S成/B員/E”=>“集/B”,其中,“系/B統(tǒng)/E集/S成/B員/E”表示糾錯(cuò)規(guī)則的觸發(fā)條件,“集/B”表示糾錯(cuò)規(guī)則的糾錯(cuò)動(dòng)作;同樣地,分別對(duì)于“成”和“員”字,可以抽取兩條糾錯(cuò)規(guī)則:“系/B統(tǒng)/E集/S成/B員/E”=>“成/E”和“系/B統(tǒng)/E集/S成/B員/E”=>“員/S”,同時(shí)應(yīng)用這3條規(guī)則,則可將切詞結(jié)果“系統(tǒng)/集/成員/招聘/”糾正為“系統(tǒng)/集成/員/招聘/”。

通常,一個(gè)字對(duì)應(yīng)的糾錯(cuò)規(guī)則不止一條且可能存在很多噪音規(guī)則,因此需要評(píng)價(jià)指標(biāo)來衡量候選規(guī)則的可靠性,所述步驟(4)中,統(tǒng)計(jì)所述糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的使用頻次、正確率和效用值,包括:

計(jì)算所述糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的正確率p(r),公式為:

p(r)=g(r)/(g(r)+b(r)) (1)

式(1)中,r為第r個(gè)糾錯(cuò)規(guī)則,g(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的正例,b(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的反例;

計(jì)算糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的效用值u(r),公式為:

u(r)=g(r)-b(r) (2)

式(2)中,g(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的正例,b(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的反例。

為了避免糾錯(cuò)器本身犯錯(cuò)誤,可以對(duì)糾錯(cuò)后的結(jié)果進(jìn)行合法性檢查,所述步驟(11)中, 對(duì)糾錯(cuò)處理后的句子中字的BMES標(biāo)簽進(jìn)行合法性檢查,包括:

(11-1)當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為B時(shí),左鄰接字的BMES標(biāo)簽非B、E、F和N中的一個(gè)或右鄰接字的BMES標(biāo)簽非M和E中的一個(gè),則該字的BMES標(biāo)簽不合法;

(11-2)當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為M時(shí),左鄰接字的BMES標(biāo)簽非B或右鄰接字的BMES標(biāo)簽非E,則該字的BMES標(biāo)簽不合法;

(11-3)當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為E時(shí),左鄰接字的BMES標(biāo)簽非B和M中的一個(gè)或右鄰接字的BMES標(biāo)簽非B、S、N和F中的一個(gè),則該字的BMES標(biāo)簽不合法;

(11-4)當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為S、N或F時(shí),左鄰接字的BMES標(biāo)簽非E、S、F和N中的一個(gè)或右鄰接字的BMES標(biāo)簽非B、S、N和F中的一個(gè),則該字的BMES標(biāo)簽不合法。

如果字的BMES標(biāo)簽不合法,則恢復(fù)原始的分詞結(jié)果。

一種中文分詞糾錯(cuò)離線訓(xùn)練裝置,如圖2所示,所述裝置包括:

第一獲取單元,用于給定原始語料庫及其對(duì)應(yīng)的正確的分詞結(jié)果集,采用BMES標(biāo)簽將所述正確的分詞結(jié)果集轉(zhuǎn)換為BMES形式,獲取正確的分詞語料庫C;

第二獲取單元,用于采用原始分詞器對(duì)所述原始語料庫進(jìn)行分詞,并采用BMES標(biāo)簽將所述原始語料庫的分詞結(jié)果轉(zhuǎn)換為BMES形式,獲取分詞結(jié)果集Ci,i的初始值為0;

第三獲取單元,用于將所述分詞結(jié)果集Ci與所述正確的分詞語料庫C進(jìn)行比較,根據(jù)滑動(dòng)窗口長度n獲取糾錯(cuò)規(guī)則集Ri,n為正整數(shù),糾錯(cuò)規(guī)則包括:糾錯(cuò)規(guī)則的觸發(fā)條件和糾錯(cuò)規(guī)則的糾錯(cuò)動(dòng)作;

統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的使用頻次、正確率和效用值;

過濾單元,用于分別設(shè)定使用頻次、正確率和效用值的閾值,過濾所述糾錯(cuò)規(guī)則集Ri中小于該閾值的糾錯(cuò)規(guī)則,并將過濾后的糾錯(cuò)規(guī)則集Ri加入到糾錯(cuò)規(guī)則庫R中;;

處理單元,根據(jù)糾錯(cuò)規(guī)則集Ri對(duì)所述分詞結(jié)果集Ci進(jìn)行糾錯(cuò)處理,獲取更新后的分詞結(jié)果集Ci+1;

所述BMES標(biāo)簽包括:B表示詞的開頭字,M表示詞的中間字,E表示詞的結(jié)尾字,S表示獨(dú)立成詞字,F(xiàn)表示英文單詞,N表示數(shù)字串。

具體的,所述第三獲取單元,包括:

第三獲取子單元,用于若字V在所述分詞結(jié)果集Ci中和正確的分詞語料庫C中對(duì)應(yīng)的BMES標(biāo)簽不同,則獲取所述字V和所述字V的左右鄰接字,并獲取所述字V和所述字V的左右鄰接字在所述分詞結(jié)果集Ci中對(duì)應(yīng)的BMES標(biāo)簽,將所述字V和所述字V的左右鄰接字與所述字V和所述字V的左右鄰接字在所述分詞結(jié)果集Ci中的BMES標(biāo)簽進(jìn)行組合,每條組合形式 作為所述糾錯(cuò)規(guī)則的觸發(fā)條件,每條組合形式對(duì)應(yīng)的所述字V和所述字V修正后的BMES標(biāo)簽作為糾錯(cuò)規(guī)則的糾錯(cuò)動(dòng)作,所述字V和所述字V的左右鄰接字共n個(gè)。

所述統(tǒng)計(jì)單元,包括:

第一統(tǒng)計(jì)子單元,用于計(jì)算所述糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的正確率p(r),公式為:

p(r)=g(r)/(g(r)+b(r)) (1)

式(1)中,r為第r個(gè)糾錯(cuò)規(guī)則,g(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的正例,b(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的反例;

第二統(tǒng)計(jì)子單元,用于計(jì)算所述糾錯(cuò)規(guī)則集Ri中每個(gè)糾錯(cuò)規(guī)則的效用值u(r),公式為:

u(r)=g(r)-b(r) (2)

式(2)中,g(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的正例,b(r)為應(yīng)用第r個(gè)糾錯(cuò)規(guī)則后產(chǎn)生的反例。

一種中文分詞糾錯(cuò)在線處理裝置,如圖3所示,所述裝置包括:

第四獲取單元,用于在線獲取原始分詞器處理后的句子,并采用BMES標(biāo)簽將所述句子中的字轉(zhuǎn)換為BMES形式;

第五獲取單元,用于根據(jù)滑動(dòng)窗口長度n依次獲取所述句子中字以及字的左右鄰接字,所述句子中字的左右鄰接字共n-1個(gè),并獲取所述句子中字以及字的左右鄰接字的BMES標(biāo)簽,將所述句子中字以及字的左右鄰接字與所述句子中字以及字的左右鄰接字的BMES標(biāo)簽進(jìn)行組合,將組合形式作為所述糾錯(cuò)規(guī)則的觸發(fā)條件匹配所述糾錯(cuò)規(guī)則庫R中糾錯(cuò)規(guī)則,獲取匹配后的糾錯(cuò)規(guī)則;

選擇單元,用于選擇效用值最高的匹配后的糾錯(cuò)規(guī)則對(duì)所述待處理句子中字進(jìn)行糾錯(cuò)處理;

檢查單元,用于對(duì)糾錯(cuò)處理后的句子中字的BMES標(biāo)簽進(jìn)行合法性檢查。

具體的,所述檢查單元,包括:

第一檢查子單元,用于當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為B時(shí),左鄰接字的BMES標(biāo)簽非B、E、F和N中的一個(gè)或右鄰接字的BMES標(biāo)簽非M和E中的一個(gè),則該字的BMES標(biāo)簽不合法;

第二檢查子單元,用于當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為M時(shí),左鄰接字的BMES標(biāo)簽非B或右鄰接字的BMES標(biāo)簽非E,則該字的BMES標(biāo)簽不合法;

第三檢查子單元,用于當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為E時(shí),左鄰接字的BMES標(biāo)簽非B和M中的一個(gè)或右鄰接字的BMES標(biāo)簽非B、S、N和F中的一個(gè),則該字的BMES標(biāo)簽不合法;

第四檢查子單元,用于當(dāng)所述糾錯(cuò)處理后的句子中字的BMES標(biāo)簽為S、N或F時(shí),左鄰接字的BMES標(biāo)簽非E、S、F和N中的一個(gè)或右鄰接字的BMES標(biāo)簽非B、S、N和F中的一個(gè),則該字的BMES標(biāo)簽不合法。

最后應(yīng)當(dāng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非對(duì)其限制,盡管參照上述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:依然可以對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行修改或者等同替換,而未脫離本發(fā)明精神和范圍的任何修改或者等同替換,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1