亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種自動校對姓名的方法及裝置的制作方法

文檔序號:6584537閱讀:226來源:國知局
專利名稱:一種自動校對姓名的方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及文字校對技術(shù)領(lǐng)域,尤其涉及一種自動校對姓名的方法及裝置。
背景技術(shù)
目前在對文字校對領(lǐng)域中,當對文章中多次出現(xiàn)的姓名進行校對時,首先需要定 義姓名詞條,然后通過該姓名詞條校對文章中出現(xiàn)的姓名。校對的過程包括判斷同一姓名 前后是否一致,或判斷姓名是否正確。通過姓名詞條校對文章中出現(xiàn)姓名的過程如圖1所 示,該過程具體包括以下步驟SlOl 根據(jù)所校對的文章中出現(xiàn)的姓名,定義姓名詞條,其中該定義的姓名詞條中 包括該校對的文章中出現(xiàn)的姓名。例如所校對的文章中出現(xiàn)的姓名為李小鋒,則定義姓名詞條,該姓名詞條中包括 李小鋒,并且確定該姓名為正確姓名。S102 將出現(xiàn)的姓名的變形添加到姓名詞條中。例如對于上述姓名李小鋒,其可能出現(xiàn)的變形包括李曉鋒、李小峰等等,將李曉 鋒、李小峰也添加到姓名詞條中,該變形為需要校對出來的錯誤姓名。S103 根據(jù)姓名詞條對所校對的文章中出現(xiàn)的姓名進行校對,當確定文章中發(fā)現(xiàn) 姓名詞條中定義的錯誤姓名時,則提示錯誤,并提示用戶修改?,F(xiàn)有技術(shù)基于姓名詞條的姓名校對方法,當所校對的文章中出現(xiàn)多個姓名時,必 須遍歷所有需要校對的姓名,將該需要校對的姓名定義到姓名詞條中,并且增加該姓名的 變形。姓名詞條的方式只可以校對出姓名詞條中存在的姓名,及姓名的變形,當某一姓名, 姓名的某一變形未添加到姓名詞條中時,采用該方式就對該姓名的變形方式校對不出。只 能在事后通過人工校對進行彌補,把相對應(yīng)的姓名變形添加到姓名詞條中,以防下次再出 現(xiàn)類似的錯誤。但對于不同的文章需要校對的姓名也不同,這樣每校對一篇文章就需要去 修改和更新姓名詞條,因此定義姓名詞條的方式比較繁瑣,校對的準確率也比較低,對應(yīng)沒 有想到姓名的變形就校對不出來,容易出現(xiàn)不可挽回的事故。另外姓名詞條的增加由于要 考慮到盡可能多的姓名的變形,因此姓名詞條的定義也成為了一項非常艱巨不可完成的任 務(wù)。

發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供一種自動校對姓名的方法及裝置,用以解決現(xiàn)有技 術(shù)中姓名校對工作效率低、準確性低的問題。本發(fā)明實施例提供的一種自動校對姓名的方法,包括校對姓名裝置根據(jù)設(shè)置的姓氏詞庫,在待校對的文章中進行匹配,獲取每個包含 姓氏的候選姓名;統(tǒng)計每個候選姓名中每個字出現(xiàn)的頻率,提取每個真實姓名;根據(jù)所述提取的每個真實姓名,及待校對的文章的長度,確定所述待校對的文章中的每個目標真實姓名;采用確定的所述每個目標真實姓名,對所述待校對的文章中的姓名進行校對。本發(fā)明實施例提供的一種自動校對姓名的裝置,包括候選姓名確定模塊,用于根據(jù)設(shè)置的姓氏詞庫,在待校對的文章中進行匹配,獲取 每個包含姓氏的候選姓名;真實姓名提取模塊,用于統(tǒng)計每個候選姓名中每個字出現(xiàn)的頻率,提取每個真實 姓名;目標真實姓名確定模塊,用于根據(jù)所述提取的每個真實姓名,及待校對的文章的 長度,確定所述待校對的文章中的每個目標真實姓名;校對模塊,用于采用確定的所述每個目標真實姓名,對所述待校對的文章中的姓 名進行校對。本發(fā)明實施例提供了一種自動校對姓名的方法及裝置,該方法包括校對姓名裝 置根據(jù)設(shè)置的姓氏詞庫,在待校對的文章中進行匹配,獲取每個包含姓氏的候選姓名;統(tǒng)計 每個候選姓名中每個字出現(xiàn)的頻率,提取每個真實姓名;根據(jù)每個真實姓名,及該待校對的 文章的長度,確定每個目標真實姓名;采用該確定的每個目標真實姓名,對該待校對的文章 進行校對。在本發(fā)明實施例中校對姓名裝置通過姓氏詞庫在待校對的文章中確定包含目標 真實姓名的候選姓名,從而節(jié)省了定義每個姓名及姓名變型的繁瑣工作,提高了姓名校對 的效率,并且由于根據(jù)待校對文章中的每個真實姓名,確定目標真實姓名,從而提高了姓名 校對的準確率。


圖1為現(xiàn)有技術(shù)中校對姓名的方法流程圖;圖2為本發(fā)明實施例提供的一種自動校對姓名的方法流程圖;圖3A為本發(fā)明實施例提供的確定目標真實姓名的結(jié)果示意圖;圖;3B為本發(fā)明實施例提供的一種自動校對姓名的裝置結(jié)構(gòu)圖。
具體實施例方式本發(fā)明實施例為了有效的提高姓名校對的效率,及姓名校對的準確性,提供了一 種自動校對姓名的方法,該方法包括校對姓名裝置根據(jù)設(shè)置的姓氏詞庫,在待校對的文章 中進行匹配,獲取每個包含姓氏的候選姓名;統(tǒng)計每個候選姓名中每個字出現(xiàn)的頻率,提取 每個真實姓名;根據(jù)提取的每個真實姓名及待校對的文章的長度,確定每個目標真實姓名; 采用確定的每個目標真實姓名,對該待校對的文章中的姓名進行校對。在本發(fā)明實施例中 校對姓名裝置通過姓氏詞庫在待校對的文章中確定包含目標真實姓名的候選姓名,從而節(jié) 省了定義每個姓名及姓名變型的繁瑣工作,提高了姓名校對的效率,并且由于校對姓名裝 置根據(jù)待校對文章中的每個真實姓名,確定目標真實姓名,從而提高了姓名校對的準確率。下面結(jié)合說明書附圖,對本發(fā)明實施例進行詳細說明。圖2為本發(fā)明實施例提供的自動校對姓名的過程,該過程包括以下步驟S201 校對姓名裝置根據(jù)設(shè)置的姓氏詞庫,在待校對的文章中進行匹配,獲取每個 包含姓氏的候選姓名。
在本發(fā)明實施例確定候選姓名時,校對姓名裝置需要根據(jù)設(shè)置的姓名的長度確 定,在待校對的文章中進行匹配,獲取對應(yīng)姓名長度的每個包含姓氏的候選姓名。S202 統(tǒng)計每個候選姓名中每個字出現(xiàn)的頻率,提取每個真實姓名。由于候選姓名中只有真實姓名才會頻繁出現(xiàn),其他的干擾字段出現(xiàn)的頻率相對來 說較低,因此校對姓名裝置通過統(tǒng)計每個候選姓名中每個字出現(xiàn)的頻率,可以在候選姓名 中提取出真實姓名。S203:根據(jù)提取的每個真實姓名,及該待校對的文章的長度,確定每個目標真實姓名。由于不同長度的文章中其可能包含的姓名的頻率是不同的,因此根據(jù)待校對文章 的長度可以將滿足條件的真實姓名確定為目標真實姓名。S204:采用該確定的每個目標真實姓名,對該待校對的文章中的姓名進行校對。根據(jù)確定的每個目標真實姓名對待校對的文章中的姓名進行校對的具體過程包 括查找待校對的文章中出現(xiàn)的每個姓氏,并在每個目標真實姓名中查找所述姓氏對應(yīng)的 每個目標真實姓名,采用查找的每個目標真實姓名對包含該姓氏的姓名進行校對。在本發(fā)明實施例中通過編輯姓氏詞庫,根據(jù)姓氏詞庫中的姓氏,校對姓名裝置在 待校對的文章中進行匹配,獲取待校對的文章中出現(xiàn)頻率較高的至少一個目標真實姓名, 根據(jù)獲取的每個目標真實姓名對待校對的文章中的姓名進行校對,確定待校對的文章中是 否存在不一致的姓名。通過對姓氏詞庫的管理,可以增加、刪除或修改姓氏詞庫中的姓氏,因此可以將姓 氏詞庫不斷的完善,使其可以校對任何的姓名。在本發(fā)明實施例中可以根據(jù)常見的姓氏,例 如百家姓,對姓氏詞庫進行添加。表1為對姓氏詞庫的定義。
權(quán)利要求
1.一種自動校對姓名的方法,其特征在于,包括校對姓名裝置根據(jù)設(shè)置的姓氏詞庫,在待校對的文章中進行匹配,獲取每個包含姓氏 的候選姓名;統(tǒng)計每個候選姓名中每個字出現(xiàn)的頻率,提取每個真實姓名; 根據(jù)所述提取的每個真實姓名,及待校對的文章的長度,確定所述待校對的文章中的 每個目標真實姓名;采用確定的所述每個目標真實姓名,對所述待校對的文章中的姓名進行校對。
2.如權(quán)利要求1所述的方法,其特征在于,所述獲取每個包含姓氏的候選姓名包括 根據(jù)設(shè)置的姓名的長度,匹配待校對文章中的姓氏,獲取每個包含該姓氏的候選姓名。
3.如權(quán)利要求2所述的方法,其特征在于,所述獲取每個包含該姓氏的候選姓名包括 根據(jù)待校對文章中的姓氏,將以該姓氏開始、且連續(xù)的、長度不大于該設(shè)置的姓名長度的每個字符串確定為包含姓氏的候選姓名;或,根據(jù)待校對文章中的姓氏,將以該姓氏開始的對應(yīng)該設(shè)置的姓名長度的字符串確定為 包含該姓氏的候選姓名。
4.如權(quán)利要求1所述的方法,其特征在于,所述提取每個真實姓名包括統(tǒng)計每個候選姓名中每個字出現(xiàn)的頻率,將每個候選姓名中出現(xiàn)頻率較高,且連續(xù)的 幾個字確定為真實姓名。
5.如權(quán)利要求4所述的方法,其特征在于,所述方法還包括當出現(xiàn)頻率較高且連續(xù)的候選姓名中的第一組字中的每個字,包含在出現(xiàn)頻率較高且 連續(xù)的候選姓名中的第二組字中時,將候選姓名中的第二組字確定為真實姓名。
6.如權(quán)利要求1所述的方法,其特征在于,所述確定所述待校對的文章中的每個目標 真實姓名包括根據(jù)待校對的文章的總字數(shù),及設(shè)置的目標真實姓名出現(xiàn)的第一頻率,當真實姓名出 現(xiàn)的第二頻率不小于設(shè)置的第一頻率時,將所述真實姓名作為目標真實姓名。
7.如權(quán)利要求1所述的方法,其特征在于,所述對所述待校對的文章中的姓名進行校 對包括查找待校對的文章中出現(xiàn)的每個姓氏,并在每個目標真實姓名中查找所述姓氏對應(yīng)的 每個目標真實姓名,采用查找的每個目標真實姓名對包含所述姓氏的姓名進行校對。
8.一種自動校對姓名的裝置,其特征在于,所述裝置包括候選姓名獲取模塊,用于根據(jù)設(shè)置的姓氏詞庫,在待校對的文章中進行匹配,獲取每個 包含姓氏的候選姓名;真實姓名提取模塊,用于統(tǒng)計每個候選姓名中每個字出現(xiàn)的頻率,提取每個真實姓名;目標真實姓名確定模塊,用于根據(jù)所述提取的每個真實姓名,及待校對的文章的長度, 確定所述待校對的文章中的每個目標真實姓名;校對模塊,用于采用確定的所述每個目標真實姓名,對所述待校對的文章中的姓名進 行校對。
9.如權(quán)利要求8所述的裝置,其特征在于,所述候選姓名獲取模塊包括 第一存儲單元,用于存儲姓氏詞庫;第一確定單元,用于根據(jù)姓氏詞庫及設(shè)置的姓名的長度,將以該姓氏開始的對應(yīng)該設(shè) 置的姓名長度的字符串確定為包含該姓氏的候選姓名。
10.如權(quán)利要求9所述的裝置,其特征在于,所述第一確定單元包括第一確定子單元,用于根據(jù)待校對文章中的姓氏,將以該姓氏開始、且連續(xù)的、長度不 大于該設(shè)置的姓名長度的每個字符串確定為包含姓氏的候選姓名;第二確定子單元,用于根據(jù)待校對文章中的姓氏,將以姓氏開始的對應(yīng)該設(shè)置的姓名 長度的字符串確定為包含該姓氏的候選姓名。
11.如權(quán)利要求8所述的裝置,其特征在于,所述真實姓名提取模塊包括 頻率確定單元,用于統(tǒng)計每個候選姓名中每個字出現(xiàn)的頻率;第二確定單元,用于將每個候選姓名中出現(xiàn)頻率較高,且連續(xù)的幾個字確定為真實姓名。
12.如權(quán)利要求11所述的裝置,其特征在于,所述第二確定單元還用于當出現(xiàn)頻率較高且連續(xù)的候選姓名中的第一組字中的每個字,包含在出現(xiàn)頻率較高且 連續(xù)的候選姓名中的第二組字中時,將候選姓名中的第二組字確定為真實姓名。
13.如權(quán)利要求8所述的裝置,其特征在于,所述目標真實姓名確定模塊包括第二存儲單元,用于根據(jù)待校對的文章的總字數(shù),保存對應(yīng)的設(shè)置的目標真實姓名出 現(xiàn)的第一頻率;比較單元,用于將真實姓名出現(xiàn)的第二頻率與所述第一頻率進行比較; 第三確定單元,用于當真實姓名出現(xiàn)的第二頻率不小于設(shè)置的第一頻率時,將所述真 實姓名作為目標真實姓名。
14.如權(quán)利要求8所述的裝置,其特征在于,所述校對模塊包括查找單元,用于查找待校對的文章中出現(xiàn)的每個姓氏,并在每個目標真實姓名中查找 所述姓氏對應(yīng)的每個目標真實姓名;校對單元,用于采用查找的每個目標真實姓名對包含所述姓氏的姓名進行校對。
全文摘要
本發(fā)明公開了一種自動校對姓名的方法及裝置,用以解決現(xiàn)有技術(shù)中姓名校對工作效率低、準確性低的。該方法校對姓名裝置根據(jù)設(shè)置的姓氏詞庫,在待校對的文章中進行匹配,獲取每個候選姓名;統(tǒng)計每個候選姓名中每個字出現(xiàn)的頻率,提取每個真實姓名;根據(jù)每個真實姓名,及該待校對的文章的長度,確定每個目標真實姓名;采用該確定的每個目標真實姓名,對該待校對的文章進行校對。在本發(fā)明實施例中校對姓名裝置通過姓氏詞庫在待校對的文章中確定包含目標真實姓名的候選姓名,從而節(jié)省了定義每個姓名及姓名變型的繁瑣工作,提高了姓名校對的效率,并且由于根據(jù)待校對文章中的每個真實姓名,確定目標真實姓名,從而提高了姓名校對的準確率。
文檔編號G06F17/21GK102043763SQ20091023652
公開日2011年5月4日 申請日期2009年10月23日 優(yōu)先權(quán)日2009年10月23日
發(fā)明者李少明 申請人:北京北大方正電子有限公司, 北大方正集團有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1