中文姓名的識(shí)別方法和裝置的制造方法

文檔序號(hào)：9616249閱讀：192來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

中文姓名的識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及信息識(shí)別技術(shù)領(lǐng)域，尤其涉及一種中文姓名的識(shí)別方法和裝置。
【背景技術(shù)】
[0002]漢語(yǔ)的自身特點(diǎn)使得中文信息自動(dòng)處理大多是先對(duì)要處理的文本進(jìn)行自動(dòng)分詞，如加入顯式分割符，然后再在分詞的基礎(chǔ)上進(jìn)行詞法、語(yǔ)法、以及語(yǔ)義等方面的深入分析。而在分詞階段，中文文本中的中文姓名大多被切分成單字詞，在這種情形下如不能很好地解決中文文本中中文姓名的識(shí)別問(wèn)題，將給其后的中文文本的深入分析帶來(lái)難以逾越的障礙。中文姓名的自動(dòng)識(shí)別問(wèn)題就是在這種背景下提出來(lái)的。對(duì)這一問(wèn)題的研究目前采用的技術(shù)有規(guī)則方法、統(tǒng)計(jì)方法以及規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。
[0003]其中，規(guī)則方法一般是，獲取中文文本，并進(jìn)行分詞，根據(jù)中文姓名的構(gòu)成原則得到姓名候選詞，從姓名候選詞中提取姓名詞，得到所獲取的中文文本的中文姓名詞匯表。其中，中文姓名的構(gòu)成原則是指:中文姓名一般由二字或三字組成，第一字為姓用字(而復(fù)姓則為前兩字)，其后的一到兩個(gè)漢字為名用字。
[0004]統(tǒng)計(jì)方法一般包括:使用姓名語(yǔ)料庫(kù)來(lái)訓(xùn)練某個(gè)字作為姓名組成部分的概率值；依據(jù)其概率值計(jì)算某個(gè)候選字段作為姓名的概率；其中概率值大于一定閾值的字段為識(shí)別出的中文姓名。
[0005]規(guī)則與統(tǒng)計(jì)相結(jié)合的方法，可以通過(guò)概率計(jì)算減少規(guī)則方法的復(fù)雜性與盲目性，而且可以降低統(tǒng)計(jì)方法對(duì)語(yǔ)料庫(kù)規(guī)模的要求。目前的研究基本上都是采取規(guī)則與統(tǒng)計(jì)的方法，不同之處僅僅在于規(guī)則與統(tǒng)計(jì)的側(cè)重不同而已。
[0006]現(xiàn)有解決方案本身存在著固有的一些不足:
[0007]首先，掃描到姓氏用字這種具有明顯姓名特征的字段時(shí)，才將前后的幾個(gè)字列為姓名候選詞進(jìn)行中文姓名的識(shí)別，使得不具備明顯姓名特征的中文姓名往往會(huì)被丟失，如“有姓無(wú)名”的中文姓名，例如“李稱楊已離開(kāi)上?！?，“張和劉是好朋友”。其次，姓名候選詞大都是選取切分后的碎片，在這種選取機(jī)制的作用下，中文姓名內(nèi)部成詞以及中文姓名與上下文成詞的情況導(dǎo)致得到的姓名候選詞的識(shí)別率低，從而導(dǎo)致從其中提取的中文姓名的識(shí)別率低。例如:[王國(guó)]維，由于內(nèi)部成詞，姓名候選詞為切分后的碎片“王國(guó)”，這樣并不會(huì)提取到中文姓名“王國(guó)維”。根據(jù)對(duì)80，000條中文姓名的統(tǒng)計(jì)，內(nèi)部成詞的比例高達(dá)8.49%，由于這兩種成詞機(jī)制所引起的識(shí)別率損失將不小于10%。

【發(fā)明內(nèi)容】

[0008]本發(fā)明實(shí)施例提供一種中文姓名的識(shí)別方法和裝置，以提高中文文本中中文姓名的識(shí)別率。
[0009]第一方面，本發(fā)明實(shí)施例提供了一種中文姓名的識(shí)別方法，包括:
[0010]獲取中文文本；
[0011]對(duì)所述中文文本進(jìn)行預(yù)處理和分詞，得到預(yù)處理后的中文文本所包含的分句，以及所包含分句的分詞結(jié)果；
[0012]對(duì)于各分句，利用姓用字表，確定該分句的分詞結(jié)果中的姓用字；
[0013]對(duì)于出現(xiàn)所述姓用字的各分句，基于預(yù)設(shè)的詞匯相關(guān)性策略，確定出現(xiàn)所述姓用字的該分句中的姓名候選詞；
[0014]從所述姓名候選詞中提取姓名詞，得到所獲取的中文文本的中文姓名詞匯表。
[0015]第二方面，本發(fā)明實(shí)施例提供了一種中文姓名的識(shí)別裝置，包括:
[0016]文本獲取模塊，用于獲取中文文本；
[0017]文本處理模塊，用于對(duì)所述中文文本進(jìn)行預(yù)處理和分詞，得到預(yù)處理后的中文文本所包含的分句，以及所包含分句的分詞結(jié)果；
[0018]姓用字確定模塊，用于對(duì)于各分句，利用姓用字表，確定該分句的分詞結(jié)果中的姓用字；
[0019]第一姓名候選詞確定模塊，用于對(duì)于出現(xiàn)所述姓用字的各分句，基于預(yù)設(shè)的詞匯相關(guān)性策略，確定出現(xiàn)所述姓用字的該分句中的姓名候選詞；
[0020]姓名詞提取模塊，用于從所述姓名候選詞中提取姓名詞，得到所獲取的中文文本的中文姓名詞匯表。
[0021 ] 本發(fā)明實(shí)施例提供的中文姓名的識(shí)別方法和裝置，通過(guò)對(duì)獲取到的中文文本進(jìn)行預(yù)處理和分詞，得到預(yù)處理后的中文文本所包含的分句，以及所包含分句的分詞結(jié)果；通過(guò)確定分句的分詞結(jié)果中的姓用字，并對(duì)出現(xiàn)姓用字的分句進(jìn)行預(yù)設(shè)的姓名相關(guān)特征詞掃描，對(duì)于出現(xiàn)預(yù)設(shè)的姓名相關(guān)特征詞的分句中的姓用字進(jìn)行逐位向后擴(kuò)展，并對(duì)每一次向后擴(kuò)展得到的擴(kuò)展詞組進(jìn)行處理，一方面，在姓用字向后擴(kuò)展得到的擴(kuò)展詞組在中文文本中的出現(xiàn)次數(shù)不大于設(shè)定閾值時(shí)，通過(guò)將向后擴(kuò)展操作之前的詞組作為姓名候選詞，這樣，從姓名候選詞中提取姓名詞，使得中文文本中“有姓無(wú)名”的中文姓名能夠識(shí)別出來(lái)；另一方面，由于不僅對(duì)姓用字向后擴(kuò)展的擴(kuò)展詞組進(jìn)行姓名候選詞的判斷，而且對(duì)姓用字向后擴(kuò)展得到的擴(kuò)展詞組多次進(jìn)行向后擴(kuò)展，每向后擴(kuò)展一次，從新的擴(kuò)展詞組中提取響應(yīng)的姓名候選詞，從而在避免了中文姓名內(nèi)部成詞以及中文姓名與上下文成詞的影響，可以最大程度的提取中文文本中的姓名候選詞，這樣，再?gòu)亩啻翁崛〉降男彰蜻x詞中提取姓名詞，使得中文文本中的中文姓名能夠被最大程度的識(shí)別，極大提高了中文文本中中文姓名的識(shí)別率。
【附圖說(shuō)明】
[0022]為了更清楚地說(shuō)明本發(fā)明，下面將對(duì)本發(fā)明中所需要使用的附圖做一簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0023]圖la為本發(fā)明實(shí)施例一提供的一種中文姓名的識(shí)別方法的流程圖；
[0024]圖lb為本發(fā)明實(shí)施例一提供的中文姓名的識(shí)別方法中基于預(yù)設(shè)的詞匯相關(guān)性策略，確定出現(xiàn)姓用字的分句中的姓名候選詞的方法流程圖；
[0025]圖2為本發(fā)明實(shí)施例二提供的一種中文姓名的識(shí)別方法的流程圖；
[0026]圖3為本發(fā)明實(shí)施例三提供的一種中文姓名的識(shí)別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0027]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施例中的技術(shù)方案作進(jìn)一步詳細(xì)描述，顯然，所描述的實(shí)施例是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?？梢岳斫獾氖?，此處所描述的具體實(shí)施例僅用于解釋本發(fā)明，而非對(duì)本發(fā)明的限定，基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。另外還需要說(shuō)明的是，為了便于描述，附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。
[0028]在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是，一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作(或步驟)描述成順序的處理，但是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外，各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止，但是還可以具有未包括在附圖中的附加步驟。所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
[0029]實(shí)施例一
[0030]請(qǐng)參閱圖la，為本發(fā)明實(shí)施例一提供的一種中文姓名的識(shí)別方法的流程圖。本發(fā)明實(shí)施例的方法可以由配置以硬件和/或軟件實(shí)現(xiàn)的中文姓名的識(shí)別裝置來(lái)執(zhí)行，該識(shí)別裝置典型的是配置在能夠提供中文姓名識(shí)別服務(wù)的設(shè)備中。
[0031]該方法包括:步驟110?步驟150。
[0032]步驟110、獲取中文文本。
[0033]步驟120、對(duì)所述中文文本進(jìn)行預(yù)處理和分詞，得到預(yù)處理后的中文文本所包含的分句，以及所包含分句的分詞結(jié)果。
[0034]步驟130、對(duì)于各分句，利用姓用字表，確定該分句的分詞結(jié)果中的姓用字。
[0035]中文姓名一般由二字或三字組成，第一字為姓用字(復(fù)姓為前兩字)，姓用字后的一到兩個(gè)漢字為名用字。統(tǒng)計(jì)表明，中文姓名在用字上也有一定規(guī)律:一方面某些字頻頻出現(xiàn)在姓名中，如在姓用字中，雖然姓氏辭典中列舉了幾千個(gè)姓氏字，但目前實(shí)際使用的不過(guò)幾百個(gè)，而張、王、李、趙、以及劉5個(gè)姓占了 32%。另一方面，某些字又從不被用作姓用字，如最、僅、緊、以、以及且等字。根據(jù)這一特性，從語(yǔ)料庫(kù)中抽取常見(jiàn)的姓用字，形成姓用字表。
[0036]步驟140、對(duì)于出現(xiàn)所述姓用字的各分句，基于預(yù)設(shè)的詞匯相關(guān)性策略，確定出現(xiàn)所述姓用字的該分句中的姓名候選詞。
[0037]請(qǐng)參閱圖lb，本步驟具體包括:步驟141?步驟147。
[0038]步驟141、對(duì)于出現(xiàn)所述姓用字的各分句，判斷出現(xiàn)所述姓用字的該分句中是否出現(xiàn)預(yù)設(shè)的姓名相關(guān)特征詞；若是，執(zhí)行步驟142，否則，丟棄出現(xiàn)所述姓用字的該分句

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：敬星;劉鵬;
技術(shù)所有人：北京銳安科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

無(wú)線識(shí)別裝置相關(guān)技術(shù)

usb裝置無(wú)法識(shí)別相關(guān)技術(shù)

裝置開(kāi)停車風(fēng)險(xiǎn)識(shí)別相關(guān)技術(shù)

射頻識(shí)別裝置相關(guān)技術(shù)

顏色識(shí)別裝置相關(guān)技術(shù)

車牌識(shí)別裝置相關(guān)技術(shù)

圖像識(shí)別裝置相關(guān)技術(shù)

人臉識(shí)別裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

中文姓名的識(shí)別方法和裝置的制造方法