中文姓名的識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及信息識(shí)別技術(shù)領(lǐng)域,尤其涉及一種中文姓名的識(shí)別方法和裝置。
【背景技術(shù)】
[0002]漢語(yǔ)的自身特點(diǎn)使得中文信息自動(dòng)處理大多是先對(duì)要處理的文本進(jìn)行自動(dòng)分詞,如加入顯式分割符,然后再在分詞的基礎(chǔ)上進(jìn)行詞法、語(yǔ)法、以及語(yǔ)義等方面的深入分析。而在分詞階段,中文文本中的中文姓名大多被切分成單字詞,在這種情形下如不能很好地解決中文文本中中文姓名的識(shí)別問(wèn)題,將給其后的中文文本的深入分析帶來(lái)難以逾越的障礙。中文姓名的自動(dòng)識(shí)別問(wèn)題就是在這種背景下提出來(lái)的。對(duì)這一問(wèn)題的研究目前采用的技術(shù)有規(guī)則方法、統(tǒng)計(jì)方法以及規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。
[0003]其中,規(guī)則方法一般是,獲取中文文本,并進(jìn)行分詞,根據(jù)中文姓名的構(gòu)成原則得到姓名候選詞,從姓名候選詞中提取姓名詞,得到所獲取的中文文本的中文姓名詞匯表。其中,中文姓名的構(gòu)成原則是指:中文姓名一般由二字或三字組成,第一字為姓用字(而復(fù)姓則為前兩字),其后的一到兩個(gè)漢字為名用字。
[0004]統(tǒng)計(jì)方法一般包括:使用姓名語(yǔ)料庫(kù)來(lái)訓(xùn)練某個(gè)字作為姓名組成部分的概率值;依據(jù)其概率值計(jì)算某個(gè)候選字段作為姓名的概率;其中概率值大于一定閾值的字段為識(shí)別出的中文姓名。
[0005]規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,可以通過(guò)概率計(jì)算減少規(guī)則方法的復(fù)雜性與盲目性,而且可以降低統(tǒng)計(jì)方法對(duì)語(yǔ)料庫(kù)規(guī)模的要求。目前的研究基本上都是采取規(guī)則與統(tǒng)計(jì)的方法,不同之處僅僅在于規(guī)則與統(tǒng)計(jì)的側(cè)重不同而已。
[0006]現(xiàn)有解決方案本身存在著固有的一些不足:
[0007]首先,掃描到姓氏用字這種具有明顯姓名特征的字段時(shí),才將前后的幾個(gè)字列為姓名候選詞進(jìn)行中文姓名的識(shí)別,使得不具備明顯姓名特征的中文姓名往往會(huì)被丟失,如“有姓無(wú)名”的中文姓名,例如“李稱楊已離開(kāi)上?!?,“張和劉是好朋友”。其次,姓名候選詞大都是選取切分后的碎片,在這種選取機(jī)制的作用下,中文姓名內(nèi)部成詞以及中文姓名與上下文成詞的情況導(dǎo)致得到的姓名候選詞的識(shí)別率低,從而導(dǎo)致從其中提取的中文姓名的識(shí)別率低。例如:[王國(guó)]維,由于內(nèi)部成詞,姓名候選詞為切分后的碎片“王國(guó)”,這樣并不會(huì)提取到中文姓名“王國(guó)維”。根據(jù)對(duì)80,000條中文姓名的統(tǒng)計(jì),內(nèi)部成詞的比例高達(dá)8.49%,由于這兩種成詞機(jī)制所引起的識(shí)別率損失將不小于10%。
【發(fā)明內(nèi)容】
[0008]本發(fā)明實(shí)施例提供一種中文姓名的識(shí)別方法和裝置,以提高中文文本中中文姓名的識(shí)別率。
[0009]第一方面,本發(fā)明實(shí)施例提供了一種中文姓名的識(shí)別方法,包括:
[0010]獲取中文文本;
[0011]對(duì)所述中文文本進(jìn)行預(yù)處理和分詞,得到預(yù)處理后的中文文本所包含的分句,以及所包含分句的分詞結(jié)果;
[0012]對(duì)于各分句,利用姓用字表,確定該分句的分詞結(jié)果中的姓用字;
[0013]對(duì)于出現(xiàn)所述姓用字的各分句,基于預(yù)設(shè)的詞匯相關(guān)性策略,確定出現(xiàn)所述姓用字的該分句中的姓名候選詞;
[0014]從所述姓名候選詞中提取姓名詞,得到所獲取的中文文本的中文姓名詞匯表。
[0015]第二方面,本發(fā)明實(shí)施例提供了一種中文姓名的識(shí)別裝置,包括:
[0016]文本獲取模塊,用于獲取中文文本;
[0017]文本處理模塊,用于對(duì)所述中文文本進(jìn)行預(yù)處理和分詞,得到預(yù)處理后的中文文本所包含的分句,以及所包含分句的分詞結(jié)果;
[0018]姓用字確定模塊,用于對(duì)于各分句,利用姓用字表,確定該分句的分詞結(jié)果中的姓用字;
[0019]第一姓名候選詞確定模塊,用于對(duì)于出現(xiàn)所述姓用字的各分句,基于預(yù)設(shè)的詞匯相關(guān)性策略,確定出現(xiàn)所述姓用字的該分句中的姓名候選詞;
[0020]姓名詞提取模塊,用于從所述姓名候選詞中提取姓名詞,得到所獲取的中文文本的中文姓名詞匯表。
[0021 ] 本發(fā)明實(shí)施例提供的中文姓名的識(shí)別方法和裝置,通過(guò)對(duì)獲取到的中文文本進(jìn)行預(yù)處理和分詞,得到預(yù)處理后的中文文本所包含的分句,以及所包含分句的分詞結(jié)果;通過(guò)確定分句的分詞結(jié)果中的姓用字,并對(duì)出現(xiàn)姓用字的分句進(jìn)行預(yù)設(shè)的姓名相關(guān)特征詞掃描,對(duì)于出現(xiàn)預(yù)設(shè)的姓名相關(guān)特征詞的分句中的姓用字進(jìn)行逐位向后擴(kuò)展,并對(duì)每一次向后擴(kuò)展得到的擴(kuò)展詞組進(jìn)行處理,一方面,在姓用字向后擴(kuò)展得到的擴(kuò)展詞組在中文文本中的出現(xiàn)次數(shù)不大于設(shè)定閾值時(shí),通過(guò)將向后擴(kuò)展操作之前的詞組作為姓名候選詞,這樣,從姓名候選詞中提取姓名詞,使得中文文本中“有姓無(wú)名”的中文姓名能夠識(shí)別出來(lái);另一方面,由于不僅對(duì)姓用字向后擴(kuò)展的擴(kuò)展詞組進(jìn)行姓名候選詞的判斷,而且對(duì)姓用字向后擴(kuò)展得到的擴(kuò)展詞組多次進(jìn)行向后擴(kuò)展,每向后擴(kuò)展一次,從新的擴(kuò)展詞組中提取響應(yīng)的姓名候選詞,從而在避免了中文姓名內(nèi)部成詞以及中文姓名與上下文成詞的影響,可以最大程度的提取中文文本中的姓名候選詞,這樣,再?gòu)亩啻翁崛〉降男彰蜻x詞中提取姓名詞,使得中文文本中的中文姓名能夠被最大程度的識(shí)別,極大提高了中文文本中中文姓名的識(shí)別率。
【附圖說(shuō)明】
[0022]為了更清楚地說(shuō)明本發(fā)明,下面將對(duì)本發(fā)明中所需要使用的附圖做一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0023]圖la為本發(fā)明實(shí)施例一提供的一種中文姓名的識(shí)別方法的流程圖;
[0024]圖lb為本發(fā)明實(shí)施例一提供的中文姓名的識(shí)別方法中基于預(yù)設(shè)的詞匯相關(guān)性策略,確定出現(xiàn)姓用字的分句中的姓名候選詞的方法流程圖;
[0025]圖2為本發(fā)明實(shí)施例二提供的一種中文姓名的識(shí)別方法的流程圖;
[0026]圖3為本發(fā)明實(shí)施例三提供的一種中文姓名的識(shí)別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0027]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施例中的技術(shù)方案作進(jìn)一步詳細(xì)描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定,基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。
[0028]在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作(或步驟)描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外,各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
[0029]實(shí)施例一
[0030]請(qǐng)參閱圖la,為本發(fā)明實(shí)施例一提供的一種中文姓名的識(shí)別方法的流程圖。本發(fā)明實(shí)施例的方法可以由配置以硬件和/或軟件實(shí)現(xiàn)的中文姓名的識(shí)別裝置來(lái)執(zhí)行,該識(shí)別裝置典型的是配置在能夠提供中文姓名識(shí)別服務(wù)的設(shè)備中。
[0031]該方法包括:步驟110?步驟150。
[0032]步驟110、獲取中文文本。
[0033]步驟120、對(duì)所述中文文本進(jìn)行預(yù)處理和分詞,得到預(yù)處理后的中文文本所包含的分句,以及所包含分句的分詞結(jié)果。
[0034]步驟130、對(duì)于各分句,利用姓用字表,確定該分句的分詞結(jié)果中的姓用字。
[0035]中文姓名一般由二字或三字組成,第一字為姓用字(復(fù)姓為前兩字),姓用字后的一到兩個(gè)漢字為名用字。統(tǒng)計(jì)表明,中文姓名在用字上也有一定規(guī)律:一方面某些字頻頻出現(xiàn)在姓名中,如在姓用字中,雖然姓氏辭典中列舉了幾千個(gè)姓氏字,但目前實(shí)際使用的不過(guò)幾百個(gè),而張、王、李、趙、以及劉5個(gè)姓占了 32%。另一方面,某些字又從不被用作姓用字,如最、僅、緊、以、以及且等字。根據(jù)這一特性,從語(yǔ)料庫(kù)中抽取常見(jiàn)的姓用字,形成姓用字表。
[0036]步驟140、對(duì)于出現(xiàn)所述姓用字的各分句,基于預(yù)設(shè)的詞匯相關(guān)性策略,確定出現(xiàn)所述姓用字的該分句中的姓名候選詞。
[0037]請(qǐng)參閱圖lb,本步驟具體包括:步驟141?步驟147。
[0038]步驟141、對(duì)于出現(xiàn)所述姓用字的各分句,判斷出現(xiàn)所述姓用字的該分句中是否出現(xiàn)預(yù)設(shè)的姓名相關(guān)特征詞;若是,執(zhí)行步驟142,否則,丟棄出現(xiàn)所述姓用字的該分句