亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于中文姓名匹配的方法和系統(tǒng)的制作方法

文檔序號:6538435閱讀:307來源:國知局
用于中文姓名匹配的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種用于中文姓名匹配的方法和系統(tǒng)。接收中文姓名并將其用羅馬字母拼寫成漢語拼音表示。將所述中文姓名的所述漢語拼音表示與源自多個不同中文字符姓名的一組用羅馬字母拼寫的中文姓名相匹配。響應(yīng)于在所述漢語拼音表示與用羅馬字母拼寫的中文姓名之間找到潛在匹配,檢索所述用羅馬字母拼寫的中文姓名的原始中文腳本。在所接收的中文姓名與所述用羅馬字母拼寫的中文姓名的所述原始中文腳本之間應(yīng)用原生腳本比較以獲得匹配得分。所述原生腳本比較包括逐字符比較、字符變體查找和/或有關(guān)姓名組成未對齊的考慮。將所獲得的匹配得分用作過濾器以便減少在將所述漢語拼音表示與所述一組用羅馬字母拼寫的中文姓名相匹配中生成的錯誤肯定。
【專利說明】用于中文姓名匹配的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及姓名匹配,更具體地說,涉及原生腳本和跨腳本中文姓名匹配。
【背景技術(shù)】
[0002]中文字符(在中文中稱為漢字,在日語中稱為日本漢字,在朝鮮語中稱為朝鮮漢字)用于在多種語言中表示姓名,每種語言可以針對相同的基本姓名使用不同的字符。即使在中文本身中,也存在區(qū)域變體。例如,在中國大陸和新加坡,使用簡體字符集,而臺灣和香港使用繁體字符。
[0003]在廣泛采用統(tǒng)一碼(Unicode)之前,針對中文字符使用不同的編碼系統(tǒng),并且一個編碼系統(tǒng)支持的字符范圍很可能不同于另一個編碼系統(tǒng)。將來自一個區(qū)域的電子文本呈現(xiàn)為可由來自另一個區(qū)域的人們讀取的版本時,不僅需要轉(zhuǎn)換編碼系統(tǒng),而且還需要更改區(qū)域特定的字符。例如,中華人民共和國建國之父的姓名在中國大陸表示為‘丨*澤東”,在臺灣表示為才數(shù)翻”,在日本表示為才嬌翻”。
[0004]統(tǒng)一碼聯(lián)盟保留大范圍的代碼點(diǎn),以便覆蓋幾乎所有使用中的中文字符。這具有許多優(yōu)點(diǎn),但也產(chǎn)生一些新的挑戰(zhàn)。一個此類挑戰(zhàn)是使用什么區(qū)域變體不再明顯,因?yàn)橹灰哂羞m當(dāng)?shù)淖煮w支持,區(qū)域變體便可以以相同的文本顯示。上面提及的變體姓名才澤東”、才數(shù)翻”、才嬌翻”以及甚至才嬌東”可以全部存在于單個人名數(shù)據(jù)庫中。如果給出任何一個變體作為查詢姓名,則姓名匹配技術(shù)必須能夠匹配所有其它變體。
[0005]現(xiàn)有姓名搜索系統(tǒng)沒有這種能力。盡管谷歌搜索引擎(全球最受歡迎的搜索引擎之一)可讓用戶指定繁體和簡體中文作為兩個不同的語言選項,但是當(dāng)以其它語言選項指定返回結(jié)果時,它不會自動將采用繁體中文字符的查詢轉(zhuǎn)換為其簡體字符等效物,也不會自動將采用簡體中文字符的查詢轉(zhuǎn)換為其繁體字符等效物。百度搜索引擎(它是中國最受歡迎的搜索引擎之一)也沒有這種能力。
[0006]上面描述的問題因跨腳本姓名匹配而加重。已經(jīng)建議和實(shí)現(xiàn)各種技術(shù),特別是在跨語言信息檢索和機(jī)器翻譯方面,包括音譯、回音譯、并行姓名數(shù)據(jù)庫以及機(jī)器學(xué)習(xí)。但是,此類系統(tǒng)通常忽略一個腳本中的姓名可能在另一個腳本中具有多個表示,這或者是因?yàn)樵葱彰哂袔追N讀法(例如,日本漢字姓名),或者是因?yàn)樵凑Z言在目標(biāo)語言中具有多種音譯系統(tǒng)(例如,拼音、威妥瑪-翟理斯拼音和耶魯拼音實(shí)現(xiàn)用羅馬字母拼寫漢語)。即使當(dāng)存在這些音譯標(biāo)準(zhǔn)時,某個人也可能選擇不同于任何標(biāo)準(zhǔn)慣例的形式。
[0007]漢語中的所有中文字符都是單音節(jié)的。在中文計數(shù)聲調(diào)中僅有大約1,350個獨(dú)特音節(jié),或者當(dāng)不考慮聲調(diào)時,具有大約410個獨(dú)特音節(jié)。在具有數(shù)萬個中文字符的情況下,單個音節(jié)因此可以由許多不同的字符表示。因此,可以將可采用一系列不同中文字符寫出的姓名音譯成相同的用羅馬字母拼寫的形式。換言之,在漢字姓名及其用羅馬字母拼寫的形式之間具有多對一關(guān)系。因此,有利的是具有一種中文姓名匹配系統(tǒng),該系統(tǒng)能夠使中文字符變體和用羅馬字母拼寫的變體兩者匹配,同時明顯減少錯誤肯定的數(shù)量,這些錯誤肯定可能由于中文字符及其用羅馬字母拼寫的形式之間的多對一關(guān)系所致。
【發(fā)明內(nèi)容】

[0008]根據(jù)本發(fā)明的一個實(shí)施例,描述一種用于中文姓名匹配的技術(shù)。接收中文姓名并將其用羅馬字母拼寫成漢語拼音表示。將所述中文姓名的所述漢語拼音表示與源自多個不同中文字符姓名的一組用羅馬字母拼寫的中文姓名相匹配。響應(yīng)于在所述漢語拼音表示與用羅馬字母拼寫的中文姓名之間找到潛在匹配,檢索所述用羅馬字母拼寫的中文姓名的原始中文腳本。在所接收的中文姓名與所述用羅馬字母拼寫的中文姓名的所述原始中文腳本之間應(yīng)用原生腳本比較以獲得匹配得分。所述原生腳本比較包括逐字符比較、字符變體查找和/或有關(guān)姓名組成未對齊的考慮。將所獲得的匹配得分用作過濾器以便減少在將所述漢語拼音表示與所述一組用羅馬字母拼寫的中文姓名相匹配中生成的錯誤肯定。
[0009]在以下附圖和描述中提供了本發(fā)明的一個或多個實(shí)施例的細(xì)節(jié)。從說明書和附圖以及權(quán)利要求,本發(fā)明的其它特性和優(yōu)點(diǎn)將顯而易見。
【專利附圖】

【附圖說明】
[0010]圖1示出根據(jù)一個實(shí)施例的其中可以實(shí)現(xiàn)中文姓名匹配的計算機(jī)系統(tǒng)(10);
[0011]圖2示出根據(jù)一個實(shí)施例的用于中文姓名匹配的處理器(200);
[0012]圖3示出根據(jù)一個實(shí)施例的圖2的中文字符比較步驟212的詳細(xì)視圖;
[0013]圖4示出根據(jù)一個實(shí)施例的其中可以實(shí)現(xiàn)中文人名音譯的計算機(jī)系統(tǒng)(AlO);
[0014]圖5示出根據(jù)一個實(shí)施例的用于中文人名音譯的過程(A200);
[0015]圖6是根據(jù)一個實(shí)施例的圖5的姓名模式解析步驟A204的更詳細(xì)視圖;
[0016]圖7是根據(jù)一個實(shí)施例的圖5的音譯步驟A206的更詳細(xì)視圖。
[0017]不同附圖中的相同參考符號指示相同元素。
【具體實(shí)施方式】
[0018]在此描述的各實(shí)施例涉及用于中文姓名匹配的技術(shù),這些技術(shù)能夠使中文字符變體和用羅馬字母拼寫的變體相匹配,同時明顯減少由中文字符及其用羅馬字母拼寫的形式之間的多對一關(guān)系導(dǎo)致的錯誤肯定的數(shù)量。根據(jù)各實(shí)施例,首先通過中文姓名音譯算法用羅馬字母拼寫中文姓名,該算法在本申請說明書的附件中描述。直接使用符合標(biāo)準(zhǔn)漢語拼音表示的用羅馬字母拼寫的姓名進(jìn)行跨語言姓名匹配,就像已經(jīng)采用以羅馬字母拼寫的形式或者已經(jīng)從其它受支持腳本(例如阿拉伯語、西里爾文等)用羅馬字母拼寫的姓名。如果查詢姓名和返回姓名都是中文字符,則應(yīng)用原生腳本比較。這包括逐字符比較、字符變體查找以及考慮姓名組成未對齊。將中文姓名匹配用作過濾器,以便減少從用羅馬字母拼寫的比較生成的錯誤肯定。
[0019]所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明的各個方面可以實(shí)現(xiàn)為系統(tǒng)、方法或計算機(jī)程序產(chǎn)品。因此,本發(fā)明的各個方面可以具體實(shí)現(xiàn)為以下形式,即:完全的硬件實(shí)施方式、完全的軟件實(shí)施方式(包括固件、駐留軟件、微代碼等),或硬件和軟件方面結(jié)合的實(shí)施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。此外,本發(fā)明的各個方面還可以實(shí)現(xiàn)為在一個或多個計算機(jī)可讀介質(zhì)中的計算機(jī)程序產(chǎn)品的形式,該計算機(jī)可讀介質(zhì)中包含計算機(jī)可讀的程序代碼。[0020]可以采用一個或多個計算機(jī)可讀介質(zhì)的任意組合。計算機(jī)可讀介質(zhì)可以是計算機(jī)可讀信號介質(zhì)或者計算機(jī)可讀存儲介質(zhì)。計算機(jī)可讀存儲介質(zhì)例如可以是一但不限于一電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者上述的任意合適的組合。計算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計算機(jī)盤、硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPROM或閃存)、光纖、便攜式緊湊盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
[0021]計算機(jī)可讀的信號介質(zhì)可以包括例如在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括一但不限于一電磁信號、光信號或上述的任意合適的組合。計算機(jī)可讀的信號介質(zhì)可以是計算機(jī)可讀存儲介質(zhì)以外的任何計算機(jī)介質(zhì),該計算機(jī)介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
[0022]計算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一但不限于一無線、有線、光纜、RF等等,或者上述的任意合適的組合??梢砸砸环N或多種程序設(shè)計語言的任意組合來編寫用于執(zhí)行本發(fā)明的各個方面的操作的計算機(jī)程序代碼,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言一諸如Java、Smalltalk、C++等,還包括常規(guī)的過程式程序設(shè)計語言一諸如“C”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算機(jī)上執(zhí)行、部分地在用戶計算機(jī)上執(zhí)行、作為一個獨(dú)立的軟件包執(zhí)行、部分在用戶計算機(jī)上部分在遠(yuǎn)程計算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計算機(jī)的情形中,遠(yuǎn)程計算機(jī)可以通過任意種類的網(wǎng)絡(luò)一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN) —連接到用戶計算機(jī),或者,可以連接到外部計算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
[0023]下面將參照根據(jù)本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明的各個方面。應(yīng)當(dāng)理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計算機(jī)程序指令實(shí)現(xiàn)。這些計算機(jī)程序指令可以提供給通用計算機(jī)、專用計算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,使得這些指令在通過計算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器執(zhí)行時,產(chǎn)生了實(shí)現(xiàn)流程圖和/或框圖中的一個或多個方框中規(guī)定的功能/動作的裝置。
[0024]也可以把這些計算機(jī)程序指令存儲在計算機(jī)可讀介質(zhì)中,這些指令使得計算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備以特定方式工作,從而,存儲在計算機(jī)可讀介質(zhì)中的指令就產(chǎn)生出包括實(shí)現(xiàn)流程圖和/或框圖中的一個或多個方框中規(guī)定的功能/動作的指令的制造品(article of manufacture)0
[0025]也可以把計算機(jī)程序指令加載到計算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備上,使得在計算機(jī)、其它可編程裝置或其它設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計算機(jī)實(shí)現(xiàn)的過程,從而使得在計算機(jī)或其它可編程裝置上執(zhí)行的指令提供實(shí)現(xiàn)流程圖和/或框圖中的一個或多個方框中規(guī)定的功能/動作的過程。
[0026]現(xiàn)在參考圖1,示出中文姓名匹配系統(tǒng)(10)的一個實(shí)例的示意圖。應(yīng)該注意,中文姓名匹配系統(tǒng)(10)僅是合適的中文姓名匹配系統(tǒng)的一個實(shí)例,并非旨在建議對在此描述的本發(fā)明實(shí)施例的使用范圍或功能的任何限制。還應(yīng)該注意,盡管在此使用的實(shí)例涉及中文姓名匹配,但同樣可以針對任何其它基于字符的語言實(shí)現(xiàn)基本原理和技術(shù)。
[0027]中文姓名匹配系統(tǒng)(10)包括計算機(jī)系統(tǒng)12,其可以使用許多其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置運(yùn)行,如上所述。計算機(jī)系統(tǒng)(12)可以在由計算機(jī)系統(tǒng)執(zhí)行的計算機(jī)系統(tǒng)可執(zhí)行指令(例如程序模塊)的一般上下文中描述。計算機(jī)系統(tǒng)(12)可以在通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行任務(wù)的分布式云計算環(huán)境中實(shí)施。在分布式云計算環(huán)境中,程序模塊可以位于包括存儲設(shè)備的本地或遠(yuǎn)程計算機(jī)系統(tǒng)存儲介質(zhì)中。
[0028]如圖1中所示,中文姓名匹配系統(tǒng)(10)中的計算機(jī)系統(tǒng)(12)以通用計算設(shè)備的形式示出。計算機(jī)系統(tǒng)(12)的組件可以包括但不限于:一個或多個處理器或處理單元(16)、系統(tǒng)存儲器(28),以及連接不同系統(tǒng)組件(包括系統(tǒng)存儲器(28)和處理器(16))的總線(18)。
[0029]如下面進(jìn)一步示出和描述的,存儲器(28)可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置為執(zhí)行本發(fā)明實(shí)施例的功能。具有一組程序模塊(42 )的程序/實(shí)用工具(40 ),可以存儲在存儲器(28 )中,這樣的程序模塊42包括但不限于操作系統(tǒng)、一個或多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些實(shí)例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊(42)通常執(zhí)行在此描述的本發(fā)明實(shí)施例的功能和/或方法。
[0030]計算機(jī)系統(tǒng)(12)也可以與一個或多個外部設(shè)備(14)(例如鍵盤、指向設(shè)備、顯示器(24)等)通信,還可與一個或多個使得用戶能與計算機(jī)系統(tǒng)(12)交互的設(shè)備通信,和/或與使得計算機(jī)系統(tǒng)(12)能與一個或多個其它計算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等)通信。這種通信可以通過輸入/輸出(I/O)接口(22)進(jìn)行。并且,計算機(jī)系統(tǒng)(12)可以通過網(wǎng)絡(luò)適配器(20)與一個或多個網(wǎng)絡(luò)(例如局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。
[0031]如上所述,可以根據(jù)本發(fā)明的不同實(shí)施例實(shí)現(xiàn)多個優(yōu)點(diǎn)。例如,支持跨腳本姓名匹配;與常規(guī)技術(shù)相比,可以減少用羅馬字母拼寫的中文姓名中的錯誤肯定匹配的數(shù)量,這些錯誤肯定匹配由于漢字姓名及其用羅馬字母拼寫的形式之間的多對一關(guān)系導(dǎo)致;以及可以解決在來自不同中文區(qū)域的中文姓名表示中常見的字符變體導(dǎo)致的匹配問題。
[0032]圖2示出根據(jù)一個實(shí)施例的用于執(zhí)行中文姓名匹配的過程(200)。如可以在圖2中看到的,所述過程首先接收中文姓名(步驟202)。接下來,使用基于標(biāo)準(zhǔn)羅馬字母拼寫體系的算法(在本申請說明書的附件中描述),用羅馬字母拼寫姓名(步驟204)。通過以下操作執(zhí)行用羅馬字母拼寫:將所接收的中文姓名解析成姓氏和名字;將所標(biāo)識的姓氏和所標(biāo)識的名字音譯成用羅馬字母拼寫的表示;以及將姓氏和名字的用羅馬字母拼寫的表示規(guī)范化為與標(biāo)準(zhǔn)的用羅馬字母拼寫的中文取名慣例一致的表示。其中每個步驟的細(xì)節(jié)在本申請說明書的附件中描述,但一般地說,用羅馬字母拼寫步驟204的輸出是一組表示中文姓名的羅馬字符,并且不包括任何特殊字符。
[0033]然后對照一組現(xiàn)有的用羅馬字母拼寫的姓名來檢查中文姓名的用羅馬字母拼寫的版本,以便檢測用羅馬字母拼寫的形式中是否具有任何匹配(步驟206)。根據(jù)獲得的匹配得分是否滿足可以由用戶設(shè)置的預(yù)定義閾值,返回用羅馬字母拼寫的姓名匹配結(jié)果(可以將它們視為一組“初始匹配”)。例如,ZHANG DECAI應(yīng)該以高匹配得分與CHANG TETSAI匹配,因?yàn)樗鼈兪菑膬蓚€不同羅馬字母拼寫體系產(chǎn)生的相同的用羅馬字母拼寫的姓名。Wu和Ng作為姓氏也獲得高匹配得分,因?yàn)樗鼈兪窍嗤幕拘帐?,在兩種方言(在漢語和粵語)中具有兩種不同的發(fā)音,因此是彼此的變體。在某些實(shí)施例中,將發(fā)音相似的姓名包括在匹配結(jié)果中。例如,某些中文方言沒有卷舌,并且說這些方言的說話者可能難以區(qū)分漢語中的“C” “CH”。因此,ZHANG DECAI和ZHANG DECHAI聽起來非常相似,并且也會產(chǎn)生相對高的得分。
[0034]如果在步驟206沒有找到滿足閾值的匹配,則過程(200)結(jié)束。如果具有滿足閾值的匹配,則判定查詢和匹配的姓名兩者是否包含相同的原始腳本(即,不用羅馬字母拼寫)(步驟208)。如果姓名均不包含相同的原始腳本,則保留用羅馬字母拼寫的姓名匹配結(jié)果(步驟210),并且所述過程結(jié)束。
[0035]如果在步驟208判定查詢和匹配的姓名兩者包含相同的原始腳本(S卩,中文腳本),則執(zhí)行原生中文腳本比較(步驟212),該步驟在下面參考圖3進(jìn)一步詳細(xì)描述。
[0036]步驟212的結(jié)果是匹配得分,其指示中文字符的匹配程度。即,它實(shí)際上充當(dāng)過濾器,該過濾器從步驟206的初始的用羅馬字母拼寫的匹配中消除錯誤肯定匹配。一旦完成中文字符比較,則計算中文和用羅馬字母拼寫的匹配的綜合匹配得分,其指示匹配的可能性,并且將該得分與閾值相比較(步驟214)。用戶可以針對匹配得分設(shè)置最小閾值,低于該閾值的姓名被視為不匹配。如果匹配得分低于該閾值,則過程(200)結(jié)束。否則,返回中文匹配得分(步驟216)。這將結(jié)束過程(200)。
[0037]圖3示出原生中文腳本比較步驟212的更詳細(xì)視圖。當(dāng)在步驟206檢測的所接收的中文姓名和匹配的用羅馬字母拼寫的姓名具有相同腳本(如在圖2的步驟210確定的那樣)時,執(zhí)行該過程,以便進(jìn)一步改進(jìn)比較結(jié)果。如可以在圖3中看到的,過程(212)首先將所接收的中文字符與通過用羅馬字母拼寫匹配步驟找到的中文字符相比較(步驟302),以便查看是否具有精確匹配。如果找到精確匹配,則為對指定匹配得分1.0,并且所述過程結(jié)束。
[0038]如果沒有找到精確匹配,則所述過程通過使用非羅馬(中文)變體表進(jìn)行逐字符比較,針對變體匹配測試兩個字符(步驟304)。將查詢姓名中的每個字符與匹配姓名中的每個字符相比較。為匹配的變體賦予指示匹配的接近程度的得分。在一個實(shí)施例中,中文變體表包含相關(guān)中文字符對和關(guān)聯(lián)的匹配得分。變體對例如包括簡體-繁體變體以及在統(tǒng)一碼數(shù)據(jù)中定義的其它變體。在某些實(shí)施例中,可以定制中文變體表,即,它是用戶可配置的表。中文變體表針對每個變體對包含一個得分,該得分用于指示字符對的密切相關(guān)程度。通常為簡體和繁體字符對提供高得分。應(yīng)該注意,在其它基于字符的語言中,可以實(shí)現(xiàn)相似的變體表,以便將一組字符映射到另一組具有關(guān)聯(lián)的接近程度得分的變體(例如,采用日語)。
[0039]在一個實(shí)施例中,中文變體表可以包含以下變體對和得分:
[0040]0.95財:財[繁體-簡體]
[0041]0.80才:財[專用語義變體]
[0042]如果找到變體匹配,則計算變體得分并且將其指定給匹配得分。例如,對于繁體姓名-簡體姓名,這將產(chǎn)生以下匹配得分:
[0043]李得財-李得財?shù)梅?98
[0044]對于語義變體中的姓名,將獲得以下匹配得分:[0045]李得才-李得財?shù)梅?93
[0046]如果沒有找到變體匹配,則獲得為O的匹配得分。不進(jìn)行進(jìn)一步的比較,并且不與步驟212的匹配結(jié)果一起返回姓名。
[0047]如果查詢姓名包含多個字符,則針對姓名的每個字符執(zhí)行步驟304和306,直到確定已經(jīng)比較所有的字符(步驟308)。最后,判定變體匹配得分是否足夠以便在初始搜索匹配結(jié)果中返回(步驟310)。如果匹配得分足夠,則使用它計算綜合匹配得分,如上面針對步驟214描述的那樣。
[0048]應(yīng)該注意,如果具有多個字符,則可以將個體匹配得分相加并平均,以便針對整個字符組產(chǎn)生匹配得分,從而產(chǎn)生最終的中文姓名匹配得分。還應(yīng)該注意,這僅是一個實(shí)例,并且所屬【技術(shù)領(lǐng)域】的普通技術(shù)人員可以使用許多方式針對字符組產(chǎn)生匹配得分。在某些實(shí)施例中,如果所有字符都匹配但采用不同順序,則向姓名匹配得分應(yīng)用罰分。
[0049]因此,如前所述,可以將在步驟214計算的中文姓名匹配得分用作“過濾器”,以便丟棄從初始的用羅馬字母拼寫的姓名匹配中找到的匹配。這有助于緩解由中文字符及其用羅馬字母拼寫的形式之間的多對一關(guān)系導(dǎo)致的“錯誤肯定”的問題。
[0050]附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的不同實(shí)施例的系統(tǒng)、方法和計算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計算機(jī)指令的組合來實(shí)現(xiàn)。
[0051]在此使用的術(shù)語只是為了描述特定的實(shí)施例并且并非旨在作為本發(fā)明的限制。如在此使用的,單數(shù)形式“一”、“一個”和“該”旨在同樣包括復(fù)數(shù)形式,除非上下文明確地另有所指。還將理解,當(dāng)在此說明書中使用時,術(shù)語“包括”和/或“包含”指定了聲明的特性、整數(shù)、步驟、操作、元素和/或組件的存在,但是并不排除一個或多個其它特性、整數(shù)、步驟、操作、元素、組件和/或其組合的存在或增加。
[0052]下面權(quán)利要求中的對應(yīng)結(jié)構(gòu)、材料、操作以及所有功能性限定的裝置或步驟等同替換,旨在包括任何用于與在權(quán)利要求中具體指出的其它元件相組合地執(zhí)行該功能的結(jié)構(gòu)、材料或操作。出于示例和說明目的給出了對本發(fā)明的描述,但所述描述并非旨在是窮舉的或是將本發(fā)明限于所公開的形式。在不偏離本發(fā)明的范圍和精神的情況下,對于所屬【技術(shù)領(lǐng)域】的普通技術(shù)人員來說許多修改和變化都將是顯而易見的。實(shí)施例的選擇和描述是為了最佳地解釋本發(fā)明的原理和實(shí)際應(yīng)用,并且當(dāng)適合于所構(gòu)想的特定使用時,使得所屬【技術(shù)領(lǐng)域】的其它普通技術(shù)人員能夠理解本發(fā)明的具有各種修改的各種實(shí)施例。
[0053]附件
[0054]【具體實(shí)施方式】
[0055]在本附件中描述的各實(shí)施例涉及使用具有標(biāo)準(zhǔn)化音譯模塊的自動中文音譯器進(jìn)行中文音譯,該音譯器遵守中國官方指南并且準(zhǔn)確地將中文姓名音譯成用羅馬字母拼寫的形式,其中正確地解析和表示姓氏(SN)和名字(GN)。更具體地說,涉及幫助姓名匹配系統(tǒng)并且防止在音譯過程中丟失正確的SN和GN標(biāo)識,所述自動中文音譯器執(zhí)行三個基本處理步驟:(I)姓名解析,(2)姓名音譯,以及(3)姓名規(guī)范化。在音譯姓名之前,中文音譯器將原始的中文姓名解析成SN和GN字段。然后它利用ICU漢語-拉丁語模塊音譯SN和GN字段。因?yàn)镮CU漢語-拉丁語模塊未針對音譯中文姓名進(jìn)行優(yōu)化,所以最后步驟將ICU輸出規(guī)范化為表示,這些表示更好地反映用羅馬字母拼寫的實(shí)際中文取名慣例。
[0056]現(xiàn)在參考圖4,示出中文姓名音譯器(AlO)的一個實(shí)例的示意圖。應(yīng)該注意,中文姓名音譯器(AlO)僅是合適的中文姓名音譯器的一個實(shí)例,并非旨在建議對在此描述的本發(fā)明實(shí)施例的使用范圍或功能的任何限制。
[0057]中文姓名音譯器(AlO)包括計算機(jī)系統(tǒng)A12,其可以使用許多其它通用或?qū)S糜嬎阆到y(tǒng)環(huán)境或配置運(yùn)行,如上所述。計算機(jī)系統(tǒng)(A12)可以在由計算機(jī)系統(tǒng)執(zhí)行的計算機(jī)系統(tǒng)可執(zhí)行指令(例如程序模塊)的一般上下文中描述。計算機(jī)系統(tǒng)(A12)可以在通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行任務(wù)的分布式云計算環(huán)境中實(shí)施。在分布式云計算環(huán)境中,程序模塊可以位于包括存儲設(shè)備的本地或遠(yuǎn)程計算機(jī)系統(tǒng)存儲介質(zhì)中。
[0058]如圖4中所示,中文姓名音譯器(AlO)中的計算機(jī)系統(tǒng)(A12)以通用計算設(shè)備的形式示出。計算機(jī)系統(tǒng)(A12)的組件可以包括但不限于:一個或多個處理器或處理單元(A16)、系統(tǒng)存儲器(A28),以及連接不同系統(tǒng)組件(包括系統(tǒng)存儲器(A28)和處理器(A16))的總線(A18)。
[0059]如下面進(jìn)一步示出和描述的,存儲器(A28)可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置為執(zhí)行本發(fā)明實(shí)施例的功能。具有一組程序模塊(A42a-c)的程序/實(shí)用工具(A40),可以存儲在存儲器(A28)中,這樣的程序模塊A42a-c包括但不限于操作系統(tǒng)、一個或多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些實(shí)例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊(A42a-c)通常執(zhí)行在此描述的本發(fā)明實(shí)施例中的功能和/或方法。在一個實(shí)施例中,程序模塊(A42a-c)包括姓名解析模塊(A42a)、音譯模塊(A42b)和規(guī)范化模塊(A42c),如下面進(jìn)一步詳細(xì)描述的那樣。
[0060]計算機(jī)系統(tǒng)(A12)也可以與一個或多個外部設(shè)備(A14)(例如鍵盤、指向設(shè)備、顯示器(A24)等)通信,還可與一個或多個使得用戶能與計算機(jī)系統(tǒng)(A12)交互的設(shè)備通信,和/或與使得計算機(jī)系統(tǒng)(A12)能與一個或多個其它計算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等)通信。此類通信可以經(jīng)由輸入/輸出(I/O)接口(A22)進(jìn)行。并且,計算機(jī)系統(tǒng)(A12)可以通過網(wǎng)絡(luò)適配器(A20)與一個或多個網(wǎng)絡(luò)(例如局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。
[0061]圖5示出根據(jù)一個實(shí)施例的用于中文人名音譯的過程(A200),其可以由圖4中所示的中文姓名音譯器(AlO)執(zhí)行。如可以在圖5中看到的,所述過程首先例如通過接收用戶輸入或者從電子文檔讀取字符,接收要音譯的中文人名(步驟A202 )。
[0062]接下來,姓名解析模塊(A42a)根據(jù)中文姓名解析算法執(zhí)行姓名模式解析(步驟A204)。在圖6中進(jìn)一步詳細(xì)示出姓名模式解析。中文姓名解析算法基于常見姓氏集合,并且使用大量合法的可能SN和GN模式。盡管中文姓氏中的字符數(shù)量范圍可以從一個到四個,但最常見的姓氏具有單個字符,并且僅有小百分比的常用雙字符姓氏。中文姓氏字段還可以包含一個或兩個姓氏。中文名字可以使用一個或兩個字符。在所示實(shí)施例中,姓名模式解析按如下方式進(jìn)行:
[0063]可能的中文全名的長度可以短至兩個字符或者長至六個字符。因此,首先檢查姓名是否長于六個字符(步驟A302 )。如果姓名長于六個字符,則不解析中文姓名,并且所述過程返回到圖5的步驟A206,在該步驟音譯姓名,如下面進(jìn)一步詳細(xì)描述的那樣。如果中文姓名短于六個字符,則姓名模式解析繼續(xù)。應(yīng)該注意,在某些實(shí)施例中,對不完整的中文姓名(即,僅包含單個字符的那些姓名)仍進(jìn)行解析過程,以便判定字符是否更可能是SN或GN。
[0064]對于姓名解析,假設(shè)中文姓名字符采用“SN GN”順序。采用中文字符的本國中文姓名幾乎普遍以SN GN順序表示。因此,中文姓名字符的解析通常按照從左到右的順序進(jìn)行,以便首先標(biāo)識SN,然后標(biāo)識GN。在其中該順序不適用的罕見情況下,音譯姓名而不進(jìn)行解析,然后通過姓名匹配系統(tǒng)內(nèi)部的姓名解析算法解析以羅馬字母拼寫的形式。
[0065]根據(jù)中文全名的長度而應(yīng)用各種解析模式。例如,具有三個到五個字符的姓名可以具有多個可能模式。對多個模式進(jìn)行排序,以便首先為雙字符姓氏提供優(yōu)先級,然后為雙字符名字提供優(yōu)先級。因此,姓名模式解析按如下方式繼續(xù)。首先,使用可能姓氏集合,針對一個或多個雙字符姓氏測試姓名(步驟A304)。接下來,針對一個或多個單字符姓氏評估未在步驟A304標(biāo)識為雙字符姓氏的任何剩余字符(步驟A306)。在該步驟之后,將不屬于姓氏的任何剩余中文字符視為名字(步驟A308)。這將結(jié)束姓名模式解析步驟,并且所述過程返回到圖5的步驟A206,在該步驟音譯所標(biāo)識的GN (多個)和SN (多個),如下面描述的那樣。
[0066]以下實(shí)例示出圖6的姓名解析算法的一些結(jié)果。
[0067]實(shí)例1:前仟中國政治家江澤民
[0068]“江”是單字符姓氏。“澤”或“民”都不是姓氏,因此被視為GN字符。SN=[江]GN=[澤民]。
[0069]實(shí)例2:王李卓華
[0070]“王”和“李”都是單字符姓氏。SN=[王][李]GN=[卓華]
[0071]實(shí)例3:歐陽講修
[0072]“歐陽”是雙字符姓氏?!斑M(jìn)”和“修”不是姓氏,因此變成雙字符名字。SN=[歐陽]GN=[進(jìn)修]
[0073]實(shí)例4:端木李
[0074]“端木”是雙字符姓氏?!袄睢笔菃巫址帐?。但是,因?yàn)椤袄睢痹谧詈笪恢?,所以將其視為名字。SN=[端木]GN=[李]
[0075]實(shí)例5:歐陽諸葛弘前
[0076]“歐陽”和“諸葛”是雙字符姓氏。SN=[歐陽][諸葛]GN=[弘茹]
[0077]完成姓名模式解析之后,所述過程繼續(xù)執(zhí)行音譯(步驟A206)。在圖7中進(jìn)一步詳細(xì)示出該步驟。如可以在圖7中看到的,接收在步驟A204標(biāo)識的任何SN (多個MPGN (多個),以及無法解析成SN或GN的任何其它字符(步驟A402)。如上所述,在一個實(shí)施例中,所述過程利用ICU漢語-拉丁語模塊音譯姓名。無論姓名模式解析是否成功,都音譯姓名。已解析姓名和未解析姓名的不同之處在于可以在音譯期間保留SN和GN結(jié)構(gòu),因此促進(jìn)姓名匹配。[0078]然后選擇字符(步驟A404 ),并且判定字符是否是上下文敏感字符(步驟A406 )。例如,在某些罕見情況下,中文字符的發(fā)音對其所在的姓名字段敏感。如果在步驟A406判定字符是上下文敏感的,則將字符設(shè)置為繞過ICU漢語-拉丁語模塊并且由專用例外規(guī)則處理(步驟A408)。例如,姓氏字段中的“仇”將通過上下文敏感規(guī)則音譯成“QIU”,而不是由ICU漢語-拉丁語模塊翻譯為“CH0U”。漢語-拉丁語模塊尚未支持的字符由新音譯規(guī)則處理(如果可以確定字符的發(fā)音),或者為這些字符指定專用字符串,該字符串指示應(yīng)該在姓名匹配系統(tǒng)內(nèi)部處理的未處理音譯例外。
[0079]如果在步驟A406判定字符不是上下文敏感的,則使用ICU漢語-拉丁語模塊音譯字符(步驟A410)。在步驟A410音譯字符之后(或者在步驟A408應(yīng)用例外規(guī)則之后),所述過程檢查是否具有更多要音譯的字符(步驟A412)。如果具有更多的字符,則所述過程返回到步驟A404并且選擇另一個字符,如上所述。當(dāng)沒有更多要音譯的字符時,所述過程返回到圖5的步驟A208,如下面描述的那樣。
[0080]音譯完成之后,所述過程執(zhí)行音譯后的姓名的規(guī)范化(步驟A208)。如所屬【技術(shù)領(lǐng)域】的普通技術(shù)人員公知的,漢語-拉丁語模塊支持?jǐn)U展的拉丁字符集并且使用變音符號(diacritic)指示聲調(diào)。在規(guī)范化步驟A208中,刪除此類聲調(diào)標(biāo)記。刪除或替換在解析和音譯階段中添加的符號,以便最終輸出符合使用音譯模塊(A42b)的應(yīng)用所規(guī)定的格式。最后,輸出中文姓名的用羅馬字母拼寫的版本(步驟A210),這標(biāo)志過程(A200)的結(jié)束。應(yīng)該注意,盡管通過實(shí)例并且參考中文姓名描述了上面的技術(shù),但所屬【技術(shù)領(lǐng)域】的普通技術(shù)人員可以修改這些技術(shù),例如可以將它們應(yīng)用于除中文以外的語言。
【權(quán)利要求】
1.一種用于中文姓名匹配的計算機(jī)實(shí)現(xiàn)的方法,包括: 由處理器接收中文姓名; 由所述處理器將所接收的中文姓名用羅馬字母拼寫成漢語拼音表示; 由所述處理器將所述中文姓名的所述漢語拼音表示與一組用羅馬字母拼寫的中文姓名相匹配,其中所述用羅馬字母拼寫的中文姓名源自多個不同的中文字符姓名; 響應(yīng)于在所述漢語拼音表示與用羅馬字母拼寫的中文姓名之間找到潛在匹配,由所述處理器檢索所述用羅馬字母拼寫的中文姓名的原始中文腳本;以及 由所述處理器在所接收的中文姓名與所述用羅馬字母拼寫的中文姓名的所述原始中文腳本之間應(yīng)用原生腳本比較作為過濾器,以便減少在將所述中文姓名的所述漢語拼音表示與所述一組用羅馬字母拼寫的中文姓名相匹配中生成的錯誤肯定。
2.根據(jù)權(quán)利要求1的方法,其中所述原生腳本比較包括以下項中的一個或多個:逐字符比較、字符變體查找以及有關(guān)姓名組成未對齊的考慮。
3.根據(jù)權(quán)利要求1的方法,其中所述原生腳本比較產(chǎn)生匹配得分,其中將所述匹配得分用作過濾器以便減少在將所述中文姓名的所述漢語拼音表示與所述一組用羅馬字母拼寫的中文姓名相匹配中生成的錯誤肯定。
4.根據(jù)權(quán)利要求1的方法,其中用羅馬字母拼寫所述中文姓名包括: 將所接收的中文姓名解析成姓氏和名字; 將所標(biāo)識的姓氏和所標(biāo)識的名字音譯成用羅馬字母拼寫的表示;以及將所述姓氏和所述名字的所述用羅馬字母拼寫的表示規(guī)范化為與標(biāo)準(zhǔn)的用羅馬字母拼寫的中文取名慣例一致的表示。
5.根據(jù)權(quán)利要求1的方法,其中僅當(dāng)所接收的中文姓名和所述用羅馬字母拼寫的中文姓名的所述原始中文腳本是相同腳本時才執(zhí)行應(yīng)用所述原生腳本比較。
6.根據(jù)權(quán)利要求1的方法,其中在中文變體表中執(zhí)行字符變體查找,所述中文變體表包含多個字符對和用于每對字符的指示該對字符的密切相關(guān)程度的得分。
7.根據(jù)權(quán)利要求1的方法,還包括: 基于有關(guān)姓名組成未對齊的考慮而調(diào)整所述匹配得分。
8.一種用于中文姓名匹配的計算機(jī)系統(tǒng),所述系統(tǒng)包括用于實(shí)現(xiàn)權(quán)利要求1-7的任何方法的任何步驟的裝置。
9.一種用于中文姓名匹配的系統(tǒng),包括: 處理器; 包含指令的存儲器,所述指令可由所述處理器執(zhí)行以便導(dǎo)致所述處理器執(zhí)行以下操作: 由所述處理器接收中文姓名; 由所述處理器將所接收的中文姓名用羅馬字母拼寫成漢語拼音表示; 由所述處理器將所述中文姓名的所述漢語拼音表示與一組用羅馬字母拼寫的中文姓名相匹配,其中所述用羅馬字母拼寫的中文姓名源自多個不同的中文字符姓名; 響應(yīng)于在所述漢語拼音表示與用羅馬字母拼寫的中文姓名之間找到潛在匹配,由所述處理器檢索所述用羅馬字母拼寫的中文姓名的原始中文腳本;以及 由所述處理器在所接收的中文姓名與所述用羅馬字母拼寫的中文姓名的所述原始中文腳本之間應(yīng)用原生腳本比較作為過濾器,以便減少在將所述中文姓名的所述漢語拼音表示與所述一組用羅馬字母拼寫的中文姓名相匹配中生成的錯誤肯定。
10.根據(jù)權(quán)利要求9的系統(tǒng),其中所述原生腳本比較包括以下項中的一個或多個:逐字符比較、字符變體查找以及有關(guān)姓名組成未對齊的考慮。
11.根據(jù)權(quán)利要求9的系統(tǒng),其中所述原生腳本比較產(chǎn)生匹配得分,其中將所述匹配得分用作過濾器以便減少在將所述中文姓名的所述漢語拼音表示與所述一組用羅馬字母拼寫的中文姓名相匹配中生成的錯誤肯定。
12.根據(jù)權(quán)利要求9的系統(tǒng),其中用羅馬字母拼寫所述中文姓名包括: 將所接收的中文姓名解析成姓氏和名字; 將所標(biāo)識的姓氏和所標(biāo)識的名字音譯成用羅馬字母拼寫的表示;以及 將所述姓氏和所述名字的所述用羅馬字母拼寫的表示規(guī)范化為與標(biāo)準(zhǔn)的用羅馬字母拼寫的中文取名慣例一致的表示。
13.根據(jù)權(quán)利要求9的系統(tǒng),其中僅當(dāng)所接收的中文姓名和所述用羅馬字母拼寫的中文姓名的所述原始中文腳本是相同腳本時才執(zhí)行應(yīng)用所述原生腳本比較。
14.根據(jù)權(quán)利要求9的系統(tǒng),其中在中文變體表中執(zhí)行字符變體查找,所述中文變體表包含多個字符對和用于每對字符的指示該對字符的密切相關(guān)程度的得分。
15.根據(jù)權(quán)利要求9的系統(tǒng),還包括: 基于有關(guān)姓名組成未對齊的考慮而調(diào)整所述匹配得分。
【文檔編號】G06F17/30GK104008123SQ201410060194
【公開日】2014年8月27日 申請日期:2014年2月21日 優(yōu)先權(quán)日:2013年2月26日
【發(fā)明者】黃書東, N·C·金 申請人:國際商業(yè)機(jī)器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1