專利名稱:標識相關名稱的制作方法
技術(shù)領域:
本發(fā)明一般地涉及標識相關名稱。
背景技術(shù):
數(shù)據(jù)庫是以下述方式組織的信息集合,在該方式中,計算機程序可以快速容易地選擇期望的數(shù)據(jù)分段。數(shù)據(jù)庫一般包括大量的記錄,每條記錄包括一個和多個字段。每個字段一般存儲單個信息分段。
在這種數(shù)據(jù)庫中,對與個人相關聯(lián)的記錄的檢索一般包括使用唯一的標識值,或者“鍵”,例如ID號。對于某些檢索任務,唯一的標識值并不總是可用,并且個人的名稱自身必須用作標識值或“鍵”。
但是,人名具有若干限制,這些限制抑止了它們作為從數(shù)據(jù)庫檢索信息的標識值的有效性。例如,人名不是唯一的。無數(shù)的個人可能擁有在某些元素甚至所有元素方面與許多其他個人相同的姓名。在極端的情況中,數(shù)千甚至數(shù)以百計的不同的人共同使用相同的姓名。相反,非常相關的人員每個在拼寫共同擁有的姓時有時在拼寫方式上表現(xiàn)出極大的差異。另外,具體的個人可能出現(xiàn)在一個數(shù)據(jù)庫的多個不同的記錄中,并且該人的姓名可以在那些數(shù)據(jù)庫記錄中以稍稍不同或非常不同的形式給出。
另外,姓名的使用并不一致。在美國社會中,實際上在全球大多社會中,在提供隨后放置到數(shù)據(jù)庫中的信息時,允許個人在一定程度上自由確定他們以口頭或書面提供姓名的形式。
此外,姓名會隨時間改變。姓名是用于記錄各種類型的信息的社會對象,所以隨著時間流逝可以以各種方式對他們進行修改,以便通過該載體反映社會或個人狀態(tài)的改變。在許多西方社會中,例如,姓名可能隨時間改變,以便反應婚姻狀態(tài)、教育或?qū)I(yè)成就,甚至性別關系的改變。
使用個人姓名作為數(shù)據(jù)庫鍵的另一個缺點是不能一致地獲得姓名。由于在特定的語言中驗證姓名的拼法比驗證大都其他詞的拼法更困難,所以數(shù)據(jù)庫中的姓名信息發(fā)生拼寫和鍵入錯誤的幾率很大。
由于命名傳統(tǒng)傾向于隨文化不同而不同,所以這使使用個人姓名作為標識符更困難了。可能假設結(jié)構(gòu)為單個教名(名字),單個中間名或直接跟隨姓(姓)的典型美國人姓名結(jié)構(gòu)應用到包含來自全世界的姓名的數(shù)據(jù)庫是不合適的。例如,來自其他文化的姓名可能具有復姓或可能僅由一個名稱構(gòu)成。
此外,在多種語言/文化之間和單一語言/文化內(nèi),姓名可能具有不同的形式和變體。同一姓名的若干變體可能指單個人或?qū)嶓w。例如,基于書寫的語言,一個姓名可能被不同拼寫,這些不同的拼寫指單個人。另外,個人的姓名及其稱謂/頭銜可能由于一個事件而以一定模式的可預測的方式改變,例如結(jié)婚、守寡或者從專業(yè)學校畢業(yè)。類似地,打字錯誤或其他噪聲源可能產(chǎn)生姓名的變體,該變體與原始姓名指向同一個人。將一個姓名的每個變體作為指向不同人員或?qū)嶓w來對待相比,匹配可能都指向同一個人的一個姓名的變體可能是有益的。
發(fā)明內(nèi)容
在一個一般方面中,一種標識相關姓名的系統(tǒng)包括持久地存儲姓名集合的數(shù)據(jù)存儲設備。所述數(shù)據(jù)存儲設備中至少一個姓名由該姓名的母語拼寫形式(NOF)和該母語拼寫形式的音譯形式二者表示。該系統(tǒng)包括構(gòu)造并布置為接收輸入姓名的輸入界面。音譯模塊被構(gòu)造并布置為產(chǎn)生輸入姓名的至少一個音譯形式。標識符被構(gòu)造并布置為從數(shù)據(jù)存儲設備中標識出與輸入姓名的音譯形式相關的至少一個姓名。輸出界面呈現(xiàn)從數(shù)據(jù)存儲設備中標識出的至少一個姓名作為與輸入姓名相關的姓名。
該方面的實現(xiàn)方式可以包括一個或多個以下示例性特征。數(shù)據(jù)存儲設備中的姓名中的至少一個可以通過對該姓名的母語拼寫形式進行音譯導出。在數(shù)據(jù)存儲設備中,至少一個姓名由利用該姓名的羅馬化或非羅馬化版本的母語拼寫形式和利用該姓名的羅馬化或非羅馬化版本的音譯形式表示。在接收到母語拼寫形式(例如,西里爾、阿拉伯、漢語、Hangul、羅馬或希臘書寫形式,或者這些書寫形式的擴展)的輸入姓名的情況下,可以從接收到的輸入姓名的母語拼寫形式生成該輸入姓名的一個或多個羅馬化形式。
音譯模塊可以產(chǎn)生單個輸入姓名的多個音譯形式,這多個音譯形式中的許多或每個用來從數(shù)據(jù)存儲設備中標識相關姓名。
輸入姓名的音譯形式可以被與數(shù)據(jù)存儲設備中存儲的姓名的類似形式匹配??梢越o與輸入姓名的音譯形式匹配的姓名的類似形式中的每個都分配一個分值。每個分值可以指示輸入姓名的音譯形式和對應的類似形式之間的匹配程度。如果輸入姓名的音譯形式是羅馬形式,并且在數(shù)據(jù)存儲設備中存儲的姓名的音譯形式也是羅馬形式,則輸入姓名的羅馬形式被與在數(shù)據(jù)存儲設備中存儲的姓名的羅馬形式匹配。相反,輸入姓名的音譯形式是非羅馬形式,并且在數(shù)據(jù)存儲設備中存儲的姓名的音譯形式也是非羅馬形式,則輸入姓名的非羅馬形式與在數(shù)據(jù)存儲設備中存儲的姓名的非羅馬形式匹配。
由數(shù)據(jù)存儲設備存儲的母語拼寫形式可以被標識為與數(shù)據(jù)存儲設備中的被確定與輸入姓名的音譯形式匹配的一個或多個姓名的音譯形式相對應。所產(chǎn)生的結(jié)果包括存儲設備內(nèi)的被確定與輸入姓名的音譯形式匹配的姓名的一個或多個音譯形式或母語拼寫形式。
在另一個一般方面中,該系統(tǒng)可以基于各種標準從候選的可能音譯方案中選擇要應用到輸入姓名的音譯方案,所述各種標準例如包括(1)輸入姓名的特性,例如,輸入姓名內(nèi)在的地理或語言學指示,(2)輸入姓名所匹配的姓名池的特性,和/或(3)在標識從其接收到輸入姓名的一方的地理或語言學特性時可能有用的輸入姓名或姓名池的外部數(shù)據(jù)。這樣,一種標識相關姓名的系統(tǒng)包括用于持久地存儲姓名集合的數(shù)據(jù)存儲設備。該系統(tǒng)包括構(gòu)造并配置為接收輸入姓名的輸入界面。音譯模塊被構(gòu)造并布置為應用動態(tài)選擇的音譯方案來產(chǎn)生輸入姓名的至少一個音譯形式,其中該音譯方案是由模塊從可應用到輸入姓名的若干音譯方案中動態(tài)選擇出的。標識符被構(gòu)造并布置為從數(shù)據(jù)存儲設備中標識出與輸入姓名的音譯形式相關的至少一個姓名。輸出界面呈現(xiàn)從數(shù)據(jù)存儲設備中標識出的至少一個姓名作為與輸入姓名相關的姓名。
除了以上相對于其他方面指示出的那些外,本方面的實現(xiàn)方式可以包括以下示例性特征中的一個或多個。用于動態(tài)選擇音譯方案的模塊可以包括用于確定輸入姓名的特性的模塊,以及基于所確定出的輸入姓名的特性來從若干可用音譯方案選擇要應用到所述輸入姓名的音譯方案的模塊。所確定的輸入姓名的特性可以包括輸入姓名的候選母語拼寫形式,該候選母語拼寫形式可以是基于與輸入姓名的一個或多個字符關聯(lián)的Unicode的范圍確定的。
此外,可以針對輸入姓名的多于一個分段確定獨立的特性,其中輸入姓名的分段與整個輸入姓名中的不同名稱獨立對應。例如,可以確定輸入姓名的第一段的第一特性和輸入姓名的第二段的第二特性,其中第一特性和第二特性不同。在一種實現(xiàn)方式中,第一特性對應于第一候選母語拼寫形式,第二特性對應于第二候選母語拼寫形式,并且第二候選母語拼寫形式與第一候選母語拼寫形式不同。在每種實例中,第一和第二候選母語拼寫形式可以代表單種語言內(nèi)的母語拼寫形式。
另外或可替換地,用于動態(tài)選擇音譯方案的模塊可以包括用于確定數(shù)據(jù)存儲設備內(nèi)的姓名的特性的模塊,以及用于基于所確定的數(shù)據(jù)存儲設備內(nèi)的姓名的特性來從若干個可用的音譯方案中選擇要應用到輸入姓名的音譯方案的模塊。用于確定數(shù)據(jù)存儲設備內(nèi)的姓名的特性的模塊可以被構(gòu)造并布置為標識相對于其他音譯形式頻繁出現(xiàn)的所存儲的姓名的母語拼寫形式的一種或多種特定音譯形式,并且用于選擇要應用到輸入姓名的音譯方案的模塊可以被構(gòu)造并布置為選擇與所標識出的一種或多種特定音譯形式相對應的音譯方案。
另外或可替換地,用于動態(tài)選擇音譯方案的模塊可以包括用于接收與輸入姓名的母語拼寫形式相關的外部數(shù)據(jù)的模塊,以及用于基于所接收到的外部數(shù)據(jù)來從若干可用音譯方案中選擇要應用到輸入姓名的音譯方案的模塊。外部數(shù)據(jù)可以包括與從其接收到輸入姓名的人員相關的地理數(shù)據(jù),例如從所述人員給出的標識文檔導出的信息,例如,護照、簽證、綠卡或者駕照。
這些一般的或特定的方面可以利用系統(tǒng)、方法或者計算機程序,或者系統(tǒng)、方法和計算機程序的任意組合實現(xiàn)。
從以下描述和附圖,以及從權(quán)利要求書將清楚其他特征。
圖1A、1B和1C是示出了能夠標識相關或匹配姓名的示例性系統(tǒng)的結(jié)構(gòu)、布置和操作的框圖,其中所述姓名是可用在一種或多種語言中的姓名的多個版本。
圖1D是示出了這樣的數(shù)據(jù)庫的內(nèi)容的示意圖,該數(shù)據(jù)庫包含母語拼寫形式的姓名和該母語形式的音譯形式。
圖2和圖3是示出了用于標識相關姓名的示例性過程的流程圖。
圖4、5和6示出了用于使尋求標識相關姓名的用戶能夠輸入和輸出的示例性界面。
具體實施例方式
傳統(tǒng)上可以使用單個搜索工具來方便地匹配輸入姓名的各種母語拼寫形式,該搜索工具能夠?qū)碜远喾N不同的母語拼寫形式的姓名音譯到一個公共域,在該域中,可以標識出在這些姓名之間共享的特性。這種搜索工具可以受益于接納處于它們的接收形式或母語拼寫形式的姓名的輸入的能力,而不論它們將與其匹配的已存儲的姓名的形式如何。具體而言,由于將單個姓名從其母語拼寫形式音譯倒另一種形式常常可能產(chǎn)生若干不同的候選姓名,但是這種工具允許標識出每種不同的候選姓名,并且從而確定每個不同的候選姓名的匹配。
使得在提供來自這種工具的輸出時能夠理解處于其母語拼寫形式的姓名而不論那些用來確定它們是否與輸入姓名匹配姓名的形式如何也是有用的。例如,使得能夠理解處于其母語拼寫形式的匹配姓名可以使得能夠標識出先前已遇到的和涉及數(shù)據(jù)庫條目的羅馬化版本的人的真實身份。這類輸出使得能夠理解處于母語拼寫形式的姓名,這種形式的姓名用于表示輸入姓名,其對于具體的搜索者或搜索應用可能是高度相關或可識別的。
對于能夠標識并考慮到對不同的母語拼寫形式執(zhí)行的音譯的特性的搜索工具來說,對輸入姓名以及類似的存儲的目標數(shù)據(jù)的音譯可能尤其有效。此外,要由搜索工具應用到輸入姓名的(一種或多種)音譯方案可以基于以下內(nèi)容動態(tài)選擇(1)輸入姓名的特性,例如其內(nèi)在的地理或語言學指示,(2)輸入姓名匹配的姓名池的特性,(3)在標識從其接收到輸入姓名的一方的地理或語言學特性時可能有用的輸入姓名或姓名池的外部數(shù)據(jù)。
參考圖1A,搜索工具系統(tǒng)100能夠標識出姓名輸入的母語拼寫形式的版本,該系統(tǒng)包括查詢接口110,姓名音譯引擎120、姓名匹配引擎130和使得能夠在他們之間通信的網(wǎng)絡140。
作為輸出接口的查詢接口110配置為從用戶接收要搜索的輸入姓名,并且顯示來自用戶的搜索的結(jié)果。查詢接口110還可以包括應用編程接口(API),應用編程接口包括一個或多個輸入/輸出關系,這些關系指示可以如何標識出輸入姓名的版本。更具體地說,由API指定的關系可以用來提供輸入姓名,并且接收與該輸入姓名相關的姓名。例如,API可以包括其輸入是輸入姓名和輸入姓名的編碼方案的關系,其代表輸入姓名的字符的符號值。該關系可選地采用輸入姓名的文化或一種語言作為輸入。該關系的輸出可以是與輸入姓名相關的一個或多個姓名。相關的姓名可以基于以下內(nèi)容標識出作為關系的輸入提供的編碼方案、語言、或者文化。如果沒有提供語言和文化作為輸入,則它們可以基于輸入姓名和作為輸入提供的編碼方案自動標識出。
在標識相關姓名時,可以自動標識出用于相關姓名的一個或多個編碼方案,要應用到輸入姓名的一種或多種音譯標準或方案,以及相關姓名。替代地或另外地,查詢接口110可以使得能夠手動選擇編碼方案和音譯方案。如果沒有自動標識出或手動選擇出編碼方案,則可以使用默認的編碼方案。
查詢接口110可以使用通用計算機、專用計算機或PDA實現(xiàn)。同樣,查詢接口110一般包括一個或多個輸入設備,例如,鍵盤、鼠標、輸入筆、或麥克風,以及一個或多個輸出設備,例如,監(jiān)視器、觸摸屏、揚聲器或打印機。如果查詢接口110是可分離組件,如圖1A所示但不是必需的,則它可以通過網(wǎng)絡140與姓名音譯引擎120通信。
姓名音譯引擎120配置為接收輸入姓名,一般是從查詢接口110接收,然后生成該輸入姓名的一個或多個音譯形式。在一種實現(xiàn)方式中,姓名音譯引擎120生成輸入姓名的一種或多種羅馬化的形式。姓名音譯引擎120可配置為從能夠由Unicode編碼方案表示的某些或全部語言羅馬化姓名。對于可由Unicode編碼方案表示的每種語言,存在多種不同的羅馬化方案可用。例如,中文可以使用拼音或Wade-Giles技術(shù)來羅馬化,這兩種技術(shù)中的任一種或兩種都可以由姓名音譯引擎120用來羅馬化以他們的中文母語拼寫形式輸入的姓名。姓名音譯引擎120創(chuàng)建的音譯姓名被傳輸?shù)叫彰ヅ湟?30。
姓名匹配引擎130配置為標識出與來自姓名音譯引擎120的音譯姓名相關或匹配的一個或多個姓名,并且提供該姓名以由查詢接口110呈現(xiàn)。例如,在姓名音譯引擎120生成輸入姓名的羅馬化的形式的情形中,姓名匹配引擎130標識出與從姓名音譯引擎120接收到的羅馬化后的姓名匹配或相關的一個或多個姓名。姓名匹配引擎130的示例在1999年3月25日提交的美國專利申請No.09/275,766和1998年3月25日提交的美國臨時專利申請No.60/079,233中有所描述,這兩個申請每個都通過參考整體結(jié)合于此。
查詢接口110、姓名音譯引擎120和姓名匹配引擎130可選地可以在獨立的計算機上工作,并且可以使用網(wǎng)絡140連接。網(wǎng)絡140一般包括通過一致的系統(tǒng)互連的一系列入口。網(wǎng)絡140的示例包括因特網(wǎng)、廣域網(wǎng)(WAN)、局域網(wǎng)(LAN)、模擬或數(shù)字有線和無線電話網(wǎng)絡(例如,公共交換電話網(wǎng)絡(PSTN))、集成服務數(shù)字網(wǎng)絡(ISDN)、數(shù)字用戶線(xDSL),或者任何其他有線或無線網(wǎng)絡。網(wǎng)絡140可以包括多個網(wǎng)絡或子網(wǎng),它們每個可以例如包括有線或無線數(shù)據(jù)通路。當網(wǎng)絡140被包括時,查詢接口110、姓名音譯引擎120和姓名匹配引擎130在其上工作的每個計算機系統(tǒng)包括用于通過網(wǎng)絡140發(fā)送通信內(nèi)容的通信接口(未示出)。通信內(nèi)容可以包括電子郵件、音頻數(shù)據(jù)、視頻數(shù)據(jù)、一般二進制數(shù)據(jù)、或文本數(shù)據(jù)?;蛘撸樵兘涌?10、姓名音譯引擎120和姓名匹配引擎130可以是在單個計算機系統(tǒng)上工作的模塊,這些模塊通過單個計算機系統(tǒng)內(nèi)的總線有效地通信。在這種實現(xiàn)方式中,網(wǎng)絡140是多個模塊通過其通信的總線。
參考圖1B,該圖示出了姓名音譯引擎120的一種實現(xiàn)方式,該實現(xiàn)方式被描述為包括音譯方案選擇模塊122、特性監(jiān)控器124和126,以及外部數(shù)據(jù)收集器128。音譯方案選擇模塊122配置為基于來自124、126和128中的每個的監(jiān)控輸入從可用音譯方案中選擇音譯方案。姓名音譯引擎120使用所選音譯方案來音譯由姓名音譯引擎120接收到的輸入姓名。
特性監(jiān)控器124監(jiān)控輸入姓名特性。例如,當輸入姓名以Unicode形式提供時,輸入姓名中的字符可以被評估并且分配一個數(shù)字Unicode分值,并且總地,被評估的特性的Unicode分值可以用來預測姓名輸入的特性(例如,地理和語言學)。例如,如果輸入姓名的字符的Unicode分值指示輸入姓名或者輸入姓名的一部分以西里爾字母指定,則監(jiān)控器124可以指示輸入姓名或者輸入姓名的一部分為俄語姓名。這種基于用于拼寫姓名的字符確定該姓名的語言可能不是在所有情形中全正確,這是由于具體語言的姓名可以利用不對應于該具體的語言字母表中的字符來拼寫。當正確地確定了輸入姓名的地理或語言學特性時,這些特性可由音譯方案選擇模塊122用來動態(tài)地標識一種或多種適于該輸入姓名或者它的一部分的音譯方案(該方案可以應用到整個姓名,也可以不應用到整個姓名)。
類似地,監(jiān)控器126可以配置為監(jiān)控已存儲的數(shù)據(jù)或由姓名匹配引擎130訪問的數(shù)據(jù)的特性。例如,監(jiān)控器126可以配置為識別、標識和/或確定數(shù)據(jù)庫數(shù)據(jù)中的不均衡性,并且使得能夠在適當?shù)臅r候利用這種不均衡性來選擇音譯方案。在一種實現(xiàn)方式中,當監(jiān)控器126確定出相同的音譯方案已用在對數(shù)據(jù)庫中的非常大數(shù)量的或者不成比例的數(shù)量的姓名進行音譯時,可以選擇該音譯方案來用于音譯輸入姓名。相反,在基于已存儲的數(shù)據(jù)或由姓名匹配引擎130訪問的數(shù)據(jù)的特性確定有利時,可以避免一種音譯方案。
外部數(shù)據(jù)收集器128配置為檢測并收集可能影響對音譯方案的選擇的外部數(shù)據(jù)。例如,在一種實現(xiàn)方式中,外部數(shù)據(jù)收集器128包括這樣的接口,該接口用于收集與旅行者的身份文件相關的數(shù)據(jù)或包含在旅行者的身份文件中的數(shù)據(jù),例如,旅行者的包括來源和目的地信息以及參觀的國家的護照,這些數(shù)據(jù)可由音譯方案選擇模塊222作為一個因素,在確定用于與這些國家中的一個或多個相關聯(lián)的語言的音譯方案集合時使用。
音譯方案選擇模塊122使用由監(jiān)控器124和126、以及數(shù)據(jù)收集器128產(chǎn)生的信息來選擇一個或多個下述音譯方案,這些音譯方案適于對由姓名音譯引擎120接收到的姓名進行音譯。如果所產(chǎn)生的信息不絕對地標識出適于輸入姓名的單個音譯方案,則多個音譯方案可能被標識出并被應用到該輸入姓名。例如,對于輸入姓名Зфим Белинский,可以標識出多個羅馬化的方案并應用到該輸入姓名來產(chǎn)生Efim Belinski、Yefim Byelinsky,以及Efime Bielinski作為該輸入姓名的可能的羅馬化形式。在一種實現(xiàn)方式中,輸入姓名的多個音譯形式被用來標識與該輸入姓名相關的姓名。與這多個音譯形式中的任意一種相關的一個或多個姓名可以被標識為與該輸入姓名相關?;蛘撸c多個音譯形式之一最佳匹配的一個或多個姓名可以被標識為與該輸入姓名相關。例如,與音譯形式Efim Belinski匹配的多個姓名可以被標識出,而不是與音譯形式Y(jié)efim Byelinsky和Efime Bielinski匹配的姓名被標識出。因此,匹配Efim Belinski的姓名可以被標識為與輸入姓名Зфим Белинский相關。另外,產(chǎn)生音譯形式Efim Belinski的音譯方案可以被選擇為比產(chǎn)生音譯形式Y(jié)efim Byelinsky和Efime Bielinski的音譯方案更適于應用到將來的輸入姓名。在將來的輸入姓名是與多音譯方案最初被應用到的輸入姓名的語言和文化類似的輸入姓名時,這種選擇尤其有用。
此外,使用所選音譯方案對輸入姓名進行音譯可能導致標識出額外的音譯方案,該音譯方案可被應用到輸入姓名和將來的輸入姓名。例如,輸入姓名Зфим Белинский可以被羅馬化來產(chǎn)生音譯的形式Efim Belinski,并且從音譯形式Efim Belinski標識出與音譯形式Efim Belinski相關的音譯姓名。相關姓名的特性可以指示一種或多種其他音譯方案,這些音譯方案與用于產(chǎn)生音譯形式Efim Belinski的音譯方案不同,其中音譯形式Efim Belinski用于產(chǎn)生相關姓名。這一種或多種其他音譯方案可以應用到輸入姓名來產(chǎn)生不同的音譯形式,對這些音譯形式可以標識出額外的相關姓名。這些不同的音譯形式與原始音譯的形式相比可以更完全或準確地匹配相關姓名。另外,這些不同的音譯形式可能與與原始音譯的形式不相關的額外的姓名相關。在一種實現(xiàn)方式中,僅與不同的音譯形式相關的額外姓名可以被標識為與輸入姓名相關。在另一種實現(xiàn)方式中,與不同的音譯形式相關的額外的姓名和與原始音譯的形式相關的姓名都可以被標識為與輸入姓名相關,尤其是當與原始音譯的形式相關的至少一個姓名不是與不同的音譯形式之一相關的姓名時,反之亦然。
用于標識音譯姓名的特性的模塊可以在初始音譯后使用,并且基于標識出的特性可以選擇不同的音譯方案用于應用到輸入姓名。任何數(shù)目的音譯方案都可以被應用到輸入姓名及其音譯形式,這是通過重復標識輸入姓名的特性并且將適于標識出的特性的音譯方案應用到輸入姓名實現(xiàn)的。例如,以西里爾字母表書寫的姓名可能是非俄語姓名,即使特性監(jiān)控器124可能指示該姓名是俄語姓名也是如此。一旦確定出輸入姓名不是俄語姓名,適于以西里爾字母表書寫的非俄語姓名的音譯方案就可以被標識出,并用于音譯形式的輸入姓名或輸入姓名。作為另一個示例,如果姓名音譯引擎120接收到的姓名或者與接收到的姓名匹配的姓名主要是單一類型的,則適于該單一類型的姓名的公用音譯方案可以自動或默認到應用到未來的輸入姓名,而不用進一步標識公用音譯方案作為另外的適于將來的輸入姓名的方案。
參考圖1C,該圖描述了姓名匹配引擎230的一種實現(xiàn)方式,姓名匹配引擎230包括數(shù)據(jù)庫132和搜索引擎134。數(shù)據(jù)庫132包含各種語言的姓名,這些姓名作為它們的母語拼寫形式和它們的羅馬化形式二者,如圖1D所示。具有不處于羅馬書寫系統(tǒng)的NOF的所有姓名都利用姓名音譯引擎120而被羅馬化,并且羅馬化的形式與NOF一起存儲在數(shù)據(jù)庫132中。每個姓名的NOF以非確定的方式被羅馬化,使得該姓名的來源可能不被確定。具有處于羅馬書寫系統(tǒng)的NOF的所有姓名被簡單地存儲到數(shù)據(jù)庫132中。
如圖1D所示,姓名的羅馬化對應于將母語拼寫形式音譯到該姓名的羅馬書寫系統(tǒng)形式。數(shù)據(jù)庫記錄136a~136c每個都包含姓名的羅馬化形式和該姓名的母語拼寫形式。對于一個姓名的羅馬化形式可能僅存在一個母語拼寫形式。例如,對于與記錄136b相關聯(lián)的羅馬化姓名“Efim Belinskiy”,數(shù)據(jù)庫132僅包含一個母語拼寫形式。類似地,對于多個姓名的多個母語拼寫形式,可能只存在一個羅馬化的形式。例如,數(shù)據(jù)庫132具有兩個記錄136a和136c有羅馬化形式“Efim Belinsky”。但是,記錄136a和136c具有不同的母語拼寫形式。最后,對于單個NOF,可能存在多個羅馬化的形式。例如,記錄136a和136b包含西里爾姓名“Ефим Belinskiy”的兩個不同的羅馬化形式。
此外,一個姓名的多個部分可能具有不同的起源或語言,使得不同的音譯方案適于應用到每個部分。例如,特定姓名的教名和姓可能具有不同的起源,使得第一音譯方案可能適于教名,而第二音譯方案可能適于姓。數(shù)據(jù)庫132可以除了包括用于完整姓名的記錄之外還包括或者只包括涉及姓名的各個部分的母語拼寫形式和音譯形式的記錄。另外,對于由姓名音譯引擎120接收到的姓名的每個部分,可以標識出一個或多個音譯方案,并且這些音譯方案可以應用到該姓名的對應部分。對于由姓名音譯引擎120接收到的姓名分別處理姓名的各個部分可能導致在數(shù)據(jù)庫132中產(chǎn)生相對大量的可能匹配。
由數(shù)據(jù)庫132和姓名音譯引擎120分別處理姓名可能在以下情形中尤其有用人們使用姓名的一個或多個部分的不同拼寫來避免進行檢測。例如,通常使用中文名和姓的人可以使用英文形式的名,同時繼續(xù)使用中文的姓,以試圖避免檢測。數(shù)據(jù)庫132和姓名音譯引擎120在將姓名作為單個單元處理時可能不將改變后的姓名與實際的姓名相關,但是如果在單獨處理姓名的多個部分時可能這樣作。
利用以其羅馬化形式存儲的姓名,可以將數(shù)據(jù)庫用作公用的比較媒介,可用于測試姓名是否與另一個姓名匹配。另外,利用仍處于母語拼寫形式的姓名,可以返回其原始形式的匹配姓名,這提供了一種手段來呈現(xiàn)由搜索工具或數(shù)據(jù)庫132的開發(fā)者處理的字面的姓名的示例。在下文中將參考過程200和300描述,數(shù)據(jù)庫132可以返回精確匹配輸入的一個或多個條目,并且還能夠返回與輸入不同的條目作為字符變體和文化變體的結(jié)果。字符變體可以包括例如打字錯誤、噪聲、連接、截短和詞首大寫。文化變體可以包括例如加頭銜、后綴、前綴、修飾和中綴、以及昵稱、文化變異和出現(xiàn)或者不出現(xiàn)姓名的某些部分。
搜索引擎134被配置以搜索數(shù)據(jù)庫132,并且從數(shù)據(jù)庫132檢索出與通過查詢接口110接收到的輸入姓名的羅馬化的版本匹配或以其他方式相關的條目。搜索引擎134產(chǎn)生的每個匹配姓名被分配一個分值,該分值在對該匹配程度進行分級時有用。由搜索引擎134針對數(shù)據(jù)庫中的音譯姓名導出的分值代表對以下內(nèi)容的綜合評估許多文化和語言學因素,以及一般的噪聲抵消和字符串相似性測量,這些是在試圖考慮輸入姓名和音譯姓名之間的絕對差異時考慮的。
然后,匹配條目和他們的分值一起被發(fā)送到查詢接口110用于呈現(xiàn)。在一種實現(xiàn)方式中,姓名匹配引擎130包括諸如NameHunterTM之類的工具,這種工具訪問能夠標識并考慮到通過將姓名從各種母語拼寫形式音譯到羅馬化的形式引入的變體的規(guī)則和數(shù)據(jù)。
參考圖2的過程200,輸入姓名的一個或多個變體從姓名數(shù)據(jù)庫內(nèi)被標識出來。來自不同語言的姓名的母語拼寫形式(即,母語拼寫形式)和它們的羅馬化的數(shù)據(jù)庫被維護(202),并且接收到處于已知編碼方案的要被搜索的輸入姓名(204)。輸入姓名可以具有多個段,分別對應于教名、中間名和姓。輸入姓名的編碼方案將字符映射到數(shù)字,所以可以說每個字符有一個值。編碼方案的示例包括美國信息交換標準碼(ASCII)編碼方案和Unicode編碼方案。ASCII編碼方案以羅馬書寫系統(tǒng)表示字,因此不要求音譯到羅馬形式?;蛘撸梢栽趩蝹€書寫系統(tǒng)內(nèi)對姓名進行音譯,例如,來解決姓名在單個書寫系統(tǒng)中的不同拼法。姓名的不同拼法可以與使用該單個書寫系統(tǒng)的不同語言和文化相對應。例如,在英語和西班牙語中,一個姓名可能具有不同的拼法,盡管英語和西班牙語都使用羅馬書寫系統(tǒng)。在這種情形中,姓名可以從英語被音譯到西班牙語,反之亦然。作為另一個示例,姓名中的字符在不同的地區(qū)、語言和文化中可能寫法不同。例如,在德語正字法中,ess-zet字符使用羅馬字母表寫作“β”,而在其他羅馬形式的正字法中寫在“ss”。羅馬書寫系統(tǒng)內(nèi)的音譯可以用來將“β”轉(zhuǎn)換為“ss”,反之亦然,這使得能夠進行音譯來解決單個書寫系統(tǒng)內(nèi)的不同拼法。
相反,包含ASCII編碼方案覆蓋的符號的Unicode編碼方案能夠表現(xiàn)各種不同書寫系統(tǒng)的符號,包括但不限于羅馬書寫系統(tǒng)。具體而言,每個書寫系統(tǒng)的符號趨向于使用完全不同的可標識的范圍內(nèi)的Unicode值而被表示。因此,如果輸入姓名以Unicode編碼方案編碼,則根據(jù)用來表示該姓名的符號的Unicode值的范圍就可以確定其相應的書寫系統(tǒng)??梢栽诳捎蒛nicode編碼方案表示的不同書寫系統(tǒng)之間音譯姓名。不同的書寫姓名可由不同的語言或文化使用,由單種語言或文化或者他們的某些組合使用。其他編碼系統(tǒng)包括通用傳送格式8(UTF-8)、KOI-8和KOI-9。在http://www.iana.org/assignments/character-sets處可以找到編碼系統(tǒng)的一個列表。
為了易于解釋,參考Unicode編碼系統(tǒng)實現(xiàn)方式來描述圖2和圖3的過程的剩余部分。在該實現(xiàn)方式內(nèi),檢查要被搜索的查詢姓名的符號(206)。如果它們的相應值落入作為由Unicode編碼系統(tǒng)表示的具體書寫系統(tǒng)的特性的范圍內(nèi)時,確定出該書寫系統(tǒng)為查詢姓名的母語拼寫形式(208)。否則,可以采用其他過程來確定要應用到輸入姓名的適當音譯方案。然后,該確定被與在該姓名中辨別出的其他語言學和文化屬性、以及其他可用的外部因素組合。
基于查詢姓名和該查詢姓名的書寫系統(tǒng),一個或多個羅馬化的姓名被生成(210)。一種或多種羅馬化技術(shù)被用來根據(jù)查詢輸入創(chuàng)建羅馬化的姓名。這些羅馬化技術(shù)將原始書寫系統(tǒng)的字符或字符集合轉(zhuǎn)換為羅馬書寫系統(tǒng)的字符和字符集合。每種羅馬化技術(shù)可以以不同的方式羅馬化輸入姓名。另外,每種羅馬化技術(shù)可以對一個輸入產(chǎn)生多個羅馬化形式。因此,羅馬化過程(210)可以,并且一般地確實對要被搜索的姓名產(chǎn)生一組羅馬化的形式。
根據(jù)輸入姓名創(chuàng)建的羅馬化的姓名被用來與數(shù)據(jù)庫中的來自不同語言的姓名的所有羅馬化的姓名匹配(212),并且數(shù)據(jù)庫中的與羅馬化的姓名匹配的條目被識別出并被返回(214)。每個羅馬化的姓名獨立地被與數(shù)據(jù)庫中的姓名匹配,并且對于每個輸入的羅馬化姓名,一個或多個已存儲的匹配姓名被檢索出。所返回的匹配姓名被聚集并返回,并且基于每個與輸入姓名匹配的品質(zhì)對其評分。從而數(shù)據(jù)庫內(nèi)包含的與查詢姓名匹配的姓名被返回。
檢查查詢姓名的字符來確定其書寫系統(tǒng)的任務(206和208)可以是可選的。并且確定姓名的書寫系統(tǒng)可以以不同的方式做出。例如,可以在輸入輸入姓名時手動指定該姓名的書寫系統(tǒng)。
如從對圖2的過程的描述推斷,可以動態(tài)確定所采用的確切的羅馬化技術(shù)。例如,在一種實現(xiàn)方式中,圖2的過程200可以補充或修改為包括用于監(jiān)控能夠告知對音譯方案的動態(tài)選擇的特性和/或數(shù)據(jù)的過程,并且基于所監(jiān)控的特性來選擇這種音譯方案。此外,在動態(tài)挑選羅馬化技術(shù)時可以考慮的三種因素包括(1)輸入姓名的特性,例如輸入姓名固有的地理或語言學指示符,(2)與輸入姓名相匹配的姓名池的特性,(3)輸入姓名或姓名池的外部的數(shù)據(jù),該數(shù)據(jù)可用于標識從其接收到該輸入姓名的一方的地理或語言學特性。
對選擇用于音譯輸入姓名的羅馬化技術(shù)的一個影響是輸入姓名自身的特性。例如,某些漢語姓名具有反映基督教影響的元素。利用特定的羅馬化技術(shù),這些漢語姓名被最準確地音譯到羅馬書寫系統(tǒng)。對漢語姓名中的基督教影響進行檢測可以導致動態(tài)判決使用專門的音譯技術(shù)來進行音譯。一般而言,與在歷史上受西方影響的文化相對應的姓名,例如香港,通常具有指示西方影響的屬性。適當?shù)乜紤]到西方影響的音譯方案可以被標識為最適于應用到受影響的姓名。
其次,存儲在數(shù)據(jù)庫自身中的信息可以告知哪種羅馬化技術(shù)將最有可能在數(shù)據(jù)庫中產(chǎn)生良好的匹配。如果數(shù)據(jù)庫中的姓名的80%的羅馬化形式是利用特定的羅馬化技術(shù)創(chuàng)建的,則利用該技術(shù)羅馬化查詢姓名將可能導致在數(shù)據(jù)庫中發(fā)現(xiàn)的匹配。
第三,姓名的起源可以用作在從若干可用的羅馬化技術(shù)中動態(tài)選擇在具體環(huán)境中應當使用的羅馬化技術(shù)的基礎。例如,如果某種音譯技術(shù)總是用來羅馬化中國護照上的姓名,則應當采用專門用于中國護照的羅馬化技術(shù)來對已知是從中國護照得來的輸入姓名進行音譯。除了與NOF相關聯(lián)的書寫系統(tǒng)、使用該書寫系統(tǒng)的(一種或多種)語言和(一種或多種)文化、以及它們的自然和相對人口,還考慮這三個因素。
圖3圖示了實現(xiàn)圖1A~1C的組件和圖4~6所示接口的過程300,該過程用來從以其母語拼寫形式輸入的姓名的各種變體中標識出該姓名的多個版本,所述變體是從其他母語拼寫形式導出的并且存儲在數(shù)據(jù)庫中。在過程300中,查詢接口110接收到期望查找其匹配變體的查詢姓名(110a)。例如,如圖4示出并參考圖4所描述的,可以在用戶接口400處接收到對姓名“efim belinsky”的查詢。
查詢接口110將查詢姓名傳遞到姓名音譯引擎120,姓名音譯引擎120檢查該查詢姓名的編碼的字符,以基于其編碼方案確定/標識出該查詢姓名的特性(120a)。例如,編碼方案可以在輸入該姓名時被識別出,也可以預先指定,或者以其他方式確定?;谠诓樵冃彰惺褂玫淖址?,姓名音譯引擎120確定出用來創(chuàng)建該查詢姓名的書寫系統(tǒng)(120b)。在上述示例中,這種檢查得出姓名“efim belinsky”是利用羅馬書寫系統(tǒng)書寫的,如圖5示出并參考圖5的進一步描述。
利用關于用來書寫輸入姓名的書寫系統(tǒng)的知識,姓名音譯引擎120基于該查詢姓名和用來創(chuàng)建該查詢姓名的書寫系統(tǒng),生成一個或多個羅馬化的姓名(120c)。這些羅馬化的姓名是利用將該查詢姓名從其母語拼寫形式音譯到其羅馬化形式的羅馬化技術(shù)生成的。在上述示例中,姓名“efim belinsky”作為羅馬化的結(jié)果不被改變,這是由于該姓名已處于羅馬書寫系統(tǒng)中。
接下來,(一個或多個)羅馬化的姓名被搜索引擎134自動輸入到數(shù)據(jù)庫132中(134a),一般不要求專門的用戶輸入,并且可能不通知用戶。數(shù)據(jù)庫132將(一個或多個)羅馬化輸入與其羅馬化的記錄相匹配,并且相應地標識出數(shù)據(jù)庫記錄(132a)。使這些記錄,或者與其對應的(一個或多個)姓名的(一個或多個)羅馬或母語拼寫形式對搜索引擎134可用(132b),并且最終對查詢接口110可用(134b)。查詢接口110根據(jù)用戶輸入給出結(jié)果(110b)。這樣,來自數(shù)據(jù)庫132的與羅馬化的姓名“efim belinsky”相匹配的任何記錄都將被返回給查詢接口110,這些返回姓名處于它們的羅馬化形式和/或它們的各種母語拼寫形式。在上述說明中,如果“efim belinsky”匹配漢語母語拼寫形式的多個羅馬化版本,則羅馬化或母語拼寫形式之一或二者都可以被呈現(xiàn)給用戶,其他被確定與漢語匹配相關的結(jié)果也可以被呈現(xiàn)給用戶。
參考圖4,界面400使得能夠?qū)崿F(xiàn)對匹配西里爾輸入的姓名的查詢。界面400包含可以用來指定查詢姓名的文本框410和420。文本框410可以用來指定(一個或多個)教名,而文本框420用于指定(一個或多個)姓。姓名“Ефим”已被輸入到用于教名的文本框410中,并且姓名“Белинский”已被輸入到用于姓的文本框420中。選擇框430、440和450允許用戶指定用于查詢的某些選項。數(shù)據(jù)庫選擇框430允許用戶挑選要搜索的姓名數(shù)據(jù)庫。姓名類型選擇框440允許用戶在不希望自動確定時手動指定查詢姓名的文化。在姓名類型選擇框440中可以挑選字母表,例如,阿拉伯和漢語字母表。選擇框440的“自動分類”選項通知自動確定所輸入的查詢姓名的文化。
搜索類型選擇框450允許用戶指定在數(shù)據(jù)庫中運行的搜索類型。搜索類型選擇框450中的每個選項定義方法或標準,用于標識出與在文本框410和420中指定的查詢姓名相關的姓名。在一種實現(xiàn)方式中,可以從搜索類型選擇框450中挑選出三種搜索類型窄,中等和寬。窄搜索將最嚴格的標準應用到匹配和分級過程,所以只有在姓名組成的數(shù)目、順序和拼法方面與查詢姓名非常類似的姓名才符合匹配。中等查詢對姓名組成的拼法、語法(順序)和數(shù)目方面的差異的容忍稍寬。該搜索還支持考慮許多共同教名的等價姓名,例如昵稱。寬查詢對姓名組成的拼法、語法(順序)和數(shù)目方面的差異最寬容。這種搜索一般返回極大數(shù)量的匹配,某些僅與查詢姓名大約相似。
在選擇“搜索”按鈕460后,提交由在輸入字段410~450中輸入和選擇的信息指定的查詢。點擊“搜索”按鈕460將提交利用搜索類型的默認值來查詢“Demo Database August 2003”數(shù)據(jù)庫,例如,針對姓名“Ефим Белинский”的窄搜索。姓名“Ефим Белинский”中使用的文化留著自動確定。
參考圖5,界面500示出了查詢的中間結(jié)果。最初,從查詢姓名“Ефим Белинский”創(chuàng)建羅馬化的姓名,其中該查詢姓名是以西里爾書寫系統(tǒng)書寫的。線510a指示來自Cryillic書寫系統(tǒng)的“Ефим”的羅馬化是“Efim”。類似地,線510b指示“Белинский”的羅馬化是“Belinskiy”。
這些羅馬化的姓名然后用來與姓名數(shù)據(jù)庫匹配,并且與羅馬化姓名匹配的數(shù)據(jù)庫記錄被返回。在這種情形中,與羅馬姓名“EfimBelinskiy”匹配的4條記錄520a~520d從所選數(shù)據(jù)庫被返回。對于數(shù)據(jù)庫記錄520a,匹配記錄的羅馬化數(shù)據(jù)庫姓名522是“BELINSKIY,EFIM”。該記錄以分值524匹配查詢姓名,是1個中的第1個。點擊超鏈接的記錄標識號(LAS ID)526創(chuàng)建第二個窗口,該窗口顯示關于匹配記錄的其他信息。
參考圖6,界面600包含與查詢姓名匹配的姓名的記錄。記錄610被標識為與查詢姓名“Ефим Белинский”匹配。記錄中的姓名612以其母語拼寫形式呈現(xiàn),在這種情形中是“BELINSKIY,Ефим”。姓名612是與來自圖5的羅馬化姓名522相對應的NOF。另外,兩個記錄標識號614和616作為記錄610的一部分被顯示出。在記錄列表的下面是“關閉”按鈕620。點擊該“關閉”按鈕620將關閉界面600。
羅馬書寫系統(tǒng)在前文始終被用作基本書寫系統(tǒng),所有姓名都被音譯到羅馬書寫系統(tǒng),并且在羅馬書寫系統(tǒng)中進行全部比較。但是,可以使用任何書寫系統(tǒng)。例如,不是將要被搜索的姓名羅馬化,而是可以將其音譯到漢語書寫系統(tǒng)。類似地,姓名數(shù)據(jù)庫可以包含處于姓名的漢語形式的姓名,而不是它們的羅馬形式。因此,術(shù)語“羅馬化”、“羅馬化形式”和“羅馬”在意思上可以被擴展為包括任何書寫系統(tǒng)。
人名在前文始終被用作可以在書寫系統(tǒng)之間音譯的輸入姓名的示例,使得可以從數(shù)據(jù)庫中標識出與輸入姓名相關的姓名。但是,從數(shù)據(jù)庫中可以標識出與任何類型的姓名相關的姓名,只要數(shù)據(jù)庫包括這些相關的姓名。例如,與商業(yè)名稱相關的名稱也可以從數(shù)據(jù)庫中標識出,只要數(shù)據(jù)庫包括將商業(yè)名稱的母語拼寫形式與這些商業(yè)名稱的音譯形式相關的條目。接收到的商業(yè)名稱被音譯,然后商業(yè)名稱的音譯形式被用于與數(shù)據(jù)庫中的商業(yè)名稱的音譯形式匹配,以標識出與接收到的商業(yè)名稱匹配的商業(yè)名稱的母語拼寫形式。
應當理解,在不脫離權(quán)利要求書的精神和范圍的情況下,可以做出各種修改。例如,如果以不同的順序執(zhí)行所公開的技術(shù)的步驟,以及/或者如果所公開的系統(tǒng)中的組件以不同的方式組合、并且/或者用其他組件替換或補充,仍可以實現(xiàn)有利的結(jié)果。因此,其他實現(xiàn)方式也在所附權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.一種標識相關姓名的系統(tǒng),包括數(shù)據(jù)存儲設備,用于持久地存儲姓名集合,所述數(shù)據(jù)存儲設備中至少一個姓名由所述姓名的母語拼寫形式和所述母語拼寫形式的音譯形式二者表示;輸入界面,構(gòu)造并布置為接收輸入姓名;音譯模塊,構(gòu)造并布置為產(chǎn)生所述輸入姓名的至少一個音譯形式;標識符,構(gòu)造并布置為從所述數(shù)據(jù)存儲設備中標識出與所述輸入姓名的音譯形式相關的至少一個姓名;以及輸出界面,用于呈現(xiàn)從所述數(shù)據(jù)存儲設備中標識出的所述至少一個姓名作為與所述輸入姓名相關的姓名。
2.如權(quán)利要求1所述的系統(tǒng),其中,所述數(shù)據(jù)存儲設備中的姓名中的至少一個是通過對所述姓名的母語拼寫形式進行音譯導出的。
3.如權(quán)利要求1所述的系統(tǒng),其中,所述由數(shù)據(jù)存儲設備維護的至少一個姓名由利用所述姓名的非羅馬化版本的母語拼寫形式和利用所述姓名的羅馬化版本的音譯形式表示。
4.如權(quán)利要求1所述的系統(tǒng),其中,所述由數(shù)據(jù)存儲設備維護的至少一個姓名由利用所述姓名的非羅馬化版本的母語拼寫形式和利用所述姓名的非羅馬化版本的音譯形式表示。
5.如權(quán)利要求1所述的系統(tǒng),其中,所述由數(shù)據(jù)存儲設備維護的至少一個姓名由利用所述姓名的羅馬化版本的母語拼寫形式和利用所述姓名的羅馬化版本的音譯形式表示。
6.如權(quán)利要求1所述的系統(tǒng),其中,所述由數(shù)據(jù)存儲設備維護的至少一個姓名由利用所述姓名的羅馬化版本的母語拼寫形式和利用所述姓名的非羅馬化版本的音譯形式表示。
7.如權(quán)利要求1所述的系統(tǒng),其中,所述輸入界面構(gòu)造并布置為接收母語拼寫形式的輸入姓名,并且所述音譯模塊構(gòu)造并布置為根據(jù)所接收到的輸入姓名的母語拼寫形式生成所述輸入姓名的一個或多個羅馬化形式。
8.如權(quán)利要求7所述的系統(tǒng),其中,所述音譯模塊構(gòu)造并布置為標識以西里爾書寫形式輸入的姓名的羅馬化版本。
9.如權(quán)利要求7所述的系統(tǒng),其中,所述音譯模塊構(gòu)造并布置為標識以阿拉伯書寫形式輸入的姓名的羅馬化版本。
10.如權(quán)利要求9所述的系統(tǒng),其中,所述音譯模塊構(gòu)造并布置為標識以阿拉伯書寫形式的擴展輸入的姓名的羅馬化版本,所述阿拉伯書寫形式的擴展例如是波斯語書寫形式。
11.如權(quán)利要求7所述的系統(tǒng),其中,所述音譯模塊構(gòu)造并布置為標識以漢語書寫形式輸入的姓名的羅馬化版本。
12.如權(quán)利要求7所述的系統(tǒng),其中,所述音譯模塊構(gòu)造并布置為標識以Hangul書寫形式輸入的姓名的羅馬化版本。
13.如權(quán)利要求7所述的系統(tǒng),其中,所述音譯模塊構(gòu)造并布置為標識以羅馬書寫形式輸入的姓名的羅馬化版本。
14.如權(quán)利要求7所述的系統(tǒng),其中,所述音譯模塊構(gòu)造并布置為標識以希臘語書寫形式輸入的姓名的羅馬化版本。
15.如權(quán)利要求1所述的系統(tǒng),其中所述音譯模塊構(gòu)造并布置為產(chǎn)生單個輸入姓名的多個音譯形式,并且所述標識符構(gòu)造并布置為從所述數(shù)據(jù)存儲設備中標識出與所述音譯模塊針對所述單個輸入姓名產(chǎn)生的所述音譯形式中的多于一個相關的姓名。
16.如權(quán)利要求1所述的系統(tǒng),其中,所述標識符構(gòu)造并布置為將所述輸入姓名的音譯形式與所述數(shù)據(jù)存儲設備中存儲的姓名的類似形式匹配。
17.如權(quán)利要求16所述的系統(tǒng),其中,所述標識符構(gòu)造并布置為給在所述數(shù)據(jù)庫中存儲的與所述輸入姓名的音譯形式匹配的姓名的類似形式中的每個都分配一個分值,所述每個分值指示所述輸入姓名的音譯形式和對應的類似形式之間的匹配程度。
18.如權(quán)利要求16所述的系統(tǒng),其中,所述輸入姓名的音譯形式是羅馬形式,并且在所述數(shù)據(jù)存儲設備中存儲的姓名的音譯形式是羅馬形式,使得所述輸入姓名的羅馬形式與在所述數(shù)據(jù)存儲設備中存儲的姓名的羅馬形式匹配。
19.如權(quán)利要求16所述的系統(tǒng),其中,所述輸入姓名的音譯形式是非羅馬形式,并且在所述數(shù)據(jù)存儲設備中存儲的姓名的音譯形式是非羅馬形式,使得所述輸入姓名的非羅馬形式與在所述數(shù)據(jù)存儲設備中存儲的姓名的非羅馬形式匹配。
20.如權(quán)利要求16所述的系統(tǒng),其中,所述標識符構(gòu)造并布置為標識由所述數(shù)據(jù)存儲設備存儲的這樣的母語拼寫形式,所述母語拼寫形式與所述數(shù)據(jù)存儲設備中的被確定與所述輸入姓名的音譯形式匹配的一個或多個姓名的音譯形式相對應。
21.如權(quán)利要求20所述的系統(tǒng),其中,所述輸出界面構(gòu)造并布置為產(chǎn)生所述存儲設備內(nèi)的被確定與所述輸入姓名的音譯形式匹配的姓名的音譯形式。
22.如權(quán)利要求20所述的系統(tǒng),其中,所述輸出界面構(gòu)造并布置為產(chǎn)生這樣的姓名的母語拼寫形式,所述姓名的母語拼寫形式被標識為與所述存儲設備內(nèi)的被確定與所述輸入姓名的音譯形式匹配的姓名的音譯形式相對應。
23.如權(quán)利要求22所述的系統(tǒng),其中,所述輸出界面還構(gòu)造并布置為產(chǎn)生所述存儲設備內(nèi)的被確定與所述輸入姓名的音譯形式匹配的姓名的音譯形式。
24.如權(quán)利要求1所述的系統(tǒng),還包括用于從若干個可用音譯方案中動態(tài)地選擇要應用到所述輸入姓名的音譯方案的模塊。
25.如權(quán)利要求24所述的系統(tǒng),其中,所述用于動態(tài)地選擇音譯方案的模塊包括用于確定所述輸入姓名的特性的模塊,以及用于基于所確定的所述輸入姓名的特性來從若干個可用的音譯方案中選擇要應用到所述輸入姓名的音譯方案的模塊。
26.如權(quán)利要求25所述的系統(tǒng),其中,所確定的輸入姓名的特性包括所述輸入姓名的候選母語拼寫形式。
27.如權(quán)利要求26所述的系統(tǒng),其中,所述輸入姓名的候選母語拼寫形式是基于與所述輸入姓名的一個或多個字符關聯(lián)的Unicode的范圍確定的。
28.如權(quán)利要求25所述的系統(tǒng),其中,所述模塊確定所述輸入姓名的多于一個段的獨立特性,其中所述輸入姓名的段與所述整個輸入姓名中的不同名稱獨立地對應。
29.如權(quán)利要求28所述的系統(tǒng),其中,所述模塊確定所述輸入姓名的第一段的第一特性和所述輸入姓名的第二段的第二特性,其中所述第一特性和第二特性不同。
30.如權(quán)利要求29所述的系統(tǒng),其中,所述第一特性對應于第一候選母語拼寫形式,所述第二特性對應于第二候選母語拼寫形式,并且所述第二候選母語拼寫形式與所述第一候選母語拼寫形式不同。
31.如權(quán)利要求30所述的系統(tǒng),其中,所述第一和第二候選母語拼寫形式代表單種語言內(nèi)的母語拼寫形式。
32.如權(quán)利要求24所述的系統(tǒng),其中,所述用于動態(tài)選擇所述音譯方案的模塊包括用于確定所述數(shù)據(jù)存儲設備內(nèi)的姓名的特性的模塊;以及用于基于所確定出的所述數(shù)據(jù)存儲設備內(nèi)的姓名的特性來從若干可用音譯方案選擇要應用到所述輸入姓名的音譯方案的模塊。
33.如權(quán)利要求32所述的系統(tǒng),其中,所述用于確定所述數(shù)據(jù)存儲設備內(nèi)的姓名的特性的模塊構(gòu)造并布置為標識相對于其他音譯形式頻繁出現(xiàn)的所存儲的姓名的母語拼寫形式的一種或多種特定音譯形式,并且用于選擇要應用到所述輸入姓名的音譯方案的模塊選擇與所標識出的一種或多種特定音譯形式相對應的音譯方案。
34.如權(quán)利要求33所述的系統(tǒng),其中,所述用于動態(tài)選擇所述音譯模塊的模塊包括用于接收與所述輸入姓名的母語拼寫形式相關的外部數(shù)據(jù)的模塊;以及用于基于所接收到的外部數(shù)據(jù)來從若干可用音譯方案中選擇要應用到所述輸入姓名的音譯方案的模塊。
35.如權(quán)利要求34所述的系統(tǒng),其中,所述外部數(shù)據(jù)包括與從其接收到所述輸入姓名的人員相關的地理數(shù)據(jù)。
36.如權(quán)利要求35所述的系統(tǒng),其中,所述外部數(shù)據(jù)是從所述人員給出的標識文檔導出的。
37.如權(quán)利要求1所述的系統(tǒng),其中,所述數(shù)據(jù)存儲設備包括與一種或多種語言、文化和編碼方案相對應的姓名。
38.一種用于標識相關姓名的方法,包括存儲姓名集合,至少一個存儲的姓名由所述至少一個姓名的母語拼寫形式和所述母語拼寫形式的音譯形式二者表示;接收輸入姓名;產(chǎn)生所述輸入姓名的至少一個音譯形式;從所述集合中標識出與所述輸入姓名的音譯形式相關的至少一個姓名;以及呈現(xiàn)從所述集合中標識出的所述至少一個姓名,作為與所述輸入姓名相關的姓名。
39.如權(quán)利要求38所述的方法,其中,所存儲的姓名中的至少一個是通過對所述姓名的母語拼寫形式進行音譯導出的。
40.如權(quán)利要求38所述的方法,其中,所存儲的至少一個姓名由利用所述姓名的非羅馬化版本的母語拼寫形式和利用所述姓名的羅馬化版本的音譯形式表示。
41.如權(quán)利要求40所述的方法,其中接收所述輸入姓名的步驟包括接收所述母語拼寫形式的輸入姓名;產(chǎn)生所述輸入姓名的至少一個音譯形式的步驟包括根據(jù)所接收到的輸入姓名的母語拼寫形式產(chǎn)生所述輸入姓名的一個或多個羅馬化形式。
42.如權(quán)利要求41所述的方法,其中,產(chǎn)生所述輸入姓名的至少一個音譯形式的步驟還包括標識以西里爾書寫形式輸入的姓名的羅馬化版本。
43.如權(quán)利要求41所述的方法,其中,產(chǎn)生所述輸入姓名的至少一個音譯形式的步驟還包括標識以阿拉伯書寫形式輸入的姓名的羅馬化版本。
44.如權(quán)利要求38所述的方法,其中產(chǎn)生所述輸入姓名的至少一個音譯形式的步驟包括產(chǎn)生單個輸入姓名的多個音譯形式,以及標識與所述輸入的音譯形式相關的至少一個姓名的步驟包括標識由音譯模塊針對所述單個輸入姓名產(chǎn)生的音譯形式中的多于一個相關的姓名。
45.如權(quán)利要求38所述的方法,其中,標識與所述輸入的音譯形式相關的至少一個姓名的步驟包括將所述輸入姓名的音譯形式與所存儲的所述姓名的類似形式相匹配。
46.如權(quán)利要求45所述的方法,還包括給所存儲的與所述輸入姓名的音譯形式匹配的姓名的類似形式中的每個都分配一個分值,所述每個分值指示所述輸入姓名的音譯形式和對應的類似形式之間的匹配程度。
47.如權(quán)利要求45所述的方法,其中,所述輸入姓名的音譯形式是羅馬形式,并且所存儲的姓名的音譯形式是羅馬形式,使得所述輸入姓名的羅馬形式與所存儲的姓名的羅馬形式匹配。
48.如權(quán)利要求45所述的方法,其中,所述輸入姓名的音譯形式是非羅馬形式,并且所存儲的姓名的音譯形式是非羅馬形式,使得所述輸入姓名的非羅馬形式與所存儲的姓名的非羅馬形式匹配。
49.如權(quán)利要求45所述的方法,其中,標識與所述輸入的音譯形式相關的所述至少一個姓名的步驟還包括標識所存儲的被確定與所述輸入姓名的音譯形式匹配的一個或多個姓名的音譯形式相對應的所存儲的母語拼寫形式。
50.如權(quán)利要求49所述的方法,其中,呈現(xiàn)所標識出的至少一個姓名作為與所述輸入姓名相關的姓名的步驟包括產(chǎn)生所存儲的被確定與所述輸入姓名的音譯形式匹配的姓名的音譯形式。
51.如權(quán)利要求50所述的方法,其中,呈現(xiàn)所標識出的至少一個姓名作為與所述輸入姓名相關的姓名的步驟包括產(chǎn)生下述姓名的母語拼寫形式,所述姓名的母語拼寫形式被標識為與被確定與所述輸入姓名的音譯形式匹配的所存儲的姓名的音譯形式相對應。
52.如權(quán)利要求51所述的方法,其中,呈現(xiàn)所標識出的至少一個姓名作為與所述輸入姓名相關的姓名的步驟還包括產(chǎn)生被確定與所述輸入姓名的音譯形式匹配的所存儲的姓名的音譯形式。
53.如權(quán)利要求38所述的方法,還包括從若干個可用音譯方案中動態(tài)地選擇要應用到所述輸入姓名的音譯方案。
54.如權(quán)利要求53所述的方法,其中,動態(tài)選擇音譯方案的步驟包括確定所述輸入姓名的特性,以及基于所確定的所述輸入姓名的特性來從若干個可用的音譯方案中選擇要應用到所述輸入姓名的音譯方案。
55.如權(quán)利要求54所述的方法,其中,所確定的輸入姓名的特性包括所述輸入姓名的候選母語拼寫形式。
56.如權(quán)利要求55所述的方法,其中,所述輸入姓名的候選母語拼寫形式是基于與所述輸入姓名的一個或多個字符關聯(lián)的Unicode的范圍確定的。
57.如權(quán)利要求54所述的方法,其中,確定所述輸入姓名的特性的步驟包括確定所述輸入姓名的多于一個段的獨立特性,其中所述輸入姓名的段與所述整個輸入姓名中的不同名稱獨立地對應。
58.如權(quán)利要求57所述的方法,其中,確定所述輸入姓名的特性的步驟還包括確定所述輸入姓名的第一段的第一特性和所述輸入姓名的第二段的第二特性,其中所述第一特性和第二特性不同。
59.如權(quán)利要求58所述的方法,其中,所述第一特性對應于第一候選母語拼寫形式,所述第二特性對應于第二候選母語拼寫形式,并且所述第二候選母語拼寫形式與所述第一候選母語拼寫形式不同。
60.如權(quán)利要求59所述的方法,其中,所述第一和第二候選母語拼寫形式代表單種語言內(nèi)的母語拼寫形式。
61.如權(quán)利要求53所述的方法,其中,選擇要應用到所述輸入姓名的音譯方案的步驟包括確定所存儲的姓名的特性;以及基于所確定出的所存儲的姓名的特性來從若干可用音譯方案選擇要應用到所述輸入姓名的音譯方案。
62.如權(quán)利要求61所述的方法,其中確定所存儲的姓名的特性的步驟包括標識相對于其他音譯形式頻繁出現(xiàn)的所存儲的姓名的母語拼寫形式的一種或多種特定音譯形式,并且選擇要應用到所述輸入姓名的音譯方案的步驟包括選擇與所標識出的一種或多種特定音譯形式相對應的音譯方案。
63.如權(quán)利要求53所述的方法,其中,選擇所述音譯模塊的步驟包括接收與所述輸入姓名的母語拼寫形式相關的外部數(shù)據(jù);以及基于所接收到的外部數(shù)據(jù)來從若干可用音譯方案中選擇要應用到所述輸入姓名的音譯方案。
64.如權(quán)利要求63所述的方法,其中,所述外部數(shù)據(jù)包括與從其接收到所述輸入姓名的人員相關的地理數(shù)據(jù)。
65.如權(quán)利要求64所述的方法,其中,所述外部數(shù)據(jù)是從所述人員給出的標識文檔導出的。
66.如權(quán)利要求38所述的方法,其中,所述姓名集合包括與一種或多種語言、文化和編碼方案相對應的姓名。
67.一種標識相關姓名的系統(tǒng),包括數(shù)據(jù)存儲裝置,用于持久地存儲姓名集合,所述數(shù)據(jù)存儲裝置中至少一個姓名由所述姓名的母語拼寫形式和所述母語拼寫形式的音譯形式二者表示;輸入界面裝置,用于接收輸入姓名;音譯裝置,用于產(chǎn)生所述輸入姓名的至少一個音譯形式;標識符裝置,用于從所述數(shù)據(jù)存儲裝置中標識出與所述輸入姓名的音譯形式相關的至少一個姓名;以及輸出界面裝置,用于呈現(xiàn)從所述數(shù)據(jù)存儲裝置中標識出的所述至少一個姓名作為與所述輸入姓名相關的姓名。
68.一種標識相關姓名的系統(tǒng),包括數(shù)據(jù)存儲設備,用于持久地存儲根據(jù)第一書寫系統(tǒng)格式化的姓名集合;輸入界面,其能夠接收根據(jù)第二書寫系統(tǒng)格式化的輸入姓名,其中所述第二書寫系統(tǒng)與所述第一書寫系統(tǒng)不同;用于從若干可用音譯方案動態(tài)選擇要應用到所述輸入姓名的音譯方案的模塊;音譯模塊,構(gòu)造并布置為應用所選音譯方案來產(chǎn)生所述輸入姓名的至少一個音譯形式;標識符,構(gòu)造并布置為從所述數(shù)據(jù)存儲設備中標識出與所述輸入姓名的音譯形式相關的至少一個音譯姓名;以及輸出界面,呈現(xiàn)從所述數(shù)據(jù)存儲設備中標識出的所述至少一個存儲的姓名作為與所述輸入姓名相關的姓名。
69.如權(quán)利要求68所述的系統(tǒng),其中,所述數(shù)據(jù)存儲設備中的至少一個姓名是從來自與所述第一書寫系統(tǒng)不同的書寫系統(tǒng)的姓名的音譯導出的。
70.如權(quán)利要求69所述的系統(tǒng),其中,所述數(shù)據(jù)庫中存儲的姓名在音譯成所述第一書寫系統(tǒng)之前具有母語拼寫形式。
71.如權(quán)利要求69所述的系統(tǒng),其中,所述數(shù)據(jù)存儲設備以所述姓名從其被音譯的書寫系統(tǒng)和所述第一書寫系統(tǒng)存儲所述姓名。
72.如權(quán)利要求68所述的系統(tǒng),其中,所述用于動態(tài)選擇音譯方案的模塊能夠選擇要被所述音譯模塊應用到所述輸入姓名的多于一種音譯方案。
73.如權(quán)利要求68所述的系統(tǒng),其中,所述用于動態(tài)選擇音譯方案的模塊能夠?qū)λ鲚斎胄彰娜舾蓚€不同段的每個獨立確定音譯方案。
74.如權(quán)利要求68所述的系統(tǒng),其中,所述用于動態(tài)選擇音譯方案的模塊包括用于確定所述輸入姓名的特性的模塊,以及用于基于所確定的所述輸入姓名的特性來從若干個可用的音譯方案中選擇要應用到所述輸入姓名的音譯方案的模塊。
75.如權(quán)利要求74所述的系統(tǒng),其中,所確定的輸入姓名的特性包括所述輸入姓名的候選母語拼寫形式。
76.如權(quán)利要求75所述的系統(tǒng),其中,所述輸入姓名的候選母語拼寫形式是基于與所述輸入姓名的一個或多個字符關聯(lián)的Unicode的范圍確定的。
77.如權(quán)利要求74所述的系統(tǒng),其中,所述模塊確定所述輸入姓名的多于一個段的獨立特性,其中所述輸入姓名的段與所述整個輸入姓名中的不同名稱獨立對應。
78.如權(quán)利要求77所述的系統(tǒng),其中,所述模塊確定所述輸入姓名的第一段的第一特性和所述輸入姓名的第二段的第二特性,其中所述第一特性和第二特性不同。
79.如權(quán)利要求78所述的系統(tǒng),其中,所述第一特性對應于第一候選母語拼寫形式,所述第二特性對應于第二候選母語拼寫形式,并且所述第二候選母語拼寫形式與所述第一候選母語拼寫形式不同。
80.如權(quán)利要求79所述的系統(tǒng),其中,所述第一和第二候選母語拼寫形式代表單種語言內(nèi)的母語拼寫形式。
81.如權(quán)利要求68所述的系統(tǒng),其中,所述用于動態(tài)選擇所述音譯方案的模塊包括用于確定所述數(shù)據(jù)存儲設備內(nèi)的姓名的特性的模塊;以及用于基于所確定出的所述數(shù)據(jù)存儲設備內(nèi)的姓名的特性來從若干可用音譯方案選擇要應用到所述輸入姓名的音譯方案的模塊。
82.如權(quán)利要求81所述的系統(tǒng),其中,所述用于確定所述數(shù)據(jù)存儲設備內(nèi)的姓名的特性的模塊構(gòu)造并布置為標識相對于其他音譯形式頻繁出現(xiàn)的所存儲的姓名的母語拼寫形式的一種或多種特定音譯形式,并且用于選擇要應用到所述輸入姓名的音譯方案的模塊選擇與所標識出的一種或多種特定音譯形式相對應的音譯方案。
83.如權(quán)利要求68所述的系統(tǒng),其中,所述用于動態(tài)選擇所述音譯模塊的模塊包括用于接收與所述輸入姓名的母語拼寫形式相關的外部數(shù)據(jù)的模塊;以及用于基于所接收到的外部數(shù)據(jù)來從若干可用音譯方案中選擇要應用到所述輸入姓名的音譯方案的模塊。
84.如權(quán)利要求83所述的系統(tǒng),其中,所述外部數(shù)據(jù)包括與從其接收到所述輸入姓名的人員相關的地理數(shù)據(jù)。
85.如權(quán)利要求84所述的系統(tǒng),其中,所述外部數(shù)據(jù)是從所述人員給出的標識文檔導出的。
86.一種用于標識相關姓名的方法,包括在數(shù)據(jù)存儲設備持久地存儲姓名的集合,每個姓名代表文化、書寫系統(tǒng)和拼寫慣例;接收輸入姓名,所述輸入姓名的文化、書寫系統(tǒng)或拼寫慣例的至少一個與存儲在所述數(shù)據(jù)存儲設備中的所述姓名中的至少一個的文化、書寫系統(tǒng)或拼寫慣例不同;從若干可用音譯方案動態(tài)選擇要應用到所述輸入姓名的音譯方案;應用所選擇的音譯方案以產(chǎn)生所述輸入姓名的至少一個音譯形式;從所述數(shù)據(jù)存儲設備中標識出與所述輸入姓名的音譯形式相關的至少一個音譯姓名;以及呈現(xiàn)所標識出的所述至少一個存儲的姓名作為與所述輸入姓名相關的姓名。
87.如權(quán)利要求86所述的方法,還包括,通過將姓名從與第一書寫系統(tǒng)不同的書寫系統(tǒng)音譯到所述第一書寫系統(tǒng)來導出所述數(shù)據(jù)存儲設備的內(nèi)容,并且至少將所述音譯的結(jié)果存儲到所述數(shù)據(jù)庫中。
88.如權(quán)利要求87所述的方法,其中,所述數(shù)據(jù)庫中存儲的姓名在音譯成所述第一書寫系統(tǒng)之前具有母語拼寫形式。
89.如權(quán)利要求87所述的方法,其中,持久存儲到所述數(shù)據(jù)存儲設備中的步驟包括以所述姓名從其被音譯的書寫系統(tǒng)和所述第一書寫系統(tǒng)存儲所述姓名。
90.如權(quán)利要求86所述的方法,其中,所述動態(tài)選擇音譯方案的步驟包括選擇要被所述音譯模塊應用到所述輸入姓名的多于一種的音譯方案。
91.如權(quán)利要求86所述的方法,其中,所述動態(tài)選擇音譯方案的步驟包括為所述輸入姓名的若干個不同段中的每個獨立確定音譯方案。
92.如權(quán)利要求86所述的方法,其中,所述動態(tài)選擇音譯方案的步驟包括確定所述輸入姓名的特性,以及基于所確定的所述輸入姓名的特性來從若干個可用的音譯方案中選擇要應用到所述輸入姓名的音譯方案。
93.如權(quán)利要求92所述的方法,其中,所確定的輸入姓名的特性包括所述輸入姓名的候選母語拼寫形式。
94.如權(quán)利要求93所述的方法,其中,所述輸入姓名的候選母語拼寫形式是基于與所述輸入姓名的一個或多個字符相關聯(lián)的Unicode的范圍確定的。
95.如權(quán)利要求92所述的方法,還包括確定所述輸入姓名的多于一個段的獨立特性,其中所述輸入姓名的段與所述整個輸入姓名中的不同名稱獨立對應。
96.如權(quán)利要求95所述的方法,還包括確定所述輸入姓名的第一段的第一特性和所述輸入姓名的第二段的第二特性,其中所述第一特性和第二特性不同。
97.如權(quán)利要求96所述的方法,其中,所述第一特性對應于第一候選母語拼寫形式,所述第二特性對應于第二候選母語拼寫形式,并且所述第二候選母語拼寫形式與所述第一候選母語拼寫形式不同。
98.如權(quán)利要求97所述的方法,其中,所述第一和第二候選母語拼寫形式代表單種語言內(nèi)的母語拼寫形式。
99.如權(quán)利要求86所述的方法,其中,動態(tài)選擇所述音譯方案的步驟包括確定所述數(shù)據(jù)存儲設備內(nèi)的姓名的特性;以及基于所確定出的所述數(shù)據(jù)存儲設備內(nèi)的姓名的特性來從若干可用音譯方案選擇要應用到所述輸入姓名的音譯方案。
100.如權(quán)利要求99所述的方法,其中,確定所述數(shù)據(jù)存儲設備內(nèi)的姓名的特性的步驟包括標識相對于其他音譯形式頻繁出現(xiàn)的所存儲的姓名的母語拼寫形式的一種或多種特定音譯形式,并且選擇要應用到所述輸入姓名的音譯方案的步驟包括選擇與所標識出的一種或多種特定音譯形式相對應的音譯方案。
101.如權(quán)利要求86所述的方法,其中,動態(tài)選擇所述音譯方案的步驟包括接收與所述輸入姓名的母語拼寫形式相關的外部數(shù)據(jù);以及基于所接收到的外部數(shù)據(jù)來從若干可用音譯方案中選擇要應用到所述輸入姓名的音譯方案。
102.如權(quán)利要求101所述的方法,其中,所述外部數(shù)據(jù)包括與從其接收到所述輸入姓名的人員相關的地理數(shù)據(jù)。
103.如權(quán)利要求102所述的方法,其中,所述外部數(shù)據(jù)是從所述人員給出的標識文檔導出的。
104.一種標識相關姓名的系統(tǒng),包括數(shù)據(jù)存儲裝置,用于持久地存儲根據(jù)第一書寫系統(tǒng)格式化的姓名集合;輸入界面裝置,用于接收根據(jù)第二書寫系統(tǒng)格式化的輸入姓名,其中所述第二書寫系統(tǒng)與所述第一書寫系統(tǒng)不同;用于從若干可用音譯方案動態(tài)選擇要應用到所述輸入姓名的音譯方案的裝置;音譯裝置,用于應用所選擇的音譯方案來產(chǎn)生所述輸入姓名的至少一個音譯形式;標識符裝置,用于從所述數(shù)據(jù)存儲裝置中標識出與所述輸入姓名的音譯形式相關的至少一個音譯姓名;以及輸出界面裝置,用于呈現(xiàn)從所述數(shù)據(jù)存儲設備中標識出的所述至少一個存儲的姓名作為與所述輸入姓名相關的姓名。
全文摘要
一種標識相關姓名的系統(tǒng)(100),包括持久地存儲姓名集合的數(shù)據(jù)存儲設備(132)。數(shù)據(jù)存儲設備(132)中至少一個姓名由該姓名的母語拼寫形式和該母語拼寫形式的音譯形式二者表示。該系統(tǒng)(100)包括構(gòu)造并布置為接收至少輸入姓名的輸入界面(110)。音譯模塊(120)被構(gòu)造并布置為產(chǎn)生輸入姓名的至少一個音譯形式。標識符被構(gòu)造并布置為從數(shù)據(jù)存儲設備(132)中標識出與輸入姓名的音譯形式相關的至少一個姓名。輸出界面(110)呈現(xiàn)從數(shù)據(jù)存儲設備(132)中標識出的至少一個姓名作為與輸入姓名相關的數(shù)據(jù)。該系統(tǒng)(100)可以基于各種標準從候選的可能音譯方案中動態(tài)選擇要應用到輸入姓名的音譯方案(122),所述各種標準包括(1)輸入姓名的特性,例如,輸入姓名內(nèi)在的地理或語言學指示(124),(2)輸入姓名被匹配的姓名池的特性(126),和/或(3)在標識從其接收到輸入姓名的一方的地理或語言學特性時可能有用的輸入姓名或姓名池的外部數(shù)據(jù)(128)。
文檔編號G06F17/28GK1871607SQ200480031553
公開日2006年11月29日 申請日期2004年9月17日 優(yōu)先權(quán)日2003年9月17日
發(fā)明者小倫納德·阿瑟爾·謝弗, 弗蘭吉·E·D·帕特曼, 理查德·吉拉姆 申請人:語言分析系統(tǒng)公司