專利名稱:Cjk姓名檢測的制作方法
技術(shù)領(lǐng)域:
本說明書涉及姓名檢測,具體地涉及用于中文、日語以及韓語(“CJK”)的姓名檢 測。
背景技術(shù):
典型地在例如自動語音識別(ASR)、機器翻譯(MT)、光學字符識別(OCR)、句子解 析、非羅馬字符輸入法編輯器(IME)以及web搜索應(yīng)用的自然語言處理中使用姓名檢測??梢允褂脴闼刎惾~斯分類方法來基于“X”相對于其上下文(context)(例如,在 “X”之前或在“X”之后出現(xiàn)的字符)標識(identify)姓名的概率與“X”相對于其上下文不 標識姓名的概率的比率,檢測字符序列“X”是否標識姓名。使用語言模型來計算這些條件 概率。典型的統(tǒng)計語言模型是詞或字符序列相對于其歷史(例如,在數(shù)據(jù)集合中先前詞或 字符序列的出現(xiàn))的概率測量。具體地,使用基于馬爾可夫假設(shè)的常規(guī)n-gram語言模型來 預(yù)測詞或字符序列。n-gram是η個連續(xù)符號一例如詞或字符一的序列。n-gram具有級(order),其為 在n-gram中的符號的數(shù)量。例如,1-gram(或者單gram)包括一個符號;2-gram(或者二 gram)包括兩個符號。給定n-gram可以根據(jù)該n-gram的不同部分來描述。n-gram可以被描述為上下文 (context)和未來符號(context,c),其中context (上下文)具有長度n_l并且c表示未 來符號。例如,3-gram“X y ζ”可以按照n-gram上下文和未來符號來描述。n-gram上下文 包括在n-gram的最末符號之前的n-gram的所有符號。在給出的示例中,“x y”為上下文。 在上下文中的最左部符號被稱為左部符號。未來符號為n-gram的最末符號,其在該示例中 為“z”。n-gram還可以關(guān)于右部上下文和回退上下文來描述。右部上下文包括在n-gram 的第一符號之后的n-gram的所有符號,被表示為(n-l)-gram。在上面的示例中,“yz”為右 部上下文。此外,回退上下文為n-gram的上下文除去上下文中的最左部符號。在上面的示 例中,“y”為回退上下文。每一個n-gram具有作為在訓練數(shù)據(jù)中n-gram相對頻率的函數(shù)來計算的相關(guān)聯(lián)的 概率估計。例如,L個符號的字符串被表示為Cf= (C1,C2,...,Ci)??梢匀缦聦⒏怕寿x值給字 符串C1S
權(quán)利要求
一種方法,包括使用姓氏集合和包括n gram集合的注釋的語料庫來生成原始姓名檢測模型,每一個n gram具有相應(yīng)的在所述注釋的語料庫中作為姓名出現(xiàn)的概率;將所述原始姓名檢測模型應(yīng)用于半結(jié)構(gòu)化數(shù)據(jù)集合以形成注釋的半結(jié)構(gòu)化數(shù)據(jù),所述注釋的半結(jié)構(gòu)化數(shù)據(jù)對標識姓名的n gram和不標識姓名的n gram進行標識;將所述原始姓名檢測模型應(yīng)用于大型未注釋的語料庫以形成大型注釋的語料庫數(shù)據(jù),所述大型注釋的語料庫數(shù)據(jù)對標識姓名的所述大型未注釋的語料庫的n gram和不標識姓名的n gram進行標識;以及生成姓名檢測模型,包括使用所述標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)和所述標識姓名的大型注釋的語料庫數(shù)據(jù)來導(dǎo)出姓名模型,使用所述不標識姓名的半結(jié)構(gòu)化數(shù)據(jù)來導(dǎo)出非姓名模型,以及使用所述大型注釋的語料庫來導(dǎo)出語言模型。
2.如權(quán)利要求1所述的方法,進一步包括將所述姓名檢測模型應(yīng)用于所述半結(jié)構(gòu)化數(shù)據(jù)集合以形成所述注釋的半結(jié)構(gòu)化數(shù)據(jù), 所述注釋的半結(jié)構(gòu)化數(shù)據(jù)對標識姓名的n-gram和不標識姓名的n-gram進行標識;將所述姓名檢測模型應(yīng)用于所述大型未注釋的語料庫以形成所述大型注釋的語料庫 數(shù)據(jù),所述大型注釋的語料庫數(shù)據(jù)對標識姓名的所述大型未注釋的語料庫的n-gram和不 標識姓名的n-gram進行標識;以及 生成精化的姓名檢測模型,包括使用所述標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)和所述標識姓名的大型注釋的語料庫數(shù)據(jù) 來導(dǎo)出精化的姓名模型,使用所述不標識姓名的半結(jié)構(gòu)化數(shù)據(jù)來導(dǎo)出精化的非姓名模型,以及 使用所述大型注釋的語料庫來導(dǎo)出精化的語言模型。
3.如權(quán)利要求1所述的方法,其中所述姓名模型包括來自所述標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)和所述標識姓名的大型注釋的語料庫的 n-gram集合,其中每一個n-gram包括作為左部字符的姓氏和作為右部上下文的名字,并且 每一個n-gram具有相應(yīng)的標識姓名的概率。
4.如權(quán)利要求1所述的方法,其中所述非姓名模型包括來自所述不標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)的n-gram集合,其中每一個n-gram包括 作為左部字符的姓氏和作為右部上下文的名字,并且每一個n-gram具有相應(yīng)的不標識姓 名的概率。
5.如權(quán)利要求1所述的方法,其中所述原始姓名檢測模型包括來自所述注釋的語料庫的n-gram集合,其中每一個n-gram包括為來自所述姓氏集合 的姓氏的左部字符,并且每一個n-gram具有相應(yīng)的根據(jù)姓名在所述注釋的語料庫中的相 對頻率標識所述姓名的概率。
6.如權(quán)利要求1所述的方法,其中所述原始姓名模型是使用外國姓氏集合來生成的。
7.如權(quán)利要求1所述的方法,其中 所述姓氏集合包括多個稀少姓氏;以及替代所述多個稀少姓氏中的特定稀少姓氏的計算出的概率,所述原始姓名檢測模型使 用所有稀少姓氏的單一概率來標識每一個n-gram標識姓名的概率,所述每一個n-gram包 括為稀少姓氏的左部字符。
8.如權(quán)利要求1所述的方法,其中所述姓氏集合包括多個外國姓氏。
9.一種方法,包括 接收輸入字符串;以及將姓名檢測模型應(yīng)用于具有多個字符的所述輸入字符串,包括 標識所述多個字符的最可能的分割,其中所述多個字符不包括一個或多個姓名, 將所述多個字符中的一個或多個字符序列檢測為潛在標識一個或多個姓名, 標識所述多個字符的分割,其中所述多個字符包括所述一個或多個潛在姓名,以及 在包括所述潛在的一個或多個姓名的所述分割的可能性大于不包括一個或多個姓名 的所述最可能的分割時,將所述多個字符分割為包括所述一個或多個姓名。
10.如權(quán)利要求9所述的方法,進一步包括在所述多個字符被分割為包括一個或多個姓名時,檢測一個或多個姓名。
11.如權(quán)利要求1所述的方法,進一步包括 接收包括多個字符的字符串;以及計算所述字符串的特定序列標識姓名的概率,所述姓名包括姓氏和名字,包括 在所述特定序列在語料庫中的頻率小于閾值時,作為所述序列表示名字的部分與任何 姓氏一起出現(xiàn)的相對頻率和所述序列表示姓氏的部分的相對頻率的函數(shù)來確定所述特定 序列標識姓名的概率。
12.如權(quán)利要求1所述的方法,進一步包括 接收用戶輸入數(shù)據(jù);以及將所述原始姓名檢測模型應(yīng)用于所述用戶輸入數(shù)據(jù)以形成注釋的用戶輸入數(shù)據(jù),所述 注釋的用戶輸入數(shù)據(jù)對標識姓名的n-gram和不標識姓名的n-gram進行標識; 其中生成所述姓名檢測模型進一步包括 使用所述標識姓名的注釋的用戶輸入數(shù)據(jù)來導(dǎo)出所述姓名模型, 使用所述不標識姓名的注釋的用戶輸入數(shù)據(jù)來導(dǎo)出所述非姓名模型,以及 使用所述注釋的用戶輸入數(shù)據(jù)來導(dǎo)出語言模型。
13.一種系統(tǒng),包括用于使用姓氏集合和包括n-gram集合的注釋的語料庫來生成原始姓名檢測模型的裝 置,每一個n-gram具有相應(yīng)的在所述注釋的語料庫中作為姓名出現(xiàn)的概率;用于將所述原始姓名檢測模型應(yīng)用于半結(jié)構(gòu)化數(shù)據(jù)集合以形成注釋的半結(jié)構(gòu)化數(shù)據(jù) 的裝置,所述注釋的半結(jié)構(gòu)化數(shù)據(jù)對標識姓名的n-gram和不標識姓名的n-gram進行標 識;用于將所述原始姓名檢測模型應(yīng)用于大型未注釋的語料庫以形成大型注釋的語料庫 數(shù)據(jù)的裝置,所述大型注釋的語料庫數(shù)據(jù)對標識姓名的所述大型未注釋的語料庫的n-gram 和不標識姓名的n-gram進行標識;以及用于生成姓名檢測模型的裝置,其中生成所述姓名檢測模型包括使用所述標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)和所述標識姓名的大型注釋的語料庫數(shù)據(jù)來導(dǎo)出姓名模型,使用所述不標識姓名的半結(jié)構(gòu)化數(shù)據(jù)來導(dǎo)出非姓名模型,以及 使用所述大型注釋的語料庫來導(dǎo)出語言模型。
14.一種系統(tǒng),包括用于接收輸入字符串的裝置;以及用于將姓名檢測模型應(yīng)用于具有多個字符的所述輸入字符串的裝置,其中應(yīng)用所述姓 名檢測模型包括標識所述多個字符的最可能的分割,其中所述多個字符不包括一個或多個姓名, 將所述多個字符中的一個或多個字符序列檢測為潛在標識一個或多個姓名, 標識所述多個字符的分割,其中所述多個字符包括所述一個或多個潛在姓名,以及 在包括所述潛在的一個或多個姓名的所述分割的可能性大于不包括一個或多個姓名 的所述最可能的分割時將所述多個字符分割為包括所述一個或多個姓名。
15.一種編碼在有形的程序載體上的、可操作來促使數(shù)據(jù)處理裝置執(zhí)行操作的計算機 程序產(chǎn)品,所述操作包括使用姓氏集合和包括n-gram集合的注釋的語料庫來生成原始姓名檢測模型,每一個 n-gram具有相應(yīng)的在所述注釋的語料庫中作為姓名出現(xiàn)的概率;將所述原始姓名檢測模型應(yīng)用于半結(jié)構(gòu)化數(shù)據(jù)集合以形成注釋的半結(jié)構(gòu)化數(shù)據(jù),所述 注釋的半結(jié)構(gòu)化數(shù)據(jù)對標識姓名的n-gram和不標識姓名的n-gram進行標識;將所述原始姓名檢測模型應(yīng)用于大型未注釋的語料庫以形成大型注釋的語料庫數(shù)據(jù), 所述大型注釋的語料庫數(shù)據(jù)對標識姓名的所述大型未注釋的語料庫的n-gram和不標識姓 名的n-gram進行標識;以及 生成姓名檢測模型,包括使用所述標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)和所述標識姓名的大型注釋的語料庫數(shù)據(jù) 來導(dǎo)出姓名模型,使用所述不標識姓名的半結(jié)構(gòu)化數(shù)據(jù)來導(dǎo)出非姓名模型,以及 使用所述大型注釋的語料庫來導(dǎo)出語言模型。
16.如權(quán)利要求15所述的計算機程序產(chǎn)品,可操作來促使數(shù)據(jù)處理裝置執(zhí)行操作,所 述操作進一步包括將所述姓名檢測模型應(yīng)用于所述半結(jié)構(gòu)化數(shù)據(jù)集合以形成所述注釋的半結(jié)構(gòu)化數(shù)據(jù), 所述注釋的半結(jié)構(gòu)化數(shù)據(jù)對標識姓名的n-gram和不標識姓名的n-gram進行標識;將所述姓名檢測模型應(yīng)用于所述大型未注釋的語料庫以形成所述大型注釋的語料庫 數(shù)據(jù),所述大型注釋的語料庫數(shù)據(jù)對標識姓名的所述大型未注釋的語料庫的n-gram和不 標識姓名的n-gram進行標識;以及 生成精化的姓名檢測模型,包括使用所述標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)和所述標識姓名的大型注釋的語料庫數(shù)據(jù) 來導(dǎo)出精化的姓名模型,使用所述不標識姓名的半結(jié)構(gòu)化數(shù)據(jù)來導(dǎo)出精化的非姓名模型,以及 使用所述大型注釋的語料庫來導(dǎo)出精化的語言模型。
17.如權(quán)利要求15所述的計算機程序產(chǎn)品,其中所述姓名模型包括來自所述標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)和所述標識姓名的大型注釋的語料庫的 n-gram集合,其中每一個n-gram包括作為左部字符的姓氏和作為右部上下文的名字,并且 每一個n-gram具有相應(yīng)的標識姓名的概率。
18.如權(quán)利要求15所述的計算機程序產(chǎn)品,其中所述非姓名模型包括來自所述不標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)的n-gram集合,其中每一個n-gram包括 作為左部字符的姓氏和作為右部上下文的名字,并且每一個n-gram具有相應(yīng)的不標識姓 名的概率。
19.如權(quán)利要求15所述的計算機程序產(chǎn)品,其中所述原始姓名檢測模型包括來自所述注釋的語料庫的n-gram集合,其中每一個n-gram包括為來自所述姓氏集合 的姓氏的左部字符,并且每一個n-gram具有相應(yīng)的根據(jù)姓名在所述注釋的語料庫中的相 對頻率標識所述姓名的概率。
20.如權(quán)利要求15所述的計算機程序產(chǎn)品,其中所述原始姓名模型是使用外國姓氏集 合來生成的。
21.如權(quán)利要求15所述的計算機程序產(chǎn)品,其中所述姓氏集合包括多個稀少姓氏;以及替代所述多個稀少姓氏中的特定稀少姓氏的計算出的概率,所述原始姓名檢測模型使 用所有稀少姓氏的單一概率來標識每一個n-gram標識姓名的概率,所述每一個n-gram包 括為稀少姓氏的左部字符。
22.如權(quán)利要求15所述的計算機程序產(chǎn)品,其中所述姓氏集合包括多個外國姓氏。
23.—種編碼在有形的程序載體上的、可操作來促使數(shù)據(jù)處理裝置執(zhí)行操作的計算機 程序產(chǎn)品,所述操作包括接收輸入字符串;以及將姓名檢測模型應(yīng)用于具有多個字符的所述輸入字符串,包括標識所述多個字符的最可能的分割,其中所述多個字符不包括一個或多個姓名,將所述多個字符中的一個或多個字符序列檢測為潛在標識一個或多個姓名,標識所述多個字符的分割,其中所述多個字符包括一個或多個潛在姓名,以及在包括所述潛在的一個或多個姓名的所述分割的可能性大于不包括一個或多個姓名 的所述最可能的分割時,將所述多個字符分割為包括所述一個或多個姓名。
24.如權(quán)利要求23所述的計算機程序產(chǎn)品,可操作來促使數(shù)據(jù)處理裝置執(zhí)行操作,所 述操作進一步包括在所述多個字符被分割為包括一個或多個姓名時,檢測一個或多個姓名。
25.如權(quán)利要求15所述的計算機程序產(chǎn)品,可操作來促使數(shù)據(jù)處理裝置執(zhí)行操作,所 述操作進一步包括接收包括多個字符的字符串;以及計算所述字符串的特定序列標識姓名的概率,所述姓名包括姓氏和名字,包括在所述特定序列在語料庫中的頻率小于閾值時,作為所述序列表示名字的部分與任何 姓氏一起出現(xiàn)的相對頻率和所述序列表示姓氏的部分的相對頻率的函數(shù)來確定所述特定 序列標識姓名的概率。
26.如權(quán)利要求15所述的計算機程序產(chǎn)品,可操作來促使數(shù)據(jù)處理裝置執(zhí)行操作,所述操作進一步包括接收用戶輸入數(shù)據(jù);以及將所述原始姓名檢測模型應(yīng)用于所述用戶輸入數(shù)據(jù)以形成注釋的用戶輸入數(shù)據(jù),所述 注釋的用戶輸入數(shù)據(jù)對標識姓名的n-gram和不標識姓名的n-gram進行標識; 其中生成所述姓名檢測模型進一步包括 使用所述標識姓名的注釋的用戶輸入數(shù)據(jù)來導(dǎo)出所述姓名模型, 使用所述不標識姓名的注釋的用戶輸入數(shù)據(jù)來導(dǎo)出所述非姓名模型,以及 使用所述注釋的用戶輸入數(shù)據(jù)來導(dǎo)出語言模型。
27.—種系統(tǒng),包括原始姓名模型,包括姓氏集合和包括n-gram集合的注釋的語料庫,每一個n-gram具有 相應(yīng)的在所述注釋的語料庫中作為姓名出現(xiàn)的概率;注釋的半結(jié)構(gòu)化數(shù)據(jù),所述注釋的半結(jié)構(gòu)化數(shù)據(jù)是通過將所述原始姓名檢測模型應(yīng)用 于半結(jié)構(gòu)化數(shù)據(jù)集合而形成的,所述注釋的半結(jié)構(gòu)化數(shù)據(jù)對標識姓名的n-gram和不標識 姓名的n-gram進行標識;大型注釋的語料庫數(shù)據(jù),所述大型注釋的語料庫數(shù)據(jù)是通過將所述原始姓名檢測模型 應(yīng)用于大型未注釋的語料庫集合而形成的,所述大型注釋的語料庫數(shù)據(jù)通過應(yīng)用所述原始 姓名檢測模型對標識姓名的所述大型未注釋的語料庫的n-gram和不標識姓名的n-gram進 行標識;以及姓名檢測模型,包括從所述標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)和所述標識姓名的大型注釋的語料庫數(shù)據(jù)導(dǎo) 出的姓名模型,從所述不標識姓名的半結(jié)構(gòu)化數(shù)據(jù)導(dǎo)出的非姓名模型,以及 從所述大型注釋的語料庫導(dǎo)出的語言模型。
28.如權(quán)利要求27所述的系統(tǒng),其中所述姓名檢測模型被應(yīng)用于所述半結(jié)構(gòu)化數(shù)據(jù)集合以形成所述注釋的半結(jié)構(gòu)化數(shù)據(jù), 所述注釋的半結(jié)構(gòu)化數(shù)據(jù)對標識姓名的n-gram和不標識姓名的n-gram進行標識;所述姓名檢測模型被應(yīng)用于所述大型未注釋的語料庫以形成所述大型注釋的語料庫 數(shù)據(jù),所述大型注釋的語料庫數(shù)據(jù)對標識姓名的所述大型未注釋的語料庫的η gram和不 標識姓名的n-gram進行標識;以及所述系統(tǒng)進一步包括精化的姓名檢測模型,包括從所述標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)和所述標識姓名的大型注釋的語料庫數(shù)據(jù)導(dǎo) 出的精化的姓名模型,從所述不標識姓名的半結(jié)構(gòu)化數(shù)據(jù)導(dǎo)出的精化的非姓名模型,以及 從所述大型注釋的語料庫導(dǎo)出的精化的語言模型。
29.如權(quán)利要求27所述的系統(tǒng),其中所述姓名模型包括來自所述標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)和所述標識姓名的大型注釋的語料庫的 n-gram集合,其中每一個n-gram包括作為左部字符的姓氏和作為右部上下文的名字,并且 每一個n-gram具有相應(yīng)的標識姓名的概率。
30.如權(quán)利要求27所述的系統(tǒng),其中所述非姓名模型包括來自所述不標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)的n-gram集合,其中每一個n-gram包括 作為左部字符的姓氏和作為右部上下文的名字,并且每一個n-gram具有相應(yīng)的不標識姓 名的概率。
31.如權(quán)利要求27所述的系統(tǒng),其中所述原始姓名檢測模型包括來自所述注釋的語料庫的n-gram集合,其中每一個n-gram包括為來自所述姓氏集合 的姓氏的左部字符,并且每一個n-gram具有相應(yīng)的根據(jù)姓名在所述注釋的語料庫中的相 對頻率標識所述姓名的概率。
32.如權(quán)利要求27所述的系統(tǒng),其中所述原始姓名模型是使用外國姓氏集合來生成的。
33.如權(quán)利要求27所述的系統(tǒng),其中 所述姓氏集合包括多個稀少姓氏;以及替代所述多個稀少姓氏中的特定稀少姓氏的計算出的概率,所述原始姓名檢測模型使 用所有稀少姓氏的單一概率來標識每一個n-gram標識姓名的概率,所述每一個n-gram包 括為稀少姓氏的左部字符。
34.如權(quán)利要求27所述的系統(tǒng),其中所述姓氏集合包括多個外國姓氏。
35.一種包括可操作來執(zhí)行操作的一個或多個計算機的系統(tǒng),所述操作包括 接收輸入字符串;以及將姓名檢測模型應(yīng)用于具有多個字符的所述輸入字符串,包括 標識所述多個字符的最可能的分割,其中所述多個字符不包括一個或多個姓名, 將所述多個字符中的一個或多個字符序列檢測為潛在標識一個或多個姓名, 標識所述多個字符的分割,其中所述多個字符包括所述一個或多個潛在姓名,以及 在包括所述潛在的一個或多個姓名的所述分割的可能性大于不包括一個或多個姓名 的所述最可能的分割時,將所述多個字符分割為包括所述一個或多個姓名。
36.如權(quán)利要求35所述的系統(tǒng),所述系統(tǒng)包括可操作來執(zhí)行操作的一個或多個計算 機,所述操作進一步包括在所述多個字符被分割為包括一個或多個姓名時,檢測一個或多個姓名。
37.如權(quán)利要求27所述的系統(tǒng),進一步包括可操作來執(zhí)行操作的一個或多個計算機, 所述操作包括接收包括多個字符的字符串;計算所述字符串的特定序列標識姓名的概率,所述姓名包括姓氏和名字,包括 在所述特定序列在語料庫中的頻率小于閾值時,作為所述序列表示名字的部分與任何 姓氏一起出現(xiàn)的相對頻率和所述序列表示姓氏的部分的相對頻率的函數(shù)來確定所述特定 序列標識姓名的概率。
38.如權(quán)利要求27所述的系統(tǒng),進一步包括可操作來執(zhí)行操作的一個或多個計算機, 所述操作包括接收用戶輸入數(shù)據(jù);以及將所述原始姓名檢測模型應(yīng)用于所述用戶輸入數(shù)據(jù)以形成注釋的用戶輸入數(shù)據(jù),所述 注釋的用戶輸入數(shù)據(jù)對標識姓名的n-gram和不標識姓名的n-gram進行標識; 其中生成所述姓名檢測模型,進一步包括使用所述標識姓名的注釋的用戶輸入數(shù) 據(jù)來導(dǎo)出所述姓名模型, 使用所述不標識姓名的注釋的用戶輸入數(shù)據(jù)來導(dǎo)出所述非姓名模型,以及 使用所述注釋的用戶輸入數(shù)據(jù)來導(dǎo)出語言模型。
全文摘要
提供了涉及姓名檢測的方面。方法包括使用姓氏集合和包括n-gram集合的注釋的語料庫來生成原始姓名檢測模型,每一個n-gram具有相應(yīng)的出現(xiàn)概率。該方法包括將原始姓名檢測模型應(yīng)用于半結(jié)構(gòu)化數(shù)據(jù)集合以形成對標識姓名的n-gram和不標識姓名的n-gram進行標識的注釋的半結(jié)構(gòu)化數(shù)據(jù),以及將原始姓名檢測模型應(yīng)用于大型未注釋的語料庫以形成對標識姓名的大型未注釋的語料庫的n-gram和不標識姓名的n-gram進行標識的大型注釋的語料庫數(shù)據(jù)。該方法包括生成姓名檢測模型,包括使用標識姓名的注釋的半結(jié)構(gòu)化數(shù)據(jù)和標識姓名的大型注釋的語料庫數(shù)據(jù)來導(dǎo)出姓名模型、使用不標識姓名的半結(jié)構(gòu)化數(shù)據(jù)來導(dǎo)出非姓名模型以及使用大型注釋的語料庫來導(dǎo)出語言模型。
文檔編號G06F17/30GK101939741SQ200780102296
公開日2011年1月5日 申請日期2007年12月6日 優(yōu)先權(quán)日2007年12月6日
發(fā)明者吳軍, 張一飛, 許暉 申請人:谷歌公司