個字符,也即是不為單字。
[0044]在本發(fā)明實施例中,對于通訊錄中多個原始姓名字符串中任一個原始姓名字符串均執(zhí)行步驟101-103,得到每組別名信息和輔助信息均對應(yīng)通訊錄中的一個條目。
[0045]104、對應(yīng)每個通訊錄條目,根據(jù)別名信息和輔助信息生成結(jié)構(gòu)化信息數(shù)據(jù),構(gòu)建通訊錄信息數(shù)據(jù)庫。
[0046]在本發(fā)明實施例中,將別名信息和輔助信息經(jīng)過分析后可分解成多個互相關(guān)聯(lián)的組成部分,各組成部分間有明確的層次結(jié)構(gòu),其使用和維護通過數(shù)據(jù)庫進行管理,提高人名語義解析的魯棒性和準(zhǔn)確性。
[0047]本發(fā)明實施例提供的方法,通過剔除通訊錄聯(lián)系人原始姓名字符串中的敏感字符,從中解析提取出別名信息和輔助信息,構(gòu)建結(jié)構(gòu)化通訊錄信息數(shù)據(jù)庫,可以篩選出通訊錄中的有效信息,提高人名語義解析的魯棒性和準(zhǔn)確性,對于通訊錄中的輔助信息可以加以利用,為智能化的人機交互提供支持。
[0048]圖2示出了本發(fā)明實施例提供的一種移動終端聯(lián)系人信息提取系統(tǒng),該移動終端包括有一通訊錄,該通訊錄中包含多個通訊錄條目,每個通訊錄條目記錄有聯(lián)系人的原始姓名字符串及對應(yīng)的電話號碼,該系統(tǒng)包括:
[0049]預(yù)處理模塊21,用于對于通訊錄中多個原始姓名字符串中任一個原始姓名字符串,對所述原始姓名進行預(yù)處理,過濾所述原始姓名字符串中敏感字符,所述敏感字符至少包括非數(shù)字、非字母和非漢字的字符;
[0050]分詞模塊22,用于對所述原始姓名的預(yù)處理結(jié)果進行分詞處理;
[0051]解析模塊23,用于通過解析分詞結(jié)果,提取別名信息和輔助信息,并對別名信息進行后處理,所述別名信息至少包括中文別名和英文別名,所述輔助信息為修飾信息;
[0052]通訊錄信息數(shù)據(jù)庫生成模塊24,用于對應(yīng)每個通訊錄條目,根據(jù)別名信息和輔助信息生成結(jié)構(gòu)化信息數(shù)據(jù),構(gòu)建通訊錄信息數(shù)據(jù)庫。
[0053]可選地,所述別名信息至少包括完整中文姓名、名字部分、英文名、關(guān)系稱謂信息、習(xí)慣稱謂信息。
[0054]可選地,所述輔助信息至少包括城市信息、公司信息、學(xué)校信息、職位信息。
[0055]可選地,對別名信息進行后處理至少包括:沖突別名結(jié)果篩選。
[0056]可選地,所述輔助信息大于2個字符。
[0057]本發(fā)明實施例提供的系統(tǒng),通過剔除通訊錄聯(lián)系人原始姓名字符串中的敏感字符,從中解析提取出別名信息和輔助信息,構(gòu)建結(jié)構(gòu)化通訊錄信息數(shù)據(jù)庫,可以篩選出通訊錄中的有效信息,提高人名語義解析的魯棒性和準(zhǔn)確性,對于通訊錄中的輔助信息可以加以利用,為智能化的人機交互提供支持。
[0058]可理解的是,上述移動終端聯(lián)系人信息提取系統(tǒng)與上述移動終端聯(lián)系人信息提取方法是一一對應(yīng)的,本實施例不再對上述啟動裝置進行詳細(xì)說明。
[0059]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。
[0060]本申請是參照根據(jù)本申請實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0061]這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0062]這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0063]盡管已描述了本申請的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。
[0064]顯然,本領(lǐng)域的技術(shù)人員可以對本申請進行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請也意圖包含這些改動和變型在內(nèi)。
【主權(quán)項】
1.一種移動終端聯(lián)系人信息提取方法,所述移動終端包括有一通訊錄,該通訊錄中包含多個通訊錄條目,每個通訊錄條目記錄有聯(lián)系人的原始姓名字符串及對應(yīng)的電話號碼,其特征在于,所述方法包括: 對于通訊錄中多個原始姓名字符串中任一個原始姓名字符串,對所述原始姓名進行預(yù)處理,過濾所述原始姓名字符串中敏感字符,所述敏感字符至少包括非數(shù)字、非字母和非漢字的字符; 對所述原始姓名的預(yù)處理結(jié)果進行分詞處理; 通過解析分詞結(jié)果,提取別名信息和輔助信息,并對別名信息進行后處理,所述別名信息至少包括中文別名和英文別名,所述輔助信息為修飾信息; 對應(yīng)每個通訊錄條目,根據(jù)別名信息和輔助信息生成結(jié)構(gòu)化信息數(shù)據(jù),構(gòu)建通訊錄信息數(shù)據(jù)庫。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述別名信息至少包括完整中文姓名、名字部分、英文名、關(guān)系稱謂信息、習(xí)慣稱謂信息。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述輔助信息至少包括城市信息、公司信息、學(xué)校信息、職位信息。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,對別名信息進行后處理至少包括:沖突別名結(jié)果篩選。5.根據(jù)權(quán)利要求1和3任一權(quán)利要求所述的方法,其特征在于,所述輔助信息大于2個字符。6.一種移動終端聯(lián)系人信息提取系統(tǒng),所述移動終端包括有一通訊錄,該通訊錄中包含多個通訊錄條目,每個通訊錄條目記錄有聯(lián)系人的原始姓名字符串及對應(yīng)的電話號碼,其特征在于,所述系統(tǒng)包括: 預(yù)處理模塊,用于對于通訊錄中多個原始姓名字符串中任一個原始姓名字符串,對所述原始姓名進行預(yù)處理,過濾所述原始姓名字符串中敏感字符,所述敏感字符至少包括非數(shù)字、非字母和非漢字的字符; 分詞模塊,用于對所述原始姓名的預(yù)處理結(jié)果進行分詞處理; 解析模塊,用于通過解析分詞結(jié)果,提取別名信息和輔助信息,并對別名信息進行后處理,所述別名信息至少包括中文別名和英文別名,所述輔助信息為修飾信息; 通訊錄信息數(shù)據(jù)庫生成模塊,用于對應(yīng)每個通訊錄條目,根據(jù)別名信息和輔助信息生成結(jié)構(gòu)化信息數(shù)據(jù),構(gòu)建通訊錄信息數(shù)據(jù)庫。7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述別名信息至少包括完整中文姓名、名字部分、英文名、關(guān)系稱謂信息、習(xí)慣稱謂信息。8.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述輔助信息至少包括城市信息、公司信息、學(xué)校信息、職位信息。9.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,對別名信息進行后處理至少包括:沖突別名結(jié)果篩選。10.根據(jù)權(quán)利要求6和8任一權(quán)利要求所述的系統(tǒng),其特征在于,所述輔助信息大于2個字符。
【專利摘要】本發(fā)明公開了一種移動終端聯(lián)系人信息提取方法及系統(tǒng),所述方法包括:對于通訊錄中多個原始姓名字符串中任一個原始姓名字符串,對所述原始姓名進行預(yù)處理,過濾所述原始姓名字符串中敏感字符,所述敏感字符至少包括非數(shù)字、非字母和非漢字的字符;對所述原始姓名的預(yù)處理結(jié)果進行分詞處理;通過解析分詞結(jié)果,提取別名信息和輔助信息,并對別名信息進行后處理,所述別名信息至少包括中文別名和英文別名,所述輔助信息為修飾信息;對應(yīng)每個通訊錄條目,根據(jù)別名信息和輔助信息生成結(jié)構(gòu)化信息數(shù)據(jù),構(gòu)建通訊錄信息數(shù)據(jù)庫。本發(fā)明可以篩選出通訊錄中的有效信息,提高人名語義解析的魯棒性和準(zhǔn)確性,為智能化的人機交互提供支持。
【IPC分類】H04M1/725, H04M1/2745
【公開號】CN104994208
【申請?zhí)枴緾N201510397401
【發(fā)明人】周偉達(dá), 梅微星, 俞凱, 曹迪, 朱蘇
【申請人】蘇州思必馳信息科技有限公司
【公開日】2015年10月21日
【申請日】2015年7月8日