移動終端聯(lián)系人信息提取方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信技術(shù)領(lǐng)域,具體涉及移動終端聯(lián)系人信息提取方法及系統(tǒng)。
【背景技術(shù)】
[0002]科學技術(shù)的飛速發(fā)展,尤其是交通、信息和通信等領(lǐng)域的技術(shù)革新,極大地改變了人們的生活和交際方式,人與人組成的社交網(wǎng)絡(luò)也因此得到了極大的擴展。隨著人們社交網(wǎng)絡(luò)的急劇膨脹,社會聯(lián)系人信息的有效存儲和快速檢索也愈發(fā)成為一個不容忽視的問題。曾經(jīng)單純依靠記憶的聯(lián)系人管理方式早已不再可靠,紙質(zhì)通訊錄則具有易損壞、易遺失、不易更新等弊端。近年來,信息和通信技術(shù)的啟航為人們帶來了基于個人計算機、移動電話的電子通訊錄。它彌補了記憶的不可靠性,克服了紙質(zhì)通訊錄的缺點。然而隨著人們生活節(jié)奏的不斷加快及社交網(wǎng)絡(luò)的持續(xù)擴大,聯(lián)系人信息的采集漸漸成為了一種負擔,而不完整的聯(lián)系人信息則會為人們的日常工作和社會活動帶來影響。
[0003]最近幾年,隨著移動互聯(lián)網(wǎng)的發(fā)展,智能手機的應(yīng)用場景越來越廣泛了。而通訊錄作為手機必不可少的一個功能,包含了重要的聯(lián)系人信息。然而由于用戶習慣、誤輸入等一系列問題,通訊錄的原始姓名信息往往會包含非人名的信息。例如通訊錄中往往會有小張?zhí)K州號”、“李四2”等人名條目。這樣的條目因為不是規(guī)范的人名信息,往往會成為人名信息識別的阻礙。同時,由于用戶的習慣,例如,對于“馬劍哥”的通訊錄條目,用戶想使用“馬哥”這稱謂去搜索,往往無法正確找到想要查詢的條目。并且,對于通訊錄“上海交大馬老師”之類的條目,除了具有“馬老師”這樣的人名信息,還包含了“上海交大”這樣的輔助信息,這些信息可以給智能人機交互提供很多幫助。所以,對于通訊錄的原始姓名信息,急需提供一種能夠有效提取人名相關(guān)信息的解決方案。
【發(fā)明內(nèi)容】
[0004]針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供了一種移動終端聯(lián)系人信息提取系統(tǒng),可以實現(xiàn)對通訊錄原始信息中別名和輔助信息的提取,從而為智能化的人機交互提供支持。
[0005]第一方面,本發(fā)明提供一種移動終端聯(lián)系人信息提取方法,所述移動終端包括有一通訊錄,該通訊錄中包含多個通訊錄條目,每個通訊錄條目記錄有聯(lián)系人的原始姓名字符串及對應(yīng)的電話號碼,包括:
[0006]對于通訊錄中多個原始姓名字符串中任一個原始姓名字符串,對所述原始姓名進行預處理,過濾所述原始姓名字符串中敏感字符,所述敏感字符至少包括非數(shù)字、非字母和非漢字的字符;
[0007]對所述原始姓名的預處理結(jié)果進行分詞處理;
[0008]通過解析分詞結(jié)果,提取別名信息和輔助信息,并對別名信息進行后處理,所述別名信息至少包括中文別名和英文別名,所述輔助信息為修飾信息;
[0009]對應(yīng)每個通訊錄條目,根據(jù)別名信息和輔助信息生成結(jié)構(gòu)化信息數(shù)據(jù),構(gòu)建通訊錄信息數(shù)據(jù)庫。
[0010]可選地,所述別名信息至少包括完整中文姓名、名字部分、英文名、關(guān)系稱謂信息、習慣稱謂信息。
[0011]可選地,所述輔助信息至少包括城市信息、公司信息、學校信息、職位信息。
[0012]可選地,對別名信息進行后處理至少包括:沖突別名結(jié)果篩選。
[0013]可選地,所述輔助信息大于2個字符。
[0014]第二方面,本發(fā)明還提供了一種移動終端聯(lián)系人信息提取系統(tǒng),所述移動終端包括有一通訊錄,該通訊錄中包含多個通訊錄條目,每個通訊錄條目記錄有聯(lián)系人的原始姓名字符串及對應(yīng)的電話號碼,所述系統(tǒng)包括:
[0015]預處理模塊,用于對于通訊錄中多個原始姓名字符串中任一個原始姓名字符串,對所述原始姓名進行預處理,過濾所述原始姓名字符串中敏感字符,所述敏感字符至少包括非數(shù)字、非字母和非漢字的字符;
[0016]分詞模塊,用于對所述原始姓名的預處理結(jié)果進行分詞處理;
[0017]解析模塊,用于通過解析分詞結(jié)果,提取別名信息和輔助信息,并對別名信息進行后處理,所述別名信息至少包括中文別名和英文別名,所述輔助信息為修飾信息;
[0018]通訊錄信息數(shù)據(jù)庫生成模塊,用于對應(yīng)每個通訊錄條目,根據(jù)別名信息和輔助信息生成結(jié)構(gòu)化信息數(shù)據(jù),構(gòu)建通訊錄信息數(shù)據(jù)庫。
[0019]可選地,所述別名信息至少包括完整中文姓名、名字部分、英文名、關(guān)系稱謂信息、習慣稱謂信息。
[0020]可選地,所述輔助信息至少包括城市信息、公司信息、學校信息、職位信息。
[0021]可選地,對別名信息進行后處理至少包括:沖突別名結(jié)果篩選。
[0022]可選地,所述輔助信息大于2個字符。
[0023]由上述技術(shù)方案可知,本發(fā)明提出了一種移動終端聯(lián)系人信息提取方法及系統(tǒng),通過剔除通訊錄聯(lián)系人原始姓名字符串中的敏感字符,從中解析提取出別名信息和輔助信息,構(gòu)建結(jié)構(gòu)化通訊錄信息數(shù)據(jù)庫,可以篩選出通訊錄中的有效信息,提高人名語義解析的魯棒性和準確性,對于通訊錄中的輔助信息可以加以利用,為智能化的人機交互提供支持。
[0024]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【附圖說明】
[0025]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0026]圖1為本發(fā)明一實施例提供的移動終端聯(lián)系人信息提取方法的流程示意圖;
[0027]圖2為本發(fā)明一實施例提供的移動終端聯(lián)系人信息提取系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0028]為了實現(xiàn)對通訊錄原始信息中別名和輔助信息的提取,從而為智能化的人機交互提供支持,本發(fā)明實施例提供了一種移動終端聯(lián)系人信息提取方法及系統(tǒng)。
[0029]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
[0030]本發(fā)明實施例涉及一種對通訊錄信息進行智能分析,提取別名以及輔助信息的解析系統(tǒng),通過此系統(tǒng)的應(yīng)用,可以為手機、車載設(shè)備等撥號領(lǐng)域的語義解析提供輔助和支持。
[0031]圖1示出了本發(fā)明一實施例提供的移動終端聯(lián)系人信息提取方法的流程示意圖,如圖1所示,該方法包括以下步驟:
[0032]在本發(fā)明實施例中,移動終端包括有一通訊錄,該通訊錄中包含多個通訊錄條目,每個通訊錄條目記錄有聯(lián)系人的原始姓名字符串及對應(yīng)的電話號碼。
[0033]101、對于通訊錄中多個原始姓名字符串中任一個原始姓名字符串,對所述原始姓名進行預處理,過濾所述原始姓名字符串中敏感字符,所述敏感字符至少包括非數(shù)字、非字母和非漢字的字符;
[0034]在本發(fā)明實施例中,可以通過信息預處理器對所有原始姓名字符串進行預處理,過濾原始姓名字符串中敏感字符。
[0035]其中該敏感字符包括但不限于非數(shù)字、非字母和非漢字的字符。
[0036]102、對所述原始姓名的預處理結(jié)果進行分詞處理;
[0037]在本發(fā)明實施例中,可以對該原始姓名的預處理結(jié)果進行分詞處理,首先對該原始姓名的預處理結(jié)果進行分詞切割,將該原始姓名的預處理結(jié)果切割成若干詞語,再過濾掉其中的助詞、連詞等虛詞,從而得到若干能夠表示某種特定特征的分詞。
[0038]103、通過解析分詞結(jié)果,提取別名信息和輔助信息,并對別名信息進行后處理,所述別名信息至少包括中文別名和英文別名,所述輔助信息為修飾信息;
[0039]其中,該別名信息包括但不限于完整中文姓名、名字部分、英文名、關(guān)系稱謂信息、習慣稱謂信息。例如:王哥、happy哥等。
[0040]其中,該輔助信息至少包括城市信息、公司信息、學校信息、職位信息。例如:上海交大、北京等。
[0041]需要說明的是,本發(fā)明實施例通過解析分詞結(jié)果,對別名信息和輔助信息提取的先后順序不做具體限定,可以是通過解析分詞結(jié)果,先提取別名信息,再解析分詞結(jié)果,提取輔助信息,也可以是解析分析結(jié)果,同時提取別名信息和輔助信息。
[0042]優(yōu)選地,對別名信息進行后處理,包括但不限于沖突別名結(jié)果篩選。
[0043]可以理解的是,在本發(fā)明實施例中,該輔助信息大于2