本發(fā)明涉及識(shí)別領(lǐng)域,尤其涉及一種姓名識(shí)別方法及系統(tǒng)。
背景技術(shù):
中國(guó)人的姓名通常為兩個(gè)字或三個(gè)字,用漢語(yǔ)拼音的形式可以有多重排列組合的情況。當(dāng)中國(guó)人姓名通過(guò)漢語(yǔ)拼音來(lái)表示的情況下,在不能明確待檢詞匯是英文詞匯還是中文姓名的時(shí)候,無(wú)法確認(rèn)待檢詞匯中是否包含中文姓名。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供一種姓名識(shí)別方法及系統(tǒng),以解決現(xiàn)有技術(shù)中在不能明確待檢詞匯是英文詞匯還是中文姓名的時(shí)候,無(wú)法確認(rèn)待檢詞匯中是否包含中文姓名的問(wèn)題,其具體方案如下:
一種姓名識(shí)別方法,包括:
建立漢語(yǔ)拼音詞庫(kù);
將待檢詞匯中的字符串與所述漢語(yǔ)拼音詞庫(kù)中的拼音字段進(jìn)行匹配,確定所述待檢詞匯中的字符串包括的所有拼音字段;
當(dāng)所述待檢詞匯中的字符串包括的所有拼音字段中包括至少兩個(gè)拼音字段,按照所述至少兩個(gè)拼音字段中的字符順序組成所述待檢詞匯中的字符串時(shí),所述待檢詞匯為中文拼音詞匯。
進(jìn)一步的,還包括:
確定待檢詞匯,去掉所述待檢詞匯的字符串中的無(wú)意義字符,所述無(wú)意義字符包括:特殊字符及空格。
進(jìn)一步的,所述確定所述待檢詞匯中的字符串包括的所有拼音字段,包括:
確定所述待檢詞匯中的字符串包括的所有拼音字段,標(biāo)記所述字符串包括的所有拼音字段中每一個(gè)拼音字段的第一個(gè)字符在所述待檢詞匯的字符串中的位置,及所述每一個(gè)拼音字段包括的字符數(shù)。
進(jìn)一步的,所述按照所述至少兩個(gè)拼音字段中的字符順序組成所述待檢詞匯中的字符串,包括:
按照所述至少兩個(gè)拼音字段中每一個(gè)拼音字段第一個(gè)字符在所述待檢詞匯的字符串中的位置及每一個(gè)拼音字段包括的字符數(shù)進(jìn)行順序排列,得到所述待檢詞匯中的字符串。
進(jìn)一步的,所述按照所述至少兩個(gè)拼音字段中的字符順序組成所述待檢詞匯中的字符串,包括:
通過(guò)管道函數(shù),確定按照所述至少兩個(gè)拼音字段中的字符順序組成所述待檢詞匯中的字符串。
一種姓名識(shí)別系統(tǒng),包括:建立單元,與所述建立單元相連的匹配單元,與所述匹配單元相連的確定單元,其中:
所述建立單元用于建立漢語(yǔ)拼音詞庫(kù);
所述匹配單元用于將待檢詞匯中的字符串與所述漢語(yǔ)拼音詞庫(kù)中的拼音字段進(jìn)行匹配,確定所述待檢詞匯中的字符串包括的所有拼音字段;
所述確定單元用于當(dāng)所述待檢詞匯中的字符串包括的所有拼音字段中包括至少兩個(gè)拼音字段,按照所述至少兩個(gè)拼音字段中的字符順序組成所述待檢詞匯中的字符串時(shí),將所述待檢詞匯確定為中文拼音詞匯。
進(jìn)一步的,還包括:處理單元,其中:
所述處理單元用于確定待檢詞匯,去掉所述待檢詞匯的字符串中的無(wú)意義字符,所述無(wú)意義字符包括:特殊字符及空格。
進(jìn)一步的,所述匹配單元確定所述待檢詞匯中的字符串包括的所有拼音字段,包括:
所述匹配單元確定所述待檢詞匯中的字符串包括的所有拼音字段,標(biāo)記所述字符串包括的所有拼音字段中每一個(gè)拼音字段的第一個(gè)字符在所述待檢詞匯的字符串中的位置,及所述每一個(gè)拼音字段包括的字符數(shù)。
進(jìn)一步的,所述確定單元用于當(dāng)按照所述至少兩個(gè)拼音字段中的字符順序組成所述待檢詞匯中的字符串時(shí),將所述待檢詞匯確定為中文拼音詞匯,包括:
所述確定單元按照所述至少兩個(gè)拼音字段中每一個(gè)拼音字段第一個(gè)字符在所述待檢詞匯的字符串中的位置及每一個(gè)拼音字段包括的字符數(shù)進(jìn)行順序排列,得到所述待檢詞匯中的字符串,將所述待檢詞匯確定為中文拼音詞匯。
進(jìn)一步的,所述確定單元用于當(dāng)按照所述至少兩個(gè)拼音字段中的字符順序組成所述待檢詞匯中的字符串時(shí),將所述待檢詞匯確定為中文拼音詞匯,包括:
所述確定單元通過(guò)管道函數(shù)確定按照所述至少兩個(gè)拼音字段中的字符順序組成所述待檢詞匯中的字符串,將所述待檢詞匯確定為中文拼音詞匯。
從上述技術(shù)方案可以看出,本申請(qǐng)公開的姓名識(shí)別方法及系統(tǒng),建立漢語(yǔ)拼音詞庫(kù),將待檢詞匯中的字符串與漢語(yǔ)拼音詞庫(kù)中的拼音字段進(jìn)行匹配,確定待檢詞匯中的字符串包括的所有拼音字段,昂待檢詞匯中的字符串包括的所有拼音字段中包括至少兩個(gè)拼音字段,按照該至少兩個(gè)拼音字段中的字符順序能夠組成待檢詞匯中的字符串時(shí),待檢詞匯為中文拼音詞匯,即確定了待檢詞匯為中文姓名。本方案通過(guò)建立漢語(yǔ)拼音詞庫(kù),并將待檢詞匯與漢語(yǔ)拼音詞庫(kù)進(jìn)行匹配,從而確定待檢詞匯是否為中文拼音詞匯,實(shí)現(xiàn)了將待檢詞匯明確為中文詞匯還是英文詞匯,避免了模糊匹配造成的不準(zhǔn)確性。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例公開的一種姓名識(shí)別方法的流程圖;
圖2為本發(fā)明實(shí)施例公開的一種姓名識(shí)別方法的流程圖;
圖3為本發(fā)明實(shí)施例公開的一種姓名識(shí)別方法的流程圖;
圖4為本發(fā)明實(shí)施例公開的一種姓名識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明公開了一種姓名識(shí)別方法,其流程圖如圖1所示,包括:
步驟s11、建立漢語(yǔ)拼音詞庫(kù);
建立漢語(yǔ)拼音詞庫(kù),漢語(yǔ)拼音詞庫(kù)中包括所有的漢語(yǔ)拼音字段,即所有的漢子均能在漢語(yǔ)拼音詞庫(kù)中找到對(duì)應(yīng)的漢語(yǔ)拼音字段。
步驟s12、將待檢詞匯中的字符串與漢語(yǔ)拼音詞庫(kù)中的拼音字段進(jìn)行匹配,確定待檢詞匯中的字符串包括的所有拼音字段;
待檢詞匯組成的字符串中可能包括多個(gè)拼音字段,確認(rèn)待檢詞匯組成的字符串包括的所有的拼音字段,其中,字符串包括的每一個(gè)拼音字段均是按照從左至右的順序,且中間不間隔其他字符。
例如:待檢詞匯為:pengani,該字符串中包括的拼音字段包括:pen,peng,en,eng,ga,gan,ni。
可以將字符串包括的所有拼音字段列成表格形式,以方便后續(xù)查詢、比對(duì)。
步驟s13、當(dāng)字符串包括的所有拼音字段中包括至少兩個(gè)拼音字段,按照至少兩個(gè)拼音字段中的字符順序組成待檢詞匯中的字符串時(shí),待檢詞匯為中文拼音詞匯。
將字符串包括的所有拼音字段一一進(jìn)行比對(duì),確定至少兩個(gè)拼音字段中按照字符順序排列時(shí)可以組成待檢詞匯中的字符串。當(dāng)為兩個(gè)拼音字段時(shí),兩個(gè)拼音字段順序排列組成的字符串為待檢詞匯中的字符串。
例如:待檢詞匯為:pengani,該字符串中包括的拼音字段包括:pen,peng,en,eng,ga,gan,ni。
確定三個(gè)拼音字段,包括:pen,ga,ni,將這三個(gè)拼音字段順序排列可以有多種情況,如:gapenni,nigapen,而其中一種為:pengani,與待檢詞匯的字符串一致,即待檢詞匯的字符串可以由三個(gè)拼音字段組成,那么,該待檢詞匯為中文拼音詞匯,還可以具體為:中國(guó)人姓名。
本實(shí)施例公開的姓名識(shí)別方法,建立漢語(yǔ)拼音詞庫(kù),將待檢詞匯中的字符串與漢語(yǔ)拼音詞庫(kù)中的拼音字段進(jìn)行匹配,確定待檢詞匯中的字符串包括的所有拼音字段,昂待檢詞匯中的字符串包括的所有拼音字段中包括至少兩個(gè)拼音字段,按照該至少兩個(gè)拼音字段中的字符順序能夠組成待檢詞匯中的字符串時(shí),待檢詞匯為中文拼音詞匯,即確定了待檢詞匯為中文姓名。本方案通過(guò)建立漢語(yǔ)拼音詞庫(kù),并將待檢詞匯與漢語(yǔ)拼音詞庫(kù)進(jìn)行匹配,從而確定待檢詞匯是否為中文拼音詞匯,實(shí)現(xiàn)了將待檢詞匯明確為中文詞匯還是英文詞匯,避免了模糊匹配造成的不準(zhǔn)確性。
本實(shí)施例公開了一種姓名識(shí)別方法,其流程圖如圖2所示,包括:
步驟s21、建立漢語(yǔ)拼音詞庫(kù);
步驟s22、確定待檢詞匯,去掉待檢詞匯的字符串中的無(wú)意義字符,無(wú)意義字符包括:特殊字符及空格;
在后續(xù)對(duì)待檢詞匯的字符串與漢語(yǔ)拼音詞庫(kù)中的拼音字段進(jìn)行匹配時(shí),無(wú)意義字符容易造成干擾。無(wú)意義字符可以包括:特殊字符及空格,特殊字符可以包括:δ、ε等,在此不做具體限定。
進(jìn)一步的,在確定待檢詞匯,去掉待檢詞匯的字符串中的無(wú)意義字符之后,還可以包括:將字符串中的所有字符全部設(shè)置為小寫,若同一個(gè)字符串中有大寫有小寫,在匹配過(guò)程中容易導(dǎo)致漏掉某一個(gè)或幾個(gè)字符。
步驟s23、將待檢詞匯中的字符串與漢語(yǔ)拼音詞庫(kù)中的拼音字段進(jìn)行匹配,確定待檢詞匯中的字符串包括的所有拼音字段;
步驟s24、當(dāng)字符串包括的所有拼音字段中包括至少兩個(gè)拼音字段,按照至少兩個(gè)拼音字段中的字符順序組成待檢詞匯中的字符串時(shí),待檢詞匯為中文拼音詞匯。
本實(shí)施例公開的姓名識(shí)別方法,建立漢語(yǔ)拼音詞庫(kù),將待檢詞匯中的字符串與漢語(yǔ)拼音詞庫(kù)中的拼音字段進(jìn)行匹配,確定待檢詞匯中的字符串包括的所有拼音字段,昂待檢詞匯中的字符串包括的所有拼音字段中包括至少兩個(gè)拼音字段,按照該至少兩個(gè)拼音字段中的字符順序能夠組成待檢詞匯中的字符串時(shí),待檢詞匯為中文拼音詞匯,即確定了待檢詞匯為中文姓名。本方案通過(guò)建立漢語(yǔ)拼音詞庫(kù),并將待檢詞匯與漢語(yǔ)拼音詞庫(kù)進(jìn)行匹配,從而確定待檢詞匯是否為中文拼音詞匯,實(shí)現(xiàn)了將待檢詞匯明確為中文詞匯還是英文詞匯,避免了模糊匹配造成的不準(zhǔn)確性。
本實(shí)施例公開了一種姓名識(shí)別方法,其流程圖如圖3所示,包括:
步驟s31、建立漢語(yǔ)拼音詞庫(kù);
步驟s32、將待檢詞匯中的字符串與漢語(yǔ)拼音詞庫(kù)中的拼音字段進(jìn)行匹配,確定待檢詞匯中的字符串包括的所有拼音字段,標(biāo)記字符串包括的所有拼音字段中每一個(gè)拼音字段的第一個(gè)字符在待檢詞匯的字符串中的位置,及每一個(gè)拼音字段包括的字符數(shù);
標(biāo)記字符串包括的所有拼音字段中每一個(gè)拼音字段的第一個(gè)字符在待檢詞匯的字符串中的位置及每一個(gè)拼音字段包括的字符數(shù)。例如:待檢詞匯為:pengani,該字符串中包括的拼音字段包括:pen,peng,en,eng,ga,gan,ni。以拼音字段peng為例進(jìn)行說(shuō)明,拼音字段peng中的第一個(gè)字符為p,p在待檢詞匯pengani中的位置為第一個(gè),拼音字段包括:p,e,n,g一共4個(gè)字符,即拼音字段peng包括4個(gè)字符。具體的,可以通過(guò)列表的形式表現(xiàn)上述內(nèi)容,以便于查找。
步驟s33、當(dāng)待檢詞匯中的字符串包括的所有拼音字段中包括至少兩個(gè)拼音字段,按照至少兩個(gè)拼音字段中每一個(gè)拼音字段第一個(gè)字符在待檢詞匯的字符串中的位置及每一個(gè)拼音字段包括的字符數(shù)進(jìn)行順序排列,得到待檢詞匯中的字符串,待檢詞匯為中文拼音詞匯。
按照至少兩個(gè)拼音字段中每一個(gè)拼音字段第一個(gè)字符在待檢詞匯的字符串中的位置及每一個(gè)拼音字段包括的字符數(shù)進(jìn)行順序排列,即將至少兩個(gè)拼音字段中每一個(gè)拼音字段,按照該拼音字段第一個(gè)字符在待檢詞匯的字符串中的位置,放置該拼音字段的第一個(gè)字符,并順序放置該拼音字段第一個(gè)字符后的其他字符,當(dāng)至少兩個(gè)拼音字段均放置完成,并且放置完成后組成的字符串與待檢詞匯的字符串一致,則待檢詞匯為中文拼音詞匯。
例如:待檢詞匯為:pengani,該字符串中包括的拼音字段包括:pen,peng,en,eng,ga,gan,ni。
拼音字段pen中第一個(gè)字符在待檢詞匯的字符串中的位置為第一位,拼音字段pen一共有3個(gè)字符;拼音字段ga中第一個(gè)字符在待檢詞匯的字符串中的位置為第四位,拼音字段ga一共有2個(gè)字符;拼音字段ni中第一個(gè)字符在待檢詞匯的字符串中的位置為第六位,拼音字段ni一共有2個(gè)字符。
以上三個(gè)拼音字段按照每一個(gè)拼音字段中第一個(gè)字符的位置放置,得到的字符串為:pengani,共7個(gè)字符,與待檢詞匯完全一致,因此,待檢詞匯為中文拼音詞匯,且該待檢詞匯三個(gè)拼音字段組成,為:pen,ga,ni。
進(jìn)一步的,確定所述待檢詞匯中的字符串包括的所有拼音字段,還可以為:確定待檢詞匯中的字符串包括的所有拼音字段,標(biāo)記字符串包括的所有拼音字段中每一個(gè)拼音字段的第一個(gè)字符在待檢詞匯的字符串中的位置,以及每一個(gè)拼音字段的最后一個(gè)字符在待檢詞匯的字符串中的位置加1得到的值。
每一個(gè)拼音字段的最后一個(gè)字符在待檢詞匯的字符串中的位置加1,是為了使前一個(gè)拼音字段的最后一個(gè)字符對(duì)應(yīng)的數(shù)字為該最后一個(gè)字符的位置加1,而與該前一個(gè)拼音字段相鄰的后一個(gè)拼音字段的第一個(gè)字符在待檢詞匯的字符串中的位置為前一個(gè)拼音字段最后一個(gè)字符的位置加1,保證了數(shù)據(jù)的一致,實(shí)現(xiàn)頭尾串聯(lián),以便于組成完整的字符串。
另外,還可以為:通過(guò)管道函數(shù)確定按照至少兩個(gè)拼音字段中的字符順序組成待檢詞匯中的字符串。
普通函數(shù)的返回值通常只有一個(gè),而管道函數(shù)的返回值可以如同一個(gè)表格,有利于整體的查找和處理。
本實(shí)施例公開的姓名識(shí)別方法,建立漢語(yǔ)拼音詞庫(kù),將待檢詞匯中的字符串與漢語(yǔ)拼音詞庫(kù)中的拼音字段進(jìn)行匹配,確定待檢詞匯中的字符串包括的所有拼音字段,昂待檢詞匯中的字符串包括的所有拼音字段中包括至少兩個(gè)拼音字段,按照該至少兩個(gè)拼音字段中的字符順序能夠組成待檢詞匯中的字符串時(shí),待檢詞匯為中文拼音詞匯,即確定了待檢詞匯為中文姓名。本方案通過(guò)建立漢語(yǔ)拼音詞庫(kù),并將待檢詞匯與漢語(yǔ)拼音詞庫(kù)進(jìn)行匹配,從而確定待檢詞匯是否為中文拼音詞匯,實(shí)現(xiàn)了將待檢詞匯明確為中文詞匯還是英文詞匯,避免了模糊匹配造成的不準(zhǔn)確性。
本實(shí)施例公開了一種姓名識(shí)別系統(tǒng),其結(jié)構(gòu)示意圖如圖4所示,包括:
建立單元41,與建立單元41相連的匹配單元42,與匹配單元42相連的確定單元43。
其中,建立單元41用于建立漢語(yǔ)拼音詞庫(kù)。
建立漢語(yǔ)拼音詞庫(kù),漢語(yǔ)拼音詞庫(kù)中包括所有的漢語(yǔ)拼音字段,即所有的漢子均能在漢語(yǔ)拼音詞庫(kù)中找到對(duì)應(yīng)的漢語(yǔ)拼音字段。
進(jìn)一步的,本實(shí)施例公開的姓名識(shí)別系統(tǒng),還可以包括:處理單元44,其中:
處理單元44用于確定待檢詞匯,去掉待檢詞匯的字符串中的無(wú)意義字符,無(wú)意義字符包括:特殊字符及空格。
在后續(xù)對(duì)待檢詞匯的字符串與漢語(yǔ)拼音詞庫(kù)中的拼音字段進(jìn)行匹配時(shí),無(wú)意義字符容易造成干擾。無(wú)意義字符可以包括:特殊字符及空格,特殊字符可以包括:δ、ε等,在此不做具體限定。
進(jìn)一步的,在確定待檢詞匯,去掉待檢詞匯的字符串中的無(wú)意義字符之后,還可以包括:將字符串中的所有字符全部設(shè)置為小寫,若同一個(gè)字符串中有大寫有小寫,在匹配過(guò)程中容易導(dǎo)致漏掉某一個(gè)或幾個(gè)字符。
匹配單元42用于將待檢詞匯中的字符串與漢語(yǔ)拼音詞庫(kù)中的拼音字段進(jìn)行匹配,確定待檢詞匯中的字符串包括的所有拼音字段。
待檢詞匯組成的字符串中可能包括多個(gè)拼音字段,確認(rèn)待檢詞匯組成的字符串包括的所有的拼音字段,其中,字符串包括的每一個(gè)拼音字段均是按照從左至右的順序,且中間不間隔其他字符。
例如:待檢詞匯為:pengani,該字符串中包括的拼音字段包括:pen,peng,en,eng,ga,gan,ni。
可以將字符串包括的所有拼音字段列成表格形式,以方便后續(xù)查詢、比對(duì)。
確定待檢測(cè)詞匯中的字符串包括的所有拼音字段,包括:
確定待檢詞匯中的字符串包括的所有拼音字段,標(biāo)記字符串包括的所有拼音字段中每一個(gè)拼音字段的第一個(gè)字符在待檢詞匯的字符串中的位置,及每一個(gè)拼音字段包括的字符數(shù)。
標(biāo)記字符串包括的所有拼音字段中每一個(gè)拼音字段的第一個(gè)字符在待檢詞匯的字符串中的位置及每一個(gè)拼音字段包括的字符數(shù)。例如:待檢詞匯為:pengani,該字符串中包括的拼音字段包括:pen,peng,en,eng,ga,gan,ni。以拼音字段peng為例進(jìn)行說(shuō)明,拼音字段peng中的第一個(gè)字符為p,p在待檢詞匯pengani中的位置為第一個(gè),拼音字段包括:p,e,n,g一共4個(gè)字符,即拼音字段peng包括4個(gè)字符。具體的,可以通過(guò)列表的形式表現(xiàn)上述內(nèi)容,以便于查找。
確定單元43用于當(dāng)待檢詞匯中的字符串包括的所有拼音字段中包括至少兩個(gè)拼音字段,按照至少兩個(gè)拼音字段中的字符順序組成待檢詞匯中的字符串時(shí),將待檢詞匯確定為中文拼音詞匯。
將字符串包括的所有拼音字段一一進(jìn)行比對(duì),確定至少兩個(gè)拼音字段中按照字符順序排列時(shí)可以組成待檢詞匯中的字符串。當(dāng)為兩個(gè)拼音字段時(shí),兩個(gè)拼音字段順序排列組成的字符串為待檢詞匯中的字符串。
例如:待檢詞匯為:pengani,該字符串中包括的拼音字段包括:pen,peng,en,eng,ga,gan,ni。
確定三個(gè)拼音字段,包括:pen,ga,ni,將這三個(gè)拼音字段順序排列可以有多種情況,如:gapenni,nigapen,而其中一種為:pengani,與待檢詞匯的字符串一致,即待檢詞匯的字符串可以由三個(gè)拼音字段組成,那么,該待檢詞匯為中文拼音詞匯,還可以具體為:中國(guó)人姓名。
當(dāng)按照所述至少兩個(gè)拼音字段中的字符順序組成所述待檢詞匯中的字符串時(shí),將所述待檢詞匯確定為中文拼音詞匯,包括:
按照至少兩個(gè)拼音字段中每一個(gè)拼音字段第一個(gè)字符在待檢詞匯的字符串中的位置及每一個(gè)拼音字段包括的字符數(shù)進(jìn)行順序排列,得到待檢詞匯中的字符串,將待檢詞匯確定為中文拼音詞匯。
按照至少兩個(gè)拼音字段中每一個(gè)拼音字段第一個(gè)字符在待檢詞匯的字符串中的位置及每一個(gè)拼音字段包括的字符數(shù)進(jìn)行順序排列,即將至少兩個(gè)拼音字段中每一個(gè)拼音字段,按照該拼音字段第一個(gè)字符在待檢詞匯的字符串中的位置,放置該拼音字段的第一個(gè)字符,并順序放置該拼音字段第一個(gè)字符后的其他字符,當(dāng)至少兩個(gè)拼音字段均放置完成,并且放置完成后組成的字符串與待檢詞匯的字符串一致,則待檢詞匯為中文拼音詞匯。
例如:待檢詞匯為:pengani,該字符串中包括的拼音字段包括:pen,peng,en,eng,ga,gan,ni。
拼音字段pen中第一個(gè)字符在待檢詞匯的字符串中的位置為第一位,拼音字段pen一共有3個(gè)字符;拼音字段ga中第一個(gè)字符在待檢詞匯的字符串中的位置為第四位,拼音字段ga一共有2個(gè)字符;拼音字段ni中第一個(gè)字符在待檢詞匯的字符串中的位置為第六位,拼音字段ni一共有2個(gè)字符。
以上三個(gè)拼音字段按照每一個(gè)拼音字段中第一個(gè)字符的位置放置,得到的字符串為:pengani,共7個(gè)字符,與待檢詞匯完全一致,因此,待檢詞匯為中文拼音詞匯,且該待檢詞匯三個(gè)拼音字段組成,為:pen,ga,ni。
進(jìn)一步的,確定所述待檢詞匯中的字符串包括的所有拼音字段,還可以為:確定待檢詞匯中的字符串包括的所有拼音字段,標(biāo)記字符串包括的所有拼音字段中每一個(gè)拼音字段的第一個(gè)字符在待檢詞匯的字符串中的位置,以及每一個(gè)拼音字段的最后一個(gè)字符在待檢詞匯的字符串中的位置加1得到的值。
每一個(gè)拼音字段的最后一個(gè)字符在待檢詞匯的字符串中的位置加1,是為了使前一個(gè)拼音字段的最后一個(gè)字符對(duì)應(yīng)的數(shù)字為該最后一個(gè)字符的位置加1,而與該前一個(gè)拼音字段相鄰的后一個(gè)拼音字段的第一個(gè)字符在待檢詞匯的字符串中的位置為前一個(gè)拼音字段最后一個(gè)字符的位置加1,保證了數(shù)據(jù)的一致,實(shí)現(xiàn)頭尾串聯(lián),以便于組成完整的字符串。
另外,還可以為:通過(guò)管道函數(shù)確定按照至少兩個(gè)拼音字段中的字符順序組成待檢詞匯中的字符串。
普通函數(shù)的返回值通常只有一個(gè),而管道函數(shù)的返回值可以如同一個(gè)表格,有利于整體的查找和處理。
本實(shí)施例公開的姓名識(shí)別系統(tǒng),通過(guò)建立漢語(yǔ)拼音詞庫(kù),將待檢詞匯中的字符串與漢語(yǔ)拼音詞庫(kù)中的拼音字段進(jìn)行匹配,確定待檢詞匯中的字符串包括的所有拼音字段,昂待檢詞匯中的字符串包括的所有拼音字段中包括至少兩個(gè)拼音字段,按照該至少兩個(gè)拼音字段中的字符順序能夠組成待檢詞匯中的字符串時(shí),待檢詞匯為中文拼音詞匯,即確定了待檢詞匯為中文姓名。本方案通過(guò)建立漢語(yǔ)拼音詞庫(kù),并將待檢詞匯與漢語(yǔ)拼音詞庫(kù)進(jìn)行匹配,從而確定待檢詞匯是否為中文拼音詞匯,實(shí)現(xiàn)了將待檢詞匯明確為中文詞匯還是英文詞匯,避免了模糊匹配造成的不準(zhǔn)確性。
本說(shuō)明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。對(duì)于實(shí)施例公開的裝置而言,由于其與實(shí)施例公開的方法相對(duì)應(yīng),所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法部分說(shuō)明即可。
專業(yè)人員還可以進(jìn)一步意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn),為了清楚地說(shuō)明硬件和軟件的可互換性,在上述說(shuō)明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
結(jié)合本文中所公開的實(shí)施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來(lái)實(shí)施。軟件模塊可以置于隨機(jī)存儲(chǔ)器(ram)、內(nèi)存、只讀存儲(chǔ)器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤、可移動(dòng)磁盤、cd-rom、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲(chǔ)介質(zhì)中。
對(duì)所公開的實(shí)施例的上述說(shuō)明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。