。
[0134]在該實(shí)施例中,根據(jù)輸入的詞序列判定、是否是合適的右邊界的方法為:在用戶輸入的詞序列中,判斷A,是否為詞序列的最后一個(gè)字符。
[0135]在步驟S408中,確定當(dāng)前候選命名實(shí)體的最后一個(gè)字符為右邊界,操作結(jié)束。
[0136]在該實(shí)施例中,如果六^是對(duì)應(yīng)詞序列的最后一個(gè)字符,則A j為當(dāng)前候選命名實(shí)體右邊界。
[0137]假設(shè),當(dāng)前候選命名實(shí)體為“南苑飯店西餐廳”,對(duì)應(yīng)的詞序列為“南苑飯店西餐廳”,由于A jP “廳”是對(duì)應(yīng)詞序列的最后一個(gè)字符,因此,“廳”是當(dāng)前候選命名實(shí)體“南苑飯店西餐廳”的右邊界。
[0138]在步驟S409中,將對(duì)應(yīng)詞序列中當(dāng)前候選命名實(shí)體的最后一個(gè)字符之后的詞確定為第三對(duì)象,將對(duì)應(yīng)詞序列的最后一個(gè)字符之后的詞確定為第四對(duì)象。
[0139]如果A.j不是對(duì)應(yīng)詞序列的最后一個(gè)字符,則從A.j和A k中選擇一個(gè)作為右邊界。其中,A/..、…六15在輸入的詞序列中為一個(gè)獨(dú)立的詞。A.j+1A.j+2...Am為在A.j之后的一個(gè)詞,
在A ki后的一個(gè)詞。
[0140]假設(shè),當(dāng)前候選命名實(shí)體為“南苑飯店”,對(duì)應(yīng)的詞序列為“南苑飯店西餐廳”,由于八,即“店”不是對(duì)應(yīng)詞序列的最后一個(gè)字符,因此,需要從“店”和“廳”中選擇一個(gè)作為右邊界。其中,A]+1A]+2*"A?*“西餐廳”,Ak+1AkV"An為“碰面”。
[0141]在步驟S410中,計(jì)算命名實(shí)體之后出現(xiàn)第三對(duì)象的概率,并將計(jì)算結(jié)果確定為第三概率。
[0142]計(jì)算第三概率p (Aj+1Aj+2…A?/NEq),其中,p (Aj+1Aj+2…AjNEq)表示命名實(shí)體NEq的后面出現(xiàn)Aj+1Aj+2...Α?^概率。
[0143]在步驟S411中,計(jì)算命名實(shí)體之后出現(xiàn)第四對(duì)象的概率,并將計(jì)算結(jié)果確定為第四概率。
[0144]計(jì)算第四概率p (Ak+1Ak+2."An/NEq),其中,p (Ak+lAk+2…An/NEq)表示命名實(shí)體 NEq的后面出現(xiàn)Ak+1Ak+2...六?的概率。
[0145]在步驟S412中,若第三概率大于第四概率,則將當(dāng)前候選命名實(shí)體的最后一個(gè)字符確定為右邊界,若第三概率小于第四概率,則將對(duì)應(yīng)詞序列的最后一個(gè)字符確定為右邊界。
[0146]若p (Aj+1Aj+2…A?/NEq) >p (Ak+1Ak+2...An/NEq),則確定為右邊界,反之,確定 A k為右邊界。
[0147]假設(shè)在該實(shí)施例中,命名實(shí)體NEq的后面出現(xiàn)“西餐廳”的概率小于命名實(shí)體NEq的后面出現(xiàn)“碰面”的概率,則確定“廳”是當(dāng)前候選命名實(shí)體“南苑飯店西餐廳”的右邊界。
[0148]在該實(shí)施例中,在確定好當(dāng)前候選命名實(shí)體的左邊界和右邊界之后,即可根據(jù)左邊界和右邊界確定出命名實(shí)體。
[0149]上述實(shí)施例,根據(jù)輸入的詞序列確定出當(dāng)前候選命名實(shí)體的左邊界和右邊界,從而為從信息中識(shí)別出命名實(shí)體提供了條件。
[0150]與前述命名實(shí)體的識(shí)別方法實(shí)施例相對(duì)應(yīng),本公開(kāi)還提供了命名實(shí)體的識(shí)別裝置實(shí)施例。
[0151]圖5是根據(jù)一示例性實(shí)施例示出的一種命名實(shí)體的識(shí)別裝置的框圖,如圖5所示,該命名實(shí)體的識(shí)別裝置包括:記錄模塊51、識(shí)別模塊52和校正模塊53。
[0152]記錄模塊51,被配置為記錄用戶在輸入信息時(shí)輸入的詞序列。
[0153]在該實(shí)施例中,用戶在使用輸入法輸入信息例如短信時(shí),記錄用戶輸入的詞序列。
[0154]例如,用戶在輸入短信“張梅,晚上在南苑飯店西餐廳碰面?!睍r(shí),記錄的詞序列可以為:“張梅”、“,”、“晚上”、“在”、“南苑飯店西餐廳”、“碰面”、“?!?;也可以為“張梅”、“,”、“晚上”、“在南苑飯店西餐廳”、“碰面”、“?!?br>[0155]需要說(shuō)明的是,記錄的詞序列與用戶使用輸入法的習(xí)慣有關(guān),即不同用戶輸入相同信息時(shí),記錄的詞序列有可能不同。
[0156]識(shí)別模塊52,被配置為根據(jù)條件隨機(jī)場(chǎng)CRF識(shí)別出信息中的候選命名實(shí)體。
[0157]在該實(shí)施例中,可以根據(jù)條件隨機(jī)場(chǎng)(CRF)識(shí)別出上述信息中的候選命名實(shí)體,由于CRF可以采用不同的模型,因此,識(shí)別出的候選命名實(shí)體可以為“張梅”和“南苑飯店西餐廳”,也可以為“張梅”、“南苑飯店”和“西餐廳”。
[0158]校正模塊53,被配置為根據(jù)記錄模塊51記錄的詞序列對(duì)識(shí)別模塊52識(shí)別出的候選命名實(shí)體進(jìn)行校正,以識(shí)別出信息中的命名實(shí)體。
[0159]在該實(shí)施例中,由于識(shí)別出的候選命名實(shí)體可能不準(zhǔn)確,因此,需要進(jìn)行校正,例如,可以根據(jù)記錄的詞序列對(duì)候選命名實(shí)體進(jìn)行校正,從而識(shí)別出命名實(shí)體。
[0160]在該實(shí)施例中,校正模塊53可以包括:第一確定子模塊531和第二確定子模塊532。
[0161]第一確定子模塊531被配置為根據(jù)詞序列確定每個(gè)候選命名實(shí)體的左邊界和右邊界。
[0162]第二確定子模塊532被配置為根據(jù)每個(gè)候選命名實(shí)體的左邊界和右邊界確定信息中的命名實(shí)體。
[0163]假設(shè),根據(jù)詞序列“張梅”確定出候選命名實(shí)體“張梅”的左邊界為“張”,右邊界為“梅”,則可以確定“張梅”為信息中的命名實(shí)體。
[0164]如圖5所示的裝置用于實(shí)現(xiàn)上述如圖1所示的方法流程,涉及到的相關(guān)內(nèi)容描述相同,此處不贅述。
[0165]上述命名實(shí)體的識(shí)別裝置實(shí)施例,通過(guò)校正模塊根據(jù)記錄的詞序列對(duì)候選命名實(shí)體進(jìn)行校正,不僅能夠從信息中自動(dòng)識(shí)別出命名實(shí)體,而且識(shí)別的準(zhǔn)確率高、消耗的資源少。
[0166]圖6是根據(jù)一示例性實(shí)施例示出的另一種命名實(shí)體的識(shí)別裝置的框圖,如圖6所示,在上述圖5所示實(shí)施例的基礎(chǔ)上,該裝置還可包括:標(biāo)注模塊54和發(fā)送模塊55。
[0167]標(biāo)注模塊54,被配置為在校正模塊53識(shí)別出信息中的命名實(shí)體之后,采用預(yù)設(shè)的實(shí)體標(biāo)簽對(duì)信息中的命名實(shí)體進(jìn)行標(biāo)注。
[0168]為了降低對(duì)資源的消耗,該實(shí)施例中,可以采用預(yù)設(shè)的實(shí)體標(biāo)簽對(duì)信息中的命名實(shí)體進(jìn)行標(biāo)注,其中,預(yù)設(shè)的實(shí)體標(biāo)簽可以包括:
[0169]〈NAME〉...〈/NAME〉,用于對(duì)人名進(jìn)行標(biāo)注;
[0170]<L0C>...</L0C>,用于對(duì)地名進(jìn)行標(biāo)注;
[0171]<0RG>...</0RG>,用于對(duì)組織機(jī)構(gòu)名進(jìn)行標(biāo)注。
[0172]例如,短信A為:“張梅,晚上在南苑飯店西餐廳碰面?!?。
[0173]采用預(yù)設(shè)的實(shí)體標(biāo)簽對(duì)短信A進(jìn)行標(biāo)記后,得到A’:
[0174]“〈NAME〉張梅〈/NAME〉,晚上在<0RG>南苑飯店西餐廳</0RG>碰面?!?br>[0175]發(fā)送模塊55,被配置為發(fā)送標(biāo)注模塊54標(biāo)注后的信息,以便接收端對(duì)標(biāo)注后的信息進(jìn)行還原。
[0176]其中,信息可以包括短信息。
[0177]在采用預(yù)設(shè)的實(shí)體標(biāo)簽對(duì)信息中的命名實(shí)體進(jìn)行標(biāo)注之后,可以發(fā)送標(biāo)記后的信息例如標(biāo)記后的短信A’。
[0178]接收端在接收到短信A’后,可以讀出其中的命名實(shí)體,并去掉標(biāo)簽,將短信還原成原始短信,即將短信A’還原成短信A。
[0179]如圖6所示的裝置用于實(shí)現(xiàn)上述如圖2A所示的方法流程,涉及到的相關(guān)內(nèi)容描述相同,此處不贅述。
[0180]上述命名實(shí)體的識(shí)別裝置實(shí)施例,采用一種融合實(shí)體標(biāo)簽標(biāo)注的短信發(fā)送格式,大大降低了短信中命名實(shí)體識(shí)別時(shí)的資源消耗。
[0181]圖7是根據(jù)一示例性實(shí)施例示出的另一種命名實(shí)體的識(shí)別裝置的框圖,如圖7所示,在上述圖5所示實(shí)施例的基礎(chǔ)上,該裝置還可包括:
[0182]生成操作模塊56,被配置為在校正模塊53識(shí)別出信息中的命名實(shí)體之后,根據(jù)命名實(shí)體生成提醒記錄或進(jìn)行預(yù)設(shè)的業(yè)務(wù)操作,預(yù)設(shè)的業(yè)務(wù)操作包括導(dǎo)航操作。
[0183]在該實(shí)施例中,在從信息例如短信中識(shí)別出命名實(shí)體后,可以輔助進(jìn)行事件抽取,然后基于抽取的事件生成提醒記錄。也可以用于地圖查找地址或是導(dǎo)航等業(yè)務(wù)操作。
[0184]如圖7所示的裝置用于實(shí)現(xiàn)上述如圖3所示的方法流程,涉及到的相關(guān)內(nèi)容描述相同,此處不贅述。
[0185]上述命名實(shí)體的識(shí)別裝置實(shí)施例,可以根據(jù)命名實(shí)體生成提醒記錄或進(jìn)行預(yù)設(shè)的業(yè)務(wù)操作,為用戶提供了便利。
[0186]圖8是根據(jù)一示例性實(shí)施例示出的另一種命名實(shí)體的識(shí)別裝置的框圖,如圖8所示,在上述圖5所示實(shí)施例的基礎(chǔ)上,第一確定子模塊531可以包括:第一判斷確定單元5311和第二判斷確定單元5312。
[0187]第一判斷確定單元5311被配置為判斷當(dāng)前候選命名實(shí)體的第一個(gè)字符是否為對(duì)應(yīng)詞序列的第一個(gè)字符,若為對(duì)應(yīng)詞序列的第一個(gè)字符,則確定當(dāng)前候選命名實(shí)體的第一個(gè)字符為左邊界。
[0188]在該實(shí)施例中,假設(shè)短信A = AA-Aw,其中AAyAj為當(dāng)前候選命名實(shí)體,則使用輸入的詞序列進(jìn)行校正的過(guò)程包括:根據(jù)詞序列判定~是否是左邊界,判定的方法為:在用戶輸入的詞序列中,判斷4是否為對(duì)應(yīng)詞序列的第一個(gè)字符。
[0189]如果~是對(duì)應(yīng)詞序列的第一個(gè)字符,則A i是當(dāng)前候選命名實(shí)體的左邊界。
[0190]假設(shè),當(dāng)前候選命名實(shí)體為“南苑飯店西餐廳”,對(duì)應(yīng)的詞序列為“南苑飯店西餐廳”,由于~即“南”是對(duì)應(yīng)詞序列的第一個(gè)字符,因此,“南”是當(dāng)前候選命名實(shí)體“南苑飯店西餐廳”的左邊界。
[0191]第二判斷確定單元5312被配置為判斷當(dāng)前候選命名實(shí)體的最后一個(gè)字符是否為對(duì)應(yīng)詞序列的最后一個(gè)字符,若為對(duì)應(yīng)詞序列的最后一個(gè)字符,則確定當(dāng)前候選命名實(shí)體的最后一個(gè)字符為右邊界。
[0192]在該實(shí)施例中,在確定好當(dāng)前候選命名實(shí)體的左邊界之后,繼續(xù)確定當(dāng)前候選命名實(shí)體的右邊界。
[0193]在該實(shí)施例中,根據(jù)輸入的詞序列判定、是否是合適的右邊界的方法為:在用戶輸入的詞序列中,判斷A,是否為詞序列的最后一個(gè)字符。
[0194]在該實(shí)施例中,如果六^是對(duì)應(yīng)詞序列的最后一個(gè)字符,則A j為當(dāng)前候選命名實(shí)體右邊界。
[0195]假設(shè),當(dāng)前候選命名實(shí)體為“南苑