命名實(shí)體的識(shí)別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本公開涉及自然語言技術(shù)領(lǐng)域,尤其涉及一種命名實(shí)體的識(shí)別方法及裝置。
【背景技術(shù)】
[0002]隨著移動(dòng)終端技術(shù)的快速發(fā)展,各種移動(dòng)終端例如手機(jī)已非常普及,并且為人們提供了便利,例如,用戶可以利用手機(jī)短信進(jìn)行事件提醒,也可以利用手機(jī)進(jìn)行導(dǎo)航。
[0003]自然語言處理和機(jī)器學(xué)習(xí)是人工智能的一個(gè)重要方向,而命名實(shí)體識(shí)別(NameEntity Recognit1n, NER)是這些研究中重要且不可缺少的一步。在語言文本中,命名實(shí)體是信息的主要載體,用來表達(dá)文本的主要內(nèi)容。命名實(shí)體識(shí)別可以用于輔助進(jìn)行事件提取,以進(jìn)行事件提醒,也可以用于導(dǎo)航,因此,如何進(jìn)行命名實(shí)體識(shí)別是一個(gè)急需解決的技術(shù)問題。
[0004]目前,可以對(duì)實(shí)體識(shí)別模型進(jìn)行訓(xùn)練,以學(xué)習(xí)出實(shí)體識(shí)別模型的參數(shù),然后利用具有該參數(shù)的實(shí)體識(shí)別模型識(shí)別出自然語言文本中的命名實(shí)體。但是,這種識(shí)別方法資源消耗大,無法對(duì)手機(jī)短信上的命名實(shí)體進(jìn)行識(shí)別。
【發(fā)明內(nèi)容】
[0005]為克服相關(guān)技術(shù)中存在的問題,本公開提供一種命名實(shí)體的識(shí)別方法及裝置。
[0006]根據(jù)本公開實(shí)施例的第一方面,提供一種命名實(shí)體的識(shí)別方法,包括:
[0007]記錄用戶在輸入信息時(shí)輸入的詞序列;
[0008]根據(jù)條件隨機(jī)場CRF識(shí)別出所述信息中的候選命名實(shí)體;
[0009]根據(jù)記錄的所述詞序列對(duì)所述候選命名實(shí)體進(jìn)行校正,以識(shí)別出所述信息中的命名實(shí)體。
[0010]在一實(shí)施例中,所述方法還包括:
[0011 ] 在所述識(shí)別出所述信息中的命名實(shí)體之后,采用預(yù)設(shè)的實(shí)體標(biāo)簽對(duì)所述信息中的命名實(shí)體進(jìn)行標(biāo)注;
[0012]發(fā)送標(biāo)注后的信息,以便接收端對(duì)所述標(biāo)注后的信息進(jìn)行還原;所述信息包括短
?目息。
[0013]在一實(shí)施例中,所述方法還包括:
[0014]在所述識(shí)別出所述信息中的命名實(shí)體之后,根據(jù)所述命名實(shí)體生成提醒記錄或進(jìn)行預(yù)設(shè)的業(yè)務(wù)操作,所述預(yù)設(shè)的業(yè)務(wù)操作包括導(dǎo)航操作。
[0015]在一實(shí)施例中,所述根據(jù)記錄的所述詞序列對(duì)所述候選命名實(shí)體進(jìn)行校正,以識(shí)別出所述信息中的命名實(shí)體,包括:
[0016]根據(jù)所述詞序列確定每個(gè)候選命名實(shí)體的左邊界和右邊界;
[0017]根據(jù)所述每個(gè)候選命名實(shí)體的左邊界和右邊界確定所述信息中的命名實(shí)體。
[0018]在一實(shí)施例中,所述根據(jù)所述詞序列確定每個(gè)候選命名實(shí)體的左邊界和右邊界,包括:
[0019]判斷當(dāng)前候選命名實(shí)體的第一個(gè)字符是否為對(duì)應(yīng)詞序列的第一個(gè)字符,若為對(duì)應(yīng)詞序列的第一個(gè)字符,則確定所述當(dāng)前候選命名實(shí)體的第一個(gè)字符為左邊界;
[0020]判斷當(dāng)前候選命名實(shí)體的最后一個(gè)字符是否為所述對(duì)應(yīng)詞序列的最后一個(gè)字符,若為所述對(duì)應(yīng)詞序列的最后一個(gè)字符,則確定所述當(dāng)前候選命名實(shí)體的最后一個(gè)字符為右邊界。
[0021 ] 在一實(shí)施例中,所述方法還包括:
[0022]若當(dāng)前候選命名實(shí)體的第一個(gè)字符不是對(duì)應(yīng)詞序列的第一個(gè)字符,則將對(duì)應(yīng)詞序列中所述當(dāng)前候選命名實(shí)體的第一個(gè)字符之前的詞確定為第一對(duì)象,將所述第一對(duì)象之前的詞確定為第二對(duì)象;
[0023]計(jì)算所述第一對(duì)象之后出現(xiàn)命名實(shí)體的概率,并將計(jì)算結(jié)果確定為第一概率;
[0024]計(jì)算所述第二對(duì)象之后出現(xiàn)命名實(shí)體的概率,并將計(jì)算結(jié)果確定為第二概率;
[0025]若所述第一概率大于所述第二概率,則確定所述當(dāng)前候選命名實(shí)體的第一個(gè)字符為左邊界,若所述第一概率小于所述第二概率,則確定所述第一對(duì)象的第一個(gè)字符為左邊界。
[0026]在一實(shí)施例中,所述方法還包括:
[0027]若當(dāng)前候選命名實(shí)體的最后一個(gè)字符不是所述對(duì)應(yīng)詞序列的最后一個(gè)字符,則將對(duì)應(yīng)詞序列中所述當(dāng)前候選命名實(shí)體的最后一個(gè)字符之后的詞確定為第三對(duì)象,將所述對(duì)應(yīng)詞序列的最后一個(gè)字符之后的詞符確定為第四對(duì)象;
[0028]計(jì)算命名實(shí)體之后出現(xiàn)所述第三對(duì)象的概率,并將計(jì)算結(jié)果確定為第三概率;
[0029]計(jì)算命名實(shí)體之后出現(xiàn)所述第四對(duì)象的概率,并將計(jì)算結(jié)果確定為第四概率;
[0030]若所述第三概率大于所述第四概率,則將當(dāng)前候選命名實(shí)體的最后一個(gè)字符確定為右邊界,若所述第三概率小于所述第四概率,則將所述對(duì)應(yīng)詞序列的最后一個(gè)字符確定為右邊界。
[0031]根據(jù)本公開實(shí)施例的第二方面,提供一種命名實(shí)體的識(shí)別裝置,包括:
[0032]記錄模塊,被配置為記錄用戶在輸入信息時(shí)輸入的詞序列;
[0033]識(shí)別模塊,被配置為根據(jù)條件隨機(jī)場CRF識(shí)別出所述信息中的候選命名實(shí)體;
[0034]校正模塊,被配置為根據(jù)所述記錄模塊記錄的所述詞序列對(duì)所述識(shí)別模塊識(shí)別出的所述候選命名實(shí)體進(jìn)行校正,以識(shí)別出所述信息中的命名實(shí)體。
[0035]在一實(shí)施例中,所述裝置還包括:
[0036]標(biāo)注模塊,被配置為在所述校正模塊識(shí)別出所述信息中的命名實(shí)體之后,采用預(yù)設(shè)的實(shí)體標(biāo)簽對(duì)所述信息中的命名實(shí)體進(jìn)行標(biāo)注;
[0037]發(fā)送模塊,被配置為發(fā)送所述標(biāo)注模塊標(biāo)注后的信息,以便接收端對(duì)所述標(biāo)注后的信息進(jìn)行還原;所述信息包括短信息。
[0038]在一實(shí)施例中,所述裝置還包括:
[0039]生成操作模塊,被配置為在所述校正模塊識(shí)別出所述信息中的命名實(shí)體之后,根據(jù)所述命名實(shí)體生成提醒記錄或進(jìn)行預(yù)設(shè)的業(yè)務(wù)操作,所述預(yù)設(shè)的業(yè)務(wù)操作包括導(dǎo)航操作。
[0040]在一實(shí)施例中,所述校正模塊,包括:
[0041]第一確定子模塊,被配置為根據(jù)所述詞序列確定每個(gè)候選命名實(shí)體的左邊界和右邊界;
[0042]第二確定子模塊,被配置為根據(jù)所述每個(gè)候選命名實(shí)體的左邊界和右邊界確定所述信息中的命名實(shí)體。
[0043]在一實(shí)施例中,所述第一確定子模塊包括:
[0044]第一判斷確定單元,被配置為判斷當(dāng)前候選命名實(shí)體的第一個(gè)字符是否為對(duì)應(yīng)詞序列的第一個(gè)字符,若為對(duì)應(yīng)詞序列的第一個(gè)字符,則確定所述當(dāng)前候選命名實(shí)體的第一個(gè)字符為左邊界;
[0045]第二判斷確定單元,被配置為判斷當(dāng)前候選命名實(shí)體的最后一個(gè)字符是否為所述對(duì)應(yīng)詞序列的最后一個(gè)字符,若為所述對(duì)應(yīng)詞序列的最后一個(gè)字符,則確定所述當(dāng)前候選命名實(shí)體的最后一個(gè)字符為右邊界。
[0046]在一實(shí)施例中,所述第一確定子模塊還包括:
[0047]第一對(duì)象確定單元,被配置為若所述第一判斷確定單元確定當(dāng)前候選命名實(shí)體的第一個(gè)字符不是對(duì)應(yīng)詞序列的第一個(gè)字符,則將對(duì)應(yīng)詞序列中所述當(dāng)前候選命名實(shí)體的第一個(gè)字符之前的詞確定為第一對(duì)象,將所述第一對(duì)象之前的詞確定為第二對(duì)象;
[0048]第一計(jì)算單元,被配置為計(jì)算所述第一對(duì)象確定單元確定出的所述第一對(duì)象之后出現(xiàn)命名實(shí)體的概率,并將計(jì)算結(jié)果確定為第一概率;
[0049]第二計(jì)算單元,被配置為計(jì)算所述第一對(duì)象確定單元確定出的所述第二對(duì)象之后出現(xiàn)命名實(shí)體的概率,并將計(jì)算結(jié)果確定為第二概率;
[0050]左邊界確定單元,被配置為若所述第一計(jì)算單元計(jì)算出的所述第一概率大于所述第二計(jì)算單元計(jì)算出的所述第二概率,則確定所述當(dāng)前候選命名實(shí)體的第一個(gè)字符為左邊界,若所述第一概率小于所述第二概率,則確定所述第一對(duì)象的第一個(gè)字符為左邊界。
[0051]在一實(shí)施例中,所述第一確定子模塊還包括:
[0052]第二對(duì)象確定單元,被配置為若所述第二判斷確定單元確定當(dāng)前候選命名實(shí)體的最后一個(gè)字符不是所述對(duì)應(yīng)詞序列的最后一個(gè)字符,則將對(duì)應(yīng)詞序列中所述當(dāng)前候選命名實(shí)體的最后一個(gè)字符之后的詞確定為第三對(duì)象,將所述對(duì)應(yīng)詞序列的最后一個(gè)字符之后的詞符確定為第四對(duì)象;
[0053]第三計(jì)算單元,被配置為計(jì)算命名實(shí)體之后出現(xiàn)所述第二對(duì)象確定單元確定的所述第三對(duì)象的概率,并將計(jì)算結(jié)果確定為第三概率;
[0054]第四計(jì)算單元,被配置為計(jì)算命名實(shí)體之后出現(xiàn)所述第二對(duì)象確定單元確定的所述第四對(duì)象的概率,并將計(jì)算結(jié)果確定為第四概率;
[0055]右邊界確定單元,被配置為若所述第三計(jì)算單元計(jì)算出的所述第三概率大于所述第四計(jì)算單元計(jì)算出的所述第四概率,則將當(dāng)前候選命名實(shí)體的最后一個(gè)字符確定為右邊界,若所述第三概率小于所述第四概率,則將所述對(duì)應(yīng)詞序列的最后一個(gè)字符確定為右邊界。
[0056]根據(jù)本公開實(shí)施例的第三方面,提供一種命名實(shí)體的識(shí)別裝置,包括:
[0057]處理器;
[0058]用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器;
[0059]其中,處理器被配置為:
[0060]記錄用戶在輸入信息時(shí)輸入的詞序列;
[0061]根據(jù)條件隨機(jī)場CRF識(shí)別出所述信息中的候選命名實(shí)體;
[0062]根據(jù)記錄的所述詞序列對(duì)所述候選命名實(shí)體進(jìn)行校正,以識(shí)別出所述信息中的命名實(shí)體。
[0063]本公開的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:根據(jù)記錄的詞序列對(duì)候選命名實(shí)體進(jìn)行校正,不僅能夠從信息中自動(dòng)識(shí)別出命名實(shí)體,而且識(shí)別的準(zhǔn)確率高、消耗的資源少。
[0064]采用一種融合實(shí)體標(biāo)簽標(biāo)注的短信發(fā)送格式,大大降低了短信中命名實(shí)體識(shí)別時(shí)的資源消耗。
[0065]可以根據(jù)命名實(shí)體生成提醒記錄或進(jìn)行預(yù)設(shè)的業(yè)務(wù)操作,為用戶提供了便利。
[0066]通過提供一種根據(jù)輸入的詞序列確定當(dāng)前候選命名實(shí)體的左邊界和右邊界的方式,為從信息中識(shí)別出命名實(shí)體提供了條件。
[0067]通過提供另一種根據(jù)輸入的詞序列確定當(dāng)前候選命名實(shí)體的左邊界的方式,從而為從信息中識(shí)別出命名實(shí)體提供了條件。
[0068]通過提供另一種根據(jù)輸入的詞序列確定當(dāng)前候選命名實(shí)體的右邊界的方式,從而為從信息中識(shí)別出命名實(shí)體提供了條件。
[0069]應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
【附圖說明】
[0070]此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實(shí)施例,并與說明書一起用于解釋本發(fā)明的原理。
[007