本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,尤其涉及一種新詞發(fā)現(xiàn)方法、裝置、終端及服務(wù)器。
背景技術(shù):
在自然語(yǔ)言領(lǐng)域的實(shí)際應(yīng)用中,有些場(chǎng)景需要確定具備新的特定含義的詞語(yǔ),也就是新詞,例如新三板、警示股、母基金。因此,需要對(duì)文本或語(yǔ)料中的進(jìn)行新詞抽取操作。
現(xiàn)有技術(shù)中,新詞抽取主要是基于統(tǒng)計(jì)和規(guī)則的方法。基于規(guī)則的方法通常是基于新詞的內(nèi)部語(yǔ)法規(guī)則或者新詞的前后綴規(guī)則,并以此為準(zhǔn)則發(fā)現(xiàn)新詞。基于統(tǒng)計(jì)方法一般是尋找描述新詞特征的統(tǒng)計(jì)量,常用統(tǒng)計(jì)量有成詞概率、互信息、剛性等等;并抽取候選詞串,計(jì)算其內(nèi)部聚合度和自由度,在此基礎(chǔ)上確定閾值,尋找聚合度和自由度最大的字符串組合作為新詞。
但時(shí),基于規(guī)則的方法中,如何建立全面完整的規(guī)則是亟需解決的問(wèn)題;在基于統(tǒng)計(jì)方法中,閾值的確定是個(gè)難題,導(dǎo)致抽取的新詞并非新詞的問(wèn)題,從而導(dǎo)致新詞候選詞中包含垃圾詞串(比如“做家務(wù)”、“這本書(shū)”、“的時(shí)候”等),進(jìn)而需要大量人工參與新詞過(guò)濾,效率極低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明解決的技術(shù)問(wèn)題是如何提高新詞提取的效率和精準(zhǔn)度。
為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供一種新詞發(fā)現(xiàn)方法,新詞發(fā)現(xiàn)方法包括:
對(duì)原始語(yǔ)料進(jìn)行新詞發(fā)現(xiàn)操作,以得到新詞候選詞;對(duì)所述原始語(yǔ)料進(jìn)行分詞,以得到第一分詞結(jié)果;基于所述第一分詞結(jié)果拆分所述新詞候選詞得到所述新詞候選詞的子部分,其中所述新詞候選詞的子部分包含在所述第一分詞結(jié)果中,所述新詞候選詞包括至少兩個(gè)所述第一分詞結(jié)果中的詞;計(jì)算所述新詞候選詞與其子部分的語(yǔ)義相似度;如果所述語(yǔ)義相似度小于設(shè)定閾值,則將所述新詞候選詞確定為新詞。
可選的,所述新詞發(fā)現(xiàn)方法還包括:如果所述語(yǔ)義相似度大于或等于設(shè)定閾值,則將所述新詞候選詞確定為垃圾詞串。
可選的,所述計(jì)算所述新詞候選詞與其子部分的語(yǔ)義相似度包括:計(jì)算所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量;根據(jù)所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量計(jì)算所述新詞候選詞與其子部分的語(yǔ)義相似度。
可選的,對(duì)所述原始語(yǔ)料進(jìn)行分詞是基于分詞詞典完成的,所述對(duì)原始語(yǔ)料進(jìn)行新詞發(fā)現(xiàn)操作,以得到新詞候選詞之后還包括:將所述新詞候選詞添加至分詞詞典。
可選的,所述新詞發(fā)現(xiàn)方法還包括:利用加入所述新詞候選詞的分詞詞典對(duì)所述原始語(yǔ)料進(jìn)行分詞,得到第二分詞結(jié)果,所述第二分詞結(jié)果至少包括所述新詞候選詞。
可選的,所述計(jì)算所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量包括:基于所述第一分詞結(jié)果和所述第二分詞結(jié)果,計(jì)算得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量;計(jì)算每一新詞候選詞的子部分對(duì)應(yīng)的各個(gè)詞的詞向量之和,以作為所述每一新詞候選詞的子部分的詞向量。
可選的,所述計(jì)算所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量包括:對(duì)所述原始語(yǔ)料進(jìn)行分字處理,以得到字列表;基于所述第一分詞結(jié)果、所述第二分詞結(jié)果和所述字列表,計(jì)算得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量;計(jì)算每一新詞候選詞的子部分對(duì)應(yīng)的各個(gè)詞的詞向量之和,以作為所述每一新詞候選詞的子部分的詞向量。
可選的,通過(guò)將所述第一分詞結(jié)果、所述第二分詞結(jié)果和所述字列表輸入詞向量轉(zhuǎn)換模型,得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量。
可選的,所述新詞發(fā)現(xiàn)方法還包括:對(duì)確定的所述新詞的準(zhǔn)確率進(jìn)行評(píng)估,得到評(píng)估結(jié)果;根據(jù)所述評(píng)估結(jié)果調(diào)整所述設(shè)定閾值;利用調(diào)整后的所述設(shè)定閾值再次確定所述新詞,直至確定的所述新詞的準(zhǔn)確率符合預(yù)設(shè)要求。
可選的,所述計(jì)算所述新詞候選詞與其子部分的語(yǔ)義相似度包括:計(jì)算每一新詞候選詞的詞向量和所述每一新詞候選詞的子部分的詞向量的語(yǔ)義距離,以衡量所述語(yǔ)義相似度。
可選的,所述對(duì)所述原始語(yǔ)料進(jìn)行分詞之前還包括:對(duì)所述原始語(yǔ)料進(jìn)行預(yù)處理,以得到格式統(tǒng)一的所述原始語(yǔ)料。
可選的,采用統(tǒng)計(jì)或規(guī)則算法進(jìn)行所述新詞發(fā)現(xiàn)操作。
為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例還公開(kāi)了一種新詞發(fā)現(xiàn)裝置,新詞發(fā)現(xiàn)裝置包括:新詞發(fā)現(xiàn)單元,用于對(duì)原始語(yǔ)料進(jìn)行新詞發(fā)現(xiàn)操作,以得到新詞候選詞;第一分詞單元,用于對(duì)所述原始語(yǔ)料進(jìn)行分詞,以得到第一分詞結(jié)果;子部分確定單元,用于基于所述第一分詞結(jié)果拆分所述新詞候選詞得到所述新詞候選詞的子部分,其中所述新詞候選詞的子部分包含在所述第一分詞結(jié)果中,所述新詞候選詞包括至少兩個(gè)所述第一分詞結(jié)果中的詞;相似度計(jì)算單元,用于計(jì)算所述新詞候選詞與其子部分的語(yǔ)義相似度;新詞確定單元,用于在所述語(yǔ)義相似度小于設(shè)定閾值時(shí),將所述新詞候選詞確定為新詞。
可選的,所述新詞確定單元在所述語(yǔ)義相似度大于或等于設(shè)定閾值時(shí),將所述新詞候選詞確定為垃圾詞串。
可選的,所述相似度計(jì)算單元包括:詞向量計(jì)算子單元,用于計(jì)算所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量;相似度計(jì)算子單元,用于根據(jù)所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量計(jì)算所述新詞候選詞與其子部分的語(yǔ)義相似度。
可選的,所述新詞發(fā)現(xiàn)裝置還包括:新詞添加單元,用于將所述新詞候選詞添加至分詞詞典,對(duì)所述原始語(yǔ)料進(jìn)行分詞是基于所述分詞詞典完成的。
可選的,所述新詞發(fā)現(xiàn)裝置還包括:第二分詞單元,用于利用加入所述新詞候選詞的分詞詞典對(duì)所述原始語(yǔ)料進(jìn)行分詞,得到第二分詞結(jié)果,所述第二分詞結(jié)果包括所述新詞候選詞。
可選的,所述詞向量計(jì)算子單元包括:第一分詞結(jié)果計(jì)算子單元,用于基于所述第一分詞結(jié)果和所述第二分詞結(jié)果,計(jì)算得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量;第一子部分加和子單元,用于計(jì)算每一新詞候選詞的子部分對(duì)應(yīng)的各個(gè)詞的詞向量之和,以作為所述每一新詞候選詞的子部分的詞向量。
可選的,所述詞向量計(jì)算子單元包括:分字單元,用于對(duì)所述原始語(yǔ)料進(jìn)行分字處理,以得到字列表;第二分詞結(jié)果計(jì)算子單元,用于基于所述第一分詞結(jié)果、所述第二分詞結(jié)果和所述字列表,計(jì)算得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量;第二子部分加和子單元,用于計(jì)算每一新詞候選詞的子部分對(duì)應(yīng)的各個(gè)詞的詞向量之和,以作為所述每一新詞候選詞的子部分的詞向量。
可選的,所述第二分詞結(jié)果計(jì)算子單元通過(guò)將所述第一分詞結(jié)果、所述第二分詞結(jié)果和所述字列表輸入詞向量轉(zhuǎn)換模型,得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量。
可選的,所述新詞發(fā)現(xiàn)裝置還包括:評(píng)估單元,用于對(duì)確定的所述新詞的準(zhǔn)確率進(jìn)行評(píng)估,得到評(píng)估結(jié)果;調(diào)整單元,用于根據(jù)所述評(píng)估結(jié)果調(diào)整所述設(shè)定閾值;驗(yàn)證單元,用于利用調(diào)整后的所述設(shè)定閾值再次確定所述新詞,直至確定的所述新詞的準(zhǔn)確率符合預(yù)設(shè)要求。
可選的,所述相似度計(jì)算單元計(jì)算每一新詞候選詞的詞向量和所述每一新詞候選詞的子部分的詞向量的語(yǔ)義距離,以衡量所述語(yǔ)義相似度。
可選的,所述新詞發(fā)現(xiàn)裝置還包括:預(yù)處理單元,用于對(duì)所述原始語(yǔ)料進(jìn)行預(yù)處理,以得到格式統(tǒng)一的所述原始語(yǔ)料。
可選的,采用統(tǒng)計(jì)或規(guī)則算法進(jìn)行所述新詞發(fā)現(xiàn)操作。
為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例還公開(kāi)了一種終端,所述終端包括所述新詞發(fā)現(xiàn)裝置。
為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例還公開(kāi)了一種服務(wù)器,所述服務(wù)器包括所述新詞發(fā)現(xiàn)裝置。
與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例的技術(shù)方案具有以下有益效果:
本發(fā)明技術(shù)方案對(duì)原始語(yǔ)料進(jìn)行新詞發(fā)現(xiàn)操作,以得到新詞候選詞;對(duì)所述原始語(yǔ)料進(jìn)行分詞,以得到第一分詞結(jié)果;基于所述第一分詞結(jié)果拆分所述新詞候選詞得到所述新詞候選詞的子部分,其中所述新詞候選詞的子部分包含在所述第一分詞結(jié)果中,所述新詞候選詞包括至少兩個(gè)所述第一分詞結(jié)果中的詞;計(jì)算所述新詞候選詞與其子部分的語(yǔ)義相似度;如果所述語(yǔ)義相似度小于設(shè)定閾值,則將所述新詞候選詞確定為新詞。本發(fā)明技術(shù)方案在新詞發(fā)現(xiàn)操作的基礎(chǔ)上,基于原始語(yǔ)料的分詞結(jié)果得到新詞候選詞的子部分,也就是說(shuō),新詞候選詞的子部分均為已有詞匯;然后通過(guò)計(jì)算新詞候選詞和其子部分的語(yǔ)義相似度,在語(yǔ)義相似度小于設(shè)定閾值時(shí),表明新詞候選詞和其子部分的語(yǔ)義差別足夠大,也就是說(shuō),新詞候選詞的語(yǔ)義和已有詞匯的語(yǔ)義差別足夠大,那么該新詞候選詞可以被確定為新詞,提高了新詞提取的準(zhǔn)確性;同時(shí)避免了人工篩選的步驟,新詞提取的效率也得到了提高。
進(jìn)一步,如果所述語(yǔ)義相似度大于或等于設(shè)定閾值,則將所述新詞候選詞確定為垃圾詞串,本發(fā)明技術(shù)方案通過(guò)將新詞候選詞確定為垃圾詞串,進(jìn)而能夠過(guò)濾掉垃圾詞串;通過(guò)計(jì)算語(yǔ)義相似度和設(shè)置設(shè)定閾值的方式,能夠減少新詞發(fā)現(xiàn)過(guò)程的工作量,降低人工成本。
進(jìn)一步,對(duì)所述原始語(yǔ)料進(jìn)行分字處理,以得到字列表;基于所述第一分詞結(jié)果、所述第二分詞結(jié)果和所述字列表,計(jì)算得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量;計(jì)算每一新詞候選詞的子部分對(duì)應(yīng)的各個(gè)詞的詞向量之和,以作為所述每一新詞候選詞的子部分的詞向量。本發(fā)明技術(shù)方案通過(guò)對(duì)原始語(yǔ)料的分字處理,從而在新詞候選詞的子部分為單字時(shí),在計(jì)算其詞向量時(shí),可以增強(qiáng)該子部分的語(yǔ)義;進(jìn)而在后續(xù)步驟計(jì)算新詞候選詞與其子部分的語(yǔ)義相似度時(shí),可以進(jìn)一步將新詞候選詞與其子部分進(jìn)行區(qū)分,從而進(jìn)一步提高新詞提取的準(zhǔn)確性。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例一種新詞發(fā)現(xiàn)方法的流程圖;
圖2是本發(fā)明實(shí)施例另一種新詞發(fā)現(xiàn)方法的流程圖;
圖3是本發(fā)明實(shí)施例一種新詞發(fā)現(xiàn)裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
如背景技術(shù)中所述,現(xiàn)有技術(shù)的基于規(guī)則的方法中,如何建立全面完整的規(guī)則是亟需解決的問(wèn)題;在基于統(tǒng)計(jì)方法中,閾值的確定是個(gè)難題,導(dǎo)致抽取的新詞并非新詞的問(wèn)題,從而導(dǎo)致新詞候選詞中包含垃圾詞串(比如做家務(wù)、這本書(shū)、的時(shí)候等),進(jìn)而需要大量人工參與新詞過(guò)濾,效率極低。
本發(fā)明實(shí)施例在新詞發(fā)現(xiàn)操作的基礎(chǔ)上,基于原始語(yǔ)料的分詞結(jié)果得到新詞候選詞的子部分,也就是說(shuō),新詞候選詞的子部分均為已有詞匯;然后通過(guò)計(jì)算新詞候選詞和其子部分的語(yǔ)義相似度,在語(yǔ)義相似度小于設(shè)定閾值時(shí),表明新詞候選詞和其子部分的語(yǔ)義差別大,也就是說(shuō),新詞候選詞的語(yǔ)義和已有詞匯的語(yǔ)義差別大,那么該新詞候選詞可以被確定為新詞,提高了新詞提取的準(zhǔn)確性;同時(shí)避免了人工篩選的步驟,新詞提取的效率也得到了提高。
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更為明顯易懂,下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施例做詳細(xì)的說(shuō)明。
圖1是本發(fā)明實(shí)施例一種新詞發(fā)現(xiàn)方法的流程圖。
圖1所示的新詞發(fā)現(xiàn)方法可以包括以下步驟:
步驟S101:對(duì)原始語(yǔ)料進(jìn)行新詞發(fā)現(xiàn)操作,以得到新詞候選詞;
步驟S102:對(duì)所述原始語(yǔ)料進(jìn)行分詞,以得到第一分詞結(jié)果;
步驟S103:基于所述第一分詞結(jié)果拆分所述新詞候選詞得到所述新詞候選詞的子部分;
步驟S104:計(jì)算所述新詞候選詞與其子部分的語(yǔ)義相似度;
步驟S105:如果所述語(yǔ)義相似度小于設(shè)定閾值,則將所述新詞候選詞確定為新詞。
具體實(shí)施中,在步驟S101中,對(duì)原始語(yǔ)料進(jìn)行新詞發(fā)現(xiàn)操作時(shí),可以采用統(tǒng)計(jì)或規(guī)則算法進(jìn)行所述新詞發(fā)現(xiàn)操作,也可以采用其他任意可實(shí)施的算法,本發(fā)明實(shí)施例對(duì)此不做限制。
具體實(shí)施中,在步驟S102中,可以基于分詞詞典對(duì)所述原始語(yǔ)料進(jìn)行分詞。由于分詞詞典中的詞匯均為已知詞匯,因此第一分詞結(jié)果中的所有詞匯也均為已知詞匯,其中,已知詞匯為現(xiàn)有詞匯;也就是說(shuō),新詞不屬于已知詞匯,那么第一分詞結(jié)果中不包括新詞。
具體實(shí)施中,在步驟S103中,在得到新詞候選詞和第一分詞的基礎(chǔ)上,可以基于所述第一分詞結(jié)果拆分所述新詞候選詞得到所述新詞候選詞的子部分。其中,所述新詞候選詞的子部分包含在所述第一分詞結(jié)果中。具體地,所述新詞候選詞包括至少兩個(gè)所述第一分詞結(jié)果中的詞,該至少兩個(gè)所述第一分詞結(jié)果中的詞形成新詞候選詞的子部分,且該至少兩個(gè)所述第一分詞結(jié)果中的詞均為已知詞匯。例如,新詞候選詞“螞蟻花唄”的子部分包括三個(gè)詞:“螞蟻”、“花”和“唄”,且上述三個(gè)詞:“螞蟻”、“花”和“唄”均為已知詞匯。
具體實(shí)施中,在步驟S104中,得到新詞候選詞與其子部分的語(yǔ)義相似度。以便于在步驟S105中,當(dāng)語(yǔ)義相似度小于設(shè)定閾值時(shí),將所述新詞候選詞確定為新詞。具體而言,如果所述語(yǔ)義相似度大于或等于設(shè)定閾值,則將所述新詞候選詞確定為垃圾詞串。也就是說(shuō),通過(guò)將新詞候選詞確定為垃圾詞串,進(jìn)而能夠過(guò)濾掉該垃圾詞串;通過(guò)計(jì)算語(yǔ)義相似度和設(shè)置設(shè)定閾值的方式,能夠減少新詞發(fā)現(xiàn)過(guò)程的工作量,降低人工成本。
由于新詞的語(yǔ)義是有新的含義的,因此新詞的語(yǔ)義不等于其子部分的語(yǔ)義。例如,經(jīng)步驟S101得到新詞候選詞“螞蟻花唄”;在第一分詞結(jié)果的基礎(chǔ)上拆分新詞候選詞“螞蟻花唄”,得到其子部分分別為“螞蟻”、“花”和“唄”。然后在步驟S104中,計(jì)算新詞候選詞“螞蟻花唄”與子部分“螞蟻”、“花”和“唄”的語(yǔ)義相似度。如果新詞候選詞“螞蟻花唄”是新詞的話,其語(yǔ)義與“螞蟻”、“花”和“唄”的語(yǔ)義不相等且差別大,即新詞表征新的特定的含義。故,如果語(yǔ)義相似度小于設(shè)定閾值,則新詞候選詞“螞蟻花唄”為新詞。
可以理解的是,所述設(shè)定閾值可以根據(jù)實(shí)際的應(yīng)用場(chǎng)景進(jìn)行適應(yīng)性的配置和修改,本發(fā)明實(shí)施例對(duì)此不做限制。
本發(fā)明實(shí)施例在新詞發(fā)現(xiàn)操作的基礎(chǔ)上,基于原始語(yǔ)料的分詞結(jié)果得到新詞候選詞的子部分,也就是說(shuō),新詞候選詞的子部分均為已有詞匯;然后通過(guò)計(jì)算新詞候選詞和其子部分的語(yǔ)義相似度,在語(yǔ)義相似度小于設(shè)定閾值時(shí),表明新詞候選詞和其子部分的語(yǔ)義差別大,也就是說(shuō),新詞候選詞的語(yǔ)義和已有詞匯的語(yǔ)義差別大,那么該新詞候選詞可以被確定為新詞,提高了新詞提取的準(zhǔn)確性;同時(shí)避免了人工篩選的步驟,新詞提取的效率也得到了提高。
需要說(shuō)明的是,本實(shí)施例中步驟的序號(hào)并不構(gòu)成對(duì)該步驟執(zhí)行順序的限制,例如,對(duì)于步驟S101和步驟S102,可以先執(zhí)行步驟S101,再執(zhí)行步驟S102;也可以先執(zhí)行步驟S102,再執(zhí)行步驟S101。
優(yōu)選地,在步驟S101之后還可以包括以下步驟:將所述新詞候選詞添加至分詞詞典(圖未示);利用加入所述新詞候選詞的分詞詞典對(duì)所述原始語(yǔ)料進(jìn)行分詞,得到第二分詞結(jié)果,所述第二分詞結(jié)果至少包括所述新詞候選詞。也就是說(shuō),由于對(duì)所述原始語(yǔ)料進(jìn)行分詞是基于分詞詞典完成的,因此只有在新詞候選詞加入分詞詞典之后,再利用該分詞詞典對(duì)原始語(yǔ)料進(jìn)行分詞,才能夠在第二分詞結(jié)果中包括新詞候選詞;進(jìn)而才能夠利用第二分詞結(jié)果和詞向量模型得到新詞候選詞的詞向量。
具體地,可以采用以下方式得到新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量:基于所述第一分詞結(jié)果和所述第二分詞結(jié)果,計(jì)算得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量;計(jì)算每一新詞候選詞的子部分對(duì)應(yīng)的各個(gè)詞的詞向量之和,以作為所述每一新詞候選詞的子部分的詞向量。也就是說(shuō),由于第二分詞結(jié)果中包括新詞候選詞,從而可以利用第二分詞結(jié)果得到新詞候選詞的詞向量。由于第一分詞結(jié)果中包括新詞候選詞的子部分,從而可以利用第一分詞結(jié)果得到該子部分對(duì)應(yīng)的各個(gè)詞的詞向量,然后將所述各個(gè)詞的詞向量之和作為該子部分的詞向量。換言之,由于采用詞向量的方式(也即一種數(shù)學(xué)方式)表征詞語(yǔ)的語(yǔ)義,因此新詞候選詞的子部分的語(yǔ)義可以通過(guò)所述各個(gè)詞的詞向量之和來(lái)表征。例如,新詞候選詞“螞蟻花唄”的子部分為“螞蟻”、“花”和“唄”,那么該子部分的語(yǔ)義可以表示為“vector(螞蟻)+vector(花)+vector(唄)”。
優(yōu)選地,在得到第二分詞結(jié)果之后,還可以對(duì)所述原始語(yǔ)料進(jìn)行分字處理,以得到字列表。具體地,可以采用以下方式得到新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量:基于所述第一分詞結(jié)果、所述第二分詞結(jié)果和所述字列表,計(jì)算得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量;計(jì)算每一新詞候選詞的子部分對(duì)應(yīng)的各個(gè)詞的詞向量之和,以作為所述每一新詞候選詞的子部分的詞向量。也就是說(shuō),通過(guò)對(duì)原始語(yǔ)料的分字處理,從而在新詞候選詞的子部分為單字時(shí),在計(jì)算其詞向量時(shí),可以增強(qiáng)該子部分的語(yǔ)義;進(jìn)而在后續(xù)步驟計(jì)算新詞候選詞與其子部分的語(yǔ)義相似度時(shí),可以進(jìn)一步將新詞候選詞與其子部分進(jìn)行區(qū)分,從而進(jìn)一步提高新詞提取的準(zhǔn)確性。
進(jìn)一步而言,可以通過(guò)將所述第一分詞結(jié)果、所述第二分詞結(jié)果和所述字列表輸入詞向量轉(zhuǎn)換模型,得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量。
更近一步地,詞向量模型可以包括但不限于word2vector模型、詞袋模型、神經(jīng)網(wǎng)絡(luò)模型等。
優(yōu)選地,步驟S104可以包括以下步驟:計(jì)算所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量;根據(jù)所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量計(jì)算所述新詞候選詞與其子部分的語(yǔ)義相似度。具體而言,可以計(jì)算每一新詞候選詞的詞向量和所述每一新詞候選詞的子部分的詞向量的語(yǔ)義距離,以衡量所述語(yǔ)義相似度。進(jìn)一步而言,新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量可以通過(guò)詞向量模型來(lái)獲取。具體地,可以通過(guò)將所述第一分詞結(jié)果和所述第二分詞結(jié)果輸入詞向量轉(zhuǎn)換模型,得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量。
更近一步地,詞向量模型可以包括但不限于word2vector模型、詞袋模型、神經(jīng)網(wǎng)絡(luò)模型等。
優(yōu)選地,在步驟S102之前還可以包括以下步驟:對(duì)所述原始語(yǔ)料進(jìn)行預(yù)處理,以得到格式統(tǒng)一的所述原始語(yǔ)料。具體而言,將原始語(yǔ)料轉(zhuǎn)換為文本格式,得到文本數(shù)據(jù);對(duì)所述文本數(shù)據(jù)過(guò)濾預(yù)設(shè)詞,其中所述預(yù)設(shè)詞為以下一種或多種:臟詞、敏感詞和停用詞。通過(guò)對(duì)原始語(yǔ)料的預(yù)處理,可以將原始語(yǔ)料轉(zhuǎn)換為可識(shí)別處理的文本格式;同時(shí),通過(guò)過(guò)濾預(yù)設(shè)詞,可以減小后續(xù)步驟的計(jì)算量。
具體實(shí)施中,步驟S104可以包括以下步驟:計(jì)算每一新詞候選詞的詞向量和所述每一新詞候選詞的子部分的詞向量的語(yǔ)義距離,以衡量所述語(yǔ)義相似度。
本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,對(duì)于語(yǔ)義相似度,也可以采用其他任意可實(shí)施的方式來(lái)衡量,本發(fā)明實(shí)施例對(duì)此不做限制。
優(yōu)選地,圖1所示的新詞發(fā)現(xiàn)方法還可以包括以下步驟:對(duì)確定的所述新詞的準(zhǔn)確率進(jìn)行評(píng)估,得到評(píng)估結(jié)果;根據(jù)所述評(píng)估結(jié)果調(diào)整所述設(shè)定閾值;利用調(diào)整后的所述設(shè)定閾值再次確定所述新詞,直至確定的所述新詞的準(zhǔn)確率符合預(yù)設(shè)要求。也就是說(shuō),通過(guò)調(diào)整預(yù)設(shè)閾值來(lái)對(duì)新詞發(fā)現(xiàn)方法進(jìn)行進(jìn)一步的優(yōu)化,然后使用優(yōu)化后的新詞發(fā)現(xiàn)方法對(duì)新的語(yǔ)料執(zhí)行新詞發(fā)現(xiàn)操作,從而進(jìn)一步提高新詞發(fā)現(xiàn)的準(zhǔn)確率。
圖2是本發(fā)明實(shí)施例另一種新詞發(fā)現(xiàn)方法的流程圖。
圖2所示的新詞發(fā)現(xiàn)方法可以包括以下步驟:
步驟S201:對(duì)原始語(yǔ)料進(jìn)行預(yù)處理;
步驟S202:對(duì)原始語(yǔ)料進(jìn)行分詞,得到第一分詞結(jié)果;
步驟S203:對(duì)原始語(yǔ)料進(jìn)行分字處理,以得到字列表;
步驟S204:對(duì)原始語(yǔ)料進(jìn)行新詞發(fā)現(xiàn)操作;
步驟S205:基于第一分詞結(jié)果拆分新詞候選詞得到新詞候選詞的子部分;
步驟S206:將新詞候選詞添加至分詞詞典;
步驟S207:利用加入新詞候選詞的分詞詞典對(duì)原始語(yǔ)料進(jìn)行分詞,得到第二分詞結(jié)果;
步驟S208:詞向量轉(zhuǎn)換模型將輸入的詞語(yǔ)轉(zhuǎn)換為詞向量;
步驟S209:計(jì)算所有新詞候選詞子部分的詞向量;
步驟S210:依次計(jì)算每一新詞候選詞和其子部分的語(yǔ)義相似度(可表示為sim);
步驟S211:判斷語(yǔ)義相似度sim是否小于設(shè)定閾值p,如果是,則進(jìn)入步驟S212;否則進(jìn)入步驟S213;
步驟S212:新詞候選詞為新詞;
步驟S213:新詞候選詞為垃圾詞串。
具體實(shí)施中,原始語(yǔ)料可以是采用任意可實(shí)施方式獲取到的需要提取新詞的語(yǔ)料,例如可以是,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲得的語(yǔ)料。
具體實(shí)施中,在步驟S201中,對(duì)原始語(yǔ)料進(jìn)行預(yù)處理。具體地,可以將獲取的原始語(yǔ)料統(tǒng)一為文本格式,然后過(guò)濾無(wú)效的格式,去除含有敏感詞的文檔;并對(duì)預(yù)處理后的原始語(yǔ)料按照具備結(jié)束標(biāo)識(shí)的標(biāo)點(diǎn)分割成句后保存,例如按照句號(hào)、問(wèn)號(hào)、嘆號(hào)等分割成句。然后在步驟S202中獲得第一分詞結(jié)果。具體而言,可以對(duì)經(jīng)步驟S101處理后的原始語(yǔ)料按行分詞,保持詞的順序并保存待用。
優(yōu)選地,在步驟S203中對(duì)經(jīng)步驟S101處理后的原始語(yǔ)料進(jìn)行分字處理。具體地,可以對(duì)該原始語(yǔ)料按行分成字列表,保持字的順序并保存待用。由于詞向量轉(zhuǎn)換過(guò)程需要上下文語(yǔ)境,因此通過(guò)在字列表中保持字的順序,可以在后續(xù)步驟基于字列表中的字做詞向量轉(zhuǎn)換時(shí),保證所有字對(duì)應(yīng)的詞向量的準(zhǔn)確性。
具體實(shí)施中,在步驟S204中,對(duì)原始語(yǔ)料進(jìn)行新詞發(fā)現(xiàn)操作。具體而言,可以采用常用的新詞發(fā)現(xiàn)算法獲得的新詞候選詞。例如,可以基于統(tǒng)計(jì)或規(guī)則算法獲取新詞候選詞。然后在步驟S205中基于步驟S202和步驟S204的輸出得到新詞候選詞的子部分。例如,得到新詞候選詞“螞蟻花唄”;在第一分詞結(jié)果的基礎(chǔ)上拆分新詞候選詞“螞蟻花唄”,得到其子部分分別為“螞蟻”、“花”和“唄”,并保存待用。
本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,也可以采用其他任意可實(shí)施算法對(duì)原始語(yǔ)料進(jìn)行新詞發(fā)現(xiàn)操作,本發(fā)明實(shí)施例對(duì)此不做限制。
具體實(shí)施中,在步驟S206中,將新詞候選詞添加至分詞詞典。以便在步驟S207中利用該分詞詞典對(duì)原始語(yǔ)料進(jìn)行分詞,得到第二分詞結(jié)果,第二分詞結(jié)果中可以包括新詞候選詞,保持詞的順序并保存待用。
具體實(shí)施中,在步驟S208中,將步驟S202和步驟S207的輸出作為詞向量轉(zhuǎn)換模型的輸入,并輸出詞向量。也就是說(shuō),基于第一分詞結(jié)果和第二分詞結(jié)果,計(jì)算得到第一分詞結(jié)果和第二分詞結(jié)果中所有詞的詞向量。
本發(fā)明一優(yōu)選實(shí)施例中,在步驟S208中,將步驟S202、步驟S203和步驟S207的輸出作為詞向量轉(zhuǎn)換模型的輸入,并輸出詞向量。本實(shí)施例基于所述第一分詞結(jié)果、所述第二分詞結(jié)果和所述字列表,計(jì)算得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量;通過(guò)在詞向量轉(zhuǎn)換模型的輸入端增加字列表,使得在新詞候選詞的子部分為單字時(shí),在計(jì)算其詞向量時(shí),可以增強(qiáng)該子部分的語(yǔ)義;通過(guò)采用字詞聯(lián)合構(gòu)造詞向量的方式,進(jìn)而在后續(xù)步驟計(jì)算新詞候選詞與其子部分的語(yǔ)義相似度時(shí),可以進(jìn)一步將新詞候選詞與其子部分進(jìn)行區(qū)分,從而進(jìn)一步提高新詞提取的準(zhǔn)確性。
更近一步地,詞向量模型可以包括但不限于word2vector模型、詞袋模型、神經(jīng)網(wǎng)絡(luò)模型等。
具體實(shí)施中,在步驟S209中計(jì)算新詞候選詞子部分的詞向量。也就是說(shuō),新詞候選詞的子部分包括至少兩個(gè)詞,那么該子部分的詞向量為所述至少兩個(gè)詞的詞向量之和。
具體實(shí)施中,在步驟S210中,通過(guò)步驟S208和S209得到的新詞候選詞及其子部分的詞向量,計(jì)算新詞候選詞與其子部分的語(yǔ)義相似度sim。具體而言,可以采用詞向量計(jì)算新詞候選詞與其子部分的語(yǔ)義距離,來(lái)表征語(yǔ)義相似度;語(yǔ)義距離越小則語(yǔ)義相似度越大。
具體實(shí)施中,在語(yǔ)義相似度sim小于設(shè)定閾值p時(shí),將該新詞候選詞確定為新詞。例如,由于新詞的語(yǔ)義是有新的含義的,因此新詞的語(yǔ)義不等于其子部分的語(yǔ)義。例如,例如,經(jīng)步驟S101得到新詞候選詞“螞蟻花唄”;在第一分詞結(jié)果的基礎(chǔ)上拆分新詞候選詞“螞蟻花唄”,得到其子部分分別為“螞蟻”、“花”和“唄”。然后在步驟S104中,計(jì)算新詞候選詞“螞蟻花唄”與子部分“螞蟻”、“花”和“唄”的語(yǔ)義相似度。如果新詞候選詞“螞蟻花唄”是新詞的話,其語(yǔ)義與“螞蟻”、“花”和“唄”的語(yǔ)義不相等且差別大,即新詞表征新的特定的含義。故,如果語(yǔ)義相似度小于設(shè)定閾值,則新詞候選詞“螞蟻花唄”為新詞。
具體實(shí)施中,在語(yǔ)義相似度sim大于或等于設(shè)定閾值p時(shí),將該新詞候選詞確定為垃圾詞串。例如,新詞候選詞“做家務(wù)”的子部分為“做”和“家務(wù)”;并且,新詞候選詞“做家務(wù)”的語(yǔ)義與“做”和“家務(wù)”的語(yǔ)義相同,也即新詞候選詞“做家務(wù)”沒(méi)有表征新的特定的含義。故,新詞候選詞“做家務(wù)”不是新詞,并確定為垃圾詞串以進(jìn)行過(guò)濾。
可以理解的是,所述設(shè)定閾值p可以是經(jīng)驗(yàn)值,還可以由用戶進(jìn)行自定義配置和修改。
優(yōu)選地,通過(guò)調(diào)整設(shè)定閾值p,來(lái)對(duì)圖2所示的新詞發(fā)現(xiàn)方法進(jìn)行進(jìn)一步的優(yōu)化。具體地,對(duì)確定的所述新詞的準(zhǔn)確率進(jìn)行評(píng)估,得到評(píng)估結(jié)果;根據(jù)所述評(píng)估結(jié)果調(diào)整所述設(shè)定閾值;利用調(diào)整后的所述設(shè)定閾值再次確定所述新詞,直至確定的所述新詞的準(zhǔn)確率符合預(yù)設(shè)要求。也就是說(shuō),通過(guò)調(diào)整預(yù)設(shè)閾值來(lái)對(duì)新詞發(fā)現(xiàn)方法進(jìn)行進(jìn)一步的優(yōu)化,然后使用優(yōu)化后的新詞發(fā)現(xiàn)方法對(duì)新的語(yǔ)料執(zhí)行新詞發(fā)現(xiàn)操作,從而進(jìn)一步提高新詞發(fā)現(xiàn)的準(zhǔn)確率。
需要說(shuō)明的是,本實(shí)施例中步驟的序號(hào)并不構(gòu)成對(duì)該步驟執(zhí)行順序的限制,例如,對(duì)于步驟S202和步驟S204,可以先執(zhí)行步驟S202,再執(zhí)行步驟S204;也可以先執(zhí)行步驟S204,再執(zhí)行步驟S202。
本發(fā)明實(shí)施例的具體實(shí)施方式可參照?qǐng)D1所示實(shí)施例,此處不再贅述。
圖3是本發(fā)明實(shí)施例一種新詞發(fā)現(xiàn)裝置的結(jié)構(gòu)示意圖。
圖3所示的新詞發(fā)現(xiàn)裝置30可以包括:新詞發(fā)現(xiàn)單元301、第一分詞單元302、子部分確定單元303、相似度計(jì)算單元304和新詞確定單元305。
其中,新詞發(fā)現(xiàn)單元301用于對(duì)原始語(yǔ)料進(jìn)行新詞發(fā)現(xiàn)操作,以得到新詞候選詞;第一分詞單元302用于對(duì)所述原始語(yǔ)料進(jìn)行分詞,以得到第一分詞結(jié)果;子部分確定單元303用于基于所述第一分詞結(jié)果拆分所述新詞候選詞得到所述新詞候選詞的子部分,其中所述新詞候選詞的子部分包含在所述第一分詞結(jié)果中,所述新詞候選詞包括至少兩個(gè)所述第一分詞結(jié)果中的詞;相似度計(jì)算單元304用于計(jì)算所述新詞候選詞與其子部分的語(yǔ)義相似度;新詞確定單元305用于在所述語(yǔ)義相似度小于設(shè)定閾值時(shí),將所述新詞候選詞確定為新詞。
具體地,新詞確定單元305在所述語(yǔ)義相似度大于或等于設(shè)定閾值時(shí),將所述新詞候選詞確定為垃圾詞串。也就是說(shuō),通過(guò)將新詞候選詞確定為垃圾詞串,進(jìn)而能夠過(guò)濾掉該垃圾詞串;通過(guò)計(jì)算語(yǔ)義相似度和設(shè)置設(shè)定閾值的方式,能夠減少新詞發(fā)現(xiàn)過(guò)程的工作量,降低人工成本。
具體實(shí)施中,相似度計(jì)算單元304可以計(jì)算每一新詞候選詞的詞向量和所述每一新詞候選詞的子部分的詞向量的語(yǔ)義距離,以衡量所述語(yǔ)義相似度。
本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,對(duì)于語(yǔ)義相似度,也可以采用其他任意可實(shí)施的方式來(lái)衡量,本發(fā)明實(shí)施例對(duì)此不做限制。
具體實(shí)施中,新詞發(fā)現(xiàn)單元301可以采用統(tǒng)計(jì)或規(guī)則算法進(jìn)行所述新詞發(fā)現(xiàn)操作。第一分詞單元302可以基于分詞詞典對(duì)所述原始語(yǔ)料進(jìn)行分詞。由于分詞詞典中的詞匯均為已知詞匯,因此第一分詞結(jié)果中的所有詞匯也均為已知詞匯,其中,已知詞匯為現(xiàn)有詞匯;也就是說(shuō),新詞不屬于已知詞匯,,那么第一分詞結(jié)果中不包括新詞。
本發(fā)明實(shí)施例在新詞發(fā)現(xiàn)操作的基礎(chǔ)上,基于原始語(yǔ)料的分詞結(jié)果得到新詞候選詞的子部分,也就是說(shuō),新詞候選詞的子部分均為已有詞匯;然后通過(guò)計(jì)算新詞候選詞和其子部分的語(yǔ)義相似度,在語(yǔ)義相似度小于設(shè)定閾值時(shí),表明新詞候選詞和其子部分的語(yǔ)義差別足夠大,也就是說(shuō),新詞候選詞的語(yǔ)義和已有詞匯的語(yǔ)義差別足夠大,那么該新詞候選詞可以被確定為新詞,提高了新詞提取的準(zhǔn)確性;同時(shí)避免了人工篩選的步驟,新詞提取的效率也得到了提高。
本發(fā)明一具體實(shí)施例中,相似度計(jì)算單元304可以包括詞向量計(jì)算子單元(圖未示)和相似度計(jì)算子單元(圖未示)。
其中,詞向量計(jì)算子單元用于計(jì)算所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量;相似度計(jì)算子單元用于根據(jù)所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量計(jì)算所述新詞候選詞與其子部分的語(yǔ)義相似度。
具體實(shí)施中,新詞發(fā)現(xiàn)裝置30還可以包括新詞添加單元(圖未示)。新詞添加單元用于將所述新詞候選詞添加至分詞詞典,對(duì)所述原始語(yǔ)料進(jìn)行分詞是基于所述分詞詞典完成的。也就是說(shuō),由于對(duì)所述原始語(yǔ)料進(jìn)行分詞是基于分詞詞典完成的,因此只有在新詞候選詞加入分詞詞典之后,再利用該分詞詞典對(duì)原始語(yǔ)料進(jìn)行分詞,才能夠在第二分詞結(jié)果中包括新詞候選詞;進(jìn)而才能夠利用第二分詞結(jié)果和詞向量模型得到新詞候選詞的詞向量。
進(jìn)一步地,新詞發(fā)現(xiàn)裝置30還可以包括第二分詞單元(圖未示),第二分詞單元用于利用加入所述新詞候選詞的分詞詞典對(duì)所述原始語(yǔ)料進(jìn)行分詞,得到第二分詞結(jié)果,所述第二分詞結(jié)果包括所述新詞候選詞。
本發(fā)明一具體實(shí)施例中,詞向量計(jì)算子單元可以包括第一分詞結(jié)果計(jì)算子單元(圖未示)和第一子部分加和子單元(圖未示)。第一分詞結(jié)果計(jì)算子單元用于基于所述第一分詞結(jié)果和所述第二分詞結(jié)果,計(jì)算得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量;第一子部分加和子單元用于計(jì)算每一新詞候選詞的子部分對(duì)應(yīng)的各個(gè)詞的詞向量之和,以作為所述每一新詞候選詞的子部分的詞向量。也就是說(shuō),由于第二分詞結(jié)果中包括新詞候選詞,從而可以利用第二分詞結(jié)果得到新詞候選詞的詞向量。由于第一分詞結(jié)果中包括新詞候選詞的子部分,從而可以利用第一分詞結(jié)果得到該子部分對(duì)應(yīng)的各個(gè)詞的詞向量,然后將所述各個(gè)詞的詞向量之和作為該子部分的詞向量。換句話說(shuō),由于采用詞向量的方式(也即一種數(shù)學(xué)方式)表征詞語(yǔ)的語(yǔ)義,因此新詞候選詞的子部分的語(yǔ)義可以通過(guò)所述各個(gè)詞的詞向量之和來(lái)表征。例如,新詞候選詞“螞蟻花唄”的子部分分別為“螞蟻”、“花”和“唄”,那么該子部分的語(yǔ)義可以表示為“vector(螞蟻)+vector(花)+vector(唄)”。
優(yōu)選地,新詞發(fā)現(xiàn)裝置30還可以包括分字單元(圖未示),分字單元用于對(duì)所述原始語(yǔ)料進(jìn)行分字處理,以得到字列表。進(jìn)一步地,詞向量計(jì)算子單元可以包括第二分詞結(jié)果計(jì)算子單元(圖未示)和第二子部分加和子單元(圖未示)。第二分詞結(jié)果計(jì)算子單元用于基于所述第一分詞結(jié)果、所述第二分詞結(jié)果和所述字列表,計(jì)算得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量;第二子部分加和子單元用于計(jì)算每一新詞候選詞的子部分對(duì)應(yīng)的各個(gè)詞的詞向量之和,以作為所述每一新詞候選詞的子部分的詞向量。
本發(fā)明實(shí)施例通過(guò)對(duì)原始語(yǔ)料的分字處理,從而在新詞候選詞的子部分為單字時(shí),在計(jì)算其詞向量時(shí),可以增強(qiáng)該子部分的語(yǔ)義;進(jìn)而在后續(xù)步驟計(jì)算新詞候選詞與其子部分的語(yǔ)義相似度時(shí),可以進(jìn)一步將新詞候選詞與其子部分進(jìn)行區(qū)分,從而進(jìn)一步提高新詞提取的準(zhǔn)確性。
具體而言,所述第二分詞結(jié)果計(jì)算子單元可以通過(guò)將所述第一分詞結(jié)果、所述第二分詞結(jié)果和所述字列表輸入詞向量轉(zhuǎn)換模型,得到所述第一分詞結(jié)果和所述第二分詞結(jié)果中所有詞的詞向量。
更近一步地,詞向量模型可以包括但不限于word2vector模型、詞袋模型、神經(jīng)網(wǎng)絡(luò)模型等。
優(yōu)選地,新詞發(fā)現(xiàn)裝置30還可以包括預(yù)處理單元(圖未示),預(yù)處理單元用于對(duì)所述原始語(yǔ)料進(jìn)行預(yù)處理,以得到格式統(tǒng)一的所述原始語(yǔ)料。具體而言,將原始語(yǔ)料轉(zhuǎn)換為文本格式,得到文本數(shù)據(jù);對(duì)所述文本數(shù)據(jù)過(guò)濾預(yù)設(shè)詞,其中所述預(yù)設(shè)詞為以下一種或多種:臟詞、敏感詞和停用詞。通過(guò)對(duì)原始語(yǔ)料的預(yù)處理,可以將原始語(yǔ)料轉(zhuǎn)換為可識(shí)別處理的文本格式;同時(shí),通過(guò)過(guò)濾預(yù)設(shè)詞,可以減小后續(xù)步驟的計(jì)算量。
優(yōu)選地,新詞發(fā)現(xiàn)裝置30還可以包括評(píng)估單元(圖未示)、調(diào)整單元(圖未示)和驗(yàn)證單元(圖未示)。
其中,評(píng)估單元用于對(duì)確定的所述新詞的準(zhǔn)確率進(jìn)行評(píng)估,得到評(píng)估結(jié)果;調(diào)整單元用于根據(jù)所述評(píng)估結(jié)果調(diào)整所述設(shè)定閾值;驗(yàn)證單元用于利用調(diào)整后的所述設(shè)定閾值再次確定所述新詞,直至確定的所述新詞的準(zhǔn)確率符合預(yù)設(shè)要求。所述預(yù)設(shè)要求可以是準(zhǔn)確率閾值。本發(fā)明實(shí)施例通過(guò)調(diào)整預(yù)設(shè)閾值來(lái)對(duì)新詞發(fā)現(xiàn)方法進(jìn)行進(jìn)一步的優(yōu)化,然后使用優(yōu)化后的新詞發(fā)現(xiàn)方法對(duì)新的語(yǔ)料執(zhí)行新詞發(fā)現(xiàn)操作,從而進(jìn)一步提高新詞發(fā)現(xiàn)的準(zhǔn)確率。
本發(fā)明實(shí)施例的具體實(shí)施方式可參照?qǐng)D1和圖2所示實(shí)施例,此處不再贅述。
本發(fā)明實(shí)施例還公開(kāi)了一種終端,所述終端可以包括圖3所示的新詞發(fā)現(xiàn)裝置30。新詞發(fā)現(xiàn)裝置30可以內(nèi)部集成于所述終端,也可以外部耦接于所述終端。所述終端可以是機(jī)器人、智能手機(jī)、平板設(shè)備等。
本發(fā)明實(shí)施例還公開(kāi)了一種服務(wù)器,服務(wù)器可以包括圖3所示的新詞發(fā)現(xiàn)裝置30。新詞發(fā)現(xiàn)裝置30可以內(nèi)部集成于所述服務(wù)器,也可以外部耦接于所述服務(wù)器。所述服務(wù)器可以為與其適配的設(shè)備提供新詞發(fā)現(xiàn)服務(wù)。
本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,該程序可以存儲(chǔ)于以計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可以包括:ROM、RAM、磁盤(pán)或光盤(pán)等。
雖然本發(fā)明披露如上,但本發(fā)明并非限定于此。任何本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),均可作各種更動(dòng)與修改,因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以權(quán)利要求所限定的范圍為準(zhǔn)。