本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,涉及一種未登錄詞的識(shí)別方法和一種未登錄詞的識(shí)別系統(tǒng)。
背景技術(shù):
未登錄詞即沒有被收錄在分詞詞表中但必須切出來(lái)的詞,隨著未登錄詞的不斷產(chǎn)生,未登錄詞識(shí)別也變得越來(lái)越重要,可以說(shuō)詞是做自然語(yǔ)言處理的第一步也是最重要的一步,只有當(dāng)有詞以后才可以對(duì)文本進(jìn)行分詞、詞性標(biāo)注、關(guān)鍵詞提取、數(shù)據(jù)檢索等后續(xù)操作。
近年來(lái),未登錄詞識(shí)別已經(jīng)有很多技術(shù),例如可以通過(guò)隱馬爾可夫模型、條件隨機(jī)場(chǎng)等模型在文本中進(jìn)行未登錄詞識(shí)別。
隱馬爾可夫模型(Hidden Markov Model,HMM)是統(tǒng)計(jì)模型,它用來(lái)描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過(guò)程。隱馬爾可夫模型作為一種統(tǒng)計(jì)分析模型,創(chuàng)立于20世紀(jì)70年代,80年代得到了傳播和發(fā)展,成為信號(hào)處理的一個(gè)重要方向,現(xiàn)已成功地用于語(yǔ)音識(shí)別,行為識(shí)別,文字識(shí)別以及故障診斷等領(lǐng)域。
條件隨機(jī)場(chǎng)(Conditional Random Fields,簡(jiǎn)稱CRF,或CRFs),是一種判別式概率模型,是隨機(jī)場(chǎng)的一種,常用于標(biāo)注或分析序列資料,如自然語(yǔ)言文字或是生物序列。
但是,現(xiàn)有的隱馬爾可夫模型、條件隨機(jī)場(chǎng)等模型在文本中未登錄詞識(shí)別的過(guò)程中仍存在一定的缺陷:它們都需要通過(guò)人工的方法來(lái)發(fā)現(xiàn)字與字的特征,需要花費(fèi)大量的時(shí)間觀察大量的數(shù)據(jù)去總結(jié)。因此,現(xiàn)有技術(shù)中利用隱馬爾可夫模型、條件隨機(jī)場(chǎng)等模型的計(jì)算代價(jià)高,耗時(shí)長(zhǎng)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明正是基于上述技術(shù)問(wèn)題至少之一,提出了一種新的未登錄詞的識(shí)別方案,可以高效、準(zhǔn)確地從大數(shù)據(jù)量的業(yè)務(wù)數(shù)據(jù)中提取出未登錄詞。
有鑒于此,本發(fā)明提出了一種未登錄詞的識(shí)別方法,包括:對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,以得到分詞結(jié)果;根據(jù)所述分詞結(jié)果,創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合;對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞;將所述過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中。
在該技術(shù)方案中,通過(guò)對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,以得到分詞結(jié)果,并根據(jù)分詞結(jié)果創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合,對(duì)候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞,并將過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中,使得無(wú)需事先訓(xùn)練大規(guī)模語(yǔ)料庫(kù)即可從業(yè)務(wù)數(shù)據(jù)中提取出過(guò)濾后的未登錄詞,且整個(gè)處理過(guò)程高效、準(zhǔn)確。
在上述技術(shù)方案中,優(yōu)選地,所述根據(jù)所述分詞結(jié)果,創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合的步驟,具體包括:根據(jù)所述分詞結(jié)果,構(gòu)建左右PAT-ARRAY樹,其中,所述左右PAT-ARRAY樹中包含有多個(gè)重復(fù)串;從所述PAT-ARRAY樹中,提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串;將提取出的重復(fù)串作為候選未登錄詞,并創(chuàng)建所述候選詞集合。
在該技術(shù)方案中,PAT-ARRAY(PAT數(shù)組結(jié)構(gòu))樹是一種能高效地識(shí)別前綴的數(shù)據(jù)結(jié)構(gòu),通過(guò)對(duì)分詞結(jié)果構(gòu)建左右PAT-ARRAY樹,并從PAT-ARRAY樹中,提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串作為候選未登錄詞,提高了整個(gè)提取過(guò)程的效率,其中,對(duì)分詞結(jié)果構(gòu)建左右PAT-ARRAY樹包括初始化位置數(shù)組信息(即保存詞在分詞結(jié)果中的位置),對(duì)位置數(shù)組按詞序進(jìn)行排序,計(jì)算相鄰位置數(shù)組的詞串的共有前綴或共有后綴。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述第一閾值為2,所述預(yù)定范圍為大于等于2且小于等于4。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞的步驟,具體包括:計(jì)算所述候選詞集合中的候選未登錄詞的互信息以及左右信息熵;過(guò)濾所述候選詞集合中互信息小于第二閾值和/或左后信息熵小于第三閾值的候選未登錄詞;根據(jù)互信息的取值,對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行降序排列,并將前N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞,或?qū)^(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行升序排列,并將后N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞。
在該技術(shù)方案中,通過(guò)計(jì)算候選詞集合中的候選未登錄詞的互信息以及左右信息熵,并根據(jù)互信息和左右信息熵對(duì)候選未登錄詞進(jìn)行過(guò)濾,并對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行排列,僅提取其中部分候選未登錄詞作為過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù),使得篩選出的未登錄詞更準(zhǔn)確,其中,N可取過(guò)濾后的候選詞集合中所有候選未登錄詞的30%至40%。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述第二閾值為6,所述第三閾值為1.5。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理的步驟,具體包括:對(duì)所述業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理。
在該技術(shù)方案中,通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理等預(yù)處理,為后續(xù)根據(jù)預(yù)處理得到的分析結(jié)果篩選候選未登錄詞提供了前提保障。
根據(jù)本發(fā)明的第二方面,提出了一種未登錄詞的識(shí)別系統(tǒng),包括:第一處理單元,用于對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,以得到分詞結(jié)果;創(chuàng)建單元,用于根據(jù)所述分詞結(jié)果,創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合;第二處理單元,用于對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞;添加單元,用于將所述過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中。
在該技術(shù)方案中,通過(guò)對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,以得到分詞結(jié)果,并根據(jù)分詞結(jié)果創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合,對(duì)候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞,并將過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中,使得無(wú)需事先訓(xùn)練大規(guī)模語(yǔ)料庫(kù)即可從業(yè)務(wù)數(shù)據(jù)中提取出過(guò)濾后的未登錄詞,且整個(gè)處理過(guò)程高效、準(zhǔn)確。
在上述技術(shù)方案中,優(yōu)選地,所述創(chuàng)建單元具體用于:根據(jù)所述分詞結(jié)果,構(gòu)建左右PAT-ARRAY樹,其中,所述左右PAT-ARRAY樹中包含有多個(gè)重復(fù)串;從所述PAT-ARRAY樹中,提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串;將提取出的重復(fù)串作為候選未登錄詞,并創(chuàng)建所述候選詞集合。
在該技術(shù)方案中,PAT-ARRAY樹是一種能高效地識(shí)別前綴的數(shù)據(jù)結(jié)構(gòu),通過(guò)對(duì)分詞結(jié)果構(gòu)建左右PAT-ARRAY樹,并從PAT-ARRAY樹中,提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串作為候選未登錄詞,提高了整個(gè)提取過(guò)程的效率,其中,對(duì)分詞結(jié)果構(gòu)建左右PAT-ARRAY樹包括初始化位置數(shù)組信息(即保存詞在分詞結(jié)果中的位置),對(duì)位置數(shù)組按詞序進(jìn)行排序,計(jì)算相鄰位置數(shù)組的詞串的共有前綴或共有后綴。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述第一閾值為2,所述預(yù)定范圍為大于等于2且小于等于4。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述第二處理單元包括:計(jì)算單元,用于計(jì)算所述候選詞集合中的候選未登錄詞的互信息以及左右信息熵;過(guò)濾單元,用于過(guò)濾所述候選詞集合中互信息小于第二閾值和/或左后信息熵小于第三閾值的候選未登錄詞;確定單元,用于根據(jù)互信息的取值,對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行降序排列,并將前N個(gè)候選詞作為所述過(guò)濾后的候選未登錄詞,或?qū)^(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行升序排列,并將后N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞。
在該技術(shù)方案中,通過(guò)計(jì)算候選詞集合中的候選未登錄詞的互信息以及左右信息熵,并根據(jù)互信息和左右信息熵對(duì)候選未登錄詞進(jìn)行過(guò)濾,并對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行排列,僅提取其中部分候選未登錄詞作為過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù),使得篩選出的未登錄詞更準(zhǔn)確,其中,N可取過(guò)濾后的候選詞集合中所有候選未登錄詞的30%至40%。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述第二閾值為6,所述第三閾值為1.5。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述第一處理單元具體用于:對(duì)所述業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理。
在該技術(shù)方案中,通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理等預(yù)處理,為后續(xù)根據(jù)預(yù)處理得到的分析結(jié)果篩選候選未登錄詞提供了前提保障。
通過(guò)以上技術(shù)方案,可以高效、準(zhǔn)確地從大數(shù)據(jù)量的業(yè)務(wù)數(shù)據(jù)中提取出未登錄詞。
附圖說(shuō)明
圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的未登錄詞的識(shí)別方法的示意流程圖;
圖2示出了根據(jù)本發(fā)明的實(shí)施例的未登錄詞的識(shí)別系統(tǒng)的示意框圖;
圖3示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的未登錄詞的識(shí)別方法的示意流程圖。
具體實(shí)施方式
為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。
在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來(lái)實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。
圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的未登錄詞的識(shí)別方法的示意流程圖。
如圖1所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的未登錄詞的識(shí)別方法,包括:
步驟102,對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,以得到分詞結(jié)果。
步驟104,根據(jù)所述分詞結(jié)果,創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合。
步驟106,對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞。
步驟108,將所述過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中。
在該技術(shù)方案中,通過(guò)對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,以得到分詞結(jié)果,并根據(jù)分詞結(jié)果創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合,對(duì)候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞,并將過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中,使得無(wú)需事先訓(xùn)練大規(guī)模語(yǔ)料庫(kù)即可從業(yè)務(wù)數(shù)據(jù)中提取出過(guò)濾后的未登錄詞,且整個(gè)處理過(guò)程高效、準(zhǔn)確。
在上述技術(shù)方案中,優(yōu)選地,所述根據(jù)所述分詞結(jié)果,創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合的步驟,具體包括:根據(jù)所述分詞結(jié)果,構(gòu)建左右PAT-ARRAY樹,其中,所述左右PAT-ARRAY樹中包含有多個(gè)重復(fù)串;從所述PAT-ARRAY樹中,提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串;將提取出的重復(fù)串作為候選未登錄詞,并創(chuàng)建所述候選詞集合。
在該技術(shù)方案中,PAT-ARRAY樹是一種能高效地識(shí)別前綴的數(shù)據(jù)結(jié)構(gòu),通過(guò)對(duì)分詞結(jié)果構(gòu)建左右PAT-ARRAY樹,并從PAT-ARRAY樹中,提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串作為候選未登錄詞,提高了整個(gè)提取過(guò)程的效率,其中,對(duì)分詞結(jié)果構(gòu)建左右PAT-ARRAY樹包括初始化位置數(shù)組信息(即保存詞在分詞結(jié)果中的位置),對(duì)位置數(shù)組按詞序進(jìn)行排序,計(jì)算相鄰位置數(shù)組的詞串的共有前綴或共有后綴。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述第一閾值為2,所述預(yù)定范圍為大于等于2且小于等于4。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞的步驟,具體包括:計(jì)算所述候選詞集合中的候選未登錄詞的互信息以及左右信息熵;過(guò)濾所述候選詞集合中互信息小于第二閾值和/或左后信息熵小于第三閾值的候選未登錄詞;根據(jù)互信息的取值,對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行降序排列,并將前N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞,或?qū)^(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行升序排列,并將后N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞。
在該技術(shù)方案中,通過(guò)計(jì)算候選詞集合中的候選未登錄詞的互信息以及左右信息熵,并根據(jù)互信息和左右信息熵對(duì)候選未登錄詞進(jìn)行過(guò)濾,并對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行排列,僅提取其中部分候選未登錄詞作為過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù),使得篩選出的未登錄詞更準(zhǔn)確,其中,N可取過(guò)濾后的候選詞集合中所有候選詞的30%至40%。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述第二閾值為6,所述第三閾值為1.5。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理的步驟,具體包括:對(duì)所述業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理。
在該技術(shù)方案中,通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理等預(yù)處理,為后續(xù)根據(jù)預(yù)處理得到的分析結(jié)果篩選候選未登錄詞提供了前提保障。
圖2示出了根據(jù)本發(fā)明的實(shí)施例的未登錄詞的識(shí)別系統(tǒng)的示意框圖。
如圖2所示,根據(jù)本發(fā)明的實(shí)施例的未登錄詞的識(shí)別系統(tǒng)200,包括:第一處理單元202、創(chuàng)建單元204、第二處理單元206和添加單元208。
其中,第一處理單元202用于對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,以得到分詞結(jié)果;創(chuàng)建單元204用于根據(jù)所述分詞結(jié)果,創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合;第二處理單元206用于對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞;添加單元208用于將所述過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中。
在該技術(shù)方案中,通過(guò)對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,以得到分詞結(jié)果,并根據(jù)分詞結(jié)果創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合,對(duì)候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞,并將過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中,使得無(wú)需事先訓(xùn)練大規(guī)模語(yǔ)料庫(kù)即可從業(yè)務(wù)數(shù)據(jù)中提取出過(guò)濾后的候選未登錄詞,且整個(gè)處理過(guò)程高效、準(zhǔn)確。
在上述技術(shù)方案中,優(yōu)選地,所述創(chuàng)建單元204具體用于:根據(jù)所述分詞結(jié)果,構(gòu)建左右PAT-ARRAY樹,其中,所述左右PAT-ARRAY樹中包含有多個(gè)重復(fù)串;從所述PAT-ARRAY樹中,提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串;將提取出的重復(fù)串作為候選未登錄詞,并創(chuàng)建所述候選詞集合。
在該技術(shù)方案中,PAT-ARRAY樹是一種能高效地識(shí)別前綴的數(shù)據(jù)結(jié)構(gòu),通過(guò)對(duì)分詞結(jié)果構(gòu)建左右PAT-ARRAY樹,并從PAT-ARRAY樹中,提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串作為候選未登錄詞,提高了整個(gè)提取過(guò)程的效率,其中,對(duì)分詞結(jié)果構(gòu)建左右PAT-ARRAY樹包括初始化位置數(shù)組信息(即保存詞在分詞結(jié)果中的位置),對(duì)位置數(shù)組按詞序進(jìn)行排序,計(jì)算相鄰位置數(shù)組的詞串的共有前綴或共有后綴。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述第一閾值為2,所述預(yù)定范圍為大于等于2且小于等于4。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述第二處理單元206包括:計(jì)算單元2062,用于計(jì)算所述候選詞集合中的候選未登錄詞的互信息以及左右信息熵;過(guò)濾單元2064,用于過(guò)濾所述候選詞集合中互信息小于第二閾值和/或左后信息熵小于第三閾值的候選未登錄詞;確定單元2066,用于根據(jù)互信息的取值,對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行降序排列,并將前N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞,或?qū)^(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行升序排列,并將后N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞。
在該技術(shù)方案中,通過(guò)計(jì)算候選詞集合中的候選未登錄詞的互信息以及左右信息熵,并根據(jù)互信息和左右信息熵對(duì)候選未登錄詞進(jìn)行過(guò)濾,并對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行排列,僅提取其中部分候選未登錄詞作為過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù),使得篩選出的未登錄詞更準(zhǔn)確,其中,N可取過(guò)濾后的候選詞集合中所有候選詞的30%至40%。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述第二閾值為6,所述第三閾值為1.5。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述第一處理單元202具體用于:對(duì)所述業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理。
在該技術(shù)方案中,通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理等預(yù)處理,為后續(xù)根據(jù)預(yù)處理得到的分析結(jié)果篩選候選未登錄詞提供了前提保障。
以下對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步說(shuō)明。
在本實(shí)施例中,可對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞,并對(duì)分詞結(jié)果建立左右PAT-ARRAY樹,然后提取候選未登錄詞,計(jì)算候選未登錄詞的互信息及左右信息熵,并根據(jù)候選未登錄詞的互信息及左右信息熵來(lái)過(guò)濾候選未登錄詞,將過(guò)濾后的候選未登錄詞加入到分詞庫(kù)中。
采用MySQL數(shù)據(jù)庫(kù),以政務(wù)事項(xiàng)數(shù)據(jù)為例進(jìn)行說(shuō)明,如圖3所示,未登錄詞的識(shí)別方法包括:
步驟302,讀取數(shù)據(jù)庫(kù)中的事項(xiàng)數(shù)據(jù)。
步驟304,對(duì)每一個(gè)事項(xiàng),將其各個(gè)屬性值合并成一個(gè)大文本。
步驟306,對(duì)上一步生成的文本進(jìn)行分詞(如全切分)、消歧、詞性標(biāo)注。
步驟308,對(duì)上一步分詞結(jié)果建立左右PAT-ARRAY樹。
步驟310,提取詞頻大于等于2、長(zhǎng)度在2至4之間的重復(fù)串作為候選未登錄詞。
步驟312,合并從每一個(gè)事項(xiàng)中提取的候選未登錄詞。
步驟314,計(jì)算候選未登錄詞的互信息及左右信息熵。
步驟316,過(guò)濾互信息小于6、左右信息熵小于1.5的候選未登錄詞。
步驟318,根據(jù)互信息降序排列候選未登錄詞,取前N個(gè)候選未登錄詞加入至分詞庫(kù)中,并重復(fù)步驟306至316直到新的候選未登錄詞數(shù)小于閾值為止。
以上結(jié)合附圖詳細(xì)說(shuō)明了本發(fā)明的技術(shù)方案,本發(fā)明的技術(shù)方案提出了一種新的未登錄詞的識(shí)別方案,可以高效、準(zhǔn)確地從大數(shù)據(jù)量的業(yè)務(wù)數(shù)據(jù)中提取出未登錄詞。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。