1.一種未登錄詞的識(shí)別方法,其特征在于,包括:
對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,以得到分詞結(jié)果;
根據(jù)所述分詞結(jié)果,創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合;
對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞;
將所述過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中。
2.根據(jù)權(quán)利要求1所述的未登錄詞的識(shí)別方法,其特征在于,所述根據(jù)所述分詞結(jié)果,創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合的步驟,具體包括:
根據(jù)所述分詞結(jié)果,構(gòu)建左右PAT-ARRAY樹(shù),其中,所述左右PAT-ARRAY樹(shù)中包含有多個(gè)重復(fù)串;
從所述PAT-ARRAY樹(shù)中,提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串;
將提取出的重復(fù)串作為候選未登錄詞,并創(chuàng)建所述候選詞集合。
3.根據(jù)權(quán)利要求2所述的未登錄詞的識(shí)別方法,其特征在于,所述第一閾值為2,所述預(yù)定范圍為大于等于2且小于等于4。
4.根據(jù)權(quán)利要求1所述的未登錄詞的識(shí)別方法,其特征在于,所述對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞的步驟,具體包括:
計(jì)算所述候選詞集合中的候選未登錄詞的互信息以及左右信息熵;
過(guò)濾所述候選詞集合中互信息小于第二閾值和/或左后信息熵小于第三閾值的候選未登錄詞;
根據(jù)互信息的取值,對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行降序排列,并將前N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞,或?qū)^(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行升序排列,并將后N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞。
5.根據(jù)權(quán)利要求4所述的未登錄詞的識(shí)別方法,其特征在于,所述第二閾值為6,所述第三閾值為1.5。
6.根據(jù)權(quán)利要求1至5中任一所述的未登錄詞的識(shí)別方法,其特征在于,所述對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理的步驟,具體包括:
對(duì)所述業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理。
7.一種未登錄詞的識(shí)別系統(tǒng),其特征在于,包括:
第一處理單元,用于對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,以得到分詞結(jié)果;
創(chuàng)建單元,用于根據(jù)所述分詞結(jié)果,創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合;
第二處理單元,用于對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞;
添加單元,用于將所述過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中。
8.根據(jù)權(quán)利要求7所述的未登錄詞的識(shí)別系統(tǒng),其特征在于,所述創(chuàng)建單元具體用于:
根據(jù)所述分詞結(jié)果,構(gòu)建左右PAT-ARRAY樹(shù),其中,所述左右PAT-ARRAY樹(shù)中包含有多個(gè)重復(fù)串;
從所述PAT-ARRAY樹(shù)中,提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串;
將提取出的重復(fù)串作為候選未登錄詞,并創(chuàng)建所述候選詞集合。
9.根據(jù)權(quán)利要求8所述的未登錄詞的識(shí)別系統(tǒng),其特征在于,所述第一閾值為2,所述預(yù)定范圍為大于等于2且小于等于4。
10.根據(jù)權(quán)利要求7所述的未登錄詞的識(shí)別系統(tǒng),其特征在于,所述第二處理單元包括:
計(jì)算單元,用于計(jì)算所述候選詞集合中的候選未登錄詞的互信息以及左右信息熵;
過(guò)濾單元,用于過(guò)濾所述候選詞集合中互信息小于第二閾值和/或左后信息熵小于第三閾值的候選未登錄詞;
確定單元,用于根據(jù)互信息的取值,對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行降序排列,并將前N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞,或?qū)^(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行升序排列,并將后N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞。
11.根據(jù)權(quán)利要求10所述的未登錄詞的識(shí)別系統(tǒng),其特征在于,所述第二閾值為6,所述第三閾值為1.5。
12.根據(jù)權(quán)利要求7至11中任一所述的未登錄詞的識(shí)別系統(tǒng),其特征在于,所述第一處理單元具體用于:
對(duì)所述業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理。