亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

未登錄詞的識(shí)別方法及識(shí)別系統(tǒng)與流程

文檔序號(hào):12120975閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.一種未登錄詞的識(shí)別方法,其特征在于,包括:

對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,以得到分詞結(jié)果;

根據(jù)所述分詞結(jié)果,創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合;

對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞;

將所述過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中。

2.根據(jù)權(quán)利要求1所述的未登錄詞的識(shí)別方法,其特征在于,所述根據(jù)所述分詞結(jié)果,創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合的步驟,具體包括:

根據(jù)所述分詞結(jié)果,構(gòu)建左右PAT-ARRAY樹(shù),其中,所述左右PAT-ARRAY樹(shù)中包含有多個(gè)重復(fù)串;

從所述PAT-ARRAY樹(shù)中,提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串;

將提取出的重復(fù)串作為候選未登錄詞,并創(chuàng)建所述候選詞集合。

3.根據(jù)權(quán)利要求2所述的未登錄詞的識(shí)別方法,其特征在于,所述第一閾值為2,所述預(yù)定范圍為大于等于2且小于等于4。

4.根據(jù)權(quán)利要求1所述的未登錄詞的識(shí)別方法,其特征在于,所述對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞的步驟,具體包括:

計(jì)算所述候選詞集合中的候選未登錄詞的互信息以及左右信息熵;

過(guò)濾所述候選詞集合中互信息小于第二閾值和/或左后信息熵小于第三閾值的候選未登錄詞;

根據(jù)互信息的取值,對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行降序排列,并將前N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞,或?qū)^(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行升序排列,并將后N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞。

5.根據(jù)權(quán)利要求4所述的未登錄詞的識(shí)別方法,其特征在于,所述第二閾值為6,所述第三閾值為1.5。

6.根據(jù)權(quán)利要求1至5中任一所述的未登錄詞的識(shí)別方法,其特征在于,所述對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理的步驟,具體包括:

對(duì)所述業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理。

7.一種未登錄詞的識(shí)別系統(tǒng),其特征在于,包括:

第一處理單元,用于對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理,以得到分詞結(jié)果;

創(chuàng)建單元,用于根據(jù)所述分詞結(jié)果,創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合;

第二處理單元,用于對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理,以得到過(guò)濾后的候選未登錄詞;

添加單元,用于將所述過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中。

8.根據(jù)權(quán)利要求7所述的未登錄詞的識(shí)別系統(tǒng),其特征在于,所述創(chuàng)建單元具體用于:

根據(jù)所述分詞結(jié)果,構(gòu)建左右PAT-ARRAY樹(shù),其中,所述左右PAT-ARRAY樹(shù)中包含有多個(gè)重復(fù)串;

從所述PAT-ARRAY樹(shù)中,提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串;

將提取出的重復(fù)串作為候選未登錄詞,并創(chuàng)建所述候選詞集合。

9.根據(jù)權(quán)利要求8所述的未登錄詞的識(shí)別系統(tǒng),其特征在于,所述第一閾值為2,所述預(yù)定范圍為大于等于2且小于等于4。

10.根據(jù)權(quán)利要求7所述的未登錄詞的識(shí)別系統(tǒng),其特征在于,所述第二處理單元包括:

計(jì)算單元,用于計(jì)算所述候選詞集合中的候選未登錄詞的互信息以及左右信息熵;

過(guò)濾單元,用于過(guò)濾所述候選詞集合中互信息小于第二閾值和/或左后信息熵小于第三閾值的候選未登錄詞;

確定單元,用于根據(jù)互信息的取值,對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行降序排列,并將前N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞,或?qū)^(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行升序排列,并將后N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞。

11.根據(jù)權(quán)利要求10所述的未登錄詞的識(shí)別系統(tǒng),其特征在于,所述第二閾值為6,所述第三閾值為1.5。

12.根據(jù)權(quán)利要求7至11中任一所述的未登錄詞的識(shí)別系統(tǒng),其特征在于,所述第一處理單元具體用于:

對(duì)所述業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1