未登錄詞的識(shí)別方法及識(shí)別系統(tǒng)與流程

文檔序號(hào)：12120975閱讀：1125來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域，具體而言，涉及一種未登錄詞的識(shí)別方法和一種未登錄詞的識(shí)別系統(tǒng)。

背景技術(shù)：

未登錄詞即沒有被收錄在分詞詞表中但必須切出來(lái)的詞，隨著未登錄詞的不斷產(chǎn)生，未登錄詞識(shí)別也變得越來(lái)越重要，可以說(shuō)詞是做自然語(yǔ)言處理的第一步也是最重要的一步，只有當(dāng)有詞以后才可以對(duì)文本進(jìn)行分詞、詞性標(biāo)注、關(guān)鍵詞提取、數(shù)據(jù)檢索等后續(xù)操作。

近年來(lái)，未登錄詞識(shí)別已經(jīng)有很多技術(shù)，例如可以通過(guò)隱馬爾可夫模型、條件隨機(jī)場(chǎng)等模型在文本中進(jìn)行未登錄詞識(shí)別。

隱馬爾可夫模型(Hidden Markov Model，HMM)是統(tǒng)計(jì)模型，它用來(lái)描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過(guò)程。隱馬爾可夫模型作為一種統(tǒng)計(jì)分析模型，創(chuàng)立于20世紀(jì)70年代，80年代得到了傳播和發(fā)展，成為信號(hào)處理的一個(gè)重要方向，現(xiàn)已成功地用于語(yǔ)音識(shí)別，行為識(shí)別，文字識(shí)別以及故障診斷等領(lǐng)域。

條件隨機(jī)場(chǎng)(Conditional Random Fields，簡(jiǎn)稱CRF，或CRFs)，是一種判別式概率模型，是隨機(jī)場(chǎng)的一種，常用于標(biāo)注或分析序列資料，如自然語(yǔ)言文字或是生物序列。

但是，現(xiàn)有的隱馬爾可夫模型、條件隨機(jī)場(chǎng)等模型在文本中未登錄詞識(shí)別的過(guò)程中仍存在一定的缺陷：它們都需要通過(guò)人工的方法來(lái)發(fā)現(xiàn)字與字的特征，需要花費(fèi)大量的時(shí)間觀察大量的數(shù)據(jù)去總結(jié)。因此，現(xiàn)有技術(shù)中利用隱馬爾可夫模型、條件隨機(jī)場(chǎng)等模型的計(jì)算代價(jià)高，耗時(shí)長(zhǎng)。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明正是基于上述技術(shù)問(wèn)題至少之一，提出了一種新的未登錄詞的識(shí)別方案，可以高效、準(zhǔn)確地從大數(shù)據(jù)量的業(yè)務(wù)數(shù)據(jù)中提取出未登錄詞。

有鑒于此，本發(fā)明提出了一種未登錄詞的識(shí)別方法，包括：對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理，以得到分詞結(jié)果；根據(jù)所述分詞結(jié)果，創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合；對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理，以得到過(guò)濾后的候選未登錄詞；將所述過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中。

在該技術(shù)方案中，通過(guò)對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理，以得到分詞結(jié)果，并根據(jù)分詞結(jié)果創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合，對(duì)候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理，以得到過(guò)濾后的候選未登錄詞，并將過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中，使得無(wú)需事先訓(xùn)練大規(guī)模語(yǔ)料庫(kù)即可從業(yè)務(wù)數(shù)據(jù)中提取出過(guò)濾后的未登錄詞，且整個(gè)處理過(guò)程高效、準(zhǔn)確。

在上述技術(shù)方案中，優(yōu)選地，所述根據(jù)所述分詞結(jié)果，創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合的步驟，具體包括：根據(jù)所述分詞結(jié)果，構(gòu)建左右PAT-ARRAY樹，其中，所述左右PAT-ARRAY樹中包含有多個(gè)重復(fù)串；從所述PAT-ARRAY樹中，提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串；將提取出的重復(fù)串作為候選未登錄詞，并創(chuàng)建所述候選詞集合。

在該技術(shù)方案中，PAT-ARRAY(PAT數(shù)組結(jié)構(gòu))樹是一種能高效地識(shí)別前綴的數(shù)據(jù)結(jié)構(gòu)，通過(guò)對(duì)分詞結(jié)果構(gòu)建左右PAT-ARRAY樹，并從PAT-ARRAY樹中，提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串作為候選未登錄詞，提高了整個(gè)提取過(guò)程的效率，其中，對(duì)分詞結(jié)果構(gòu)建左右PAT-ARRAY樹包括初始化位置數(shù)組信息(即保存詞在分詞結(jié)果中的位置)，對(duì)位置數(shù)組按詞序進(jìn)行排序，計(jì)算相鄰位置數(shù)組的詞串的共有前綴或共有后綴。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述第一閾值為2，所述預(yù)定范圍為大于等于2且小于等于4。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理，以得到過(guò)濾后的候選未登錄詞的步驟，具體包括：計(jì)算所述候選詞集合中的候選未登錄詞的互信息以及左右信息熵；過(guò)濾所述候選詞集合中互信息小于第二閾值和/或左后信息熵小于第三閾值的候選未登錄詞；根據(jù)互信息的取值，對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行降序排列，并將前N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞，或?qū)^(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行升序排列，并將后N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞。

在該技術(shù)方案中，通過(guò)計(jì)算候選詞集合中的候選未登錄詞的互信息以及左右信息熵，并根據(jù)互信息和左右信息熵對(duì)候選未登錄詞進(jìn)行過(guò)濾，并對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行排列，僅提取其中部分候選未登錄詞作為過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)，使得篩選出的未登錄詞更準(zhǔn)確，其中，N可取過(guò)濾后的候選詞集合中所有候選未登錄詞的30％至40％。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述第二閾值為6，所述第三閾值為1.5。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理的步驟，具體包括：對(duì)所述業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理。

在該技術(shù)方案中，通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理等預(yù)處理，為后續(xù)根據(jù)預(yù)處理得到的分析結(jié)果篩選候選未登錄詞提供了前提保障。

根據(jù)本發(fā)明的第二方面，提出了一種未登錄詞的識(shí)別系統(tǒng)，包括：第一處理單元，用于對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理，以得到分詞結(jié)果；創(chuàng)建單元，用于根據(jù)所述分詞結(jié)果，創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合；第二處理單元，用于對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理，以得到過(guò)濾后的候選未登錄詞；添加單元，用于將所述過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中。

在上述技術(shù)方案中，優(yōu)選地，所述創(chuàng)建單元具體用于：根據(jù)所述分詞結(jié)果，構(gòu)建左右PAT-ARRAY樹，其中，所述左右PAT-ARRAY樹中包含有多個(gè)重復(fù)串；從所述PAT-ARRAY樹中，提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串；將提取出的重復(fù)串作為候選未登錄詞，并創(chuàng)建所述候選詞集合。

在該技術(shù)方案中，PAT-ARRAY樹是一種能高效地識(shí)別前綴的數(shù)據(jù)結(jié)構(gòu)，通過(guò)對(duì)分詞結(jié)果構(gòu)建左右PAT-ARRAY樹，并從PAT-ARRAY樹中，提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串作為候選未登錄詞，提高了整個(gè)提取過(guò)程的效率，其中，對(duì)分詞結(jié)果構(gòu)建左右PAT-ARRAY樹包括初始化位置數(shù)組信息(即保存詞在分詞結(jié)果中的位置)，對(duì)位置數(shù)組按詞序進(jìn)行排序，計(jì)算相鄰位置數(shù)組的詞串的共有前綴或共有后綴。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述第一閾值為2，所述預(yù)定范圍為大于等于2且小于等于4。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述第二處理單元包括：計(jì)算單元，用于計(jì)算所述候選詞集合中的候選未登錄詞的互信息以及左右信息熵；過(guò)濾單元，用于過(guò)濾所述候選詞集合中互信息小于第二閾值和/或左后信息熵小于第三閾值的候選未登錄詞；確定單元，用于根據(jù)互信息的取值，對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行降序排列，并將前N個(gè)候選詞作為所述過(guò)濾后的候選未登錄詞，或?qū)^(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行升序排列，并將后N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述第二閾值為6，所述第三閾值為1.5。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述第一處理單元具體用于：對(duì)所述業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理。

通過(guò)以上技術(shù)方案，可以高效、準(zhǔn)確地從大數(shù)據(jù)量的業(yè)務(wù)數(shù)據(jù)中提取出未登錄詞。

附圖說(shuō)明

圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的未登錄詞的識(shí)別方法的示意流程圖；

圖2示出了根據(jù)本發(fā)明的實(shí)施例的未登錄詞的識(shí)別系統(tǒng)的示意框圖；

圖3示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的未登錄詞的識(shí)別方法的示意流程圖。

具體實(shí)施方式

為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn)，下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說(shuō)明的是，在不沖突的情況下，本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。

在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明，但是，本發(fā)明還可以采用其他不同于在此描述的其他方式來(lái)實(shí)施，因此，本發(fā)明的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。

圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的未登錄詞的識(shí)別方法的示意流程圖。

如圖1所示，根據(jù)本發(fā)明的一個(gè)實(shí)施例的未登錄詞的識(shí)別方法，包括：

步驟102，對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理，以得到分詞結(jié)果。

步驟104，根據(jù)所述分詞結(jié)果，創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合。

步驟106，對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理，以得到過(guò)濾后的候選未登錄詞。

步驟108，將所述過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述第一閾值為2，所述預(yù)定范圍為大于等于2且小于等于4。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述第二閾值為6，所述第三閾值為1.5。

圖2示出了根據(jù)本發(fā)明的實(shí)施例的未登錄詞的識(shí)別系統(tǒng)的示意框圖。

如圖2所示，根據(jù)本發(fā)明的實(shí)施例的未登錄詞的識(shí)別系統(tǒng)200，包括：第一處理單元202、創(chuàng)建單元204、第二處理單元206和添加單元208。

其中，第一處理單元202用于對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理，以得到分詞結(jié)果；創(chuàng)建單元204用于根據(jù)所述分詞結(jié)果，創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合；第二處理單元206用于對(duì)所述候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理，以得到過(guò)濾后的候選未登錄詞；添加單元208用于將所述過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中。

在該技術(shù)方案中，通過(guò)對(duì)獲取到的業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理，以得到分詞結(jié)果，并根據(jù)分詞結(jié)果創(chuàng)建包括多個(gè)候選未登錄詞的候選詞集合，對(duì)候選詞集合中的候選未登錄詞進(jìn)行過(guò)濾處理，以得到過(guò)濾后的候選未登錄詞，并將過(guò)濾后的候選未登錄詞添加至目標(biāo)詞庫(kù)中，使得無(wú)需事先訓(xùn)練大規(guī)模語(yǔ)料庫(kù)即可從業(yè)務(wù)數(shù)據(jù)中提取出過(guò)濾后的候選未登錄詞，且整個(gè)處理過(guò)程高效、準(zhǔn)確。

在上述技術(shù)方案中，優(yōu)選地，所述創(chuàng)建單元204具體用于：根據(jù)所述分詞結(jié)果，構(gòu)建左右PAT-ARRAY樹，其中，所述左右PAT-ARRAY樹中包含有多個(gè)重復(fù)串；從所述PAT-ARRAY樹中，提取詞頻大于或等于第一閾值且長(zhǎng)度在預(yù)定范圍內(nèi)的重復(fù)串；將提取出的重復(fù)串作為候選未登錄詞，并創(chuàng)建所述候選詞集合。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述第一閾值為2，所述預(yù)定范圍為大于等于2且小于等于4。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述第二處理單元206包括：計(jì)算單元2062，用于計(jì)算所述候選詞集合中的候選未登錄詞的互信息以及左右信息熵；過(guò)濾單元2064，用于過(guò)濾所述候選詞集合中互信息小于第二閾值和/或左后信息熵小于第三閾值的候選未登錄詞；確定單元2066，用于根據(jù)互信息的取值，對(duì)過(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行降序排列，并將前N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞，或?qū)^(guò)濾后的候選詞集合中的候選未登錄詞進(jìn)行升序排列，并將后N個(gè)候選未登錄詞作為所述過(guò)濾后的候選未登錄詞。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述第二閾值為6，所述第三閾值為1.5。

在上述任一項(xiàng)技術(shù)方案中，優(yōu)選地，所述第一處理單元202具體用于：對(duì)所述業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞處理、消歧處理、以及詞性標(biāo)注處理。

以下對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步說(shuō)明。

在本實(shí)施例中，可對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行分詞，并對(duì)分詞結(jié)果建立左右PAT-ARRAY樹，然后提取候選未登錄詞，計(jì)算候選未登錄詞的互信息及左右信息熵，并根據(jù)候選未登錄詞的互信息及左右信息熵來(lái)過(guò)濾候選未登錄詞，將過(guò)濾后的候選未登錄詞加入到分詞庫(kù)中。

采用MySQL數(shù)據(jù)庫(kù)，以政務(wù)事項(xiàng)數(shù)據(jù)為例進(jìn)行說(shuō)明，如圖3所示，未登錄詞的識(shí)別方法包括：

步驟302，讀取數(shù)據(jù)庫(kù)中的事項(xiàng)數(shù)據(jù)。

步驟304，對(duì)每一個(gè)事項(xiàng)，將其各個(gè)屬性值合并成一個(gè)大文本。

步驟306，對(duì)上一步生成的文本進(jìn)行分詞(如全切分)、消歧、詞性標(biāo)注。

步驟308，對(duì)上一步分詞結(jié)果建立左右PAT-ARRAY樹。

步驟310，提取詞頻大于等于2、長(zhǎng)度在2至4之間的重復(fù)串作為候選未登錄詞。

步驟312，合并從每一個(gè)事項(xiàng)中提取的候選未登錄詞。

步驟314，計(jì)算候選未登錄詞的互信息及左右信息熵。

步驟316，過(guò)濾互信息小于6、左右信息熵小于1.5的候選未登錄詞。

步驟318，根據(jù)互信息降序排列候選未登錄詞，取前N個(gè)候選未登錄詞加入至分詞庫(kù)中，并重復(fù)步驟306至316直到新的候選未登錄詞數(shù)小于閾值為止。

以上結(jié)合附圖詳細(xì)說(shuō)明了本發(fā)明的技術(shù)方案，本發(fā)明的技術(shù)方案提出了一種新的未登錄詞的識(shí)別方案，可以高效、準(zhǔn)確地從大數(shù)據(jù)量的業(yè)務(wù)數(shù)據(jù)中提取出未登錄詞。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔣錚;楊吉雄;王向榮;
技術(shù)所有人：深圳中興網(wǎng)信科技有限公司;
我是此專利的發(fā)明人

上一篇：一種動(dòng)觸橋的制作方法與工藝
上一篇：一種新型防火感光膠的制備方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

品牌識(shí)別系統(tǒng)相關(guān)技術(shù)

企業(yè)視覺識(shí)別系統(tǒng)相關(guān)技術(shù)

ais船舶識(shí)別系統(tǒng)相關(guān)技術(shù)

視覺識(shí)別系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

未登錄詞的識(shí)別方法及識(shí)別系統(tǒng)與流程