專利名稱:一種識(shí)別目標(biāo)詞的方法、裝置及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種識(shí)別目標(biāo)詞的方法、裝置及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,信息呈現(xiàn)爆炸式地增長,信息檢索、信息分析、機(jī)器翻譯等領(lǐng)域也快速興起,對(duì)于中文信息的處理,中文自動(dòng)分詞已經(jīng)成為一項(xiàng)基本性的任務(wù)。 中文自動(dòng)分詞是中文信息處理中一項(xiàng)重要的基礎(chǔ)性任務(wù),影響中文自動(dòng)分詞效果的難點(diǎn)之一為未登錄詞識(shí)別。所述未登錄詞是指沒有收錄至分詞詞典中的詞。對(duì)于未登錄詞又可分為兩種情況,一種是不可能全部收錄至詞典,但是能夠總結(jié)出規(guī)律的詞(如,人名、機(jī)構(gòu)名等);另一種是詞典中應(yīng)該收錄,但是還沒有收錄的新詞,在這部分新詞中有些是詞,是應(yīng)該收錄至分詞詞典中的目標(biāo)詞,還有一部分不是詞,是不應(yīng)該收錄的非目標(biāo)詞。在對(duì)新出現(xiàn)的詞進(jìn)行識(shí)別時(shí),首先要判斷該新出現(xiàn)的詞是不是詞,即判斷該新出現(xiàn)的詞是否為目標(biāo)詞,目前的做法主要有三類基于規(guī)則的方法,基于統(tǒng)計(jì)的方法,以及規(guī)則和統(tǒng)計(jì)相結(jié)合的方法。主流的基于統(tǒng)計(jì)的方法通常是在大規(guī)模文本數(shù)據(jù)的基礎(chǔ)上針對(duì)待識(shí)別詞的一個(gè)或幾個(gè)特征量進(jìn)行統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)結(jié)果人工設(shè)定閾值,在高于(或低于)設(shè)定閾值時(shí),判斷該待識(shí)別詞為目標(biāo)詞。但是,隨著網(wǎng)絡(luò)的廣泛應(yīng)用,在網(wǎng)絡(luò)上出現(xiàn)的文本數(shù)據(jù)很多情況下,只是一些關(guān)鍵詞的堆砌,已經(jīng)沒有完整的語義句式,例如,在電子商務(wù)網(wǎng)站中,特別是個(gè)人與個(gè)人之間的電子商務(wù)網(wǎng)站中,存在的海量商品標(biāo)題。在這些關(guān)鍵詞中,往往存在大量新出現(xiàn)的詞,但是, 此時(shí)統(tǒng)計(jì)得到的這些新出現(xiàn)的詞的特征值的分布趨勢是非線性的,在進(jìn)行識(shí)別時(shí),通過針對(duì)特征值設(shè)定單一閾值,再按照該單一閾值判斷該新出現(xiàn)的詞是不是目標(biāo)詞,得到的結(jié)果是不準(zhǔn)確的,因此,傳統(tǒng)基于統(tǒng)計(jì)的方法來判斷待識(shí)別詞是不是詞的方法,已經(jīng)不能適應(yīng)當(dāng)前網(wǎng)絡(luò)應(yīng)用中的目標(biāo)詞識(shí)別。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)峁┮环N識(shí)別目標(biāo)詞的方法、裝置及系統(tǒng),用以提高識(shí)別目標(biāo)詞的準(zhǔn)確率和召回率。本申請(qǐng)實(shí)施例提供的具體技術(shù)方案為—種識(shí)別目標(biāo)詞的方法,包括獲取候選詞集合以及特征計(jì)算數(shù)據(jù);基于最小粒度的文本數(shù)據(jù)對(duì)所述特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分;針對(duì)經(jīng)過分詞劃分處理的特征計(jì)算數(shù)據(jù)進(jìn)行分詞組合處理,獲得作為處理對(duì)象的組合文本數(shù)據(jù)集合;確定所述候選詞集合與所述組合文本數(shù)據(jù)集合的交集;計(jì)算所述交集中包含的每個(gè)組合文本數(shù)據(jù)的指定特征值;根據(jù)所述交集中包含的每個(gè)組合文本數(shù)據(jù)的多個(gè)指定特征值,按照預(yù)設(shè)的基于多個(gè)指定特征值的篩選條件對(duì)所述交集中包含的組合文本數(shù)據(jù)進(jìn)行篩選,將指定特征值符合所述篩選條件的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞。一種識(shí)別目標(biāo)詞的裝置,包括獲取單元,用于獲取候選詞集合以及特征計(jì)算數(shù)據(jù);分詞單元,用于基于最小粒度的文本數(shù)據(jù)對(duì)所述特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分;分詞組合單元,用于針對(duì)經(jīng)過分詞劃分處理的特征計(jì)算數(shù)據(jù)進(jìn)行分詞組合處理, 獲得作為處理對(duì)象的組合文本數(shù)據(jù)集合;交集確定單元,用于確定所述候選詞集合與所述組合文本數(shù)據(jù)集合的交集;指定特征值計(jì)算單元,用于計(jì)算所述交集中包含的每個(gè)組合文本數(shù)據(jù)的指定特征值;篩選單元,用于根據(jù)所述交集中包含的每個(gè)組合文本數(shù)據(jù)的多個(gè)指定特征值,按照預(yù)設(shè)的基于多個(gè)指定特征值的篩選條件對(duì)所述交集中包含的組合文本數(shù)據(jù)進(jìn)行篩選,將指定特征值符合所述篩選條件的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞。一種識(shí)別目標(biāo)詞的系統(tǒng),包括識(shí)別目標(biāo)詞裝置,用于獲取候選詞集合以及特征計(jì)算數(shù)據(jù),基于最小粒度的文本數(shù)據(jù)對(duì)所述特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分,針對(duì)經(jīng)過分詞劃分處理的特征計(jì)算數(shù)據(jù)進(jìn)行分詞組合處理,獲得作為處理對(duì)象的組合文本數(shù)據(jù)集合,確定所述候選詞集合與所述組合文本數(shù)據(jù)集合的交集,并計(jì)算所述交集中包含的每個(gè)組合文本數(shù)據(jù)的指定特征值,根據(jù)所述交集中包含的每個(gè)組合文本數(shù)據(jù)的多個(gè)指定特征值,按照預(yù)設(shè)的基于多個(gè)指定特征值的篩選條件對(duì)所述交集中包含的組合文本數(shù)據(jù)進(jìn)行篩選,將指定特征值符合篩選條件的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞;訓(xùn)練數(shù)據(jù)提供裝置,用于向識(shí)別目標(biāo)詞裝置提供獲得篩選條件所需的訓(xùn)練樣本詞集合,以及相應(yīng)的樣本特征計(jì)算數(shù)據(jù);目標(biāo)詞收錄裝置,用于接收識(shí)別目標(biāo)詞裝置識(shí)別出的目標(biāo)詞,并將未登錄的目標(biāo)詞加入分詞詞典中?;谏鲜黾夹g(shù)方案,本申請(qǐng)實(shí)施例中,通過將特征計(jì)算數(shù)據(jù)劃分為最小粒度的分詞,對(duì)劃分得到的多個(gè)分詞組合為多個(gè)組合文本數(shù)據(jù),通過將候選詞和組合文本數(shù)據(jù)集合做交集,計(jì)算得到候選詞的多個(gè)指定特征值,再根據(jù)該多個(gè)指定特征值識(shí)別上述候選詞,實(shí)現(xiàn)了利用多個(gè)特征值識(shí)別候選詞,并且篩選條件是通過分類算法訓(xùn)練得到,避免了人為設(shè)定帶來的誤差,提高識(shí)別的準(zhǔn)確性和穩(wěn)定性,在指定特征值的分詞呈非線性時(shí),也可以構(gòu)建合適的篩選條件,正確識(shí)別出目標(biāo)詞,提高了識(shí)別的準(zhǔn)確率和召回率。
圖IA為本申請(qǐng)實(shí)施例中識(shí)別目標(biāo)詞的系統(tǒng)架構(gòu)圖;圖IB為本申請(qǐng)實(shí)施例中識(shí)別目標(biāo)詞裝置結(jié)構(gòu)圖;圖2為本申請(qǐng)實(shí)施例中獲得篩選條件的詳細(xì)流程圖;圖3為本申請(qǐng)實(shí)施例中識(shí)別目標(biāo)詞的詳細(xì)流程圖。
具體實(shí)施方式
為了解決現(xiàn)有的基于統(tǒng)計(jì)方法識(shí)別文本數(shù)據(jù)的局限性,即只能利用較少的特征值,并要求對(duì)特征值的統(tǒng)計(jì)結(jié)果呈線性分布,以及由人工調(diào)節(jié)特征權(quán)值和設(shè)定閾值造成的誤差和不穩(wěn)定性,本申請(qǐng)實(shí)施例中提供了一種識(shí)別目標(biāo)詞的方法,可以利用任意維度的特征值,并在特征值的分布趨勢為非線性時(shí),也可正確識(shí)別出目標(biāo)詞,而不需要人工干預(yù),提高識(shí)別的準(zhǔn)確率和召回率。該方法為獲取候選詞集合以及特征計(jì)算數(shù)據(jù),基于最小粒度的文本數(shù)據(jù)對(duì)特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分,對(duì)經(jīng)過分詞劃分處理的特征計(jì)算數(shù)據(jù)進(jìn)行分詞組合,獲得作為處理對(duì)象的組合文本數(shù)據(jù)集合,確定候選詞集合與組合文本數(shù)據(jù)集合的交集, 并計(jì)算該交集中包含的每個(gè)組合文本數(shù)據(jù)的指定特征值,根據(jù)該交集中包含的每個(gè)組合文本數(shù)據(jù)的多個(gè)指定特征值,按照預(yù)設(shè)的基于多個(gè)指定特征值的篩選條件對(duì)上述交集中包含的組合文本數(shù)據(jù)進(jìn)行篩選,將指定特征值符合篩選條件的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞。其中,在候選詞是一個(gè)通常意義下的詞匯時(shí),該候選詞即為目標(biāo)詞;否則,在候選詞不是通常意義下的一個(gè)詞匯時(shí),該候選詞為非目標(biāo)詞。例如,在候選詞集合中存在“蝙蝠袖”和“袖女裝”,其中,“蝙蝠袖”是一個(gè)通常意義下的詞匯,則該詞為目標(biāo)詞,而“袖女裝”不是通常意義下的一個(gè)詞匯,則該詞為非目標(biāo)詞。候選詞集合可以是任意文本數(shù)據(jù),其對(duì)應(yīng)的特征計(jì)算數(shù)據(jù)也可以是任意文本數(shù)據(jù)。本申請(qǐng)實(shí)施例中,優(yōu)選采用用戶輸入的查詢關(guān)鍵詞,根據(jù)用戶輸入的查詢關(guān)鍵詞提取出的候選詞集合,并基于用戶輸入查詢關(guān)鍵詞對(duì)應(yīng)的查詢對(duì)象的描述信息提取特征計(jì)算數(shù)據(jù)。例如,在電子商務(wù)網(wǎng)站中,收集保存用戶輸入的用于查詢產(chǎn)品的查詢關(guān)鍵詞,從該查詢關(guān)鍵詞中提取出候選詞集合,從電子商務(wù)網(wǎng)站中產(chǎn)品的標(biāo)題、產(chǎn)品的介紹等描述信息中提取特征計(jì)算數(shù)據(jù)。又例如,在新聞網(wǎng)站中,收集保存用戶輸入的用于查詢新聞的查詢關(guān)鍵詞,從該查詢關(guān)鍵詞中提取出候選詞集合,從新聞網(wǎng)站中的新聞標(biāo)題、新聞內(nèi)容等描述信息中提取特征計(jì)算數(shù)據(jù)。上述候選詞集合與特征計(jì)算數(shù)據(jù)的提取,可采用定期或者定量的方式進(jìn)行。例如, 定期從用戶輸入的查詢關(guān)鍵詞中提取候選詞集合;對(duì)應(yīng)地,定期提取的特征計(jì)算數(shù)據(jù);也可以是用于提取候選詞集合的用戶輸入的查詢關(guān)鍵詞達(dá)到一定數(shù)量時(shí),提取對(duì)應(yīng)的特征計(jì)算數(shù)據(jù),然后執(zhí)行本申請(qǐng)實(shí)施例進(jìn)行目標(biāo)詞識(shí)別。本申請(qǐng)實(shí)施例中,準(zhǔn)確率是指,在識(shí)別出來是目標(biāo)詞的個(gè)數(shù)中,屬于正確識(shí)別的分詞的個(gè)數(shù)與識(shí)別出來是目標(biāo)詞的個(gè)數(shù)的比率。召回率是指,在候選詞中,正確識(shí)別出是目標(biāo)詞的個(gè)數(shù)與候選詞中實(shí)際上是目標(biāo)詞的分詞的個(gè)數(shù)之間的比率。最小粒度的文本數(shù)據(jù)可以是單個(gè)字,也可以是單個(gè)分詞。本申請(qǐng)實(shí)施例中,最小粒度的文本數(shù)據(jù)以單個(gè)分詞為例進(jìn)行說明。下面結(jié)合附圖對(duì)本申請(qǐng)優(yōu)選的實(shí)施例進(jìn)行詳細(xì)的說明。參閱附圖IA所示,本申請(qǐng)實(shí)施例中,識(shí)別目標(biāo)詞的系統(tǒng)包括識(shí)別目標(biāo)詞裝置10、 訓(xùn)練數(shù)據(jù)提供裝置11和目標(biāo)詞收錄裝置12,其中識(shí)別目標(biāo)詞裝置10,用于獲取候選詞集合以及特征計(jì)算數(shù)據(jù),基于最小粒度的文本數(shù)據(jù)對(duì)所述特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分,針對(duì)經(jīng)過分詞劃分處理的特征計(jì)算數(shù)據(jù)進(jìn)行分詞組合處理,獲得作為處理對(duì)象的組合文本數(shù)據(jù)集合,確定所述候選詞集合與所述組合文本數(shù)據(jù)集合的交集,計(jì)算該交集中包含的每個(gè)組合文本數(shù)據(jù)的多個(gè)指定特征值,按照預(yù)設(shè)的基于多個(gè)指定特征值的篩選條件對(duì)所述交集中包含的組合文本數(shù)據(jù)進(jìn)行篩選,將指定特征值符合篩選條件的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞;訓(xùn)練數(shù)據(jù)提供裝置11,用于向識(shí)別目標(biāo)詞裝置10提供獲得篩選條件所需的訓(xùn)練樣本詞集合以及相應(yīng)的樣本特征計(jì)算數(shù)據(jù);目標(biāo)詞收錄裝置12,用于接收識(shí)別目標(biāo)詞裝置10識(shí)別出的目標(biāo)詞,并將未登錄的目標(biāo)詞加入分詞詞典中?;谏鲜鱿到y(tǒng)架構(gòu),參閱附圖IB所示,本申請(qǐng)實(shí)施例中,識(shí)別目標(biāo)詞裝置10包括以下處理單元獲取單元101,用于獲取候選詞集合以及特征計(jì)算數(shù)據(jù);分詞單元102,用于基于最小粒度的文本數(shù)據(jù)對(duì)上述特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分;分詞組合單元103,用于針對(duì)經(jīng)過分詞劃分處理的特征計(jì)算數(shù)據(jù)進(jìn)行分詞組合處理,獲得作為處理對(duì)象的組合文本數(shù)據(jù)集合;交集確定單元104,用于確定所述候選詞集合與所述組合文本數(shù)據(jù)集合的交集;指定特征值計(jì)算單元105,用于計(jì)算所述交集中包含的每個(gè)組合文本數(shù)據(jù)的多個(gè)指定特征值;篩選單元106,根據(jù)所述交集中包含的每個(gè)組合文本數(shù)據(jù)的多個(gè)指定特征值,按照預(yù)設(shè)的基于多個(gè)指定特征值的篩選條件對(duì)所述交集中包含的組合文本數(shù)據(jù)進(jìn)行篩選,將指定特征值符合所述篩選條件的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞。其中,上述基于多個(gè)指定特征值的篩選條件可采用訓(xùn)練樣本詞集合對(duì)分類算法進(jìn)行訓(xùn)練得到。在獲得該篩選條件時(shí),識(shí)別目標(biāo)詞裝置10的獲取單元101,用于獲取訓(xùn)練樣本詞集合以及樣本特征計(jì)算數(shù)據(jù);分詞單元102用于基于最小粒度的文本數(shù)據(jù)對(duì)所述樣本特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分;分詞組合單元103用于針對(duì)經(jīng)過分詞劃分處理的樣本特征計(jì)算數(shù)據(jù)進(jìn)行分詞組合處理,獲得作為處理對(duì)象的樣本組合文本數(shù)據(jù)集合;交集確定單元104 用于確定所述樣本組合文本數(shù)據(jù)集合與所述訓(xùn)練樣本詞集合的交集;指定特征值計(jì)算單元 105用于計(jì)算所述交集中包含的每個(gè)樣本組合文本數(shù)據(jù)的多個(gè)指定特征值;篩選單元106 根據(jù)所述交集中包含的每個(gè)樣本組合文本數(shù)據(jù)的多個(gè)指定特征值,以及已知分類結(jié)果,設(shè)置所述多個(gè)指定特征值的門限值,并基于該門限值得到相應(yīng)的基于多個(gè)指定特征值的篩選條件。本申請(qǐng)實(shí)施例中,指定特征可以包括互信息、對(duì)數(shù)似然比、上下文熵(左熵、右熵)、基于位置的字構(gòu)詞概率,還可以包括骰子矩陣(Dice)、卡方(Chi)等。在獲得篩選條件以及識(shí)別目標(biāo)詞時(shí),需用到的多個(gè)指定特征值可以是上述指定特征值中的任意兩種或兩種以上的組合。其中,互信息的計(jì)算公式為MI(a, b) = Iog2 -^- = Iog2........................[ 1 ]
PaPbCaCb在公式[1]中,“a”,“b”分別代表最小粒度的單個(gè)分詞,“ab”代表兩個(gè)分詞組合后得到的組合文本數(shù)據(jù),pa、pb分別代表分詞“a”、分詞“b”在特征計(jì)算數(shù)據(jù)中出現(xiàn)的概率, Pab代表“ab”在特征計(jì)算數(shù)據(jù)中出現(xiàn)的概率,Cab代表“ab” 一起在特征計(jì)算數(shù)據(jù)中出現(xiàn)的次數(shù),Ca代表“a”在特征計(jì)算數(shù)據(jù)中出現(xiàn)的次數(shù),Cb代表“b”在特征計(jì)算數(shù)據(jù)中出現(xiàn)的次數(shù),η代表基于最小粒度的文本數(shù)據(jù)對(duì)特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分得到的分詞的個(gè)數(shù),在分詞“a”和分詞“b”的互信息計(jì)算中Pab與Pa和Pb的積成負(fù)相關(guān)。例如,假設(shè)特征計(jì)算數(shù)據(jù)為“圓領(lǐng)女裝,蝙蝠袖女裝”,計(jì)算分詞“蝙蝠袖”的互信息時(shí),分詞“a”為“蝙蝠”,分詞“b”為“袖”,“ab”為“蝙蝠袖”,pa是指分詞“蝙蝠”在特征計(jì)算數(shù)據(jù)中出現(xiàn)的概率,Pb是指分詞“袖”在特征計(jì)算數(shù)據(jù)中出現(xiàn)的概率,Pab是指“蝙蝠袖”在特征計(jì)算數(shù)據(jù)中出現(xiàn)的概率,Cab是指“蝙蝠袖”在特征計(jì)算數(shù)據(jù)中出現(xiàn)的次數(shù),Ca代表“蝙蝠”在特征計(jì)算數(shù)據(jù)中出現(xiàn)的次數(shù),Cb代表“袖”在特征計(jì)算數(shù)據(jù)中出現(xiàn)的次數(shù),η代表基于最小粒度的文本數(shù)據(jù)對(duì)特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分得到的分詞的個(gè)數(shù),這里可以將特征計(jì)算數(shù)據(jù)劃分為“圓領(lǐng)”、“女裝”、“蝙蝠”、“袖”、“女裝”5個(gè)分詞,可知Cab為1,~為l,cb為1, η為5。其中,對(duì)數(shù)似然比是用于衡量各分詞之間的聯(lián)系緊密性,計(jì)算公式為logL{a,b) = ll(^-,kx,nx) +11(^,k2,n2)-ll{kl+kl ,^,^)-//(^1,k2,n2),
Yixn2nx + n2r\ + n2ll(p,k,n) = klog(p) + (n-k)log(l-p)........................[2]在公式[2]中,“a”,“b”分別代表最小粒度的單個(gè)分詞屯表示文本數(shù)據(jù)“ab”在特征計(jì)算數(shù)據(jù)中出現(xiàn)的次數(shù)表示在采用最小粒度的文本數(shù)據(jù)對(duì)特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分,并在采用語言模型依序組合得到的多個(gè)組合文本數(shù)據(jù)中,“a”出現(xiàn)在左邊的組合文本數(shù)據(jù)的個(gè)數(shù);1 表示在上述采用語言模型依序組合得到的多個(gè)組合文本數(shù)據(jù)中,“b”出現(xiàn)在右邊,并且左邊不為a的組合文本數(shù)據(jù)的個(gè)數(shù);n2表示在上述采用語言模型依序組合得到的多個(gè)組合文本數(shù)據(jù)中,左邊不為“a”的組合文本數(shù)據(jù)的個(gè)數(shù)。例如,基于與上例相同的特征計(jì)算數(shù)據(jù),在將特征計(jì)算數(shù)據(jù)劃分為“圓領(lǐng)”、“女裝”、“蝙蝠”、“袖”、“女裝” 5個(gè)分詞的情況下,采用語言模型對(duì)上述分詞進(jìn)行二元組合得到 “圓領(lǐng)女裝”、“女裝蝙蝠”、“蝙蝠袖”、“袖女裝” 4個(gè)組合文本數(shù)據(jù)。計(jì)算“蝙蝠袖”的對(duì)數(shù)似然比時(shí),Ic1為“蝙蝠袖”在特征計(jì)算數(shù)據(jù)中出現(xiàn)的次數(shù),H1為在上述4個(gè)組合文本數(shù)據(jù)中, “蝙蝠”出現(xiàn)在左邊的組合文本數(shù)據(jù)的個(gè)數(shù),k2為在上述4個(gè)組合文本數(shù)據(jù)中,“袖”出現(xiàn)在右邊,同時(shí)左邊不是“蝙蝠”的組合文本數(shù)據(jù)的個(gè)數(shù),n2為在上述4個(gè)組合文本數(shù)據(jù)中,左邊不是“蝙蝠”的組合文本數(shù)據(jù)的個(gè)數(shù)。其中,上下文熵是用于表示多個(gè)分詞表達(dá)的使用自由度,熵是不確定因素的表達(dá), 熵越大說明隨機(jī)事件越不確定,只能在固定上下文中使用的字符串,其上下文熵值小,而能在不同上下文中使用的字符串其上下文熵值大,上下文熵包括左熵和右熵,左熵的計(jì)算公式為 LE(ab) = J] -p(x | 油)Iog2 p(x | ab) ,p(x | ab) = ........................[3]
^leftCab在公式[3]中,“a”,“b”分別代表最小粒度的單個(gè)分詞,“ab”代表兩個(gè)分詞組合后得到的文本數(shù)據(jù),P(x|ab)是指在特征計(jì)算數(shù)據(jù)中“ab”出現(xiàn)的前提下,左邊出現(xiàn)分詞“X” 的概率,left是指“ab”的左邊出現(xiàn)分詞的集合,Cxab是指在“ab”的左邊出現(xiàn)分詞的次數(shù), Cab是指“ab”出現(xiàn)的次數(shù),在左熵計(jì)算中,p(x|ab)和p(x|ab)以2為底的對(duì)數(shù)成正相關(guān)。右熵的計(jì)算公式為
權(quán)利要求
1 一種識(shí)別目標(biāo)詞的方法,其特征在于,包括 獲取候選詞集合以及特征計(jì)算數(shù)據(jù);基于最小粒度的文本數(shù)據(jù)對(duì)所述特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分; 針對(duì)經(jīng)過分詞劃分處理的特征計(jì)算數(shù)據(jù)進(jìn)行分詞組合處理,獲得作為處理對(duì)象的組合文本數(shù)據(jù)集合;確定所述候選詞集合與所述組合文本數(shù)據(jù)集合的交集; 計(jì)算所述交集中包含的每個(gè)組合文本數(shù)據(jù)的指定特征值;根據(jù)所述交集中包含的每個(gè)組合文本數(shù)據(jù)的多個(gè)指定特征值,按照預(yù)設(shè)的基于多個(gè)指定特征值的篩選條件對(duì)所述交集中包含的組合文本數(shù)據(jù)進(jìn)行篩選,將指定特征值符合所述篩選條件的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞。
2.如權(quán)利要求1所述的方法,其特征在于,所述進(jìn)行分詞組合處理包括采取基于η元視窗的η元模型,按照設(shè)定順序移動(dòng)η元視窗,將視窗內(nèi)包含的分詞進(jìn)行分詞組合,得到組合后的組合文本數(shù)據(jù)。
3.如權(quán)利要求1所述的方法,其特征在于,根據(jù)所述交集中包含的每個(gè)組合文本數(shù)據(jù)的多個(gè)指定特征值,按照預(yù)設(shè)的基于多個(gè)指定特征值的篩選條件對(duì)所述交集中包含的組合文本數(shù)據(jù)進(jìn)行篩選,將特征值符合所述篩選條件的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞,包括將所述交集中包含的組合文本數(shù)據(jù)的指定特征值,和基于預(yù)設(shè)的篩選條件確定的與所述指定特征值相對(duì)應(yīng)的門限值進(jìn)行比較,將指定特征值符合相應(yīng)門限值的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞。
4.如權(quán)利要求3所述的方法,其特征在于,將所述交集中包含的組合文本數(shù)據(jù)的指定特征值,和基于預(yù)設(shè)的篩選條件確定的與所述指定特征值相對(duì)應(yīng)的門限值進(jìn)行比較,包括將所述交集中包含的組合文本數(shù)據(jù)的指定特征值,和基于預(yù)設(shè)的篩選條件確定的與所述指定特征值相對(duì)應(yīng)的門限值進(jìn)行比較; 或者將所述交集中包含的組合文本數(shù)據(jù)的指定特征值,輸入基于篩選條件確定的公式進(jìn)行計(jì)算,計(jì)算出的值再與篩選條件確定的門限值進(jìn)行比較。
5.如權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述組合文本數(shù)據(jù)的指定特征值至少包含互信息、對(duì)數(shù)似然比、左熵、右熵和基于位置的字構(gòu)詞概率值中的任意兩種或兩種以上的組合。
6.如權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,所述篩選條件通過以下步驟取得 選取訓(xùn)練樣本詞集合以及樣本特征計(jì)算數(shù)據(jù),該訓(xùn)練樣本詞集合為已知分類結(jié)果的詞的集合;基于最小粒度的文本數(shù)據(jù)對(duì)所述樣本特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分; 針對(duì)經(jīng)過分詞劃分處理的樣本特征計(jì)算數(shù)據(jù)進(jìn)行分詞組合處理,獲得作為處理對(duì)象的樣本組合文本數(shù)據(jù)集合;確定所述樣本組合文本數(shù)據(jù)集合與所述訓(xùn)練樣本詞集合的交集; 計(jì)算所述交集中包含的每個(gè)樣本組合文本數(shù)據(jù)的多個(gè)指定特征值;根據(jù)所述交集中包含的每個(gè)樣本組合文本數(shù)據(jù)的多個(gè)指定特征值,以及所述已知分類結(jié)果,設(shè)置所述多個(gè)指定特征值的門限值,并基于所述門限值得到相應(yīng)的基于多個(gè)指定特征值的篩選條件。
7.一種識(shí)別目標(biāo)詞的裝置,其特征在于,包括獲取單元,用于獲取候選詞集合以及特征計(jì)算數(shù)據(jù);分詞單元,用于基于最小粒度的文本數(shù)據(jù)對(duì)所述特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分; 分詞組合單元,用于針對(duì)經(jīng)過分詞劃分處理的特征計(jì)算數(shù)據(jù)進(jìn)行分詞組合處理,獲得作為處理對(duì)象的組合文本數(shù)據(jù)集合;交集確定單元,用于確定所述候選詞集合與所述組合文本數(shù)據(jù)集合的交集; 指定特征值計(jì)算單元,用于計(jì)算所述交集中包含的每個(gè)組合文本數(shù)據(jù)的指定特征值; 篩選單元,用于根據(jù)所述交集中包含的每個(gè)組合文本數(shù)據(jù)的多個(gè)指定特征值,按照預(yù)設(shè)的基于多個(gè)指定特征值的篩選條件對(duì)所述交集中包含的組合文本數(shù)據(jù)進(jìn)行篩選,將指定特征值符合所述篩選條件的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞。
8.如權(quán)利要求7所述的裝置,其特征在于,所述篩選單元根據(jù)所述交集中包含的每個(gè)組合文本數(shù)據(jù)的多個(gè)指定特征值,按照預(yù)設(shè)的基于多個(gè)指定特征值的篩選條件對(duì)所述交集中包含的組合文本數(shù)據(jù)進(jìn)行篩選,將指定特征值符合所述篩選條件的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞,具體為將所述交集中包含的組合文本數(shù)據(jù)的指定特征值,和基于預(yù)設(shè)的篩選條件確定的與所述指定特征值相對(duì)應(yīng)的門限值進(jìn)行比較,將指定特征值符合相應(yīng)門限值的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞。
9.如權(quán)利要求7或8所述的裝置,其特征在于,所述篩選單元的篩選條件通過以下步驟獲得選取訓(xùn)練樣本詞集合以及樣本特征計(jì)算數(shù)據(jù),該訓(xùn)練樣本詞集合為已知分類結(jié)果的詞的集合;基于最小粒度的文本數(shù)據(jù)對(duì)所述樣本特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分; 針對(duì)經(jīng)過分詞劃分處理的樣本特征計(jì)算數(shù)據(jù)進(jìn)行分詞組合處理,獲得作為處理對(duì)象的樣本組合文本數(shù)據(jù)集合;確定所述樣本組合文本數(shù)據(jù)集合與所述訓(xùn)練樣本詞集合的交集; 計(jì)算所述交集中每個(gè)樣本組合文本數(shù)據(jù)的多個(gè)指定特征值;根據(jù)所述交集中包含的每個(gè)樣本組合文本數(shù)據(jù)的多個(gè)指定特征值,以及所述已知分類結(jié)果,設(shè)置所述多個(gè)指定特征值的門限值,并基于所述門限值得到相應(yīng)的基于多個(gè)指定特征值的篩選條件。
10.一種識(shí)別目標(biāo)詞的系統(tǒng),其特征在于,包括識(shí)別目標(biāo)詞裝置,用于獲取候選詞集合以及特征計(jì)算數(shù)據(jù),基于最小粒度的文本數(shù)據(jù)對(duì)所述特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分,針對(duì)經(jīng)過分詞劃分處理的特征計(jì)算數(shù)據(jù)進(jìn)行分詞組合處理,獲得作為處理對(duì)象的組合文本數(shù)據(jù)集合,確定所述候選詞集合與所述組合文本數(shù)據(jù)集合的交集,并計(jì)算所述交集中包含的每個(gè)組合文本數(shù)據(jù)的指定特征值,根據(jù)所述交集中包含的每個(gè)組合文本數(shù)據(jù)的多個(gè)指定特征值,按照預(yù)設(shè)的基于多個(gè)指定特征值的篩選條件對(duì)所述交集中包含的組合文本數(shù)據(jù)進(jìn)行篩選,將指定特征值符合篩選條件的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞;訓(xùn)練數(shù)據(jù)提供裝置,用于向識(shí)別目標(biāo)詞裝置提供獲得篩選條件所需的訓(xùn)練樣本詞集合,以及相應(yīng)的樣本特征計(jì)算數(shù)據(jù);目標(biāo)詞收錄裝置,用于接收識(shí)別目標(biāo)詞裝置識(shí)別出的目標(biāo)詞,并將未登錄的目標(biāo)詞加入分詞詞典中。
全文摘要
本申請(qǐng)公開了一種識(shí)別目標(biāo)詞的方法、裝置及系統(tǒng),以利用多個(gè)特征值識(shí)別目標(biāo)詞,提高識(shí)別準(zhǔn)確率和召回率。該方法包括獲取候選詞集合以及特征計(jì)算數(shù)據(jù),基于最小粒度的文本數(shù)據(jù)對(duì)特征計(jì)算數(shù)據(jù)進(jìn)行分詞劃分,針對(duì)劃分得到的分詞進(jìn)行分詞組合,獲得組合文本數(shù)據(jù)集合,確定候選詞集合與組合文本數(shù)據(jù)集合的交集,計(jì)算交集中每個(gè)組合文本數(shù)據(jù)的指定特征值,按照篩選條件對(duì)交集中的組合文本數(shù)據(jù)進(jìn)行篩選,將特征值符合篩選條件的組合文本數(shù)據(jù)對(duì)應(yīng)的候選詞確定為目標(biāo)詞。這樣,可利用多個(gè)特征值識(shí)別目標(biāo)詞,通過分類算法獲得篩選條件,避免了人為設(shè)定造成的誤差,提高識(shí)別準(zhǔn)確率和召回率。本申請(qǐng)同時(shí)公開了一種識(shí)別目標(biāo)詞的裝置和系統(tǒng)。
文檔編號(hào)G06F17/30GK102411563SQ20101029505
公開日2012年4月11日 申請(qǐng)日期2010年9月26日 優(yōu)先權(quán)日2010年9月26日
發(fā)明者孫海波, 楊揚(yáng), 陳一寧 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司