專利名稱:一種基于詞綴的用于對(duì)未知詞進(jìn)行語義分類的方法
CN 102929858 A書明說1/3頁—種基于詞綴的用于對(duì)未知詞進(jìn)行語義分類的方法技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,涉及一種基于詞綴的用于對(duì)未知詞進(jìn)行語義分類的方法。
背景技術(shù):
通常,用戶能夠先獲得描述單詞的某些字典。這些字典可以描述單詞的出處(例如,通常在哪一段話中出現(xiàn)的等等)、語義類(例如人、事件、情感等等)、含義和例句等。對(duì)于那些沒有出現(xiàn)在字典中的詞我們稱為“未知詞”。一般而言,未知詞可以來源于某些新詞。
在文本信息處理中,未知詞的出現(xiàn)常常會(huì)給用戶帶來麻煩,由于它的信息(例如例句、語義類等)的不足。
為解決上述麻煩,一種做法是用戶在未知詞出現(xiàn)時(shí)更新字典。但是這一做法在一般情況下很困難,原因如下(I)由于存在著很多的信息源(報(bào)紙、網(wǎng)絡(luò)等等),因此無法保證用戶在一未知詞首次出現(xiàn)時(shí)就捕捉到該詞;(2)由于字典是標(biāo)準(zhǔn)化的,對(duì)于任一未知詞都需要經(jīng)過許多專家的審核、同意后才能寫入字典,因此這需要一段時(shí)間。
鑒于此,對(duì)未知詞進(jìn)行語義類別的猜測(cè)就成了一項(xiàng)很有必要的工作。本發(fā)明將關(guān)注語義類別信息。也就是,我們將試圖猜測(cè)未知詞的語義類別。發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述技術(shù)缺陷,提供一種基于詞綴的用于對(duì)未知詞進(jìn)行語義分類的方法。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案為
對(duì)于用戶輸入的任一未知詞w = AB,針對(duì)其詞根A或B,在字典中查找與其具有相同詞根的詞作為該未知詞的相似詞,分析各個(gè)相似詞的構(gòu)詞方式,對(duì)于不是有內(nèi)容部分?jǐn)U展而來的情況,根據(jù)同義詞詞林字典分析各個(gè)相似詞的內(nèi)容部分與該未知詞的內(nèi)容部分的相似度,將相似度為I的內(nèi)容部分的相似詞作為該未知詞的語義類;對(duì)于各相似詞是由其內(nèi)容部分?jǐn)U展而來的情況,我們可以確定的認(rèn)為該未知詞也是由其內(nèi)容部分?jǐn)U展而來,此時(shí)只需要在同義詞詞林字典中查找出其內(nèi)容部分的語義類,進(jìn)而,將該語義類作為該未知詞的語義類;對(duì)于詞綴對(duì)其語義有較大影響的情況,根據(jù)同義詞詞林字典分別計(jì)算該未知詞的內(nèi)容部分與各相似詞內(nèi)容部分的語義類的相似度,并設(shè)定閾值,若其相似度大于該閾值則將其疊加在該相似詞的內(nèi)容部分的語義類的值上,篩選出語義類值最大的相似詞的語義類作為該未知詞的語義類。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為
本發(fā)明的方法基于詞綴研究未知詞的構(gòu)詞規(guī)律,進(jìn)而分析它的語義類別。本發(fā)明可以作為一個(gè)獨(dú)立的語法或語義成分識(shí)別系統(tǒng)對(duì)中文或其他基于字符的未知詞的語義分類,同時(shí)也可以與其他語言成分識(shí)別系統(tǒng)相結(jié)合,對(duì)其他系統(tǒng)輸出的結(jié)果進(jìn)行分析,提高原有系統(tǒng)的分析精度。本發(fā)明尤其適用于對(duì)漢語未知詞的分析,根據(jù)本發(fā)明實(shí)現(xiàn)的未知詞語3義分類系統(tǒng)獲得了良好的分析效果。
圖I是示出本發(fā)明總體的方法流程圖2是示出本發(fā)明實(shí)施例I基于詞綴的未知詞語義分類的操作流程圖3是示出本發(fā)明實(shí)施例2基于詞綴的未知詞語義分類的操作流程圖4是示出本發(fā)明實(shí)施例3基于詞綴的未知詞語義分類的操作流出圖。
具體實(shí)施方式
下面結(jié)合附圖與具體實(shí)施方式
對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步詳細(xì)地說明。
如圖I所示,一種基于詞綴的用于對(duì)未知詞進(jìn)行語義分類的方法,包括以下步驟, 對(duì)于
用戶輸入的任一未知詞w = AB,針對(duì)其詞根A或B,在字典中查找與其具有相同詞根的詞作為該未知詞的相似詞,分析各個(gè)相似詞的構(gòu)詞方式,對(duì)于不是有內(nèi)容部分?jǐn)U展而來的情況,根據(jù)同義詞詞林字典分析各個(gè)相似詞的內(nèi)容部分與該未知詞的內(nèi)容部分的相似度,將相似度為I的內(nèi)容部分的相似詞作為該未知詞的語義類;對(duì)于各相似詞是由其內(nèi)容部分?jǐn)U展而來的情況,我們可以確定的認(rèn)為該未知詞也是由其內(nèi)容部分?jǐn)U展而來,此時(shí)只需要在同義詞詞林字典中查找出其內(nèi)容部分的語義類,進(jìn)而,將該語義類作為該未知詞的語義類;對(duì)于詞綴對(duì)其語義有較大影響的情況,根據(jù)同義詞詞林字典分別計(jì)算該未知詞的內(nèi)容部分與各相似詞內(nèi)容部分的語義類的相似度,并設(shè)定閾值,若其相似度大于該閾值則將其疊加在該相似詞的內(nèi)容部分的語義類的值上,篩選出語義類值最大的相似詞的語義類作為該未知詞的語義類。
實(shí)施例I
圖2的過程開始于步驟201,針對(duì)字典中的每個(gè)詞根A,收集其所有包含A的相似同,這里根據(jù)本發(fā)明實(shí)施例,將各相似詞的內(nèi)容部分取出,并查找它們的語義類以滿足本發(fā)明的需要。在步驟204中,輸入一未知詞w = XY,步驟205中,從所收集的相似詞集合中選擇詞根A滿足A = X或A = Y的相似詞集合,然后經(jīng)206裝置計(jì)算其內(nèi)容部分的相似度,最后得到未知詞的語義類。舉例來說,對(duì)于一未知詞“攝像機(jī)”,在201裝置中選擇出其相似詞集合,如“照相機(jī)”、“飛機(jī)”等。在不同部分識(shí)別單元中將他們相同的詞綴部分“機(jī)”移除, 并在不同部分存儲(chǔ)模塊中,以[wr, parti, part2] (wr表示未知詞w的相似詞,parti表示未知詞w的內(nèi)容部分,part2表示相似詞wr的內(nèi)容部分)。如[照相機(jī),攝像,照相],[飛機(jī),攝像,飛],等等。假定在同義詞林中,C(攝像)=Hg03, C(照相)=Hg03, C(飛)= IalO,C(照相機(jī))=Bpl5,C(飛機(jī))=Bo22,其中Hg03, I10,Bpl5為詞林中所定義的語義類。在相似度計(jì)算模塊206中計(jì)算未知詞和各相似詞內(nèi)容部分的相似度,對(duì)于wr = “照相機(jī)”,S(攝像,照相)=1(其中SO表示計(jì)算兩個(gè)語義類的相似度),相似度存儲(chǔ)單元中以 [Bpl5,1]的形式存儲(chǔ)其計(jì)算結(jié)果;對(duì)于wr = “飛機(jī)”,其內(nèi)容部分相似度S(攝像,飛)= O. 1,將[Bo22,0. I]存儲(chǔ)相似度存儲(chǔ)模塊中。假設(shè)未知詞“攝像機(jī)”只有“照相機(jī)”和“飛機(jī)” 這兩個(gè)相似詞,由于詞綴對(duì)其語義有很大影響的,因此語義類指定模塊將Bpl5作為未知詞 “攝像機(jī)”的語義類。
實(shí)施例2
圖3的過程開始于步驟301,針對(duì)字典中的每個(gè)詞根A,收集其所有包含A的相似詞,這里根據(jù)本發(fā)明實(shí)施例,判斷它們是否是由內(nèi)容部分?jǐn)U展而來,若不是則按第一方法確定未知詞的語義類,若是,則根據(jù)同義詞詞林查找它們內(nèi)容部分的語義類,進(jìn)而確定該未知詞的語義類。舉例來說,對(duì)于一未知詞“椅子”,從相似詞集合301中查找具有相同詞綴的詞 (例如,帶子,鏡子等)存儲(chǔ)在相似詞存儲(chǔ)模塊中,由不同部分識(shí)別模塊移除他們的相同部分“子”,并在內(nèi)容存儲(chǔ)模塊中以[帶子,椅,帶],[鏡子,椅,鏡]的形式存儲(chǔ)。假定在同義詞林字典中,C(椅)=8 26,((帶子)=C(帶)=8 25,((鏡子)=C(鏡)=BpOl,其中,Bp26,Bp25, BpOl為詞林中所定義的語義類。對(duì)于相似詞wr = “帶子”,由于C(帶子) =C(帶),詞綴“子”被認(rèn)為是詞綴而存儲(chǔ)在詞綴存儲(chǔ)單元中。同時(shí),將未知詞“椅子”的相同詞綴“子”移除,并將“椅”存儲(chǔ)在內(nèi)容模塊中,由于C(椅)=Bp26,在加分模塊中為Bp26 的分值加I。對(duì)于相似詞wr = “鏡子”,也將其詞綴“子”去掉,由加分模塊為Bp26的分值加I。假設(shè)未知詞“椅子”只有相似詞“帶子”和“鏡子”,由上述分析可將Bp26作為“椅子” 的語義類。
實(shí)施例3
圖4的過程開始于步驟401,針對(duì)字典中的每個(gè)詞根A,收集其所有包含A的相似詞,這里根據(jù)本發(fā)明實(shí)施例,判斷其是否由內(nèi)容部分?jǐn)U展而來,若是則按第二方法計(jì)算它們內(nèi)容部分的相似度;若否,則由相似度計(jì)算模塊405計(jì)算它們內(nèi)容部分的相似度,并由語義類判別模塊406、407判斷該未知詞的語義類。舉例來說,對(duì)于一未知詞“廚子”,從存儲(chǔ)字典中查找具有相同詞綴的詞(例如,帶子,廚師等)存儲(chǔ)在相似詞存儲(chǔ)模塊中,由不同部分識(shí)別模塊移除他們相同的詞綴,并以[wr, parti, part2]的形式存儲(chǔ)在內(nèi)容模塊中,例如, [帶子,廚,帶],[廚師,子,師]等。假定在同義詞林字典中,C(廚)=Bn03,C(廚師)= Ae04,C(帶子)=C(帶)=Bp25,C(子)=A101,C(師)=A102,其中 Bn03,Ae04,Bp25, A101,A102為詞林中所定義的語義類。對(duì)于相似詞“帶子”,由于C(帶子)=以帶),詞綴 “子”被認(rèn)為是詞綴存儲(chǔ)在詞綴存儲(chǔ)模塊中。同時(shí),移除未知詞“廚子”中相同的詞綴“子”, 并將其內(nèi)容部分“廚”存放在不同模塊存儲(chǔ)單元中。由于C(廚)=Bn03,由相似度計(jì)算模塊計(jì)算其內(nèi)容部分的相似度S(廚,帶)=S(Bn03,Bp25) = O. 4,在加分模塊中,將O. 4加在語義類Bn03的score上;對(duì)于相似詞“廚師”,其與未知詞不同部分的相似度S (子,師) =S(A101,A102) = O. 9,在加分模塊中,將O. 9加在語義類Ae04的score上。由于O. 9 > O. 4,假設(shè)未知詞“廚子”只有相似詞“帶子”和“廚師”,由上述分析可將Ae04作為“廚子” 的語義類。另外,若設(shè)定閾值T = O. 5,則表示只有當(dāng)相似度超過O. 5時(shí)才加入其語義類的 score上,而此時(shí)S(Bn03,Bp25) = O. 4,則不必將O. 4加在Bn03的score上,因此語義類排序模塊仍將Ae04作為未知詞“廚子”的語義類。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,本發(fā)明的保護(hù)范圍不限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),可顯而易見地得到的技術(shù)方案的簡(jiǎn)單變化或等效替換均落入本發(fā)明的保護(hù)范圍內(nèi)。
權(quán)利要求
1.一種基于詞綴的用于對(duì)未知詞進(jìn)行語義分類的方法,其特征在于,包括以下步驟 對(duì)于用戶輸入的任一未知詞W = AB,針對(duì)其詞根A或B,在字典中查找與其具有相同詞根的詞作為該未知詞的相似詞,分析各個(gè)相似詞的構(gòu)詞方式,對(duì)于不是有內(nèi)容部分?jǐn)U展而來的情況,根據(jù)同義詞詞林字典分析各個(gè)相似詞的內(nèi)容部分與該未知詞的內(nèi)容部分的相似度,將相似度為I的內(nèi)容部分的相似詞作為該未知詞的語義類;對(duì)于各相似詞是由其內(nèi)容部分?jǐn)U展而來的情況,認(rèn)為該未知詞也是由其內(nèi)容部分?jǐn)U展而來,此時(shí)只需要在同義詞詞林字典中查找出其內(nèi)容部分的語義類,進(jìn)而,將該語義類作為該未知詞的語義類;對(duì)于詞綴對(duì)其語義有較大影響的情況,根據(jù)同義詞詞林字典分別計(jì)算該未知詞的內(nèi)容部分與各相似詞內(nèi)容部分的語義類的相似度,并設(shè)定閾值,若其相似度大于該閾值則將其疊加在該相似詞的內(nèi)容部分的語義類的值上,篩選出語義類值最大的相似詞的語義類作為該未知詞的語義類。
2.如權(quán)利要求I所述方法,其特征在于,完全基于未知詞的內(nèi)容部分與相似詞內(nèi)容部分的相似度,其詞綴部分對(duì)其語義類別沒有影響的情況。
3.如權(quán)利要求I所述方法,其特征在于,對(duì)于計(jì)算未知詞與相似詞的內(nèi)容部分的相似度,是完全基于相似詞詞林的語義類相似度計(jì)算的。
4.如權(quán)利要求I所述方法,其特征在于,對(duì)于未知詞的相似詞wr= AB,若C(wr)=C(B),其中CO表示該詞的語義類,此時(shí)A為相似詞wr和未知詞w的詞綴,在這種情況下,對(duì)于未知詞可以很確信的將C(B)作為它的語義類,即C(W) =C(B)0
全文摘要
本發(fā)明公開了一種基于詞綴的用于對(duì)未知詞進(jìn)行語義分類的方法,包括以下步驟對(duì)于用戶輸入的任一未知詞,針對(duì)其詞根,在字典中查找與其具有相同詞的詞作為該未知詞的相似詞,針對(duì)相似詞模塊中的未知詞的相似詞和該未知詞,將他們的相同部分和不同的部分分離出來,根據(jù)同義詞詞林字典的語義類得算法,計(jì)算出各個(gè)相似詞的內(nèi)容部分與該未知詞的內(nèi)容部分的相似度,由相似度排序模塊將計(jì)算模塊中的各個(gè)相似度按大小順序排列,最后得出該未知詞的語義類。該方法提高原有系統(tǒng)的分析精度,本發(fā)明尤其適用于對(duì)漢語未知詞的分析,根據(jù)本發(fā)明實(shí)現(xiàn)的未知詞語義分類系統(tǒng)獲得了良好的分析效果。
文檔編號(hào)G06F17/27GK102929858SQ201210361150
公開日2013年2月13日 申請(qǐng)日期2012年9月25日 優(yōu)先權(quán)日2012年9月25日
發(fā)明者強(qiáng)彥, 韓曉紅, 路景貴, 趙涓涓, 裴博, 劉濤 申請(qǐng)人:太原理工大學(xué)