專(zhuān)利名稱(chēng):基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種概念相關(guān)度計(jì)算方法,尤其涉及一種基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法,屬于語(yǔ)義網(wǎng)絡(luò)技術(shù)領(lǐng)域。
背景技術(shù):
在自然語(yǔ)言世界中,概念是對(duì)客觀實(shí)體的抽象描述。不同概念間相互關(guān)聯(lián)衍生出繽紛復(fù)雜的語(yǔ)義關(guān)系,構(gòu)成自然語(yǔ)言世界的基礎(chǔ)。為適應(yīng)語(yǔ)義推理和智能化服務(wù)的需求,語(yǔ)義Web為代表的下一代信息互聯(lián)網(wǎng)絡(luò),試圖在任何微小數(shù)據(jù)間構(gòu)建連接,而概念關(guān)系正是構(gòu)建語(yǔ)義網(wǎng)絡(luò)的基礎(chǔ)。此外,概念關(guān)系抽取在信息檢索、自動(dòng)問(wèn)答、機(jī)器翻譯等領(lǐng)域也都有著廣泛應(yīng)用。在實(shí)踐中,不同概念之間的關(guān)系可以簡(jiǎn)單歸納為四種類(lèi)屬關(guān)系,屬值關(guān)系,上下文共現(xiàn)和解釋關(guān)系。其中解釋關(guān)系是指如果詞條b在詞條a正文中具有說(shuō)明意義的出現(xiàn),則稱(chēng)詞條b解釋詞條a,詞條a被詞條b解釋?zhuān)琣為解釋關(guān)系的主體,b為解釋關(guān)系的客體。在本發(fā)明中,使用標(biāo)記explain(b, a)代表b解釋a的解釋關(guān)系。上述“解釋關(guān)系”是包含語(yǔ)義的。不同的概念被不同的概念集合解釋?zhuān)沁@些概念集合又是有交集的,這就為通過(guò)解釋關(guān)系窺探概念的相關(guān)度構(gòu)造了可行的渠道,即比較解釋關(guān)系的集合在代數(shù)意義上的相似。解釋關(guān)系和被解釋關(guān)系都是一種語(yǔ)義元素重合的表現(xiàn)。語(yǔ)義元素的重合是沒(méi)有方向性的,因此一般認(rèn)為解釋關(guān)系的語(yǔ)義特征不具有方向性?!敖忉岅P(guān)系”將語(yǔ)義相關(guān)轉(zhuǎn)化為代數(shù)意義的相似是當(dāng)前很多計(jì)算概念相關(guān)度算法的基礎(chǔ)。例如,雅虎研究院的EvgeniyGabrilovic h博士于2007年提出ESA算法用于計(jì)算概念相關(guān)度,取得了突破性的效果。ESA算法在概念的解釋集合上進(jìn)行TF-IDF(詞頻-逆向文件頻率)權(quán)重計(jì)算,使用計(jì)算得到的權(quán)重組成的向量表征概念,通過(guò)計(jì)算向量距離來(lái)求得概念相關(guān)度。在現(xiàn)有技術(shù)中,通常采用正向構(gòu)造法和逆向構(gòu)造法構(gòu)造語(yǔ)義特征向量,進(jìn)而通過(guò)數(shù)學(xué)中量化向量距離的方法計(jì)算概念相關(guān)度。所謂正向構(gòu)造法是通過(guò)與詞條概念具有被解釋關(guān)系的概念集合,即詞條概念的被解釋集,構(gòu)造語(yǔ)義特征向量的方法。例如將每一個(gè)概念視作語(yǔ)義空間中的一個(gè)維度,每篇由概念組成的百科全書(shū)正文就映射為語(yǔ)義空間中的一個(gè)向量,此向量就是百科全書(shū)正文對(duì)應(yīng)詞條概念的語(yǔ)義特征向量。正向構(gòu)造法直觀容易理解,構(gòu)造方便。但是,不同的詞條概念正文論述詳細(xì)程度差別很大,論述過(guò)于詳細(xì)的詞條概念容易引入噪音維度,論述過(guò)于簡(jiǎn)略的詞條概念會(huì)出現(xiàn)維度缺失。同正向構(gòu)造法相似,逆向構(gòu)造法是將概念集合中的一個(gè)概念視為語(yǔ)義空間中的一個(gè)維度。不同的是,正向構(gòu)造法使用概念的被解釋集構(gòu)造特征向量,而逆向構(gòu)造法則使用概念的解釋集構(gòu)造語(yǔ)義特征向量。上述的ESA算法就使用了逆向構(gòu)建詞語(yǔ)特征向量的方法,取得了不錯(cuò)的效果。但是,逆向構(gòu)造法仍然存在若干缺點(diǎn)。例如,百科全書(shū)中存在大量詞條并不解釋其他概念。對(duì)于這類(lèi)詞條,無(wú)法使用逆向構(gòu)造法進(jìn)行語(yǔ)義特征向量進(jìn)行表征。在專(zhuān)利號(hào)為ZL200810223792. 3的中國(guó)發(fā)明專(zhuān)利中,中國(guó)科學(xué)院計(jì)算技術(shù)研究所、提出了一種分類(lèi)目錄自動(dòng)構(gòu)建方法,包括步驟I)查找與用戶提交的查詢?cè)~有關(guān)的概念術(shù)語(yǔ),得到與所述查詢?cè)~相關(guān)的概念術(shù)語(yǔ)集合;步驟2)計(jì)算所述概念術(shù)語(yǔ)集合中各個(gè)概念術(shù)語(yǔ)間的相關(guān)度;步驟3)根據(jù)所述概念術(shù)語(yǔ)間的相關(guān)度,對(duì)所述概念術(shù)語(yǔ)集合中的概念術(shù)語(yǔ)做分類(lèi)或聚類(lèi)操作,得到至少一個(gè)概念術(shù)語(yǔ)類(lèi);步驟4)將所述概念術(shù)語(yǔ)集合中的概念術(shù)語(yǔ)按照所述概念術(shù)語(yǔ)類(lèi)組織成分類(lèi)目錄。該技術(shù)方案所涉及的概念相關(guān)度計(jì)算方法包括計(jì)算兩個(gè)術(shù)語(yǔ)在同一文本內(nèi)容中的共同出現(xiàn)次數(shù)的方法、計(jì)算兩個(gè)術(shù)語(yǔ)間的互信息的方法、計(jì)算兩個(gè)術(shù)語(yǔ)在詞典或人工目錄中的距離的方法、傳統(tǒng)信息檢索中計(jì)算文本間距離的計(jì)算方法等。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題在于提供一種基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法。該方法可以較為準(zhǔn)確地度量不同概念之間的關(guān)系,有利于概念關(guān)系的發(fā)現(xiàn)。為實(shí)現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案一種基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法,其特征在于包括如下步驟(I)基于解釋關(guān)系構(gòu)造概念語(yǔ)義特征向量基于解釋關(guān)系的語(yǔ)義特征方向無(wú)關(guān)性,將概念的解釋集和被解釋集同等視作表現(xiàn)語(yǔ)義,進(jìn)而構(gòu)造語(yǔ)義特征向量;(2)實(shí)現(xiàn)語(yǔ)義特征賦權(quán)和特征降維首先使用優(yōu)化后的逆文檔頻率代替逆文檔頻率進(jìn)行語(yǔ)義特征賦權(quán),優(yōu)化后的逆文檔頻率使用odf表示,計(jì)算公式如下
(ηλOdfba=Iog -^*\D\其中,nba表示概念b在概念a百科文章中的出現(xiàn)頻率,TFb為概念b的解釋集詞頻和,D為百科語(yǔ)料庫(kù)中的概念總數(shù);接著使用帶監(jiān)督器的滑動(dòng)窗口進(jìn)行特征降維;(3)通過(guò)向量距離量化表征不同概念之間的相關(guān)度。其中較優(yōu)地,所述步驟(2)中采用下述的基于詞頻統(tǒng)計(jì)的解釋語(yǔ)義特征賦權(quán)計(jì)算公式weight。(exp lain(b, a)) = tfb a * odfb a =* log ^ * | Z) |其中weight (explain (b, a))表示概念b解釋概念a的情況下,概念b承載的語(yǔ)義特征權(quán)重,tfb,a表示概念b在概念a百科文章中的正規(guī)化頻率。其中較優(yōu)地,tfb,a通過(guò)如下公式進(jìn)行計(jì)算
^ _ nb,atKa - V
Luk k^a其中,nb,a表示概念b在概念a百科文章中的出現(xiàn)頻率,Σ knk,a為概念a百科文章中所有概念頻率之和。其中較優(yōu)地,所述步驟⑵中,TFb通過(guò)如下公式計(jì)算
權(quán)利要求
1.一種基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法,其特征在于包括如下步驟 (1)基于解釋關(guān)系構(gòu)造概念語(yǔ)義特征向量 基于解釋關(guān)系的語(yǔ)義特征方向無(wú)關(guān)性,將概念的解釋集和被解釋集同等視作表現(xiàn)語(yǔ)義,進(jìn)而構(gòu)造語(yǔ)義特征向量; (2)實(shí)現(xiàn)語(yǔ)義特征賦權(quán)和特征降維 首先使用優(yōu)化后的逆文檔頻率代替逆文檔頻率進(jìn)行語(yǔ)義特征賦權(quán),優(yōu)化后的逆文檔頻率使用odf表示,計(jì)算公式如下 odfba=\og[r^r*\D\ \^b J 其中,nb,a表示概念b在概念a百科文章中的出現(xiàn)頻率,TFb為概念b的解釋集詞頻和,D為百科語(yǔ)料庫(kù)中的概念總數(shù); 接著使用帶監(jiān)督器的滑動(dòng)窗口進(jìn)行特征降維; (3)通過(guò)向量距離量化表征不同概念之間的相關(guān)度。
2.如權(quán)利要求I所述的基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法,其特征在于 所述步驟(2)中,采用下述的基于詞頻統(tǒng)計(jì)的解釋語(yǔ)義特征賦權(quán)計(jì)算公式^eighta (exp lain(b, a)) = tfb a * odfb a = * log ^ * | D | Z a. 、TFb J 其中weight (explain (b, a))表示概念b解釋概念a的情況下,概念b承載的語(yǔ)義特征權(quán)重,tfb,a表示概念b在概念a百科文章中的正規(guī)化頻率。
3.如權(quán)利要求2所述的基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法,其特征在于 七4一通過(guò)如下公式進(jìn)行計(jì)算ff _ nb,aJb,a — X-' 其中,nb,a表示概念b在概念a百科文章中的出現(xiàn)頻率,E knk,a為概念a百科文章中所有概念頻率之和。
4.如權(quán)利要求I所述的基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法,其特征在于 所述步驟(2)中,TFb通過(guò)如下公式計(jì)算 TFb -hi—f'bl'k 其中,k為b解釋集中的概念元素,Oexplaining(b)為概念b的解釋集。
5.如權(quán)利要求I所述的基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法,其特征在于 所述步驟(2)中,將解釋關(guān)系在百科正文中不同位置的出現(xiàn)歸納為兩種亮點(diǎn)解釋和普通解釋?zhuān)粸榱咙c(diǎn)解釋和普通解釋賦予不同的權(quán)重。
6.如權(quán)利要求5所述的基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法,其特征在于 所述亮點(diǎn)解釋與所述普通解釋的權(quán)重之比為2. 5 I。
7.如權(quán)利要求I所述的基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法,其特征在于 所述步驟(2)中,特征降維采用如下步驟首先設(shè)定滑動(dòng)窗口大小,記為winLen,設(shè)定權(quán)重降幅閾值S,然后按照權(quán)重對(duì)向量特征進(jìn)行降序排列,將滑動(dòng)窗口從向量頭部向尾部滑動(dòng),若發(fā)現(xiàn)當(dāng)前滑動(dòng)窗口首末權(quán)重相差幅度超過(guò)S,則減去滑動(dòng)窗口之后的特征,否則窗口整體向尾部滑動(dòng)一個(gè)特征。
8.如權(quán)利要求I所述的基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法,其特征在于 如果概念原始特征數(shù)小于WinLen或者滑動(dòng)窗口已到達(dá)向量尾部,則無(wú)需降維。
9.如權(quán)利要求I所述的基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法,其特征在于所述步驟⑶中,采用余弦相似度或者馬氏距離度量向量距離。
全文摘要
本發(fā)明公開(kāi)了一種基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法,包括如下步驟(1)基于解釋關(guān)系構(gòu)造概念語(yǔ)義特征向量;(2)實(shí)現(xiàn)語(yǔ)義特征賦權(quán)和特征降維;(3)通過(guò)向量距離量化表征不同概念之間的相關(guān)度。通過(guò)實(shí)驗(yàn)比較,本發(fā)明所提供的基于表現(xiàn)語(yǔ)義分析的概念相關(guān)度計(jì)算方法明顯優(yōu)于現(xiàn)有的正向構(gòu)造法和逆向構(gòu)造法,而且該方法相比較基于明確語(yǔ)義分析的概念相關(guān)度計(jì)算更適用于概念關(guān)系的發(fā)現(xiàn)。
文檔編號(hào)G06F17/30GK102737112SQ20121012500
公開(kāi)日2012年10月17日 申請(qǐng)日期2012年4月25日 優(yōu)先權(quán)日2012年4月25日
發(fā)明者左源, 張輝, 胡紅萍, 馬永星 申請(qǐng)人:北京航空航天大學(xué)