一種詞匯語義相關(guān)度的計算方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于語言技術(shù)領(lǐng)域,涉及一種詞匯語義相關(guān)度的計算方法。
【背景技術(shù)】
[0002] 詞匯的語義計算是中文信息處理領(lǐng)域的重要問題之一,目前的研究主要針對詞匯 語義的相似度計算方面,對詞匯語義的相關(guān)度計算方法研究不夠。為此,本文以《知網(wǎng)》中 概念之間以及概念的屬性之間的語義關(guān)系和大規(guī)模語料中統(tǒng)計出的詞語依存關(guān)系為基礎(chǔ), 構(gòu)建了一張語義關(guān)系圖。然后,將此語義關(guān)系圖與圖理論的相關(guān)知識相結(jié)合,提出了一個基 于語義關(guān)系圖的詞匯語義相關(guān)度計算方法。實驗結(jié)果表明,該方法在語義相關(guān)度計算方面 效果較好,得到的語義相關(guān)度結(jié)果較為合理。
[0003]目前,對于語義相關(guān)度的評價方法主要分為兩種:基于統(tǒng)計的方法和基于語義詞 典的方法?;诮y(tǒng)計的方法是建立在"兩個詞語經(jīng)常同時出現(xiàn),則這兩個詞語往往相關(guān)"這 一假設(shè)的基礎(chǔ)之上,這種方法主要利用文檔集中詞語間共現(xiàn)性的統(tǒng)計數(shù)據(jù)來確定詞語間的 相關(guān)度,但是這種方法只是利用文檔中包含的內(nèi)容信息,而忽略了詞語之間的具體關(guān)系以 及關(guān)聯(lián)的語義依據(jù),并且當(dāng)統(tǒng)計樣本不足時,其計算結(jié)果就會出現(xiàn)較大誤差。而基于語義詞 典的方法是依據(jù)已有的詞典,如WordNet、HowNet等知識體系來計算詞語在語義上的相關(guān) 程度,對詞匯語義的相關(guān)度計算方法研究不夠。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于提供一種詞匯語義相關(guān)度的計算方法,解決了目前的研究主要 針對詞匯語義的相似度計算方面,對詞匯語義的相關(guān)度計算方法研究不夠的問題。
[0005] 本發(fā)明所采用的技術(shù)方案是:
[0006] 步驟1:語義關(guān)系圖的構(gòu)建:
[0007] 1)根據(jù)《知網(wǎng)》中詞語的語義信息以及知網(wǎng)對詞語語義的表示特點,提取出知網(wǎng)中 的語義關(guān)系,構(gòu)建出了基于知網(wǎng)的語義關(guān)系圖;語義關(guān)系圖由表示語義的節(jié)點和表示語義 節(jié)點間關(guān)系的邊組成,整個語義關(guān)系圖以邊為單位采用三元組的方式存儲,每一個語義關(guān) 系三元組作為一個存儲記錄;
[0008] 2)《知網(wǎng)》中的語義關(guān)系提?。?br>[0009]設(shè){sl:rl= {s2:r2 = {s3}}},每一對括號所包括的部分都是一個概念,其中sl, s2,s3是義原;rl,r2是關(guān)系詞,rl是表示si和{s2:r2 = {s3}}之間關(guān)系的關(guān)系詞,r2是 表示s2和{s3}之間關(guān)系的關(guān)系詞;
[0010] (1)如果關(guān)系詞后面所連接的概念只是一個義原,則直接提取語義關(guān)系;
[0011] (2)如果關(guān)系詞后面所連接的概念不只是一個義原,而是多個義原,這時需要考察 關(guān)系詞后面所連接的概念是否可以用某個義項表示,若可以用特定義項表示,則提取語義 關(guān)系,否則,不提取該關(guān)系詞的語義關(guān)系;
[0012] (3)如果關(guān)系詞所在的整個概念可用某個義項表示時,則將關(guān)系詞前面的義原替 換為該義項并提取語義關(guān)系;
[0013] (4)對于每個義項都提取該義項與其第一基本義原的語義關(guān)系;
[0014] (5)反義、對義、同義關(guān)系的提取,這三種關(guān)系可從《知網(wǎng)》的Antonymset、 ConverseSet、SynsetSet、TaxonomyAntonym、TaxonomyConverse文件中直接提?。?br>[0015] 3)將中文詞相同且概念描述也相同的但編號不同的概念進(jìn)行合并,并重新為其編 號,然后再提取語義關(guān)系構(gòu)建語義關(guān)系圖,提取出《知網(wǎng)》中存在的語義關(guān)系后,這些關(guān)系互 相關(guān)聯(lián)后則形成了一張網(wǎng),稱之為基于《知網(wǎng)》構(gòu)建的語義關(guān)系圖;
[0016] 步驟2:語義關(guān)系圖的擴(kuò)展;采用哈爾濱工業(yè)大學(xué)所作的依存句法分析器,對來自 于人民日報的語料進(jìn)行句法分析,從中提取出具有依存關(guān)系的詞語搭配對,每一個詞語搭 配對與它們的依存關(guān)系則構(gòu)成了一個語義關(guān)系三元組,將這些語義關(guān)系三元組加入到基于 《知網(wǎng)》構(gòu)建的語義關(guān)系圖中;
[0017]步驟3:詞語相關(guān)度計算;在給定兩個詞語后,通過遍歷語義關(guān)系圖,得到這兩個 詞語的語義連通路徑數(shù)N和每條連通路徑的長度Li,在計算中不考慮連通路徑中長度大于 等于6的路徑,并且為連通路徑長為1~5的路徑分別賦予系數(shù)0k(1 <k< 5 < 5),得到 每條路徑的帶權(quán)長度為PkLi,其中,kG[1,5],iG[1,N];
[0018]
[0019]
[0020] 當(dāng)兩個詞語在語義關(guān)系圖中存在長度小于6的語義連通路徑時,它們的相關(guān)度 為:
[0021]
[0022] 基于語義關(guān)系圖的詞語相關(guān)度計算的算法描述如下:
[0023]Stepl.計算兩個實體結(jié)點A和B在語義關(guān)系圖中的連通路徑數(shù)N,和每條連通路 徑的長度Li,若N>0,則轉(zhuǎn)到Step2 ;否則,轉(zhuǎn)到Step3 ;
[0024]St印2?利用公式(3)計算A與B的相關(guān)度Rel(A,B),轉(zhuǎn)St印8;
[0025]Step3?查找結(jié)點A在連通路徑長為5以內(nèi)的連通路徑上的所有結(jié)點,這些結(jié)點組 合為集合U;
[0026]Step4.計算結(jié)點B與集合U中每個元素結(jié)點的相似度,并標(biāo)記相似度最大的結(jié)點 C及其相似度的值Sim,若Sim>0. 85,則轉(zhuǎn)到step5,否則,轉(zhuǎn)到Step6;
[0027]Step5?重復(fù)步驟1和步驟2,利用公式(3)計算A與C的相關(guān)度Rel(A,C),并計算 SimXRel(A,C)3BSReli(A,B),(i=l,2);
[0028]Step6?結(jié)點A和B角色互換,采用同樣的方法,重復(fù)步驟3至步驟5;
[0029]Step7?計算A與B的相關(guān)度Rel(A,B)= MaxReli(A,B),(i=0, 1,2),轉(zhuǎn)Step8;
[0030]St印8.結(jié)束。
[0031]進(jìn)一步,所述步驟2中語義關(guān)系圖的擴(kuò)展方法為:
[0032] (1)依次對人民日報語料中的每一句話進(jìn)行依存句法分析,得到每一句話的依存 句法樹;
[0033] (2)根據(jù)每一棵依存句法樹中的詞語依存信息,從中提取出實詞依存搭配對,并統(tǒng) 計其出現(xiàn)的頻次;
[0034] (3)為每個依存搭配對中的兩個詞語間的語義關(guān)系賦予一個關(guān)系詞,這樣每個搭 配對及其關(guān)系詞則構(gòu)成一個語義關(guān)系三元組;
[0035] (4)依次將頻次大于閾值的語義關(guān)系三元組加入到基于《知網(wǎng)》構(gòu)建的語義關(guān)系圖 中。
[0036] 本發(fā)明的有益效果是在語義關(guān)系圖的基礎(chǔ)上,將圖理論知識與語義關(guān)系圖中的信 息相結(jié)合,提出了一種基于語義關(guān)系圖的詞匯語義相關(guān)度計算方法,并通過實驗驗證了該 方法是有效可行的。
【附圖說明】
[0037] 圖1是拳臺的概念樹示意圖;
[0038] 圖2是結(jié)點A和B的連通路徑有2條示意圖;
[0039] 圖3是結(jié)點A和B的連通路徑有3條示意圖;
[0040] 圖4是結(jié)點A和C的連通路徑有1條,長度為2示意圖;
[0041] 圖5是結(jié)點A和C的連通路徑也有1條,長度為1示意圖。
【具體實施方式】
[0042] 下面結(jié)合【具體實施方式】對本發(fā)明進(jìn)行詳細(xì)說明。
[0043] 本發(fā)明詞匯語義相關(guān)度的計算方法采用的技術(shù)方案如下:
[0044] 步驟1 :語義關(guān)系圖的構(gòu)建;首先分析研究了《知網(wǎng)》對詞語語義的表示方式,根據(jù) 《知網(wǎng)》中詞語的語義信息以及知網(wǎng)對詞語語義的表示特點,提取出知網(wǎng)中的語義關(guān)系,構(gòu) 建出了基于知網(wǎng)的語義關(guān)系圖;
[0045] 本發(fā)明所構(gòu)建的語義關(guān)系圖由表示語義的節(jié)點和表示語義節(jié)點間關(guān)系的邊組成, 整個語義關(guān)系圖以邊為單位采用三元組的方式存儲,也就是每一個語義關(guān)系三元組(結(jié)點 1,結(jié)點2,語義關(guān)系)作為一個存儲記錄。采用這樣的存儲方式便于對已構(gòu)建好的語義關(guān)系 圖進(jìn)行擴(kuò)展,在擴(kuò)展時只要將新的語義關(guān)系三元組加入圖中即可達(dá)到擴(kuò)展語義關(guān)系圖的目 的。
[0046] 《知網(wǎng)》中的語義關(guān)系:《知網(wǎng)》是一個以英漢雙語所代表的概念以及概念的特征 為基礎(chǔ)的,以揭示概念與概念所具有的特性之間的關(guān)系為基礎(chǔ)內(nèi)容的常識知識庫。通過對 《知網(wǎng)》詞典中概念表示方法的研究,我們發(fā)現(xiàn)《知網(wǎng)》按照KDML的規(guī)范描述概念時,對概念 采用嵌套式的結(jié)構(gòu)表示,也就是,一個復(fù)雜的概念用較簡單的概念進(jìn)行解釋,較簡單的概念 再用更簡單的概念解釋,直到用義原表示出來。這種結(jié)構(gòu)是一種隱含的樹結(jié)構(gòu),稱之為概念 樹。如下面的例子:W_C=拳臺
[0047] DEF={facilities| 設(shè)施:domain={boxing| 拳擊},{compete| 比賽:location ={~}},{exercise| 鍛煉:location= {~}}}
[0048] 在這個概念描述中,KDML表示了這樣的含義:拳臺是一個設(shè)施,這個設(shè)施所屬的 領(lǐng)域