一種基于語(yǔ)義空間映射的語(yǔ)義關(guān)系表征、聚類(lèi)及識(shí)別的方法和系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明屬于文本語(yǔ)義處理【技術(shù)領(lǐng)域】,具體為一種基于語(yǔ)義空間映射的語(yǔ)義關(guān)系表征、聚類(lèi)及識(shí)別的方法和系統(tǒng)。本發(fā)明對(duì)于待抽取關(guān)系的實(shí)體對(duì):首先對(duì)包含二者的語(yǔ)句進(jìn)行語(yǔ)法依存分析;然后將分析結(jié)果視作Graph,并計(jì)算Graph中對(duì)應(yīng)這兩個(gè)實(shí)體的結(jié)點(diǎn)間最短路徑,來(lái)抽取出實(shí)體間關(guān)系;繼而將路徑上的詞語(yǔ)向語(yǔ)義空間投影并進(jìn)行累積,獲得該關(guān)系在語(yǔ)義空間上的向量表示;對(duì)于多組實(shí)體對(duì)的場(chǎng)景,使用聚類(lèi)方法對(duì)關(guān)系進(jìn)行聚類(lèi)并構(gòu)建關(guān)系模型;依據(jù)表征輸入實(shí)體對(duì)間關(guān)系的語(yǔ)義向量與關(guān)系模型之間的語(yǔ)義相似度實(shí)現(xiàn)關(guān)系的識(shí)別。本發(fā)明克服了傳統(tǒng)方法在進(jìn)行實(shí)體間關(guān)系比較時(shí)對(duì)詞語(yǔ)變形、同義詞變化、語(yǔ)法形式變化等因素敏感的缺點(diǎn),提高了關(guān)系比較準(zhǔn)確性和處理的靈活性。
【專(zhuān)利說(shuō)明】一種基于語(yǔ)義空間映射的語(yǔ)義關(guān)系表征、聚類(lèi)及識(shí)別的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于文本語(yǔ)義信息處理【技術(shù)領(lǐng)域】,具體涉及一種基于語(yǔ)義空間映射的語(yǔ)義關(guān)系表征、聚類(lèi)及識(shí)別的方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)的普及與網(wǎng)絡(luò)技術(shù)的發(fā)展,各種海量的數(shù)據(jù)以電子文本的形式呈現(xiàn)出來(lái),如何從中抽取出用戶所關(guān)心的語(yǔ)義信息至關(guān)重要,除了實(shí)體抽取,用戶往往會(huì)更加關(guān)心實(shí)體間的語(yǔ)義關(guān)系究竟是什么,因?yàn)檎Z(yǔ)義關(guān)系才真正反映了數(shù)據(jù)互聯(lián)的本質(zhì),將紛繁的實(shí)體世界有機(jī)地結(jié)合在一起,它在諸多領(lǐng)域都具有重要的應(yīng)用價(jià)值:如在信息檢索系統(tǒng)中,實(shí)體關(guān)系抽取技術(shù)使實(shí)現(xiàn)類(lèi)似于“Which city is the capital of China”這樣的語(yǔ)義檢索功能成為可能;在自動(dòng)應(yīng)答系統(tǒng)中,實(shí)體關(guān)系抽取技術(shù)能夠自動(dòng)關(guān)聯(lián)問(wèn)題和相關(guān)的答案;在本體學(xué)習(xí)過(guò)程中,實(shí)體關(guān)系抽取技術(shù)能夠發(fā)現(xiàn)新的實(shí)體間關(guān)系并用來(lái)進(jìn)一步豐富本體結(jié)構(gòu);在語(yǔ)義網(wǎng)標(biāo)注任務(wù)中,關(guān)系抽取能夠自動(dòng)關(guān)聯(lián)語(yǔ)義網(wǎng)知識(shí)單元,等等。
[0003]然而,目前的實(shí)體關(guān)系抽取技術(shù)主要是基于種子模式迭代搜索的方法或者是基于自然語(yǔ)言處理的方法,它們最終抽取出的是一種確定性的關(guān)系描述,而這種確定性描述在詞語(yǔ)變形、同義詞變化、語(yǔ)法形式變化等情況下的魯棒性不強(qiáng),導(dǎo)致在此基礎(chǔ)上的關(guān)系間語(yǔ)義比較的準(zhǔn)確性不高,從而給后續(xù)的應(yīng)用需求如關(guān)系聚類(lèi)或識(shí)別帶來(lái)了困難。
【發(fā)明內(nèi)容】
[0004]本發(fā)明針對(duì)當(dāng)前實(shí)體間語(yǔ)義關(guān)系抽取技術(shù)背景的不足,提出了一種基于語(yǔ)義空間映射的語(yǔ)義關(guān)系表征、聚類(lèi)及識(shí)別的方法和系統(tǒng)。
[0005]本發(fā)明提出的基于語(yǔ)義空間映射的語(yǔ)義關(guān)系表征、聚類(lèi)及識(shí)別的方法,具體步驟為:
1、輸入實(shí)體對(duì)及語(yǔ)句,即輸入待查詢的實(shí)體對(duì),及同時(shí)包含該對(duì)實(shí)體的語(yǔ)句;
2、抽取實(shí)體間關(guān)系,對(duì)于待抽取關(guān)系的實(shí)體對(duì),對(duì)同時(shí)包含它們的語(yǔ)句進(jìn)行語(yǔ)法依存關(guān)系分析;包括語(yǔ)法依存關(guān)系分析和最短路徑計(jì)算;其中:
語(yǔ)法依存關(guān)系分析是對(duì)輸入的語(yǔ)句進(jìn)行語(yǔ)法依存分析,獲得文本單元間的語(yǔ)法依賴關(guān)
系O
[0006]最短路徑計(jì)算是將語(yǔ)法依存樹(shù)看作是一個(gè)Graph,并將輸入實(shí)體對(duì)看作是Graph中的兩個(gè)感興趣結(jié)點(diǎn),同時(shí)令各結(jié)點(diǎn)間的邊的權(quán)值均為I ;采用最短路徑算法求解出該兩個(gè)感興趣結(jié)點(diǎn)間的最短路徑,并用該路徑來(lái)描述兩個(gè)結(jié)點(diǎn)之間發(fā)生關(guān)系的實(shí)質(zhì)內(nèi)容;
3、關(guān)系語(yǔ)義向量表征,即對(duì)路徑上的詞語(yǔ)進(jìn)行過(guò)濾處理,去除其中無(wú)語(yǔ)義的停用詞;然后對(duì)每一個(gè)單詞,獲取其在語(yǔ)義空間中的投影向量,并將這些語(yǔ)義向量進(jìn)行累加,獲得該關(guān)系在語(yǔ)義空間上的向量表示;
4、關(guān)系聚類(lèi),在關(guān)系向量化的基礎(chǔ)上,對(duì)于多實(shí)體對(duì)的場(chǎng)景,使用聚類(lèi)方法并結(jié)合向量相似性度量,進(jìn)行關(guān)系聚類(lèi);
5、關(guān)系模型構(gòu)建模塊,對(duì)于完成聚類(lèi)的實(shí)體對(duì)的每一類(lèi)關(guān)系,根據(jù)其向量集合構(gòu)建關(guān)系豐吳型,
6、最后,進(jìn)行關(guān)系識(shí)別,即依據(jù)該向量與預(yù)先標(biāo)定關(guān)系的語(yǔ)義距離實(shí)現(xiàn)關(guān)系的識(shí)別。
[0007]具體是,對(duì)于待查詢實(shí)體對(duì),在按步驟(O- ( 3)所述獲得其關(guān)系向量表征后,將該向量與關(guān)系模型庫(kù)中的關(guān)系模型依次進(jìn)行比較,例如:對(duì)均值向量模型、高斯模型,可直接比較向量間相似度或者是計(jì)算輸入向量屬于模型的概率值,遍歷后取最高值對(duì)應(yīng)的類(lèi)別作為輸出;對(duì)人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī),則是直接輸出對(duì)應(yīng)的類(lèi)別。
[0008]根據(jù)上述輸出的類(lèi)別,從關(guān)系模型庫(kù)中取出預(yù)先標(biāo)注的相應(yīng)類(lèi)的關(guān)系標(biāo)簽賦給輸入實(shí)體對(duì),從而完成了關(guān)系的識(shí)別過(guò)程。
[0009]本發(fā)明提供的基于上述方法的系統(tǒng),由六大模塊組成:實(shí)體對(duì)及語(yǔ)句輸入模塊、實(shí)體間關(guān)系抽取模塊、關(guān)系語(yǔ)義向量表征模塊、關(guān)系聚類(lèi)模塊、關(guān)系模型構(gòu)建模塊、關(guān)系識(shí)別模塊,其中,實(shí)體間關(guān)系抽取模塊又包括兩個(gè)子模塊:語(yǔ)法依存關(guān)系分析子模塊和最短路徑計(jì)算子模塊。
[0010]其具體內(nèi)容如下:
(I)實(shí)體對(duì)及語(yǔ)句輸入模塊,用于輸入待查詢的實(shí)體對(duì),及同時(shí)包含該對(duì)實(shí)體的語(yǔ)句;所述語(yǔ)句既可以是單句,也可以是從語(yǔ)句資源庫(kù)中篩選出的滿足條件的多句。
[0011](2)實(shí)體間關(guān)系抽取模塊,具體包括以下兩個(gè)子模塊:
語(yǔ)法依存關(guān)系分析子模塊和最短路徑計(jì)算子模塊:
(2.1)語(yǔ)法依存關(guān)系分析子模塊,用于對(duì)輸入的語(yǔ)句進(jìn)行語(yǔ)法依存分析,獲得文本單元間的語(yǔ)法依賴關(guān)系。這里,凡是具備語(yǔ)法依存分析功能的工具均可使用,優(yōu)選地,可使用美國(guó)斯坦福大學(xué)的 Stanford Parser (http://nlp.Stanford, edu/software/index, shtml);(2.2)最短路徑計(jì)算子模塊,具體內(nèi)容如下:
(2.2.1)將語(yǔ)法依存樹(shù)看作是一個(gè)Graph,并將輸入實(shí)體對(duì)看作是Graph中的兩個(gè)感興趣結(jié)點(diǎn),同時(shí)令各結(jié)點(diǎn)間的邊的權(quán)值均為I ;
(2.2.2)采用最短路徑算法求解出該兩個(gè)感興趣結(jié)點(diǎn)間的最短路徑,并用該路徑來(lái)描述兩個(gè)結(jié)點(diǎn)之間發(fā)生關(guān)系的實(shí)質(zhì)內(nèi)容;這里,最短路徑求解算法有多種,如Dijkstra算法、A* 算法、Floyd 算法、Bellman-Ford 算法、SPFA (Shortest Path Faster Algorithm)算法、Johnson算法等,優(yōu)選地,采用Dijkstra算法。
[0012](3)關(guān)系語(yǔ)義向量表征模塊,具體內(nèi)容如下:
(3.1)對(duì)路徑上的詞語(yǔ)進(jìn)行過(guò)濾處理,去除其中無(wú)語(yǔ)義的停用詞;
(3.2)對(duì)每一個(gè)單詞,獲取其在語(yǔ)義空間中的投影向量,并將這些語(yǔ)義向量進(jìn)行累加。語(yǔ)義向量可通過(guò)多種方法計(jì)算獲得,如Word2Vec方法、ESA (Explicit semantic analysis)方法、LSA (Latent sem antic analysis)方法、共現(xiàn)詞頻率特征等等,優(yōu)選地,采用Word2Vec方法(https://code.google.com/p/word2vec/,同時(shí)參見(jiàn)文獻(xiàn)[I, 2, 3]);
[1]Tomas Mikolov, et al.Efficient Estimation of Word Representations in VectorSpace.1n Proceedings of Workshop at ICLR, 2013.[2]Tomas Mikolov, et al.Distributed Representations of Words and Phrases andtheir Compositionality.1n Proceedings of NIPS, 2013.[3]Tomas Mikolov, et al.Linguistic Regularities in Continuous Space WordRepresentations.1n Proceedings of NAACL HLT,2013.構(gòu)建語(yǔ)義向量的訓(xùn)練數(shù)據(jù)可來(lái)源于各大知識(shí)庫(kù),優(yōu)選地,采用維基百科知識(shí)庫(kù)(http://www.wikipedia.0rg/)。
[0013](4)關(guān)系聚類(lèi)模塊,具體內(nèi)容如下:
關(guān)系聚類(lèi)是在關(guān)系抽取基礎(chǔ)上的進(jìn)一步語(yǔ)義挖掘;
(4.1)對(duì)于一批實(shí)體對(duì),按前述方法分別計(jì)算得到各自的關(guān)系向量;
(4.2)在此基礎(chǔ)上,進(jìn)一步地對(duì)它們進(jìn)行關(guān)系聚類(lèi)。聚類(lèi)方法有多種,如Kmeans方法、層次聚類(lèi)方法等,優(yōu)選地,采用Kmeans方法。相似性度量可采用多種度量,如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowsk1、Chebychev 等,優(yōu)選地,米用 Cosine 相似度。
[0014](5)關(guān)系模型構(gòu)建模塊,具體內(nèi)容如下:
對(duì)于完成聚類(lèi)的實(shí)體對(duì)的每一類(lèi)關(guān)系,根據(jù)其向量集合構(gòu)建關(guān)系模型,模型的構(gòu)建可使用多種方法,如均值向量模型、高斯模型、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等,優(yōu)選地,使用均值向量模型;同時(shí),人工為每一類(lèi)關(guān)系標(biāo)定出其對(duì)應(yīng)的關(guān)系標(biāo)簽;
【權(quán)利要求】
1.一種基于語(yǔ)義空間映射的語(yǔ)義關(guān)系表征、聚類(lèi)及識(shí)別的方法,其特征在于具體步驟如下: (1)輸入實(shí)體對(duì)及語(yǔ)句,即輸入待查詢的實(shí)體對(duì),及同時(shí)包含該對(duì)實(shí)體的語(yǔ)句; (2)抽取實(shí)體間關(guān)系,即對(duì)于待抽取關(guān)系的實(shí)體對(duì),對(duì)同時(shí)包含它們的語(yǔ)句進(jìn)行語(yǔ)法依存關(guān)系分析;包括語(yǔ)法依存關(guān)系分析和最短路徑計(jì)算;其中: 語(yǔ)法依存關(guān)系分析是對(duì)輸入的語(yǔ)句進(jìn)行語(yǔ)法依存分析,獲得文本單元間的語(yǔ)法依賴關(guān)系; 最短路徑計(jì)算是將語(yǔ)法依存樹(shù)看作是一個(gè)Graph,并將輸入實(shí)體對(duì)看作是Graph中的兩個(gè)感興趣結(jié)點(diǎn),同時(shí)令各結(jié)點(diǎn)間的邊的權(quán)值均為I ;采用最短路徑算法求解出該兩個(gè)感興趣結(jié)點(diǎn)間的最短路徑,并用該路徑來(lái)描述兩個(gè)結(jié)點(diǎn)之間發(fā)生關(guān)系的實(shí)質(zhì)內(nèi)容; (3)關(guān)系語(yǔ)義向量表征,即對(duì)路徑上的詞語(yǔ)進(jìn)行過(guò)濾處理,去除其中無(wú)語(yǔ)義的停用詞;然后對(duì)每一個(gè)單詞,獲取其在語(yǔ)義空間中的投影向量,并將這些語(yǔ)義向量進(jìn)行累加,獲得該關(guān)系在語(yǔ)義空間上的向量表示; (4)關(guān)系聚類(lèi), 在關(guān)系向量化的基礎(chǔ)上,對(duì)于多實(shí)體對(duì)的場(chǎng)景,使用聚類(lèi)方法并結(jié)合向量相似性度量,進(jìn)行關(guān)系聚類(lèi); (5)關(guān)系模型構(gòu)建模塊,對(duì)于完成聚類(lèi)的實(shí)體對(duì)的每一類(lèi)關(guān)系,根據(jù)其向量集合構(gòu)建關(guān)系豐吳型, (6)最后,進(jìn)行關(guān)系識(shí)別,即依據(jù)該向量與預(yù)先標(biāo)定關(guān)系的語(yǔ)義距離實(shí)現(xiàn)關(guān)系的識(shí)別。
2.根據(jù)權(quán)利要求1所述的基于語(yǔ)義空間映射的語(yǔ)義關(guān)系表征、聚類(lèi)及識(shí)別的方法,其特征在于所述依據(jù)該向量與預(yù)先標(biāo)定關(guān)系的語(yǔ)義距離實(shí)現(xiàn)關(guān)系的識(shí)別,是對(duì)于待查詢實(shí)體對(duì),在按步驟(1) - (3)所述獲得其關(guān)系向量表征后,將該向量與關(guān)系模型庫(kù)中的關(guān)系模型依次進(jìn)行比較;對(duì)均值向量模型、高斯模型,直接比較向量間相似度或者是計(jì)算輸入向量屬于模型的概率值,遍歷后取最高值對(duì)應(yīng)的類(lèi)別作為輸出;對(duì)人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī),則是直接輸出對(duì)應(yīng)的類(lèi)別; 根據(jù)上述輸出的類(lèi)別,從關(guān)系模型庫(kù)中取出預(yù)先標(biāo)注的相應(yīng)類(lèi)的關(guān)系標(biāo)簽賦給輸入實(shí)體對(duì),從而完成了關(guān)系的識(shí)別過(guò)程。
3.基于權(quán)利要求2所述方法的基于語(yǔ)義空間映射的語(yǔ)義關(guān)系表征、聚類(lèi)及識(shí)別的系統(tǒng),其特征在于由下述六大模塊組成:實(shí)體對(duì)及語(yǔ)句輸入模塊、實(shí)體間關(guān)系抽取模塊、關(guān)系語(yǔ)義向量表征模塊、關(guān)系聚類(lèi)模塊、關(guān)系模型構(gòu)建模塊、關(guān)系識(shí)別模塊,其中: (O實(shí)體對(duì)及語(yǔ)句輸入模塊,用于輸入待查詢的實(shí)體對(duì),及同時(shí)包含該對(duì)實(shí)體的語(yǔ)句;所述語(yǔ)句是單句,或者是從語(yǔ)句資源庫(kù)中篩選出的滿足條件的多句; (2)實(shí)體間關(guān)系抽取模塊,具體包括以下兩個(gè)子模塊: 語(yǔ)法依存關(guān)系分析子模塊和最短路徑計(jì)算子模塊: (2.1)語(yǔ)法依存關(guān)系分析子模塊,用于對(duì)輸入的語(yǔ)句進(jìn)行語(yǔ)法依存分析,獲得文本單元間的語(yǔ)法依賴關(guān)系; (2.2)最短路徑計(jì)算子模塊: (2.2.1)將語(yǔ)法依存樹(shù)看作是一個(gè)Graph,并將輸入實(shí)體對(duì)看作是Graph中的兩個(gè)感興趣結(jié)點(diǎn),同時(shí)令各結(jié)點(diǎn)間的邊的權(quán)值均為I ;(2.2.2)采用最短路徑算法求解出該兩個(gè)感興趣結(jié)點(diǎn)間的最短路徑,并用該路徑來(lái)描述兩個(gè)結(jié)點(diǎn)之間發(fā)生關(guān)系的實(shí)質(zhì)內(nèi)容; (3)關(guān)系語(yǔ)義向量表征模塊,具體內(nèi)容如下: (3.1)對(duì)路徑上的詞語(yǔ)進(jìn)行過(guò)濾處理,去除其中無(wú)語(yǔ)義的停用詞; (3.2)對(duì)每一個(gè)單詞,獲取其在語(yǔ)義空間中的投影向量,并將這些語(yǔ)義向量進(jìn)行累加; (4)關(guān)系聚類(lèi)模塊,具體內(nèi)容如下: (4.1)對(duì)于一批實(shí)體對(duì),按上述方法分別計(jì)算得到各自的關(guān)系向量; (4.2)在此基礎(chǔ)上,對(duì)它們進(jìn)行關(guān)系聚類(lèi); (5)關(guān)系模型構(gòu)建模塊,具體內(nèi)容如下: 對(duì)于完成聚類(lèi)的實(shí)體對(duì)的每一類(lèi)關(guān)系,根據(jù)其向量集合構(gòu)建關(guān)系模型;同時(shí),人工為每一類(lèi)關(guān)系標(biāo)定出其對(duì)應(yīng)的關(guān)系標(biāo)簽,
4.根據(jù)權(quán)利要求3所述的基于語(yǔ)義空間映射的語(yǔ)義關(guān)系表征、聚類(lèi)及識(shí)別的系統(tǒng),其特征在于對(duì)于均值向量模型,輸出的類(lèi)別為:
【文檔編號(hào)】G06F17/27GK104008092SQ201410255166
【公開(kāi)日】2014年8月27日 申請(qǐng)日期:2014年6月10日 優(yōu)先權(quán)日:2014年6月10日
【發(fā)明者】王曉平, 肖仰華, 汪衛(wèi) 申請(qǐng)人:復(fù)旦大學(xué)