亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

跨語言本體構(gòu)建方法及裝置與流程

文檔序號(hào):11990855閱讀:228來源:國知局
跨語言本體構(gòu)建方法及裝置與流程
本發(fā)明涉及語義萬維網(wǎng)技術(shù)領(lǐng)域,特別涉及一種跨語言本體構(gòu)建方法。

背景技術(shù):
語義萬維網(wǎng)是當(dāng)前萬維網(wǎng)的擴(kuò)展,含有精確語義信息的數(shù)據(jù)的網(wǎng)絡(luò)是語義萬維網(wǎng)的核心。萬維網(wǎng)TimBerners-Lee提出的開放鏈接數(shù)據(jù)項(xiàng)目旨在構(gòu)建一個(gè)數(shù)據(jù)網(wǎng)絡(luò),本體或語義知識(shí)庫是構(gòu)成該數(shù)據(jù)網(wǎng)絡(luò)的根本。在語義萬維網(wǎng)環(huán)境下,多語言本體,知識(shí)庫,數(shù)據(jù)庫對(duì)于多語言信息檢索、機(jī)器翻譯、知識(shí)問答等重要領(lǐng)域發(fā)揮著重要作用。通過集成111種不同語言的維基百科數(shù)據(jù)庫,DBpedia是一個(gè)多領(lǐng)域多語言的大規(guī)模語義知識(shí)庫。YAGO、MENTA和BabelNet是其他知名的大規(guī)模多語言本體,它們均通過自動(dòng)化集成WordNet和維基百科生成。然而,現(xiàn)有大規(guī)模多語言數(shù)據(jù)庫仍存在如下問題:1)非英文知識(shí)數(shù)量不足。數(shù)據(jù)庫不同語言版本發(fā)展的不平衡性,導(dǎo)致現(xiàn)有多語言本體中非英文知識(shí)的數(shù)量極其稀少;2)本體語義關(guān)系中存在大量噪音。由于大多語義關(guān)系,概念與概念的關(guān)系和實(shí)例與實(shí)例的關(guān)系直接來源于數(shù)據(jù)庫的分類體系,導(dǎo)致其包含大量的不合法的噪音;3)不同語言間等價(jià)實(shí)體對(duì)數(shù)量稀少。這些等價(jià)實(shí)體對(duì)受限于數(shù)據(jù)庫現(xiàn)有的跨語言鏈接的數(shù)量。

技術(shù)實(shí)現(xiàn)要素:
(一)要解決的技術(shù)問題本發(fā)明要解決現(xiàn)有百科中非英文知識(shí)稀少、大量語義關(guān)系噪音存在以及跨語言等價(jià)實(shí)體對(duì)數(shù)量不足的問題。(二)技術(shù)方案為解決上述技術(shù)問題,本發(fā)明提供一種跨語言本體的構(gòu)建方法,包括以下步驟:1)對(duì)于兩個(gè)異構(gòu)跨語言在線數(shù)據(jù)庫,每個(gè)數(shù)據(jù)庫學(xué)習(xí)本語言的帶有置信度輸出的二元分類函數(shù),進(jìn)行預(yù)測(cè)本語言下兩個(gè)實(shí)體之間正確的語義關(guān)系,根據(jù)學(xué)習(xí)得到的本體構(gòu)建函數(shù)構(gòu)建本語言的單語言本體,共構(gòu)建兩個(gè)單語言本體;2)對(duì)于已建的兩個(gè)單語言本體,同時(shí)學(xué)習(xí)一個(gè)新的帶有置信度輸出的二元分類函數(shù),預(yù)測(cè)不同語言下兩個(gè)實(shí)例之間正確的等價(jià)關(guān)系,根據(jù)學(xué)習(xí)得到的實(shí)例匹配函數(shù)實(shí)現(xiàn)跨語言等價(jià)關(guān)系的關(guān)聯(lián);3)重復(fù)執(zhí)行步驟1)和步驟2),在每次迭代中,使用跨語言驗(yàn)證方法校驗(yàn)并調(diào)整本體構(gòu)建函數(shù)和實(shí)例匹配函數(shù),進(jìn)而增量式構(gòu)建一個(gè)跨語言本體。優(yōu)選的,在步驟1)中,對(duì)于異構(gòu)跨語言在線數(shù)據(jù)庫,每個(gè)數(shù)據(jù)庫使用字母化和/或公式化表示為一個(gè)不同的圖結(jié)構(gòu)G=(V,E),其中,v∈V表示一個(gè)實(shí)體,eij∈E表示兩個(gè)實(shí)體vi和vj之間是否存在子分類或者分類關(guān)系;然后生成一個(gè)不同的單語言本體O=(X,Y),其中,x∈X表示一個(gè)實(shí)體,yij∈Y表示兩個(gè)實(shí)體xi和xj之間是否存在概念或者實(shí)例關(guān)系,其中V、E、X、Y表示實(shí)體。進(jìn)一步的,所述各個(gè)數(shù)據(jù)庫對(duì)應(yīng)所學(xué)函數(shù)如下:g:V×V→[0,1]其置信度輸出表示兩個(gè)實(shí)體之間存在正確的語義關(guān)系的概率值,1表示存在,0表示不存在,通過人工標(biāo)注適量的訓(xùn)練數(shù)據(jù),所述方法使用邏輯斯蒂回歸模型以分別學(xué)習(xí)本體構(gòu)建函數(shù)g。優(yōu)選的,步驟2)中對(duì)于每個(gè)不同的單語言本體O=(X,Y)給定一個(gè)與之對(duì)應(yīng)的初始等價(jià)實(shí)例集合跨語言實(shí)例匹配生成更多的等價(jià)實(shí)例,表示為所述方法學(xué)習(xí)一個(gè)帶有置信度輸出的二元分類函數(shù),以預(yù)測(cè)不同語言下兩個(gè)實(shí)例之間正確的等價(jià)關(guān)系,所各個(gè)數(shù)據(jù)庫對(duì)應(yīng)跨語言實(shí)例匹配函數(shù)f如下:f:X×X′→[0,1]。其置信度輸出表示兩個(gè)實(shí)例之間存在正確的等價(jià)關(guān)系的概率值,1表示存在,0表示不存在,其中X、Y表示實(shí)體,n、m為自然數(shù),a為集合A的子集。進(jìn)一步的,所述方法包括以下步驟:B1:對(duì)于兩個(gè)在線數(shù)據(jù)庫中的每一個(gè)詞條,以該詞條及其鏈接的詞條構(gòu)建一個(gè)局部圖結(jié)構(gòu),該圖的邊表示兩個(gè)詞條之間存在一個(gè)鏈接關(guān)系;采用最大團(tuán)發(fā)現(xiàn)算法,得到該局部圖的最大子團(tuán);如果該子團(tuán)包含5個(gè)以上詞條,則將該局部圖中的鏈接關(guān)系從G中剔除;B2:對(duì)于兩個(gè)在線數(shù)據(jù)庫中的每一個(gè)詞條,使用n元語法模型從該詞條的文本描述中標(biāo)注更多的詞條鏈接關(guān)系;B3:通過自動(dòng)的隨機(jī)抽樣選取一定的正例、負(fù)例訓(xùn)練數(shù)據(jù),使用邏輯斯蒂回歸模型,在經(jīng)過B1和B2修改后的在線數(shù)據(jù)庫上計(jì)算語義相似度特征值,用以學(xué)習(xí)跨語言實(shí)例匹配函數(shù)f。B4:使用所學(xué)實(shí)例匹配函數(shù)f,發(fā)現(xiàn)更多的跨語言實(shí)例等價(jià)關(guān)系;B5:對(duì)于預(yù)測(cè)得到的實(shí)例等價(jià)關(guān)系,采用啟發(fā)式驗(yàn)證方法,剔除可信度較低的等價(jià)關(guān)系。進(jìn)一步的,在步驟B3中,邏輯斯蒂回歸模型使用文本相似度特征和結(jié)構(gòu)相似度特征。進(jìn)一步的,在步驟B5包括以下步驟:B51:多等價(jià)關(guān)系剔除,即如果實(shí)例x和單語言本體O=(X,Y)中的多個(gè)實(shí)體存在等價(jià)關(guān)系,則將這些等價(jià)關(guān)系全部剔除;B52:數(shù)字和大寫英文字母剔除,即如果等價(jià)實(shí)例對(duì)中有且只有一個(gè)實(shí)例的名稱包含一個(gè)由多于兩個(gè)連續(xù)的數(shù)字或大寫英文字母構(gòu)成的子串,則將此等價(jià)關(guān)系剔除。優(yōu)選的,在步驟3)中包括以下步驟:C1:使用跨語言驗(yàn)證方法,校驗(yàn)并調(diào)整單語言本體構(gòu)建函數(shù)g;C2:使用跨語言驗(yàn)證方法,校驗(yàn)并調(diào)整跨語言實(shí)例匹配函數(shù)f;C3:重復(fù)執(zhí)行C1和C2,直至構(gòu)建一個(gè)符合期望的跨語言本體。進(jìn)一步的,在第t次迭代中,所述步驟C1包括步驟:C11:使用當(dāng)前訓(xùn)練數(shù)據(jù)學(xué)習(xí)本體構(gòu)建函數(shù)g(t);C12:使用學(xué)習(xí)得到的函數(shù)g(t)預(yù)測(cè)未標(biāo)注數(shù)據(jù)中正確的語義關(guān)系;C13:使用當(dāng)前迭代中的跨語言等價(jià)實(shí)例對(duì)驗(yàn)證C12預(yù)測(cè)的結(jié)果,方法如下:如果f(t)(x1,x′1)>θ(t)并且f(t)(x2,x′2)>θ(t),則令當(dāng)且僅當(dāng)以及當(dāng)且僅當(dāng)其中,閾值θ(t)、和可通過實(shí)驗(yàn)設(shè)置獲得,推薦設(shè)置為0.9、0.5和0.5,更大的閾值會(huì)生成更嚴(yán)格的驗(yàn)證結(jié)果,表示對(duì)應(yīng)的g(t)函數(shù);C14:使用跨語言驗(yàn)證后的預(yù)測(cè)結(jié)果擴(kuò)充訓(xùn)練數(shù)據(jù);C15:在下一次迭代t+1中重復(fù)進(jìn)行C11至C14。進(jìn)一步的,在第t次迭代中,所述步驟C2包括步驟:C21:使用當(dāng)前初始的等價(jià)實(shí)例集合學(xué)習(xí)實(shí)例匹配函數(shù)f(t);C22:使用學(xué)習(xí)得到的函數(shù)f(t)預(yù)測(cè)未標(biāo)注數(shù)據(jù)中的等價(jià)關(guān)系;C23:在當(dāng)前迭代中對(duì)C12預(yù)測(cè)的結(jié)果進(jìn)行跨語言驗(yàn)證,方法如下:如果f(t)(x,x′)>θ(t),則f(t)(x,x′)=1;其中,閾值θ(t)設(shè)置同步驟C13;C24:使用跨語言驗(yàn)證后的預(yù)測(cè)結(jié)果擴(kuò)充初始的等價(jià)實(shí)例集合;C25:在下一次迭代t+1中重復(fù)進(jìn)行C21至C24。一種跨語言本體構(gòu)建系統(tǒng),包括以下模塊:1)單語言本體構(gòu)建模塊,用于對(duì)兩個(gè)異構(gòu)跨語言在線數(shù)據(jù)庫,使每個(gè)數(shù)據(jù)庫學(xué)習(xí)本語言的帶有置信度輸出的二元分類函數(shù),進(jìn)行預(yù)測(cè)本語言下兩個(gè)實(shí)體之間正確的語義關(guān)系,根據(jù)學(xué)習(xí)得到的本體構(gòu)建函數(shù)構(gòu)建本語言的單語言本體,共構(gòu)建兩個(gè)單語言本體;2)跨語言等價(jià)關(guān)系關(guān)聯(lián)模塊,用于對(duì)兩個(gè)單語言本體,使之同時(shí)學(xué)習(xí)一個(gè)新的帶有置信度輸出的二元分類函數(shù),進(jìn)行預(yù)測(cè)不同語言下兩個(gè)實(shí)例之間正確的等價(jià)關(guān)系,根據(jù)學(xué)習(xí)得到的實(shí)例匹配函數(shù)實(shí)現(xiàn)跨語言等價(jià)關(guān)系的關(guān)聯(lián);3)迭代模塊,用于重復(fù)執(zhí)行單語言本體構(gòu)建模塊和跨語言等價(jià)關(guān)系關(guān)聯(lián)模塊處理的數(shù)據(jù),在每次迭代中,使用跨語言驗(yàn)證方法校驗(yàn)并調(diào)整本體構(gòu)建函數(shù)和實(shí)例匹配函數(shù),進(jìn)而增量式構(gòu)建一個(gè)跨語言本體。(三)有益效果本發(fā)明所述的大規(guī)模跨語言本體的構(gòu)建方法,從兩個(gè)異構(gòu)的跨語言在線百科數(shù)據(jù)庫出發(fā),監(jiān)督學(xué)習(xí)本體構(gòu)建函數(shù)和實(shí)例匹配函數(shù),并采用帶有跨語言驗(yàn)證的增量式迭代優(yōu)化方法,從而構(gòu)建一個(gè)高質(zhì)量的、大規(guī)模的跨語言本體。所述方法有利于解決現(xiàn)有多語言本體中存在的問題,包括非英文知識(shí)稀少、大量語義關(guān)系噪音存在以及跨語言等價(jià)實(shí)體對(duì)數(shù)量不足。附圖說明圖1是本發(fā)明的大規(guī)??缯Z言本體構(gòu)建的流程圖;圖2是本發(fā)明的增量式優(yōu)化跨語言本體構(gòu)建的流程圖。具體實(shí)施方式下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。圖1是本發(fā)明的大規(guī)??缯Z言本體構(gòu)建的流程圖,圖2是本發(fā)明的增量式優(yōu)化跨語言本體構(gòu)建的流程圖。本實(shí)施例使用如圖1、圖2所示的方法。在實(shí)施例中,具體的數(shù)據(jù)庫以在線百科為例,所采用的方法如下:步驟1):對(duì)于兩個(gè)異構(gòu)跨語言在線百科數(shù)據(jù)庫,如互動(dòng)百科和英文維基百科,形式化表示為兩個(gè)圖結(jié)構(gòu)G1=(V,E)和G2=(V′,E′),每一個(gè)數(shù)據(jù)庫和圖結(jié)構(gòu)一一對(duì)應(yīng)。其中,v∈V表示一個(gè)實(shí)體(分類或詞條),eij∈E表示兩個(gè)實(shí)體vi和vj之間是否存在子分類或者分類關(guān)系。分別生成兩個(gè)單語言本體O1=(X,Y)和O2=(X′Y′)。其中,x∈X表示一個(gè)實(shí)體,概念或者實(shí)例,yij∈Y表示兩個(gè)實(shí)體xi和xj之間是否存在概念和概念或者實(shí)例和實(shí)例的關(guān)系。分別學(xué)習(xí)各自對(duì)應(yīng)的一個(gè)帶有置信度輸出的二元分類函數(shù),以預(yù)測(cè)同一語言下兩個(gè)實(shí)體之間正確的語義關(guān)系。所學(xué)函數(shù)如下:第一數(shù)據(jù)庫學(xué)習(xí)g1:V×V→[0,1];第二數(shù)據(jù)庫學(xué)習(xí)g2:V×V′→[0,1]。其置信度輸出表示兩個(gè)實(shí)體之間存在正確的語義關(guān)系,概念和概念或?qū)嵗蛯?shí)例的概率值,1表示一定存在,0表示一定不存在。通過人工標(biāo)注適量的訓(xùn)練數(shù)據(jù),所述方法使用邏輯斯蒂回歸模型以分別學(xué)習(xí)各自的本體構(gòu)建函數(shù)g1和g2,邏輯斯蒂回歸模型使用的特征如表1所示。其中,特征10的計(jì)算方法如下:列出當(dāng)前父分類的所有子分類;計(jì)算所有子分類中每一個(gè)單詞的詞頻;子分類評(píng)分即當(dāng)前子分類所有單詞詞頻之和。特征11計(jì)算方法類似。表1定義了概念和概念關(guān)系的特征計(jì)算方法,表1本體構(gòu)建函數(shù)g1的特征定義實(shí)例和實(shí)例的關(guān)系特征的計(jì)算方法類似,只需將表中的父分類改為分類、子分類改為詞條即可。對(duì)于本體構(gòu)建函數(shù)g2,分別將特征1和特征2更改為“父分類是否為子分類的前半部分子串”和“父分類是否為子分類的后半部分子串”,并且字符串處理的基本單元由單詞更改為單個(gè)漢字。步驟2):對(duì)于兩個(gè)單語言本體O1=(X,Y)和O2=(X′Y′),給定一個(gè)初始等價(jià)實(shí)例集合其中ai=(x,x′)表示一對(duì)跨語言等價(jià)實(shí)例,跨語言實(shí)例匹配的目的即生成更多的等價(jià)實(shí)例,表示為所述方法學(xué)習(xí)一個(gè)帶有置信度輸出的二元分類函數(shù),以預(yù)測(cè)不同語言下兩個(gè)實(shí)例之間正確的等價(jià)關(guān)系。跨語言實(shí)例匹配函數(shù)f如下:f:X×X′→[0,1]。其置信度輸出表示兩個(gè)實(shí)例之間存在正確的等價(jià)關(guān)系的概率值,1表示一定存在,0表示一定不存在。所述步驟2)具體包括以下步驟:B1:對(duì)于兩個(gè)在線百科數(shù)據(jù)庫中的每一個(gè)詞條,以該詞條及其鏈接的詞條構(gòu)建一個(gè)局部圖結(jié)構(gòu),該圖的邊表示兩個(gè)詞條之間存在一個(gè)鏈接關(guān)系;采用最大團(tuán)發(fā)現(xiàn)算法,得到該局部圖的最大子團(tuán);如果該子團(tuán)包含5個(gè)以上詞條,則將該局部圖中的鏈接關(guān)系從G1或G2中剔除;B2:對(duì)于兩個(gè)在線百科數(shù)據(jù)庫中的每一個(gè)詞條,使用n元語法模型從該詞條的文本描述中標(biāo)注更多的詞條鏈接關(guān)系;B3:通過自動(dòng)的隨機(jī)抽樣選取一定的正例、負(fù)例訓(xùn)練數(shù)據(jù),使用邏輯斯蒂回歸模型,在經(jīng)過B1和B2修改后的在線百科數(shù)據(jù)庫上計(jì)算語義相似度特征值,以學(xué)習(xí)跨語言實(shí)例匹配函數(shù)f。邏輯斯蒂回歸模型使用文本相似度特征和結(jié)構(gòu)相似度特征。文本相似度主要使用實(shí)例名稱間的編輯距離d(x,x′),其計(jì)算公式如下:d(x,x′)=1-|{ops}|/max(|label(x)|,|label(x′)|),其中,label(x)為實(shí)例x的名稱,label(x′)為實(shí)例x′的名稱,|label(x)|表示label(x)所對(duì)應(yīng)的字符串的長度,|label(x′)|表示label(x′)所對(duì)應(yīng)的字符串的長度,|{ops}|為將label(x)所對(duì)應(yīng)的字符串轉(zhuǎn)化為label(x′)所對(duì)應(yīng)的字符串所需要的刪除、替換和插入操作的次數(shù)。結(jié)構(gòu)相似度主要使用實(shí)例相關(guān)的集合相似度s(x,x′),其計(jì)算公式如下:s(x,x′)=2·|φ1→2(Sx∩Sx′)|/(|φ1→2(Sx)|+|Sx′|),其中,Sx表示與實(shí)例x相關(guān)的實(shí)例集合,Sx′表示與實(shí)例x′相關(guān)的實(shí)例集合,φ1→2(·)將G1中的實(shí)體映射為G2中存在的等價(jià)的實(shí)體,|·|表示對(duì)應(yīng)集合的大小。跨語言實(shí)例匹配邏輯斯蒂回歸模型使用的特征如表2所示。表2實(shí)例匹配函數(shù)f的特征定義B4:使用所學(xué)實(shí)例匹配函數(shù)f,發(fā)現(xiàn)更多的跨語言實(shí)例等價(jià)關(guān)系;B5:對(duì)于預(yù)測(cè)得到的實(shí)例等價(jià)關(guān)系,采用啟發(fā)式驗(yàn)證方法,剔除可信度較低的等價(jià)關(guān)系。具體包括:B51:多等價(jià)關(guān)系剔除,即如果實(shí)例x和O2中的多個(gè)實(shí)體存在等價(jià)關(guān)系,則將這些等價(jià)關(guān)系全部剔除。例如匹配結(jié)果(美國,USA)和匹配(美國,UK)同時(shí)出現(xiàn),則將其全部剔除;B52:數(shù)字和大寫英文字母剔除,即如果等價(jià)實(shí)例對(duì)中有且只有一個(gè)實(shí)例的名稱包含一個(gè)由多于兩個(gè)連續(xù)的數(shù)字或大寫英文字母構(gòu)成的子串,則將此等價(jià)關(guān)系剔除。例如匹配結(jié)果(1936年,1936)將保留,而結(jié)果(12月1日,1936)將被剔除。步驟3):重復(fù)執(zhí)行步驟A和步驟B,在每次迭代中,使用跨語言驗(yàn)證方法校驗(yàn)并調(diào)整本體構(gòu)建函數(shù)和實(shí)例匹配函數(shù),以相互提高其學(xué)習(xí)效果,進(jìn)而增量式構(gòu)建一個(gè)高質(zhì)量的、大規(guī)模的跨語言本體。所述步驟3)具體包括:C1:使用跨語言驗(yàn)證方法,校驗(yàn)并調(diào)整單語言本體構(gòu)建函數(shù)g1和g2;C2:使用跨語言驗(yàn)證方法,校驗(yàn)并調(diào)整跨語言實(shí)例匹配函數(shù)f;C3:重復(fù)執(zhí)行C1和C2,直至構(gòu)建一個(gè)高質(zhì)量的大規(guī)??缯Z言本體。在第t次迭代中,所述步驟C1具體包括:C11:使用當(dāng)前訓(xùn)練數(shù)據(jù)學(xué)習(xí)本體構(gòu)建函數(shù)和C12:使用學(xué)習(xí)得到的函數(shù)和預(yù)測(cè)未標(biāo)注數(shù)據(jù)中正確的語義關(guān)系;C13:使用當(dāng)前迭代中的跨語言等價(jià)實(shí)例對(duì)驗(yàn)證C12預(yù)測(cè)的結(jié)果,方法如下:如果f(t)(x1,x′1)>θ(t)并且f(t)(x2,x′2)>θ(t),則令當(dāng)且僅當(dāng)以及當(dāng)且僅當(dāng)其中,閾值θ(t)、和可通過實(shí)驗(yàn)設(shè)置獲得,推薦設(shè)置為0.9、0.5和0.5,更大的閾值會(huì)生成更嚴(yán)格的驗(yàn)證結(jié)果;C14:使用跨語言驗(yàn)證后的預(yù)測(cè)結(jié)果擴(kuò)充訓(xùn)練數(shù)據(jù);C15:在下一次迭代t+1中重復(fù)進(jìn)行C11至C14。同時(shí),在第t次迭代中,所述步驟C2具體包括:C21:使用當(dāng)前初始的等價(jià)實(shí)例集合學(xué)習(xí)實(shí)例匹配函數(shù)f(t);C22:使用學(xué)習(xí)得到的函數(shù)f(t)預(yù)測(cè)未標(biāo)注數(shù)據(jù)中的等價(jià)關(guān)系;C23:在當(dāng)前迭代中對(duì)C12預(yù)測(cè)的結(jié)果進(jìn)行跨語言驗(yàn)證,方法如下:如果f(t)(x,x′)>θ(t),則令f(t)(x,x′)=1;其中,閾值θ(t)設(shè)置同步驟C13;C24:使用跨語言驗(yàn)證后的預(yù)測(cè)結(jié)果擴(kuò)充初始的等價(jià)實(shí)例集合;C25:在下一次迭代t+1中重復(fù)進(jìn)行C21至C24。采用本發(fā)明的方法進(jìn)行了實(shí)驗(yàn),具體實(shí)驗(yàn)過程如下:1、評(píng)測(cè)指標(biāo)。評(píng)估本體構(gòu)建和實(shí)例匹配方法的優(yōu)劣,我們以查準(zhǔn)率、查全率和F1-Measure來評(píng)價(jià)實(shí)驗(yàn)結(jié)果,具體定義如下:查準(zhǔn)率precision:P=預(yù)測(cè)的正確的結(jié)果數(shù)目/預(yù)測(cè)的全部的結(jié)果數(shù)目查全率recall:R=預(yù)測(cè)的正確的結(jié)果數(shù)目/標(biāo)準(zhǔn)結(jié)果的數(shù)目F1-Measure:F1=2PR/(P+R)2、數(shù)據(jù)集介紹。實(shí)驗(yàn)采用英文維基百科和互動(dòng)百科為數(shù)據(jù)集。數(shù)據(jù)集相關(guān)信息如表3所示。在此基礎(chǔ)上,生成了126,221對(duì)初始的跨語言等價(jià)實(shí)例對(duì)。表3數(shù)據(jù)集相關(guān)統(tǒng)計(jì)3、實(shí)驗(yàn)結(jié)果與分析采用以上數(shù)據(jù)集和本發(fā)明的方法,進(jìn)行3次迭代實(shí)驗(yàn),得到概念和概念關(guān)系與實(shí)例和實(shí)例的關(guān)系的結(jié)果評(píng)測(cè)分別如表4、表5所示。從中可見,經(jīng)過迭代優(yōu)化后,本體構(gòu)建的效果有了大幅度的提高。特別地,經(jīng)過3次迭代,中文實(shí)例和實(shí)例的關(guān)系構(gòu)建的F1-Measure最高提高了32%。表4概念和概念關(guān)系結(jié)果分析表5實(shí)例和實(shí)例的關(guān)系結(jié)果分析實(shí)例匹配方面,經(jīng)過100次迭代,成功發(fā)現(xiàn)31,108對(duì)新的跨語言等價(jià)實(shí)例對(duì)。最終構(gòu)建的大規(guī)模跨語言本體相關(guān)統(tǒng)計(jì)入表6所示。表6實(shí)驗(yàn)所構(gòu)建本體的相關(guān)統(tǒng)計(jì)本發(fā)明實(shí)施例所述的大規(guī)模跨語言本體的構(gòu)建方法,從兩個(gè)異構(gòu)的跨語言在線百科數(shù)據(jù)庫出發(fā),監(jiān)督學(xué)習(xí)本體構(gòu)建函數(shù)和實(shí)例匹配函數(shù),并采用帶有跨語言驗(yàn)證的增量式迭代優(yōu)化方法,從而構(gòu)建一個(gè)高質(zhì)量的、大規(guī)模的跨語言本體。所述方法有利于解決現(xiàn)有多語言本體中存在的問題(包括非英文知識(shí)稀少、大量語義關(guān)系噪音存在以及跨語言等價(jià)實(shí)體對(duì)數(shù)量不足)。以上實(shí)施方式僅用于說明本發(fā)明,而并非對(duì)本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1