跨語言本體構(gòu)建方法及裝置與流程

文檔序號：11990855閱讀：來源：國知局

技術(shù)特征：
1.一種跨語言本體構(gòu)建方法，其特征在于，包括以下步驟：1)對于兩個異構(gòu)跨語言在線數(shù)據(jù)庫，使每個數(shù)據(jù)庫學習本語言的帶有置信度輸出的二元分類函數(shù)，用于進行預測本語言下兩個實體之間正確的語義關(guān)系，根據(jù)學習得到的本體構(gòu)建函數(shù)構(gòu)建本語言的單語言本體，共構(gòu)建兩個單語言本體；2)對于已構(gòu)建的兩個單語言本體，使他們同時學習一個新的帶有置信度輸出的二元分類函數(shù)，用于預測不同語言下兩個實例之間正確的等價關(guān)系，根據(jù)學習得到的實例匹配函數(shù)實現(xiàn)跨語言等價關(guān)系的關(guān)聯(lián)；3)重復執(zhí)行步驟1)和步驟2)，在每次迭代中，使用跨語言驗證方法校驗并調(diào)整本體構(gòu)建函數(shù)和實例匹配函數(shù)，進而增量式構(gòu)建一個跨語言本體；所述步驟2)包括以下步驟：B1：對于異構(gòu)跨語言在線數(shù)據(jù)庫，每個數(shù)據(jù)庫使用字母化和/或公式化表示為一個不同的圖結(jié)構(gòu)G＝(V，E)，其中，V中任一元素v，v∈V表示一個實體，E中任一元素eij，eij∈E表示兩個實體vi和vj之間是否存在子分類或者分類關(guān)系；對于兩個在線數(shù)據(jù)庫中的每一個詞條，以該詞條及其鏈接的詞條構(gòu)建一個局部圖結(jié)構(gòu)，該圖的邊表示兩個詞條之間存在一個鏈接關(guān)系；采用最大團發(fā)現(xiàn)算法，得到該局部圖的最大子團；如果該子團包含5個以上詞條，則將該局部圖中的鏈接關(guān)系從G中剔除；B2：對于兩個在線數(shù)據(jù)庫中的每一個詞條，使用n元語法模型從該詞條的文本描述中標注更多的詞條鏈接關(guān)系；B3：通過自動的隨機抽樣選取一定的正例、負例訓練數(shù)據(jù)，使用邏輯斯蒂回歸模型，在經(jīng)過B1和B2修改后的在線數(shù)據(jù)庫上計算語義相似度特征值，用以學習跨語言實例匹配函數(shù)f；B4：使用所學實例匹配函數(shù)f，發(fā)現(xiàn)更多的跨語言實例等價關(guān)系；B5：對于預測得到的實例等價關(guān)系，采用啟發(fā)式驗證方法，剔除可信度較低的等價關(guān)系；所述步驟3)中包括以下步驟：C1：使用跨語言驗證方法，校驗并調(diào)整單語言本體構(gòu)建函數(shù)g；C2：使用跨語言驗證方法，校驗并調(diào)整跨語言實例匹配函數(shù)f；C3：重復執(zhí)行C1和C2，直至構(gòu)建一個符合期望的跨語言本體；在第t次迭代中，所述步驟C1包括步驟：C11：使用當前訓練數(shù)據(jù)學習本體構(gòu)建函數(shù)g(t)；C12：使用學習得到的函數(shù)g(t)預測未標注數(shù)據(jù)中正確的語義關(guān)系；C13：使用當前迭代中的跨語言等價實例對驗證C12預測的結(jié)果，方法如下：如果f(t)(x1，x′1)＞θ(t)并且f(t)(x2，x′2)＞θ(t)，則令當且僅當(τ1(t)+τ2(t));]]>以及當且僅當其中，閾值θ(t)、和可通過實驗設置獲得，推薦設置為0.9、0.5和0.5，更大的閾值會生成更嚴格的驗證結(jié)果，表示對應的g(t)函數(shù)；C14：使用跨語言驗證后的預測結(jié)果擴充訓練數(shù)據(jù)；C15：在下一次迭代t+1中重復進行C11至C14；在第t次迭代中，所述步驟C2包括步驟：C21：使用當前初始的等價實例集合學習實例匹配函數(shù)f(t)；C22：使用學習得到的函數(shù)f(t)預測未標注數(shù)據(jù)中的等價關(guān)系；C23：在當前迭代中對C12預測的結(jié)果進行跨語言驗證，方法如下：如果f(t)(x，x′)＞θ(t)，則f(t)(x，x′)＝1；其中，閾值θ(t)設置同步驟C13；C24：使用跨語言驗證后的預測結(jié)果擴充初始的等價實例集合；C25：在下一次迭代t+1中重復進行C21至C24。2.根據(jù)權(quán)利要求1所述的跨語言本體構(gòu)建方法，其特征在于，所述步驟1)中，對于異構(gòu)跨語言在線數(shù)據(jù)庫，每個數(shù)據(jù)庫生成一個不同的單語言本體O＝(X，Y)，其中，x∈X表示一個實體，yij∈Y表示兩個實體xi和xj之間是否存在概念或者實例關(guān)系，其中V、E、X、Y表示實體。3.根據(jù)權(quán)利要求2所述的跨語言本體構(gòu)建方法，其特征在于，所述各個數(shù)據(jù)庫對應所學函數(shù)如下：g：V×V→[0，1]其置信度輸出表示兩個實體之間存在正確的語義關(guān)系的概率值，1表示存在，0表示不存在，通過人工標注適量的訓練數(shù)據(jù)，所述方法使用邏輯斯蒂回歸模型以分別學習本體構(gòu)建函數(shù)g。4.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述步驟2)中對于每個不同的單語言本體O＝(X，Y)給定一個與之對應的初始等價實例集合跨語言實例匹配生成更多的等價實例，表示為所述步驟2)學習一個帶有置信度輸出的二元分類函數(shù)，以預測不同語言下兩個實例之間正確的等價關(guān)系，各個數(shù)據(jù)庫對應跨語言實例匹配函數(shù)f如下：f：X×X′→[0，1]其置信度輸出表示兩個實例之間存在正確的等價關(guān)系的概率值，1表示存在，0表示不存在，其中X、Y表示實體，n、m為自然數(shù)，a為集合A的子集。5.根據(jù)權(quán)利要求1所述的跨語言本體構(gòu)建方法，其特征在于，所述步驟B3中，邏輯斯蒂回歸模型使用文本相似度特征和結(jié)構(gòu)相似度特征。6.根據(jù)權(quán)利要求1所述的跨語言本體構(gòu)建方法，其特征在于，所述步驟B5包括以下步驟：B51：多等價關(guān)系剔除，即如果實例x和單語言本體O＝(X，Y)中的多個實體存在等價關(guān)系，則將這些等價關(guān)系全部剔除；B52：數(shù)字和大寫英文字母剔除，即如果等價實例對中有且只有一個實例的名稱包含一個由多于兩個連續(xù)的數(shù)字或大寫英文字母構(gòu)成的子串，則將此等價關(guān)系剔除。7.一種跨語言本體構(gòu)建裝置，其特征在于，包括以下模塊：1)單語言本體構(gòu)建模塊，用于對兩個異構(gòu)跨語言在線數(shù)據(jù)庫，使每個數(shù)據(jù)庫學習本語言的帶有置信度輸出的二元分類函數(shù)，進行預測本語言下兩個實體之間正確的語義關(guān)系，根據(jù)學習得到的本體構(gòu)建函數(shù)構(gòu)建本語言的單語言本體，共構(gòu)建兩個單語言本體；2)跨語言等價關(guān)系關(guān)聯(lián)模塊，用于對兩個單語言本體，使之同時學習一個新的帶有置信度輸出的二元分類函數(shù)，進行預測不同語言下兩個實例之間正確的等價關(guān)系，根據(jù)學習得到的實例匹配函數(shù)實現(xiàn)跨語言等價關(guān)系的關(guān)聯(lián)；3)迭代模塊，用于重復執(zhí)行單語言本體構(gòu)建模塊和跨語言等價關(guān)系關(guān)聯(lián)模塊處理的數(shù)據(jù)，在每次迭代中，使用跨語言驗證方法校驗并調(diào)整本體構(gòu)建函數(shù)和實例匹配函數(shù)，進而增量式構(gòu)建一個跨語言本體；所述跨語言等價關(guān)系關(guān)聯(lián)模塊，用于：B1：對于異構(gòu)跨語言在線數(shù)據(jù)庫，每個數(shù)據(jù)庫使用字母化和/或公式化表示為一個不同的圖結(jié)構(gòu)G＝(V，E)，其中，V中任一元素v，v∈V表示一個實體，E中任一元素eij，eij∈E表示兩個實體vi和vj之間是否存在子分類或者分類關(guān)系；對于兩個在線數(shù)據(jù)庫中的每一個詞條，以該詞條及其鏈接的詞條構(gòu)建一個局部圖結(jié)構(gòu)，該圖的邊表示兩個詞條之間存在一個鏈接關(guān)系；采用最大團發(fā)現(xiàn)算法，得到該局部圖的最大子團；如果該子團包含5個以上詞條，則將該局部圖中的鏈接關(guān)系從G中剔除；B2：對于兩個在線數(shù)據(jù)庫中的每一個詞條，使用n元語法模型從該詞條的文本描述中標注更多的詞條鏈接關(guān)系；B3：通過自動的隨機抽樣選取一定的正例、負例訓練數(shù)據(jù)，使用邏輯斯蒂回歸模型，在經(jīng)過B1和B2修改后的在線數(shù)據(jù)庫上計算語義相似度特征值，用以學習跨語言實例匹配函數(shù)f；B4：使用所學實例匹配函數(shù)f，發(fā)現(xiàn)更多的跨語言實例等價關(guān)系；B5：對于預測得到的實例等價關(guān)系，采用啟發(fā)式驗證方法，剔除可信度較低的等價關(guān)系；所述迭代模塊，用于：C1：使用跨語言驗證方法，校驗并調(diào)整單語言本體構(gòu)建函數(shù)g；C2：使用跨語言驗證方法，校驗并調(diào)整跨語言實例匹配函數(shù)f；C3：重復執(zhí)行C1和C2，直至構(gòu)建一個符合期望的跨語言本體；在第t次迭代中，所述步驟C1包括步驟：C11：使用當前訓練數(shù)據(jù)學習本體構(gòu)建函數(shù)g(t)；C12：使用學習得到的函數(shù)g(t)預測未標注數(shù)據(jù)中正確的語義關(guān)系；C13：使用當前迭代中的跨語言等價實例對驗證C12預測的結(jié)果，方法如下：如果f(t)(x1，x′1)＞θ(t)并且f(t)(x2，x′2)＞θ(t)，則令當且僅當(τ1(t)+τ2(t));]]>以及當且僅當其中，閾值θ(t)、和可通過實驗設置獲得，推薦設置為0.9、0.5和0.5，更大的閾值會生成更嚴格的驗證結(jié)果，表示對應的g(t)函數(shù)；C14：使用跨語言驗證后的預測結(jié)果擴充訓練數(shù)據(jù)；C15：在下一次迭代t+1中重復進行C11至C14；在第t次迭代中，所述步驟C2包括步驟：C21：使用當前初始的等價實例集合學習實例匹配函數(shù)f(t)；C22：使用學習得到的函數(shù)f(t)預測未標注數(shù)據(jù)中的等價關(guān)系；C23：在當前迭代中對C12預測的結(jié)果進行跨語言驗證，方法如下：如果f(t)(x，x′)＞θ(t)，則f(t)(x，x′)＝1；其中，閾值θ(t)設置同步驟C13；C24：使用跨語言驗證后的預測結(jié)果擴充初始的等價實例集合；C25：在下一次迭代t+1中重復進行C21至C24。

完整全部詳細技術(shù)資料下載

當前第2頁1 2 3

相關(guān)技術(shù)