亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種本體對齊方法及裝置與流程

文檔序號:11829903閱讀:408來源:國知局
一種本體對齊方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種本體對齊方法及裝置。



背景技術(shù):

本體(ontology)是共享概念模型的明確的形式化規(guī)范說明,每一個本體均是實際存在的唯一的個體;本體在語義Web,知識數(shù)據(jù)工程,電子商務(wù)等領(lǐng)域中均有廣泛應(yīng)用。

由于不同背景的知識工程師構(gòu)造和維護(hù)相似或相同域的本體,使得不同數(shù)據(jù)庫之間存在內(nèi)容異構(gòu);該內(nèi)容異構(gòu)包括:同一個本體的名稱及所描述的內(nèi)容存在差異,如在數(shù)據(jù)庫A中,本體a的名稱為m1,且本體a的描述包含三個屬性,而在數(shù)據(jù)庫B中,本體a的名稱為m2,且本體a的描述包含五個屬性;或者,同一個本體名稱,可能對應(yīng)多個本體,如“井岡山”,該名稱可以表示一個地名,可以表示一個人名,因此,名稱井岡山對應(yīng)不同的本體。為了實現(xiàn)不同數(shù)據(jù)庫之間知識的共享、重用和互操作,通常將對不同數(shù)據(jù)庫之間的同一個本體進(jìn)行對齊,即將同一個本體所描述的內(nèi)容進(jìn)行合并。

目前,通常根據(jù)本體名稱,對不同數(shù)據(jù)庫中的本體進(jìn)行對齊。具體為:在本地建立同義詞表,該同義詞表中包含的表征同一個本體的名稱及其描述信息,該同義詞表通過對本體名稱進(jìn)行消歧處理獲得;獲取待對齊本體的名稱,并在上述同義詞表中查找該待對齊本體的名稱,當(dāng)該同義詞表中包含該待對齊本體的名稱時,獲取數(shù)據(jù)庫中上述待對齊本體的名稱對應(yīng)的本體,并將獲取的該本體與上述待對齊本體進(jìn)行對齊。采用該技術(shù)方案對不同數(shù)據(jù)庫中的本體進(jìn)行對齊時,對齊結(jié)果是否正確,取決于由消歧處理獲取的同義詞表,即當(dāng)該同義詞表中存在錯誤時,對齊結(jié)果將可能存在錯誤;此外,上述技術(shù)方案,不 能處理擁有相同名稱,卻不表征同一個本體的情況。

由此可見,目前在對不同數(shù)據(jù)庫本體進(jìn)行本體對齊時,存在對齊結(jié)果不準(zhǔn)確的問題。



技術(shù)實現(xiàn)要素:

本發(fā)明實施例提供一種本體對齊方法及裝置,用以解決目前在對不同數(shù)據(jù)庫本體進(jìn)行本體對齊時,存在對齊結(jié)果不準(zhǔn)確的問題。

本發(fā)明實施例提供的具體技術(shù)方案如下:

第一方面,提供一種本體對齊方法,包括:從待對齊本體集合中選取任意一待對齊本體;其中,所述任意一待對齊本體包括所述待對齊本體名稱,所述任意一待對齊本體所屬類別標(biāo)簽,以及所述任意一待對齊本體的屬性信息,所述類別標(biāo)簽由自然語言描述,所述屬性信息由枚舉類型或者自然語言描述;在已對齊本體集合中查找與所述任意一待對齊本體名稱相同的候選本體;其中,所述候選本體包括所述候選本體名稱,所述候選本體所屬類別標(biāo)簽,以及所述候選本體的屬性信息所述類別標(biāo)簽由自然語言描述,所述屬性信息由枚舉類型或者自然語言描述;根據(jù)所述任意一待對齊本體所屬類別標(biāo)簽,所述任意一待對齊本體的屬性信息,以及每一個查找到的候選本體所屬類別標(biāo)簽,所述每一個查找到的候選本體的屬性信息,分別計算任意一待對齊本體與所述每一個查找到的候選本體之間的相似度;根據(jù)計算得到的相似度,獲取每一個查找到的候選本體的綜合評分;從查找到的候選本體中選擇綜合評分大于或等于預(yù)設(shè)綜合評分閾值,且綜合評分最高的候選本體;將所述任意一待對齊本體與選擇的所述候選本體進(jìn)行對齊。

結(jié)合第一方面,在第一種可能的實現(xiàn)方式中,當(dāng)已對齊本體集合中不包含與所述任意一待對齊本體名稱相同的候選本體時,在所述已對齊本體集合中建立新的本體項目,并將所述任意一待對齊本體存儲至新建立的本體項目中。

結(jié)合第一方面,或者第一方面第一種可能的實現(xiàn)方式,在第二種可能的實 現(xiàn)方式中,所述屬性信息包含本體的屬性名及所述屬性名對應(yīng)的屬性值;對于任意一查找到的候選本體,執(zhí)行如下操作:根據(jù)所述任意一待對齊本體的屬性名和所述屬性名對應(yīng)的屬性值,以及所述任意一查找到的候選本體的屬性名及其對應(yīng)的屬性值,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度;根據(jù)所述任意一待對齊本體所屬類別標(biāo)簽,以及所述任意一查找到的候選本體所屬類別標(biāo)簽,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度。

結(jié)合第一方面第二種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,分別對所述任意一待對齊本體的每一個屬性名和所述任意一查找到的候選本體的每一個屬性名進(jìn)行匹配,獲取至少一個匹配成功的屬性名匹配對;對于獲取的任意一屬性名匹配對,執(zhí)行如下操作:根據(jù)所述任意一屬性名配對中第一個屬性名對應(yīng)的屬性值與第二個屬性名對應(yīng)的屬性值之間的編輯距離,計算所述第一個屬性名對應(yīng)的屬性值與所述第二個屬性名對應(yīng)的屬性值之間的相似度;當(dāng)所述第一個屬性名對應(yīng)的屬性值與第二個屬性名對應(yīng)的屬性值之間的相似度大于預(yù)設(shè)屬性值相似度閾值時,將所述任意一屬性名匹配對添加至預(yù)設(shè)的屬性信息配對集合中;將所述屬性信息配對集合中包含的所有屬性名配對分別對應(yīng)的相似度進(jìn)行累加,將獲取的累加值確定為所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度。

結(jié)合第一方面第二種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,對于任意一待對齊本體所屬所有類別標(biāo)簽中的任意一類別標(biāo)簽,執(zhí)行如下操作:從所述任意一查找到的候選本體所屬所有類別標(biāo)簽中,選取與所述任意一類別標(biāo)簽相關(guān)性最大的候選類別標(biāo)簽;采用隨機(jī)游走算法,分別獲取所述任意一類別標(biāo)簽與每一個所述候選類別標(biāo)簽之間的相關(guān)度;根據(jù)獲取的所述任意一待對齊本體所屬每一個類別標(biāo)簽與所述任意一查找到的候選本體的每一個候選類別標(biāo)簽之間的相似度,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度。

結(jié)合第一方面第二種可能的實現(xiàn)方式至第四種可能的實現(xiàn)方式中的任意一種,在第五種可能的實現(xiàn)方式中,所述本體集合還包括非結(jié)構(gòu)化文本關(guān)鍵詞;其中,所述非結(jié)構(gòu)化文本關(guān)鍵詞包含一個或多個詞向量;對于任意一查找到的候選本體,執(zhí)行如下操作:根據(jù)所述任意一待對齊本體的非結(jié)構(gòu)化文本關(guān)鍵詞,以及所述任意一查找到的候選本體的非結(jié)構(gòu)化文本關(guān)鍵詞,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度。

結(jié)合第一方面第五種可能的實現(xiàn)方式,在第六種可能的實現(xiàn)方式中,分別獲取所述任意一待對齊本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),并根據(jù)獲取的所述任意一待對齊本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),生成所述任意一待對齊本體的詞向量;分別獲取所述任意一查找到的候選本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),并根據(jù)獲取的所述任意一查找到的候選本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),生成所述任意一查找到的候選本體的詞向量;計算所述任意一待對齊本體的詞向量和所述任意一查找到的候選本體的詞向量之間的余弦夾角值,并將計算得到的余弦夾角值確定為所述任意一待對齊本體和所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度。

結(jié)合第一方面第五種可能的實現(xiàn)方式或者第六種可能的實現(xiàn)方式,在第七種可能的實現(xiàn)方式中,針對任意一查找到的候選本體,執(zhí)行如下操作:為所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度,分別設(shè)置相應(yīng)的權(quán)重值;根據(jù)所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度及其權(quán)重值,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度及其權(quán)重值,獲取所述任意一查找到的候選本體的綜合評分;或者,為所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度,以及所述任意一待對 齊本體與所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度,分別設(shè)置相應(yīng)的權(quán)重值;根據(jù)所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度及其權(quán)重值,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度及其權(quán)重值,以及所述任意一待對齊本體與所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度及其權(quán)重值,獲取所述任意一查找到的候選本體的綜合評分。

結(jié)合第一方面第一種可能的實現(xiàn)方式至第七種可能的實現(xiàn)方式中的任意一種,在第八種可能的實現(xiàn)方式中,當(dāng)所述所有查找到的候選本體中不包含綜合評分大于預(yù)設(shè)閾值的候選本體時,在所述已對齊本體集合中建立新的本體項目,并將所述任意一待對齊本體存儲至新建立的本體項目中。

第二方面,提供一種本體對齊裝置,包括:選取單元,用于從待對齊本體集合中選取任意一待對齊本體;其中,所述任意一待對齊本體包括所述待對齊本體名稱,所述任意一待對齊本體所屬類別標(biāo)簽,以及所述任意一待對齊本體的屬性信息,所述類別標(biāo)簽由自然語言描述,所述屬性信息由枚舉類型或者自然語言描述;查找單元,用于在已對齊本體集合中查找與所述選取單元選取的任意一待對齊本體名稱相同的候選本體;其中,所述候選本體包括所述候選本體名稱,所述候選本體所屬類別標(biāo)簽,以及所述候選本體的屬性信息所述類別標(biāo)簽由自然語言描述,所述屬性信息由枚舉類型或者自然語言描述;計算單元,用于根據(jù)所述任意一待對齊本體所屬類別標(biāo)簽,所述任意一待對齊本體的屬性信息,以及所述查找單元查找到的候選本體所屬類別標(biāo)簽,每一個查找到的候選本體的屬性信息,分別計算任意一待對齊本體與所述每一個查找到的候選本體之間的相似度;綜合評分獲取單元,用于根據(jù)所述計算單元計算得到的相似度,獲取每一個查找到的候選本體的綜合評分;選擇單元,用于從查找到的候選本體中選擇綜合評分大于或等于預(yù)設(shè)綜合評分閾值,且綜合評分最高的候選本體;對齊單元,用于將所述任意一待對齊本體與所述選擇單元選擇的所述候選本體進(jìn)行對齊。

結(jié)合第二方面,在第一種可能的實現(xiàn)方式中,還包括本體項目新建單元,用于:當(dāng)已對齊本體集合中不包含與所述任意一待對齊本體名稱相同的候選本體時,在所述已對齊本體集合中建立新的本體項目,并將所述任意一待對齊本體存儲至新建立的本體項目中。

結(jié)合第二方面,或者第二方面第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述屬性信息包含本體的屬性名及所述屬性名對應(yīng)的屬性值;所述計算單元,具體用于:對于任意一查找到的候選本體,執(zhí)行如下操作:根據(jù)所述任意一待對齊本體的屬性名和所述屬性名對應(yīng)的屬性值,以及所述任意一查找到的候選本體的屬性名及其對應(yīng)的屬性值,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度;根據(jù)所述任意一待對齊本體所屬類別標(biāo)簽,以及所述任意一查找到的候選本體所屬類別標(biāo)簽,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度。

結(jié)合第二方面第二種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,所述計算單元,具體用于:分別對所述任意一待對齊本體的每一個屬性名和所述任意一查找到的候選本體的每一個屬性名進(jìn)行匹配,獲取至少一個匹配成功的屬性名匹配對;對于獲取的任意一屬性名匹配對,執(zhí)行如下操作:根據(jù)所述任意一屬性名配對中第一個屬性名對應(yīng)的屬性值與第二個屬性名對應(yīng)的屬性值之間的編輯距離,計算所述第一個屬性名對應(yīng)的屬性值與所述第二個屬性名對應(yīng)的屬性值之間的相似度;當(dāng)所述第一個屬性名對應(yīng)的屬性值與第二個屬性名對應(yīng)的屬性值之間的相似度大于預(yù)設(shè)屬性值相似度閾值時,將所述任意一屬性名匹配對添加至預(yù)設(shè)的屬性信息配對集合中;將所述屬性信息配對集合中包含的所有屬性名配對分別對應(yīng)的相似度進(jìn)行累加,將獲取的累加值確定為所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度。

結(jié)合第二方面第二種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述計算單元,具體用于:對于任意一待對齊本體所屬所有類別標(biāo)簽中的任意一類 別標(biāo)簽,執(zhí)行如下操作:從所述任意一查找到的候選本體所屬所有類別標(biāo)簽中,選取與所述任意一類別標(biāo)簽相關(guān)性最大的候選類別標(biāo)簽;采用隨機(jī)游走算法,分別獲取所述任意一類別標(biāo)簽與每一個所述候選類別標(biāo)簽之間的相關(guān)度;根據(jù)獲取的所述任意一待對齊本體所屬每一個類別標(biāo)簽與所述任意一查找到的候選本體的每一個候選類別標(biāo)簽之間的相似度,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度。

結(jié)合第二方面第二種可能的實現(xiàn)方式至第四種可能的實現(xiàn)方式中的任意一種,在第五種可能的實現(xiàn)方式中,所述本體集合還包括非結(jié)構(gòu)化文本關(guān)鍵詞;其中,所述非結(jié)構(gòu)化文本關(guān)鍵詞包含一個或多個詞向量;所述計算單元,還用于:對于任意一查找到的候選本體,執(zhí)行如下操作:根據(jù)所述任意一待對齊本體的非結(jié)構(gòu)化文本關(guān)鍵詞,以及所述任意一查找到的候選本體的非結(jié)構(gòu)化文本關(guān)鍵詞,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度。

結(jié)合第二方面第五種可能的實現(xiàn)方式,在第六種可能的實現(xiàn)方式中,所述計算單元,具體用于:分別獲取所述任意一待對齊本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),并根據(jù)獲取的所述任意一待對齊本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),生成所述任意一待對齊本體的詞向量;分別獲取所述任意一查找到的候選本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),并根據(jù)獲取的所述任意一查找到的候選本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),生成所述任意一查找到的候選本體的詞向量;計算所述任意一待對齊本體的詞向量和所述任意一查找到的候選本體的詞向量之間的余弦夾角值,并將計算得到的余弦夾角值確定為所述任意一待對齊本體和所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度。

結(jié)合第二方面第五種可能的實現(xiàn)方式或者第六種可能的實現(xiàn)方式,在第七種可能的實現(xiàn)方式中,所述綜合評分獲取單元,具體用于:針對任意一查找到的候選本體,執(zhí)行如下操作:為所述任意一待對齊本體與所述任意一查找到的 候選本體之間屬性信息的相似度,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度,分別設(shè)置相應(yīng)的權(quán)重值;根據(jù)所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度及其權(quán)重值,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度及其權(quán)重值,獲取所述任意一查找到的候選本體的綜合評分;或者,為所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度,以及所述任意一待對齊本體與所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度,分別設(shè)置相應(yīng)的權(quán)重值;根據(jù)所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度及其權(quán)重值,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度及其權(quán)重值,以及所述任意一待對齊本體與所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度及其權(quán)重值,獲取所述任意一查找到的候選本體的綜合評分。

結(jié)合第二方面第一種可能的實現(xiàn)方式至第七種可能的實現(xiàn)方式中的任意一種,在第八種可能的實現(xiàn)方式中,所述本體項目新建單元,用于:當(dāng)所述所有查找到的候選本體中不包含綜合評分大于預(yù)設(shè)閾值的候選本體時,在所述已對齊本體集合中建立新的本體項目,并將所述任意一待對齊本體存儲至新建立的本體項目中。

本發(fā)明實施例中,結(jié)合待對齊本體名稱,待對齊本體的屬性信息,待對齊本體的類別標(biāo)簽,分別計算待對齊本體與每一個候選本體之間的相似度;根據(jù)計算得到的相似度,獲取每一個查找到的候選本體的綜合評分;從所有綜合評分中選取綜合評分大于或等于預(yù)設(shè)綜合評分閾值,且綜合評分最高的候選本體;將待對齊本體與選取的候選本體進(jìn)行對齊。采用本發(fā)明技術(shù)方案,在對本體進(jìn)行對齊的過程中,除考慮本體名稱之外,還綜合考慮本體的屬性信息和類別標(biāo)簽,避免了僅根據(jù)本體名稱進(jìn)行本體對齊所造成的對齊結(jié)果不準(zhǔn)確的問 題,保證了本體對齊的準(zhǔn)確性;并且,針對本體名稱相同的兩個不同的本體,還可以根據(jù)每一個本體的屬性信息和類別標(biāo)簽,確定該兩個本體為不同的本體,進(jìn)而不對該兩個本體進(jìn)行對齊,降低了本體對齊的錯誤率。

附圖說明

圖1為本發(fā)明實施例中對本體進(jìn)行對齊的流程圖;

圖2為本發(fā)明實施例中具體應(yīng)用場景中對本體進(jìn)行對齊的流程圖;

圖3為本發(fā)明實施例中應(yīng)用本發(fā)明本體對齊方式的效果示意圖;

圖4為本發(fā)明實施例中本體對齊裝置結(jié)構(gòu)示意圖;

圖5為本發(fā)明實施例中本體對齊設(shè)備結(jié)構(gòu)示意圖。

具體實施方式

為了解決目前在對不同數(shù)據(jù)庫本體進(jìn)行本體對齊時,存在對齊結(jié)果不準(zhǔn)確的問題。本發(fā)明實施例中,結(jié)合待對齊本體名稱,待對齊本體的屬性信息,待對齊本體的類別標(biāo)簽,分別計算待對齊本體與每一個候選本體之間的相似度;根據(jù)計算得到的相似度,獲取每一個查找到的候選本體的綜合評分;從所有綜合評分中選取綜合評分大于或等于預(yù)設(shè)綜合評分閾值,且綜合評分最高的候選本體;將待對齊本體與選取的候選本體進(jìn)行對齊。采用本發(fā)明技術(shù)方案,在對本體進(jìn)行對齊的過程中,除考慮本體名稱之外,還綜合考慮本體的屬性信息和類別標(biāo)簽,避免了僅根據(jù)本體名稱進(jìn)行本體對齊所造成的對齊結(jié)果不準(zhǔn)確的問題,保證了本體對齊的準(zhǔn)確性;并且,針對本體名稱相同的兩個不同的本體,還可以根據(jù)每一個本體的屬性信息和類別標(biāo)簽,確定該兩個本體為不同的本體,進(jìn)而不對該兩個本體進(jìn)行對齊,降低了本體對齊的錯誤率。

本發(fā)明實施例中,可以由任意一具備數(shù)據(jù)處理能力的終端執(zhí)行本體對齊操作,如該終端為服務(wù)器,或者,該終端為計算機(jī)等。

下面結(jié)合說明書附圖,對本發(fā)明實施例作進(jìn)一步詳細(xì)描述。

參閱圖1所示,本發(fā)明實施例中,在對本體進(jìn)行對齊的方法,包括:

步驟100:從待對齊本體集合中選取任意一待對齊本體;其中,任意一待對齊本體包含該任意一待對齊本體名稱,任意一待對齊本體所屬類別標(biāo)簽,任意一待對齊本體的屬性信息,且該類別標(biāo)簽由自然語言描述,該屬性信息由枚舉類型或者自然語言描述。

本發(fā)明實施例中,待對齊本體集合為未進(jìn)行對齊的所有本體的集合,終端從待對齊本體集合中選取任意一待對齊本體(以下簡稱待對齊本體),待對齊本體至少包含待對齊本體名稱,待對齊本體所屬類別標(biāo)簽,待對齊本體的屬性信息;待對齊本體的屬性信息包括屬性名、以及屬性名對應(yīng)的屬性值。

可選的,上述待對齊本體還包含非結(jié)構(gòu)化文本關(guān)鍵詞,其中,非結(jié)構(gòu)化文本即為描述本體特征的內(nèi)容,由一個或多個關(guān)鍵詞組成;例如,待對齊本體名稱為平頂山,待對齊本體所屬類別標(biāo)簽為地理名詞,待對齊本體的屬性名為“地理位置,占地面積,人口總數(shù)”等,則地理位置對應(yīng)的屬性值為河南省中南部,占地面積對應(yīng)的屬性值為7882平方千米,人口總數(shù)對應(yīng)的屬性值為502萬,待對齊本體的非結(jié)構(gòu)化文本為“平頂山市位于溫暖帶和亞熱帶氣候交錯的邊緣地區(qū),具有明顯的過渡性特征,四季分明,氣候溫和,雨水充沛,有沙河、汝河等三十一條河流。境內(nèi)叢林疊嶂,山巒起伏”,待對齊本體的非結(jié)構(gòu)化文本關(guān)鍵詞即由上述非結(jié)構(gòu)化文本中提取得到。

進(jìn)一步的,待對齊本體還可以包含待對齊本體的標(biāo)識。該待對齊本體可以表示為NE={TL,ID,C,TP,S};其中,TL表示待對齊本體名稱,ID表示待對齊本體的標(biāo)識;C表示待對齊本體所屬類別標(biāo)簽,該C可以為一個集合,如C={c1,c2,…,cn},即一個本體可以對應(yīng)于多個類別標(biāo)簽;TP表示待對齊本體的屬性信息,該TP為一個集合,可以表示為TP={p,o},p表示屬性名,o表示屬性值,此外,上述TP還可以包括本體名稱,用s表示;S表示待對齊本體的非結(jié)構(gòu)化文本關(guān)鍵詞,該S為一個集合,可以表示為S={w1,w2,…,wn},wi即為一個關(guān)鍵詞。

進(jìn)一步的,已對齊本體集合為已經(jīng)對齊完畢的所有候選本體的集合;且每一個候選本體同樣至少包含候選本體名稱,候選本體所屬類別標(biāo)簽,候選本體的屬性信息,其中,候選本體的屬性信息包括屬性名、以及屬性名對應(yīng)的屬性值;并且,在已對齊本體集合中,候選本體的標(biāo)識為唯一的,即每兩個候選本體的標(biāo)識均不相同。

可選的,上述候選本體還包含非結(jié)構(gòu)化文本關(guān)鍵詞和候選本體標(biāo)識;該候選本體可以表示為EC={TL’,ID’,C’,TP’,S’};其中,TL’表示候選本體名稱,ID’表示候選本體的標(biāo)識;C’表示候選本體所屬類別標(biāo)簽,該C’可以為一個集合,如C’={c1’,c2’,…,cn’},即一個本體可以對應(yīng)于多個類別標(biāo)簽;TP’表示候選本體的屬性信息,該TP’為一個集合,可以表示為TP={p’,o’},p’表示屬性名,o’表示屬性值,此外,上述TP’還可以包括本體名稱,用s’表示;S’表示候選本體的非結(jié)構(gòu)化文本關(guān)鍵詞,該S’為一個集合,可以表示為S’={w1’,w2’,…,wn’},wi’即為一個關(guān)鍵詞。

步驟110:在已對齊本體集合中查找與待對齊本體名稱相同的候選本體。

本發(fā)明實施例中,終端可以根據(jù)已對齊本體集合中每一個候選本體的名稱對候選本體進(jìn)行分類,即將名稱相同的候選本體劃分為一個分類,每一個分類中包含的候選本體通過標(biāo)識進(jìn)行區(qū)分。例如,已對齊本體集合中包含六個候選本體,根據(jù)名稱對已對齊本體集合中包含的候選本體進(jìn)行分類后,生成的分類為:{分類1(名稱1):標(biāo)識1,標(biāo)識3},{分類2(名稱2):標(biāo)識2,標(biāo)識6},{分類3(名稱3):標(biāo)識4,標(biāo)識5}。

可選的,終端還可以將待對齊本體與每一個查找到的候選本體組成本體匹配對,以便于后續(xù)終端計算每一個本體匹配對中包含的待對齊本體和查找到的候選本體之間的相似度。

采用上述技術(shù)方案,根據(jù)候選本體的名稱,將候選本體進(jìn)行分類,使終端獲取與待對齊本體名稱相同的候選本體的過程更加便捷,提高了獲取符合條件的候選本體的效率。

進(jìn)一步的,終端獲取待對齊本體名稱,并在已對齊本體集合中查找該待對齊本體名稱,若已對齊本體集合中存在該待對齊本體名稱,則獲取與待對齊本體名稱相同的標(biāo)識,并在已對齊本體集合中查找與獲取的標(biāo)識相對應(yīng)的候選本體;若已對齊本體集合中不包含與待對齊本體名稱相同的候選本體,則在終端本地建立新的本體項目,并將待對齊本體存儲至新建立的本體項目中,并為待對齊本體分配相應(yīng)的標(biāo)識。例如,待對齊本體名稱為名稱2,在已對齊本體集合中進(jìn)行查找操作之后,確定名稱2對應(yīng)的標(biāo)識為標(biāo)識2和標(biāo)識6,則獲取標(biāo)識2對應(yīng)的候選本體和標(biāo)識6對應(yīng)的候選本體;又如,待對齊本體名稱為名稱7,在已對齊本體集合中進(jìn)程查找操作之后,確定已對齊本體集合中不包含名稱7,則在終端本體建立新的本體項目,并將待對齊本體存儲至新建立的本體項目中,并將該待對齊本體的標(biāo)識設(shè)置為標(biāo)識7。

步驟120:根據(jù)任意一待對齊本體所屬類別標(biāo)簽,任意一待對齊本體的屬性信息,以及每一個查找到的候選本體所屬類別標(biāo)簽,每一個查找到的候選本體的屬性信息,分別計算待對齊本體與每一個查找到的候選本體之間的相似度。

本發(fā)明實施例中,終端在已對齊本體集合中查找到與待對齊本體名稱相同的候選本體之后,綜合考慮待對齊本體所屬類別標(biāo)簽和屬性信息,以及每一個查找到的候選本體所屬類別標(biāo)簽和屬性信息,計算待對齊本體與每一個查找到的候選本體之間的相似度。

具體的,終端對于任意一查找到的候選本體(以下簡稱候選本體A),執(zhí)行如下操作:根據(jù)待對齊本體的屬性名和屬性名對應(yīng)的屬性值,以及該候選本體A的屬性名及其對應(yīng)的屬性值,計算待對齊本體與該候選本體A之間屬性信息的相似度;根據(jù)待對齊本體所屬類別標(biāo)簽,以及上述候選本體A所屬類別標(biāo)簽,計算待對齊本體與該候選本體A之間所屬類別標(biāo)簽的相似度。

基于上述技術(shù)方案,終端需要獲取待對齊本體與該候選本體A之間屬性信息的相似度,待對齊本體與該候選本體A之間所屬類別標(biāo)簽的相似度。其中:

可選的,計算待對齊本體與上述候選本體A之間屬性信息的相似度的方法,具體包括:分別對待對齊本體的每一個屬性名和上述候選本體A的每一個屬性名進(jìn)行匹配,獲取至少一個匹配成功的屬性名匹配對;對于獲取的任意一屬性名匹配對,執(zhí)行如下操作:根據(jù)上述任意一屬性名配對中第一個屬性名對應(yīng)的屬性值與第二個屬性名對應(yīng)的屬性值之間的編輯距離,計算第一個屬性名對應(yīng)的屬性值與第二個屬性名對應(yīng)的屬性值之間的相似度,該編輯距離即為兩個字符串之間,由一個字符串轉(zhuǎn)換為另一個字符串所需要的編輯次數(shù);當(dāng)?shù)谝粋€屬性名對應(yīng)的屬性值與第二個屬性名對應(yīng)的屬性值之間的相似度大于預(yù)設(shè)屬性值相似度閾值時,將上述任意一屬性名匹配對添加至預(yù)設(shè)的屬性信息配對集合中,其中,該屬性值相似度閾值根據(jù)具體應(yīng)用場景預(yù)先設(shè)置獲得;采用上述方式將符合條件的所有屬性名匹配對添加至屬性信息配對集合中,并將屬性信息配對集合中包含的所有屬性名配對分別對應(yīng)的相似度進(jìn)行累加,將獲取的累加值確定為待對齊本體與上述候選本體A之間屬性信息的相似度。

在終端獲取待對齊本體與上述候選本體A之間屬性信息的相似度的過程中,可選的,終端分別獲取待對齊本體的每一個屬性名,以及候選本體A的每一個屬性名,當(dāng)存在待對齊本體的任一屬性名p和候選本體A的任一屬性名p’相同時,確定該待對齊本體的任一屬性名p和候選本體A的任一屬性名p’為匹配成功的屬性名匹配對;例如,待對齊本體的屬性名p為人口數(shù)量,候選本體A也存在屬性名為人口數(shù)量的屬性名p’,則將屬性名p和屬性名p’作為匹配成功的屬性名匹配對。或者,終端分別獲取待對齊本體的每一個屬性名所映射的屬性,以及候選本體A的每一個屬性名所映射的屬性,當(dāng)存在待對齊本體的任一屬性名p和候選本體A的任一屬性名p’映射至同一個屬性時,確定該待對齊本體的任一屬性名p和候選本體A的任一屬性名p’為匹配成功的屬性名匹配對,其中,屬性名和屬性之間的映射關(guān)系可以根據(jù)學(xué)習(xí)或者預(yù)先設(shè)置獲得;例如,待對齊本體的屬性名p為工作,該屬性名p映射至屬性P1,候選本體A存在屬性名為職業(yè)的p’,該屬性名p’映射至屬性P1,則將屬性名p和 屬性名p’作為匹配成功的屬性名匹配對。

在上述過程中,根據(jù)屬性值的不同,終端計算第一個屬性名對應(yīng)的屬性值與第二個屬性名對應(yīng)的屬性值之間的相似度的方法不同,具體的包含以下幾種情況:

第一種情況:當(dāng)?shù)谝粋€屬性名對應(yīng)一個屬性值,且第二個屬性名也對應(yīng)一個屬性值,且屬性值均為字符型數(shù)據(jù)時,終端可以直接比較第一個屬性對應(yīng)的屬性值和第二個屬性對應(yīng)的屬性值是否相同,根據(jù)比較結(jié)果,獲取屬性名匹配對對應(yīng)的相似度;例如,屬性名為性別,當(dāng)?shù)谝粋€屬性名對應(yīng)的屬性值為男,第二個屬性名對應(yīng)的屬性值為女時,該屬性名匹配對對應(yīng)的相似度為0;又如,屬性名為性別,當(dāng)?shù)谝粋€屬性名對應(yīng)的屬性值為男,第二個屬性名對應(yīng)的屬性值為男時,該屬性名匹配對對應(yīng)的相似度為1。

第二種情況:當(dāng)?shù)谝粋€屬性名對應(yīng)一個屬性值,且第二個屬性名也對應(yīng)一個屬性值,且屬性值均為數(shù)值型數(shù)據(jù)時,終端可以直接比較第一個屬性對應(yīng)的屬性值和第二個屬性對應(yīng)的屬性值之間的差距,根據(jù)比較結(jié)果,獲取屬性名匹配對對應(yīng)的相似度;例如,屬性名為年齡,當(dāng)?shù)谝粋€屬性名對應(yīng)的屬性值為35,第二個屬性名對應(yīng)的屬性值為36時,終端可以計算兩個屬性名之差與兩個屬性名之和的比值,將該比值作為該屬性名匹配對對應(yīng)的相似度。

第三種情況:當(dāng)?shù)谝粋€屬性名和第二個屬性名中存在任意一屬性名對應(yīng)至少兩個屬性值,且該屬性值為字符型數(shù)據(jù)時,終端可以確定第一個屬性名和第二個屬性名對應(yīng)的相同的屬性值,并根據(jù)確定的屬性值,獲取屬性名匹配對對應(yīng)的相似度;例如,本體名稱為曹操,屬性名為職業(yè),第一個屬性名對應(yīng)的職業(yè)為軍事家、政治家、文學(xué)家、書法家,第二個屬性名對應(yīng)的職業(yè)為軍事家、政治家、軍事家、文學(xué)家、魏王,終端判斷第一個屬性名對應(yīng)的屬性值和第二個屬性名對應(yīng)的屬性值之間擁有相同屬性值的數(shù)目為3,第一個屬性名和第二個屬性名對應(yīng)的屬性值總數(shù)目為5,則可以將相同屬性值的數(shù)目和屬性值總數(shù)目之間的比值,作為屬性名匹配對對應(yīng)的相似度,即相似度=3/5。

第四種情況:當(dāng)?shù)谝粋€屬性名和第二個屬性名中存在任意一屬性名對應(yīng)至少兩個屬性值,且該屬性值為數(shù)值型數(shù)據(jù)時,終端可以確定第一個屬性名對應(yīng)的所有屬性值中的最大值(以下簡稱第一最大值)和最小值(以下簡稱第一最小值),并確定第一個屬性名對應(yīng)的所有屬性值中的最大值(以下簡稱第二最大值)和最小值(以下簡稱第二最小值),對上述第一最大值、第二最大值、第一最小值和第二最小值進(jìn)行運(yùn)算,獲取屬性名匹配對對應(yīng)的相似度。例如,終端可以將第一最大值和第二最大值之差,與第一最小值和第二最小值之差之間的比值,作為屬性名匹配對對應(yīng)的相似度,即屬性名=(第一最大值-第二最大值)/(第一最小值-第二最小值);除此之外,終端還可以采用其他運(yùn)算方式計算屬性名匹配對對應(yīng)的相似度,在此不再贅述。

在終端獲取待對齊本體與上述候選本體A之間屬性信息的相似度的過程中,可選的,終端采用如下公式,計算待對齊本體與上述候選本體A之間屬性信息的相似度:

<mrow> <mi>SIM</mi> <mrow> <mo>(</mo> <mi>TP</mi> <mn>1</mn> <mo>,</mo> <msup> <mrow> <mi>TP</mi> <mn>1</mn> </mrow> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <msub> <mi>tps</mi> <mi>k</mi> </msub> <mo>&Element;</mo> <mi>Pair</mi> </mrow> </munder> <mi>sim</mi> <mrow> <mo>(</mo> <msub> <mi>tps</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow>公式一

其中,TP1表示待對齊本體的屬性信息;TP1’表示候選本體A的屬性信息;SIM(TP1,TP1’)表示待對齊本體與候選本體A之間屬性信息的相似度;pair表示屬性信息配對集合;tpsk表示任意一屬性名匹配且相似度大于預(yù)設(shè)閾值的屬性對,如(p,p’);sim(tpsk)表示任意一屬性名匹配且相似度大于預(yù)設(shè)閾值的屬性對對應(yīng)的相似度。

可選的,計算待對齊本體與候選本體A之間所屬類別標(biāo)簽的相似度的方法,具體包括:對于待對齊本體所屬所有類別標(biāo)簽中的任意一類別標(biāo)簽(以下簡稱類別標(biāo)簽c1),執(zhí)行如下操作:從候選本體A所屬所有類別標(biāo)簽中,選取與類別標(biāo)簽c1相關(guān)性最大的候選類別標(biāo)簽(如c1’);采用隨機(jī)游走算法,分別獲取類別標(biāo)簽c1與每一個候選類別標(biāo)簽之間的相關(guān)度;采用上述方式,獲取待對齊本體所屬每一個類別標(biāo)簽與候選本體A的每一個候選類別標(biāo)簽之間的相似度;根據(jù)獲取的待對齊本體所屬每一個類別標(biāo)簽與候選本體A的每一個 候選類別標(biāo)簽之間的相似度,計算待對齊本體與候選本體A之間所屬類別標(biāo)簽的相似度。

可選的,終端可以采用如下公式計算待對齊本體與候選本體A之間所屬類別標(biāo)簽的相似度:

<mrow> <mi>SIM</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>,</mo> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>&times;</mo> <mo>[</mo> <mi>SR</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>&RightArrow;</mo> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mi>SR</mi> <mrow> <mo>(</mo> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mo>&RightArrow;</mo> <mi>C</mi> <mo>)</mo> </mrow> <mo>]</mo> </mrow>公式二

其中,C為待對齊本體所屬類別標(biāo)簽向量,根據(jù)待對齊本體所屬類別標(biāo)簽集合生成,如該C=(c1,c2,…,cn);C’表示候選本體A所屬類別標(biāo)簽向量,根據(jù)候選本體A所屬類別標(biāo)簽集合生成,如該C’=(c1’,c2’,…,cn’);SIM(C,C’)表示待對齊本體與候選本體A之間所屬類別標(biāo)簽的相似度;SR(C→C')表示類別標(biāo)簽向量C到類別標(biāo)簽向量C’的相似度;SR(C'→C)表示類別標(biāo)簽向量C’到類別標(biāo)簽向量C的相似度。

在上述公式二中,終端可以通過如下公式計算SR(C→C'):

<mrow> <mi>SR</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>&RightArrow;</mo> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>C</mi> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>C</mi> <mo>|</mo> <mo>|</mo> </mrow> </munderover> <mi>w</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>C</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>w</mi> <mo>[</mo> <mi>Align</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>,</mo> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mo>]</mo> <mo>&times;</mo> <mi>sr</mi> <mo>[</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Align</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>]</mo> </mrow> <mrow> <munderover> <mi>&Sigma;</mi> <mrow> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <mi>C</mi> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <mi>C</mi> <mo>|</mo> <mo>|</mo> </mrow> </munderover> <mi>w</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>C</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>w</mi> <mrow> <mo>(</mo> <mi>Align</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>,</mo> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>公式三

其中,ci表示待對齊本體所屬類別標(biāo)簽向量C中的任意一類別標(biāo)簽;||C||表示對待對齊本體所屬類別標(biāo)簽向量C進(jìn)行泛數(shù)運(yùn)算;w(ci,C)表示類別標(biāo)簽ci在類別標(biāo)簽向量C中的權(quán)重,該權(quán)重可以由學(xué)習(xí)過程獲得,也可以根據(jù)具體應(yīng)用場景預(yù)先設(shè)置獲得;Align(ci,C')表示在候選本體A所屬類別標(biāo)簽向量C’包含的所有類別標(biāo)簽中,與類別標(biāo)簽ci相關(guān)性最大的類別標(biāo)簽(以下用C”表示);w[Align(ci,C'),C’]表示類別標(biāo)簽C”在類別標(biāo)簽向量C中的權(quán)重,該權(quán)重可以由學(xué)習(xí)過程獲得,也可以根據(jù)具體應(yīng)用場景預(yù)先設(shè)置獲得;sr[ci,Align(ci,C')]表示類別標(biāo)簽ci和類別標(biāo)簽C”之間的相似度。

在上述過程中,Align(ci,C')也可以采用隨機(jī)游走算法獲得;可選的,Align(ci,C')可以采用如下公式獲得:

<mrow> <mi>Align</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi> </mi> <mi>max</mi> <mi> sr</mi> </mrow> <mrow> <msup> <msub> <mi>c</mi> <mi>k</mi> </msub> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <msup> <mi>C</mi> <mo>&prime;</mo> </msup> </mrow> </munder> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>,</mo> <msup> <msub> <mi>c</mi> <mi>k</mi> </msub> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> </mrow> 公式四

其中,sr(ci,ck')表示類別標(biāo)簽ci和ck’類別標(biāo)簽之間的相似度。

可選的,該sr(ci,ck')可以通過隨機(jī)游走算法獲得。具體的,終端在本地建立共現(xiàn)矩陣Mnorm,該共現(xiàn)矩陣Mnorm中的每一個元素均表示歸一化處理后的待對齊本體和候選本體A共同出現(xiàn)的次數(shù);采用如下公式計算待對齊本體和候選本體A之間類別標(biāo)簽的相似度矩陣:

Pi=(1-λ)Mnorm·Pi-1+λP0 公式五

其中,Pi表示第i步隨機(jī)游走得到的待對齊本體和候選本體A之間類別標(biāo)簽的相似度矩陣;Mnorm為共現(xiàn)矩陣;Pi-1表示第i-1步隨機(jī)游走得到的待對齊本體和候選本體A之間類別標(biāo)簽的相似度矩陣;P0表示初始單位矩陣;λ為預(yù)設(shè)參數(shù),λ取值范圍為0~1。

終端基于上述待對齊本體和候選本體A之間類別標(biāo)簽的相似度矩陣Pi,直接從該矩陣Pi中查詢第i行第k列的數(shù)值,該數(shù)值即為類別標(biāo)簽ci和ck’類別標(biāo)簽之間的相似度sr(ci,ck')。

進(jìn)一步的,本體中還包括非結(jié)構(gòu)化文本關(guān)鍵詞,終端可以綜合考慮該非結(jié)構(gòu)化文本關(guān)鍵詞,即終端根據(jù)待對齊本體的非結(jié)構(gòu)化文本關(guān)鍵詞,以及該候選本體A的非結(jié)構(gòu)化文本關(guān)鍵詞,計算待對齊本體與上述候選本體A之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度,具體包括:分別獲取待對齊本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),并根據(jù)獲取的待對齊本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),生成待對齊本體的詞向量;分別獲取候選本體A的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),并根據(jù)獲取的候選本體A的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),生成候選本體A的詞向量;計算待對齊本體的詞向量和候選本體A的詞向量之間的余弦夾角值,并將計算得到的余弦夾角值確定為待對齊本體和候選本體A之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度。

在終端獲取待對齊本體與候選本體A之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度 的過程中,可選的,終端采用TF-IDF(Term Frequency Inverse Document Frequency)方法提取待對齊本體的非結(jié)構(gòu)化文本中的關(guān)鍵詞,生成詞向量S1;以及,終端采用TF-IDF方法提取候選本體A的非結(jié)構(gòu)化文本中的關(guān)鍵詞,生成詞向量S1’;終端可以采用如下公式獲取待對齊本體與候選本體A之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度:

SIM(S1,S1')=cos(S1,S1') 公式六

其中,SIM(S1,S1’)表示詞向量S1和詞向量S1’之間的相似度;cos(S1,S1’)表示詞向量S1和詞向量S1’之間的余弦值。

步驟130:根據(jù)計算得到的相似度,獲取每一個查找到的候選本體的綜合評分。

針對候選本體A,執(zhí)行如下操作:為待對齊本體與候選本體A之間屬性信息的相似度,待對齊本體與候選本體A之間所屬類別標(biāo)簽的相似度,分別設(shè)置相應(yīng)的權(quán)重值;根據(jù)待對齊本體與候選本體A之間屬性信息的相似度及其權(quán)重值,待對齊本體與候選本體A之間所屬類別標(biāo)簽的相似度及其權(quán)重值,獲取候選本體A的綜合評分;或者,為待對齊本體與候選本體A之間屬性信息的相似度,待對齊本體與候選本體A之間所屬類別標(biāo)簽的相似度,以及待對齊本體與候選本體A之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度,分別設(shè)置相應(yīng)的權(quán)重值;根據(jù)待對齊本體與候選本體A之間屬性信息的相似度及其權(quán)重值,待對齊本體與候選本體A之間所屬類別標(biāo)簽的相似度及其權(quán)重值,以及待對齊本體與候選本體A之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度及其權(quán)重值,獲取候選本體A的綜合評分。

可選的,終端可以通過以下公式七或者公式八獲取候選本體A的綜合評分:

SIM(NE,EC)=w1×SIM(TP1,TP1')+w2×SIM(C1,C1') 公式七

SIM(NE,EC)=w1×SIM(TP1,TP1')+w2×SIM(C1,C1')+w3×SIM(S1,S1') 公式八

其中,NE表示待對齊本體;EC表示候選本體A的集合;SIM(NE,EC) 表示候選本體A的綜合評分;TP1為待對齊本體的屬性信息;TP1’為候選本體A的屬性信息;SIM(TP1,TP1’)表示待對齊本體與候選本體A之間屬性信息的相似度;w1表示屬性信息相似度的權(quán)重,該權(quán)重可以由學(xué)習(xí)過程獲得,也可以根據(jù)具體應(yīng)用場景預(yù)先設(shè)置獲得;C表示待對齊本體所屬類別標(biāo)簽向量;C’表示候選本體A所屬類別標(biāo)簽向量;SIM(C,C’)表示待對齊本體與候選本體A之間所屬類別標(biāo)簽的相似度;w2表示類別標(biāo)簽相似度的權(quán)重,該權(quán)重可以由學(xué)習(xí)過程獲得,也可以根據(jù)具體應(yīng)用場景預(yù)先設(shè)置獲得;S1表示待對齊本體的詞向量;S2表示候選本體A的詞向量;SIM(S1,S1’)表示詞向量S1和詞向量S1’之間的相似度;w3表示詞向量相似度的權(quán)重,該權(quán)重可以由學(xué)習(xí)過程獲得,也可以根據(jù)具體應(yīng)用場景預(yù)先設(shè)置獲得。

相較于僅根據(jù)本體的名稱確定相似度的方法,采用上述技術(shù)方案,終端在利用候選本體名稱對候選本體進(jìn)行篩選之后,根據(jù)篩選后的候選本體的類別標(biāo)簽、屬性信息、非結(jié)構(gòu)化文本關(guān)鍵詞多方面因素確定候選本體和待對齊本體的相似度,由于本體的屬性信息、類別標(biāo)簽和非結(jié)構(gòu)化文本關(guān)鍵詞均能夠反映本體的本質(zhì)特性,因此,采用本發(fā)明技術(shù)方案能夠有效提高本體相似度判定的準(zhǔn)確性。

步驟140:從查找到的候選本體中選取綜合評分大于或等于預(yù)設(shè)綜合評分閾值,且綜合評分最高的候選本體。

本發(fā)明實施例中,終端獲取每一個候選本體的綜合評分,并從查找到的候選本體中選取綜合評分大于或等于預(yù)設(shè)綜合評分閾值的候選本體;以及對選取的候選本體進(jìn)行排序,獲取該選取的候選本體中綜合評分最高的候選本體。其中,該綜合評分閾值為根據(jù)具體應(yīng)用場景預(yù)先設(shè)置的值。

可選的,終端可以通過如下公式獲取綜合評分大于或等于預(yù)設(shè)綜合評分閾值,且綜合評分最高的候選本體:

<mrow> <mi>Align</mi> <mrow> <mo>(</mo> <mi>NE</mi> <mo>,</mo> <mi>EC</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi> </mi> <mi>max</mi> </mrow> <mrow> <msub> <mi>EC</mi> <mi>p</mi> </msub> <mo>&Element;</mo> <msup> <mi>EC</mi> <mo>&prime;</mo> </msup> </mrow> </munder> <mi>SIM</mi> <mrow> <mo>(</mo> <msub> <mrow> <mi>NE</mi> <mo>,</mo> <mi>EC</mi> </mrow> <mi>p</mi> </msub> <mo>)</mo> </mrow> </mrow> 公式九

其中,NE表示待對齊本體;EC’表示所有候選本體;Align(NE,EC) 表示綜合評分最高的候選本體;ECp表示任意一綜合評分大于或等于預(yù)設(shè)綜合評分閾值的候選本體;SIM(NE,ECp)表示候選本體ECp的綜合評分。

步驟150:將待對齊本體與選取的候選本體進(jìn)行對齊。

本發(fā)明實施例中,終端將待對齊本體以及選取的候選本體進(jìn)行對齊,如候選本體A的綜合評分大于等于預(yù)設(shè)綜合評分閾值,且候選本體A為綜合評分最高的候選本體,此時,終端候選本體A作為對齊結(jié)果輸出。或者,終端將候選本體A和待對齊本體中包含所有內(nèi)容中不存在矛盾、且不重復(fù)部分的內(nèi)容進(jìn)行合并。

進(jìn)一步的,當(dāng)所有綜合評分中不包含綜合評分大于預(yù)設(shè)閾值的候選本體時,在終端本體建立新的本體項目,并將待對齊本體存儲至新建立的本體項目中,并為待對齊本體分配相應(yīng)的標(biāo)識。

基于上述技術(shù)方案,參閱圖2所示,下面結(jié)合具體應(yīng)用場景,以待對齊本體為NE,已對齊本體集合中包含根據(jù)候選本體名稱進(jìn)行劃分的多個分類,候選本體為NCp為例,詳細(xì)描述終端在對本體進(jìn)行對齊的方法:

步驟201:終端獲取待對齊本體集合中包含的任意一待對齊本體NE。

本發(fā)明實施例中,待對齊本體NE可以表示為:NE={TL,ID,C,TP,S}。

步驟202:終端判斷已對齊本體集合的所有分類中是否包含待對齊NE的名稱TL;若是,執(zhí)行步驟203;否則,在已對齊本體集合中建立新的本體項目,并將待對齊本體存儲至新建立的本體項目中,并為待對齊本體分配相應(yīng)的標(biāo)識。

本發(fā)明實施例中,已對齊本體集合中包含如下所示的分類:{分類1(名稱1):標(biāo)識1,標(biāo)識TL3},{分類2(名稱2):標(biāo)識2,標(biāo)識6},{分類3(名稱3):標(biāo)識4,標(biāo)識5}。

步驟203:終端獲取對應(yīng)于待對齊本體名稱的所有候選本體標(biāo)識。

步驟204:終端根據(jù)上述獲取的所有候選本體標(biāo)識,從已對齊本體集合中 查找上述獲取的每一個候選本體標(biāo)識對應(yīng)的候選本體。

步驟205:終端分別將每一個查找到的候選本體與待對齊本體NE組成候選對齊對。

本發(fā)明實施例中,終端對于任意一查找到的候選本體,將該任意一查找到的候選本體與待對齊本體組成候選對齊對,該候選本體對可以表示為Pair(ECp,NE)。

步驟206:終端分別計算每一個候選本體對中包含的待對齊本體的與候選本體之間屬性信息的相似度。

本發(fā)明實施例中,終端采用上述公式一計算每一個候選本體對中包含的待對齊本體的與候選本體之間屬性信息的相似度。

步驟207:終端分別計算每一個候選本體對中包含的待對齊本體與候選本體之間所屬類別標(biāo)簽的相似度。

本發(fā)明實施例中,終端采用上述公式二計算每一個候選本體對中包含的待對齊本體與候選本體之間所屬類別標(biāo)簽的相似度。

步驟208:終端分別計算每一個候選本體對中包含的待對齊本體與候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度。

本發(fā)明實施例中,終端采用公式六計算每一個候選本體對中包含的待對齊本體與候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度。

可選的,上述步驟206至步驟208不分先后順序,也可以同時執(zhí)行上述三個步驟。

步驟209:終端根據(jù)計算得到的相似度,獲取每一個查找到的候選本體的綜合評分。

本發(fā)明實施例中,終端采用公式七或公式八獲取每一個查找到的候選本體的綜合評分。

步驟210:終端判斷所有查找到的候選本體中是否存在綜合評分大于或等于預(yù)設(shè)綜合評分閾值,且綜合評分最高的候選本體,若存在,執(zhí)行步驟211; 否則,在終端本地建立新的本體項目,并將待對齊本體NE存儲至新建立的本體項目中,并為待對齊本體分配相應(yīng)的標(biāo)識。

本發(fā)明實施例中,終端采用公式九獲取綜合評分最高的候選本體。

步驟211:終端將待對齊本體NE與選取的候選本體進(jìn)行對齊,將選取的候選本體作為對齊結(jié)果輸出;或者終端將候選本體與待對齊本體NE中不存在矛盾且不存在重復(fù)部分的內(nèi)容進(jìn)行合并。

參閱圖3所示,為采用本發(fā)明技術(shù)方案,相對于僅采用屬性信息、類別標(biāo)簽、屬性信息與類別標(biāo)簽、以及非結(jié)構(gòu)化文本關(guān)鍵詞的效果示意圖,其中,橫軸表示查全率,縱軸表示準(zhǔn)確率。由圖3可知,采用本發(fā)明技術(shù)方案,綜合考慮本體的多種特性,保證了本體對齊的準(zhǔn)確性;并且,針對本體名稱相同的兩個不同的本體,還可以根據(jù)每一個本體的屬性信息、類別標(biāo)簽和非結(jié)構(gòu)化文本關(guān)鍵詞,確定該兩個本體為不同的本體,進(jìn)而不對該兩個本體進(jìn)行對齊,降低了本體對齊的錯誤率。

基于上述技術(shù)方案,參閱圖4所示,本發(fā)明實施例還提供一種本體對齊裝置,包括選取單元40,查找單元41,計算單元42,綜合評分獲取單元43,選擇單元44,以及對齊單元45,其中:

選取單元40,用于從待對齊本體集合中選取任意一待對齊本體;其中,所述任意一待對齊本體包括所述待對齊本體名稱,所述任意一待對齊本體所屬類別標(biāo)簽,以及所述任意一待對齊本體的屬性信息,所述類別標(biāo)簽由自然語言描述,所述屬性信息由枚舉類型或者自然語言描述;

查找單元41,用于在已對齊本體集合中查找與所述選取單元40選取的任意一待對齊本體名稱相同的候選本體;其中,所述候選本體包括所述候選本體名稱,所述候選本體所屬類別標(biāo)簽,以及所述候選本體的屬性信息所述類別標(biāo)簽由自然語言描述,所述屬性信息由枚舉類型或者自然語言描述;

計算單元42,用于根據(jù)所述任意一待對齊本體所屬類別標(biāo)簽,所述任意一待對齊本體的屬性信息,以及所述查找單元41查找到的候選本體所屬類別標(biāo) 簽,每一個查找到的候選本體的屬性信息,分別計算任意一待對齊本體與所述每一個查找到的候選本體之間的相似度;

綜合評分獲取單元43,用于根據(jù)所述計算單元42計算得到的相似度,獲取每一個查找到的候選本體的綜合評分;

選擇單元44,用于從查找到的候選本體中選擇綜合評分大于或等于預(yù)設(shè)綜合評分閾值,且綜合評分最高的候選本體;

對齊單元45,用于將所述任意一待對齊本體與所述選擇單元44選擇的所述候選本體進(jìn)行對齊。

進(jìn)一步的,上述裝置還包括本體項目新建單元46,用于:當(dāng)已對齊本體集合中不包含與所述任意一待對齊本體名稱相同的候選本體時,在所述已對齊本體集合中建立新的本體項目,并將所述任意一待對齊本體存儲至新建立的本體項目中。

可選的,所述屬性信息包含本體的屬性名及所述屬性名對應(yīng)的屬性值;所述計算單元42,具體用于:對于任意一查找到的候選本體,執(zhí)行如下操作:根據(jù)所述任意一待對齊本體的屬性名和所述屬性名對應(yīng)的屬性值,以及所述任意一查找到的候選本體的屬性名及其對應(yīng)的屬性值,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度;根據(jù)所述任意一待對齊本體所屬類別標(biāo)簽,以及所述任意一查找到的候選本體所屬類別標(biāo)簽,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度。

可選的,所述計算單元42,具體用于:分別對所述任意一待對齊本體的每一個屬性名和所述任意一查找到的候選本體的每一個屬性名進(jìn)行匹配,獲取至少一個匹配成功的屬性名匹配對;對于獲取的任意一屬性名匹配對,執(zhí)行如下操作:根據(jù)所述任意一屬性名配對中第一個屬性名對應(yīng)的屬性值與第二個屬性名對應(yīng)的屬性值之間的編輯距離,計算所述第一個屬性名對應(yīng)的屬性值與所述第二個屬性名對應(yīng)的屬性值之間的相似度;當(dāng)所述第一個屬性名對應(yīng)的屬性值 與第二個屬性名對應(yīng)的屬性值之間的相似度大于預(yù)設(shè)屬性值相似度閾值時,將所述任意一屬性名匹配對添加至預(yù)設(shè)的屬性信息配對集合中;將所述屬性信息配對集合中包含的所有屬性名配對分別對應(yīng)的相似度進(jìn)行累加,將獲取的累加值確定為所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度。

可選的,所述計算單元42,具體用于:對于任意一待對齊本體所屬所有類別標(biāo)簽中的任意一類別標(biāo)簽,執(zhí)行如下操作:從所述任意一查找到的候選本體所屬所有類別標(biāo)簽中,選取與所述任意一類別標(biāo)簽相關(guān)性最大的候選類別標(biāo)簽;采用隨機(jī)游走算法,分別獲取所述任意一類別標(biāo)簽與每一個所述候選類別標(biāo)簽之間的相關(guān)度;根據(jù)獲取的所述任意一待對齊本體所屬每一個類別標(biāo)簽與所述任意一查找到的候選本體的每一個候選類別標(biāo)簽之間的相似度,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度。

進(jìn)一步的,所述本體集合還包括非結(jié)構(gòu)化文本關(guān)鍵詞;其中,所述非結(jié)構(gòu)化文本關(guān)鍵詞包含一個或多個詞向量;所述計算單元42,還用于:對于任意一查找到的候選本體,執(zhí)行如下操作:根據(jù)所述任意一待對齊本體的非結(jié)構(gòu)化文本關(guān)鍵詞,以及所述任意一查找到的候選本體的非結(jié)構(gòu)化文本關(guān)鍵詞,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度。

可選的,所述計算單元42,具體用于:分別獲取所述任意一待對齊本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),并根據(jù)獲取的所述任意一待對齊本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),生成所述任意一待對齊本體的詞向量;分別獲取所述任意一查找到的候選本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),并根據(jù)獲取的所述任意一查找到的候選本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),生成所述任意一查找到的候選本體的詞向量;計算所述任意一待對齊本體的詞向量和所述任意一查找到的候選本體的詞向量之 間的余弦夾角值,并將計算得到的余弦夾角值確定為所述任意一待對齊本體和所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度。

可選的,所述綜合評分獲取單元43,具體用于:針對任意一查找到的候選本體,執(zhí)行如下操作:為所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度,分別設(shè)置相應(yīng)的權(quán)重值;根據(jù)所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度及其權(quán)重值,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度及其權(quán)重值,獲取所述任意一查找到的候選本體的綜合評分;或者,為所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度,以及所述任意一待對齊本體與所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度,分別設(shè)置相應(yīng)的權(quán)重值;根據(jù)所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度及其權(quán)重值,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度及其權(quán)重值,以及所述任意一待對齊本體與所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度及其權(quán)重值,獲取所述任意一查找到的候選本體的綜合評分。

可選的,所述本體項目新建單元46,用于:當(dāng)所述所有查找到的候選本體中不包含綜合評分大于預(yù)設(shè)閾值的候選本體時,在所述已對齊本體集合中建立新的本體項目,并將所述任意一待對齊本體存儲至新建立的本體項目中。

基于上述技術(shù)方案,參閱圖5所示,本發(fā)明實施例還提供一種本體對齊設(shè)備,包括存儲器50,以及處理器51,其中:

所述存儲器50,用于存儲應(yīng)用程序;

所述處理器51,用于運(yùn)行所述存儲器50中存儲的應(yīng)用程序,執(zhí)行如下操作:

從待對齊本體集合中選取任意一待對齊本體;其中,所述任意一待對齊本體包括所述待對齊本體名稱,所述任意一待對齊本體所屬類別標(biāo)簽,以及所述任意一待對齊本體的屬性信息,所述類別標(biāo)簽由自然語言描述,所述屬性信息由枚舉類型或者自然語言描述;在已對齊本體集合中查找與所述選取單元選取的任意一待對齊本體名稱相同的候選本體;其中,所述候選本體包括所述候選本體名稱,所述候選本體所屬類別標(biāo)簽,以及所述候選本體的屬性信息所述類別標(biāo)簽由自然語言描述,所述屬性信息由枚舉類型或者自然語言描述;根據(jù)所述任意一待對齊本體所屬類別標(biāo)簽,所述任意一待對齊本體的屬性信息,以及所述查找單元查找到的候選本體所屬類別標(biāo)簽,每一個查找到的候選本體的屬性信息,分別計算任意一待對齊本體與所述每一個查找到的候選本體之間的相似度;根據(jù)所述計算單元計算得到的相似度,獲取每一個查找到的候選本體的綜合評分;從查找到的候選本體中選擇綜合評分大于或等于預(yù)設(shè)綜合評分閾值,且綜合評分最高的候選本體;將所述任意一待對齊本體與所述選擇單元選擇的所述候選本體進(jìn)行對齊。

進(jìn)一步的,所述處理器51,還用于:當(dāng)已對齊本體集合中不包含與所述任意一待對齊本體名稱相同的候選本體時,在所述已對齊本體集合中建立新的本體項目,并通知存儲器50將所述任意一待對齊本體存儲至新建立的本體項目中。

可選的,所述屬性信息包含本體的屬性名及所述屬性名對應(yīng)的屬性值;所述處理器51,具體用于:對于任意一查找到的候選本體,執(zhí)行如下操作:根據(jù)所述任意一待對齊本體的屬性名和所述屬性名對應(yīng)的屬性值,以及所述任意一查找到的候選本體的屬性名及其對應(yīng)的屬性值,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度;根據(jù)所述任意一待對齊本體所屬類別標(biāo)簽,以及所述任意一查找到的候選本體所屬類別標(biāo)簽,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度。

可選的,所述處理器51,具體用于:分別對所述任意一待對齊本體的每一個屬性名和所述任意一查找到的候選本體的每一個屬性名進(jìn)行匹配,獲取至少一個匹配成功的屬性名匹配對;對于獲取的任意一屬性名匹配對,執(zhí)行如下操作:根據(jù)所述任意一屬性名配對中第一個屬性名對應(yīng)的屬性值與第二個屬性名對應(yīng)的屬性值之間的編輯距離,計算所述第一個屬性名對應(yīng)的屬性值與所述第二個屬性名對應(yīng)的屬性值之間的相似度;當(dāng)所述第一個屬性名對應(yīng)的屬性值與第二個屬性名對應(yīng)的屬性值之間的相似度大于預(yù)設(shè)屬性值相似度閾值時,將所述任意一屬性名匹配對添加至預(yù)設(shè)的屬性信息配對集合中;將所述屬性信息配對集合中包含的所有屬性名配對分別對應(yīng)的相似度進(jìn)行累加,將獲取的累加值確定為所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度。

可選的,所述處理器51,具體用于:對于任意一待對齊本體所屬所有類別標(biāo)簽中的任意一類別標(biāo)簽,執(zhí)行如下操作:從所述任意一查找到的候選本體所屬所有類別標(biāo)簽中,選取與所述任意一類別標(biāo)簽相關(guān)性最大的候選類別標(biāo)簽;采用隨機(jī)游走算法,分別獲取所述任意一類別標(biāo)簽與每一個所述候選類別標(biāo)簽之間的相關(guān)度;根據(jù)獲取的所述任意一待對齊本體所屬每一個類別標(biāo)簽與所述任意一查找到的候選本體的每一個候選類別標(biāo)簽之間的相似度,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度。

可選的,所述本體集合還包括非結(jié)構(gòu)化文本關(guān)鍵詞;其中,所述非結(jié)構(gòu)化文本關(guān)鍵詞包含一個或多個詞向量;所述處理器51,還用于:對于任意一查找到的候選本體,執(zhí)行如下操作:根據(jù)所述任意一待對齊本體的非結(jié)構(gòu)化文本關(guān)鍵詞,以及所述任意一查找到的候選本體的非結(jié)構(gòu)化文本關(guān)鍵詞,計算所述任意一待對齊本體與所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度。

可選的,所述處理器51,具體用于:分別獲取所述任意一待對齊本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),并根據(jù)獲取的所述任意一待對齊本體 的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),生成所述任意一待對齊本體的詞向量;分別獲取所述任意一查找到的候選本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),并根據(jù)獲取的所述任意一查找到的候選本體的非結(jié)構(gòu)化文本中每一個關(guān)鍵詞的出現(xiàn)次數(shù),生成所述任意一查找到的候選本體的詞向量;計算所述任意一待對齊本體的詞向量和所述任意一查找到的候選本體的詞向量之間的余弦夾角值,并將計算得到的余弦夾角值確定為所述任意一待對齊本體和所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度。

可選的,所述處理器51,具體用于:針對任意一查找到的候選本體,執(zhí)行如下操作:為所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度,分別設(shè)置相應(yīng)的權(quán)重值;根據(jù)所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度及其權(quán)重值,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度及其權(quán)重值,獲取所述任意一查找到的候選本體的綜合評分;或者,為所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度,以及所述任意一待對齊本體與所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度,分別設(shè)置相應(yīng)的權(quán)重值;根據(jù)所述任意一待對齊本體與所述任意一查找到的候選本體之間屬性信息的相似度及其權(quán)重值,所述任意一待對齊本體與所述任意一查找到的候選本體之間所屬類別標(biāo)簽的相似度及其權(quán)重值,以及所述任意一待對齊本體與所述任意一查找到的候選本體之間非結(jié)構(gòu)化文本關(guān)鍵詞的相似度及其權(quán)重值,獲取所述任意一查找到的候選本體的綜合評分。

可選的,所述處理器51,還用于:當(dāng)所述所有查找到的候選本體中不包含綜合評分大于預(yù)設(shè)閾值的候選本體時,在所述已對齊本體集合中建立新的本體項目,并通知所述存儲器50將所述任意一待對齊本體存儲至新建立的本體項 目中。

綜上所述,本發(fā)明實施例中,從待對齊本體集合中選取任意一待對齊本體;其中,任意一待對齊本體包含該任意一待對齊本體名稱,任意一待對齊本體所屬類別標(biāo)簽,任意一待對齊本體的屬性信息,且該類別標(biāo)簽由自然語言描述,該屬性信息由枚舉類型或者自然語言描述;在已對齊本體集合中查找與待對齊本體名稱相同的候選本體;根據(jù)任意一待對齊本體所屬類別標(biāo)簽,任意一待對齊本體的屬性信息,以及每一個查找到的候選本體所屬類別標(biāo)簽,每一個查找到的候選本體的屬性信息,分別計算待對齊本體與每一個查找到的候選本體之間的相似度;根據(jù)計算得到的相似度,獲取每一個查找到的候選本體的綜合評分;從查找到的候選本體中選取綜合評分大于或等于預(yù)設(shè)綜合評分閾值,且綜合評分最高的候選本體;將待對齊本體與選取的候選本體進(jìn)行對齊。采用本發(fā)明技術(shù)方案,在對本體進(jìn)行對齊的過程中,除考慮本體名稱之外,還綜合考慮本體的屬性信息和類別標(biāo)簽,避免了僅根據(jù)本體名稱進(jìn)行本體對齊所造成的對齊結(jié)果不準(zhǔn)確的問題,保證了本體對齊的準(zhǔn)確性;并且,針對本體名稱相同的兩個不同的本體,還可以根據(jù)每一個本體的屬性信息和類別標(biāo)簽,確定該兩個本體為不同的本體,進(jìn)而不對該兩個本體進(jìn)行對齊,降低了本體對齊的錯誤率。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機(jī)程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機(jī)程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機(jī)程序指令到通用計算機(jī)、專用計算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計算 機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機(jī)程序指令也可存儲在能引導(dǎo)計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機(jī)可讀存儲器中,使得存儲在該計算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機(jī)程序指令也可裝載到計算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機(jī)實現(xiàn)的處理,從而在計算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明實施例進(jìn)行各種改動和變型而不脫離本發(fā)明實施例的精神和范圍。這樣,倘若本發(fā)明實施例的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1