亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種獲取知識(shí)圖譜向量化表示的方法以及裝置的制造方法

文檔序號(hào):10471096閱讀:921來(lái)源:國(guó)知局
一種獲取知識(shí)圖譜向量化表示的方法以及裝置的制造方法
【專利摘要】本發(fā)明公開(kāi)一種獲取知識(shí)圖譜向量化表示的方法以及裝置。其中,所述方法包括:根據(jù)待處理的知識(shí)圖譜,使用實(shí)體標(biāo)注工具標(biāo)注給定輔助文本語(yǔ)料中屬于知識(shí)圖譜中存在的實(shí)體,得到實(shí)體標(biāo)注的文本語(yǔ)料;基于所述文本語(yǔ)料,構(gòu)建由詞和實(shí)體組成的共現(xiàn)網(wǎng)絡(luò),以將所述輔助文本語(yǔ)料的文本信息和所述知識(shí)圖譜的實(shí)體信息進(jìn)行關(guān)聯(lián),進(jìn)而學(xué)習(xí)得到文本上下文嵌入表示;根據(jù)所述文本上下文嵌入表示對(duì)所述知識(shí)譜圖中實(shí)體和關(guān)系的嵌入表示分別進(jìn)行建模,得到所述知識(shí)圖譜的嵌入表示模型;使用隨機(jī)梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識(shí)圖譜中實(shí)體和關(guān)系的嵌入表示。本發(fā)明不僅能提高關(guān)系的表示能力,而且還能有效地解決知識(shí)圖譜稀疏性帶來(lái)的表示效果不足的問(wèn)題。
【專利說(shuō)明】
-種獲取知識(shí)圖譜向量化表示的方法從及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及語(yǔ)義萬(wàn)維網(wǎng)領(lǐng)域,具體地,設(shè)及一種獲取知識(shí)圖譜向量化表示的方法 W及裝置。
【背景技術(shù)】
[0002] 語(yǔ)義萬(wàn)維網(wǎng)是當(dāng)前萬(wàn)維網(wǎng)的擴(kuò)展,含有精確語(yǔ)義信息的數(shù)據(jù)的網(wǎng)絡(luò)是語(yǔ)義萬(wàn)維網(wǎng) 的核屯、。萬(wàn)維網(wǎng)之父Tim Berners-Lee提出的開(kāi)放鏈接數(shù)據(jù)項(xiàng)目化inking Open Data Project)旨在構(gòu)建運(yùn)樣一個(gè)數(shù)據(jù)網(wǎng)絡(luò),語(yǔ)義知識(shí)庫(kù)是構(gòu)成該數(shù)據(jù)網(wǎng)絡(luò)的根本。
[0003] 在語(yǔ)義萬(wàn)維網(wǎng)環(huán)境下,知識(shí)圖譜的向量化表示計(jì)算旨在將知識(shí)圖譜中的實(shí)體表示 成一個(gè)分布的、低維度的向量,進(jìn)一步賦予知識(shí)圖譜可計(jì)算的性質(zhì),已被證明在知識(shí)圖譜補(bǔ) 充、文本分類和信息抽取上有重要提升作用。將知識(shí)圖譜的關(guān)系視為一個(gè)翻譯操作,TransE 是第一個(gè)簡(jiǎn)單、高效的知識(shí)圖譜表示學(xué)習(xí)方法,TransH和化ansR分別通過(guò)超平面映射和向 量空間變換進(jìn)一步允許一個(gè)實(shí)體在給定不同的關(guān)系時(shí)擁有不同的嵌入表示,使一對(duì)多、多 對(duì)一和多對(duì)多關(guān)系的表示能力進(jìn)一步提高。
[0004] 然而,現(xiàn)有的知識(shí)圖譜向量化表示計(jì)算中仍存在如下問(wèn)題:
[0005] 1、一對(duì)多、多對(duì)一和多對(duì)多關(guān)系的表示能力低下:TransH和化ansR從模型的角度 對(duì)TransE進(jìn)行優(yōu)化,沒(méi)有擴(kuò)展表示學(xué)習(xí)中可用的信息來(lái)源,對(duì)關(guān)系表示能力的提高有限。
[0006] 2、知識(shí)圖譜稀疏性導(dǎo)致表示效果不足:Tran S E、化an sH和化an S R均從知識(shí)圖譜的 結(jié)構(gòu)關(guān)系中對(duì)嵌入表示進(jìn)行學(xué)習(xí),受限于當(dāng)前知識(shí)圖譜通常比較稀疏,表示學(xué)習(xí)的效果依 然無(wú)法令人滿意。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明的目的是提供一種獲取知識(shí)圖譜向量化表示的方法W及裝置。其中,所述 方法不僅能夠提高一對(duì)多、多對(duì)一 W及多對(duì)多關(guān)系的表示能力,而且還能有效地解決知識(shí) 圖譜稀疏性帶來(lái)的表示效果不足的問(wèn)題。
[000引為了實(shí)現(xiàn)上述目的,本發(fā)明提供一種獲取知識(shí)圖譜向量化表示的方法。所述方法 包括:
[0009] 根據(jù)待處理的知識(shí)圖譜,使用實(shí)體標(biāo)注工具標(biāo)注給定輔助文本語(yǔ)料中屬于知識(shí)圖 譜中存在的實(shí)體,得到實(shí)體標(biāo)注的文本語(yǔ)料;
[0010] 基于所述文本語(yǔ)料,構(gòu)建由詞和實(shí)體組成的共現(xiàn)網(wǎng)絡(luò),W將所述輔助文本語(yǔ)料的 文本信息和所述知識(shí)圖譜的實(shí)體信息進(jìn)行關(guān)聯(lián),進(jìn)而學(xué)習(xí)得到文本上下文嵌入表示;
[0011] 根據(jù)所述文本上下文嵌入表示對(duì)所述知識(shí)譜圖中實(shí)體和關(guān)系的嵌入表示分別進(jìn) 行建模,得到所述知識(shí)圖譜的嵌入表示模型;
[0012] 使用隨機(jī)梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識(shí)圖譜中實(shí)體和關(guān)系的 嵌入表示。
[0013] 可選地,所述實(shí)體標(biāo)注工具為W下中的至少一者:
[0014] AIDI、TAGMEW 及 Wikify!。
[0015] 可選地,所述基于所述文本語(yǔ)料,構(gòu)建由詞和實(shí)體組成的共現(xiàn)網(wǎng)絡(luò),W將所述輔助 文本語(yǔ)料的文本信息和所述知識(shí)圖譜的實(shí)體信息進(jìn)行關(guān)聯(lián),進(jìn)而學(xué)習(xí)得到文本上下文嵌入 表示,包括:
[0016] 根據(jù)所述共現(xiàn)網(wǎng)絡(luò)分別定義一元文本上下文和二元文本上下文;
[0017] W所述文本語(yǔ)料為輸入,采用Skip-gram Word2Vec進(jìn)行詞嵌入表示學(xué)習(xí),得到所 述共現(xiàn)網(wǎng)絡(luò)中任意一點(diǎn)的詞向量嵌入表示;
[0018] 根據(jù)所述一元文本上下文和所述詞向量嵌入表示定義一元文本上下文嵌入表示;
[0019] 根據(jù)所述二元文本上下文和所述詞向量嵌入表示定義二元文本上下文嵌入表 /J、- 〇
[0020] 可選地,所述根據(jù)所述文本上下文嵌入表示對(duì)所述知識(shí)譜圖中實(shí)體和關(guān)系的嵌入 表示分別進(jìn)行建模,得到所述知識(shí)圖譜的嵌入表示模型,包括:
[0021] 采用基于線性變換的方法、基于空間變換的方法或基于超平面映射的方法變換所 述實(shí)體的一元文本上下文嵌入表示,得到所述實(shí)體的嵌入表示模型;
[0022] 采用基于線性變換的方法變換所述實(shí)體的二元文本上下文嵌入表示,得到所述關(guān) 系的嵌入表示模型;
[0023] 根據(jù)所述實(shí)體的嵌入表示模型和所述關(guān)系的嵌入表示模型得到所述知識(shí)圖譜的 嵌入表示模型。
[0024] 可選地,所述使用隨機(jī)梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識(shí)圖譜中 實(shí)體和關(guān)系的嵌入表示,包括:
[0025] 根據(jù)所述嵌入表示模型定義基于邊緣的損失函數(shù);
[0026] 使用隨機(jī)梯度下降法訓(xùn)練所述嵌入表示模型,使得所述損失函數(shù)最小化,從而得 到所述知識(shí)圖譜中實(shí)體和關(guān)系的嵌入表示。
[0027] 相應(yīng)地,本發(fā)明還提供一種獲取知識(shí)圖譜向量化表示的裝置。所述裝置包括:
[0028] 標(biāo)注單元,用于根據(jù)待處理的知識(shí)圖譜,使用實(shí)體標(biāo)注工具標(biāo)注給定輔助文本語(yǔ) 料中屬于知識(shí)圖譜中存在的實(shí)體,得到實(shí)體標(biāo)注的文本語(yǔ)料;
[0029] 構(gòu)建單元,用于基于所述文本語(yǔ)料,構(gòu)建由詞和實(shí)體組成的共現(xiàn)網(wǎng)絡(luò),W將所述輔 助文本語(yǔ)料的文本信息和所述知識(shí)圖譜的實(shí)體信息進(jìn)行關(guān)聯(lián),進(jìn)而學(xué)習(xí)得到文本上下文嵌 入表示;
[0030] 建模單元,用于根據(jù)所述文本上下文嵌入表示對(duì)所述知識(shí)譜圖中實(shí)體和關(guān)系的嵌 入表示分別進(jìn)行建模,得到所述知識(shí)圖譜的嵌入表示模型;
[0031] 訓(xùn)練單元,用于使用隨機(jī)梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識(shí)圖譜 中實(shí)體和關(guān)系的嵌入表示。
[0032] 可選地,所述實(shí)體標(biāo)注工具為W下中的至少一者:
[0033] AIDI、TAGMEW 及 Wikify!。
[0034] 可選地,所述構(gòu)建單元,具體用于:
[0035] 根據(jù)所述共現(xiàn)網(wǎng)絡(luò)分別定義一元文本上下文和二元文本上下文;
[0036] W所述文本語(yǔ)料為輸入,采用Skip-gram Word2Vec進(jìn)行詞嵌入表示學(xué)習(xí),得到所 述共現(xiàn)網(wǎng)絡(luò)中任意一點(diǎn)的詞向量嵌入表示;
[0037] 根據(jù)所述一元文本上下文和所述詞向量嵌入表示定義一元文本上下文嵌入表示;
[0038] 根據(jù)所述二元文本上下文和所述詞向量嵌入表示定義二元文本上下文嵌入表示。
[0039] 可選地,所述建模單元,具體用于:
[0040] 采用基于線性變換的方法、基于空間變換的方法或基于超平面映射的方法變換所 述實(shí)體的一元文本上下文嵌入表示,得到所述實(shí)體的嵌入表示模型;
[0041] 采用基于線性變換的方法變換所述實(shí)體的二元文本上下文嵌入表示,得到所述關(guān) 系的嵌入表示模型;
[0042] 根據(jù)所述實(shí)體的嵌入表示模型和所述關(guān)系的嵌入表示模型得到所述知識(shí)圖譜的 嵌入表示模型。
[0043] 可選地,所述訓(xùn)練單元,具體用于:
[0044] 根據(jù)所述嵌入表示模型定義基于邊緣的損失函數(shù);
[0045] 使用隨機(jī)梯度下降法訓(xùn)練所述嵌入表示模型,使得所述損失函數(shù)最小化,從而得 到所述知識(shí)圖譜中實(shí)體和關(guān)系的嵌入表示。
[0046] 通過(guò)上述技術(shù)方案,采用文本輔助的方法,在知識(shí)圖譜的實(shí)體和關(guān)系嵌入表示建 模過(guò)程中,引入文本上下文嵌入表示,使得一種關(guān)系在給定不同的實(shí)體對(duì)時(shí)可W擁有不同 的表示,大大提高對(duì)一對(duì)多、多對(duì)一和多對(duì)多關(guān)系的表示能力。另一方面,文本上下文嵌入 表示的引入,極大地豐富了現(xiàn)有知識(shí)圖譜的信息,有效解決了知識(shí)圖譜稀疏性帶來(lái)的表示 效果不足的問(wèn)題。
【附圖說(shuō)明】
[0047] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹。顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W 根據(jù)運(yùn)些圖獲得其他的附圖。
[0048] 圖1是本發(fā)明一實(shí)施例提供的獲取知識(shí)圖譜向量化表示的方法的流程圖;
[0049] 圖2是本發(fā)明一實(shí)施例提供的知識(shí)圖譜向量化表示計(jì)算的示意圖;
[0050] 圖3是本發(fā)明一實(shí)施例提供的獲取知識(shí)圖譜向量化表示的裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0051] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0052] 圖1是本發(fā)明一實(shí)施例提供的獲取知識(shí)圖譜向量化表示的方法的流程圖。如圖1所 示,本發(fā)明一實(shí)施例提供的獲取知識(shí)圖譜向量化表示的方法包括:
[0053] 在步驟S101中,根據(jù)待處理的知識(shí)圖譜,使用實(shí)體標(biāo)注工具標(biāo)注給定輔助文本語(yǔ) 料中屬于知識(shí)圖譜中存在的實(shí)體,得到實(shí)體標(biāo)注的文本語(yǔ)料。
[0化4]對(duì)于輔助文本語(yǔ)料,形式化表示為一個(gè)由詞組成的有序序列2>=〈w,...w,...w,,,〉,其 中wi表示單個(gè)的詞,m為該有序序列的長(zhǎng)度。給定知識(shí)圖譜,形式化表示為一個(gè)由Ξ元組組 成的集合κ每={輝,iV):},其中化,r,t)表示一個(gè)語(yǔ)義Ξ元組,h和t分別表示頭實(shí)體和尾實(shí) 體,r表示頭實(shí)體和尾實(shí)體之間的關(guān)系。
[0055] 給定輔助文本語(yǔ)料巧,使用實(shí)體標(biāo)注工具自動(dòng)地在給定輔助文本語(yǔ)料巧中標(biāo)注知 識(shí)圖譜eg中存在的實(shí)體,得到實(shí)體標(biāo)注的文本語(yǔ)幹巧=〈λ-,.. 〉。其中,XI表示巧中的 一個(gè)詞或者KG中的一個(gè)實(shí)體。由于多個(gè)連續(xù)的詞可能被標(biāo)注為一個(gè)實(shí)體,巧'的長(zhǎng)度m'小 于巧的長(zhǎng)度m。通用的實(shí)體標(biāo)注工具均可用于W上的實(shí)體標(biāo)注,如AIDI、TAGME和Wi ki f y!等, 也即是實(shí)體標(biāo)注工具為W下中的至少一者:AIDI、TAGMEW及Wikify!。
[0056] 接著,在步驟S102中,基于所述文本語(yǔ)料,構(gòu)建由詞和實(shí)體組成的共現(xiàn)網(wǎng)絡(luò),W將 所述輔助文本語(yǔ)料的文本信息和所述知識(shí)圖譜的實(shí)體信息進(jìn)行關(guān)聯(lián),進(jìn)而學(xué)習(xí)得到文本上 下文嵌入表示。
[0057] 具體地,該步驟包括:根據(jù)所述共現(xiàn)網(wǎng)絡(luò)分別定義一元文本上下文和二元文本上 下文;W所述文本語(yǔ)料為輸入,采用Skip-gram Word2Vec進(jìn)行詞嵌入表示學(xué)習(xí),得到所述共 現(xiàn)網(wǎng)絡(luò)中任意一點(diǎn)的詞向量嵌入表示;根據(jù)所述一元文本上下文和所述詞向量嵌入表示定 義一元文本上下文嵌入表示;根據(jù)所述二元文本上下文和所述詞向量嵌入表示定義二元文 本上下文嵌入表示。
[005引給定實(shí)體標(biāo)注的文本語(yǔ)料?r,構(gòu)建一個(gè)由詞和實(shí)體組成的共現(xiàn)網(wǎng)絡(luò)0 = (Λ^,y),w 將文本信息和實(shí)體信息進(jìn)行關(guān)聯(lián)。其中,J εΛ'表示共現(xiàn)網(wǎng)絡(luò)中的點(diǎn),為一個(gè)詞或者一個(gè)實(shí) 體,>^€^表示點(diǎn)XI和點(diǎn)xj之間的共現(xiàn)頻率,而且共現(xiàn)網(wǎng)絡(luò)構(gòu)造中的共現(xiàn)窗口設(shè)置為5。 [0化9]基于共現(xiàn)網(wǎng)絡(luò)e=(;r,;y),分別定義一元文本上下文和二元文本上下文。具體地, 給定共現(xiàn)網(wǎng)絡(luò)夢(mèng)中任意一點(diǎn)XI,考慮到其鄰居節(jié)點(diǎn)可W反映其上下文信息,因此,XI的一元 文本上下文η(Χι)定義為其在共現(xiàn)網(wǎng)絡(luò)g中關(guān)聯(lián)程度較高的鄰居節(jié)點(diǎn):
[0060] n(xi) = {xj|yij>0} (1)
[0061] 其中,Θ表示共現(xiàn)頻率的闊值。圖2是本發(fā)明一實(shí)施例提供的知識(shí)圖譜向量化表示 計(jì)算的示意圖。如圖2所示,n(Avata;r) = {f ilm,movie ,directed巧帖(James_Came;ron)= {director}分別掲示了頭實(shí)體和尾實(shí)體的背景知識(shí)。類似地,給定共現(xiàn)網(wǎng)絡(luò)g中任意兩點(diǎn)xi 和Xj,該兩點(diǎn)的二元文本上下文11(^,刮)定義為二者的公共鄰居節(jié)點(diǎn):
[006^ n(xi,xj) = {xk|xken(xi) nn(xj)} (2)
[0063] 如圖2所示,n(Ava1:a;r,James_Came;ron) = {direct}描述了兩個(gè)實(shí)體之間"direct" Γ導(dǎo)演")的隱含關(guān)系。
[0064] 由于共現(xiàn)網(wǎng)絡(luò)g和實(shí)體標(biāo)注的文本語(yǔ)料巧同構(gòu),W語(yǔ)料公為輸入,采用化ip-gram Word2Vec進(jìn)行詞嵌入表示學(xué)習(xí),進(jìn)而對(duì)于共現(xiàn)網(wǎng)絡(luò)g中的任意一點(diǎn)xi得到一個(gè)k維的詞向量 嵌入表示。根據(jù)上述對(duì)文本上下文的定義,給定共現(xiàn)網(wǎng)絡(luò)g中任意一點(diǎn)XI,其一元文本上下 文嵌入表示η (XI)定義為η (XI)中詞向量嵌入表示的加權(quán)平均向量:
[00 化]
[0066] 若η(χι)為空,則η(χι)為零向量0。類似地,給定網(wǎng)絡(luò)中任意兩點(diǎn)XI和xj,其二元文 本上下文嵌入表示η (xi,xj)定義為η (xi,xj)中詞向量嵌入表示的加權(quán)平均向量:
[0067]
[0068] 其中公共鄰居節(jié)點(diǎn)X k的權(quán)重定義為y 1 k和y J k的最小值,
%所有權(quán)重之和。若n(xi,xj)為空,則n(xi,xj)為零向量 0。
[0069] 緊接著,在步驟S103中,根據(jù)所述文本上下文嵌入表示對(duì)所述知識(shí)譜圖中實(shí)體和 關(guān)系的嵌入表示分別進(jìn)行建模,得到所述知識(shí)圖譜的嵌入表示模型。
[0070] 具體地,該步驟包括:采用基于線性變換的方法、基于空間變換的方法或基于超平 面映射的方法變換所述實(shí)體的一元文本上下文嵌入表示,得到所述實(shí)體的嵌入表示模型; 采用基于線性變換的方法變換所述實(shí)體的二元文本上下文嵌入表示,得到所述關(guān)系的嵌入 表示模型;根據(jù)所述實(shí)體的嵌入表示模型和所述關(guān)系的嵌入表示模型得到所述知識(shí)圖譜的 嵌入表示模型。
[0071] 基于上述所得的文本上下文嵌入表示,分別對(duì)知識(shí)圖譜中實(shí)體和關(guān)系的嵌入表示 進(jìn)行建模,定義基于翻譯方法的模型優(yōu)化目標(biāo)。更為具體地,實(shí)體的嵌入表示模型定義為該 實(shí)體的一元文本上下文嵌入表示的線性變換:
[0074] 其中,£和?分別表示頭實(shí)體h和尾實(shí)體t的嵌入表示模型,A是一個(gè)kXk的矩陣,h和 t分別表示偏置向量。類似地,關(guān)系r的嵌入表示模型定義為頭實(shí)體h和尾實(shí)體t的二元文本 上下文嵌入表示的線性變換:
[0075]
[0076] 其中,?表示關(guān)系的嵌入表示模型,B是一個(gè)kXk的矩陣,r表示偏置向量。
[0077] 進(jìn)一步地,實(shí)體/關(guān)系(知識(shí)圖譜)的嵌入表示模型的目標(biāo)為ii + i蘭?,該模型的優(yōu) 化即最小化W下?lián)p失函數(shù):
[007引
[0079] 對(duì)于實(shí)體/關(guān)系(知識(shí)圖譜)的嵌入表示模型中的向量和權(quán)重矩陣作規(guī)范化限制, 包括:II h II2 < 1、II r II2 < 1、II η (h) All 2 < 1、II t II2 < 1、II η (t) All 2 < 1、II η (h , t) ΒΙΙ2 < 1、
[0080] 為了進(jìn)一步提高對(duì)一對(duì)多、多對(duì)一和多對(duì)多關(guān)系的表示能力,可W令實(shí)體在給定 不同的關(guān)系時(shí)擁有不同的嵌入表示,包括基于超平面映射的方法和基于空間變換的方法。
[0081] 其中,基于超平面映射的方法將實(shí)體嵌入表示和i首先映射到向量Wr對(duì)應(yīng)的超平 面上,得到映射后的嵌入表示
其損失函數(shù)為 基于空間變換的方法使用變換矩陣Mr將實(shí)體嵌入表示h和?首先
3 映射另一個(gè)向量空間,得到變換后的嵌入表牙
岸損失函數(shù)為
[0082] 最后,在步驟S104中,使用隨機(jī)梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識(shí) 圖譜中實(shí)體和關(guān)系的嵌入表示。
[0083] 具體地,該步驟包括:根據(jù)所述嵌入表示模型定義基于邊緣的損失函數(shù);使用隨機(jī) 梯度下降法訓(xùn)練所述嵌入表示模型,使得所述損失函數(shù)最小化,從而得到所述知識(shí)圖譜中 實(shí)體和關(guān)系的嵌入表示。
[0084] 根據(jù)上述所得的知識(shí)圖譜的嵌入表示模型,定義基于邊緣的損失函數(shù)為:
[0085]
[0086] 其中,max( ·,·)表示兩個(gè)輸入的最大值,丫表示邊緣值,S表示知識(shí)圖譜中已知 的正確的Ξ元組集合,化/,r,t〇e^是通過(guò)采用隨機(jī)替換方法從化,r,t)eS中生成的錯(cuò) 誤的Ξ元組集合,f化,r,t)表示損失函數(shù)。訓(xùn)練過(guò)程采用隨機(jī)梯度下降的方法,使得上述損 失函數(shù)(9)最小化,從而得到知識(shí)圖譜中實(shí)體和關(guān)系的嵌入表示。
[0087] 采用本發(fā)明實(shí)施例提供的方法進(jìn)行了實(shí)驗(yàn),具體實(shí)驗(yàn)過(guò)程如下:
[0088] 1、數(shù)據(jù)集介紹。實(shí)驗(yàn)采用2個(gè)在知識(shí)圖譜表示學(xué)習(xí)中使用的通用數(shù)據(jù)集,其中WN11 來(lái)源于由詞的義項(xiàng)組成的知識(shí)圖譜W 0 r d N e t,F(xiàn) B15 K來(lái)源于實(shí)體組成的世界知識(shí)圖譜 化eeBase。數(shù)據(jù)集的相關(guān)信息如表1所示。
[0089] 表1數(shù)據(jù)集相關(guān)統(tǒng)計(jì)
[0090]
[0091] 輔助文本語(yǔ)料采用2015年8月的維基百科詞條描述文本,共包括4,919,463篇文 檔。實(shí)體標(biāo)注僅W維基百科中已標(biāo)注的超鏈接作為候選,若維基百科所標(biāo)注鏈接和給定知 識(shí)圖譜中實(shí)體的名稱相同,則標(biāo)注為實(shí)體,否則不予標(biāo)注。
[0092] 2、實(shí)驗(yàn)設(shè)置。實(shí)驗(yàn)評(píng)測(cè)使用知識(shí)圖譜表示學(xué)習(xí)中的通用評(píng)測(cè)任務(wù)一一鏈接預(yù)測(cè): 即給定一個(gè)實(shí)體(頭實(shí)體或尾實(shí)體)和一個(gè)關(guān)系,預(yù)測(cè)缺失的另一個(gè)實(shí)體(尾實(shí)體或頭實(shí) 體)。鏈接預(yù)測(cè)任務(wù)首先對(duì)所有候選實(shí)體通過(guò)計(jì)算損失函數(shù)值的大小進(jìn)行排序,進(jìn)而W正確 的實(shí)體所在位置作為評(píng)測(cè)指標(biāo),包括平均排序和前10命中率。平均排序(Mean Rank)即正確 實(shí)體排序位置的平均值,前10命中率化its@10)即正確實(shí)體排序位置位居前10的百分比。考 慮到除了該正確實(shí)體外,其他實(shí)體也可能構(gòu)成正確的Ξ元組,W上指標(biāo)會(huì)低估表示學(xué)習(xí)的 性能。進(jìn)一步對(duì)實(shí)體排序列表中除該正確實(shí)體W外其他構(gòu)成正確Ξ元組的實(shí)體過(guò)濾,得到 矯正的評(píng)估指標(biāo)。我們將未矯正的評(píng)估指標(biāo)記為原始指標(biāo)(Raw),矯正后的評(píng)估指標(biāo)記為過(guò) 濾指標(biāo)(Filter)。易知,更低的平均排序和更高的前10命中率體現(xiàn)了更優(yōu)秀的表示學(xué)習(xí)方 法。
[0093] 3、實(shí)驗(yàn)結(jié)果與分析
[0094] 采用W上數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置,同當(dāng)前知識(shí)圖譜表示學(xué)習(xí)主流方法化ansE、TransH 和化ansR進(jìn)行對(duì)比。除了基于線性變換的文本輔助的知識(shí)圖譜表示學(xué)習(xí)方法,本
【申請(qǐng)人】還 實(shí)現(xiàn)了基于超平面映射和基于空間變換的文本輔助的知識(shí)圖譜表示學(xué)習(xí)方法,分別將線 性變換方法、超平面映射方法和空間變換方法記為TEKE_E、T邸E_H和TEKE_R。其中,unif和 bern表示知識(shí)圖譜表示學(xué)習(xí)中通用的兩種錯(cuò)誤訓(xùn)練Ξ元組樣本生成策略。
[0095] 如表2、表3所示,為鏈接預(yù)測(cè)任務(wù)的評(píng)測(cè)結(jié)果。在WN18數(shù)據(jù)集上,本發(fā)明實(shí)施例提 供的方法明顯優(yōu)于對(duì)比方法。在FB15K上,本發(fā)明實(shí)施例提供的方法在前10命中率上明顯優(yōu) 于對(duì)比方法,考慮到平均排序易受個(gè)別極端靠后排序的影響,認(rèn)為前10命中率更能體現(xiàn)方 法的效果對(duì)比。
[0096] 表2 WN18結(jié)果分析
[0097]
[009引
[0099]
[0100] -對(duì)多、多對(duì)一和多對(duì)多關(guān)系的表示能力對(duì)比分析。對(duì)于FB15K數(shù)據(jù)集,分析得到 包含一對(duì)一、一對(duì)多、多對(duì)一和多對(duì)多關(guān)系比例分別為24.2%、22.9%、28.9%和24.0%。如 表4、表5所示,分別為預(yù)測(cè)頭實(shí)體和預(yù)測(cè)尾實(shí)體的前10命中率對(duì)比分析??芍?dāng)待預(yù)測(cè)的實(shí) 體可能為多個(gè)時(shí)(預(yù)測(cè)頭實(shí)體時(shí)多對(duì)一和多對(duì)多關(guān)系,W及預(yù)測(cè)尾實(shí)體時(shí)一對(duì)多和多對(duì)多 關(guān)系),本發(fā)明實(shí)施例提供的方法大幅度提高了前10命中率,而僅僅在一對(duì)一關(guān)系上有輕 微的降幅。
[0101] 表4預(yù)測(cè)頭實(shí)體前10命中率分析(%)
[0105] 知識(shí)圖譜稀疏性對(duì)表示學(xué)習(xí)效果的影響。基于FB15K數(shù)據(jù)集,隨機(jī)抽取3,000實(shí)體 及其相關(guān)的Ξ元組,進(jìn)而得到數(shù)據(jù)集FB3K和2,238個(gè)測(cè)試Ξ元組W及2,106個(gè)驗(yàn)證Ξ元組。 在FB3K的基礎(chǔ)上,進(jìn)一步隨機(jī)擴(kuò)充3,000個(gè)實(shí)體得到FB服數(shù)據(jù)集,類似地在FB服的基礎(chǔ)上得 到FB9K數(shù)據(jù)集。FB3K、FB服和FB9K平均每個(gè)實(shí)體相關(guān)的Ξ元組分別為6.45、12.56和18.58 個(gè),其稀疏程度逐步降低。為了公平對(duì)比,基于FB3K的3,000實(shí)體集合和2,238個(gè)測(cè)試Ξ元 組,對(duì)比分析了化ansE和TEKE_E在平均排序上的效果,如表6所示,當(dāng)知識(shí)圖譜稀疏程度降 低時(shí),知識(shí)表示的效果逐步上升,本發(fā)明實(shí)施例提供的方法的效果均優(yōu)于對(duì)比方法,且在知 識(shí)圖譜稀疏性強(qiáng)時(shí)提升更加明顯。
[0106] 表6知識(shí)圖譜稀疏性對(duì)表示學(xué)習(xí)效果的影響
[0107]
[0108] 本發(fā)明實(shí)施例通過(guò)采用文本輔助的方法,在知識(shí)圖譜的實(shí)體和關(guān)系嵌入表示建 模過(guò)程中,引入文本上下文嵌入表示,使得一種關(guān)系在給定不同的實(shí)體對(duì)時(shí)可W擁有不同 的表示,大大提高對(duì)一對(duì)多、多對(duì)一和多對(duì)多關(guān)系的表示能力。另一方面,文本上下文嵌入 表示的引入,極大地豐富了現(xiàn)有知識(shí)圖譜的信息,有效解決了知識(shí)圖譜稀疏性帶來(lái)的表示 效果不足的問(wèn)題。
[0109] 對(duì)于方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域 技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施 例,某些步驟可W采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書 中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所設(shè)及的動(dòng)作并不一定是本發(fā)明實(shí)施例所必須的。
[0110] 圖3是本發(fā)明一實(shí)施例提供的獲取知識(shí)圖譜向量化表示的裝置的結(jié)構(gòu)示意圖。如 圖3所示,本發(fā)明一實(shí)施例提供的獲取知識(shí)圖譜向量化表示的裝置包括:
[0111] 標(biāo)注單元201,用于根據(jù)預(yù)設(shè)的知識(shí)圖譜,使用實(shí)體標(biāo)注工具標(biāo)注輔助文本語(yǔ)料中 存在的實(shí)體,得到實(shí)體標(biāo)注的文本語(yǔ)料;
[0112] 構(gòu)建單元202,用于基于所述文本語(yǔ)料,構(gòu)建由詞和實(shí)體組成的共現(xiàn)網(wǎng)絡(luò),W將所 述輔助文本語(yǔ)料的文本信息和所述知識(shí)圖譜的實(shí)體信息進(jìn)行關(guān)聯(lián),進(jìn)而學(xué)習(xí)得到文本上下 文嵌入表示;
[0113] 建模單元203,用于根據(jù)所述文本上下文嵌入表示對(duì)所述知識(shí)譜圖中實(shí)體和關(guān)系 的嵌入表示分別進(jìn)行建模,得到所述知識(shí)圖譜的嵌入表示模型;
[0114] 訓(xùn)練單元204,用于使用隨機(jī)梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識(shí)圖 譜中實(shí)體和關(guān)系的嵌入表示。
[0115] 在本發(fā)明一實(shí)施例中,所述實(shí)體標(biāo)注工具為W下中的至少一者:
[0116] AIDI、TAGMEW 及 Wikify!。
[0117] 在本發(fā)明一實(shí)施例中,所述構(gòu)建單元202,具體用于:
[011引根據(jù)所述共現(xiàn)網(wǎng)絡(luò)分別定義一元文本上下文和二元文本上下文;
[0119] W所述文本語(yǔ)料為輸入,采用Skip-gram Word2Vec進(jìn)行詞嵌入表示學(xué)習(xí),得到所 述共現(xiàn)網(wǎng)絡(luò)中任意一點(diǎn)的詞向量嵌入表示;
[0120] 根據(jù)所述一元文本上下文和所述詞向量嵌入表示定義一元文本上下文嵌入表示;
[0121] 根據(jù)所述二元文本上下文和所述詞向量嵌入表示定義二元文本上下文嵌入表示。
[0122] 在本發(fā)明一實(shí)施例中,所述建模單元203,具體用于:
[0123] 采用基于線性變換的方法、基于空間變換的方法或基于超平面映射的方法變換所 述實(shí)體的一元文本上下文嵌入表示,得到所述實(shí)體的嵌入表示模型;
[0124] 采用基于線性變換的方法變換所述實(shí)體的二元文本上下文嵌入表示,得到所述關(guān) 系的嵌入表示模型;
[0125] 根據(jù)所述實(shí)體的嵌入表示模型和所述關(guān)系的嵌入表示模型得到所述知識(shí)圖譜的 嵌入表示模型。
[01 %]在本發(fā)明一實(shí)施例中,所述訓(xùn)練單元204,具體用于:
[0127]根據(jù)所述嵌入表示模型定義基于邊緣的損失函數(shù);
[01%]使用隨機(jī)梯度下降法訓(xùn)練所述嵌入表示模型,使得所述損失函數(shù)最小化,從而得 到所述知識(shí)圖譜中實(shí)體和關(guān)系的嵌入表示。
[0129] 對(duì)于本發(fā)明一實(shí)施例提供的獲取知識(shí)圖譜向量化表示的裝置中還設(shè)及的具體細(xì) 節(jié)已在本發(fā)明一實(shí)施例提供的獲取知識(shí)圖譜向量化表示的方法中作了詳細(xì)的描述,在此不 再寶述。
[0130] 應(yīng)當(dāng)注意的是,在本發(fā)明的系統(tǒng)的各個(gè)部件中,根據(jù)其要實(shí)現(xiàn)的功能而對(duì)其中的 部件進(jìn)行了邏輯劃分,但是,本發(fā)明不受限于此,可W根據(jù)需要對(duì)各個(gè)部件進(jìn)行重新劃分或 者組合,例如,可W將一些部件組合為單個(gè)部件,或者可W將一些部件進(jìn)一步分解為更多的 子部件。
[0131] 本發(fā)明的各個(gè)部件實(shí)施例可硬件實(shí)現(xiàn),或者W在一個(gè)或者多個(gè)處理器上運(yùn)行 的軟件模塊實(shí)現(xiàn),或者W它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可W在實(shí)踐中使用 微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的系統(tǒng)中的一些或者全部部 件的一些或者全部功能。本發(fā)明還可W實(shí)現(xiàn)為用于執(zhí)行運(yùn)里所描述的方法的一部分或者全 部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。運(yùn)樣的實(shí)現(xiàn)本發(fā)明的程序 可W存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可W具有一個(gè)或者多個(gè)信號(hào)的形式。運(yùn)樣的信號(hào)可W 從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者W任何其他形式提供。
[0132] 應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng) 域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中, 不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞"包含"不排除存在未 列在權(quán)利要求中的元件或步驟。位于元件之前的單詞"一"或"一個(gè)"不排除存在多個(gè)運(yùn)樣的 元件。本發(fā)明可W借助于包括有若干不同元件的硬件W及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí) 現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,運(yùn)些裝置中的若干個(gè)可W是通過(guò)同一個(gè)硬件項(xiàng) 來(lái)具體體現(xiàn)。單詞第一、第二、W及第Ξ等的使用不表示任何順序??蓪⑦\(yùn)些單詞解釋為名 稱。
[0133] W上實(shí)施方式僅適于說(shuō)明本發(fā)明,而并非對(duì)本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的普通 技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可W做出各種變化和變型,因此所有 等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
【主權(quán)項(xiàng)】
1. 一種獲取知識(shí)圖譜向量化表示的方法,其特征在于,所述方法包括: 根據(jù)待處理的知識(shí)圖譜,使用實(shí)體標(biāo)注工具標(biāo)注給定輔助文本語(yǔ)料中屬于知識(shí)圖譜中 存在的實(shí)體,得到實(shí)體標(biāo)注的文本語(yǔ)料; 基于所述文本語(yǔ)料,構(gòu)建由詞和實(shí)體組成的共現(xiàn)網(wǎng)絡(luò),以將所述輔助文本語(yǔ)料的文本 信息和所述知識(shí)圖譜的實(shí)體信息進(jìn)行關(guān)聯(lián),進(jìn)而學(xué)習(xí)得到文本上下文嵌入表示; 根據(jù)所述文本上下文嵌入表示對(duì)所述知識(shí)譜圖中實(shí)體和關(guān)系的嵌入表示分別進(jìn)行建 模,得到所述知識(shí)圖譜的嵌入表示模型; 使用隨機(jī)梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識(shí)圖譜中實(shí)體和關(guān)系的嵌入 表不。2. 根據(jù)權(quán)利要求1所述的獲取知識(shí)圖譜向量化表示的方法,其特征在于,所述實(shí)體標(biāo)注 工具為以下中的至少一者: AIDI、TAGME 以及 Wikify!。3. 根據(jù)權(quán)利要求1所述的獲取知識(shí)圖譜向量化表示的方法,其特征在于,所述基于所述 文本語(yǔ)料,構(gòu)建由詞和實(shí)體組成的共現(xiàn)網(wǎng)絡(luò),以將所述輔助文本語(yǔ)料的文本信息和所述知 識(shí)圖譜的實(shí)體信息進(jìn)行關(guān)聯(lián),進(jìn)而學(xué)習(xí)得到文本上下文嵌入表示,包括: 根據(jù)所述共現(xiàn)網(wǎng)絡(luò)分別定義一元文本上下文和二元文本上下文; 以所述文本語(yǔ)料為輸入,采用Skip-gram Word2Vec進(jìn)行詞嵌入表示學(xué)習(xí),得到所述共 現(xiàn)網(wǎng)絡(luò)中任意一點(diǎn)的詞向量嵌入表示; 根據(jù)所述一元文本上下文和所述詞向量嵌入表示定義一元文本上下文嵌入表示; 根據(jù)所述二元文本上下文和所述詞向量嵌入表示定義二元文本上下文嵌入表示。4. 根據(jù)權(quán)利要求1所述的獲取知識(shí)圖譜向量化表示的方法,其特征在于,所述根據(jù)所述 文本上下文嵌入表示對(duì)所述知識(shí)譜圖中實(shí)體和關(guān)系的嵌入表示分別進(jìn)行建模,得到所述知 識(shí)圖譜的嵌入表示模型,包括: 采用基于線性變換的方法、基于空間變換的方法或基于超平面映射的方法變換所述實(shí) 體的一元文本上下文嵌入表示,得到所述實(shí)體的嵌入表示模型; 采用基于線性變換的方法變換所述實(shí)體的二元文本上下文嵌入表示,得到所述關(guān)系的 嵌入表不模型; 根據(jù)所述實(shí)體的嵌入表示模型和所述關(guān)系的嵌入表示模型得到所述知識(shí)圖譜的嵌入 表不模型。5. 根據(jù)權(quán)利要求1所述的獲取知識(shí)圖譜向量化表示的方法,其特征在于,所述使用隨機(jī) 梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識(shí)圖譜中實(shí)體和關(guān)系的嵌入表示,包括: 根據(jù)所述嵌入表示模型定義基于邊緣的損失函數(shù); 使用隨機(jī)梯度下降法訓(xùn)練所述嵌入表示模型,使得所述損失函數(shù)最小化,從而得到所 述知識(shí)圖譜中實(shí)體和關(guān)系的嵌入表示。6. -種獲取知識(shí)圖譜向量化表示的裝置,其特征在于,所述裝置包括: 標(biāo)注單元,用于根據(jù)待處理的知識(shí)圖譜,使用實(shí)體標(biāo)注工具標(biāo)注給定輔助文本語(yǔ)料中 屬于知識(shí)圖譜中存在的實(shí)體,得到實(shí)體標(biāo)注的文本語(yǔ)料; 構(gòu)建單元,用于基于所述文本語(yǔ)料,構(gòu)建由詞和實(shí)體組成的共現(xiàn)網(wǎng)絡(luò),以將所述輔助文 本語(yǔ)料的文本信息和所述知識(shí)圖譜的實(shí)體信息進(jìn)行關(guān)聯(lián),進(jìn)而學(xué)習(xí)得到文本上下文嵌入表 示; 建模單元,用于根據(jù)所述文本上下文嵌入表示對(duì)所述知識(shí)譜圖中實(shí)體和關(guān)系的嵌入表 示分別進(jìn)行建模,得到所述知識(shí)圖譜的嵌入表示模型; 訓(xùn)練單元,用于使用隨機(jī)梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識(shí)圖譜中實(shí) 體和關(guān)系的嵌入表不。7. 根據(jù)權(quán)利要求6所述的獲取知識(shí)圖譜向量化表示的裝置,其特征在于,所述實(shí)體標(biāo)注 工具為以下中的至少一者: AIDI、TAGME 以及 Wikify!。8. 根據(jù)權(quán)利要求6所述的獲取知識(shí)圖譜向量化表示的裝置,其特征在于,所述構(gòu)建單 元,具體用于: 根據(jù)所述共現(xiàn)網(wǎng)絡(luò)分別定義一元文本上下文和二元文本上下文; 以所述文本語(yǔ)料為輸入,采用Skip-gram Word2Vec進(jìn)行詞嵌入表示學(xué)習(xí),得到所述共 現(xiàn)網(wǎng)絡(luò)中任意一點(diǎn)的詞向量嵌入表示; 根據(jù)所述一元文本上下文和所述詞向量嵌入表示定義一元文本上下文嵌入表示; 根據(jù)所述二元文本上下文和所述詞向量嵌入表示定義二元文本上下文嵌入表示。9. 根據(jù)權(quán)利要求6所述的獲取知識(shí)圖譜向量化表示的裝置,其特征在于,所述建模單 元,具體用于: 采用基于線性變換的方法、基于空間變換的方法或基于超平面映射的方法變換所述實(shí) 體的一元文本上下文嵌入表示,得到所述實(shí)體的嵌入表示模型; 采用基于線性變換的方法變換所述實(shí)體的二元文本上下文嵌入表示,得到所述關(guān)系的 嵌入表不模型; 根據(jù)所述實(shí)體的嵌入表示模型和所述關(guān)系的嵌入表示模型得到所述知識(shí)圖譜的嵌入 表不模型。10. 根據(jù)權(quán)利要求6所述的獲取知識(shí)圖譜向量化表示的裝置,其特征在于,所述訓(xùn)練單 元,具體用于: 根據(jù)所述嵌入表示模型定義基于邊緣的損失函數(shù); 使用隨機(jī)梯度下降法訓(xùn)練所述嵌入表示模型,使得所述損失函數(shù)最小化,從而得到所 述知識(shí)圖譜中實(shí)體和關(guān)系的嵌入表示。
【文檔編號(hào)】G06F17/27GK105824802SQ201610197184
【公開(kāi)日】2016年8月3日
【申請(qǐng)日】2016年3月31日
【發(fā)明人】李涓子, 王志剛
【申請(qǐng)人】清華大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1