知識(shí)數(shù)據(jù)的處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種知識(shí)數(shù)據(jù)的處理方法及裝置。
【背景技術(shù)】
[0002]近年來(lái),互聯(lián)網(wǎng)正從僅包含網(wǎng)頁(yè)和網(wǎng)頁(yè)之間超鏈接的文檔萬(wàn)維網(wǎng),向包含大量描述各種實(shí)體和實(shí)體之間豐富關(guān)系的數(shù)據(jù)萬(wàn)維網(wǎng)轉(zhuǎn)變。在上述背景下,百度、Google等知名搜索引擎公司紛紛以此為基礎(chǔ),通過(guò)構(gòu)建知識(shí)圖譜來(lái)改進(jìn)搜索質(zhì)量。
[0003]實(shí)體關(guān)聯(lián)是指將文本描述的實(shí)體信息與實(shí)體信息庫(kù)中的具體實(shí)體進(jìn)行關(guān)聯(lián),從而建立實(shí)體知識(shí)庫(kù)中實(shí)體間的關(guān)系,進(jìn)而形成完善的知識(shí)圖譜。在現(xiàn)有技術(shù)中,一般通過(guò)人工編輯方式來(lái)進(jìn)行實(shí)體關(guān)聯(lián)。然而,人工編輯方式具有耗費(fèi)人力、周期長(zhǎng)、不適用于大規(guī)模實(shí)體數(shù)據(jù)關(guān)聯(lián)等不足之處。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于,提供一種知識(shí)數(shù)據(jù)的處理方法及裝置,以實(shí)現(xiàn)自動(dòng)、快速地將實(shí)體數(shù)據(jù)中描述的實(shí)體對(duì)象與實(shí)體信息庫(kù)中的實(shí)體對(duì)象進(jìn)行關(guān)聯(lián),從而更新完善與實(shí)體對(duì)象相關(guān)的知識(shí)圖譜。
[0005]根據(jù)本發(fā)明的一方面,提供一種知識(shí)數(shù)據(jù)的處理方法,包括:獲取包括第一實(shí)體對(duì)象的標(biāo)識(shí)、屬性及其屬性值的實(shí)體數(shù)據(jù);從預(yù)設(shè)的實(shí)體信息庫(kù)提取分別與所述實(shí)體數(shù)據(jù)中的屬性值匹配的第二實(shí)體對(duì)象的信息;將所述第二實(shí)體對(duì)象與第一實(shí)體對(duì)象進(jìn)行關(guān)聯(lián),以更新與所述第一實(shí)體對(duì)象相關(guān)的知識(shí)圖譜。
[0006]優(yōu)選地,所述將所述第二實(shí)體對(duì)象與第一實(shí)體對(duì)象進(jìn)行關(guān)聯(lián),以更新與所述第一實(shí)體對(duì)象相關(guān)的知識(shí)圖譜的處理包括:將所述第一實(shí)體對(duì)象相對(duì)應(yīng)的實(shí)體數(shù)據(jù)中匹配的屬性值替換為所述第二實(shí)體對(duì)象的標(biāo)識(shí)。
[0007]優(yōu)選地,所述方法還包括:從所述實(shí)體數(shù)據(jù)提取值為專(zhuān)有名詞的屬性值;
[0008]所述從預(yù)設(shè)的實(shí)體信息庫(kù)提取分別與所述實(shí)體數(shù)據(jù)中的屬性值匹配的第二實(shí)體對(duì)象的信息的處理包括:從預(yù)設(shè)的實(shí)體信息庫(kù)提取分別與所述提取的屬性值匹配的第二實(shí)體對(duì)象的信息。
[0009]優(yōu)選地,所述從預(yù)設(shè)的實(shí)體信息庫(kù)提取分別與所述提取的屬性值匹配的第二實(shí)體對(duì)象的信息的處理包括:分別根據(jù)所述提取的屬性值從預(yù)設(shè)的實(shí)體信息庫(kù)提取與多個(gè)候選第二實(shí)體對(duì)象的信息,分別從所述多個(gè)候選第二實(shí)體對(duì)象選取匹配度高的第二實(shí)體對(duì)象的?目息。
[0010]優(yōu)選地,所述分別從所述多個(gè)候選第二實(shí)體對(duì)象選取匹配度高的候選第二實(shí)體對(duì)象的信息的處理包括:分別獲取包含每個(gè)所述候選第二實(shí)體對(duì)象相應(yīng)的屬性值的多個(gè)文本數(shù)據(jù),選取所述第一實(shí)體對(duì)象的標(biāo)識(shí)在所述多個(gè)文本數(shù)據(jù)中出現(xiàn)次數(shù)最多的文本數(shù)據(jù)對(duì)應(yīng)的候選第二實(shí)體對(duì)象,作為所述匹配度高的第二實(shí)體對(duì)象。
[0011]優(yōu)選地,所述實(shí)體數(shù)據(jù)是多個(gè)包括第一實(shí)體對(duì)象的標(biāo)識(shí)、屬性及其屬性值的三元組數(shù)據(jù)。
[0012]根據(jù)本發(fā)明的另一方面,還提供一種知識(shí)數(shù)據(jù)的處理裝置,包括:實(shí)體數(shù)據(jù)獲取模塊,用于獲取包括第一實(shí)體對(duì)象的標(biāo)識(shí)、屬性及其屬性值的實(shí)體數(shù)據(jù);實(shí)體信息提取模塊,用于從預(yù)設(shè)的實(shí)體信息庫(kù)提取分別與所述實(shí)體數(shù)據(jù)中的屬性值匹配的第二實(shí)體對(duì)象的信息;實(shí)體關(guān)聯(lián)模塊,用于將所述第二實(shí)體對(duì)象與第一實(shí)體對(duì)象進(jìn)行關(guān)聯(lián),以更新與所述第一實(shí)體對(duì)象相關(guān)的知識(shí)圖譜。
[0013]優(yōu)選地,所述實(shí)體關(guān)聯(lián)模塊用于將所述第一實(shí)體對(duì)象相對(duì)應(yīng)的實(shí)體數(shù)據(jù)中匹配的屬性值替換為所述第二實(shí)體對(duì)象的標(biāo)識(shí)。
[0014]優(yōu)選地,所述裝置還包括:屬性值提取模塊,用于從所述實(shí)體數(shù)據(jù)提取值為專(zhuān)有名詞的屬性值,所述實(shí)體信息提取模塊用于從預(yù)設(shè)的實(shí)體信息庫(kù)提取分別與所述提取的屬性值匹配的第二實(shí)體對(duì)象的信息。
[0015]優(yōu)選地,所述實(shí)體信息提取模塊包括:候選實(shí)體信息提取單元,用于分別根據(jù)所述提取的屬性值從預(yù)設(shè)的實(shí)體信息庫(kù)提取與多個(gè)候選第二實(shí)體對(duì)象的信息,實(shí)體信息選取單元,用于分別從所述多個(gè)候選第二實(shí)體對(duì)象選取匹配度高的第二實(shí)體對(duì)象的信息。
[0016]優(yōu)選地,所述實(shí)體信息選取單元用于分別獲取包含每個(gè)所述候選第二實(shí)體對(duì)象相應(yīng)的屬性值的多個(gè)文本數(shù)據(jù),選取所述第一實(shí)體對(duì)象的標(biāo)識(shí)在所述多個(gè)文本數(shù)據(jù)中出現(xiàn)次數(shù)最多的文本數(shù)據(jù)對(duì)應(yīng)的候選第二實(shí)體對(duì)象,作為所述匹配度高的第二實(shí)體對(duì)象。
[0017]優(yōu)選地,所述實(shí)體數(shù)據(jù)是多個(gè)包括第一實(shí)體對(duì)象的標(biāo)識(shí)、屬性及其屬性值的三元組數(shù)據(jù)。
[0018]本發(fā)明實(shí)施例提供的知識(shí)數(shù)據(jù)的處理方法及裝置獲取有關(guān)第一實(shí)體對(duì)象的實(shí)體數(shù)據(jù)中的屬性值,依據(jù)獲取到的屬性值從預(yù)設(shè)實(shí)體信息庫(kù)中提取分別與其匹配的第二實(shí)體對(duì)象的信息,自動(dòng)、快速地將實(shí)體數(shù)據(jù)中描述的實(shí)體對(duì)象與實(shí)體信息庫(kù)中的實(shí)體對(duì)象進(jìn)行關(guān)聯(lián),從而更新完善與實(shí)體對(duì)象相關(guān)的知識(shí)圖譜,為實(shí)體推薦等應(yīng)用領(lǐng)域提供更為豐富的數(shù)據(jù)基礎(chǔ)。
【附圖說(shuō)明】
[0019]圖1是示出根據(jù)本發(fā)明實(shí)施例一的知識(shí)數(shù)據(jù)的處理方法的流程圖;
[0020]圖2是示出根據(jù)本發(fā)明實(shí)施例二的知識(shí)數(shù)據(jù)的處理裝置的邏輯框圖。
【具體實(shí)施方式】
[0021]本發(fā)明的基本構(gòu)思是,提供一種知識(shí)數(shù)據(jù)的處理方式:依據(jù)獲取到的有關(guān)第一實(shí)體對(duì)象的實(shí)體數(shù)據(jù)中的屬性值,從預(yù)設(shè)實(shí)體信息庫(kù)中提取分別與所述屬性值匹配的第二實(shí)體對(duì)象的信息,由此,可基于提取的第二實(shí)體對(duì)象的信息,自動(dòng)而快速地將第一實(shí)體對(duì)象與第二實(shí)體對(duì)象進(jìn)行關(guān)聯(lián),從而更新完善與實(shí)體對(duì)象相關(guān)的知識(shí)圖譜。
[0022]此外,與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例所述的知識(shí)數(shù)據(jù)的處理方法無(wú)需耗費(fèi)人力,處理周期短,適用于大規(guī)模實(shí)體數(shù)據(jù)關(guān)聯(lián),同時(shí),可為例如實(shí)體推薦、知識(shí)推理等應(yīng)用領(lǐng)域提供更加豐富、準(zhǔn)確的數(shù)據(jù)進(jìn)行分析。
[0023]下面結(jié)合附圖詳細(xì)描述本發(fā)明的示例性實(shí)施例知識(shí)數(shù)據(jù)的處理方法及裝置。
[0024]實(shí)施例一
[0025]圖1是示出根據(jù)本發(fā)明實(shí)施例一的知識(shí)數(shù)據(jù)的處理方法的流程圖??稍谌鐖D2所示的裝置上執(zhí)行該方法。
[0026]參照?qǐng)D1,在步驟S110,獲取包括第一實(shí)體對(duì)象的標(biāo)識(shí)、屬性及其屬性值的實(shí)體數(shù)據(jù)。
[0027]這里,所述實(shí)體數(shù)據(jù)可以是多個(gè)包括第一實(shí)體對(duì)象的標(biāo)識(shí)、屬性及其屬性值的三元組數(shù)據(jù)。其中,具體地,實(shí)體對(duì)象的標(biāo)識(shí)是用于識(shí)別實(shí)體對(duì)象的,可以使用設(shè)定的字符串、統(tǒng)一資源定位符(Uniform Resource Locator, URL)等唯一標(biāo)識(shí)來(lái)作為實(shí)體對(duì)象的標(biāo)識(shí)。
[0028]通常,將現(xiàn)實(shí)世界中的客觀事物稱(chēng)為實(shí)體,例如概念、事物、人物或事件等。舉例來(lái)說(shuō),影視劇“花千骨”、百度公司以及宇宙大爆炸理論都是實(shí)體的實(shí)例。同時(shí),每個(gè)實(shí)體具有屬性,屬性反映實(shí)體的相關(guān)信息,例如,仙俠題材、公司辦公地點(diǎn)、現(xiàn)代宇宙理論分別是上述實(shí)體對(duì)應(yīng)的屬性。對(duì)于一個(gè)實(shí)體,其對(duì)應(yīng)的屬性可以是多種多樣的,一個(gè)屬性也可以對(duì)應(yīng)一個(gè)或者多個(gè)屬性值。
[0029]相應(yīng)地,本步驟中獲取的實(shí)體數(shù)據(jù)例如(孔子,民族,漢族)、(孔子、國(guó)籍、魯國(guó))、(孔子、兒子、孔鯉)、(孔子,性別,男)、(孔子,生日,農(nóng)歷八月二十七)等等。其中,例如(孔子,民族,漢族)是一個(gè)三元組數(shù)據(jù)。由此可見(jiàn),實(shí)體數(shù)據(jù)包含了多個(gè)三元組數(shù)據(jù)。為了便于理解,上述實(shí)體數(shù)據(jù)中實(shí)體對(duì)象的標(biāo)識(shí)寫(xiě)做“孔子”,在實(shí)際應(yīng)用中,可用設(shè)定的字符串、URL來(lái)代表“孔子”。以(孔子、兒子、孔鯉)為例,“兒子”是“孔子”對(duì)應(yīng)的屬性,“孔鯉”是“兒子”對(duì)應(yīng)的屬性值,如果說(shuō)孔子還有其他的兒子,屬性“兒子”還可以對(duì)應(yīng)其他的屬性值。
[0030]在步驟S120,從預(yù)設(shè)的實(shí)體信息庫(kù)提取分別與所述實(shí)體數(shù)據(jù)中的屬性值匹配的第二實(shí)體對(duì)象的信息。
[0031]在上述步驟S110獲取實(shí)體數(shù)據(jù)之后,所述實(shí)體數(shù)據(jù)中可能會(huì)存在無(wú)需進(jìn)行實(shí)體關(guān)聯(lián)的數(shù)據(jù),例如(孔子,生日,農(nóng)歷八月二十七),生日是明確的日期而不是實(shí)體,也就無(wú)需進(jìn)行實(shí)體關(guān)聯(lián)。再比如(孔子,性別,男),性別對(duì)應(yīng)的屬性值是男,也是無(wú)需進(jìn)行實(shí)體關(guān)耳關(guān)。
[0032]因此,所述方法還可以包括:從所述實(shí)體數(shù)據(jù)提取值為專(zhuān)有名詞的屬性值。仍以上述有關(guān)“孔子”這一實(shí)體的實(shí)體數(shù)據(jù)為例,經(jīng)過(guò)提取處理后,保留下的實(shí)體數(shù)據(jù)是(孔子,民族,漢族)、(孔子、國(guó)籍、魯國(guó))和(孔子、兒子、孔鯉)。
[0033]相應(yīng)地,根據(jù)本發(fā)明的示例性實(shí)施例,步驟S120可包括:從預(yù)設(shè)的實(shí)體信息庫(kù)提取分別與所述提取的屬性值匹配的第二實(shí)體對(duì)象的信息。具體地,可分別根據(jù)所述提取的屬性值從預(yù)設(shè)的實(shí)體信息庫(kù)提取與多個(gè)候選第二實(shí)體對(duì)象的信息,分別從所述多個(gè)候選第二實(shí)體對(duì)象選取匹配度高的第二實(shí)體對(duì)象的信息。其中,預(yù)設(shè)的實(shí)體信息庫(kù)為預(yù)先從網(wǎng)絡(luò)文本中獲取并數(shù)據(jù)處理的實(shí)體信息庫(kù),預(yù)設(shè)的實(shí)體信息庫(kù)中存儲(chǔ)有多個(gè)實(shí)體,預(yù)設(shè)的實(shí)體信息庫(kù)可以存儲(chǔ)在服務(wù)器中或者其它設(shè)備中。
[0034]優(yōu)選地,上述分別從所述多個(gè)候選第二實(shí)體對(duì)象選取匹配度高的候選第二實(shí)體對(duì)象的信息的處理包括:分別獲取包含每個(gè)所述候選第二實(shí)體對(duì)象相應(yīng)的屬性值的多個(gè)文本數(shù)據(jù),選取所述第一實(shí)體對(duì)象的標(biāo)識(shí)在所述多個(gè)文本數(shù)據(jù)中出現(xiàn)次數(shù)最多的文本數(shù)據(jù)對(duì)應(yīng)的候選第二實(shí)體對(duì)象,作為所述匹配度高的第二實(shí)體對(duì)象。
[0035]在步驟S130,將所述第二實(shí)體對(duì)象與第一實(shí)體對(duì)象進(jìn)行關(guān)聯(lián),以更新與所述第一實(shí)體對(duì)象相關(guān)的知識(shí)圖譜。
[0036]根據(jù)本發(fā)明的示例性實(shí)施例,步驟S130可包括:將所述第一實(shí)體對(duì)象相對(duì)應(yīng)的實(shí)體數(shù)據(jù)中匹配的屬性值替換為所述第二實(shí)體對(duì)象的標(biāo)識(shí)。
[0037]在具體的實(shí)現(xiàn)方式中,步驟S120?S130的處理以三元組數(shù)據(jù)(亞歷山大二世,父親,尼古拉一世)為例進(jìn)行詳細(xì)說(shuō)明,“亞歷山大二世”就是本實(shí)施例中所述的第一實(shí)體對(duì)象,很顯然的,屬性值“尼古拉一世”也代表一個(gè)實(shí)體,這就需要將“亞歷山大二世”與“尼古拉一世”進(jìn)行關(guān)聯(lián)。由于預(yù)設(shè)的實(shí)體信息庫(kù)可能存有多個(gè)有關(guān)“尼古拉一世”的實(shí)體數(shù)據(jù),而其中真正與“亞歷山大二世”有關(guān)聯(lián)的只有一個(gè),由此,需要做的一