本發(fā)明涉及實體集擴展技術領域,特別是涉及一種實體集擴展方法及裝置。
背景技術:
實體集擴展是指,已知具有特定語義類型(也稱特定共同特征)的幾個實體種子,根據一定的規(guī)則得到該特定語義類型的更多的實體。例如,給定特定語義類型為國家首都的實體種子集合{北京,華盛頓,莫斯科},要求找出更多國家首都,比如找出{首爾,東京,吉隆坡,···}。目前,實體集擴展已經得到了廣泛的應用,例如,字典的擴展和查詢建議的擴展等。
最常見的實體集擴展方法是,選取一個數據源,對數據源按一定的規(guī)則進行處理,從中確定出與種子實體具有相同語義類型的其它實體作為實體集的擴展元素。現有的實體集擴展方法,大都以文本或網頁作為數據源。然而,由于單個文本和網頁中包含的數據量有限,使得實體集擴展的有效性不理想,不能滿足日益攀升的實體集擴展需求。
技術實現要素:
本發(fā)明實施例的目的在于提供一種實體集擴展方法及裝置,以提高實體集擴展的有效性。
為了實現上述目的,第一方面,本發(fā)明實施例提供了一種實體集擴展方法,所述方法包括:
根據預先確定的種子實體集,從目標知識圖譜中抽取候選實體,并將抽取得到的候選實體組成候選實體集;所述目標知識圖譜至少包括所述種子實體集中的種子實體;
從與所述目標知識圖譜對應的異質信息網絡中,確定種子實體之間的元路徑;所述元路徑為:所述異質信息網絡中的兩個節(jié)點類型之間由實體類型和關系類型組成的連接路徑;其中,所述兩個節(jié)點類型為所述種子實體集中不同的種子實體對應的節(jié)點類型;
根據每條元路徑連接的種子實體對的數量確定每條元路徑的第一重要程度;
根據每條元路徑的第一重要程度,確定所述候選實體集中的每一候選實體的第二重要程度;
將所述候選實體集中,所述第二重要程度滿足第一預設條件的候選實體確定為待擴展實體,并將所述待擴展實體添加至所述種子實體集中。
可選地,所述根據預先確定的種子實體集,從目標知識圖譜中抽取候選實體,包括:
確定預先確定的種子實體集中每個種子實體的實體類型集;
將所有實體類型集的交集確定為初始實體類型集;
根據所述初始實體類型集中各實體類型的層級關系,確定所述種子實體集對應的最終實體類型集;將所述目標知識圖譜中,符合所述最終實體類型集中實體類型的實體作為候選實體。
可選地,所述根據所述初始實體類型集中各實體類型的層級關系,確定最終實體類型集,包括:
確定所述初始實體類型集所對應的至少一個層級關系,其中,任一層級關系為至少兩個實體類型的從屬關系;
將每一層級關系中位于最底層的實體類型,確定為最終實體類型,并將所確定的最終實體類型組成為最終實體類型集。
可選地,所述從與所述目標知識圖譜對應的異質信息網絡中,確定種子實體之間的元路徑,包括:
從與所述目標知識圖譜對應的異質信息網絡中,確定與所述種子實體集對應的節(jié)點集合,其中,所述節(jié)點集合中包括與所述種子實體集中的種子實體對應的節(jié)點;
將所述節(jié)點集合中的每一節(jié)點作為第一節(jié)點;
將每一第一節(jié)點作為當前源節(jié)點,在所述異質信息網絡中訪問與每一當前源節(jié)點通過預設類型的邊連接的當前目標節(jié)點,建立與邊類型對應的多個待選結構數據表;其中,任一待選結構數據表包括:由每一第一節(jié)點和通過該待選結構數據表對應的邊類型的邊連接的當前目標節(jié)點組成的第一實體對、每一第一實體對的相似性值、已訪問過的路徑和相似性分數;所述相似性分數為所有第一實體對的相似性值的總和;
針對每一所述待選結構數據表,判斷該待選結構數據表中與每一當前源節(jié)點連接的當前目標節(jié)點是否為第二節(jié)點;如果是,將該待選結構數據表中該當前源節(jié)點對應的第一實體對的相似性值記為第一數值,并將該當前源節(jié)點對應的已訪問過的路徑確定為一條元路徑實例,否則記為第二數值;其中,所述第二節(jié)點為:所述節(jié)點集合中與當前源節(jié)點對應的第一節(jié)點不同的節(jié)點;
從待選結構數據表中,選擇滿足第二預設條件的待選結構數據表作為當前結構數據表;所述第二預設條件包括:待選結構數據表中存儲的種子實體的種類最多;當所存儲的種子實體種類最多的待選結構數據表有多個時,所述第二預設條件還包括:待選結構數據表中存儲的第一實體對的數量最少;
將所述當前結構數據表中的每一當前目標節(jié)點更新為當前源節(jié)點,返回執(zhí)行所述在所述異質信息網絡中訪問與每一當前源節(jié)點通過預設類型的邊連接的當前目標節(jié)點的步驟;
當每一當前結構數據表中已訪問的路徑長度大于第三預設值時,或者當每一當前結構數據表中的種子實體數目小于第四預設值時,統(tǒng)計確定出的所有元路徑實例,并根據所述所有元路徑實例所包含的實體類型和關系類型,得到所述所有元路徑實例對應的元路徑。
可選地,所述從待選結構數據表中,選擇滿足第二預設條件的待選結構數據表作為當前結構數據表,包括:
從相似性分數不大于第一預設值的多個待選結構數據表中,選擇滿足第二預設條件的待選結構數據表作為當前結構數據表。
可選地,所述根據每條元路徑連接的種子實體對的數量確定每條元路徑的第一重要程度,包括:
根據每條元路徑連接的所有種子實體對確定每條元路徑所連接的種子實體對總數;
根據每條元路徑所連接的種子實體對總數和第一預設模型,確定每條元路徑的第一重要程度;
其中,所述第一預設模型為:
可選地,所述根據每條元路徑的第一重要程度,確定所述候選實體集中的每一候選實體的第二重要程度,包括:
根據每條元路徑的第一重要程度和第二預設模型,確定所述候選實體集中的每一候選實體的第二重要程度;
其中,所述第二預設模型為:
可選地,所述將所述候選實體集中,所述第二重要程度滿足第一預設條件的候選實體確定為待擴展實體,包括:
將所述候選實體集中,所述第二重要程度大于第二預設值的候選實體確定為待擴展實體。
可選地,所述將所述候選實體集中,所述第二重要程度滿足第一預設條件的候選實體確定為待擴展實體,包括:
根據所述第二重要程度,按降序對所述候選實體集中的候選實體進行排序,獲得第一候選實體集;并且,從所述第一候選實體集中選取排序在前的第一預設數量的候選實體作為待擴展實體。
為了實現上述發(fā)明目的,第二方面,本發(fā)明實施例提供了一種實體集擴展裝置,所述裝置包括:
候選實體集確定模塊,用于根據預先確定的種子實體集,從目標知識圖譜中抽取候選實體,并將抽取得到的候選實體組成候選實體集;所述目標知識圖譜至少包括所述種子實體集中的種子實體;
元路徑確定模塊,用于從與所述目標知識圖譜對應的異質信息網絡中,確定種子實體之間的元路徑;所述元路徑為:所述異質信息網絡中的兩個節(jié)點類型之間由實體類型和關系類型組成的連接路徑;其中,所述兩個節(jié)點類型為所述種子實體集中不同的種子實體對應的節(jié)點類型;
第一重要程度確定模塊,用于根據每條元路徑連接的種子實體對的數量確定每條元路徑的第一重要程度;
第二重要程度確定模塊,用于根據每條元路徑的第一重要程度,確定所述候選實體集中的每一候選實體的第二重要程度;
實體集擴展模塊,用于將所述候選實體集中,所述第二重要程度滿足第一預設條件的候選實體確定為待擴展實體,并將所述待擴展實體添加至所述種子實體集中。
本發(fā)明實施例提供的一種實體集擴展方法及裝置,一方面,將包含的數據量巨大的目標知識圖譜作為數據源進行實體集擴展;另一方面,從與目標知識圖譜對應的異質信息網絡中確定種子實體集之間的元路徑,由于確定出的每一條元路徑為連接種子實體對的路徑,因此,這些元路徑能準確的反映種子實體間的特定共同特征,進而利用每一條元路徑的第一重要程度所確定的候選實體的第二重要程度更為有效,進而根據第二重要程度確定的待擴展實體也更為有效。因此,應用本發(fā)明實施例提供的實體集擴展方法及裝置能夠提高實體集擴展的有效性。
附圖說明
為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例提供的一種實體集擴展方法的流程圖;
圖2為yago知識圖譜的部分示意圖;
圖3為yago知識圖譜中的實體類型的層級關系的部分示意圖;
圖4為圖1所示的實施例中的步驟s102的一種詳細流程圖;
圖5為利用圖4所示的一種詳細流程圖確定元路徑的原理示意圖;
圖6a至圖6d為本發(fā)明實施例提供的一種實體集擴展方法的有效性驗證結果示意圖,從圖6a至圖6d依次對應的實體類型為:史蒂文·斯皮爾伯格導演的電影的演員、導演獲得過國家電影獎導演的電影、位于加州山景城的公司生產的軟件、位于馬薩諸塞州劍橋的大學的科學家;
圖7為本發(fā)明實施例提供的一種實體集擴展裝置的結構框圖;
圖8為圖7所示的實施例中的模塊702的一種詳細結構框圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
為了解決現有技術存在的問題,本發(fā)明實施例提供了一種實體集擴展方法及裝置,下面結合具體的實施例分別進行說明。
首先對本發(fā)明實施例提供了一種實體集擴展方法進行說明。
如圖1所示,本發(fā)明實施例提供的一種實體集擴展方法,包括如下步驟:
s101、根據預先確定的種子實體集,從目標知識圖譜中抽取候選實體,并將抽取得到的候選實體組成候選實體集;所述目標知識圖譜至少包括所述種子實體集中的種子實體;
種子實體可以預先根據給定的特定語義類型進行設定,由所有種子實體構成的集合即為種子實體集。例如,預先給定特定的語義類型為電影導演,則可以預先確定李安、陳凱歌、張藝謀作為種子實體,進而構成種子實體集{李安,陳凱歌,張藝謀}。
知識圖譜是一個規(guī)模很大的數據集,主要由<主體,謂語,客體>這樣的三元組構成。例如本發(fā)明實施例圖2所示的yago知識圖譜,其中的一個三元組為<斯皮爾伯格,導演,戰(zhàn)馬電影>,該三元組所表示的含義是,斯皮爾伯格導演了電影戰(zhàn)馬。除yago知識圖譜外,現有技術中還存在其他一些知識圖譜,例如dbpedia和freebase。
在本發(fā)明實施例中,目標知識圖譜,是指與預先確定的種子實體相關的知識圖譜。本領域技術人員能夠理解的是,在進行實體集擴展時,只有所采用的數據源與種子實體具有相關性,才能實現實體集的準確擴展。
具體的,目標知識圖譜至少包括所述種子實體集中的種子實體。
在本發(fā)明實施例中,候選實體是與種子實體具有特定共同特征的實體。其中,特定共同特征包括:實體類型相同。
s102、從與所述目標知識圖譜對應的異質信息網絡中,確定種子實體之間的元路徑;所述元路徑為:所述異質信息網絡中的兩個節(jié)點類型之間由實體類型和關系類型組成的連接路徑;其中,所述兩個節(jié)點類型為所述種子實體集中不同的種子實體對應的節(jié)點類型;
異質信息網絡(heterogeneousinformationnetwork)是一個有向圖g=(v,e),其中,v是所有實體節(jié)點的集合,e是所有關系邊的集合,有向圖中的實體對象類型|a|>1或鏈接不同實體對象之間的關系類型|r|>1,在網絡中,一個節(jié)點代表一個實體對象(簡稱實體),一條邊代表被這條邊連接的兩個實體對象間的關系。并且,存在著一個節(jié)點類型的映射函數
元路徑是指,所述異質信息網絡中的兩個節(jié)點類型之間由實體類型和關系類型組成的連接路徑,元路徑代表著兩個節(jié)點類型間的語義關系。一條元路徑∏被定義為
在異質信息網絡中,元路徑被廣泛用來捕捉豐富的語義信息,我們定義對象a1和al+1之間的一條路徑
一般情況下,一條元路徑可能存在多條路徑實例,例如,一條路徑實例為:
由于知識圖譜主要由<主體,謂語,客體>這樣的三元組構成,其中的主體和客體可以分別對應一個實體,其中的謂語可以表示主體與客體間的某種關系或者屬性,并且,知識圖譜中包含的主體和客體的類型、以及主體與客體間的關系或者屬性均不止一種。因此,根據知識圖譜可以事先構建一個異質信息網絡。
例如,在圖2中,“導演”和“表演”是兩種不同類型的關系,“演員”和“電影”是不同的實體類型,
另外,在圖2中,托比·凱貝爾和馬丁麥凱恩都屬于演員類,托比·凱貝爾和尼吉爾·哈弗斯不僅僅是演員類,而且也屬于史蒂文·斯皮爾伯格導演的電影的演員類,為了更好地區(qū)分這兩種類別,我們稱前者為粗粒度的實體類型,后者為細粒度的實體類型,根據細粒度實體類型確定的候選實體更有可能被確定為待擴展實體。
具體的,根據知識圖譜構建異質信息網絡屬于現有技術,因此,本文不對此過程做詳細描述。
在本發(fā)明實施例中,所述兩個節(jié)點為所述種子實體集中不同的種子實體對應的節(jié)點,由所述兩個節(jié)點組成的節(jié)點對可以被稱為“種子實體對”。
表1列出了種子實體集為{s1,s2,…,sm}時,種子實體對應的節(jié)點組成的“種子實體對”。如表1所示,當源節(jié)點為s1時,目標節(jié)點為{s2,…,sm}中的任一個;當源節(jié)點為s2時,目標節(jié)點為{s1,s3,…,sm}中的任一個;當源節(jié)點為其他節(jié)點時,以此類推,此處不再一一敘述。
表1
還需要說明的是,在本發(fā)明實施例中,每一條元路徑中只有源節(jié)點和目標節(jié)點對應的實體為種子實體,其他節(jié)點對應的實體為非種子實體。
s103、根據每條元路徑連接的種子實體對的數量確定每條元路徑的第一重要程度;
在本發(fā)明實施例提供的一種具體實施方式中,步驟s103包括:
步驟1、根據每條元路徑連接的所有種子實體對的數量確定每條元路徑所連接的種子實體對總數;
具體的,由于每一條路徑實例連接一對種子實體,因此,每條元路徑所連接的種子實體對總數為該元路徑對應的所有路徑實例連接的種子實體對的數量的和。
步驟2、根據每條元路徑所連接的種子實體對總數和第一預設模型,確定每條元路徑的第一重要程度;
其中,所述第一預設模型為:
在步驟s102中確定出了所有的重要元路徑,但是每條元路徑的重要程度是不同的,申請人經過大量的實驗驗證表明,某一條元路徑的重要程度與該條元路徑連接的種子實體對總數有關,該條元路徑連接的種子實體對總數越大,該元路徑就越能反映種子實體的共同特征,因此,該條元路徑就越重要。
鑒于此,本發(fā)明實施例提出了根據第一預設模型確定每一條元路徑的第一重要程度的方法,從第一預設模型中,不難發(fā)現,元路徑pk所連接的種子實體對總數越大,其對應的第一重要程度值越大。
需要說明的是,確定每條元路徑的第一重要程度的方法不限于上述一種,現有技術中存在的其他確定每條元路徑的第一重要程度的方法,均適用于本發(fā)明。
s104、根據每條元路徑的第一重要程度,確定所述候選實體集中的每一候選實體的第二重要程度;
在本發(fā)明實施例提供的一種具體實施方式中,步驟s104包括:
根據每條元路徑的第一重要程度和第二預設模型,確定所述候選實體集中的每一候選實體的第二重要程度;
其中,所述第二預設模型為:
不難發(fā)現,第二重要程度與第一重要程度呈正相關關系,由于某一條元路徑的第一重要程度越大,說明該條元路徑越能反映種子實體間的特定共同特征,因此,根據第一重要程度確定的候選實體的第二重要程度更為有效。
同樣需要說明的是,確定每一候選實體的第二重要程度的方法不限于上述一種,現有技術中存在的其他每一候選實體的第二重要程度的方法,均適用于本發(fā)明實施例。
s105、將所述候選實體集中,所述第二重要程度滿足第一預設條件的候選實體確定為待擴展實體,并將所述待擴展實體添加至所述種子實體集中。
在本發(fā)明實施例提供的一種具體實施方式中,步驟s105包括:
將所述候選實體集中,所述第二重要程度大于第二預設值的候選實體確定為待擴展實體。
在本發(fā)明實施例提供的另一種具體實施方式中,步驟s105包括:
根據所述第二重要程度,按降序對所述候選實體集中的候選實體進行排序,獲得第一候選實體集;并且,從所述第一候選實體集中選取排序在前的第一預設數量的候選實體作為待擴展實體。
申請人根據所述目標知識圖譜,對所選取的第一預設數量的待擴展實體采用相應的排序指標進行有效性驗證,證實了本方法的有效性。
本發(fā)明實施例提供的一種實體集擴展方法,一方面,將包含的數據量巨大的目標知識圖譜作為數據源進行實體集擴展;另一方面,從與目標知識圖譜對應的異質信息網絡中確定種子實體之間的元路徑,由于確定出的每一條元路徑為連接種子實體對的路徑,因此,這些元路徑能準確的反映種子實體間的特定共同特征,進而利用每一條元路徑的第一重要程度所確定的候選實體的第二重要程度更為有效,進而根據第二重要程度確定的待擴展實體也更為有效。因此,本發(fā)明實施例提供的實體集擴展方法能夠提高實體集擴展的有效性。
另外,諸如yago等知識圖譜已經成為一種快速檢索信息的工具。隨著知識圖譜的流行,很多研究學者開始使用這一工具來輔助提高文本或者網頁中的實體集擴展的準確性。然而,目前還很少有工作利用知識圖譜作為單獨的數據源來進行實體集擴展。但是把知識圖譜作為單獨的數據源進行實體集擴展是很有必要的,原因如下:(1)傳統(tǒng)的基于文本或者網頁信息的實體集擴展方法需要復雜的自然語言處理,這一定程度上會影響擴展的準確率,而將知識圖譜作為單獨的數據源不需要這些復雜的預處理;(2)知識圖譜包含有豐富的實體和語義關系,這對實體集擴展將會很有裨益。
在本發(fā)明實施例提供的一種具體實施方式中,上述步驟s101中,根據預先確定的種子實體集,從目標知識圖譜中抽取候選實體的步驟,可以包括:
步驟1、確定預先確定的種子實體集中每個種子實體的實體類型集;
例如,對于上文中確定的種子實體集{李安,陳凱歌,張藝謀}中的種子實體李安來說,對應的實體類型集為{人,導演};對于種子實體陳凱歌和張藝謀來說,對應的種子實體類型集為{人,導演,演員}。
步驟2、將所有實體類型集的交集確定為初始實體類型集;
由于相同的實體類型更能反映實體間的共同特征,因此,將所有實體類型集的交集確定為初始實體類型集,可以更加有效的進行實體集擴展。
具體如,步驟1中確定的實體類型集{人,導演}和種子實體類型集{人,導演,演員}的交集為{人,導演},也即確定初始實體類型集為{人,導演}。
步驟3、根據所述初始實體類型集中各實體類型的層級關系,確定所述種子實體集對應的最終實體類型集;將所述目標知識圖譜中,符合所述最終實體類型集中實體類型的實體作為候選實體。
由于初始實體類型集{人,導演}中的“人”這一實體類型雖然能夠反映種子實體的共同特征,但是其粒度較粗,導致確定出的候選實體的語義不明確。因此,在本發(fā)明實施例中,進一步地根據初始實體類型集中各實體類型的層級關系,確定所述種子實體集對應的最終實體類型集。
在本發(fā)明實施例中將包含子類型越多的實體類型稱為“粗粒度”實體類型,相應的將子類型稱為“細粒度”實體類型,例如,在“人”和“導演”這兩個實體類型中,“人”屬于粗粒度,“導演”屬于細粒度,本領域技術人員可以理解的是,實體類型的粗粒度和細粒度是相對而言的。
具體的,初始實體類型集中各實體類型的層級關系指的是各實體類型的從屬關系,例如,在初始實體類型集{人,導演}中,“導演”這一實體類型從屬于“人”這一實體類型。
更為具體的,上述步驟3可以包括:
子步驟1、確定所述初始實體類型集所對應的至少一個層級關系,其中,任一層級關系為至少兩個實體類型的從屬關系;
子步驟2、將每一層級關系中位于最底層的實體類型,確定為最終實體類型,并將所確定的最終實體類型組成為最終實體類型集。
知識圖譜中實體類型或者關系類型經常會以層級的方式組織,這一層級關系描述了實體類型或者關系類型之間的從屬關系(也稱父子關系),圖3示出了實體類型的層級關系的部分示意圖,所有這些類型共享一個根節(jié)點事物。
如圖3所示,當實體類型集為{事物,人,電影導演,演員,人造物,電影}時,可以構建出:電影導演從屬于人、人從屬于事物、演員從屬于人、電影從屬于人造物和人造物從屬于事物的層級關系。在圖3中,位于最底層的實體類型為:電影導演、演員和電影。
對于步驟2中確定出的初始實體類型集{人,導演},位于最下層的實體類型為:導演。因此,最終實體類型為“導演”,組成的最終實體類型集為{導演}。
本領域技術人員可以理解的是,最終實體類型集中的實體類型可以是一種也可以是多種,這都是合理的。
不難看出,在本實施例中,一方面,由于初始實體類型集為各種子實體的實體類型集的交集,而各種子實體的實體類型集的交集中的實體類型更能反映種子實體的共同特征;另一方面,由于初始實體類型集中位于最底層的實體類型更能代表種子實體的語義,而最終侯選實體類型集是根據初始實體類型集中各實體類型的層級關系確定的,因此,根據最終侯選實體類型集抽選的候選實體,更有可能與種子實體具有特定的共同特征,更有可能被作為待擴展實體添加至種子實體集中,這初步保證了本發(fā)明實施例提供的實體集擴展方法的有效性。
另外,需要說明的是,確定候選實體的方法并不限于本實施例提供的上述一種方法,現有技術中存在的其他確定候選實體的方法均適用于本發(fā)明實施例。
在本發(fā)明實施例提供的一種具體實施方式中,圖1所示的實施例中的步驟s102中,所述從與所述目標知識圖譜對應的異質信息網絡中,確定種子實體之間的元路徑,包括:
步驟1、從與所述目標知識圖譜對應的所述異質信息網絡中,確定一組與所述種子實體集中的種子實體對應的節(jié)點;
步驟2、將確定的每一節(jié)點作為源節(jié)點,遍歷所述異質信息網絡,當目標節(jié)點為除該源節(jié)點自身外的種子實體時,將連接該源節(jié)點和該目標節(jié)點的路徑確定為一條元路徑實例;
步驟3、統(tǒng)計確定出的所有元路徑實例,并根據所述所有元路徑實例所包含的實體類型和關系類型,得到所述所有元路徑實例對應的元路徑。
不難看出,由于僅將所確定的一組與所述種子實體集中的種子實體對應的節(jié)點作為源節(jié)點,遍歷所述異質信息網絡確定每一條重要元路徑,因此,可以縮小確定元路徑的遍歷范圍,不僅可以提高確定元路徑的效率,還有助于節(jié)約計算資源。
下面請一并參考圖4和圖5,圖4示出了圖1所示的實施例中的步驟s102的一種詳細流程圖,也即一種元路徑確定方法的流程圖。圖5示出了利用圖4所示的一種詳細流程圖確定元路徑的原理示意圖。
在本發(fā)明實施例提供的一種具體實施方式中,如圖4所示,圖1所示的實施例中的步驟s102中,所述從與所述目標知識圖譜對應的異質信息網絡中,確定種子實體之間的元路徑,包括:
s401、從與所述目標知識圖譜對應的異質信息網絡中,確定與所述種子實體集對應的節(jié)點集合,其中,所述節(jié)點集合中包括與所述種子實體集中的種子實體對應的節(jié)點;
在一種具體實施方式中,所述節(jié)點集合包括與所述種子實體集中的種子實體數量相等且一一對應的節(jié)點。例如,假設種子實體集為演員{1,2,3},則對應的所述節(jié)點集合也為演員{1,2,3}。
在本發(fā)明實施例中,選擇與所述種子實體集種子實體數量相等且一一對應的節(jié)點組成的集合作為節(jié)點集合的目的是,縮小查找范圍,減少確定每條元路徑的計算量,節(jié)約計算資源。
當然,本領域技術人員可以理解的是,在計算資源比較充裕的情況下,也可以選擇與種子實體對應但是數量多于種子實體數量的節(jié)點組成節(jié)點集合,這都是合理的。例如假設種子實體集為演員{1,2,3},所對應的所述節(jié)點集合可以為演員{1,2,3,1,2,3}。
s402、將所述節(jié)點集合中的每一節(jié)點作為第一節(jié)點;
為了方便描述,在本實施例中,均以種子實體集為演員{1,2,3},對應的所述節(jié)點集合為演員{1,2,3}為例進行說明。
具體的,將節(jié)點集合為演員{1,2,3}中的每一節(jié)點作為第一節(jié)點。
s403、將每一第一節(jié)點作為當前源節(jié)點;
可選地,為了方便說明,可以首先建立一個初始結構數據表。
在本發(fā)明實施例中,結構數據表基本形式如表2所示。在表2中,(s,t)表示源節(jié)點s和目標節(jié)點t組成的實體對;σ(s,t|∏)表示當前路徑∏下的實體對(s,t)的相似性值,如果當前路徑∏連接的實體對(s,t)為種子實體對,則相似性值為第一數值,否則相似性值為第二數值。在本發(fā)明實施例中,第一數值大于第二數值,通常情況下,第一數值等于1,第二數值等于0。(s,…,t)表示為尋找與源節(jié)點s通過路徑∏連接的目標節(jié)點t已經訪問的所有節(jié)點。當然,(s,…,t)并不一定必須包含于結構數據表中。
表2
具體的,初始結構數據表如圖5中的表a所示。由于在初始情況下,當前訪問的節(jié)點為第一節(jié)點本身,因此,源節(jié)點和目標節(jié)點均為第一節(jié)點,源節(jié)點和目標節(jié)點組成的實體對對應的相似性值為0,已訪問的節(jié)點為第一節(jié)點本身,初始結構數據表的相似性分數也為0。
s404、在所述異質信息網絡中訪問與每一當前源節(jié)點通過預設類型的邊連接的當前目標節(jié)點,建立與邊類型對應的多個待選結構數據表;
其中,任一待選結構數據表包括:由每一第一節(jié)點和通過該待選結構數據表對應的邊類型的邊連接的當前目標節(jié)點組成的第一實體對、每一第一實體對的相似性值、已訪問過的路徑和相似性分數;所述相似性分數為所有第一實體對的相似性值的總和;
具體如圖5所示,在初始結構數據表a的基礎上,在所述異質信息網絡中訪問與當前源節(jié)點1、2和3通過“表演”這條邊連接的當前目標節(jié)點,以及與當前源節(jié)點1、2和3通過“出生于”這條邊連接的當前目標節(jié)點。此處作為示例,僅選擇“表演”和“出生于”兩種類型的邊進行擴展,但本領域技術人員應該理解,在實際應用中,連接每一當前源節(jié)點和當前目標節(jié)點的預設類型的邊可以是一種或兩種,也可以是兩種以上。
在圖5中,示例性地共建立了與“表演”和“出生于”兩種類型的邊對應的兩個待選結構數據表,分別為表b和表c。
s405、針對每一所述待選結構數據表,判斷該待選結構數據表中與每一當前源節(jié)點連接的當前目標節(jié)點是否為第二節(jié)點;如果是,將該待選結構數據表中該當前源節(jié)點對應的第一實體對的相似性值記為第一數值,并將該當前源節(jié)點對應的已訪問過的路徑確定為一條元路徑實例,否則記為第二數值;其中,所述第二節(jié)點為:所述種子實體集合中與當前源節(jié)點對應的第一節(jié)點不同的節(jié)點;
具體的,在圖5中的表b和表c中,由于每一第一節(jié)點對應的當前目標節(jié)點均不是第二節(jié)點,因此,每一第一實體對的相似性值均示例性地標記為0。
s406、從待選結構數據表中,選擇滿足第二預設條件的待選結構數據表作為當前結構數據表;所述第二預設條件包括:待選結構數據表中存儲的種子實體的種類最多;
可選地,當所存儲的種子實體種類最多的待選結構數據表有多個時,所述第二預設條件還包括:待選結構數據表中存儲的第一實體對的數量最少。
具體的,在圖5中,由于待選結構數據表b中存儲的種子實體的種類大于待選結構數據表c,因此,可以選擇待選結構數據表b作為當前結構數據表。
s407、將所述當前結構數據表中的每一當前目標節(jié)點更新為當前源節(jié)點,返回執(zhí)行所述在所述異質信息網絡中訪問與每一當前源節(jié)點通過預設類型的邊連接的當前目標節(jié)點的步驟;也即返回執(zhí)行步驟s404;
具體的,如圖5所示,將當前結構數據表b中的當前目標節(jié)點電影12、電影17和電影18分別更新為當前源節(jié)點,并對表b返回執(zhí)行步驟s404。
在圖5中,在對表b執(zhí)行步驟s404后,示例性地共建立了與“導演-1”和“創(chuàng)作-1”兩種類型的邊對應的兩個待選結構數據表,分別為表d和表e。
需要說明的是,在圖5中,邊“導演-1”和“創(chuàng)作-1”中的上標“-1”表示反向關系,也即“導演-1”表示“導演”的反向關系。例如,當電影12通過邊“導演-1”與人7連接時,說明電影12被人7導演;當人7通過邊“導演”與電影12連接時,說明人7導演了電影12。另外,結構數據表b、d-h中最后一行的“···”表示未列出的第一實體對。
同樣的,在圖5中的表d和表e中,由于每一第一節(jié)點對應的當前目標節(jié)點均不是第二節(jié)點,因此,每一第一實體對的相似性值均示例性地標記為0。
進一步地,在圖5中,由于待選結構數據表d中存儲的種子實體的種類大于待選結構數據表e,因此,可以選擇待選結構數據表d作為當前結構數據表,并返回執(zhí)行步驟s404。
在對表d執(zhí)行步驟s404后,示例性地建立了與“創(chuàng)作”和“編輯”兩種類型的邊對應的兩個待選結構數據表f和g。在對表f和g執(zhí)行步驟s405和s406后,確定出當前結構數據表為h。在表h中,由于第一節(jié)點1、2和3對應的當前目標節(jié)點均為第二節(jié)點,因此,第一實體對(1,2)、(2,3)和(3,1)的相似性值均可以示例性地標記為1。
s408、當每一當前結構數據表中已訪問的路徑長度大于第三預設值時,或者當每一當前結構數據表中的種子實體數目小于第四預設值時,統(tǒng)計確定出的所有元路徑實例,得到所述所有元路徑實例對應的元路徑。
其中,第三預設值可以為預先設定的已訪問路徑的最大長度,第四預設值可以為預先設定的結構數據表中種子實體數目應該滿足的最小值。
最終,如表h所示,示例性地,可以確定出一條長度為4跳的重要元路徑:
在本實施例中,由于確定出的元路徑為連接種子實體對的重要元路徑,因此,這些元路徑能更準確的反映種子實體間的特定共同特征。當應用本發(fā)明實施例圖4所示的實施例提供的元路徑確定方法確定出的重要元路徑進行實體集擴展時,有效性更高。
可選地,在本發(fā)明圖4所示的實施例中,待選結構數據表中還包括已經訪問的所有節(jié)點,并將待選結構數據表中由“第一實體對、該第一實體對的相似性值和與該第一實體對對應的已經訪問的所有節(jié)點”組成的行稱為一個元組,也即將表2中由“(s,t)、σ(s,t|∏)和(s,…,t)”組成的行稱為一個元組。在此基礎上,在步驟s404后和步驟s405之前,所述元路徑確定方法還包括:
判斷每一當前目標節(jié)點是否為與該當前目標節(jié)點所在元組中存儲的已經訪問的節(jié)點;
如果否,執(zhí)行步驟s405;如果是,將該當前目標結點所在的元組從相應的待選結構數據表中刪除后,執(zhí)行步驟s405。
不難發(fā)現,在本實施例中,由于待選結構數據表的每一元組中還記錄了已經訪問的所有節(jié)點,并在確定每一當前目標節(jié)點時,對該目標節(jié)點是否為已經訪問的節(jié)點進行判斷后,可以防止確定出的元路徑構成環(huán)路,進而避免無休止的遍歷異質信息網絡,提高了元路徑的確定效率。
可選地,在本發(fā)明實施例提供的一種具體實施方式中,圖4所示的實施例中步驟s406,也即所述從待選結構數據表中,選擇滿足第二預設條件的待選結構數據表作為當前結構數據表,包括:
從相似性分數不大于第一預設值的多個待選結構數據表中,選擇滿足第二預設條件的待選結構數據表作為當前結構數據表。
不難看出,當從相似性分數不大于第一預設值的多個待選結構數據表中,選擇滿足第二預設條件的待選結構數據表作為當前結構數據表時,可以進一步地縮小元路徑查找范圍,減少計算量,有助于進一步節(jié)約計算資源。
為了進一步地說明本發(fā)明實施例提供的一種實體集擴展方法的有效性,申請人通過實驗對該方法進行了驗證,具體驗證過程如下:
1)確定目標知識圖譜
申請人將經典的yago知識圖譜作為目標知識圖譜,yago知識圖譜中的數據主要來源于維基百科,wordnet和geonames。目前yago知識圖譜這個數據集有大約一千萬的實體和120百萬的事實,本文主要使用yago知識圖譜中的“yagofacts”、“yagosimpletypes”和“yagotaxonomy”這三部分數據作為數據源,這三部分數據中包含35種關系,1.3百萬實體,三千多種實體類型。表3列出了這三部分數據的具體描述。
表3
2)確定驗證集
申請人共選擇了有代表性的四類驗證集來驗證本發(fā)明實施例提供的實體集擴展方法的有效性,四類驗證集如下:參演史蒂文·斯皮爾伯格導演的電影的演員,位于加州山景城(mountainviewofcalifornia)的公司生產的軟件,導演獲得過國家電影獎(nationalfilmaward)導演的電影,位于馬薩諸塞州劍橋(cambridgeofmassachusetts)的大學的科學家,這四類驗證集中的實體分別記為:演員*、軟件*、電影*和科學家*,這四類驗證集中的實體個數分別是:112、98、653、202。
3)有效性評價標準
采用p@k和map標準來進行有效性能的度量。p@k表示對侯選實體集中的候選實體按重要程度排序后,前k個結果中屬于正例的百分比。
本文主要用p@30,p@60,p@90三個標準進行評價。map標準是p@30,p@60和p@90的準確率的平均值,具體表示為:
3)確定比較對象
將本發(fā)明實施例提供的一種實體集擴展方法(metapathbasedentitysetexpansion,簡稱mp_ese)與下述三種方法進行比較:
(1)基于連接(link-based)的實體集擴展方法。受文本或者網頁中的基于模式的方法的啟發(fā),給出基于實體一跳鏈路關系的實體集擴展方法。
(2)基于最近鄰(nearest-neighbor)的實體集擴展方法。給出同時考慮一跳鏈路和一跳實體的最近鄰的實體集擴展方法。
(3)路徑受限隨機游走pcrw(path-constrainedrandomwalk,pcrw)的實體集擴展方法。該方法是異質網絡中基于路徑隨機游走的方法,給出基于2跳鏈路關系的實體集擴展方法。
對每種方法,隨機從驗證集中選擇三個種子進行實驗,每種方法運行30次取平均結果進行比較。在本發(fā)明實施例提供的實體集擴展方法中,設置第一預設值為:m*(m-1)/2+1,其中m為種子實體的數量,元路徑的最大路徑長度設置為4。
4)驗證結果
驗證結果如圖6a至圖6d所示,圖6a至圖6d依次對應的實體類型為:演員*、電影*、軟件*、科學家*。從圖6a至圖6d中可以看出,應用本發(fā)明實施例提供的方法進行實體集擴展時,準確率比設定的基本方法均要高,尤其是“演員*”和“電影*”兩個類別。在“演員*”和“電影*”兩個類別上,設定的基本方法中的準確率低的原因是,一跳或兩跳的鏈路不能很好地區(qū)分細粒度的實體類別,而本發(fā)明實施例提供的方法所采用的元路徑的跳數較多,能夠很好地區(qū)分細粒度的實體類別,因此準確率高。在“軟件*”類別上,本發(fā)明實施例提供的方法與pcrw方法的準確率相近,原因是“軟件*”是一個重疊類,除了給定的實體類,還具有另外一個粗粒度的實體類別,即同一個公司生產的軟件。
另外,從圖6a至圖6d中,可以看出link-based算法在任何一個類別中的準確率都明顯低于本發(fā)明實施例提供的實體集擴展方法,原因是,link-based算法是基于一跳鏈路的,而一跳鏈路所包含的語義信息非常少,不能準確的反映種子實體間的特定共同特征。而本發(fā)明實施例提供的實體集擴展方法,采用了能夠準確反映種子實體間的特定共同特征的多跳鏈路(元路徑),因此可以捕捉到種子實體的精確語義信息,進而提高了實體集擴展的準確率。
為了進一步直觀地說明本發(fā)明實施例提供的實體集擴展方法的有效性,表4列出了利用本發(fā)明實施例提供的實體集擴展方法在“演員*”類別上,確定出的前三條重要元路徑,從表4中可以看出,這些元路徑反映了“演員*”類別的種子實體之間的潛在的特定共同特征,利用這些元路徑可以進一步確定屬于這一類別的更多的實體作為待擴展實體。
表4
總而言之,相對于設定的上述三種基本方法,本發(fā)明實施例提供的實體集擴展方法更有效。
相應于上述方法實施例,本發(fā)明實施例還提供了一種實體集擴展裝置,下面進行詳細說明。
如圖7所示,本發(fā)明實施例提供了一種實體集擴展裝置,所述裝置包括:候選實體集確定模塊701、元路徑確定模塊702、第一重要程度確定模塊703、第二重要程度確定模塊704和實體集擴展模塊705;
候選實體集確定模塊701,用于根據預先確定的種子實體集,從目標知識圖譜中抽取候選實體,并將抽取得到的候選實體組成候選實體集;所述目標知識圖譜至少包括所述種子實體集中的種子實體;
元路徑確定模塊702,用于從與所述目標知識圖譜對應的異質信息網絡中,確定種子實體之間的元路徑;所述元路徑為:所述異質信息網絡中的兩個節(jié)點類型之間由實體類型和關系類型組成的連接路徑;其中,所述兩個節(jié)點類型為所述種子實體集中不同的種子實體對應的節(jié)點類型;
第一重要程度確定模塊703,用于根據每條元路徑連接的種子實體對的數量確定每條元路徑的第一重要程度;
第二重要程度確定模塊704,用于根據每條元路徑的第一重要程度,確定所述候選實體集中的每一候選實體的第二重要程度;
實體集擴展模塊705,用于將所述候選實體集中,所述第二重要程度滿足第一預設條件的候選實體確定為待擴展實體,并將所述待擴展實體添加至所述種子實體集中。
本發(fā)明實施例提供的一種實體集擴展裝置,一方面,將包含的數據量巨大的目標知識圖譜作為數據源進行實體集擴展;另一方面,從與目標知識圖譜對應的異質信息網絡中確定種子實體之間的元路徑,并且由于確定出的每一條類型的元路徑為連接種子實體對的路徑,因此,這些元路徑能準確的反映種子實體間的潛在共同特征,進而利用元路徑的第一重要程度所確定的候選實體的第二重要程度更為有效,進而根據第二重要程度確定的待擴展實體也更為有效。故而,本發(fā)明實施例提供的實體集擴展方法能夠提高實體集擴展的有效性。
在本發(fā)明實施例提供的一種具體實施方式中,圖7所示的實施例中的候選實體集確定模塊701具體可以包括:實體類型集確定子模塊、初始實體類型集確定子模塊和最終實體類型集確定子模塊;
實體類型集確定子模塊,用于確定預先確定的種子實體集中每個種子實體的實體類型集;
初始實體類型集確定子模塊,用于將所有實體類型集的交集確定為初始實體類型集;
最終實體類型集確定子模塊,用于根據所述初始實體類型集中各實體類型的層級關系,確定所述種子實體集對應的最終實體類型集;將所述目標知識圖譜中,符合所述最終實體類型集中實體類型的實體作為候選實體。
更為具體的,最終實體類型集確定子模塊可以包括:第一確定單元和第二確定單元。
第一確定單元,用于確定所述初始實體類型集所對應的至少一個層級關系,其中,任一層級關系為至少兩個實體類型的從屬關系;
第二確定單元,用于將每一層級關系中位于最底層的實體類型,確定為最終實體類型,并將所確定的最終實體類型組成為最終實體類型集。
不難看出,在本實施例中,一方面,由于初始實體類型集為各種子實體的實體類型集的交集,而各種子實體的實體類型集的交集中的實體類型更能反映種子實體的共同特征;另一方面,由于初始實體類型集中位于最底層的實體類型更能代表種子實體的語義。而最終侯選實體類型集是根據初始實體類型集中各實體類型的層級關系確定的,因此,根據最終侯選實體類型集抽選的候選實體,更有可能與種子實體具有特定的共同特征,更有可能被作為待擴展實體添加至種子實體集中,進而可更好地保證實體集擴展的有效性。
在本發(fā)明實施例提供的一種具體實施方式中,圖7所示的實施例中的元路徑確定模塊702可以包括:節(jié)點確定子模塊、遍歷模塊和確定子模塊。
節(jié)點確定子模塊,用于從與所述目標知識圖譜對應的所述異質信息網絡中,確定一組與所述種子實體集中的種子實體對應的節(jié)點;
遍歷模塊,用于將確定的每一節(jié)點作為源節(jié)點,遍歷所述異質信息網絡,當目標節(jié)點為除該源節(jié)點自身外的種子實體時,將連接該源節(jié)點和該目標節(jié)點的路徑確定為一條元路徑實例;
確定子模塊,用于統(tǒng)計確定出的所有元路徑實例,并根據所述所有元路徑實例所包含的實體類型和關系類型,得到所述所有元路徑實例對應的元路徑。
不難看出,由于僅將所確定的一組與所述種子實體集中的種子實體對應的節(jié)點作為源節(jié)點,遍歷所述異質信息網絡確定每一條重要元路徑,因此,縮小了確定元路徑的遍歷范圍,這樣不僅可以提高確定元路徑的效率,還有助于節(jié)約計算資源。
如圖8所示,在本發(fā)明實施例提供的一種具體實施方式中,元路徑確定模塊702可以包括:節(jié)點集合確定子模塊801、第一節(jié)點確定子模塊802、當前源節(jié)點確定子模塊803、待選結構數據表建立子模塊804、第一判斷子模塊805、選擇子模塊806、更新子模塊807和元路徑確定子模塊808;
節(jié)點集合確定子模塊801,用于從與所述目標知識圖譜對應的異質信息網絡中,確定與所述種子實體集對應的節(jié)點集合,其中,所述節(jié)點集合中包括與所述種子實體集中的種子實體對應的節(jié)點;
第一節(jié)點確定子模塊802,用于將所述節(jié)點集合中的每一節(jié)點作為第一節(jié)點;
當前源節(jié)點確定子模塊803,用于將每一第一節(jié)點作為當前源節(jié)點;
待選結構數據表建立子模塊804,用于在所述異質信息網絡中訪問與每一當前源節(jié)點通過預設類型的邊連接的當前目標節(jié)點,建立與邊類型對應的多個待選結構數據表;
第一判斷子模塊805,用于針對每一所述待選結構數據表,判斷該待選結構數據表中與每一當前源節(jié)點連接的當前目標節(jié)點是否為第二節(jié)點;如果是,將該待選結構數據表中該當前源節(jié)點對應的第一實體對的相似性值記為第一數值,并將該當前源節(jié)點對應的已訪問過的路徑確定為一條元路徑實例,否則記為第二數值;其中,所述第二節(jié)點為:所述種子實體集合中與當前源節(jié)點對應的第一節(jié)點不同的節(jié)點;
選擇子模塊806,用于從待選結構數據表中,選擇滿足第二預設條件的待選結構數據表作為當前結構數據表;所述第二預設條件包括:待選結構數據表中存儲的種子實體的種類最多;
更新子模塊807,用于將所述當前結構數據表中的每一當前目標節(jié)點更新為當前源節(jié)點,并觸發(fā)待選結構數據表建立子模塊804;
元路徑確定子模塊808,用于當每一當前結構數據表中已訪問的路徑長度大于第三預設值時,或者當每一當前結構數據表中的種子實體數目小于第四預設值時,統(tǒng)計確定出的所有元路徑實例,并根據所述所有元路徑實例所包含的實體類型和關系類型,得到所述所有元路徑實例對應的元路徑。
其中,第三預設值可以為預先設定的已訪問路徑的最大長度,第四預設值可以為預先設定的結構數據表中種子實體數目應該滿足的最小值。
在本實施例中,由于確定出的元路徑為連接種子實體對的重要元路徑,因此,這些元路徑能更準確的反映種子實體間的特定共同特征。當應用本發(fā)明實施例圖8所示的實施例提供的裝置確定出的重要元路徑進行實體集擴展時,準確率更高。
可選地,在本發(fā)明圖8所示的實施例中,待選結構數據表中還包括已經訪問的所有節(jié)點,并將待選結構數據表中由“第一實體對、該第一實體對的相似性值和與該第一實體對對應的已經訪問的所有節(jié)點”組成的行稱為一個元組。在此基礎上,在觸發(fā)待選結構數據表建立子模塊804之后,在觸發(fā)第一判斷子模塊805之前,元路徑確定模塊702還可以包括:
第二判斷子模塊,用于判斷每一當前目標節(jié)點是否為與該當前目標節(jié)點所在元組中存儲的已經訪問的節(jié)點;
觸發(fā)子模塊,用于在第二判斷子模塊獲得的判斷結果為否的情況下,觸發(fā)待選結構數據表建立子模塊804;在第二判斷子模塊獲得的判斷結果為是的情況下,將該當前目標結點所在的元組從相應的待選結構數據表中刪除后,觸發(fā)待選結構數據表建立子模塊804。
不難發(fā)現,在本實施例中,由于待選結構數據表的每一元組中還記錄了已經訪問的所有節(jié)點,并在確定每一當前目標節(jié)點時,對該目標節(jié)點是否為已經訪問的節(jié)點進行判斷后,可以防止確定出的元路徑構成環(huán)路,進而避免無休止的遍歷異質信息網絡,提高元路徑的確定效率。
可選地,在本發(fā)明實施例提供的一種具體實施方式中,圖8所示的實施例中選擇子模塊806,具體用于從相似性分數不大于第一預設值的多個待選結構數據表中,選擇滿足第二預設條件的待選結構數據表作為當前結構數據表。
不難看出,當從相似性分數不大于第一預設值的多個待選結構數據表中,選擇滿足第二預設條件的待選結構數據表作為當前結構數據表時,可以進一步地縮小元路徑查找范圍,減少計算量,有助于進一步提高元路徑確定效率、節(jié)約計算資源。
在本發(fā)明實施例提供的一種具體實施方式中,圖7所示的實施例中的第一重要程度確定模塊703,具體用于根據每條元路徑連接的所有種子實體對確定每條元路徑所連接的種子實體對總數;根據每條元路徑所連接的種子實體對總數和第一預設模型,確定每條元路徑的第一重要程度;
其中,所述第一預設模型為:
不難看出,第一重要程度與元路徑所連接的種子實體對總數呈正相關,元路徑所連接的種子實體對越多,說明該條元路徑越能反映種子實體間的特定共同特征,因此,根據元路徑所連接的種子實體對總數確定的第一重要程度值更為準確。
在本發(fā)明實施例提供的一種具體實施方式中,圖7所示的實施例中的第二重要程度確定模塊704,用于根據每條元路徑的第一重要程度和第二預設模型,確定所述候選實體集中的每一候選實體的第二重要程度;
其中,所述第二預設模型為:
其中各參數的物理意義與上述方法實施例中對應相同,此處不再贅述。
不難發(fā)現,第二重要程度與第一重要程度呈正相關關系,由于某一條元路徑的第一重要程度越大,說明該元路徑越能反映種子實體間的特定共同特征,因此,根據第一重要程度確定的候選實體的第二重要程度更為準確。
在本發(fā)明實施例提供的一種具體實施方式中,圖7所示的實施例中的實體集擴展模塊705,具體用于將所述候選實體集中,所述第二重要程度大于第二預設值的候選實體確定為待擴展實體。
在本發(fā)明實施例提供的另一種具體實施方式中,圖7所示的實施例中的實體集擴展模塊705,具體用于根據所述第二重要程度,按降序對所述候選實體集中的候選實體進行排序,獲得第一候選實體集;并且,從所述第一候選實體集中選取排序在前的第一預設數量的候選實體作為待擴展實體。
申請人根據所述目標知識圖譜,對所選取的第一預設數量的待擴展實體采用相應的排序指標進行有效性驗證,證實了本方法的有效性。
在上述兩個實施例中,均是根據第二重要程度確定待擴展實體,由于第二重要程度能夠正確反映候選實體與種子實體間的特定共同特征,因此,根據第二重要程度確定出的待擴展實體更為有效,保證了實體擴展的有效性。
需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
本說明書中的各個實施例均采用相關的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內。