本發(fā)明涉及通信網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種解決知識圖譜中的實體對齊問題的方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的飛速發(fā)展,為了更方便地、清晰地獲取信息、學習知識,更經(jīng)常的使用搜索引擎服務來進行信息搜索和查詢。在知識圖譜領(lǐng)域,面臨實體對齊的問題。所謂實體對齊指的是:從不同網(wǎng)頁中抽取的實體(概念),如何判斷這些實體是否是同一個?!皩嶓w”可以是現(xiàn)實中的一個事物,也可以是一個概念等等。比如一個公司就是一個實體,一個術(shù)語也是一個實體。不同渠道獲取的數(shù)據(jù)在進行調(diào)整和更新時,由于來自不同的數(shù)據(jù)對于同一事物的描述方式不同,或者對于同一事物,不同的數(shù)據(jù)來源對其進行不同角度的描述,會出現(xiàn)同一個事物具有多個不同版本的數(shù)據(jù)描述,也需要對數(shù)據(jù)進行關(guān)聯(lián)和梳理。
比如從網(wǎng)頁http://movie.douban.com/subject/24751756/中抽取的實體中有一個名為“馮小剛”的實體,從網(wǎng)頁http://baike.so.com/doc/1168497-1236034.html中抽取的實體中也有一個名為“馮小剛”的實體,這兩個實體是同一個。
在解決實體對齊的問題中,很難找到一個策略保證100%的正確,因此容易把兩個不同的實體誤認為是同一個實體。比如從不同的網(wǎng)頁中抽出來的兩個“成龍”并不是同一個實體,一個為影星成龍,另一個為動漫《成龍歷險記》中的角色成龍。因為他們都曾在動漫《成龍歷險記》中出現(xiàn)過(比如豆瓣網(wǎng)頁https://movie.douban.com/subject/1933857/中明確標出了《成龍歷險記》的主演直接鏈接到影星成龍的頁面https://movie.douban.com/celebrity/1054531/,其實影星成龍在此動漫中是配音),如果先前并不知道他們的類型(確定類型是難度較大的工作,也存在一定的錯誤率),往往會被認為是同一個。
現(xiàn)有技術(shù)中存在如下不足:,往往只能人工的方式來解決問題,例如設(shè)定一些黑名單等,以明確標出這些實體不是同一個。但人工的方式成本較高,且效率低下。
技術(shù)實現(xiàn)要素:
鑒于上述問題,提出了本發(fā)明的技術(shù)方案以便提供一種克服上述問題或者至少部分地解決或者減緩上述問題。
根據(jù)本發(fā)明的一個方面,提供了一種解決知識圖譜中的實體對齊問題的方法,所述方法包括:
從網(wǎng)頁中獲取知識圖譜中的兩個或兩個以上具體相同名字的實體;
對所述兩個或兩個以上具體相同名字的實體與指定的實體集合中的元素做比較;
如果所述兩個或兩個以上具體相同名字的實體均與所述實體集合中的同一個元素相同,則判斷所述兩個或兩個以上具體相同名字的實體為相同的實體;
否則,判斷所述兩個或兩個以上具體相同名字的實體為不相同的實體。
進一步的,所述實體集合為百科多義項,所述元素為百科多義項中的多義項。
進一步的,所述百科多義項包括具有相同名字的兩個或者兩個以上的多義項。
進一步的,所述對所述兩個或兩個以上具體相同名字的實體與指定的實體集合中的元素做比較包括:
獲取所述實體的屬性信息;
對所述實體的屬性信息進行數(shù)據(jù)預處理,并對經(jīng)過數(shù)據(jù)預處理后的屬性信息進行數(shù)據(jù)校驗;
根據(jù)所述與實體對應的屬性確定所述兩個或兩個以上具體相同名字的實體是否均與所述百科多義項中的同一個多義項相同。
進一步的,所述獲取與實體對應的屬性信息包括:
從網(wǎng)絡(luò)百科中采集各實體的結(jié)構(gòu)化數(shù)據(jù),以及,從質(zhì)量度超過指定閾值的網(wǎng)頁中采集各實體的非結(jié)構(gòu)化數(shù)據(jù);
其中,所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中包含實體的屬性信息,所述屬性信息包含屬性名和對應的屬性值。
進一步的,對所述實體的屬性信息進行數(shù)據(jù)預處理,包括:
在所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)中各實體的屬性信息中去除錯誤的屬性信息;
從所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)中各實體的屬性信息中,識別出語義相同的屬性信息;
對識別出的語義相同的屬性信息執(zhí)行去重或者歸一化處理。
進一步的,所述對經(jīng)過數(shù)據(jù)預處理后的屬性信息進行數(shù)據(jù)校驗,包括:
根據(jù)預設(shè)的校驗規(guī)則,判斷經(jīng)過數(shù)據(jù)預處理后的屬性信息的屬性值是否正確;
若判斷出經(jīng)過數(shù)據(jù)預處理后的屬性信息的屬性值不正確,在經(jīng)過數(shù)據(jù)預處理后的屬性信息中刪除屬性值不正確的屬性信息。
進一步的,根據(jù)所述與實體對應的屬性確定所述兩個或兩個以上具體相同名字的實體是否均與所述百科多義項中的同一個多義項相同包括:
按照重要性從高到低的順序?qū)Π倏贫嗔x項中的多義項的預定數(shù)量的所述屬性信息進行排序;
對預定數(shù)量的屬性信息進行加權(quán)求和以計算其相似度;
如果所述兩個或兩個以上具體相同名字的實體與百科多義項中的同一個多義項相似度均大于等于預定的閾值,則判定所述兩個或兩個以上具體相同名字的實體為相同的實體;否則,判定所述兩個或兩個以上具體相同名字的實體為不相同的實體。
根據(jù)本發(fā)明的另一方面,提供了一種解決知識圖譜中的實體對齊問題的裝置,所述裝置包括:
實體獲取模塊,用于從網(wǎng)頁中獲取知識圖譜中的兩個或兩個以上具體相同名字的實體;
比較模塊,用于對所述兩個或兩個以上具體相同名字的實體與指定的實體集合中的元素做比較;
判斷模塊,用于根據(jù)比較的結(jié)果進行判斷:如果所述兩個或兩個以上具體相同名字的實體均與所述實體集合中的同一個元素相同,則判斷所述兩個或兩個以上具體相同名字的實體為相同的實體;
否則,判斷所述兩個或兩個以上具體相同名字的實體為不相同的實體。
進一步的,所述實體集合為百科多義項,所述元素為百科多義項中的多義項。
進一步的,所述百科多義項包括具有相同名字的兩個或者兩個以上的多義項。
進一步的,所述比較模塊包括:
屬性信息獲取單元,用于獲取所述實體的屬性信息;
預處理單元,用于對所述實體的屬性信息進行數(shù)據(jù)預處理;
校驗單元,用于對經(jīng)過數(shù)據(jù)預處理后的屬性信息進行數(shù)據(jù)校驗;
確定單元,用于根據(jù)所述與實體對應的屬性確定所述兩個或兩個以上具體相同名字的實體是否均與所述百科多義項中的同一個多義項相同。
進一步的,所述屬性信息獲取單元包括:
從網(wǎng)絡(luò)百科中采集各實體的結(jié)構(gòu)化數(shù)據(jù),以及,從質(zhì)量度超過指定閾值的網(wǎng)頁中采集各實體的非結(jié)構(gòu)化數(shù)據(jù);
其中,所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中包含實體的屬性信息,所述屬性信息包含屬性名和對應的屬性值。
進一步的,對預處理單元包括:
在所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)中各實體的屬性信息中去除錯誤的屬性信息;
從所述結(jié)構(gòu)化數(shù)據(jù)和所述非結(jié)構(gòu)化數(shù)據(jù)中各實體的屬性信息中,識別出語義相同的屬性信息;
對識別出的語義相同的屬性信息執(zhí)行去重或者歸一化處理。
進一步的,所述校驗單元包括:
根據(jù)預設(shè)的校驗規(guī)則,判斷經(jīng)過數(shù)據(jù)預處理后的屬性信息的屬性值是否正確;
若判斷出經(jīng)過數(shù)據(jù)預處理后的屬性信息的屬性值不正確,在經(jīng)過數(shù)據(jù)預處理后的屬性信息中刪除屬性值不正確的屬性信息。
進一步的,所述確定單元進一步包括:
按照重要性從高到低的順序?qū)Π倏贫嗔x項中的多義項的預定數(shù)量的所述屬性信息進行排序;
對預定數(shù)量的屬性信息進行加權(quán)求和以計算其相似度;
如果所述兩個或兩個以上具體相同名字的實體與百科多義項中的同一個多義項相似度均大于等于預定的閾值,則判定所述兩個或兩個以上具體相同名字的實體為相同的實體;否則,判定所述兩個或兩個以上具體相同名字的實體為不相同的實體。
本發(fā)明的有益效果為:
本發(fā)明提供了一種解決知識圖譜中的實體對齊問題的方法和裝置,通過對所述兩個或兩個以上具體相同名字的實體與百科中的多義項做比較,來判斷所述兩個或兩個以上具體相同名字的實體是否為相同的實體。本發(fā)明的技術(shù)方案能夠有效解決現(xiàn)有技術(shù)中通過人工方式解決實體對齊的問題,不僅節(jié)約了成本,而且能夠大大提高效率。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。
附圖說明
通過閱讀下文具體實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出具體實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1為本發(fā)明的解決知識圖譜中的實體對齊問題的方法流程圖;
圖2為本發(fā)明的方法中預處理和校驗步驟的示意圖;
圖3為本發(fā)明的方法中確定步驟的示意圖;
圖4為本發(fā)明的解決知識圖譜中的實體對齊問題的裝置示意圖;
圖5為本發(fā)明的裝置中比較模塊的示意圖。
具體實施方式
下面結(jié)合附圖和具體的實施方式對本發(fā)明作進一步詳細的描述。
圖1為本發(fā)明的解決知識圖譜中的實體對齊問題的方法流程圖。本實施例的方法可以由解決知識圖譜中的實體對齊問題的裝置來執(zhí)行,該裝置可以通過軟件的方式實現(xiàn),并集成于搜索引擎客戶端(如360搜索等)所在的終端設(shè)備(例如,筆記本、pad、手機等)中。
在構(gòu)建知識圖譜或?qū)χR圖譜進行更新時,在進行數(shù)據(jù)融合的過程中,需要解決實體對齊的問題,即判斷不同的實體實際上是否描述的是同一事物。如圖1所示,本發(fā)明提供了一種解決知識圖譜中的實體對齊問題的方法,所述方法包括:
S101、從網(wǎng)頁中獲取知識圖譜中的兩個或兩個以上具體相同名字的實體;
S102、對所述兩個或兩個以上具體相同名字的實體與指定的實體集合中的元素做比較;
S103、如果所述兩個或兩個以上具體相同名字的實體均與所述實體集合中的同一個元素相同,則判斷所述兩個或兩個以上具體相同名字的實體為相同的實體;
否則,判斷所述兩個或兩個以上具體相同名字的實體為不相同的實體。
進一步的,所述實體集合為百科多義項,所述百科多義項包括具有相同名字的兩個或者兩個以上的多義項。所述百科,包括但不限于360百科、維基百科、互動百科、百度百科等網(wǎng)絡(luò)百科數(shù)據(jù)。多義項,指百科中包含有兩個或兩個以上的義項。百科詞條中,每一個不同概念意義事物的敘述內(nèi)容稱為義項。每一個義項,具有獨立的義項名、百科名片、基本信息模塊、正文、參考資料等內(nèi)容。義項名是對詞條名所指代事物作明確識別的詞組,是義項內(nèi)容說明。義項名一般為事物的屬性、從屬關(guān)系等,應具有代表性強、認知度高、簡短易識別的特點。
圖2為本發(fā)明的方法中預處理和校驗步驟的示意圖。
進一步的,所述對所述兩個或兩個以上具體相同名字的實體與指定的實體集合中的元素做比較包括:
S201、獲取與實體對應的屬性信息;
S202、對所述實體的屬性信息進行數(shù)據(jù)預處理,并對經(jīng)過數(shù)據(jù)預處理后的屬性信息進行數(shù)據(jù)校驗;
S203、根據(jù)所述與實體對應的屬性確定所述兩個或兩個以上具體相同名字的實體是否均與所述百科多義項中的同一個多義項相同。
進一步的,步驟S201具體為:
所述獲取與實體對應的屬性信息包括:
從網(wǎng)絡(luò)百科中采集各實體的結(jié)構(gòu)化數(shù)據(jù),以及,從質(zhì)量度超過指定閾值的網(wǎng)頁中采集各實體的非結(jié)構(gòu)化數(shù)據(jù);
其中,所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中包含實體的屬性信息,所述屬性信息包含屬性名和對應的屬性值。
進一步的,由于采集到的各實體的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的來源眾多且數(shù)據(jù)質(zhì)量不一,因此需要先對各實體的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進行處理,以提高獲取的屬性信息準確性。
進一步的,所述S202、對所述實體的屬性信息進行數(shù)據(jù)預處理,并對經(jīng)過數(shù)據(jù)預處理后的屬性信息進行數(shù)據(jù)校驗具體為:
對所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實體的屬性信息進行數(shù)據(jù)預處理的方法可以包括但不限于:
首先,在所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實體的屬性信息中去除錯誤的屬性信息。然后,從所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實體的屬性信息中,識別出語義相同的屬性信息。最后,對識別出的語義相同的屬性信息執(zhí)行去重或者歸一化處理。
可以理解得是,在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實體的屬性信息中可能會存在錯誤的屬性信息,因此有必要對錯誤的屬性信息進行清除,以提高知識圖譜的準確性。例如,可以基于已有的其他知識圖譜中實體與其他實體的關(guān)系,對采集的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實體的關(guān)系中的錯誤的關(guān)系進行識別,從而對識別出的錯誤的關(guān)系進行去除。
在一個具體的實現(xiàn)過程中,可以根據(jù)結(jié)構(gòu)化數(shù)據(jù)中實體的描述文本中對應關(guān)系的說明,識別出語義相同的屬性信息?;蛘?,也可以根據(jù)非結(jié)構(gòu)化數(shù)據(jù)中實體的共現(xiàn)數(shù)據(jù),識別出語義相同的屬性信息?;蛘?,還可以根據(jù)該實體在其他知識圖譜中有共同指向的其他實體的數(shù)目比例數(shù)據(jù),識別出語義相同的屬性信息。
由于不同結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中實體的屬性信息語義相同但是描述不同,因此,在識別出語義相同的屬性信息后,對識別出的語義相同的屬性信息進行去重處理,去除其中一個屬性信息;或者,也可以進行歸一化處理。該歸一化處理可以是以其中一個屬性信息為準,或者也可以根據(jù)兩個屬性信息,重新生成一個屬性信息,將該重新生成的屬性信息作為歸一化處理的結(jié)果,且對語義相同的兩個屬性信息進行去除。
例如,某人物的綽號和外號在語義上是相同的,因此,可以保留綽號,去除外號,或者,也可以保留外號,去除綽號。再例如,對于與時間相關(guān)的實體,將1999年8月1號下午3點24分24秒和一九九九年八月一日15點24分24秒進行時間歸一化,標準ISO6801(19990801152424),以供后期進行合并。對于與地點相關(guān)的實體進行地點歸一化處理(例如通過最大生成樹算法(MST)),得到地點的標準格式(國家.省/州/自治區(qū).城市.區(qū).鎮(zhèn),以及經(jīng)緯度)。
去重處理和歸一化處理都是為了在實體的屬性信息中去除冗余的重復數(shù)據(jù),減少后續(xù)的數(shù)據(jù)處理量。
在對各實體的屬性信息進行數(shù)據(jù)預處理后,還需要對屬性信息進行數(shù)據(jù)校驗。
舉例說明,對經(jīng)過數(shù)據(jù)預處理后的屬性信息進行數(shù)據(jù)校驗的方法可以包括但不限于:
根據(jù)預設(shè)的校驗規(guī)則,判斷經(jīng)過數(shù)據(jù)預處理后的屬性信息的屬性值是否正確;若判斷出經(jīng)過數(shù)據(jù)預處理后的屬性信息的屬性值不正確,在經(jīng)過數(shù)據(jù)預處理后的屬性信息中刪除屬性值不正確的屬性信息。
可以理解的是,校驗規(guī)則中可以定義屬性信息中的屬性值的合理數(shù)值,若屬性信息中的屬性值與合理數(shù)值不符,則該屬性信息的屬性值是錯誤的,即該屬性信息屬于錯誤數(shù)據(jù),因此需要刪除該屬性信息。
例如,實體是人物,人物的身高屬性的屬性值不會超過2.5米,所以若判斷出某人物的身高屬性的屬性值超過2.5米,表示該屬性信息是錯誤的?;蛘?,又例如,實體是人物,人物的女兒屬性的屬性值的性別是女性,所以若判斷出某人物的女兒屬性的屬性值的性別是男性,表示該屬性信息是錯誤的。
校驗步驟的目的是提高屬性信息的準確性。
另外,還可以在上述數(shù)據(jù)校驗之后,再進行一次人工數(shù)據(jù)校驗,以進一步提高數(shù)據(jù)準確性。
圖3為本發(fā)明的方法中確定步驟的示意圖。
進一步的,根據(jù)所述與實體對應的屬性確定所述兩個或兩個以上具體相同名字的實體是否均與所述百科多義項中的同一個多義項相同包括:
S301、按照重要性從高到低的順序?qū)Π倏贫嗔x項中的多義項的預定數(shù)量的所述屬性信息進行排序;
S302、對預定數(shù)量的屬性信息進行加權(quán)求和以計算其相似度;
S303、如果所述兩個或兩個以上具體相同名字的實體與百科多義項中的同一個多義項相似度均大于等于預定的閾值,則判定所述兩個或兩個以上具體相同名字的實體為相同的實體;否則,判定所述兩個或兩個以上具體相同名字的實體為不相同的實體。
進一步的,S301、按照重要性從高到低的順序?qū)Π倏贫嗔x項中的多義項的預定數(shù)量的所述屬性信息進行排序具體為:對實體進行對比,其本質(zhì)是對其屬性信息進行對比。而屬性信息的區(qū)分度顯然是不同的,因此按照重要性(即區(qū)分度)從高到低的順序?qū)λ鰧傩孕畔⑦M行排序,將有利于對實體進行比較和區(qū)分。
進一步的,S302、對預定數(shù)量的屬性信息進行加權(quán)求和以計算其相似度;S303、如果所述兩個或兩個以上具體相同名字的實體與百科多義項中的同一個多義項相似度均大于等于預定的閾值,則判定所述兩個或兩個以上具體相同名字的實體為相同的實體;否則,判定所述兩個或兩個以上具體相同名字的實體為不相同的實體具體為:
首先對排序好的屬性信息賦予適當?shù)臋?quán)重值。屬性信息不同,則其權(quán)重值也不同。例如,實體“成龍”的“身份”屬性信息最為重要,其權(quán)重值應該最大。相比之下,由于真人的成龍與動漫中的成龍的武功都很好,因此該屬性信息對應的權(quán)重值應相應較小。
如果與百科做比較的實體具有該屬性信息,則將該屬性信息相應的記為1,否則記為0。對所有預定數(shù)量的屬性信息進行加權(quán)求和之后即可得到從網(wǎng)頁獲取的實體與百科的實體之間的相似度。
當然,相似度的計算方法包括但并不限于上述方法,其他的方法如采用逆文檔頻率的方法也可以得到實體之間的相似度。
進一步的,將計算得到的相似度與預定的閾值做比較包括:如果所述兩個或兩個以上具體相同名字的實體與百科多義項中的同一個多義項相似度均大于等于預定的閾值,則判定網(wǎng)頁獲取的兩個或兩個以上具體相同名字的實體與百科多義項中的同一個多義項均為同一個實體,即所述兩個或兩個以上具體相同名字的實體為相同的實體;
否則,如果所述兩個或兩個以上具體相同名字的實體與百科中的不同的實體義項相似度大于等于預定的閾值,則判定兩個或兩個以上具體相同名字的實體為不相同的實體。此時,可以基于上述相似度的判定結(jié)果對所述兩個或兩個以上具體相同名字的實體進行進一步區(qū)分。例如:第一個實體“成龍”為中國香港演員、導演;第二個實體“成龍”為美國動漫《成龍歷險記》中的角色。
圖4為本發(fā)明的解決知識圖譜中的實體對齊問題的裝置示意圖;
如圖4所示,本發(fā)明提供了一種解決知識圖譜中的實體對齊問題的裝置,所述裝置包括:
實體獲取模塊401,用于從網(wǎng)頁中獲取知識圖譜中的兩個或兩個以上具體相同名字的實體;
比較模塊402,用于對所述兩個或兩個以上具體相同名字的實體與指定的實體集合中的元素做比較;
判斷模塊403,用于根據(jù)比較的結(jié)果進行判斷:如果所述兩個或兩個以上具體相同名字的實體均與所述實體集合中的同一個元素相同,則判斷所述兩個或兩個以上具體相同名字的實體為相同的實體;
否則,判斷所述兩個或兩個以上具體相同名字的實體為不相同的實體。
進一步的,所述實體集合為百科多義項,所述百科多義項包括具有相同名字的兩個或者兩個以上的多義項。所述百科,包括但不限于360百科、維基百科、互動百科、百度百科等網(wǎng)絡(luò)百科數(shù)據(jù)。多義項,指百科中包含有兩個或兩個以上的義項。百科詞條中,每一個不同概念意義事物的敘述內(nèi)容稱為義項。每一個義項,具有獨立的義項名、百科名片、基本信息模塊、正文、參考資料等內(nèi)容。義項名是對詞條名所指代事物作明確識別的詞組,是義項內(nèi)容說明。義項名一般為事物的屬性、從屬關(guān)系等,應具有代表性強、認知度高、簡短易識別的特點。
圖5為本發(fā)明的裝置中比較模塊的示意圖。
進一步的,所述比較模塊包括:
屬性信息獲取單元501,用于獲取所述實體的屬性信息;
預處理單元502,用于對所述實體的屬性信息進行數(shù)據(jù)預處理;
校驗單元503,用于對經(jīng)過數(shù)據(jù)預處理后的屬性信息進行數(shù)據(jù)校驗;
確定單元504,用于根據(jù)所述與實體對應的屬性確定所述兩個或兩個以上具體相同名字的實體是否均與所述百科多義項中的同一個多義項相同。
進一步的,所述屬性信息獲取單元包括:
從網(wǎng)絡(luò)百科中采集各實體的結(jié)構(gòu)化數(shù)據(jù),以及,從質(zhì)量度超過指定閾值的網(wǎng)頁中采集各實體的非結(jié)構(gòu)化數(shù)據(jù);
其中,所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中包含實體的屬性信息,所述屬性信息包含屬性名和對應的屬性值。
進一步的,由于采集到的各實體的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的來源眾多且數(shù)據(jù)質(zhì)量不一,因此需要先對各實體的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進行處理,以提高獲取的屬性信息準確性。
進一步的,對所述實體的屬性信息進行數(shù)據(jù)預處理,并對經(jīng)過數(shù)據(jù)預處理后的屬性信息進行數(shù)據(jù)校驗具體為:
對所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實體的屬性信息進行數(shù)據(jù)預處理的方法可以包括但不限于:
首先,在所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實體的屬性信息中去除錯誤的屬性信息。然后,從所述結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實體的屬性信息中,識別出語義相同的屬性信息。最后,對識別出的語義相同的屬性信息執(zhí)行去重或者歸一化處理。
可以理解得是,在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實體的屬性信息中可能會存在錯誤的屬性信息,因此有必要對錯誤的屬性信息進行清除,以提高知識圖譜的準確性。例如,可以基于已有的其他知識圖譜中實體與其他實體的關(guān)系,對采集的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中各實體的關(guān)系中的錯誤的關(guān)系進行識別,從而對識別出的錯誤的關(guān)系進行去除。
在一個具體的實現(xiàn)過程中,可以根據(jù)結(jié)構(gòu)化數(shù)據(jù)中實體的描述文本中對應關(guān)系的說明,識別出語義相同的屬性信息?;蛘撸部梢愿鶕?jù)非結(jié)構(gòu)化數(shù)據(jù)中實體的共現(xiàn)數(shù)據(jù),識別出語義相同的屬性信息?;蛘?,還可以根據(jù)該實體在其他知識圖譜中有共同指向的其他實體的數(shù)目比例數(shù)據(jù),識別出語義相同的屬性信息。
由于不同結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中實體的屬性信息語義相同但是描述不同,因此,在識別出語義相同的屬性信息后,對識別出的語義相同的屬性信息進行去重處理,去除其中一個屬性信息;或者,也可以進行歸一化處理。該歸一化處理可以是以其中一個屬性信息為準,或者也可以根據(jù)兩個屬性信息,重新生成一個屬性信息,將該重新生成的屬性信息作為歸一化處理的結(jié)果,且對語義相同的兩個屬性信息進行去除。
例如,某人物的綽號和外號在語義上是相同的,因此,可以保留綽號,去除外號,或者,也可以保留外號,去除綽號。再例如,對于與時間相關(guān)的實體,將1999年8月1號下午3點24分24秒和一九九九年八月一日15點24分24秒進行時間歸一化,標準ISO6801(19990801152424),以供后期進行合并。對于與地點相關(guān)的實體進行地點歸一化處理(例如通過最大生成樹算法(MST)),得到地點的標準格式(國家.省/州/自治區(qū).城市.區(qū).鎮(zhèn),以及經(jīng)緯度)。
去重處理和歸一化處理都是為了在實體的屬性信息中去除冗余的重復數(shù)據(jù),減少后續(xù)的數(shù)據(jù)處理量。
在對各實體的屬性信息進行數(shù)據(jù)預處理后,還需要對屬性信息進行數(shù)據(jù)校驗。
舉例說明,對經(jīng)過數(shù)據(jù)預處理后的屬性信息進行數(shù)據(jù)校驗的方法可以包括但不限于:
根據(jù)預設(shè)的校驗規(guī)則,判斷經(jīng)過數(shù)據(jù)預處理后的屬性信息的屬性值是否正確;若判斷出經(jīng)過數(shù)據(jù)預處理后的屬性信息的屬性值不正確,在經(jīng)過數(shù)據(jù)預處理后的屬性信息中刪除屬性值不正確的屬性信息。
可以理解的是,校驗規(guī)則中可以定義屬性信息中的屬性值的合理數(shù)值,若屬性信息中的屬性值與合理數(shù)值不符,則該屬性信息的屬性值是錯誤的,即該屬性信息屬于錯誤數(shù)據(jù),因此需要刪除該屬性信息。
例如,實體是人物,人物的身高屬性的屬性值不會超過2.5米,所以若判斷出某人物的身高屬性的屬性值超過2.5米,表示該屬性信息是錯誤的?;蛘?,又例如,實體是人物,人物的女兒屬性的屬性值的性別是女性,所以若判斷出某人物的女兒屬性的屬性值的性別是男性,表示該屬性信息是錯誤的。
校驗步驟的目的是提高屬性信息的準確性。
另外,還可以在上述數(shù)據(jù)校驗之后,再進行一次人工數(shù)據(jù)校驗,以進一步提高數(shù)據(jù)準確性。
進一步的,根據(jù)所述與實體對應的屬性確定所述兩個或兩個以上具體相同名字的實體是否均與所述百科多義項中的同一個多義項相同包括:
按照重要性從高到低的順序?qū)Π倏贫嗔x項中的多義項的預定數(shù)量的所述屬性信息進行排序;
對預定數(shù)量的屬性信息進行加權(quán)求和以計算其相似度;
如果所述兩個或兩個以上具體相同名字的實體與百科多義項中的同一個多義項相似度均大于等于預定的閾值,則判定所述兩個或兩個以上具體相同名字的實體為相同的實體;否則,判定所述兩個或兩個以上具體相同名字的實體為不相同的實體。
進一步的,按照重要性從高到低的順序?qū)Π倏贫嗔x項中的多義項的預定數(shù)量的所述屬性信息進行排序具體為:對實體進行對比,其本質(zhì)是對其屬性信息進行對比。而屬性信息的區(qū)分度顯然是不同的,因此按照重要性(即區(qū)分度)從高到低的順序?qū)λ鰧傩孕畔⑦M行排序,將有利于對實體進行比較和區(qū)分。
進一步的,對預定數(shù)量的屬性信息進行加權(quán)求和以計算其相似度;如果所述兩個或兩個以上具體相同名字的實體與百科多義項中的同一個多義項相似度均大于等于預定的閾值,則判定所述兩個或兩個以上具體相同名字的實體為相同的實體;否則,判定所述兩個或兩個以上具體相同名字的實體為不相同的實體具體為:
首先對排序好的屬性信息賦予適當?shù)臋?quán)重值。屬性信息不同,則其權(quán)重值也不同。例如,實體“成龍”的“身份”屬性信息最為重要,其權(quán)重值應該最大。相比之下,由于真人的成龍與動漫中的成龍的武功都很好,因此該屬性信息對應的權(quán)重值應相應較小。
如果與百科做比較的實體具有該屬性信息,則將該屬性信息相應的記為1,否則記為0。對所有預定數(shù)量的屬性信息進行加權(quán)求和之后即可得到從網(wǎng)頁獲取的實體與百科的實體之間的相似度。
當然,相似度的計算方法包括但并不限于上述方法,其他的方法如采用逆文檔頻率的方法也可以得到實體之間的相似度。
進一步的,將計算得到的相似度與預定的閾值做比較包括:如果所述兩個或兩個以上具體相同名字的實體與百科多義項中的同一個多義項相似度均大于等于預定的閾值,則判定網(wǎng)頁獲取的兩個或兩個以上具體相同名字的實體與百科多義項中的同一個多義項均為同一個實體,即所述兩個或兩個以上具體相同名字的實體為相同的實體;
否則,如果所述兩個或兩個以上具體相同名字的實體與百科中的不同的實體義項相似度大于等于預定的閾值,則判定兩個或兩個以上具體相同名字的實體為不相同的實體。此時,可以基于上述相似度的判定結(jié)果對所述兩個或兩個以上具體相同名字的實體進行進一步區(qū)分。例如:第一個實體“成龍”為中國香港演員、導演;第二個實體“成龍”為美國動漫《成龍歷險記》中的角色。
本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上。
本文中所稱的“一個實施例”、“實施例”或者“一個或者多個實施例”意味著,結(jié)合實施例描述的特定特征、結(jié)構(gòu)或者特性包括在本發(fā)明的至少一個實施例中。此外,請注意,這里“在一個實施例中”的詞語例子不一定全指同一個實施例。
在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下被實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
此外,還應當注意,本說明書中使用的語言主要是為了可讀性和教導的目的而選擇的,而不是為了解釋或者限定本發(fā)明的主題而選擇的。因此,在不偏離所附權(quán)利要求書的范圍和精神的情況下,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說許多修改和變更都是顯而易見的。對于本發(fā)明的范圍,對本發(fā)明所做的公開是說明性的,而非限制性的,本發(fā)明的范圍由所附權(quán)利要求書限定。