本發(fā)明涉及大數(shù)據(jù)
技術(shù)領(lǐng)域:
:,尤其涉及一種基于中心連通子圖的相似實體識別方法及系統(tǒng)。
背景技術(shù):
::數(shù)據(jù)融合能夠成為計算機領(lǐng)域內(nèi)的研究熱點,與實際需求和數(shù)據(jù)融合技術(shù)的巨大潛能息息相關(guān)。數(shù)據(jù)融合最初是由于軍事作戰(zhàn)需求而提出,為使多種作戰(zhàn)設(shè)備上的多傳感器的數(shù)據(jù)信息能夠協(xié)調(diào)、整合與集成而形成的一種數(shù)據(jù)橫向綜合信息處理技術(shù)。因而,國內(nèi)早期研究數(shù)據(jù)融合的研究者,從技術(shù)的觀點,把數(shù)據(jù)融合理解為一種技術(shù)思路,視為多源信息協(xié)調(diào)處理技術(shù)的總稱。隨著計算機科學技術(shù)的迅猛發(fā)展,數(shù)據(jù)融合概念已經(jīng)不再局限于多傳感器數(shù)據(jù)融合
技術(shù)領(lǐng)域:
:,概念的覆蓋領(lǐng)域進一步擴充。在計算機領(lǐng)域,隨著硬件設(shè)備性能和軟件服務(wù)能力的不斷提升,面對多源數(shù)據(jù)系統(tǒng)的數(shù)據(jù)融合,數(shù)據(jù)集成的技術(shù)手段不再缺乏。,而在如何構(gòu)建多源數(shù)據(jù)的集成模型,提供給用戶統(tǒng)一的數(shù)據(jù)視圖的問題上,國外數(shù)據(jù)研究者lenzerinim提出了自己的一些思考與想法。他針對各種數(shù)據(jù)源和全局數(shù)據(jù)模式之間如何建立關(guān)聯(lián)關(guān)系,提出了global-as-view和local-as-view兩種基礎(chǔ)方法論,并對如何在數(shù)據(jù)整合中處理查詢,如何處理數(shù)據(jù)源不一致性問題等提出了相關(guān)的觀點和方法。實體識別是融合技術(shù)實現(xiàn)中的一個關(guān)鍵過程。周傲英等在中文章提出了一種基于模式的實體解析算法,通過將相似的記錄合并成記錄集合并嘗試生成對應(yīng)的記錄模式,然后進行模式之間的兩兩比較來產(chǎn)生一個邊界值,以確定對應(yīng)的記錄集合是否需要進行進一步的精確比較,從而判斷相似的記錄是否屬于同一個實體。該方法能有效過濾一些不可能相似的記錄,大大提高了實體解析的效率。基于圖模式做實體識別是一種新的技術(shù)思路。傳統(tǒng)實體識別方法主要是計算兩個對象的對應(yīng)屬性的相似度并將其加權(quán)求和得到綜合的相似度,然后將該相似度與給定閾值進行比較來決定兩個對象是否匹配。但是傳統(tǒng)的實體識別方法不太適用于存在關(guān)聯(lián)的數(shù)據(jù)對象。孫琛琛等提出一種基于圖的、迭代的聯(lián)合式實體識別方法,該方法與領(lǐng)域無關(guān),適合于任何關(guān)聯(lián)的數(shù)據(jù),實現(xiàn)了準確高效的聯(lián)合式實體識別。但是現(xiàn)實應(yīng)用中有許多數(shù)據(jù)是具有復(fù)雜的結(jié)構(gòu)信息的,同一實體具有不同復(fù)雜數(shù)據(jù)描述方式,例如有關(guān)系數(shù)據(jù)庫、可建模成圖的rdf等多種復(fù)雜形式。在復(fù)雜數(shù)據(jù)上的實體識別不同于傳統(tǒng)文本和關(guān)系數(shù)據(jù)上的實體識別,王宏志等對復(fù)雜數(shù)據(jù)上的實體識別做了相關(guān)研究,并且指出針對圖數(shù)據(jù)的實體識別技術(shù)主要集中在描述同一實體的圖數(shù)據(jù)的判定上,而該判定主要基于圖數(shù)據(jù)的結(jié)構(gòu)的相似性。其中一類方法是基于圖之間的結(jié)構(gòu)映射關(guān)系進行實體判定,即若兩個圖之間的點滿足某種映射關(guān)系,則這兩個圖判定為匹配,即為描述同一實體。另一類方法是基于圖的相似性或距離判定圖是否匹配,如果兩個圖的相似性大于某個閾值或距離小于某個閾值,則認為其描述同一實體。為了解決圖匹配判定問題,這類判定方法有基于圖同構(gòu)的近似匹配,圖同態(tài)和同構(gòu)拓展為p同態(tài)和1-1p同態(tài)等。胡小華等在中提出一種基于句法特征、語義特征的實體關(guān)系抽取方法,與以往的實體關(guān)系抽取方法相比,新增了句法分析結(jié)果和語義分析結(jié)果作為實體關(guān)系的特征,實驗結(jié)果表明效果明顯?,F(xiàn)有的技術(shù)主要有兩種方式,一種是基于結(jié)構(gòu)的相似性比較另一種是基于語義的相似性比較?;诮Y(jié)構(gòu)的相似性比較方法多數(shù)只適用于同構(gòu)的信息網(wǎng)絡(luò),在關(guān)系型數(shù)據(jù)庫來說既表的實例比較,不適用于異構(gòu)信息網(wǎng)絡(luò)中的數(shù)據(jù)表的比較。對于基于語義的相似性比較方法,它適用于異構(gòu)信息網(wǎng)絡(luò)。在關(guān)系型數(shù)據(jù)庫來說既是不同數(shù)據(jù)庫的表或?qū)嵗ㄟ^語義關(guān)系進行實體識別。但是關(guān)系型數(shù)據(jù)庫的關(guān)系是異構(gòu)的,要理解其表之間的語義關(guān)系需要用到領(lǐng)域的知識,需要領(lǐng)域?qū)<疫M行邏輯梳理。但是邏輯梳理過程是復(fù)雜的,或者成本相對高昂。技術(shù)實現(xiàn)要素:為了解決上述技術(shù)問題,本發(fā)明的目的是提供一種能有效提高相似性識別準確性的一種基于中心連通子圖的相似實體識別方法及系統(tǒng)。本發(fā)明所采取的技術(shù)方案是:一種基于中心連通子圖的相似實體識別方法,包括以下步驟:將需要比較的實體轉(zhuǎn)化為通過中心連通子圖進行描述;對中心連通子圖進行相似度計算,得到總相似度;判斷總相似度是否大于預(yù)設(shè)的相似度閾值,若是,則判定為相似;反之,則判定為不相似。作為所述的一種基于中心連通子圖的相似實體識別方法的進一步改進,所述的對中心連通子圖進行相似度計算,得到總相似度,這一步驟具體包括:獲取輸入的兩個中心連通子圖;對兩個中心連通子圖進行結(jié)構(gòu)相似度計算和語義相似度計算,得到結(jié)構(gòu)相似度和語義相似度;根據(jù)結(jié)構(gòu)相似度和語義相似度,對其進行加權(quán)計算,計算得到總相似度。作為所述的一種基于中心連通子圖的相似實體識別方法的進一步改進,所述的結(jié)構(gòu)相似度計算,其具體包括:對兩個中心連通子圖的節(jié)點集合中的結(jié)構(gòu)信息進行相似性比較,計算其之間的距離,得到節(jié)點結(jié)構(gòu)相似度;對兩個中心連通子圖的邊進行相似性比較,計算其之間的距離,得到邊結(jié)構(gòu)相似度;根據(jù)節(jié)點結(jié)構(gòu)相似度和邊結(jié)構(gòu)相似度,計算得到結(jié)構(gòu)相似度。作為所述的一種基于中心連通子圖的相似實體識別方法的進一步改進,所述的語義相似度計算,其具體為:對兩個中心連通子圖的節(jié)點集合中的語義信息,計算其之間的距離,作為語義相似度。本發(fā)明所采用的另一技術(shù)方案是:一種基于中心連通子圖的相似實體識別系統(tǒng),包括:轉(zhuǎn)換單元,用于將需要比較的實體轉(zhuǎn)化為通過中心連通子圖進行描述;相似度計算單元,用于對中心連通子圖進行相似度計算,得到總相似度;相似度判斷單元,用于判斷總相似度是否大于預(yù)設(shè)的相似度閾值,若是,則判定為相似;反之,則判定為不相似。作為所述的一種基于中心連通子圖的相似實體識別系統(tǒng)的進一步改進,所述相似度計算單元包括:獲取單元,用于獲取輸入的兩個中心連通子圖;結(jié)構(gòu)語義計算單元,用于對兩個中心連通子圖進行結(jié)構(gòu)相似度計算和語義相似度計算,得到結(jié)構(gòu)相似度和語義相似度;總計算單元,用于根據(jù)結(jié)構(gòu)相似度和語義相似度,對其進行加權(quán)計算,計算得到總相似度。作為所述的一種基于中心連通子圖的相似實體識別系統(tǒng)的進一步改進,所述的結(jié)構(gòu)相似度計算,其具體包括:節(jié)點結(jié)構(gòu)相似度計算單元,用于對兩個中心連通子圖的節(jié)點集合中的結(jié)構(gòu)信息進行相似性比較,計算其之間的距離,得到節(jié)點結(jié)構(gòu)相似度;邊結(jié)構(gòu)相似度計算單元,用于對兩個中心連通子圖的邊進行相似性比較,計算其之間的距離,得到邊結(jié)構(gòu)相似度;根據(jù)節(jié)點結(jié)構(gòu)相似度和邊結(jié)構(gòu)相似度,計算得到結(jié)構(gòu)相似度。作為所述的一種基于中心連通子圖的相似實體識別系統(tǒng)的進一步改進,所述的語義相似度計算,其具體為:對兩個中心連通子圖的節(jié)點集合中的語義信息,計算其之間的距離,作為語義相似度。本發(fā)明的有益效果是:本發(fā)明一種基于中心連通子圖的相似實體識別方法及系統(tǒng)通過將實體轉(zhuǎn)換為中心連通子圖,從而能進行整體的相似計算,相對于現(xiàn)有技術(shù)中的只能針對于數(shù)據(jù)庫,所研究的實體更為抽象,應(yīng)用更加廣泛,而且本發(fā)明還能結(jié)合結(jié)構(gòu)和語義信息進行相似性的比較,有效提高相似性計算的準確性。附圖說明下面結(jié)合附圖對本發(fā)明的具體實施方式作進一步說明:圖1是本發(fā)明一種基于中心連通子圖的相似實體識別方法的步驟流程圖;圖2是本發(fā)明一種基于中心連通子圖的相似實體識別方法中相似度計算的步驟流程圖;圖3是本發(fā)明一種基于中心連通子圖的相似實體識別系統(tǒng)的模塊方框圖;圖4是本發(fā)明實施例中的中心連通子圖示意圖。具體實施方式參考圖1,本發(fā)明一種基于中心連通子圖的相似實體識別方法,包括以下步驟:將需要比較的實體轉(zhuǎn)化為通過中心連通子圖進行描述;對中心連通子圖進行相似度計算,得到總相似度;判斷總相似度是否大于預(yù)設(shè)的相似度閾值,若是,則判定為相似;反之,則判定為不相似。參考圖2,進一步作為優(yōu)選的實施方式,所述的對中心連通子圖進行相似度計算,得到總相似度,這一步驟具體包括:獲取輸入的兩個中心連通子圖;對兩個中心連通子圖進行結(jié)構(gòu)相似度計算和語義相似度計算,得到結(jié)構(gòu)相似度和語義相似度;根據(jù)結(jié)構(gòu)相似度和語義相似度,對其進行加權(quán)計算,計算得到總相似度。其中,總相似度的計算公式為:similarity=λ×similaritystructure+(1-λ)×similaritysemantic;similarity表示總相似度,similaritystructure表示結(jié)構(gòu)相似度,similaritysemantic表示語義相似度,λ表示預(yù)設(shè)的總相似度計算系數(shù)。進一步作為優(yōu)選的實施方式,所述的結(jié)構(gòu)相似度計算,其具體包括:對兩個中心連通子圖的節(jié)點集合中的結(jié)構(gòu)信息進行相似性比較,計算其之間的距離,得到節(jié)點結(jié)構(gòu)相似度;對兩個中心連通子圖的邊進行相似性比較,計算其之間的距離,得到邊結(jié)構(gòu)相似度;根據(jù)節(jié)點結(jié)構(gòu)相似度和邊結(jié)構(gòu)相似度,計算得到結(jié)構(gòu)相似度。其中,所述結(jié)構(gòu)相似度的計算公式為:similaritystructure=μ×o(v1,v2)+(1-μ)×o(e1,e2);o(v1,v2)表示節(jié)點結(jié)構(gòu)相似度,o(e1,e2)表示邊結(jié)構(gòu)相似度,μ表示預(yù)設(shè)的結(jié)構(gòu)相似度計算系數(shù)。進一步作為優(yōu)選的實施方式,所述的語義相似度計算,其具體為:對兩個中心連通子圖的節(jié)點集合中的語義信息,計算其之間的距離,作為語義相似度。參考圖3,本發(fā)明一種基于中心連通子圖的相似實體識別系統(tǒng),包括:轉(zhuǎn)換單元,用于將需要比較的實體轉(zhuǎn)化為通過中心連通子圖進行描述;相似度計算單元,用于對中心連通子圖進行相似度計算,得到總相似度;相似度判斷單元,用于判斷總相似度是否大于預(yù)設(shè)的相似度閾值,若是,則判定為相似;反之,則判定為不相似。進一步作為優(yōu)選的實施方式,所述相似度計算單元包括:獲取單元,用于獲取輸入的兩個中心連通子圖;結(jié)構(gòu)語義計算單元,用于對兩個中心連通子圖進行結(jié)構(gòu)相似度計算和語義相似度計算,得到結(jié)構(gòu)相似度和語義相似度;總計算單元,用于根據(jù)結(jié)構(gòu)相似度和語義相似度,對其進行加權(quán)計算,計算得到總相似度。進一步作為優(yōu)選的實施方式,所述的結(jié)構(gòu)相似度計算,其具體包括:節(jié)點結(jié)構(gòu)相似度計算單元,用于對兩個中心連通子圖的節(jié)點集合中的結(jié)構(gòu)信息進行相似性比較,計算其之間的距離,得到節(jié)點結(jié)構(gòu)相似度;邊結(jié)構(gòu)相似度計算單元,用于對兩個中心連通子圖的邊進行相似性比較,計算其之間的距離,得到邊結(jié)構(gòu)相似度;根據(jù)節(jié)點結(jié)構(gòu)相似度和邊結(jié)構(gòu)相似度,計算得到結(jié)構(gòu)相似度。進一步作為優(yōu)選的實施方式,所述的語義相似度計算,其具體為:對兩個中心連通子圖的節(jié)點集合中的語義信息,計算其之間的距離,作為語義相似度。本發(fā)明實施例中,采用有向圖描述數(shù)據(jù)庫具體如下:g=<v,e>:有向無環(huán)圖(dag),表示數(shù)據(jù)庫的關(guān)系圖,其中vi:圖中的一個節(jié)點,對應(yīng)數(shù)據(jù)庫中的一個表i。v={v1,v2,···,vk|1≤k≤n}:圖中的點集,表示數(shù)據(jù)庫中所有表的集合。e=(vi,vj):圖中的一條有向邊,表示數(shù)據(jù)庫中表ti外鍵引用表tj。其中ti:表示數(shù)據(jù)庫中的一個表,t:表示數(shù)據(jù)庫中表的集合。e={(vi,vj)|1≤i,j≤n,i≠j}:圖中的邊集,表示數(shù)據(jù)庫中所有外鍵引用關(guān)系以及邏輯依賴關(guān)系的集合。實體是對物理或抽象存在的事物的一個描述。因此,對事物的不同方面的描述應(yīng)該是能夠唯一地關(guān)聯(lián)和綁定在一起,形成對實體的相對更加全面的刻畫。參考圖4,實體的映射圖是一個中心連通圖,即該圖中存在一個中心節(jié)點,對圖中任何一個點,都存在一條從該點到中心節(jié)點的路徑。中心連通圖數(shù)學化描述如下:對于一個圖g=<v,e>,g是一個中心連通圖當且僅當對至少存在一條從v到v_0的路徑?;诖耍粋€圖中的每一個中心連通子圖可能都對應(yīng)一個實體。在此描述方式下,本發(fā)明假設(shè)已知中心連通子圖是一個實體,具有實體的結(jié)構(gòu)信息及其語義信息。描述模型當中,節(jié)點包括表結(jié)構(gòu)信息及語義信息,以數(shù)據(jù)表的外鍵關(guān)系為邊與以數(shù)據(jù)庫表結(jié)構(gòu)及語義信息為節(jié)點構(gòu)建圖描述模型。將圖中所有中心連通子圖提取出來,進行相似性比較。本發(fā)明實施例中,將需要比較的實體轉(zhuǎn)化為通過中心連通子圖進行描述,將數(shù)據(jù)庫中表的結(jié)構(gòu)及語義信息都包含到節(jié)點中,具體的節(jié)點描述如下:節(jié)點包括表結(jié)構(gòu)部分及語義部分:1、結(jié)構(gòu)信息:結(jié)構(gòu)部分主要是節(jié)點包含對應(yīng)數(shù)據(jù)表的所有信息,包括表結(jié)構(gòu)、字段、字段類型、具體值等信息。2、語義信息:將節(jié)點對應(yīng)的數(shù)據(jù)表及其屬性進行規(guī)范化定義,將其語義信息包含到節(jié)點當中。數(shù)據(jù)項是指數(shù)據(jù)表中的一個屬性,數(shù)據(jù)項的語義與它所屬的數(shù)據(jù)表的語義環(huán)境相關(guān),數(shù)據(jù)項的語義信息存在語義及應(yīng)用場景的特定條件約束。一個數(shù)據(jù)項(屬性)si的語義可表示為一個四元關(guān)系組:si=<table,name,iskey,constraint>,其中table是屬性所在的數(shù)據(jù)表名,name是屬性名稱,iskey表示是否為主鍵,constraint是屬性的約束條件。一個數(shù)據(jù)表st的語義可表示為一個三元關(guān)系組:st=<tablename,context,dataitems>,tablename是數(shù)據(jù)表的名稱,context是數(shù)據(jù)表所在的應(yīng)用語境,dataitems是數(shù)據(jù)表所有數(shù)據(jù)項(屬性)的集合,存在一定的隱含約束條件。因此,節(jié)點v=(st,items),其中數(shù)據(jù)表的語義關(guān)系st,數(shù)據(jù)項信息items={s,t},數(shù)據(jù)項的語義關(guān)系集合s={s1,s2,…,si,…,sn},數(shù)據(jù)項的結(jié)構(gòu)信息集合t={t1,t2,…,tn},數(shù)據(jù)項結(jié)構(gòu)信息ti=(table,name,value,valclass),其中table是屬性所在的數(shù)據(jù)表名,name是屬性名稱,value是數(shù)據(jù)項值向量,valclass是數(shù)據(jù)項值類型。從上述內(nèi)容可知,本發(fā)明一種基于中心連通子圖的相似實體識別方法及系統(tǒng)通過將實體轉(zhuǎn)換為中心連通子圖,從而能進行整體的相似計算,相對于現(xiàn)有技術(shù)中的只能針對于數(shù)據(jù)庫,所研究的實體更為抽象,應(yīng)用更加廣泛,而且本發(fā)明還能結(jié)合結(jié)構(gòu)和語義信息進行相似性的比較,有效提高相似性計算的準確性。以上是對本發(fā)明的較佳實施進行了具體說明,但本發(fā)明創(chuàng)造并不限于所述實施例,熟悉本領(lǐng)域的技術(shù)人員在不違背本發(fā)明精神的前提下還可做作出種種的等同變形或替換,這些等同的變形或替換均包含在本申請權(quán)利要求所限定的范圍內(nèi)。當前第1頁12當前第1頁12