亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于屬性間依賴關(guān)系的網(wǎng)絡(luò)表格的實體列的檢測方法與流程

文檔序號:12666020閱讀:324來源:國知局
基于屬性間依賴關(guān)系的網(wǎng)絡(luò)表格的實體列的檢測方法與流程

本發(fā)明涉及網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域,尤其涉及一種基于屬性間依賴關(guān)系的網(wǎng)絡(luò)表格的實體列的檢測方法。



背景技術(shù):

隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的資源越來越豐富,除了非結(jié)構(gòu)化數(shù)據(jù)外,還有大量的網(wǎng)絡(luò)表格存在,這些網(wǎng)絡(luò)表格較文本而言,具有更好的結(jié)構(gòu)化特性,因此受到人們的極大關(guān)注。如何讓機器更好地理解網(wǎng)絡(luò)表格的語義成為提高表格搜索覆蓋率和準(zhǔn)確率的重大挑戰(zhàn)。實體列能夠標(biāo)識網(wǎng)絡(luò)表格所描述的實體,其列標(biāo)簽描述了整張網(wǎng)絡(luò)表格的主題,通過它可以確定網(wǎng)絡(luò)表格的語義信息。如果準(zhǔn)確地探測網(wǎng)絡(luò)表格的實體列,就可以大大提升機器對網(wǎng)絡(luò)表格語義的理解程度。

現(xiàn)有技術(shù)中的一種實體列發(fā)現(xiàn)算法是由Wang等人提出的基于證據(jù)的實體列發(fā)現(xiàn)算法。該算法嘗試將Probase作為知識庫,依賴兩個證據(jù)實現(xiàn)網(wǎng)絡(luò)表格的實體列發(fā)現(xiàn)。他們依據(jù)的證據(jù)是:首先,實體列中的所有實體描述的是同一個概念;其次,實體列表達的概念與其他非實體列表達的概念之間存在概念屬性關(guān)系。

在基于證據(jù)的實體列發(fā)現(xiàn)算法中,對于一張網(wǎng)絡(luò)表格的每一個候選模式s,當(dāng)選擇其中一列col為實體列時,其余列為該實體列的屬性,計算所有候選實體列的評分,選擇評分最高的候選實體列作為該網(wǎng)絡(luò)表格的實體列。目標(biāo)函數(shù)如下:

其中,SCA是屬性集合A的所有可能的概念屬性關(guān)系集合,ci是屬性集合Ai描述的概念,sai表示屬性集合A是概念ci的屬性的可信度;SCE是實體集合E的所有可能的概念實體關(guān)系集合,ci是實體集Ei所屬的概念,sei表示實體集E屬于概念ci的可信度;Acol表示候選模式s中,除了col列的所有屬性集合;Ecol表示col列中除了表頭的所有列值集合。

上述現(xiàn)有技術(shù)中的實體列發(fā)現(xiàn)算法的缺點為:首先,該方法依賴于網(wǎng)絡(luò)表格的表頭和知識庫,需要很大的計算開銷。知識庫確實涵蓋了許多實體、屬性、概念以及它們之間的關(guān)系,但是知識庫很難覆蓋網(wǎng)絡(luò)上全部的實體、屬性、概念以及它們之間的關(guān)系。同時,網(wǎng)絡(luò)表格常常缺乏表頭信息,僅靠知識庫很難準(zhǔn)確恢復(fù)其表頭,特別是數(shù)字、日期等列的標(biāo)簽。因此,基于證據(jù)的實體列發(fā)現(xiàn)算法的召回率和準(zhǔn)確率較低。其次,基于證據(jù)的實體列發(fā)現(xiàn)方法只能對單實體列的網(wǎng)絡(luò)表格進行實體列發(fā)現(xiàn),而忽略了多實體列網(wǎng)絡(luò)表格的存在。網(wǎng)絡(luò)上的許多表格不止一個實體列,該算法具有一定的局限性。



技術(shù)實現(xiàn)要素:

本發(fā)明的實施例提供了一種基于屬性間依賴關(guān)系的網(wǎng)絡(luò)表格的實體列的檢測方法,以實現(xiàn)有效地發(fā)現(xiàn)網(wǎng)絡(luò)表格的實體列。

為了實現(xiàn)上述目的,本發(fā)明采取了如下技術(shù)方案。

一種基于屬性間依賴關(guān)系的網(wǎng)絡(luò)表格的實體列檢測方法,進一步地,包括:

針對一個網(wǎng)絡(luò)表格,根據(jù)列值間的函數(shù)依賴關(guān)系計算任意兩列間的近似函數(shù)依賴概率,根據(jù)所述近似函數(shù)依賴概率獲取候選函數(shù)依賴集;

根據(jù)網(wǎng)絡(luò)表格的特點,刪減候選函數(shù)依賴集中的噪聲函數(shù)依賴得到近似函數(shù)依賴集;

對近似函數(shù)依賴集進行3NF規(guī)范化,將3NF規(guī)范化后產(chǎn)生的主鍵集合作為網(wǎng)絡(luò)表格的實體列。

進一步地,所述的針對一個網(wǎng)絡(luò)表格,根據(jù)列值間的函數(shù)依賴關(guān)系計算任意兩列間的近似函數(shù)依賴概率,根據(jù)所述近似函數(shù)依賴概率獲取候選函數(shù)依賴集,包括:

設(shè)X是網(wǎng)絡(luò)表格T中的某個屬性,A是T中不同于X的屬性,當(dāng)T中存在部分元組的(X,A)屬性值對,使得X→A成立,則稱X近似函數(shù)確定A或A近似函數(shù)依賴于X,記作表示X→A在T上成立的近似函數(shù)依賴概率,(X,A)屬性值對中使得X→A成立的數(shù)據(jù)稱為一致性數(shù)據(jù),其余稱為不一致性數(shù)據(jù);

在網(wǎng)絡(luò)表格T中,對于X屬性值為vx的元組,其A屬性列中可能存在不同的值,假設(shè)該不同值的集合為VA。

如果集合VA中個數(shù)最多的值唯一,則將該值作為一致性數(shù)據(jù),如果個數(shù)最多的值不唯一,則將這些個數(shù)最多的值分別作為類中心,計算其他值和類中心值相似度的和,選擇和最大時的類中心值va作為一致性數(shù)據(jù)。具體計算方法如公式(1)所示。

對于任意類中心值vj

X中值為vx的所有元組,其中的一致性數(shù)據(jù)va對X→A成立的支持度Sc(X→A,VX,VA')由公式(2)計算;

其中:

VX={X.r|X.r=vx}

VA'={A.r|X.r=vx&A.r=va}

|VX,VA'|=|{<X.r,A.r>|X.r=vx&A.r=va}|

VA'就是當(dāng)X列取vx時,所對應(yīng)A列中一致性數(shù)據(jù)的集合,X.r為X列r行單元格的值,A.r為A列r行單元格的值;

不一致性數(shù)據(jù)對X→A成立的支持度Snc(X→A,VX,VA*)的計算公式由公式(3)計算;

集合VX對X→A成立的支持度通過一致性數(shù)據(jù)和不一致性數(shù)據(jù)對X→A成立的支持度的加權(quán)平均和表示,由公式(5)計算:

其中ω12=1;

取X中所有不同元組的支持度,將它們的平均值作為網(wǎng)絡(luò)表格T中X→A成立的概率,由公式(6)計算:

其中|DX|表示X中有區(qū)別的VX的個數(shù);

表示網(wǎng)絡(luò)表格T中的一種近似函數(shù)依賴成立的概率,候選函數(shù)依賴集中包含網(wǎng)絡(luò)表格T中所有可能的近似函數(shù)依賴。

進一步地,所述的根據(jù)網(wǎng)絡(luò)表格的特點,刪減候選函數(shù)依賴集中的噪聲函數(shù)依賴得到近似函數(shù)依賴集,包括:

如果候選函數(shù)依賴集中的近似函數(shù)依賴關(guān)系滿足以下3條規(guī)則中的任一條,則將從候選近似函數(shù)依賴集中刪去:

規(guī)則1:若X列的屬性值的類型為日期類型、浮點類型或者布爾類型:

規(guī)則2:若在網(wǎng)絡(luò)表格T中存在屬性列Y,使得成立;

規(guī)則3:若在候選近似函數(shù)依賴集中,存在這樣的屬性列X和A,使得且

進一步地,所述的對近似函數(shù)依賴集進行3NF規(guī)范化,將3NF規(guī)范化后產(chǎn)生的主鍵集合作為網(wǎng)絡(luò)表格的實體列,包括:

將近似函數(shù)依賴集中的近似函數(shù)依賴關(guān)系映射到關(guān)系矩陣FD[m][n]中,將決定屬性間的近似函數(shù)依賴關(guān)系映射到關(guān)系矩陣KK[m][m]中,其中m是位于近似函數(shù)依賴蘊含左邊的屬性數(shù)目,即決定屬性數(shù),n為網(wǎng)絡(luò)表格中所有屬性列的數(shù)目:

(1)FD[m][n]的元素產(chǎn)生如下:

設(shè)α∈{決定屬性集},β∈{所有列屬性集}

4)如果α=β,則FD[α][β]:=2;

5)如果則FD[α][β]:=1;

6)其他情況,則FD[α][β]:=0;

(2)KK[m][m]的元素產(chǎn)生如下:

設(shè)α,γ∈{決定屬性集}

3)如果α=γ或者則KK[α][γ]:=1;

4)其他情況,則KK[α][γ]:=-1;

定義在網(wǎng)絡(luò)表格T中,如果則稱Z對X近似傳遞函數(shù)依賴,記為其中Y為近似傳遞函數(shù)依賴的中介鍵;

根據(jù)所述關(guān)系矩陣FD[m][n]、關(guān)系矩陣KK[m][m]確定近似函數(shù)依賴集閉包DC[m][n],根據(jù)所述近似函數(shù)依賴集閉包DC[m][n]確定只存在直接近似函數(shù)依賴中的決定屬性和中介鍵,將所述只存在直接近似函數(shù)依賴中的決定屬性和所述中介鍵作為網(wǎng)絡(luò)表格的實體列輸出。

進一步地,所述的根據(jù)所述關(guān)系矩陣FD[m][n]、關(guān)系矩陣KK[m][m]確定近似函數(shù)依賴集閉包DC[m][n],包括:

步驟1、將FD[m][n]中的元素復(fù)制到DC[m][n];i:=0;i表示KK[m][m]中第i個近似函數(shù)依賴;

步驟2、i:=1;

步驟3:判斷是否在KK[m][m]中存在,且在DC[m][n]中存在,如果是,則DC[m][n]:=βi并且執(zhí)行步驟4;否則,直接執(zhí)行步驟4;

步驟4:判斷KK[m][m]中是否存在第i+1個近似函數(shù)依賴,如果存在,則執(zhí)行步驟5;否則,直接執(zhí)行步驟6;

步驟5:i:=i+1,返回步驟3;

步驟6:判斷DC[m][n]是否發(fā)生變化,如果發(fā)生變化,則返回步驟2;否則,輸出DC[m][n],流程結(jié)束。

進一步地,所述的根據(jù)所述近似函數(shù)依賴集閉包DC[m][n]確定只存在直接近似函數(shù)依賴中的決定屬性和中介鍵,包括:

步驟1:輸入DC[m][n],FD[m][n];

步驟2:i:=0,j:=0;i,j表示DC[m][n]的行號和列號;

步驟3:判斷DC[i][j]?。絳0,1,2}&&FD[i][j]=1&&FD[j][i]=1是否成立,如果成立,則DC[i][j]:=1,并且執(zhí)行步驟4;否則,執(zhí)行步驟4;

步驟4:判斷是否已全部遍歷結(jié)束,如果已經(jīng)全部遍歷,則設(shè)置i:=0,j:=0,并且執(zhí)行步驟5;否則,取下一個DC[i][j],并且執(zhí)行步驟3;

步驟5:判斷DC[i][j]?。絳0,1,2}是否成立,如果成立,則Entity{}:=DC[i][j],并且執(zhí)行步驟7;否則,執(zhí)行步驟6;

步驟6:判斷DC[i][j]=1&&i?。絡(luò)是否成立,如果成立,將i行的決定屬性賦值給Entity集合,并且執(zhí)行步驟7;否則,直接執(zhí)行步驟7;

步驟7:判斷是否已全部遍歷結(jié)束,如果全部遍歷結(jié)束,則輸出Entity集合,流程結(jié)束;否則,取下一個DC[i][j],繼續(xù)執(zhí)行步驟5。

由上述本發(fā)明的實施例提供的技術(shù)方案可以看出,本發(fā)明實施例提供的適應(yīng)網(wǎng)絡(luò)表格特點的近似函數(shù)依賴檢測方法能更加準(zhǔn)確地表達屬性間內(nèi)在的函數(shù)依賴關(guān)系;在計算近似函數(shù)依賴時基于一致性數(shù)據(jù)和不一致性數(shù)據(jù)對函數(shù)依賴的支持度,該算法具有明顯的抗噪聲能力;可以在更多場景下發(fā)現(xiàn)實體列,該方法不僅適用于單實體列的網(wǎng)絡(luò)表格,還可用于多實體列的表格,不僅適用于有表頭的網(wǎng)絡(luò)表格,而且適用于沒有表頭或者利用語義恢復(fù)技術(shù)也無法恢復(fù)出完整表頭的網(wǎng)絡(luò)表格。

本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。

附圖說明

為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實施例提供的一種基于屬性間依賴關(guān)系的網(wǎng)絡(luò)表格的實體列的檢測方法的處理流程圖;

圖2為本發(fā)明實施例提供的一種獲取候選依賴集的處理流程圖;

圖3為本發(fā)明實施例提供的一種根據(jù)近似函數(shù)依賴集尋找近似函數(shù)依賴集閉包的過程示意圖;

圖4為本發(fā)明實施例提供的一種利用三范式獲取實體列的流程圖;

圖5為本發(fā)明實施例提供的AFD_Model算法與PFD_Model算法、基于證據(jù)的方法(ED_Model)針對單實體列表的實體列檢測精度、覆蓋率、F-值以及時間效率的對比示意圖;

圖6為本發(fā)明實施例提供的AFD_Model算法與PFD_Model算法在多實體列發(fā)現(xiàn)算法的有效性對比示意圖。

具體實施方式

下面詳細描述本發(fā)明的實施方式,所述實施方式的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或耦接。這里使用的措辭“和/或”包括一個或更多個相關(guān)聯(lián)的列出項的任一單元和全部組合。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語)具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣定義,不會用理想化或過于正式的含義來解釋。

為便于對本發(fā)明實施例的理解,下面將結(jié)合附圖以幾個具體實施例為例做進一步的解釋說明,且各個實施例并不構(gòu)成對本發(fā)明實施例的限定。

為了解決上述現(xiàn)有的實體列檢測算法的技術(shù)問題,本發(fā)明設(shè)計了一種計算開銷小、不依賴于表頭和知識庫,且適用于多實體列網(wǎng)絡(luò)表格的實體列檢測算法。本發(fā)明解決了傳統(tǒng)算法依賴網(wǎng)絡(luò)表格的表頭和知識庫以及不能進行多實體列發(fā)現(xiàn)的問題,通過引進近似函數(shù)依賴的概念,提高方法的抗噪聲能力,同時獲得高質(zhì)量的實體列發(fā)現(xiàn)結(jié)果。

本發(fā)明實施例提供的一種基于屬性間依賴關(guān)系的網(wǎng)絡(luò)表格的實體列檢測方法的處理流程如圖1所示,包括如下的處理步驟:

步驟1、根據(jù)網(wǎng)絡(luò)表格的列值間的近似函數(shù)依賴概率,獲取候選函數(shù)依賴集。

對于一張網(wǎng)絡(luò)表格,如果其中的一列或者多列能標(biāo)識網(wǎng)絡(luò)表格所描述的實體,則將這一列或者多列定義為實體列,實體列以外的其他列定義為屬性列。

本發(fā)明對每一張表格,根據(jù)列值間的函數(shù)依賴關(guān)系計算任意兩列間的近似函數(shù)依賴概率。這里考慮到表格中存在噪聲,我們引入一致性數(shù)據(jù)和不一致性數(shù)據(jù)的支持度。

定義1設(shè)X是網(wǎng)絡(luò)表格T中的某個屬性列,A是T中不同于X的屬性列。當(dāng)T中存在部分元組的(X,A)屬性值對,使得X→A成立,則稱X近似函數(shù)確定A或A近似函數(shù)依賴于X,記作表示X→A在T上成立的可能性,即近似函數(shù)依賴概率。(X,A)屬性值對中使得X→A成立的數(shù)據(jù)稱為一致性數(shù)據(jù),其余稱為不一致性數(shù)據(jù)。

在網(wǎng)絡(luò)表格T中,對于X屬性值為vx的元組,其A屬性列中可能存在不同的值,假設(shè)該不同值的集合為VA。

如果集合VA中個數(shù)最多的值唯一,則將該值作為一致性數(shù)據(jù),如果個數(shù)最多的值不唯一,則將這些個數(shù)最多的值分別作為類中心,計算其他值和類中心值相似度的和,選擇和最大時的類中心值va作為一致性數(shù)據(jù)。具體計算方法如公式(1)所示。

對于任意類中心值vj。

網(wǎng)絡(luò)表格的列值存在誤寫的可能,綜合一致性數(shù)據(jù)和不一致性數(shù)據(jù)對函數(shù)依賴成立的支持度,計算任意兩列間的近似函數(shù)依賴概率,獲得候選函數(shù)依賴集。

圖2為本發(fā)明實施例提供的一種獲取候選依賴集的處理流程圖,具體處理過程包括:首先,一致性數(shù)據(jù)所占比例越大,說明X→A成立的可能性越大,即一致性數(shù)據(jù)對X→A成立的支持度越高,同時一致性數(shù)據(jù)所占比例越大,說明該一致性數(shù)據(jù)為真正一致性數(shù)據(jù)的可能性越大。X中值為vx的所有元組,其中的一致性數(shù)據(jù)va對X→A成立的支持度和一致性數(shù)據(jù)的可靠性均由公式(2)所計算。

其中:

VX={X.r|X.r=vx}

VA'={A.r|X.r=vx&A.r=va}

|VX,VA'|=|{<X.r,A.r>|X.r=vx&A.r=va}|

VA'就是當(dāng)X列取vx時,所對應(yīng)A列中一致性數(shù)據(jù)的集合,X.r為X列r行單元格的值,A.r為A列r行單元格的值。

其次,不一致性數(shù)據(jù)和一致性數(shù)據(jù)越相似,且一致性數(shù)據(jù)的可靠性越大,則不一致性數(shù)據(jù)對X→A成立的支持度越大,計算公式如(3)所示。

其中VA*={A.r|X.r=vx&A.r≠va}。

集合VX對X→A成立的支持度可以通過一致性數(shù)據(jù)和不一致性數(shù)據(jù)對X→A成立的支持度的加權(quán)平均和表示,記為如公式(5)所示。

其中ω12=1。

最后,取X中所有不同元組的支持度,將它們的平均值作為網(wǎng)絡(luò)表格T中X→A成立的概率,由公式(6)計算:

其中|DX|表示X中有區(qū)別的VX的個數(shù)。

公式(6)表示表格T中X→A成立的概率,將T中所有可能的近似函數(shù)依賴包含在候選函數(shù)依賴集中,這些近似函數(shù)依賴成立的概率是根據(jù)公式(6)計算的。

若則X稱為這個近似函數(shù)依賴的決定屬性。近似函數(shù)依賴集中的所有決定屬性組成決定屬性集合,決定屬性集合的元素個數(shù)就是決定屬性數(shù),即m。

步驟2、根據(jù)網(wǎng)絡(luò)表格的特點,刪減候選函數(shù)依賴集中的噪聲函數(shù)依賴,得到近似函數(shù)依賴集。

刪除噪聲函數(shù)依賴主要是為了獲得更準(zhǔn)確的函數(shù)依賴集,為下一步獲取實體列打下基礎(chǔ)。具體刪減規(guī)則如下:

如果滿足以下3條規(guī)則中的任一條,就將從候選近似函數(shù)依賴集中刪去。

規(guī)則1:若X列的屬性值的類型為日期類型、浮點類型或者布爾類型。

規(guī)則2:若在T中存在屬性列Y,使得成立;

規(guī)則3:若在候選近似函數(shù)依賴集中,存在這樣的屬性列X和A,使得且

按照上述刪減規(guī)則,刪減候選函數(shù)依賴集中的噪聲函數(shù)依賴后,得到近似函數(shù)依賴集。

步驟3、依據(jù)規(guī)范化的思想,獲取實體列。

網(wǎng)絡(luò)表格中屬性列近似函數(shù)依賴于它所描述的實體列,根據(jù)關(guān)系數(shù)據(jù)庫理論的規(guī)范化原理,對近似函數(shù)依賴集進行3NF規(guī)范化,3NF規(guī)范化后產(chǎn)生的主鍵集合就是所要的網(wǎng)絡(luò)表格的實體列。

上述對近似函數(shù)依賴集進行3NF規(guī)范化的過程包括:

將近似函數(shù)依賴集的依賴關(guān)系映射到關(guān)系矩陣FD[m][n];將決定屬性間的近似函數(shù)依賴關(guān)系映射到關(guān)系矩陣KK[m][m]。其中m是位于近似函數(shù)依賴蘊含左邊的屬性數(shù)目,即決定屬性數(shù),n為網(wǎng)絡(luò)表格中所有屬性列的數(shù)目。為了方便,用不同的數(shù)字來表示屬性間的不同關(guān)系,矩陣中元素產(chǎn)生如下:

(1)FD[m][n]的元素產(chǎn)生如下:

設(shè)α∈{決定屬性集},β∈{所有列屬性集}

7)如果α=β,則FD[α][β]:=2;

8)如果則FD[α][β]:=1;

9)其他情況,則FD[α][β]:=0;

(2)KK[m][m]的元素產(chǎn)生如下:

設(shè)α,γ∈{決定屬性集}

5)如果α=γ或者則KK[α][γ]:=1;

6)其他情況,則KK[α][γ]:=-1;

為方便描述,定義3給出近似傳遞函數(shù)依賴的定義如下:

定義3在網(wǎng)絡(luò)表格T中,如果則稱Z對X近似傳遞函數(shù)依賴,記為其中Y為近似傳遞函數(shù)依賴的中介鍵。

圖3為根據(jù)近似函數(shù)依賴集尋找近似函數(shù)依賴集閉包DC[m][n]的過程示意圖,根據(jù)FD[m][n]和KK[m][m]確定DC[m][n].具體處理過程包括:

步驟1、將FD[m][n]中的元素復(fù)制到DC[m][n];i:=0;i表示KK[m][m]中第i個近似函數(shù)依賴;

步驟2、i:=1;

步驟3:判斷是否在KK[m][m]中存在,

且在DC[m][n]中存在,如果是,則DC[m][n]:=βi,并且執(zhí)行步驟4;否則,直接執(zhí)行步驟4;

步驟4:判斷KK[m][m]中是否存在第i+1個近似函數(shù)依賴,如果存在,則執(zhí)行步驟5;否則,直接執(zhí)行步驟6;

步驟5:i:=i+1,返回步驟3。

步驟6:判斷DC[m][n]是否發(fā)生變化,如果發(fā)生變化,則返回步驟2;否則,輸出DC[m][n],流程結(jié)束。

圖4為利用三范式獲取實體列的流程圖,根據(jù)上述近似函數(shù)依賴集閉包DC[m][n]修正被誤標(biāo)記的近似傳遞依賴。最后,將中介鍵和只存在直接近似函數(shù)依賴中的決定屬性作為實體列輸出,上述只存在直接近似函數(shù)依賴中的決定屬性和中介鍵的尋找過程包括:

步驟1:輸入DC[m][n],FD[m][n];

步驟2:i:=0,j:=0;i,j表示DC[m][n]的行號和列號;

步驟3:判斷DC[i][j]?。絳0,1,2}&&FD[i][j]=1&&FD[j][i]=1是否成立,如果成立,則DC[i][j]:=1,并且執(zhí)行步驟4;否則,執(zhí)行步驟4;

步驟4:判斷是否已全部遍歷結(jié)束,如果已經(jīng)全部遍歷,則設(shè)置i:=0,j:=0,并且執(zhí)行步驟5;否則,取下一個DC[i][j],并且執(zhí)行步驟3;

步驟5:判斷DC[i][j]!={0,1,2}是否成立,如果成立,則Entity{}:=DC[i][j],并且執(zhí)行步驟7;否則,執(zhí)行步驟6;

步驟6:判斷DC[i][j]=1&&i?。絡(luò)是否成立,如果成立,將i行的決定屬性賦值給Entity集合,并且執(zhí)行步驟7;否則,直接執(zhí)行步驟7;

步驟7:判斷是否已全部遍歷結(jié)束,如果全部遍歷結(jié)束,則輸出Entity集合,流程結(jié)束;否則,取下一個DC[i][j],繼續(xù)執(zhí)行步驟5。

綜上所述,本發(fā)明實施例提供的適應(yīng)網(wǎng)絡(luò)表格特點的近似函數(shù)依賴檢測方法能更加準(zhǔn)確地表達屬性間內(nèi)在的函數(shù)依賴關(guān)系;在計算近似函數(shù)依賴時基于一致性數(shù)據(jù)和不一致性數(shù)據(jù)對函數(shù)依賴的支持度,該算法具有明顯的抗噪聲能力;

本發(fā)明實施例提供的基于近似函數(shù)依賴和規(guī)范化的實體列發(fā)現(xiàn)算法,可以在更多場景下發(fā)現(xiàn)實體列。該方法不僅適用于單實體列的網(wǎng)絡(luò)表格,還可用于多實體列的表格;不僅適用于有表頭的網(wǎng)絡(luò)表格,而且適用于沒有表頭或者利用語義恢復(fù)技術(shù)也無法恢復(fù)出完整表頭的網(wǎng)絡(luò)表格。

與現(xiàn)有的技術(shù)相比,本發(fā)明的方法具有實體列發(fā)現(xiàn)質(zhì)量高和能夠進行多實體列發(fā)現(xiàn)的優(yōu)點。為驗證以上的優(yōu)點,我們做了大量實驗,實驗數(shù)據(jù)來自兩個數(shù)據(jù)源:一個為開源的Wiki Table數(shù)據(jù)集,另一個為我們從網(wǎng)絡(luò)上爬取的網(wǎng)絡(luò)表格,我們稱之為Web Table數(shù)據(jù)集。我們將搜集來的網(wǎng)絡(luò)表格按照行數(shù)的多少分為大表數(shù)據(jù)集(100行以上),簡稱L數(shù)據(jù)集,和小表數(shù)據(jù)集(100行以下),簡稱S數(shù)據(jù)集。為方便進行單實體列和多實體列發(fā)現(xiàn)的實驗驗證,我們將L數(shù)據(jù)集分成L單實體集(WiKi_LS和Web_LS)和L多實體集(WiKi_LM和Web_LM);S數(shù)據(jù)集分成S單實體集(WiKi_SS和Web_SS)和S多實體集(WiKi_SM和Web_SM)。

本發(fā)明基于列值間的函數(shù)依賴關(guān)系來發(fā)現(xiàn)實體列,不依賴表頭和知識庫信息,提高了實體列發(fā)現(xiàn)的質(zhì)量。為了驗證本發(fā)明實施例的算法(AFD_Model)在降噪方面的有效性,特地實現(xiàn)了PFD_Model算法,該算法除了沒有考慮表格噪聲外其余均與AFD_Model算法一樣。圖3給出了AFD_Model、PFD_Model以及基于證據(jù)的方法(ED_Model)針對單實體列表的實體列檢測精度、覆蓋率、F-值以及時間效率的對比。圖5顯示,本發(fā)明的算法AFD_Model整體上優(yōu)于ED_Model和PFD_Model。在準(zhǔn)確率方面,ED_Model算法要求網(wǎng)絡(luò)表格的表頭在Probase庫中存在概念屬性關(guān)系,表頭的質(zhì)量和知識庫的覆蓋程度都會影響ED_Model算法的準(zhǔn)確度,而AFD_Model算法不依賴任何表頭信息和知識庫,因此準(zhǔn)確度較高。由于AFD_Model算法考慮到了網(wǎng)絡(luò)表格的特點,具有一定的噪聲過濾能力,因此實體檢測的精確度也高于PFD_Model算法。在召回率方面,AFD_Model算法高于ED_Model算法和PFD_Model算法。因為AFD_Model算法不要求網(wǎng)絡(luò)表格必須存在表頭,不要求表中的實體列與非實體列存在屬性關(guān)系,也不要求這種概念-屬性關(guān)系在Probase庫中存在,同時具有一定的噪聲過濾能力,因此算法的適應(yīng)性更強。F-measure從整體上衡量算法的質(zhì)量,本發(fā)明的算法具有明顯的優(yōu)勢。在運行時間方面,ED_Model算法的時間花費明顯大于AFD_Model算法和PFD_Model算法,因為ED_Model算法需要利用Probase庫將表格的表頭或者語義恢復(fù)出來的表頭的概念屬性關(guān)系確定下來,進而確定實體列,而AFD_Model算法和PFD_Model算法的時間復(fù)雜度僅與表格的大小有關(guān)。

本發(fā)明的方法適用于多實體列的表格,適用性顯著增強。ED_Model算法不能進行多實體列的發(fā)現(xiàn),本發(fā)明的方法只與PFD_Model進行對比。圖6為本發(fā)明實施例提供的AFD_Model算法與PFD_Model算法在多實體列發(fā)現(xiàn)算法的有效性對比示意圖。圖6顯示,無論精度、召回率、還是F值,AFD_Model算法都比PFD_Model算法表現(xiàn)優(yōu)秀,這是因為AFD_Model算法在計算屬性間的近似函數(shù)依賴時,考慮了噪聲數(shù)據(jù)的影響。

本領(lǐng)域普通技術(shù)人員可以理解:附圖只是一個實施例的示意圖,附圖中的模塊或流程并不一定是實施本發(fā)明所必須的。

通過以上的實施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例或者實施例的某些部分所述的方法。

本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置或系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。以上所描述的裝置及系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。

以上所述,僅為本發(fā)明較佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)該以權(quán)利要求的保護范圍為準(zhǔn)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1