表格重構(gòu)裝置和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理領(lǐng)域,更具體地涉及一種表格重構(gòu)裝置和方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的飛速發(fā)展,互聯(lián)網(wǎng)中出現(xiàn)了大量的表格數(shù)據(jù),表格數(shù)據(jù)中含有豐富的結(jié)構(gòu)化信息。挖掘表格數(shù)據(jù)可以獲取大量的人類知識。但是表格數(shù)據(jù)往往結(jié)構(gòu)復(fù)雜,字段重疊,一張表格中包括多個描述對象及其屬性。有些屬性可以描述多個描述對象,因此要從表格中抽取知識,首先應(yīng)該將表格重構(gòu)成結(jié)構(gòu)簡單,描述對象單一的形式,然后才能進行有效的知識獲取。例如,圖1A中的表格包括兩個描述對象“人”和“公司”,其中描述人的屬性有“姓名、國籍、學(xué)位、畢業(yè)院校、創(chuàng)辦企業(yè)、聯(lián)系方式、e-mail ”,描述公司的屬性有“成立日期、地址、服務(wù)、領(lǐng)域、聯(lián)系方式”,其中“聯(lián)系方式”列既可以是描述人的屬性,又可以是描述公司的屬性。
[0003]因此,需要一種將表格重構(gòu)成結(jié)構(gòu)簡單、描述對象單一的形式的單一描述對象表格的裝置和方法。
【發(fā)明內(nèi)容】
[0004]在下文中給出關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
[0005]本發(fā)明的一個主要目的在于,提供一種表格重構(gòu)裝置,包括:列屬性確定單元,被配置成確定表格中每一列的屬性;描述對象確定單兀,被配置成通過將所確定的每一列的屬性與語義知識庫鏈接來確定表格中的描述對象;描述對象相關(guān)屬性確定單元,被配置成在語義知識庫中確定每個描述對象的屬性集合,計算表格中每一列的屬性與屬性集合中的每個屬性的第一相似度來確定表格中與描述對象相關(guān)的屬性;以及表格重構(gòu)單元,被配置成使用描述對象和與描述對象相關(guān)的屬性對表格進行重構(gòu)。
[0006]根據(jù)本發(fā)明的一個方面,提供了一種表格重構(gòu)方法,包括:確定表格中每一列的屬性;通過將所確定的每一列的屬性與語義知識庫鏈接來確定表格的描述對象;在語義知識庫中確定每個描述對象的屬性集合,計算表格中每一列的屬性與屬性集合中的每個屬性的第一相似度來確定表格中與描述對象相關(guān)的屬性;以及使用描述對象和與描述對象相關(guān)的屬性重構(gòu)表格。
[0007]另外,本發(fā)明的實施例還提供了用于實現(xiàn)上述方法的計算機程序。
[0008]此外,本發(fā)明的實施例還提供了至少計算機可讀介質(zhì)形式的計算機程序產(chǎn)品,其上記錄有用于實現(xiàn)上述方法的計算機程序代碼。
[0009]通過以下結(jié)合附圖對本發(fā)明的最佳實施例的詳細說明,本發(fā)明的這些以及其他優(yōu)點將更加明顯。
【附圖說明】
[0010]參照下面結(jié)合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標記來表示。
[0011]圖1A示出了包含多個描述對象的示例性表格;
[0012]圖1B和圖1C是由圖1A中的表格重構(gòu)的兩個單一描述對象的表格的圖;
[0013]圖2示出了根據(jù)本發(fā)明的一個實施例的對表格進行重構(gòu)的裝置200的示例性配置的框圖;
[0014]圖3是示出圖2中的描述對象確定單元204的一種示例性配置的框圖;
[0015]圖4示出了根據(jù)本發(fā)明的一個實施例的對表格進行重構(gòu)的方法400的流程圖;
[0016]圖5是示出圖4中的步驟S404的一種示例性過程的流程圖;
[0017]圖6是示出可以用于實施本發(fā)明的表格重構(gòu)裝置和方法的計算設(shè)備的示例性結(jié)構(gòu)圖。
【具體實施方式】
[0018]下面參照附圖來說明本發(fā)明的實施例。在本發(fā)明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。
[0019]本發(fā)明提出一種表格重構(gòu)裝置和方法,可以將包含多個描述對象的表格(如圖1A所示)拆分成多個單一描述對象表格(例如圖1B和圖1C)。從圖1A-1C可以看到,圖1A中的表格包括兩個描述對象“人”和“公司”,其中描述人的屬性有“姓名、國籍、學(xué)位、畢業(yè)院校、創(chuàng)辦企業(yè)、聯(lián)系方式、e-mail”,描述公司的屬性有“成立日期、地址、服務(wù)、領(lǐng)域、聯(lián)系方式”,其中“聯(lián)系方式”列既可以是描述人的屬性,又可以是描述公司的屬性。如圖1B和IC所示,分別是根據(jù)圖1A中的兩個描述對象“人”和“公司”及其對應(yīng)的屬性重構(gòu)的兩個單一描述對象表格。
[0020]根據(jù)本發(fā)明的裝置和方法,首先根據(jù)表格列標題和/或表格列中的實例信息確定該列對應(yīng)的屬性,然后根據(jù)每列的對應(yīng)的屬性確定描述對象及其屬性列,最后根據(jù)描述對象和屬性列的對應(yīng)關(guān)系將原始表格重構(gòu)成單一描述對象表格。
[0021]下面結(jié)合附圖詳細說明根據(jù)本發(fā)明的一個實施例的對表格進行重構(gòu)的裝置。
[0022]圖2示出了根據(jù)本發(fā)明的一個實施例的對表格進行重構(gòu)的裝置200的示例性配置的框圖。
[0023]如圖2所示,表格重構(gòu)裝置200包括列屬性確定單元202、描述對象確定單元204、描述對象相關(guān)屬性確定單元206和表格重構(gòu)單元208。
[0024]列屬性確定單元202可以確定表格中每一列的屬性。
[0025]描述對象確定單元204可以通過將所確定的每一列的屬性與語義知識庫鏈接來確定表格中的描述對象。
[0026]描述對象相關(guān)屬性確定單元206可以在語義知識庫中確定每個描述對象的屬性集合,計算表格中每一列的屬性與屬性集合中的每個屬性的第一相似度來確定表格中與描述對象相關(guān)的屬性。
[0027]表格重構(gòu)單元208可以使用描述對象和與描述對象相關(guān)的屬性對表格進行重構(gòu)。
[0028]下面分別詳細說明表格重構(gòu)裝置200所包括的各個單元。
[0029]表格的每一列都表TJK描述對象的某個屬性。確定表格的列對應(yīng)的屬性可以是確認表格的列與語義知識庫中哪個屬性對應(yīng)。在一個示例中,語義知識庫可以是L0D(linkedopen data, 一種全球知識庫)知識庫,下文中就以LOD知識庫作為語義知識庫的示例進行說明。
[0030]在本發(fā)明的一個示例性實施例中,確定表格的列對應(yīng)的屬性可以考慮以下兩方面的信息:列標題和列實例信息。當(dāng)表格存在列標題時,表格的列標題通常是表格的第一行,將表格列標題與LOD知識庫中的屬性進行鏈接,可以得到LOD知識庫中的對應(yīng)的屬性。如果沒有找到對應(yīng)的LOD屬性,再通過基于列實例的識別方法進行識別。如果表格沒有列標題,那么直接使用基于列實例的識別方法進行識別。
[0031]下面介紹基于列實例信息來確定表格中每一列的屬性的一個TJK例性方法。
[0032]首先,對于有特定模式的列實例使用正則表達式識別。例如,郵政編碼、電話號碼(手機號碼,座機號碼)、網(wǎng)址URL、IP地址、E-mai 1、時間、日期等??梢源_定圖1A中的表格的第6、7、8列的屬性為成立日期、聯(lián)系方式和e-mail。
[0033]其次,識別人名,地址等內(nèi)容。人名識別可以利用姓氏詞典識別;地址使用具有層級關(guān)系的地址知識庫匹配,地址知識庫層級關(guān)系由上到下為國家,省市/自治區(qū),區(qū)縣,鄉(xiāng)鎮(zhèn),街道等,地址也可以使用搜索引擎判斷,即使用地圖搜索引擎檢索該列實例,如果地圖搜索引擎返回檢索結(jié)果,那么該列實例對應(yīng)的屬性為地址。可以確定圖1A中,第I列和第9列對應(yīng)的屬性分別為姓名和地址。
[0034]最后,將未知屬性的列對應(yīng)的列實例與LOD知識庫中的實體進行鏈接,使用LOD知識庫中的知識判斷表格列對應(yīng)的屬性。例如將圖1A中的第4列與LOD知識庫進行鏈接,根據(jù)LOD知識庫,可以知道“清華大學(xué)”和“斯坦福大學(xué)”的對應(yīng)屬性都是“大學(xué)”。通過這種方式,可以確定第2、3、4、5、10、11的對應(yīng)屬性分別是國籍、學(xué)位、畢業(yè)院校、創(chuàng)辦企業(yè)、月艮務(wù)、領(lǐng)域。
[0035]在一個示例中,對表格列的對應(yīng)屬性的識別采用全局協(xié)同識別,即識別結(jié)果不依賴于某個列實例,而是該列中多個列實例協(xié)同識別的結(jié)果。例如,某列有η個實例,其中有m個對應(yīng)屬性Pa,n-m個對應(yīng)屬性pb,那么最終該列的類別可以由預(yù)設(shè)條件決定,如果m> (n-m)且m/n大于預(yù)設(shè)值,則該列對應(yīng)的屬性為pa。如果不滿足預(yù)設(shè)條件則無法識別,可以忽略該列。
[0036]通過上述過程,列屬性確定單元202可以確定