一種異構(gòu)數(shù)據(jù)的整合方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及計(jì)算機(jī)應(yīng)用領(lǐng)域,尤其涉及一種異構(gòu)數(shù)據(jù)的整合方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著信息化的發(fā)展,人們積累了海量的數(shù)據(jù)資源,并且數(shù)據(jù)的規(guī)模正在以更快的速度增長(zhǎng),其中一些搜索引擎公司整合了幾乎所有的Web數(shù)據(jù),這類(lèi)數(shù)據(jù)的特點(diǎn)是開(kāi)放的,公有的,并且基本上都以非結(jié)構(gòu)化的文本形式存在,我們稱(chēng)之為公共數(shù)據(jù)。而除了公共數(shù)據(jù)之外,還有一類(lèi)更有價(jià)值的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),這類(lèi)數(shù)據(jù)的特點(diǎn)是私有的,結(jié)構(gòu)化的,我們將其稱(chēng)之為私有數(shù)據(jù)。
[0003]對(duì)公共數(shù)據(jù)的使用,搜索引擎已經(jīng)做到了相當(dāng)成熟的程度。要想進(jìn)一步提高搜索引擎的可用性需要對(duì)非結(jié)構(gòu)化的文本數(shù)據(jù)進(jìn)行自然語(yǔ)言處理,使機(jī)器能夠像人一樣閱讀網(wǎng)頁(yè),理解人類(lèi)的各種語(yǔ)言,這是非常困難的事情,目前還沒(méi)有突破性的進(jìn)展。而對(duì)于私有數(shù)據(jù)以固定獨(dú)立模式的數(shù)據(jù)庫(kù)對(duì)它們的原始目標(biāo),即商業(yè)事務(wù)處理來(lái)說(shuō)是非常有效的,但對(duì)于其以外的需求,如情報(bào)獲取、知識(shí)挖掘、模式挖掘等,以SQL模式存在的數(shù)據(jù)庫(kù)就顯的力不從心了。由于這些原因,私有數(shù)據(jù)在支持原有業(yè)務(wù)本身之外,還沒(méi)有發(fā)揮出太大的作用。
[0004]針對(duì)現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù),目前還沒(méi)有辦法打破異構(gòu)數(shù)據(jù)的獨(dú)立特性,并且無(wú)法對(duì)數(shù)據(jù)整體進(jìn)行高性能的處理。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例提供一種異構(gòu)數(shù)據(jù)的整合方法及系統(tǒng),以對(duì)整體異構(gòu)數(shù)據(jù)進(jìn)行高性能的處理。
[0006]本發(fā)明實(shí)施例提供了一種異構(gòu)數(shù)據(jù)的整合方法,包括:
[0007]讀取原始異構(gòu)數(shù)據(jù),并將所述原始異構(gòu)數(shù)據(jù)分解成對(duì)象、屬性和連接三類(lèi)基本元素,并構(gòu)建對(duì)象、屬性和連接的三元模型,所述三元模型通過(guò)對(duì)象表、屬性表及連接表來(lái)實(shí)現(xiàn);
[0008]分別針對(duì)所述對(duì)象表、屬性表中同類(lèi)型數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)注以獲取對(duì)象語(yǔ)義類(lèi)型及屬性語(yǔ)義類(lèi)型;及
[0009]依據(jù)所述對(duì)象語(yǔ)義類(lèi)型及屬性語(yǔ)義類(lèi)型將所述對(duì)象表及屬性表中的數(shù)據(jù)建立索引以提供用戶(hù)查詢(xún)接口。
[0010]本發(fā)明實(shí)施例提供了一種異構(gòu)數(shù)據(jù)的整合系統(tǒng),包括:
[0011]數(shù)據(jù)處理模塊,用于讀取原始異構(gòu)數(shù)據(jù),并將所述原始異構(gòu)數(shù)據(jù)分解成對(duì)象、屬性和連接三類(lèi)基本元素,并構(gòu)建對(duì)象、屬性和連接的三元模型,所述三元模型通過(guò)對(duì)象表、屬性表及連接表來(lái)實(shí)現(xiàn);
[0012]語(yǔ)義標(biāo)注模塊,用于分別針對(duì)所述對(duì)象表、屬性表中同類(lèi)型數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)注以獲取對(duì)象語(yǔ)義類(lèi)型及屬性語(yǔ)義類(lèi)型;
[0013]整合模塊,用于依據(jù)所述對(duì)象語(yǔ)義類(lèi)型及屬性語(yǔ)義類(lèi)型將所述對(duì)象表及屬性表中的數(shù)據(jù)建立索引以提供用戶(hù)查詢(xún)接口。
[0014]本發(fā)明實(shí)施例通過(guò)讀取原始異構(gòu)數(shù)據(jù),并將所述原始異構(gòu)數(shù)據(jù)分解成對(duì)象、屬性和連接三類(lèi)基本元素,并構(gòu)建對(duì)象、屬性和連接的三元模型,所述三元模型通過(guò)對(duì)象表、屬性表及連接表來(lái)實(shí)現(xiàn);分別針對(duì)所述對(duì)象表、屬性表中同類(lèi)型數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)注以獲取對(duì)象語(yǔ)義類(lèi)型及屬性語(yǔ)義類(lèi)型;及依據(jù)所述對(duì)象語(yǔ)義類(lèi)型及屬性語(yǔ)義類(lèi)型將所述對(duì)象表及屬性表中的數(shù)據(jù)建立索引以提供用戶(hù)查詢(xún)接口。解決由于現(xiàn)有異構(gòu)數(shù)據(jù)的獨(dú)立特性無(wú)法進(jìn)行整體高性能處理的問(wèn)題,本實(shí)施的技術(shù)方案將不同結(jié)構(gòu)的數(shù)據(jù)抽象、分解成統(tǒng)一結(jié)構(gòu)的對(duì)象和屬性,使用三元模型對(duì)其進(jìn)行重構(gòu),同時(shí)使用海量分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),因此可以處理任意復(fù)雜結(jié)構(gòu)和任意規(guī)模的原始異構(gòu)數(shù)據(jù)。
【附圖說(shuō)明】
[0015]圖1是本發(fā)明實(shí)施例一提供的一種異構(gòu)數(shù)據(jù)的整合方法的流程示意圖;
[0016]圖2是本發(fā)明實(shí)施例一提供對(duì)象表、屬性表及連接表進(jìn)行語(yǔ)義標(biāo)注示意圖;
[0017]圖3是本發(fā)明實(shí)施例二提供的一種異構(gòu)數(shù)據(jù)的整合系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0018]下面結(jié)合附圖并通過(guò)【具體實(shí)施方式】來(lái)進(jìn)一步說(shuō)明本發(fā)明的技術(shù)方案??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0019]在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)步驟描述成順序的處理,但是其中的許多步驟可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外,各項(xiàng)步驟的順序可以被重新安排。當(dāng)其步驟完成時(shí)所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
[0020]實(shí)施例一
[0021]圖1為本發(fā)明實(shí)施例一提供的一種異構(gòu)數(shù)據(jù)的整合方法,該方法可以由異構(gòu)數(shù)據(jù)的整合系統(tǒng)執(zhí)行,其中該整合系統(tǒng)可由軟件和/或硬件實(shí)現(xiàn),一般可集成在計(jì)算機(jī)中。
[0022]參見(jiàn)圖1,本實(shí)施例的異構(gòu)數(shù)據(jù)的整合方法包括如下步驟:
[0023]步驟S110、讀取原始異構(gòu)數(shù)據(jù),并將所述原始異構(gòu)數(shù)據(jù)分解成對(duì)象、屬性和連接三類(lèi)基本元素,并構(gòu)建對(duì)象、屬性和連接的三元模型,所述三元模型通過(guò)對(duì)象表、屬性表及連接表來(lái)實(shí)現(xiàn)。
[0024]具體的,將原始的異構(gòu)數(shù)據(jù)導(dǎo)入,即將各種格式的結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入至計(jì)算機(jī)中以準(zhǔn)備進(jìn)行處理。其中,所述的結(jié)構(gòu)化數(shù)據(jù)可以直接導(dǎo)入,而非結(jié)構(gòu)化數(shù)據(jù)需要經(jīng)過(guò)數(shù)據(jù)抽取、數(shù)據(jù)清洗后轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)才能導(dǎo)入。
[0025]其中,因?yàn)閿?shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個(gè)業(yè)務(wù)系統(tǒng)中抽取而來(lái)且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯(cuò)誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱(chēng)為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則把“臟數(shù)據(jù)” “洗掉”,這就是數(shù)據(jù)清洗。
[0026]在信息社會(huì),信息可以劃分為兩大類(lèi)。一類(lèi)信息能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示,我們稱(chēng)之為結(jié)構(gòu)化數(shù)據(jù),如數(shù)字、符號(hào);而另一類(lèi)信息無(wú)法用數(shù)字或統(tǒng)一的結(jié)構(gòu)表示,如文本、圖像、聲音、網(wǎng)頁(yè)等,我們稱(chēng)之為非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),是非結(jié)構(gòu)化數(shù)據(jù)的特例。
[0027]優(yōu)選的,在本實(shí)施例中,當(dāng)所述異構(gòu)數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)時(shí),可直接將結(jié)構(gòu)化數(shù)據(jù)分解成對(duì)象、屬性和連接三類(lèi)基本元素;當(dāng)所述異構(gòu)數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)時(shí),需要先將所述非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行抽取、清洗轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)才能分解成對(duì)象、屬性、及連接三類(lèi)基元素。
[0028]所述對(duì)象代表基本的數(shù)據(jù)單位,對(duì)應(yīng)結(jié)構(gòu)化數(shù)據(jù)的一個(gè)“行”。對(duì)象包括實(shí)體和事件兩類(lèi),常見(jiàn)的實(shí)體如人物、組織、文檔等,事件是指由實(shí)體參與的行為或活動(dòng),例如乘某一個(gè)架次的航班,某個(gè)號(hào)碼的一次電話(huà)通話(huà)等。
[0029]所述屬性代表對(duì)象的具體信息,對(duì)應(yīng)結(jié)構(gòu)化數(shù)據(jù)的一個(gè)“行”數(shù)據(jù)的一個(gè)字段。每個(gè)對(duì)象由一組屬性來(lái)表示,例如人物對(duì)象可以由姓名,電話(huà)號(hào)碼,性別,出生日期,籍貫來(lái)表示,而一次打電話(huà)的行為可以用電話(huà)主叫方,電話(huà)被叫方,通話(huà)時(shí)間,通話(huà)時(shí)長(zhǎng)來(lái)表示。
[0030]所述連接代表對(duì)數(shù)據(jù)關(guān)聯(lián)利用的基礎(chǔ),將屬性值相同的兩個(gè)對(duì)象建立連接。例如兩個(gè)對(duì)象的某些屬性相同時(shí),則可以在所述兩對(duì)象間建立一個(gè)連接,例如:人物的電話(huà)號(hào)碼屬性和打電話(huà)的電話(huà)主叫號(hào)碼屬性相同,人物對(duì)象和打電話(huà)事件對(duì)象之間就可以建立稱(chēng)為“電話(huà)主叫方”的連接。
[0031 ]在分解成對(duì)象、屬性和連接三類(lèi)基本元素后,構(gòu)建對(duì)象、屬性和連