整合來自多個源的時間感知的數(shù)據(jù)的系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明總體上涉及數(shù)據(jù)整合和數(shù)據(jù)交換領(lǐng)域。更具體而言,本發(fā)明涉及整合來自 多個源的時間感知的數(shù)據(jù)的系統(tǒng)和方法。
【背景技術(shù)】
[0002] 隨著可用數(shù)據(jù),例如,監(jiān)管(curated)數(shù)據(jù)庫、企業(yè)數(shù)據(jù)以及因特網(wǎng)上公開可用數(shù) 據(jù)的數(shù)量和多樣性,很少能夠通過單個數(shù)據(jù)源完全包含并管理有關(guān)某一實體的信息。使來 自多個源的數(shù)據(jù)相組合或者使同一源隨著時間的推移而報告的各種數(shù)據(jù)版本相組合對于 產(chǎn)生更加全面的理解往往具有很高的價值。例如,患者在其一生當(dāng)中通常訪問甚至經(jīng)常同 時多個醫(yī)療專業(yè)人員/機構(gòu)。盡管每一醫(yī)療機構(gòu)為其患者保存醫(yī)療歷史記錄是很重要的, 但是使患者和醫(yī)療專業(yè)人員兩者都能訪問從由每個機構(gòu)保存的歷史導(dǎo)出的整合簡檔將具 有更高的價值。類似地,潛在的顧主將得益于使求職人員的簡歷與其他數(shù)據(jù)相組合,例如, 公開簡檔數(shù)據(jù)或者甚至先前的簡歷版本。
[0003] 這些示例表明數(shù)據(jù)的時間方面可能是至關(guān)重要的。例如,知道是否在同一時間段 內(nèi)為用戶開了具有不良相互作用的兩種不同的藥物是很重要的。類似地,如果不同的源報 告求職人員在同一時間段內(nèi)就任多個職位,那么對于人力資源經(jīng)理來說了解擁有頭銜的順 序,以推斷該求職者是受到過提升、降職還是有可能提供了粉飾過的簡歷將是有用的。
[0004] 在整合時間感知的數(shù)據(jù)時將出現(xiàn)若干挑戰(zhàn),其中時間感知的數(shù)據(jù)是指包含諸如處 方日期的隱含時間特定的信息或者諸如實例的版本號的明確時間信息的數(shù)據(jù)。首先,與數(shù) 據(jù)相關(guān)的時間方面往往不精確。機構(gòu)可以報告患者在具體的日期針對某種病癥接受了治 療。由這一信息,可以推斷患者在他/她看病的當(dāng)天必然已經(jīng)患有了該病癥,但是不知道患 者是否仍然患有該病癥,或者在就診之前或就診之后其患有該病癥多長時間。當(dāng)與來自對 同一診所或其他診所的其他就診信息相組合時,就有可能遞增地建立起該患者的越來越精 確的醫(yī)療歷史。
[0005] 其次,與常規(guī)數(shù)據(jù)整合一樣,在將來自多個源的數(shù)據(jù)組合到一起時,相對于某 些指定的約束可能出現(xiàn)不一致性??缭綍r間處理某些約束的需要更增加了復(fù)雜性(參 考C.S.Jensen等人的文章"Extendingexistingdependencytheorytotemporal databases, "IEEETrans.Knowl.DataEng. ,8(4): 563-582, 1996)。例如,盡管雇員在某時 可能真的只從顧主那里收到一個薪水包,但是如果他/她同時受雇于多個公司,那么該雇 員就可能同時收到多個薪水包。作為另一個示例,向美國證券交易委員會(SEC)提交的報 告或者公司新聞稿可能報告某位執(zhí)行官在給定的某天擁有特定的頭銜,但是它不會提供有 關(guān)最初擁有該頭銜的時間或者在該報告或新聞稿公布之后是否仍然擁有該頭銜的信息。另 一數(shù)據(jù)源(或者甚至在不同時間點上的同一數(shù)據(jù)源)可能報告所述執(zhí)行官在晚于第一源報 告他/她的頭銜的日期的某日受雇于所述公司。兩個報告都給出不精確的信息。從該執(zhí)行 官的雇傭歷史能夠推斷出什么?應(yīng)當(dāng)假定他/她一直到與其職務(wù)相關(guān)的(較早)日期為止 都受雇于所述公司,還是應(yīng)當(dāng)支持第二源報告的(較晚)日期而忽視其值?
[0006] 在整合隨著時間的推移來自多個源的有關(guān)同一實體的信息時,挑戰(zhàn)在于,維持關(guān) 于該實體已知的各種事實的時間一致性,其中假定這樣的事實是在不同的時間從不同的源 習(xí)知的,而且與這些事實相關(guān)的時間可能是不精確的。理想地,整合過程應(yīng)當(dāng)遵守模式約束 和跨越時間的功能相關(guān)性,并且具有冪等(idempotent)、可交換(cummutative)和可結(jié)合 (associative)特性,以確保實體的時間一致的簡檔,而不管習(xí)知的各個事實的順序如何。
[0007] 當(dāng)前的技術(shù)不提供這樣的保證。例如,可以采用標(biāo)準(zhǔn)的雙重時間(bi-temporal) 數(shù)據(jù)庫來跟蹤何時習(xí)知各個事實,但是其不能保證無論發(fā)生更新的順序如何對各個事實的 最新理解都將是相同的。考慮下面的示例:
[0008]UPDATESTOCKHOLDINGSFORPORTIONOFBUSINESS_TIME
[0009] FROM' 08/23/2010'toCURRENTDATE
[0010] SETSHARES =141,
[0011] WHERENAME ='FreddyGold'
[0012] UPDATESTOCKHOLDINGSFORPORTIONOFBUSINESS_TIME
[0013] FROM' 08/20/2010'toCURRENTDATE
[0014]SETSHARES = 396043,
[0015] WHERENAME ='FreddyGold'
[0016] 如果按照這一順序執(zhí)行了更新,那么數(shù)據(jù)庫將記錄當(dāng)前的理解是FreddyGold自 8/23起擁有396043股份的股票,但是如果使語句的順序顛倒,那么數(shù)據(jù)庫將記錄當(dāng)前的理 解是FreddyGold具有141份股份的股票,而這一事實自8/20起是正確的。盡管兩個事實 可能處于不同的時間點上,但是仍然不清楚Freddy今天具有多少股份的股票。是第二更新 對第一更新的校正,還是只是不按次序抵達的事實?接下來將采用具體的示例探討與一致 地整合時間感知的數(shù)據(jù)的問題相關(guān)的微妙之處和挑戰(zhàn)。
[0017]啟發(fā)性示例:圖1示出了一個實際示例的簡化形式,在該示例中,根據(jù)從若干源 提取的數(shù)據(jù)整合出有關(guān)FreddyGold的信息,所述源包括可通過EDGAR數(shù)據(jù)庫(參見有關(guān) EDGAR公共發(fā)行服務(wù)的SEC網(wǎng)站)獲得的SEC提交的不同報告(表格10K和表格3/4/5)、 不同的簡歷版本、公司網(wǎng)站和可以電子方式獲得的新聞文章。為簡單起見,假定圖1左側(cè)所 示的每一行都表示單獨的存檔或版本,盡管一般而言存檔或版本可能包含很多行數(shù)據(jù)。
[0018] 例如,圖1中的"SEC存檔"示出了從向SEC提交的7份報告獲取的7個事實,它 們中的每者都指示了在2010年下半年FreddyGold持有的特定股票(0LP和BRT)的股份 數(shù)目。第一行是7/01提交的報告,其指示Freddy在7/01擁有396043份0LP股份。盡管 與該存檔相關(guān)的日期只記錄了已知該事實為真的日期,但是假定該存檔中的數(shù)據(jù)一直到接 收到新的信息之前都為真是合理的,例如,新的信息來自第二行所示的報告,其指示Freddy 在8/25擁有13415份0LP股份。
[0019] 同時,從不同版本的公司網(wǎng)站和新聞文章中提取的數(shù)據(jù)包含關(guān)于Freddy的雇傭 歷史的部分信息,而Freddy的不同版本的簡歷則給出了有關(guān)Freddy的教育和雇傭歷史的 部分信息。怎樣才能對給定的信息做出最佳調(diào)和,以構(gòu)成時間一致的簡檔,從而能夠了解他 的工作歷史,或者他擁有多少0LP股份,例如,在8/24 ?接下來將解決對這一問題的解答。
[0020]SEC報告的第一檢驗指示假定Freddy在8/24擁有141份0LP股份應(yīng)該是合理的, 因為第三份報告指示自8/23日起就是這種情況。但是,在較晚的日期8/30提交的第四報 告和第五報告指示Freddy在8/20日具有1322179份OLP股份,這一數(shù)字只是在8/26變?yōu)?了 396043份股份。那么,F(xiàn)reddy在8/24擁有141份股份還是1322179份股份?由于第四 存檔和第五存檔是在較晚的日期報告的(即,是"校正"較早信息的更近的信息),因而假定 Freddy在8/24擁有1322179份股份應(yīng)該是是合理的。如果向有關(guān)其BRT股票持有的第六 存檔和第七存檔應(yīng)用相同的邏輯,那么Freddy在7/14必然擁有1820份BRT股份。或者, 如果報告是簡單地不按次序抵達的,那么Freddy在8/24擁有141份0LP股份,而在7/14 擁有〇份BRT股份。
[0021] 上文的論述帶來了一些微妙之處,它們可能會在根據(jù)這一示例中隱含的約束下解 釋和整合時間特定的信息時出現(xiàn);Freddy在任何時間點上只能持有一個股份數(shù)量的具體 股票。因而,在出現(xiàn)矛盾時(即,當(dāng)Freddy在某一時間點上持有一股票的至少兩個不同的 可能股份數(shù)目時),必須解決沖突并根據(jù)Freddy的整合簡檔確定"正確"的股份數(shù)目。圖 1的右側(cè)示出了一種可能的解釋。如下文將說明的,取決于如何對給定的日期加以解釋,對 Freddy的股票持有的其他解釋也是可能的。
[0022] 這一示例表明需要一種能夠支持用于整合時間感知的數(shù)據(jù)的不同的策略的可擴 展框架。不論用于解析沖突信息的策略是什么,整合的結(jié)果(時間的模數(shù)語法表達)對整 合數(shù)據(jù)源的次序都是不可知的。
[0023] 下述討論將描述用于數(shù)據(jù)整合和數(shù)據(jù)交換的已知現(xiàn)有技術(shù)。
[0024] 數(shù)據(jù)整合和數(shù)據(jù)交換盡管在過去的幾十年當(dāng)中數(shù)據(jù)整合和數(shù)據(jù)交換取得了巨大 的進步,但是用于數(shù)據(jù)整合和數(shù)據(jù)交換的現(xiàn)有的技術(shù)和系統(tǒng)對于時間都具有很大的不可知 性,因而不能將它們直接用于構(gòu)建令人滿意的隨著時間推移的整合檔案。實際上,假定將所 有提取出的數(shù)據(jù)都置于準(zhǔn)備好進行整合的格式當(dāng)中,還是不能采用現(xiàn)有技術(shù)的數(shù)據(jù)整合和 數(shù)據(jù)交換系統(tǒng)來自動導(dǎo)出對FreddyGold的縱貫簡檔的一致理解,例如,如圖1的右側(cè)和圖 2B所示的內(nèi)容。將需要不可忽視的擴展,尤其是利用特設(shè)(adhoc)功能來在已知約束下建 立各個數(shù)據(jù)源的時間一致視圖。H.Zhu等人的文章"Effectivedataintegrationinthe presenceoftemporalsemanticconflicts, "Inti.Symp.onTemporalRepresentation andReasoning,TME,pp. 109-114, 2004提供了對跨越時間整合數(shù)據(jù)時必須解決的三種類 型的時間異類性的討論,除此之外,在本領(lǐng)域中的現(xiàn)有技術(shù)當(dāng)中一直都沒有對跨越時間整 合和交換數(shù)據(jù)問題給出過系統(tǒng)并且徹底的解決。
[0025] 需要對能夠用于跨越時間整合和交換數(shù)據(jù)的數(shù)據(jù)交換系統(tǒng)進行系統(tǒng)性擴展。數(shù) 據(jù)交換規(guī)范是一個三元組(S,T,2),其中,S是源模式,而T是目標(biāo)模式,并且2是模式映 射集合,它們是兩種模式的實例之間的關(guān)系的高級聲明規(guī)范。在給定了S的源實例I的情 況下,數(shù)據(jù)交換的目標(biāo)是具體化T的目標(biāo)實例J,使得I和J一起滿足2。數(shù)據(jù)交換系統(tǒng) 的一般架構(gòu)由采取所述規(guī)范并將其編譯成可執(zhí)行代碼的模塊構(gòu)成。可以將所述可執(zhí)行代 碼應(yīng)用于I,以獲得J(例如,參見L.Popa等人的文章"TranslatingWebData, "VLDB,pp 598-609,2002)。也可以通過相對于所述規(guī)范對I應(yīng)用追趕(chase)過程而獲得所述目標(biāo) 實例。在數(shù)據(jù)交換框架內(nèi)經(jīng)常隱含的基本假定是將目標(biāo)實例創(chuàng)建為由數(shù)據(jù)交換的結(jié)果獲得 的事實的合并(union)。在所述交換之后,所有目標(biāo)事實被合并以獲得J,其中,根據(jù)集合合 并,將所有等同事實的集合融合為一個。當(dāng)在目標(biāo)當(dāng)中存在功能依賴性(被建模為目標(biāo)等 同性生成依賴性)的情況下出現(xiàn)矛盾事實