專利名稱::數(shù)據(jù)倉庫環(huán)境中的語義分組數(shù)據(jù)的并行處理的制作方法
技術(shù)領(lǐng)域:
:這里描述的主題涉及數(shù)據(jù)倉庫,并且更具體地講涉及數(shù)據(jù)倉庫環(huán)境中的語義分組數(shù)據(jù)的并行處理。
背景技術(shù):
:企業(yè)數(shù)據(jù)倉庫用作一種重要的平臺(tái),在該平臺(tái)上嵌入了一些公司的多種應(yīng)用。這些應(yīng)用可以包括例如商業(yè)智能(BI),客戶關(guān)系管理(CRM),以及企業(yè)資源計(jì)劃(ERP)。當(dāng)它們被嵌入在企業(yè)范圍內(nèi)(或者甚至是世界范圍內(nèi))的系統(tǒng)藍(lán)圖中時(shí),經(jīng)常會(huì)引發(fā)一些沖突問題,比如大容量數(shù)據(jù)與用于處理該數(shù)據(jù)的良好定義的窄時(shí)隙之間的沖突。就可用硬件的利用來說,有效數(shù)據(jù)處理是改善數(shù)據(jù)倉庫性能并減少用于提供該數(shù)據(jù)的時(shí)間的關(guān)鍵需求。如圖1A所示,數(shù)據(jù)倉庫應(yīng)用平臺(tái)100通常會(huì)具有兩層結(jié)構(gòu):應(yīng)用層101的一個(gè)或多個(gè)應(yīng)用服務(wù)器102,每個(gè)應(yīng)用服務(wù)器102擁有一個(gè)或者多個(gè)數(shù)據(jù)倉庫應(yīng)用。應(yīng)用服務(wù)器102連接到數(shù)據(jù)庫層103的數(shù)據(jù)庫管理系統(tǒng)(DBMS)104,并且,運(yùn)行在每個(gè)應(yīng)用服務(wù)器102上的不同的(并行運(yùn)行的)任務(wù)106必須處理從存儲(chǔ)在DBMS104上的表108讀取的數(shù)據(jù)。DBMS104可以包括一個(gè)或多個(gè)服務(wù)器。同時(shí),數(shù)據(jù)目標(biāo),例如信息塊(Inf0Cubes)、數(shù)據(jù)存儲(chǔ)(DataStore)對(duì)象等,被數(shù)據(jù)倉庫用戶模式化來支持不同的應(yīng)用以及決策制定。在已知的模型驅(qū)動(dòng)架構(gòu)中,要被處理的數(shù)據(jù)最常被結(jié)構(gòu)化并且從數(shù)據(jù)模型組成元數(shù)據(jù)。因此,從類屬數(shù)據(jù)倉庫應(yīng)用的角度講數(shù)據(jù)的語義是未知的。要被處理的數(shù)據(jù)通常取決于時(shí)間。例如,如圖1B所示的,如果數(shù)據(jù)倉庫應(yīng)用從源系統(tǒng)提取帳單項(xiàng)目,則必須附上源系統(tǒng)中對(duì)于一個(gè)特定項(xiàng)目的修改順序以便計(jì)算正確的delta(德耳塔)值。為了支持這種需求,除了使用語義關(guān)鍵詞(例如,帳單號(hào)碼)外還使用技術(shù)關(guān)鍵詞(例如,請(qǐng)求(REQUEST),記錄號(hào)碼(REC0RDNUMBER))。數(shù)據(jù)處理步驟(例如,數(shù)據(jù)存儲(chǔ)對(duì)象中的數(shù)據(jù)激活,從一個(gè)數(shù)據(jù)目標(biāo)到另一個(gè)數(shù)據(jù)目標(biāo)的數(shù)據(jù)載入等)對(duì)于性能是至關(guān)重要的。為了能夠處理海量數(shù)據(jù),數(shù)據(jù)處理步驟必須被分布到采用不同任務(wù)106的多個(gè)應(yīng)用服務(wù)器上,并且數(shù)據(jù)必須被相應(yīng)地分離。典型地,一個(gè)任務(wù)106僅處理數(shù)據(jù)的一個(gè)子集,被稱為數(shù)據(jù)分組,如圖2所示。為了控制服務(wù)器工作負(fù)荷,由一個(gè)任務(wù)處理的記錄的數(shù)目(或號(hào)碼)必須由用戶保留(分組大小)。此外,為了避免由于并發(fā)任務(wù)產(chǎn)生的數(shù)據(jù)丟失,用于一個(gè)特定語義關(guān)鍵詞的多個(gè)記錄必須在相同的分組中。如果多個(gè)記錄被不同的任務(wù)并行地處理,可能會(huì)違反上面的段落中提到的先決條件。作為一個(gè)例子,如圖1B所示,具有記錄號(hào)碼1、2、3和5的記錄必須由一個(gè)任務(wù)來處理;而記錄號(hào)碼4可以由不同任務(wù)來處理。在目前的數(shù)據(jù)倉庫環(huán)境中,根據(jù)上面描述的條件進(jìn)行的任務(wù)處理是限制因素之一。任務(wù)本身并不能確定要被處理的數(shù)據(jù)分組,這是因?yàn)?,由于模型?qū)動(dòng)構(gòu)架,沒有能夠確保用于一個(gè)特定語義的所有記錄都被讀取的選擇標(biāo)準(zhǔn),因而任何分組大小的記錄均被處理,并且每個(gè)記錄都是由確切的一個(gè)進(jìn)程來處理的。由于一項(xiàng)任務(wù)不能選擇它自己的數(shù)據(jù),但所有任務(wù)取決于主進(jìn)程,因而并行化程度受到了限制。相應(yīng)地,需要一種主進(jìn)程來創(chuàng)建數(shù)據(jù)分組并將結(jié)果傳遞給任務(wù)。
發(fā)明內(nèi)容本文檔描述了實(shí)施任務(wù)處理算法的方法和系統(tǒng)。這種算法使得數(shù)據(jù)倉庫應(yīng)用隨著并行任務(wù)的數(shù)量來成比例規(guī)劃,而不會(huì)被限制于創(chuàng)建數(shù)據(jù)分組的主進(jìn)程。在一個(gè)方面,一種方法表現(xiàn)為用于并行處理數(shù)據(jù)倉庫環(huán)境中的語義分組的數(shù)據(jù)。該方法包括由數(shù)據(jù)倉庫應(yīng)用的一個(gè)或多個(gè)處理器生成數(shù)據(jù)存儲(chǔ)對(duì)象。數(shù)據(jù)存儲(chǔ)對(duì)象具有多個(gè)記錄。該方法還包括對(duì)每個(gè)記錄添加哈希值,該哈希值具有整數(shù)域,其中哈希值被均勻分布到跨越數(shù)據(jù)存儲(chǔ)對(duì)象的整數(shù)域。該方法還包括生成選擇表以基于哈希值的多個(gè)離散范圍創(chuàng)建多個(gè)任務(wù),并在多個(gè)任務(wù)的每個(gè)任務(wù)上并行地執(zhí)行轉(zhuǎn)換例程從而生成對(duì)應(yīng)于哈希值的多個(gè)離散范圍中的每個(gè)范圍的數(shù)據(jù)的信息塊。本主題的一些實(shí)施方式可以包括,但不限于,描述了一致包含一個(gè)或多個(gè)特征的系統(tǒng)和方法,以及包含有形體現(xiàn)的機(jī)器可讀介質(zhì)的物品,該機(jī)器可讀介質(zhì)可操作以引起一個(gè)或多個(gè)機(jī)器(例如,計(jì)算機(jī)等)產(chǎn)生此處描述的操作。類似的,還描述了可以包含一個(gè)或多個(gè)處理器以及耦合到該一個(gè)或多個(gè)處理器的一個(gè)或多個(gè)存儲(chǔ)器的計(jì)算機(jī)系統(tǒng)??梢园?jì)算機(jī)可讀存儲(chǔ)介質(zhì)的存儲(chǔ)器可以包含、編碼、存儲(chǔ)等等引起一個(gè)或多個(gè)處理器執(zhí)行一個(gè)或多個(gè)此處描述操作的一個(gè)或多個(gè)程序。與本主題的一個(gè)或多個(gè)實(shí)施方式一致的計(jì)算機(jī)實(shí)現(xiàn)的方法可以由駐留在單一的計(jì)算機(jī)系統(tǒng)或多個(gè)計(jì)算機(jī)系統(tǒng)中的一個(gè)或多個(gè)數(shù)據(jù)處理器來實(shí)現(xiàn)。這種多個(gè)計(jì)算機(jī)系統(tǒng)可以被連接并通過一個(gè)或多個(gè)連接方式交換數(shù)據(jù)和/或命令或其它指令等,包含但不限于通過網(wǎng)絡(luò)(例如,因特網(wǎng)、無線廣域網(wǎng)、局域網(wǎng)、廣域網(wǎng)、有線網(wǎng)等等)連接、通過多個(gè)計(jì)算機(jī)系統(tǒng)中的一個(gè)或多個(gè)之間的直接連接等。在附圖和下面的描述中闡述此處描述的主題的一個(gè)或多個(gè)變形的細(xì)節(jié)。通過該描述、附圖和權(quán)利要求,此處描述的主題的其它特征和優(yōu)點(diǎn)將是顯而易見的。盡管為了說明的目的關(guān)于企業(yè)資源軟件系統(tǒng)或其它商業(yè)軟件方案或架構(gòu)描述了本公開的主題的某些特征,應(yīng)當(dāng)容易理解的是,這些特征并不是用于限制的目的。本公開的權(quán)利要求書旨在定義要求保護(hù)的主題的范圍。包含在說明書中并構(gòu)成說明書一部分的附圖,顯示了此處公開的主題的某些方面,并且與說明書一起幫助解釋與公開的實(shí)施方式相關(guān)的一些原理。圖1A示出了數(shù)據(jù)倉庫應(yīng)用平臺(tái);圖1B示出了由數(shù)據(jù)倉庫應(yīng)用處理的數(shù)據(jù)示例;圖2示出了由來自應(yīng)用服務(wù)器的每個(gè)任務(wù)生成的數(shù)據(jù)分組;圖3示出了從源系統(tǒng)到數(shù)據(jù)倉庫應(yīng)用的數(shù)據(jù)流;圖4示出了數(shù)據(jù)存儲(chǔ)對(duì)象的一部分;圖5示出了信息塊的一部分;圖6A和6B示出了用哈希函數(shù)加強(qiáng)的數(shù)據(jù)存儲(chǔ)對(duì)象;圖7A和7B示出了基于用于哈希值的整數(shù)值的多個(gè)范圍創(chuàng)建的選擇表;圖8-10示出了根據(jù)哈希值的多個(gè)范圍之一,從與一個(gè)任務(wù)相關(guān)的每個(gè)進(jìn)程選擇的數(shù)據(jù)的表。當(dāng)實(shí)際應(yīng)用時(shí),類似的參考數(shù)字表示類似的結(jié)構(gòu)、特征或元件。具體實(shí)施例方式為了利用現(xiàn)有的解決方案解決這些和潛在的其它問題,符合當(dāng)前主題的一個(gè)或多個(gè)實(shí)施方式的方法、系統(tǒng)、制造物品和類似物,除了其它可能的優(yōu)點(diǎn)外,還可以提供用于實(shí)施任務(wù)處理和數(shù)據(jù)分布算法的方法和系統(tǒng),其使得數(shù)據(jù)倉庫應(yīng)用與并行任務(wù)的數(shù)量成比例規(guī)劃,而不需要受到創(chuàng)建數(shù)據(jù)分組的主進(jìn)程的制約。圖3是處理流程圖,示出了從源系統(tǒng)202到數(shù)據(jù)倉庫應(yīng)用204的模型化的數(shù)據(jù)流。該源系統(tǒng)202例如可以是服務(wù)器,并提供應(yīng)用專用表206給數(shù)據(jù)倉庫應(yīng)用204的數(shù)據(jù)源208。數(shù)據(jù)源208提供數(shù)據(jù)存儲(chǔ)對(duì)象210,轉(zhuǎn)換例程220可以在數(shù)據(jù)存儲(chǔ)對(duì)象210上運(yùn)行來產(chǎn)生信息塊212或類似的數(shù)據(jù)結(jié)構(gòu)。轉(zhuǎn)換例程序220在數(shù)據(jù)存儲(chǔ)對(duì)象210和信息塊212之間實(shí)施應(yīng)用邏輯,并提供使任務(wù)(例程所執(zhí)行的任務(wù))具有用于其數(shù)據(jù)分組中的一個(gè)具體語義關(guān)鍵詞的所有記錄的需求。圖4示出了示例性數(shù)據(jù)存儲(chǔ)對(duì)象300。在數(shù)據(jù)存儲(chǔ)對(duì)象300中,帳單項(xiàng)目連同創(chuàng)建日期以及“登記(booked)”標(biāo)志被保存。圖5示出了示例性信息塊310,其被創(chuàng)建以周期性基礎(chǔ)(例如每月)報(bào)告帳單項(xiàng)目。在示例性信息快310中,僅那些以每月為基礎(chǔ)報(bào)告的帳單項(xiàng)目應(yīng)當(dāng)可獲取用于報(bào)告,這些帳單項(xiàng)目的每個(gè)條目在數(shù)據(jù)存儲(chǔ)對(duì)象300中都具有“登記”標(biāo)志。如果用于一個(gè)具體語義關(guān)鍵詞的條目之一具有初始的“登記”標(biāo)志,則這些條目中沒有一個(gè)應(yīng)當(dāng)被更新到信息塊310中。假定數(shù)據(jù)必須利用多個(gè)任務(wù)以及兩個(gè)記錄的分組大小并行地處理,通常不存在能夠用來遵照上面描述的需求從數(shù)據(jù)存儲(chǔ)對(duì)象中選擇合適的數(shù)據(jù)分組的選擇標(biāo)準(zhǔn)。相應(yīng)地,本文描述的方法和系統(tǒng)實(shí)施按照如下方式工作的任務(wù)處理算法。源結(jié)構(gòu)的增強(qiáng)如圖6A和6B所示,數(shù)據(jù)存儲(chǔ)對(duì)象的結(jié)構(gòu)通過一種具有數(shù)據(jù)類型“整數(shù)”的新字段“HASHVALUE(哈希值)”被加強(qiáng)。變化的更新算法當(dāng)載入數(shù)據(jù)到數(shù)據(jù)存儲(chǔ)對(duì)象時(shí)該數(shù)據(jù)變得豐富(enriched)了。哈希函數(shù)被應(yīng)用到語義關(guān)鍵詞(帳單號(hào)碼)并且將輸入域(例如字符)映射到整數(shù)域,如圖6B所示。必須確保哈希算法是均勻地分布的(哈希函數(shù)的結(jié)果值被均等地分布在整數(shù)域上)。為了減少這個(gè)例子的復(fù)雜度,哈希函數(shù)在這里是作為例子具有域[1.10],盡管任何域都可以被采用。此外,如圖7A所示,創(chuàng)建用于存儲(chǔ)任務(wù)的選擇標(biāo)準(zhǔn)的附加表。在本示例中,來自數(shù)據(jù)存儲(chǔ)對(duì)象的數(shù)據(jù)被利用“2記錄”的分組大小更新到信息塊中。哈希函數(shù)均等地從I到10分布它的結(jié)果。利用2個(gè)記錄的分組大小,潛在的五項(xiàng)任務(wù)(10/2)必須被創(chuàng)建。在數(shù)據(jù)載入到數(shù)據(jù)存儲(chǔ)對(duì)象的期間,選擇表被填寫,如圖7B所示(沒有相應(yīng)記錄的范圍被省去以防止任務(wù)開始之后對(duì)空的數(shù)據(jù)分組的工作)。任務(wù)處理當(dāng)從數(shù)據(jù)存儲(chǔ)對(duì)象到信息塊的上載開始時(shí),對(duì)選擇表的查找會(huì)導(dǎo)致相應(yīng)數(shù)量的任務(wù)開始。SELECTMAX(task)FROM[selectioncriteriontable]—3個(gè)任務(wù)開始每個(gè)開始的任務(wù)首先讀取它的選擇標(biāo)準(zhǔn),如下面的示例:SELECThash—from,hash—toFROM[selectioncriteriontable]WHEREtask=taskID在此之后,任務(wù)讀取要被處理的數(shù)據(jù)分組,如下面的示例:SELECT*FROM[DataStoreobject]WHEREhashfrom>=hash—fromANDhashto<=hash—toORDERBYBillingnumber,Recordnumber.圖8-10示出了從數(shù)據(jù)分組的每個(gè)進(jìn)程中選擇的數(shù)據(jù)。相應(yīng)地,數(shù)據(jù)倉庫應(yīng)用平臺(tái)能夠被啟動(dòng)并行地處理(載入,激活,卷動(dòng)等)數(shù)據(jù)而不需要束縛于讀取主進(jìn)程,并使用具有良好定義的分組大小的語義分組的數(shù)據(jù)分組。此外,數(shù)據(jù)倉庫應(yīng)用現(xiàn)在可以與使用的硬件成比例規(guī)劃,因此當(dāng)處理和提供海量數(shù)據(jù)時(shí)運(yùn)行時(shí)間被大大減少。此處描述的主題的一個(gè)或多個(gè)方面或特征可以在數(shù)字電子電路、集成電路、專門設(shè)計(jì)的專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)計(jì)算硬件、固件、軟件和/或其組合中實(shí)現(xiàn)。這些不同的方面或特點(diǎn)可以包括在包含至少一個(gè)可編程處理器的可編程系統(tǒng)上可執(zhí)行和/或可解釋的一個(gè)或多個(gè)計(jì)算機(jī)程序中的實(shí)現(xiàn),可編程處理器可以是專用的或通用的,耦接到存儲(chǔ)系統(tǒng)、至少一個(gè)輸入設(shè)備以及至少一個(gè)輸出設(shè)備以從其中接收數(shù)據(jù)和指令并向其發(fā)送數(shù)據(jù)和指令??蛻魴C(jī)和服務(wù)器一般是互相遠(yuǎn)離的且通常通過通信網(wǎng)絡(luò)進(jìn)行交互??蛻魴C(jī)和服務(wù)器之間的關(guān)系由運(yùn)行在各自計(jì)算機(jī)上的并具有客戶機(jī)-服務(wù)器相互關(guān)系的計(jì)算機(jī)程序虛擬產(chǎn)生。這些計(jì)算機(jī)程序,其還可以被稱為程序、軟件、軟件應(yīng)用程序、應(yīng)用程序、組件、或代碼,包括可編程處理器的機(jī)器指令,并且可以用高級(jí)程序和/或面向?qū)ο蟮木幊陶Z言,和/或匯編/機(jī)器語言來實(shí)現(xiàn)。如此處使用的,術(shù)語“機(jī)器可讀介質(zhì)”是指用于向可編程處理器提供機(jī)器指令和/或數(shù)據(jù)的任何計(jì)算機(jī)程序產(chǎn)品、裝置和/或設(shè)備,比如磁盤、光盤、存儲(chǔ)器和/或可編程邏輯器件(PLD),包括接收機(jī)器指令作為機(jī)器可讀信號(hào)的機(jī)器可讀介質(zhì)。術(shù)語“機(jī)器可讀信號(hào)”指任何用于提供機(jī)器指令和/或數(shù)據(jù)給可編程處理器的信號(hào)。機(jī)器可讀介質(zhì)可以非暫時(shí)性地存儲(chǔ)這種機(jī)器指令,比如作為非暫時(shí)性的固態(tài)存儲(chǔ)器或磁硬盤驅(qū)動(dòng)器或任何其它等效的存儲(chǔ)介質(zhì)。機(jī)器可讀介質(zhì)可以可選地或另外地以暫時(shí)的方式存儲(chǔ)這種機(jī)器指令,比如作為處理器高速緩存或其它與一個(gè)或多個(gè)物理處理器核心相關(guān)聯(lián)的隨機(jī)存取存儲(chǔ)器。為提供與用戶的交互,此處描述的主題的一個(gè)或多個(gè)方面或特征可以在計(jì)算機(jī)上實(shí)現(xiàn),該計(jì)算機(jī)具有諸如用于向用戶顯示信息的陰極射線管(CRT)或液晶顯示器(LCD)或光發(fā)射二極管(LED)監(jiān)視器的顯示設(shè)備和用戶用來向計(jì)算機(jī)提供輸入的鍵盤以及諸如鼠標(biāo)或軌跡球的指示設(shè)備。其它種類的設(shè)備也可以用于提供和用戶的交互。例如,提供到用戶的反饋可以是任何形式的感測反饋,比如視覺反饋、聽覺反饋或觸覺反饋;并且來自用戶的輸入可以以任何形式接收,包括但不限于,聲音、語音或觸覺輸入。其它可能的輸入設(shè)備包括但不限于,觸摸屏或其它諸如單一或多點(diǎn)電阻或電容軌跡板、語音識(shí)別硬件和軟件、光學(xué)掃描儀、光學(xué)指示器、數(shù)字圖像捕獲設(shè)備及相關(guān)聯(lián)的解譯軟件等等。此處描述的主題可以基于想要的配置而體現(xiàn)為系統(tǒng)、裝置、方法和/或物品。在前面的說明中提出的實(shí)施方式不代表與此處描述的主題一致的所有實(shí)施方式。相反,它們僅僅是與所描述主題一致的一些例子。盡管上面已經(jīng)詳細(xì)描述了一些變化形式,但是可能做出其它的修改或添加。特別是,可以在此處提出的這些內(nèi)容之外提供進(jìn)一步的特征和/或變化。例如,上述實(shí)施方式可以指導(dǎo)出所公開的特征的各種組合和子組合和/或上述公開的一些進(jìn)一步的特征的組合和子組合。另外,附圖中示出的和/或本文描述的邏輯流程并不必然要求所顯示的特定順序或連續(xù)順序以獲得想要的結(jié)果。其它實(shí)施方式也在權(quán)利要求書的范圍之內(nèi)。權(quán)利要求1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,包括:由數(shù)據(jù)倉庫應(yīng)用的一個(gè)或多個(gè)處理器生成數(shù)據(jù)存儲(chǔ)對(duì)象,該數(shù)據(jù)存儲(chǔ)對(duì)象具有多個(gè)記錄;由所述一個(gè)或多個(gè)處理器添加哈希值到每個(gè)記錄,該哈希值具有整數(shù)域,所述一個(gè)或多個(gè)處理器將哈希值均勻地分布到跨越數(shù)據(jù)存儲(chǔ)對(duì)象的整數(shù)域;由所述一個(gè)或多個(gè)處理器生成選擇表,以基于哈希值的多個(gè)離散范圍創(chuàng)建多個(gè)任務(wù);以及由所述一個(gè)或多個(gè)處理器在多個(gè)任務(wù)的每一個(gè)上并行地執(zhí)行轉(zhuǎn)換例程以生成對(duì)應(yīng)于哈希值的多個(gè)離散范圍中的每個(gè)范圍的數(shù)據(jù)的信息塊。2.如權(quán)利要求1所述的方法,其中所述轉(zhuǎn)換例程在所述數(shù)據(jù)存儲(chǔ)對(duì)象和每個(gè)相應(yīng)信息塊之間實(shí)施應(yīng)用邏輯。3.如權(quán)利要求1所述的方法,其中所述哈希值的多個(gè)離散范圍中的每個(gè)范圍提供用于生成信息塊的特定數(shù)據(jù)分組。4.如權(quán)利要求1所述的方法,其中執(zhí)行轉(zhuǎn)換例程還包括多個(gè)任務(wù)中的每一個(gè):利用所述一個(gè)或多個(gè)處理器從所述選擇表中讀取一個(gè)或多個(gè)選擇標(biāo)準(zhǔn);以及利用所述一個(gè)或多個(gè)處理器根據(jù)所述選擇標(biāo)準(zhǔn)從所述數(shù)據(jù)存儲(chǔ)對(duì)象中讀取數(shù)據(jù)。5.一種計(jì)算機(jī)程序產(chǎn)品,包括存儲(chǔ)指令的機(jī)器可讀介質(zhì),當(dāng)所述指令由至少一個(gè)可編程處理器執(zhí)行時(shí)引起所述至少一個(gè)可編程處理器執(zhí)行包括下列操作的操作:由數(shù)據(jù)倉庫應(yīng)用的一個(gè)或多個(gè)處理器生成數(shù)據(jù)存儲(chǔ)對(duì)象,該數(shù)據(jù)存儲(chǔ)對(duì)象具有多個(gè)記錄;由所述一個(gè)或多個(gè)處理器添加哈希值到每個(gè)記錄,該哈希值具有整數(shù)域,所述一個(gè)或多個(gè)處理器將哈希值均勻地分布到跨越數(shù)據(jù)存儲(chǔ)對(duì)象的整數(shù)域;由所述一個(gè)或多個(gè)處理器生成選擇表,以基于哈希值的多個(gè)離散范圍創(chuàng)建多個(gè)任務(wù);以及由所述一個(gè)或多個(gè)處理器在多個(gè)任務(wù)的每一個(gè)上并行地執(zhí)行轉(zhuǎn)換例程以生成對(duì)應(yīng)于哈希值的多個(gè)離散范圍中的每個(gè)范圍的數(shù)據(jù)的信息塊。6.如權(quán)利要求5所述的計(jì)算機(jī)程序產(chǎn)品,其中所述轉(zhuǎn)換例程在所述數(shù)據(jù)存儲(chǔ)對(duì)象和每個(gè)相應(yīng)信息塊之間實(shí)施應(yīng)用邏輯。7.如權(quán)利要求5所述的計(jì)算機(jī)程序產(chǎn)品,其中所述哈希值的多個(gè)離散范圍中的每個(gè)范圍提供用于生成信息塊的特定數(shù)據(jù)分組。8.一種系統(tǒng),包括:應(yīng)用服務(wù)器,具有至少一個(gè)可編程處理器,以及存儲(chǔ)指令的機(jī)器可讀介質(zhì),當(dāng)所述指令由至少一個(gè)可編程處理器執(zhí)行時(shí)引起所述至少一個(gè)可編程處理器執(zhí)行包括下列操作的操作:由數(shù)據(jù)倉庫應(yīng)用的一個(gè)或多個(gè)處理器生成數(shù)據(jù)存儲(chǔ)對(duì)象,該數(shù)據(jù)存儲(chǔ)對(duì)象具有多個(gè)記錄;由所述一個(gè)或多個(gè)處理器添加哈希值到每個(gè)記錄,該哈希值具有整數(shù)域,所述一個(gè)或多個(gè)處理器將哈希值均勻地分布到跨越數(shù)據(jù)存儲(chǔ)對(duì)象的整數(shù)域;由所述一個(gè)或多個(gè)處理器生成選擇表,以基于哈希值的多個(gè)離散范圍創(chuàng)建多個(gè)任務(wù);以及由所述一個(gè)或多個(gè)處理器在多個(gè)任務(wù)的每一個(gè)上并行地執(zhí)行轉(zhuǎn)換例程以生成對(duì)應(yīng)于哈希值的多個(gè)離散范圍中的每個(gè)范圍的數(shù)據(jù)的信息塊。9.如權(quán)利要求8所述的系統(tǒng),其中所述轉(zhuǎn)換例程在所述數(shù)據(jù)存儲(chǔ)對(duì)象和每個(gè)相應(yīng)信息塊之間實(shí)施應(yīng)用邏輯。10.如權(quán)利要求8所述的系統(tǒng),其中所述哈希值的多個(gè)離散范圍中的每個(gè)范圍提供用于生成信息塊的特定數(shù)據(jù)分組。全文摘要公開了用于并行處理數(shù)據(jù)倉庫環(huán)境中的語義分組數(shù)據(jù)的系統(tǒng)和方法。在數(shù)據(jù)倉庫應(yīng)用中生成具有多個(gè)記錄的數(shù)據(jù)存儲(chǔ)對(duì)象。向每個(gè)記錄添加哈希值。該哈希值具有整數(shù)域,并且被均勻分布到跨越數(shù)據(jù)存儲(chǔ)對(duì)象的整數(shù)域。生成選擇表來基于該哈希值的多個(gè)離散范圍創(chuàng)建多個(gè)任務(wù)。然后,在多個(gè)任務(wù)的每一個(gè)上并行執(zhí)行轉(zhuǎn)換例程來生成對(duì)應(yīng)于哈希值的多個(gè)離散范圍中的每個(gè)范圍的數(shù)據(jù)的信息塊。文檔編號(hào)G06F9/38GK103150145SQ201210438539公開日2013年6月12日申請(qǐng)日期2012年9月28日優(yōu)先權(quán)日2011年12月7日發(fā)明者A·赫爾曼,H·杰克希施申請(qǐng)人:Sap股份公司