一種海量數(shù)據(jù)庫的xml文檔存儲和查詢的方法
【技術領域】
[0001]一種海量數(shù)據(jù)庫的XML文檔存儲和查詢的方法主要是涉及計算機領域中的數(shù)據(jù)存儲技術。
【背景技術】
[0002]由于關系數(shù)據(jù)庫是目前最成熟的一種數(shù)據(jù)管理技術,在存儲和管理XML數(shù)據(jù)的各種方式中,基于關系數(shù)據(jù)庫的XML數(shù)據(jù)存儲和處理技術顯然是?種可行而有效的方式,并在學術界受到了廣泛的關注。然而,由于數(shù)據(jù)模型的差異,利用關系數(shù)據(jù)庫存儲和查詢XML數(shù)據(jù)給傳統(tǒng)數(shù)據(jù)庫技術帶來了許多新的挑戰(zhàn)。
【發(fā)明內容】
[0003]通過國家專利檢索沒有發(fā)現(xiàn)關于此系統(tǒng)方面的申請資料。
[0004]本發(fā)明比較了現(xiàn)有的XML數(shù)據(jù)存儲和查詢技術的優(yōu)缺點,提出了一種新的利用關系數(shù)據(jù)庫存儲和查詢XML數(shù)據(jù)的方法,并給出具體的存儲映射算法和查詢轉換算法。利用存儲映射算法,可將XML文檔無損地存儲到固定模式的關系表中:查詢轉換算法是將查詢XML文檔的路徑表達式的核心子集轉換成SQL語句。
[0005]1、本發(fā)明提出了一種新的XML文檔基于路徑的關系存儲方法該方法是一種模式映射,它使用固定的關系模式存儲各種結構互異的XML文檔,并且這種關系模式不考慮文檔DTD的信息,因此不受它變化的限制。由于這種映射方法產生的關系表結構固定,因此為XML文檔的查詢帶來了極大的便利。該基于路徑的存儲方法全面地考慮了 xML文檔樹中的每個節(jié)點信息、邊信息和值信息,將XML文檔中所有的嵌套關系都采用了兩個表來存儲:?個叫值表(Value Table),它用來存儲XML文檔中所有有文本值的元素/屬性的相關信息;另一個叫非值表(NoValueTable),它用來記錄XML文檔中所有無文本值的中間元素的相關信息。
[0006]2、本發(fā)明針對基于路徑的存儲方法,提出了一種查詢處理機制。這種查詢機制采用表連接的方法來處理路徑表達式,查詢時需充分利用Value Table的路徑信息,來減少由于表連接而帶來的查詢代價。
[0007]3、在用戶數(shù)據(jù)庫中再添加一個新表來存儲每條路徑的信息,這個表命名為路徑表(Path Table)。路徑表中每個記錄是標識不同路徑的一個二元組〈pathid, path〉,path記錄XML文檔樹中所有不同的路徑,而pathid貝IJ是為這些各不相同的路徑設置的唯一的標識符。這樣就會避免重復地存儲相同路徑而帶來的存儲冗余。添加了路徑表后,在值表中就不再需要存儲每條路徑的全部信息,而只要存儲它們對應NpathidBP。
【主權項】
1.一種海量數(shù)據(jù)庫的XML文檔存儲和查詢的方法,其特征是利用存儲映射算法,可將XML文檔無損地存儲到固定模式的關系表中,查詢轉換算法是將查詢XML文檔的路徑表達式的核心子集轉換成SQL語句。
2.根據(jù)權限要求I的存儲結構,提出了新的適用于該存儲方法的基于表連接的查詢機制,以及相應的查詢轉換算法。
3.對于不同形式的路徑表達式,都可以采用該查詢轉換算法將其轉換為對應的SQL查詢語句來處理。
4.根據(jù)權限要求I的查詢轉換算法,對XML進行關系存儲時,當XML文檔層次較多的情況下,可引入一個路徑關系表來減少對相同路徑的存儲冗余。
5.另一種存儲優(yōu)化方案是提取頻繁使用的查詢路徑模式,以減少查詢特殊路徑所需要花費的代價;查詢XML數(shù)據(jù)時。
【專利摘要】一種海量數(shù)據(jù)庫的XML文檔存儲和查詢的方法:本發(fā)明對XML數(shù)據(jù)的關系存儲、路徑表達式的查詢處理等方面進行了深入的研究和探討,提出了一種新的利用關系數(shù)據(jù)庫存儲和查詢XML數(shù)據(jù)的方法,這種方法將XML文檔樹中有文本值的節(jié)點和無文本值的節(jié)點分別存儲在兩個關系表中,它不關心文檔DTD的模式信息,也不需要建立任何索引結構。
【IPC分類】G06F17-30
【公開號】CN104572702
【申請?zhí)枴緾N201310489922
【發(fā)明人】不公告發(fā)明人
【申請人】鎮(zhèn)江鼎拓科技信息有限公司
【公開日】2015年4月29日
【申請日】2013年10月18日