亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

在用二進制表示的結(jié)構(gòu)化的文檔中,快速查找數(shù)據(jù)元或?qū)傩缘姆椒ɑ蚩焖俸Y選片段的方法

文檔序號:6423619閱讀:247來源:國知局
專利名稱:在用二進制表示的結(jié)構(gòu)化的文檔中,快速查找數(shù)據(jù)元或?qū)傩缘姆椒ɑ蚩焖俸Y選片段的方法
技術(shù)領(lǐng)域
本發(fā)明涉及按基于文本路徑表達式方式查詢結(jié)構(gòu)化的、譬如基于XML或SGML的文擋的方法。為檢索和查詢結(jié)構(gòu)化的、譬如基于XML的文擋,文本路徑譬如是上下文路徑,如在文獻[1]所述的,或也可能是文本路徑數(shù)據(jù),如在文獻[2]詳述的。
從文獻[3]中,已知有一種使用文本路徑的系統(tǒng),以便檢索XML文擋的內(nèi)容。在此,按文擋的每個數(shù)據(jù)元(Element)譬如在散列表中存儲絕對路徑和子路徑。然后,在基于所存儲文擋中的存儲地址的情況下查詢這些數(shù)據(jù)元。
此外,從文獻[4]中,已知有一種查詢語言,該查詢語言按基于文本路徑表達式方式可將詢問列式譬如納入數(shù)據(jù)庫。
現(xiàn)在,作為本發(fā)明基礎(chǔ)的任務(wù)在于,給出了在用二進制表示的基于XML的文擋中,查找數(shù)據(jù)元或篩選片段(Fragment)的方法,這些方法速度特別快和碼效率特別高。
關(guān)于快速查找數(shù)據(jù)元,這個任務(wù)由權(quán)利要求1或7的特征來解決,關(guān)于快速篩選片段,這個任務(wù)可由權(quán)利要求6的特征解決。
其它的權(quán)利要求涉及本發(fā)明所述方法的優(yōu)選方案。
本發(fā)明主要涉及一種對文本路徑進行編碼的方法,以檢索和查詢結(jié)構(gòu)化的、譬如基于XML的文擋,以及改進篩選用二進制表示的XML文擋。通過所述的方法導(dǎo)致的效果是所述的檢索對于采用多形態(tài)的情況也是相同的。在存儲這些進行檢索或查詢的文本路徑時,只需存儲或傳輸很少的數(shù)據(jù)量。因此,在查詢時也可很快地實現(xiàn)這些數(shù)據(jù)的比較,因為需進行比較的數(shù)據(jù)量也很少。
下面用圖中所示的實施例說明本發(fā)明。圖中

圖1A-1C示出了已編碼的路徑的結(jié)構(gòu)、有損失的已編碼的子路徑的結(jié)構(gòu)以及無損失的子路徑的結(jié)構(gòu),并且圖2A和2B示出了一條絕對路徑和一條子路徑的示意圖。
如開頭所述,文本路徑可用于檢索基于XML文擋的內(nèi)容,以便能快速地存取數(shù)據(jù)。
采用本發(fā)明所述的方法時,不是在基于XML的文擋的開始、就是在相應(yīng)的傳輸?shù)拈_始或是卻可重復(fù)地傳輸進行檢索的文本路徑。
在本發(fā)明所述的方法中,采用如文本路徑在檢索和查詢表述中所詳述的那樣,與所述的結(jié)構(gòu)化文擋的內(nèi)容相似,也即與在文獻[1]所述相似,對文本路徑編碼。
在圖1A中從原理上示出了本發(fā)明對絕對路徑的編碼,在圖1B中從原理上示出了有損失的子路徑的圖,在圖1C中從原理上示出了本發(fā)明對無損失的子路徑的編碼。
為區(qū)分這3種路徑類型,在舉例給出的3種代碼的每一種代碼的開始時都傳一個具有2比特的路徑類型PT的信令。
如果從一個作為基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu)的根節(jié)點出發(fā)的路徑進行檢索是可能的,則如圖1A所示,能夠只通過路徑類型PT,作為由絕對路徑AP緊跟其后的絕對路徑,的數(shù)據(jù),來實現(xiàn)編碼。在圖2A中示出了一個這樣地從根節(jié)點R出發(fā)的絕對路徑AbsP。在此,值得一提的是,盡管譬如按照文獻[1]所定義的必須插入所謂的位置碼,但是只允許用圖解分支碼SBC和樹形分支碼TBC進行路徑編碼。
在圖2B中示出了具有一個子路徑TeilP的樹狀數(shù)據(jù)結(jié)構(gòu),該子路徑TeilP與絕對路徑不同,原因是它未從根節(jié)點R出發(fā)。在子路徑編碼的情況中,在路徑中的第一個節(jié)點只能通過類型代碼涉及普通的基本類型的那種類型代碼、譬如原型進行詳述,也即如圖1B所示,按照路徑類型PT的數(shù)據(jù)對一個絕對類型代碼ATC進行編碼。然后,可通過一個相對路徑RP的數(shù)據(jù)如在文獻[1]所給出的那樣和也可能如在第一種情況給出的那樣,改進式地對其余的路徑進行編碼。但是,路徑的這種編碼卻是有損失的,因為第一個節(jié)點名稱不能確定,而是只確定了數(shù)據(jù)類型。然而,在許多應(yīng)用情況中,這卻沒有意義。
但是,在保持所述特性的情況下,無損失的編碼卻能通過圖1C所示的編碼實現(xiàn),在所述的這種編碼中,除路徑類型PT的數(shù)據(jù)、絕對類型代碼ATC的數(shù)據(jù)和相對路徑RP的數(shù)據(jù)之外,還具有類型或子數(shù)據(jù)元的一個數(shù)N,緊接在其后還有由一個絕對類型AT和一個子數(shù)據(jù)元的圖解分支代碼SBC組成的至少一個絕對類型AT或一個多元組(Tupel)。數(shù)NT給出了節(jié)點的數(shù)量,這些節(jié)點從一個子數(shù)據(jù)元出發(fā)包括所給出的子路徑。這些節(jié)點類型AT、AT`,...的類型代碼涉及到同一種基本類型,并且譬如根據(jù)代碼以一種遞增的順序排列。通過圖解分支碼SBC,..的數(shù)據(jù),如果用子路徑TeilP的絕對類型代碼ATC的類型來說明多個子數(shù)據(jù)元,則可對所確定的、子路徑由此出發(fā)的子數(shù)據(jù)元傳信令。
按照本發(fā)明所述的方法在檢索中對路徑編碼是有利的,因為在檢索時通常無須譯碼或只需經(jīng)編碼傳遞的文擋的代碼轉(zhuǎn)換。此外,能減少對檢索的存儲要求,這就使得能快速地執(zhí)行詢問或意味著計算花費小。
在詢問數(shù)據(jù)現(xiàn)存量的過程中,對路徑編碼是有利的,因為可減少從接受詢問的設(shè)備到處理詢問的設(shè)備所傳輸?shù)臄?shù)據(jù)量。此外,如果按照上面的敘述存儲檢索,則處理詢問的設(shè)備無須對該詢問進行譯碼。這使得快速執(zhí)行詢問成為可能。
通過本發(fā)明所述的方法,可按二進制對文本路徑表達式有效地進行編碼,并且通過比特模式比較使查找成為可能。
在本發(fā)明所述的方法的優(yōu)選的方案中,對進行檢索數(shù)據(jù)元和/或?qū)傩缘奈谋韭窂綄⑷绱说剡M行編碼,以致于在路徑中特許的、由多形態(tài)導(dǎo)出的數(shù)據(jù)類型以單義方式可用標(biāo)準(zhǔn)化的數(shù)據(jù)類型代替,其中各自標(biāo)準(zhǔn)化的數(shù)據(jù)類型的確定采用的方式是從各自數(shù)據(jù)類型的基本類型出發(fā)查找一種數(shù)據(jù)類型,該數(shù)據(jù)類型包括在路徑中跟隨的數(shù)據(jù)元或?qū)傩?,并且涉及得出的基本類型單義地確定。由此,對已編碼的文本路徑單義地按其比特模式進行識別,并且以此可在已編碼的基于XML的文擋中尋找出被查找的數(shù)據(jù)元和/或?qū)傩浴?br> 這些標(biāo)準(zhǔn)化一般可應(yīng)用到文本路徑、也即不僅應(yīng)用到文本路徑以進行檢索,而且如在文獻[1]中所述的,還可應(yīng)用到上下文路徑以進行編碼??梢杂欣碛傻卣f,這些標(biāo)準(zhǔn)化的優(yōu)點在于,使不同文擋的相同的文本路徑都統(tǒng)一到唯一的一種二進制的表示式上,甚至于當(dāng)在路徑中所包含的節(jié)點在文擋中不同于數(shù)據(jù)類型時也是如此。因此,在借助已編碼路徑的比特模式查找文本路徑時,只是還要考慮每條路徑的唯一的比特模式。最后,另一個優(yōu)點在于,所產(chǎn)生的比特模式通常都比相應(yīng)的非標(biāo)準(zhǔn)的比特模式短。出于上述原因,關(guān)于文本路徑也可通過上述的上下文路徑的標(biāo)準(zhǔn)化,實現(xiàn)快速地篩選用二進制表示的基于XML文擋的片段。這具有的優(yōu)點在于,上下文路徑和以此在片段中包含的含的信息都可快速地篩選,無須在此將用于由多形態(tài)所形成的不同的數(shù)據(jù)類型的多個比特模式進行比較。
在此文中,引用如下參考文獻[1]″ISO/IEC FCD 15938-1 Information technology-Multimediacontent description interfaceSystems″,/7,ISO/IEC JTC1 SC29/WG11/N4001,Singapur,Mrz 2001[2]XML Path Language,Version 1.0,W3C Recommendation,16November 1999,http//www.w3.org/TR/xpath.dbXML-XML Database Application Server,Version 0.4,ThedbXML Group,2000,http//www.dbxml.org/docs/CoreSpecs.pdf.J.Robie,J.Lapp,D.Schach,XML Query Language(XQL),1998,http//www.w3.org/TandS/QL/QL98/pp/xql.html.XML Schema Language,XML Schema Part 1Structures,§6,W3C Recommendation,2 May 2001http//www.w3.org/XML/Schema
權(quán)利要求
1.在用二進制表示的結(jié)構(gòu)化的、特別是基于XML的文擋中,快速查找數(shù)據(jù)元的方法,其中對用于進行檢索數(shù)據(jù)元和/或?qū)傩缘囊粋€文本路徑(AbsP,TeilP)如此地進行編碼,以致于在路徑中特許的、由多形態(tài)得出的數(shù)據(jù)類型以單義的方式用標(biāo)準(zhǔn)化的數(shù)據(jù)類型代替,其中各自標(biāo)準(zhǔn)化的數(shù)據(jù)類型的確定采用的方式是從各自數(shù)據(jù)類型的基本類型出發(fā)查找一種數(shù)據(jù)類型,該數(shù)據(jù)類型包括在路徑中跟隨的數(shù)據(jù)元或?qū)傩?,并且就其得出的基本類型要單義地確定,并且其中,則可對已編碼的文本路徑單義地按其比特模式進行識別,并且以此可在已編碼的基于XML的文擋中找出被查找的數(shù)據(jù)元和/或?qū)傩浴?br> 2.按照權(quán)利要求1所述的方法,其中確定標(biāo)準(zhǔn)化的數(shù)據(jù)類型,方式是從各自的數(shù)據(jù)類型的基本數(shù)據(jù)類型出發(fā)查找一種數(shù)據(jù)類型,該數(shù)據(jù)類型包括在路徑中跟隨的數(shù)據(jù)元或?qū)傩?,并且按照定義從基本類型出發(fā)具有最低的或最高的類型代碼和/或具有最小或最大數(shù)量的傳統(tǒng)步驟(Vererbungsschritten)。
3.按照權(quán)利要求1所述的方法,其中通過一個路徑類型(PT)和一個已編碼的絕對路徑(AP)的數(shù)據(jù)對文本路徑(AbsP)進行編碼,其中不需要對具有位置碼的路徑進行編碼。
4.按照權(quán)利要求1所述的方法,其中通過一個路徑類型(PT)、一個絕對類型代碼(ATC)和一個已編碼的相對路徑(RP)的數(shù)據(jù)對文本路徑(TeilP)進行編碼,其中不需要對具有位置碼的路徑進行編碼。
5.按照權(quán)利要求4所述的方法,通過一個類型數(shù)(NT)的附加的數(shù)據(jù)和由一個各自的絕對類型和一個各自的圖解分支碼組成的用該類型數(shù)確定的多元組(AT,SBC)的數(shù)對文本路徑(TeilP)進行編碼。
6.在用二進制表示的結(jié)構(gòu)化的、特別是基于XML的文擋中,快速篩選片段的方法,其中對用于進行檢索數(shù)據(jù)元和/或?qū)傩缘纳舷挛穆窂饺绱说剡M行編碼,以致于在路徑中特許的、由多形態(tài)得出的數(shù)據(jù)類型以單義的方式用標(biāo)準(zhǔn)化的數(shù)據(jù)類型代替,其中各自標(biāo)準(zhǔn)化的數(shù)據(jù)類型的確定采用的方式是從各自數(shù)據(jù)類型的基本類型出發(fā)查找一種數(shù)據(jù)類型,該數(shù)據(jù)類型包括在路徑中跟隨的數(shù)據(jù)元或?qū)傩?,并且就其得出的基本類型要單義地確定,并且其中,則可對文本的上下文路徑單義地按其已編碼的表示的比特模式進行識別,并且以此可在已編碼的基于XML的文擋中找出被查找的數(shù)據(jù)元。
7.在用二進制表示的結(jié)構(gòu)化的、特別是基于XML的文擋中,快速查找數(shù)據(jù)元的方法,其中構(gòu)成至少一個文本路徑以檢索被查找的數(shù)據(jù)元,并且其中或是通過一個路徑類型(PT)的和一個已編碼的絕對路徑(AP)的數(shù)據(jù)、或是通過一個路徑類型(PT)的、一個絕對類型代碼(ATC)的和一個已編碼的相對路徑(RP)的數(shù)據(jù)對文本路徑進行編碼,其中不需要對具有位置碼的路徑進行編碼。
8.按照權(quán)利要求7所述的方法,其中通過類型數(shù)(NT)的附加數(shù)據(jù)和由一個各自的絕對類型和一個各自的圖解分支碼組成的用該類型數(shù)確定的多元組(AT,SBC)的數(shù)對文本路徑(TeilP)進行編碼。
全文摘要
本發(fā)明主要涉及一種對文本路徑進行編碼的方法,以檢索和查詢結(jié)構(gòu)化的、譬如基于XML的文擋,以及改進篩選用二進制表示的XML文擋。通過所述方法的具體實施導(dǎo)致的效果是所述的檢索對于采用多形態(tài)的情況也是相同的。在存儲這些進行檢索或查詢的文本路徑時,只需存儲或傳輸很少的數(shù)據(jù)量。因此,在查詢時也可很快地實現(xiàn)這些數(shù)據(jù)的比較,因為需進行比較的數(shù)據(jù)量也很少。
文檔編號G06F17/30GK1520563SQ02812782
公開日2004年8月11日 申請日期2002年6月25日 優(yōu)先權(quán)日2001年6月25日
發(fā)明者A·赫特, A 赫特, J·霍耶爾 申請人:西門子公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1