專利名稱:數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理程序及記錄了數(shù)據(jù)處理程序的計算機可讀取的記 ...的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于具有按照文檔描述語言的定義描述的層次結(jié)構(gòu)的數(shù)據(jù)的數(shù)據(jù)處理裝置、處理方法、處理程序、以及記錄了處理程序的計算機可讀取的記錄介質(zhì),特別地,涉及用于簡化具有該層次結(jié)構(gòu)的數(shù)據(jù)的處理的數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理程序以及記錄了數(shù)據(jù)處理程序的計算機可讀取的記錄介質(zhì)。
背景技術(shù):
作為用于記錄具有層次結(jié)構(gòu)的結(jié)構(gòu)化文檔的數(shù)據(jù)形式,已知有SGML(Standard Generalized Mark-up Language,標準通用標簽語言)、XML(eXtensible Markup Language,可擴展標簽語言)、HTML(HyperText Markup Language,超文本鏈接標簽語言)等,其中,上述的數(shù)據(jù)被賦予了結(jié)構(gòu),用于根據(jù)文檔描述語言的定義執(zhí)行預定的處理。特別地,近年來XML被廣泛使用于在互聯(lián)網(wǎng)上交流的電子文檔以及電子數(shù)據(jù)等。
處理XML數(shù)據(jù)的處理方法,已知有DOM(Document Object Model,文檔對象模型)形式和SAX(Simple API for XML,XML的簡化的API)形式。例如,在“編程技術(shù)信息雜志C MAGAZINE FEB.2000 2「特集1 XML C/C++的實用方法」”(發(fā)行者軟庫出版公司)的第14~15頁中記載了該內(nèi)容的詳細情況。
DOM形式是一種全部讀入對象電子數(shù)據(jù)、并在弄清了所讀入的電子數(shù)據(jù)中的全部元素的層次結(jié)構(gòu)之后對電子數(shù)據(jù)的各元素進行訪問的處理方法。例如,對于具有圖26所示的層次結(jié)構(gòu)的電子數(shù)據(jù),讀入全部電子數(shù)據(jù)之后,分析全部元素的層次結(jié)構(gòu)。圖26僅表示電子數(shù)據(jù)的層次結(jié)構(gòu),省略了正文和內(nèi)容。此外,根據(jù)具有圖26的層次結(jié)構(gòu)的電子數(shù)據(jù)生成類似于圖27的樹型結(jié)構(gòu)之后,對各元素(TITLE、AUTHOR等)進行訪問。由此,在弄清電子數(shù)據(jù)的層次結(jié)構(gòu)之后才進行處理,因此,具有易于訪問任意元素的特點。
另一方面,SAX形式是一種從開頭依次讀入數(shù)據(jù)同時僅對已讀入的元素進行結(jié)構(gòu)分析的處理方法。因此,能夠無需等待全部數(shù)據(jù)的分析處理而進行順序處理,其特點是無論在處理速度上還是內(nèi)存容量上開銷都較少。
但是,DOM形式所存在的問題是,即使僅需處理數(shù)據(jù)中的一部分數(shù)據(jù)的情況下,為了生成樹型結(jié)構(gòu),也必須對數(shù)據(jù)的整體結(jié)構(gòu)進行分析,處理上會產(chǎn)生浪費。再者,當數(shù)據(jù)量大時,存在的問題是,用于生成樹型結(jié)構(gòu)的處理時間變長,并且用于預先存儲樹型結(jié)構(gòu)的存儲器的使用量增大。
這使得在移動電話之類的移動設(shè)備等處理性能不高的設(shè)備中難以進行數(shù)據(jù)處理以及顯示。
另一方面,SAX形式是以從電子數(shù)據(jù)的開頭依次進行處理為前提的訪問形式,當不是從開頭起依次處理電子數(shù)據(jù)的內(nèi)容、而是按照任意順序處理任意元素的情況下,也必須從開頭讀入數(shù)據(jù)進行結(jié)構(gòu)分析處理。另外,即使在想要處理電子數(shù)據(jù)的后半部分的元素的情況下,也必須從電子數(shù)據(jù)的開頭起讀入并進行結(jié)構(gòu)分析,因此會產(chǎn)生處理時間的浪費。這也會使得在同樣缺乏處理性能的設(shè)備中很難對數(shù)據(jù)進行處理并顯示。
兩者的通病在于,在結(jié)構(gòu)化文檔中,由于存在用來指定效果范圍的標簽,必須對多個層次的層次結(jié)構(gòu)進行分析,需要花費分析處理時間。在顯示裝置中,層次結(jié)構(gòu)分析處理增加了顯示處理的負擔,其結(jié)果是產(chǎn)生了顯示延遲。
為了能夠高速處理具有層次結(jié)構(gòu)的電子數(shù)據(jù),可以考慮使用下述方法將電子數(shù)據(jù)變換成去除了標簽信息而僅記錄有應顯示的內(nèi)容的文本數(shù)據(jù)和記錄有處理該文本數(shù)據(jù)時必需的標簽信息(例如,標簽名、屬性名、屬性值、在文本數(shù)據(jù)中該標簽的出現(xiàn)位置等的信息)的標簽數(shù)據(jù),然后將它們組合起來進行處理,由此縮短處理時間。
但是,上述標簽數(shù)據(jù)中所記錄的標簽信息隨著標簽的類型的不同其屬性的類型以及數(shù)量不同、大小會發(fā)生變化,因此,必須確保為上述標簽數(shù)據(jù)留出可變長度的區(qū)域或者足夠大的固定長度區(qū)域。因此,將電子數(shù)據(jù)變換成文本數(shù)據(jù)和標簽數(shù)據(jù)后,去除了判斷是標簽部分還是文本部分的處理;然而,對于高速處理任意位置的元素的情形,仍必須從標簽數(shù)據(jù)的開頭起讀入并進行結(jié)構(gòu)分析,因此不能獲得充分的效果。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能夠容易地處理具有層次結(jié)構(gòu)的數(shù)據(jù)的數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理程序、以及記錄了數(shù)據(jù)處理程序的計算機可讀取的記錄介質(zhì)。
為實現(xiàn)上述目的,遵循本發(fā)明的一個方面的數(shù)據(jù)處理裝置具備分析單元,受理具有按照文檔描述語言的定義描述的層次結(jié)構(gòu)的數(shù)據(jù),并對層次結(jié)構(gòu)進行分析;以及變換單元,根據(jù)由分析單元所得的分析結(jié)果,將數(shù)據(jù)變換成消除了層次結(jié)構(gòu)的數(shù)據(jù)。
因此,即使是具有層次結(jié)構(gòu)的數(shù)據(jù)也能夠分析層次結(jié)構(gòu),并根據(jù)該分析結(jié)果消除層次結(jié)構(gòu),變換成不存在層次結(jié)構(gòu)的數(shù)據(jù)。
在以顯示等方式輸出具有上述層次結(jié)構(gòu)的數(shù)據(jù)的情況下,若預先變換成上述那樣的不存在層次結(jié)構(gòu)的數(shù)據(jù)之后再輸出,那么在輸出處理中就省略了層次結(jié)構(gòu)的分析,數(shù)據(jù)的處理變得容易。其結(jié)果是,能夠?qū)崿F(xiàn)高速的數(shù)據(jù)輸出處理,此外,也不需要為了輸出而存儲分析后的層次結(jié)構(gòu),因此能夠減少數(shù)據(jù)輸出時的存儲容量的消耗量。
具有層次結(jié)構(gòu)的數(shù)據(jù)宜包含多個標簽對,各標簽對指示出由該標簽對所包圍的部分數(shù)據(jù)的屬性的信息。當部分數(shù)據(jù)中包含與包圍該部分數(shù)據(jù)的標簽對所指示相同類型的屬性的其他標簽對的情況下,變換單元使用包圍該部分數(shù)據(jù)的標簽對的屬性信息對該其他標簽對的屬性信息進行變換。
因此,當在由標簽對所包圍的部分數(shù)據(jù)中包含相同類型的屬性的其他標簽對、由此這些標簽對形成層次結(jié)構(gòu)的情況下,數(shù)據(jù)變換單元使用包圍該部分數(shù)據(jù)的標簽對的屬性信息對該其他標簽對的屬性信息進行變換。由此,當標簽對形成層次結(jié)構(gòu)時,能夠在某個標簽對的屬性信息中反映出上級標簽對的屬性信息,因此,能夠消除標簽對的層次結(jié)構(gòu),變換成不存在該層次結(jié)構(gòu)的數(shù)據(jù)。
變換單元最好是在進行變換時省略掉變換后的數(shù)據(jù)中不需要的信息。這樣能夠減少變換后的數(shù)據(jù)所消耗的存儲容量。
最好進一步具備布局計算單元,用來針對通過變換單元的變換所獲得的消除了層次結(jié)構(gòu)的數(shù)據(jù)計算用于輸出的布局。
這樣,針對層次結(jié)構(gòu)被消除從而不復存在的數(shù)據(jù)計算其布局,由此能夠省略用于布局計算的層次結(jié)構(gòu)分析處理和用于存儲該分析結(jié)果的記錄區(qū)域。
最好進一步具備將具有按照文檔描述語言的定義描述的層次結(jié)構(gòu)的數(shù)據(jù)分割成多個塊的分割單元。分析單元針按照分割單元分割出來的每一個塊受理數(shù)據(jù)并進行分析。
這樣,通過預先將分析對象數(shù)據(jù)分割成塊單位,分析單元不需要從開頭起分析全部對象數(shù)據(jù),能夠按照任意的塊單位進行分析。其結(jié)果是,能夠減輕分析處理的負擔。另外,用于分析單元的存儲區(qū)域只要具有塊單位的大小即可,因此,能夠減少所消耗的存儲區(qū)域的容量。
上述的屬性信息可以包含用來確定部分數(shù)據(jù)的輸出形態(tài)的輸出形態(tài)信息。該輸出形態(tài)信息既可以包含部分數(shù)據(jù)的縮進信息,也可以包含用于輸出部分數(shù)據(jù)的顏色信息。
上述的每一個塊的數(shù)據(jù)的大小可以根據(jù)為輸出數(shù)據(jù)而預先準備的輸出裝置的處理能力來決定。
為實現(xiàn)上述目的,遵循本發(fā)明的另一方面的數(shù)據(jù)處理方法具備分析步驟,針對具有按照文檔描述語言的定義描述的層次結(jié)構(gòu)并且存放在預先準備好的記錄區(qū)域中的數(shù)據(jù),分析層次結(jié)構(gòu);以及變換步驟,根據(jù)分析步驟所得的分析結(jié)果,將存儲在記錄區(qū)域中的數(shù)據(jù)變換成消除了層次結(jié)構(gòu)的數(shù)據(jù)。
為實現(xiàn)上述目的,遵循本發(fā)明的另外一個方面的數(shù)據(jù)處理程序是使計算機執(zhí)行上述的數(shù)據(jù)處理方法的程序,上述的記錄區(qū)域與該計算機關(guān)聯(lián)設(shè)置。
為實現(xiàn)上述目的,遵循本發(fā)明的另外一個方面的計算機可讀取的記錄介質(zhì)中記錄了上述數(shù)據(jù)處理程序。
為實現(xiàn)上述目的,本發(fā)明的另外一個方面中提供了一種數(shù)據(jù)處理裝置,其對包含文本數(shù)據(jù)及在文本數(shù)據(jù)中出現(xiàn)的多個標簽并且利用標簽構(gòu)成層次結(jié)構(gòu)的電子數(shù)據(jù)進行處理。
該數(shù)據(jù)處理裝置具備輸入單元,輸入記錄有文本數(shù)據(jù)的文本信息、與多個標簽的每一個對應地記錄表示該標簽的屬性的屬性數(shù)據(jù)的標簽詳細信息、以及記錄有對于多個標簽的每一個表示該標簽在文本數(shù)據(jù)中的出現(xiàn)位置的出現(xiàn)位置數(shù)據(jù)的標簽出現(xiàn)位置信息;文本讀出單元,從由輸入單元輸入的文本信息中,讀出與電子數(shù)據(jù)的處理對象的任意區(qū)域?qū)奈谋緮?shù)據(jù);屬性讀出單元,根據(jù)由輸入單元輸入的標簽出現(xiàn)位置信息,確定在與任意區(qū)域?qū)奈谋緮?shù)據(jù)中出現(xiàn)的標簽,從由輸入單元輸入的標簽詳細信息中讀出所確定的標簽的屬性數(shù)據(jù);以及處理單元,根據(jù)由屬性讀出單元讀出的屬性數(shù)據(jù),處理由文本讀出單元讀出的文本數(shù)據(jù)。
在上述的數(shù)據(jù)處理裝置中,利用其文本信息、標簽出現(xiàn)位置信息和標簽詳細信息這些個別準備的信息對電子數(shù)據(jù)進行數(shù)據(jù)處理,因此,能夠省略判定處理對象的數(shù)據(jù)是標簽部分還是文本部分的處理,能夠高速地執(zhí)行數(shù)據(jù)處理。
另外,不同于電子數(shù)據(jù)而另行準備標簽出現(xiàn)位置信息,因此,不需要為了特定標簽出現(xiàn)位置而個別地分析與電子數(shù)據(jù)的標簽相關(guān)的樹型結(jié)構(gòu)(層次結(jié)構(gòu))。其結(jié)果是,能夠省略樹型結(jié)構(gòu)的生成處理,并且省略用于構(gòu)造樹型結(jié)構(gòu)的所需存儲器容量。另外,在針對文本數(shù)據(jù)的任意位置出現(xiàn)的標簽進行處理的情況下,通過檢索標簽出現(xiàn)位置數(shù)據(jù),能夠容易地確定在該任意位置出現(xiàn)的標簽,由此,能夠從標簽詳細信息中迅速地讀出在該任意位置出現(xiàn)的標簽的屬性數(shù)據(jù)。其結(jié)果是,能夠使層次結(jié)構(gòu)的電子數(shù)據(jù)的處理簡單化、高速化。
記錄在標簽出現(xiàn)位置信息的出現(xiàn)位置數(shù)據(jù)最好是固定長度的數(shù)據(jù)。這樣,能夠根據(jù)該固定長度檢索標簽出現(xiàn)位置信息中各出現(xiàn)位置數(shù)據(jù),提高檢索效率。
出現(xiàn)位置數(shù)據(jù)最好包含表示文本數(shù)據(jù)中該標簽的有效范圍的有效范圍數(shù)據(jù)和表示在標簽詳細信息中記錄該標簽的屬性數(shù)據(jù)的位置的記錄位置數(shù)據(jù)。屬性讀出單元根據(jù)有效范圍數(shù)據(jù)確定與任意區(qū)域相應的標簽,根據(jù)確定出來的標簽的記錄位置數(shù)據(jù),從標簽詳細信息中讀出該標簽的屬性數(shù)據(jù)。
這樣,能夠根據(jù)有效范圍數(shù)據(jù)容易地確定任意區(qū)域的文本數(shù)據(jù)中出現(xiàn)的標簽。此外,也能夠根據(jù)該記錄位置數(shù)據(jù)容易地確定并讀出被確定的標簽的屬性數(shù)據(jù)在標簽詳細信息中的記錄位置。
處理單元最好具有布局計算單元,用來針對由文本讀出單元讀出的文本數(shù)據(jù),根據(jù)由屬性讀出單元讀出的屬性數(shù)據(jù)計算布局。
這樣,能夠在如上所述簡單地確定用于布局計算的標簽的屬性數(shù)據(jù)并將其從標簽詳細信息中讀出之后,根據(jù)讀出的屬性數(shù)據(jù)計算布局,因此,能夠減少布局計算的負載。
布局計算單元最好計算由文本讀出單元讀出的文本數(shù)據(jù)輸出時的布局。該輸出形態(tài)之一是顯示。
有效范圍數(shù)據(jù)最好表示在文本數(shù)據(jù)中該標簽的屬性有效的部分的數(shù)據(jù)的開始位置和結(jié)束位置。這樣,能夠利用數(shù)據(jù)的開始位置和結(jié)束位置來表示有效范圍數(shù)據(jù)。
有效范圍數(shù)據(jù)最好表示文本數(shù)據(jù)中該標簽的屬性有效的部分的數(shù)據(jù)的開始位置和該部分數(shù)據(jù)的大小。這樣,能夠用數(shù)據(jù)的開始位置和該數(shù)據(jù)的大小(尺寸)來確定有效范圍數(shù)據(jù)。
記錄位置數(shù)據(jù)最好表示在標簽詳細信息中該標簽的屬性數(shù)據(jù)的記錄開始位置和結(jié)束位置。這樣,能夠利用對應的屬性數(shù)據(jù)的記錄開始位置和結(jié)束位置來表示記錄位置數(shù)據(jù)。
記錄位置數(shù)據(jù)最好表示在標簽詳細信息中該標簽的屬性數(shù)據(jù)的記錄開始位置和該屬性數(shù)據(jù)的大小。這樣,能夠利用屬性數(shù)據(jù)的記錄開始位置和該數(shù)據(jù)的大小(尺寸)來確定記錄位置數(shù)據(jù)。
最好進一步具備下述單元中的至少一個,即文本信息生成單元,對電子數(shù)據(jù)進行檢索,提取并記錄文本數(shù)據(jù),生成文本信息;標簽詳細信息生成單元,對電子數(shù)據(jù)進行檢索,每當檢索到標簽時,對應該標簽記錄屬性數(shù)據(jù),生成標簽詳細信息;以及標簽出現(xiàn)位置信息生成單元,對電子數(shù)據(jù)進行檢索,每當檢索到標簽時,對應該標簽記錄出現(xiàn)位置數(shù)據(jù)并生成標簽出現(xiàn)位置信息。
這樣,在數(shù)據(jù)處理裝置中,能夠針對電子數(shù)據(jù)分別生成文本信息、標簽詳細信息以及標簽出現(xiàn)位置信息。
文本信息生成單元最好對電子數(shù)據(jù)的任意區(qū)域進行檢索,提取并記錄文本數(shù)據(jù),生成文本信息。標簽詳細信息生成單元在對電子數(shù)據(jù)的任意區(qū)域進行檢索并在每次檢索到標簽時,對應該標簽記錄屬性數(shù)據(jù),生成標簽詳細信息。標簽位置信息生成單元在對電子數(shù)據(jù)的任意區(qū)域進行檢索并在每次檢索到標簽時,對應該標簽記錄出現(xiàn)位置數(shù)據(jù),生成標簽出現(xiàn)位置信息。
這樣,能夠針對電子數(shù)據(jù)的任意區(qū)域的部分數(shù)據(jù)而不是全部數(shù)據(jù)分別生成文本信息、標簽詳細信息以及標簽出現(xiàn)位置信息。
數(shù)據(jù)處理裝置最好進一步具備判斷是否可由輸入單元輸入用于電子數(shù)據(jù)的文本信息、標簽出現(xiàn)位置信息以及標簽詳細信息的單元。
這樣,能夠在數(shù)據(jù)處理之前判斷是否可以利用輸入單元輸入這些數(shù)據(jù)。另外,也可以在該判斷結(jié)果表示不可輸入時生成這些數(shù)據(jù)。
為實現(xiàn)上述目的,遵循本發(fā)明的再一方面、用來處理包含文本數(shù)據(jù)和在文本數(shù)據(jù)中出現(xiàn)的多個標簽并且采用多個標簽構(gòu)成層次結(jié)構(gòu)的電子數(shù)據(jù)的數(shù)據(jù)處理方法具備輸入步驟,輸入記錄有文本數(shù)據(jù)的文本信息、與多個標簽的每一個相對應地記錄表示該標簽的屬性的屬性數(shù)據(jù)的標簽詳細信息、以及記錄有對于多個標簽的每一個表示該標簽在文本數(shù)據(jù)中的出現(xiàn)位置的出現(xiàn)位置數(shù)據(jù)的標簽出現(xiàn)位置信息;文本讀出步驟,從由輸入步驟輸入的文本信息中讀出作為電子數(shù)據(jù)的處理對象的與任意區(qū)域?qū)奈谋緮?shù)據(jù);屬性讀出步驟,根據(jù)由輸入步驟輸入的標簽出現(xiàn)位置信息,由上述信息處理部確定與任意區(qū)域?qū)奈谋緮?shù)據(jù)中出現(xiàn)的標簽,從由輸入步驟輸入的標簽詳細信息中讀出所確定的標簽的屬性數(shù)據(jù);以及處理步驟,根據(jù)屬性讀出步驟中讀出的屬性數(shù)據(jù),處理由文本讀出步驟讀出的文本數(shù)據(jù)。
上述數(shù)據(jù)處理方法最好是在計算機中執(zhí)行,通過與計算機關(guān)聯(lián)的輸入部執(zhí)行輸入步驟,通過與計算機關(guān)聯(lián)的信息處理部執(zhí)行文本讀出步驟、屬性讀出步驟以及處理步驟。
為實現(xiàn)上述目的,遵循本發(fā)明的另一方面的數(shù)據(jù)處理程序是用來在計算機中執(zhí)行上述數(shù)據(jù)處理方法的程序。
為實現(xiàn)上述目的,遵循本發(fā)明的另一方面的記錄介質(zhì)是記錄了上述數(shù)據(jù)處理程序的、機器可讀取的記錄介質(zhì)。
圖1A和圖1B是第1實施方式的結(jié)構(gòu)化文檔的變換步驟的概略的說明圖。
圖2是與用來構(gòu)成包含數(shù)據(jù)處理裝置的數(shù)據(jù)處理系統(tǒng)的其他裝置一起表示本發(fā)明第1實施方式的數(shù)據(jù)處理裝置的框圖結(jié)構(gòu)實例的圖。
圖3是用來說明本發(fā)明的第1實施方式的數(shù)據(jù)處理的流程圖。
圖4是表示圖2的變換處理部的變換處理步驟的流程圖。
圖5是表示對圖1A的XML數(shù)據(jù)進行層次結(jié)構(gòu)分析并加以顯示時的布局、以及顯示圖1B的XML數(shù)據(jù)時的布局的圖。
圖6是將圖2的顯示裝置的結(jié)構(gòu)實例與用來構(gòu)成包含顯示裝置的數(shù)據(jù)處理系統(tǒng)的其他裝置一起表示出來的圖。
圖7是本發(fā)明的第1實施方式的顯示裝置所執(zhí)行的顯示處理的流程圖。
圖8是與用來構(gòu)成包含數(shù)據(jù)處理裝置的數(shù)據(jù)處理系統(tǒng)的其他裝置一起表示本發(fā)明第2實施方式的數(shù)據(jù)處理裝置的框圖結(jié)構(gòu)實例的圖。
圖9是用來說明本發(fā)明的第2實施方式的數(shù)據(jù)處理的流程圖。
圖10是表示將圖1A的XML數(shù)據(jù)分割成若干個塊單位時的分割位置的圖。
圖11是表示對圖10的數(shù)據(jù)進行差補處理的圖。
圖12是表示將圖11的數(shù)據(jù)進行變換處理之后的狀態(tài)的圖。
圖13是將圖8的顯示裝置的結(jié)構(gòu)實例與用來構(gòu)成包含顯示裝置的數(shù)據(jù)處理系統(tǒng)的其他裝置一起表示出來的圖。
圖14是本發(fā)明的第2實施方式的顯示裝置所執(zhí)行的顯示處理的流程圖。
圖15是表示本實施方式3的數(shù)據(jù)處理裝置的框圖。
圖16是表示本實施方式3的數(shù)據(jù)處理裝置的一個實例——由便攜式設(shè)備構(gòu)成的顯示裝置的圖。
圖17是表示本實施方式3的標簽出現(xiàn)位置數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)的一個實例的圖。
圖18是表示本實施方式3的標簽詳細數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)的一個實例的圖。
圖19是表示本實施方式3的XHTML文檔的一個實例的圖。
圖20A和圖20B是表示根據(jù)圖19的XHTML文檔生成的文本數(shù)據(jù)的一個實例的圖。
圖21是表示根據(jù)圖19的XHTML文檔生成的標簽出現(xiàn)位置數(shù)據(jù)的一個實例的圖。
圖22是表示根據(jù)圖19的XHTML文檔生成的標簽詳細數(shù)據(jù)的一個實例的圖。
圖23是表示本實施方式3的數(shù)據(jù)處理的流程圖。
圖24是表示本實施方式3的數(shù)據(jù)處理的流程圖。
圖25是用于執(zhí)行各實施方式的數(shù)據(jù)處理方法的計算機的結(jié)構(gòu)圖。
圖26是表示現(xiàn)有的具有層次結(jié)構(gòu)的電子數(shù)據(jù)的一個實例的圖。
圖27是用于說明根據(jù)現(xiàn)有的具有層次結(jié)構(gòu)的電子數(shù)據(jù)取得的樹型結(jié)構(gòu)的圖。
具體實施例方式
下面,參照
本發(fā)明的各個實施方式。此外,雖然在這里數(shù)據(jù)是通過顯示進行輸出的,但也可以通過印刷進行輸出,并不限于顯示。
(術(shù)語說明)首先,對于用HTML、XML、SGML等標記語言記述的文本文件中使用的標簽相關(guān)的術(shù)語加以說明。標簽在這里是用于指定字符串的輸出形態(tài)(縮進、顯示顏色等)的特殊字符或符號串,它是保留字。
在分析文本文件中記述的標簽信息時,必須分為開始標簽、與其成對的結(jié)束標簽、夾在開始標簽和結(jié)束標簽之間的部分數(shù)據(jù)即子元素,并且從開始標簽中分解出標簽名、屬性名以及屬性值。成對的開始標簽和結(jié)束標簽稱為標簽對。
開始標簽是指以「<」開始、以「>」結(jié)束的字符串部分。結(jié)束標簽是指以「</」開始、以「>」結(jié)束的字符串部分。夾在開始標簽和結(jié)束標簽之間的部分中不存在子元素時,也可以將開始標簽和結(jié)束標簽合而為一,記作以「<」開始、以「/>」結(jié)束的字符串。這稱為空標簽。可以認為,空標簽等同于開始標簽和結(jié)束標簽兼?zhèn)涞那樾巍?br>
在非空標簽的情況下,子元素包含構(gòu)成文本文件的字符串或者其他的標簽對。在子元素中,當含有一個或以上與夾著該子元素的標簽對的開始標簽指示相同類型的屬性的標簽對的情況下,夾著子元素的標簽對(將其稱為外部標簽對)和包含在該子元素中的標簽對(將其稱為內(nèi)部標簽對)構(gòu)成了多個標簽對具有層次結(jié)構(gòu)的嵌套關(guān)系,所以在內(nèi)部標簽對的開始標簽的屬性值中反映出上級的外部標簽對的屬性值。
標簽名用開始標簽或者空標簽的「<」后面的字符串來表示。在標簽名之后接著是包含「=」的字符串的情況下,「=」的左邊稱為屬性名、右邊的「”」包圍的字符串稱為屬性值。例如,對于「<a b=“c”>d</a>」的XML數(shù)據(jù),「<a b=“c”>」是開始標簽,「d」是子元素,「</a>」是結(jié)束標簽。開始標簽中的「a」是標簽名、「b」是屬性名、「c」是屬性值。在實施方式1、2中,為了簡化說明,屬性名(屬性的類型)與標簽名一一對應,因此,根據(jù)標簽名來確定屬性的類型。屬性名是指與該開始標簽的子元素相關(guān)的輸出時的屬性,例如縮進、顯示顏色等固有特征;屬性值表示對應屬性的值,例如縮進的字符個數(shù)、顯示顏色為紅色等。
在子元素為空的空標簽的情況下,就是「<a b=“c”>/」這樣的形式。此外,在以下的說明中,當標簽名為「a」時,將該標簽名稱為「a標簽」,當屬性名為「b」時,將該屬性名稱為「b屬性」、將對應的屬性值稱為「b屬性的值」。
(結(jié)構(gòu)化文檔的變換的概要步驟)利用圖1A和圖1B說明本實施方式的結(jié)構(gòu)化文檔的變換步驟的概要。圖1A表示變換前的具有層次結(jié)構(gòu)的XML數(shù)據(jù)300,圖1B表示將XML數(shù)據(jù)300加以變換之后的XML數(shù)據(jù)400。在XML數(shù)據(jù)400中,原來的層次結(jié)構(gòu)被消除而不復存在。通過XML數(shù)據(jù)300的上方開始依次逐行進行變換,得到XML數(shù)據(jù)400。
在圖1A的XML數(shù)據(jù)300中,字符串301「ABCDE」沒有成為標簽的子元素,因此,設(shè)定了默認值「<p indent=“0”>」和「<font color=“black”>」。借助于該默認值,將字符串301指定為無縮進并且顯示為黑色。
字符串301不需要進行變換,因此,與圖1B的XML數(shù)據(jù)400中的字符串401「ABCDB」對應。由于沒有進行字符串的變換,因此,以下不作特別說明。
與字符串404對應的字符串304「FGHIJ」成為標簽302「<p indent=“1”>」和標簽303「<font color=“red”>」的子元素,因此,縮進1個字符并顯示為紅色。在字符串304的上級層次中不存在標簽名相同的標簽,因此,對要變換的標簽的屬性值沒有影響,標簽302和303被分別變換成XML數(shù)據(jù)400中的標簽402「<p2 indent=“1”/>」和標簽403「<font2 color=“red”/>」。標簽信息(屬性值)在開始標簽的描述之后直到出現(xiàn)標簽名相同的結(jié)束標簽的范圍內(nèi)有效,該范圍稱為有效范圍?!畃2’標簽以及‘font 2’標簽是空標簽,沒有指定有效范圍。
字符串306「KLMNO」是標簽302「<p indent=“1”>」、標簽303「<font color=“red”>」以及標簽305「<p indent=“2”」的子元素,因此,縮進3個字符并顯示為紅色。標簽305的上級層次中存在標簽302,因此,在標簽305的變換中反映了標簽302的信息。即,標簽305在XML數(shù)據(jù)400中被變換成標簽405「<p2 indent=“3”/>」。
根據(jù)標簽403「<font2 color=“red”/>」和標簽405「<p2Iinent=“3”/>」的信息,字符串406「KLMNO」縮進3個字符并且顯示為紅色。這與基于XML數(shù)據(jù)300的變換之前的顯示相同。
字符串309「PQRST」是標簽302「<p indent=“1”>」的子元素,因此,縮進1個字符,并且顯示為默認的黑色。標簽305「<p indent=“2”>」的標簽的信息以標簽307「</p>」的結(jié)束標簽結(jié)束,因此,在標簽307「</p>」中,反映出上級層次中標簽名相同的302「<pindent=“1”>」的信息。即,標簽307被變換成XML數(shù)據(jù)400中標簽407「<p2 indent=“1”/>」。
同樣地,標簽303「<font color=“red”>」的標簽的信息以標簽308「</font>」的結(jié)束標簽結(jié)束。標簽308「</font>」的上級層次不存在標簽名相同的標簽,因此,反映出默認的「<font color=“black”>」的信息。即,標簽308被變換成XML數(shù)據(jù)400中的標簽408「<font2 color=“black”/>」。
根據(jù)標簽407「<p2 indent=“1”/>」和標簽408「<font2 color=“black”/>」的信息,字符串409「PQRST」縮進1個字符,并且顯示為黑色,與變換之前的顯示相同。
字符串311「UVWXY」不具備標簽信息,因此默認為有效、字符不縮進,且顯示為黑色。標簽302「<p indent=“1”>」的標簽的信息以標簽310「</p>」的結(jié)束標簽結(jié)束。標簽310「</p>」的上級層次不存在標簽名相同的標簽,因此,反映出為默認值「<p indent=“0”>」的信息。即,標簽310被變換成XML數(shù)據(jù)400的標簽410「<p2 indent=“0”/>」。
根據(jù)標簽408「<font2 color=“black”/>」和標簽410「<p2indent=“0”/>」的信息,字符串411「UVWXY」無字符縮進并且顯示為黑色,與變換之前的顯示相同。
如上所述,對要顯示的信息(字符串等)以及顯示形態(tài)(縮進、顯示顏色等)不作改變地將具有圖1A的層次結(jié)構(gòu)的XML數(shù)據(jù)300變換成圖1B的消除了層次結(jié)構(gòu)的XML數(shù)據(jù)400。
(第1實施方式)(包含數(shù)據(jù)處理裝置的數(shù)據(jù)處理系統(tǒng)的說明)圖2是與用來構(gòu)成包含數(shù)據(jù)處理裝置的數(shù)據(jù)處理系統(tǒng)的其他裝置一起表示本實施方式的數(shù)據(jù)處理裝置的框圖結(jié)構(gòu)實例的圖。圖3是本實施方式的數(shù)據(jù)處理的流程圖。
參照圖2,數(shù)據(jù)處理系統(tǒng)由網(wǎng)絡(luò)111、記錄介質(zhì)112、數(shù)據(jù)處理裝置113以及顯示裝置110構(gòu)成。
網(wǎng)絡(luò)111與數(shù)據(jù)處理裝置113、具有記錄了數(shù)據(jù)的數(shù)據(jù)庫的服務(wù)器或者其他個人計算機連接。數(shù)據(jù)101通過網(wǎng)絡(luò)111提供給數(shù)據(jù)處理裝置113。記錄介質(zhì)112中預先記錄數(shù)據(jù)102,用來向數(shù)據(jù)處理裝置113提供數(shù)據(jù)102。記錄介質(zhì)112有軟盤(稱作FD)、CD-ROM(只讀光盤存儲器)、硬盤等。數(shù)據(jù)處理裝置113用于輸入從網(wǎng)絡(luò)111以及記錄介質(zhì)112提供的數(shù)據(jù)101、102進行處理,并將處理結(jié)果的數(shù)據(jù)輸出到外部。顯示裝置110用于接受數(shù)據(jù)處理裝置113輸出的信息并進行顯示。在后面敘述顯示裝置110的詳細情況。另外,數(shù)據(jù)處理裝置113輸出的信息既可以通過網(wǎng)絡(luò)11發(fā)送到外部裝置,也可以記錄到記錄介質(zhì)112中。
數(shù)據(jù)101、102是用于執(zhí)行預定處理的根據(jù)文檔描述語言的定義構(gòu)成的數(shù)據(jù),采用用于記錄具有層次結(jié)構(gòu)的結(jié)構(gòu)化文檔的數(shù)據(jù)結(jié)構(gòu)——SGML及XML等進行記錄。在以下的說明中,假定是依照XML描述的數(shù)據(jù)并且具有能夠確定數(shù)據(jù)元素的數(shù)據(jù)結(jié)構(gòu)的情況進行說明。此外,描述數(shù)據(jù)的方式不限定于XML。
(數(shù)據(jù)處理裝置113的說明)圖2所示的數(shù)據(jù)處理裝置113具備輸入部103、數(shù)據(jù)存儲部104、層次結(jié)構(gòu)分析部105、變換處理部106、輸出部107、控制部108以及指示輸入部109。按照圖3的流程圖概要說明采用了上述各部分的數(shù)據(jù)處理步驟。
輸入部103讀入數(shù)據(jù)101或102(步驟S(以下,簡寫為S)1001)。數(shù)據(jù)存儲部104存儲由輸入部103讀入的數(shù)據(jù)101或102。層次結(jié)構(gòu)分析部105分析數(shù)據(jù)存儲部104中存儲的數(shù)據(jù)101或102的標簽的信息及層次結(jié)構(gòu)。
層次結(jié)構(gòu)分析部105取得數(shù)據(jù)101或102的XML數(shù)據(jù)的所有部分中開始標簽、結(jié)束標簽、子元素、以及開始標簽中的標簽名、屬性名以及屬性值的信息,根據(jù)取得的信息分析標簽的層次結(jié)構(gòu),取得層次結(jié)構(gòu)的信息(S1002)。此時,將從開頭起以行為單位對XML數(shù)據(jù)進行分析所取得的標簽的信息依次存放到預先準備的預定存儲區(qū)域中。
變換處理部106根據(jù)由層次結(jié)構(gòu)分析部105分析所取得的、存放在預定存儲區(qū)域中的信息,對XML數(shù)據(jù)中具有層次結(jié)構(gòu)的標簽進行變換處理(S1004)。變換處理部106判定是否已經(jīng)對所有的具有層次結(jié)構(gòu)的標簽進行了該變換處理,當判定發(fā)現(xiàn)對所有的標簽都進行了該變換處理時,結(jié)束變換處理(S1003)。后面敘述變換處理部106的詳細情況。
由變換處理部106進行變換處理后輸出的變換后的XML數(shù)據(jù)再次存儲到數(shù)據(jù)存儲部104。輸出部107輸入從數(shù)據(jù)存儲部104讀出的變換后的數(shù)據(jù)并且將其輸出到外部(S1005)。
控制部108根據(jù)接收到的指示等控制上述的輸入部103、數(shù)據(jù)存儲部104、層次結(jié)構(gòu)分析部105、變換處理部106以及輸出部107的一系列的處理流程。為了操作數(shù)據(jù)處理裝置113,指示輸入部109輸入從外部供給的指示114、例如用戶的指示114并將其輸出到控制部108。
(具體的變換處理)接著說明由變換處理部106基于XML數(shù)據(jù)的層次結(jié)構(gòu)的信息進行的變換處理(S1004)的步驟。圖4是表示變換處理部106的變換處理步驟的流程圖。這里,假設(shè)輸入到數(shù)據(jù)處理裝置113的變換處理前的XML數(shù)據(jù)是圖1A的XML數(shù)據(jù)300、作為數(shù)據(jù)處理裝置113的輸出的變換處理后的XML數(shù)據(jù)是圖1B的XML數(shù)據(jù)400。另外,圖5中表示了將圖1A的XML數(shù)據(jù)300進行層次結(jié)構(gòu)分析后顯示的布局、以及在顯示裝置110上顯示的圖1B的XML數(shù)據(jù)400時的布局。
(標簽的說明)首先說明圖1A中描述的標簽。‘p’標簽是關(guān)于段落顯示的標簽,‘indent’屬性表示從文章當前的開始位置起縮進‘indent’屬性的值的字符個數(shù)(留出字符個數(shù)份的空白)之后開始文章。例如,標簽305「<p indent=“2”>」表示從文章的當前開始位置起縮進2個字符份之后開始文章?!甪ont’標簽是與字符顯示相關(guān)的標簽,‘color’屬性表示將文字的顏色從默認值(黑色)開始進行變更并顯示。例如,標簽303「<font co1or=“red”>」表示將文字的顏色變更為紅色進行顯示。另外,在沒有特別指定的情況下的默認值假定為文章的開始位置設(shè)定了指示左側(cè)的開頭的「<p indent=“0”>」、字符顏色設(shè)定了指示黑色的「<font color=“black”>」。
(布局的說明)將圖1的XML數(shù)據(jù)300進行分析并顯示,即成為圖5的布局。圖5中的「□」表示用‘p’標簽的‘indent’屬性指定的文章開始位置的字符縮進一個字符大小。另外,雙重下劃線表示根據(jù)‘font’標簽的‘color’屬性文字的顏色為紅色。
在變換處理中,首先檢索存放在上述預定存儲區(qū)域中的標簽的信息,取得作為變換對象的標簽的信息(S1101)。在圖1A中,最先取得標簽302「<p indent=“1”>」。
接著,判定所取得的標簽是開始標簽、結(jié)束標簽以及空標簽中的哪一種(S1102)。這里,當判定為是結(jié)束標簽以外的開始標簽以及空標簽時,不需要進行變換,因此就此結(jié)束變換處理。在圖1A中,標簽302是開始標簽,因此,就此結(jié)束變換處理。
接著,通過檢索預定存儲區(qū)域,依次取得標簽303「<font color=“red”>」、標簽305「<p indent=“2”>」,然而,由于判定發(fā)現(xiàn)這些標簽是開始標簽,因此,就此結(jié)束變換處理。其次,由于判定從預定存儲區(qū)域讀入的標簽307「<p>」為結(jié)束標簽,因此,繼續(xù)變換處理。
當取得的標簽為結(jié)束標簽時,在預定存儲區(qū)域中進行檢索以取得與結(jié)束標簽對應的開始標簽的信息(S1103)。在圖1A中,檢索到標簽305是與標簽307的結(jié)束標簽對應的開始標簽。
接著,檢索在與結(jié)束標簽對應的開始標簽的更上級的上級層次中是否存在標簽名相同的標簽(S1104)。這里,上級層次是指在子元素中包含按照上述的嵌套關(guān)系進行變換處理的開始標簽的標簽的層次。
(圖4的S1104為“是”的情況)針對在上級層中存在標簽名相同的標簽的情況加以說明。當檢索的結(jié)果是上級層次存在標簽名相同的標簽時,取得位于上級層次的標簽的信息(S1105)。取得的標簽的信息是上級層的開始標簽的屬性的信息。在圖1A中,標簽305以及標簽307的層次的上級層次存在標簽302以及標簽310「</p>」。檢索的結(jié)果是能夠取得上級層次的開始標簽的標簽302,因此,取得該屬性的信息。接著,對S1103取得的開始標簽進行變換以便反映出取得的信息(S1107)。
這里的變換是指,當取得的信息和開始標簽具有相同屬性時,進行各個屬性值的相加以及差分等的處理;當取得的信息和開始標簽不具有相同屬性時,進行屬性的追加以及刪除等的處理,也指在必要時對標簽名以及開始標簽、結(jié)束標簽、空標簽等的類型進行變換。
在圖1A中,在標簽305‘indent’屬性中反映出標簽302的‘indent’屬性?!畃’標簽的‘indent’屬性表示從當前的位置起縮進‘indent’屬性的值的字符個數(shù)之后開始文章(字符串),因此,這里進行相加。將標簽302的‘indent’屬性的值「1」和標簽305的‘indent’屬性的值「2」相加之后作為‘indent’屬性的值「3」。進一步,將標簽名從‘p’標簽變換成‘p2’標簽并且從開始標簽變換到空標簽。其結(jié)果是,標簽305被變換成圖1B中的標簽405<p2 indent=“3”/>」。‘p2’標簽與‘p’標簽一樣,表示僅縮進‘indent’屬性的值的字符個數(shù)之后開始文章(字符串)。與‘p’標簽的不同在于,‘p’標簽是由開始標簽和結(jié)束標簽來指定有效范圍,與此相對,‘p2’標簽是用空標簽描述,并且將此后直到利用‘p2’標簽進行屬性變更為止的范圍作為有效范圍。
在開始標簽的變換處理后,從預定存儲區(qū)域中檢索與該開始標簽對應的結(jié)束標簽,對該結(jié)束標簽也進行變換處理以反映出取得的信息(S1108)。由于在結(jié)束標簽中不存在屬性,因此,這里將取得的信息的屬性追加到結(jié)束標簽的屬性中。另外,必要時對標簽名以及開始標簽、結(jié)束標簽、空標簽等的類型也進行變換。
圖1A中,在標簽307中追加‘indent’屬性的值「1」。進一步,將標簽名從‘p’標簽變換成‘p2’標簽,從結(jié)束標簽變換成空標簽。其結(jié)果是,圖1A的結(jié)束標簽307變換為圖1B中的標簽407「<p2 indent=“1”/>」。在開始標簽以及結(jié)束標簽的變換結(jié)束之后,變換處理結(jié)束。
(圖4的S1104為“否”的情況)接著,針對在上級層次中不存在標簽名相同的標簽的情況加以說明。
在上級層次中不存在標簽名相同的標簽的情況下,取得該標簽名的標簽的初始設(shè)定(默認值)的信息(S1106)。
在圖1A中,在標簽308「</font>」和與此對應的開始標簽303「<font color=“red”/>」的上級層次中不存在‘font’標簽,因此,取得‘font’標簽的初始設(shè)定「<font color=“black”/>」。
對開始標簽以及結(jié)束標簽以反映出取得的信息進行變換的處理與在上級層次存在標簽名相同的標簽的情形相同,因此省略說明。
在圖1A中,進行變換以反映出‘color’屬性的值「black 」,其結(jié)果是,標簽303變換為圖1B的標簽403「<font2 color=“red”/>」,標簽308變換為圖1B的標簽408「<font2 color=“black”/>」?!甪ont2’標簽與‘p2’標簽一樣不同于‘font’標簽,將直到此后出現(xiàn)利用‘font2’標簽進行的屬性變更為止的范圍作為有效范圍。
(其余的變換處理的說明)如果針對圖1A的XML數(shù)據(jù)300的所有標簽進行變換處理,則成為表示圖1B的XML數(shù)據(jù)400的輸出結(jié)果。在圖1B中,不存在以具有形成為層次結(jié)構(gòu)的子元素的開始標簽及結(jié)束標簽描述的標簽,而全部是用不具備層次結(jié)構(gòu)的空標簽進行描述。
變換處理不限于著眼于結(jié)束標簽進行變換的處理。也可以著眼于開始標簽而非結(jié)束標簽進行同樣的變換。
另外,在變換處理中,也可以省略位于XML數(shù)據(jù)最后的結(jié)束標簽不進行變換處理。例如,在圖1A中,當標簽310之后不存在數(shù)據(jù)的情況下,不將標簽310變換成圖1B的標簽410「<p2 indent=“0”/>」,即能夠省略變換。這是因為,在標簽410之后沒有數(shù)據(jù),不需要標簽410的信息。在這種情況下,在圖1B中,字符串409「PQRST」成為數(shù)據(jù)的盡頭。通過省略變換,能夠減少變換后的XML數(shù)據(jù)400的數(shù)據(jù)容量。
(顯示裝置(圖6)的說明)其次說明顯示裝置。圖6是將圖2的顯示裝置的結(jié)構(gòu)實例與用來構(gòu)成包含顯示裝置的數(shù)據(jù)處理系統(tǒng)的其他裝置一起表示出來的圖。即,圖6中的網(wǎng)絡(luò)211、記錄介質(zhì)212、具有數(shù)據(jù)203的數(shù)據(jù)處理裝置213以及顯示裝置214,分別對應于圖2中的網(wǎng)絡(luò)111、記錄介質(zhì)112、數(shù)據(jù)處理裝置113以及顯示裝置110。另外,圖6的數(shù)據(jù)201和202對應于圖2的數(shù)據(jù)101和102。圖7中表示了顯示裝置214所執(zhí)行的顯示處理的流程圖。
顯示裝置214具備輸入部204、數(shù)據(jù)存儲部205、數(shù)據(jù)結(jié)構(gòu)分析部206、布局計算部207、顯示部208、控制部209、以及輸入來自外部的指示215并且輸出到控制部209的指示輸入部210。
輸入部204讀入通過網(wǎng)絡(luò)211發(fā)送來的數(shù)據(jù)201、預先記錄在記錄介質(zhì)212中的數(shù)據(jù)202或者數(shù)據(jù)處理裝置213的輸出數(shù)據(jù)203(S1201)。數(shù)據(jù)201、202、203是在數(shù)據(jù)處理裝置213進行處理的數(shù)據(jù)。數(shù)據(jù)存儲部205存儲由輸入部204讀入的數(shù)據(jù)201或數(shù)據(jù)202、203。
以下,根據(jù)圖7的流程圖針對數(shù)據(jù)顯示處理的步驟加以說明。
(數(shù)據(jù)結(jié)構(gòu)分析部206的說明)首先,數(shù)據(jù)結(jié)構(gòu)分析部206對存儲在數(shù)據(jù)存儲部205中的數(shù)據(jù)201或數(shù)據(jù)202或203的數(shù)據(jù)結(jié)構(gòu)進行分析(S1202)。數(shù)據(jù)201或數(shù)據(jù)202、數(shù)據(jù)203是消除了圖1B所示的層次結(jié)構(gòu)的結(jié)構(gòu)化文檔的數(shù)據(jù),因此,數(shù)據(jù)結(jié)構(gòu)分析部206不需要進行分析層次結(jié)構(gòu)的處理,只要分析標簽信息和字符串即可。圖1B中,分析(確定)字符串401「ABCDE」、404「FGHIJ」、406「KLMNO」、409「PQRST」以及411「UVWXY」是字符串、標簽402「<p2 indent=“1”/>」、403、405、407、408以及410是標簽。分析的結(jié)果輸出到布局計算部207。
(布局計算部207的說明)布局計算部207依次讀入從數(shù)據(jù)結(jié)構(gòu)分析部206輸出的標簽和字符串的分析結(jié)果(S1203)。根據(jù)讀入的信息計算用于顯示的縮進等布局(S1204)。在圖1B的情況下,首先讀入字符串401計算布局。接著,根據(jù)讀入的標簽402和標簽403的信息計算字符串404的布局。接著,在讀入并取得了標簽405的信息后,不需要保持與標簽405相同的‘p2’標簽——標簽402。在數(shù)據(jù)處理裝置213中,預先分析了層次結(jié)構(gòu)并且變換成指示顯示形態(tài)變更的標簽的信息,因此,在標簽405中反映了標簽402的信息。因此,根據(jù)標簽403和標簽405的信息計算字符串406的布局即可。此后,同樣地,通過取得標簽名相同的標簽的信息,可以不保持先前讀入的標簽名相同的標簽的信息。由于可以不保持標簽名相同的標簽的信息,因此能夠減少存儲器使用量。根據(jù)計算結(jié)果布局的數(shù)據(jù)被提供給顯示部208,由顯示部208進行顯示。
(其他部分的說明)顯示部208從布局計算部207輸入根據(jù)計算結(jié)果布局的數(shù)據(jù)并且顯示到外部(S1205)。在處理了圖1B的數(shù)據(jù)400的情況下,與圖1A相同地,如圖5所示地進行顯示。控制部209是控制輸入部204、數(shù)據(jù)存儲部205、數(shù)據(jù)結(jié)構(gòu)分析部206、布局計算部207以及顯示部208的一系列的處理流程的裝置。指示輸入部210輸入用來操作顯示裝置214的用戶的指示215并且將其輸出到控制部209(S1206)。當存在來自用戶的、與顯示布局的變更相關(guān)的指示215的情況下,再次進行依次讀入標簽等的分析結(jié)果的處理(S1203),利用所指示的變更內(nèi)容重新計算布局并且進行顯示。在沒有用戶的指示215的情況下,保持等待狀態(tài)直至接受到用戶的指示215。另外,當接收到來自用戶的顯示處理結(jié)束的指示215時,結(jié)束整個顯示處理。
如上所述,在數(shù)據(jù)處理裝置213中,將具有層次結(jié)構(gòu)的結(jié)構(gòu)化文檔的數(shù)據(jù)300變換成預先消除了層次結(jié)構(gòu)的結(jié)構(gòu)化文檔的數(shù)據(jù)400,由此,可以在顯示裝置214中顯示數(shù)據(jù)400,能夠省略層次結(jié)構(gòu)的分析處理,因此能夠高速地進行顯示處理。另外,由于不需要預先存儲層次結(jié)構(gòu),因此,能夠減少存儲器使用容量。
(第2實施方式)下面,說明第2實施方式。.
圖8是與用來構(gòu)成包含數(shù)據(jù)處理裝置的數(shù)據(jù)處理系統(tǒng)的其他裝置一起表示本發(fā)明第2實施方式的數(shù)據(jù)處理裝置的框圖結(jié)構(gòu)實例的圖。圖9是用來說明本發(fā)明的第2實施方式的數(shù)據(jù)處理的流程圖。
參照圖8,數(shù)據(jù)處理系統(tǒng)具備網(wǎng)絡(luò)512、記錄介質(zhì)513、數(shù)據(jù)處理裝置514以及顯示裝置511。
網(wǎng)絡(luò)512與數(shù)據(jù)處理裝置514、具有記錄了數(shù)據(jù)的數(shù)據(jù)庫的服務(wù)器或者其他個人計算機連接。將數(shù)據(jù)501通過網(wǎng)絡(luò)512提供給數(shù)據(jù)處理裝置514。記錄介質(zhì)513中預先記錄數(shù)據(jù)502,用來向數(shù)據(jù)處理裝置514提供數(shù)據(jù)502。記錄介質(zhì)513包括FD、CD-ROM、硬盤等。數(shù)據(jù)處理裝置514是用于輸入從網(wǎng)絡(luò)512以及記錄介質(zhì)513供給的數(shù)據(jù)501、502進行處理并輸出到外部的裝置。
顯示裝置511是用于接受數(shù)據(jù)處理裝置514輸出的信息并進行顯示的裝置。在后面敘述顯示裝置511的詳細情況。另外,數(shù)據(jù)處理裝置514輸出的信息既可以通過網(wǎng)絡(luò)512發(fā)送到未圖示的外部裝置,也可以記錄到記錄介質(zhì)513。
數(shù)據(jù)501以及502也與第1實施方式的圖2的數(shù)據(jù)101以及數(shù)據(jù)102相同,因此省略說明。
數(shù)據(jù)處理裝置514具備輸入部503、數(shù)據(jù)存儲部504、塊分割部505、層次結(jié)構(gòu)分析部506、變換處理部507、輸出部508、控制部509以及指示輸入部510。
按照圖9的流程圖對數(shù)據(jù)處理裝置514的數(shù)據(jù)處理步驟加以說明。輸入部503執(zhí)行數(shù)據(jù)501或數(shù)據(jù)502的讀入(S1301)。數(shù)據(jù)存儲部504存儲由輸入部503讀入的數(shù)據(jù)501或502。塊分割部505執(zhí)行分割處理(S1302),將數(shù)據(jù)存儲部504中存儲的數(shù)據(jù)501或502分割成若干個塊單位。
(塊分割處理的說明)這里,針對塊分割處理加以說明。圖10是表示將圖1A的XML數(shù)據(jù)300分割成若干個塊單位時的分割位置的圖。在圖10中,為了進行說明,采用標號701~711取代圖1A的標號301~311。標號701~711所示的內(nèi)容與標號301~311所示的內(nèi)容一致。
在圖10中,假定在字符串704「FGHIJ」和標簽705「<p indent=“2”>」之間分割XML數(shù)據(jù)300,其結(jié)果是XML數(shù)據(jù)300分割成塊712和塊713這兩個塊。
作為基準,塊的大小定為固定尺寸。分割成塊的位置是根據(jù)在固定尺寸附近描述的標簽進行分割的。并不是按固定尺寸的本身進行分割,而是在標簽的描述的前后進行分割,由此避免標簽的描述本身被分割。
如果標簽的描述本身被分割,則即使讀入了每一個塊,由于標簽描述被切斷而無法分析。如果不存在以近似固定尺寸進行適當分割所需的標簽,就擴大范圍進行標簽檢索。假設(shè)從開頭開始定義作為基準的固定尺寸。將所定義的尺寸設(shè)置為適合于顯示裝置511的處理的尺寸。
在塊分割處理中,如果具有層次結(jié)構(gòu)的標簽的子元素被分割開,例如,標簽702「<p indent=“1”>」和標簽703「<font color=“red”>」的子元素被分割成無法計算布局的狀態(tài),就在分割后的位置前后,執(zhí)行對分割后的標簽的信息進行補償?shù)奶幚?以下稱作插補處理)。圖11是表示對圖10的數(shù)據(jù)進行差補處理的圖。
圖11的標號801~804以及標號809~815所表示的內(nèi)容與圖10的標號701~704以及標號705~711所示的內(nèi)容一致。圖11的塊816是表示對圖10的塊712的數(shù)據(jù)追加了標簽805「</font>」作為對應于標簽803「<font color=“red”>」的結(jié)束標簽、并且追加了標簽806「</p>」作為與標簽802「<p indent“1”>」對應的結(jié)束標簽后的數(shù)據(jù)。另外,塊817是表示對圖10的塊713的數(shù)據(jù)追加了標簽808「<font color=“red”>」作為與標簽812「</font>」對應的開始標簽、并且追加了標簽807「<p indent“1”>」作為與標簽814「</p>」對應的開始標簽之后的數(shù)據(jù)。利用如上所述的追加對應的開始標簽或者結(jié)束標簽這樣的插補處理,塊816以及塊817分別變成了能夠進行布局計算的XML數(shù)據(jù)。
(層次結(jié)構(gòu)分析部506的說明)層次結(jié)構(gòu)分析部506輸入在塊分割部505中進行分割處理后的XML數(shù)據(jù),在每一塊中對其中的標簽的信息以及層次結(jié)構(gòu)進行分析,將分析結(jié)果的信息輸出到變換處理部507(S1304)。
層次結(jié)構(gòu)分析部506執(zhí)行與第1實施方式中的圖2的層次結(jié)構(gòu)分析部105同樣的分析處理,因此,省略其說明。
(變換處理部507的說明)變換處理部507根據(jù)從層次結(jié)構(gòu)分析部506提供的分析結(jié)果信息,針對具有層次結(jié)構(gòu)的標簽進行變換處理(S1306)。變換處理與第1實施方式的變換處理相同,因此省略其說明。
圖12是表示對圖11的數(shù)據(jù)進行變換處理之后的狀態(tài)的數(shù)據(jù)的圖。
在圖11的塊816中,由于在標簽805以及標簽806之后不存在數(shù)據(jù),因此,不進行變換處理,省略了變換。因此,與塊816對應的圖12的塊913包含字符串901及904、以及標簽902及903,字符串904「FGHIJ」成為塊913的盡頭。判定是否對所有的標簽進行了變換處理,并且結(jié)束變換處理(S1305)。另外,與塊817對應的圖12的塊914包含字符串907、910及912、以及標簽905、906,908、909和911。
判定是否對所有的塊都結(jié)束了以上的分析處理以及變換處理(S1303),當判定發(fā)現(xiàn)已經(jīng)結(jié)束時,將變換后的數(shù)據(jù)再次存儲到數(shù)據(jù)存儲部504。輸出部508讀出存儲在數(shù)據(jù)存儲部504中的變換后的數(shù)據(jù)并將其輸出到外部(S1307)。
控制部509對輸入部503、數(shù)據(jù)存儲部504、塊分割部505、層次結(jié)構(gòu)分析部506、變換處理部507以及輸出部508的一系列處理流程進行控制。指示輸入部510將用來操作數(shù)據(jù)處理裝置514的用戶指示515傳遞給控制部509。
數(shù)據(jù)處理也可以針對已經(jīng)分割成塊單位的XML數(shù)據(jù)執(zhí)行。如果數(shù)據(jù)501以及502是已經(jīng)分割成塊單位的數(shù)據(jù),就在塊分割部505中,在塊內(nèi)進一步進行塊分割處理或者省略塊分割處理。此后的層次結(jié)構(gòu)分析部506的分析處理以及變換處理部507的變換處理能夠同樣地進行。
(顯示裝置511的說明)其次說明顯示裝置。圖13是將圖8的顯示裝置511的結(jié)構(gòu)實例與用來構(gòu)成包含顯示裝置的數(shù)據(jù)處理系統(tǒng)的其他裝置一起表示出來的圖。即,圖13中的網(wǎng)絡(luò)612、記錄介質(zhì)613、數(shù)據(jù)處理裝置615分別對應于圖8中的網(wǎng)絡(luò)512、記錄介質(zhì)513、數(shù)據(jù)處理裝置514以及顯示裝置511。圖14是顯示裝置615的顯示處理的流程圖。
顯示裝置615具有輸入部604、數(shù)據(jù)存儲部605、塊信息分析部606、數(shù)據(jù)結(jié)構(gòu)分析部607、布局計算部608、顯示部609、控制部610以及指示輸入部611。
輸入部604讀入通過網(wǎng)絡(luò)612接收到的數(shù)據(jù)601、或者預先記錄在記錄介質(zhì)613中的數(shù)據(jù)602、或者作為數(shù)據(jù)處理614的輸出的數(shù)據(jù)603(S1401)。數(shù)據(jù)601、602、603是在數(shù)據(jù)處理裝置614進行處理的數(shù)據(jù)。數(shù)據(jù)存儲部605存儲由輸入部604讀入的數(shù)據(jù)601或數(shù)據(jù)602、603。
按照圖14的流程圖說明顯示處理步驟。
首先,塊信息分析部606分析數(shù)據(jù)存儲部605中存儲的數(shù)據(jù)601或者數(shù)據(jù)602或者數(shù)據(jù)603的塊信息(S1402)。根據(jù)對塊信息的分析,決定顯示所需的對象塊(S1403)。決定了顯示所需的對象塊后,無需從數(shù)據(jù)601或數(shù)據(jù)602或數(shù)據(jù)603的數(shù)據(jù)的開始(開頭)起對數(shù)據(jù)所有部分進行分析,而只要對顯示所需的塊內(nèi)的數(shù)據(jù)進行分析,因此,減輕了處理負擔。
在必須從最前(開頭)起顯示XML數(shù)據(jù)的內(nèi)容的顯示裝置中,顯示所需的塊的位置是第1塊,在預先記錄有指示上次顯示的位置的位置信息的顯示裝置中,顯示所需的塊的位置是基于所記錄的位置信息的位置。
顯示所需的塊的個數(shù)根據(jù)顯示畫面的尺寸或顯示設(shè)定來決定。例如,當每塊中包含30個字符時,若顯示設(shè)定為50個字符,為了進行顯示,至少需要2個塊、最大需要3個塊。在包含圖像的布局中,根據(jù)像素數(shù)等來決定顯示所需的塊的個數(shù)。
根據(jù)上述用于顯示的塊的位置和塊的個數(shù)的決定,從所決定的塊的位置起所決定的塊的個數(shù)的塊成為顯示所需的對象塊。
數(shù)據(jù)結(jié)構(gòu)分析部607、布局計算部608以及顯示部609中的處理S1404到S1407與第1實施方式中的圖7的處理S1202到S1205相同,因此省略說明。
控制部610控制輸入部604、數(shù)據(jù)存儲部605、塊信息分析部606、數(shù)據(jù)結(jié)構(gòu)分析部607、布局計算部608以及顯示部609的一系列的處理的流程。
指示輸入部611輸入用來操作顯示裝置615的用戶的指示616之后輸出到控制部610(S1408)。當有來自用戶的指示616的情況下、當要顯示的塊和上次顯示的塊相同的情況下,再次執(zhí)行依次讀入標簽的處理,重新計算布局以進行顯示。在不是相同的塊的情況下,從確定作為顯示對象塊的處理開始執(zhí)行(S1409)。當沒有輸入用戶的指示616情況下,保持等待狀態(tài)直至接收到用戶的指示616。當用戶輸入了結(jié)束指示616后,結(jié)束全部顯示處理。
這里,用戶的指示616是指用戶通過操作顯示裝置615輸入的指示。例如,如果是移動電話,就是通過操作十字鍵(上、下、左、右操作按鍵)或確定鍵進行指示。
圖6中的用戶指示215也是相同內(nèi)容。
根據(jù)成為上述用戶指示的操作來決定顯示塊。例如,假設(shè)當打開(顯示)XML數(shù)據(jù)的內(nèi)容時,顯示第1塊的開頭部分。
當用戶操作指示輸入部611的未圖示的向下按鍵上下滾動布局時,在顯示所需的信息在第1塊內(nèi)的狀態(tài)下,重復進行布局計算處理(S1409的“是”的動作)。當?shù)?塊的最后的信息布局顯示后操作了向下按鍵時,就需要第2塊的信息(S1409的動作)。與第1塊一起對需要的第2塊進行顯示處理。這相當于顯示塊的確定。
如上所述,在數(shù)據(jù)處理裝置514中,將具有層次結(jié)構(gòu)的結(jié)構(gòu)化文檔的數(shù)據(jù)分割成塊單位,并且變換成預先消除了層次結(jié)構(gòu)的結(jié)構(gòu)化文檔的數(shù)據(jù),由此,在顯示處理裝置615中,不需要從數(shù)據(jù)的開頭起對所有數(shù)據(jù)進行分析,因此,減輕了顯示處理的負擔。另外,由于省略了對塊內(nèi)的層次結(jié)構(gòu)進行分析的處理,能夠高速地進行顯示處理。進一步,由于不需要預先存儲層次結(jié)構(gòu),能夠減少存儲器的使用容量。
另外,在本實施方式中,用XML描述的數(shù)據(jù)為例說明了數(shù)據(jù)501、502、601、602以及603,然而,由以上的說明可知,并不限于用XML描述的數(shù)據(jù)。
(第1和第2實施方式共同的使用形態(tài))作為使用形態(tài),假設(shè)數(shù)據(jù)處理裝置113以及數(shù)據(jù)處理裝置514為服務(wù)器,并且假設(shè)顯示裝置215以及顯示裝置615為安裝在移動電話、PDA(個人數(shù)字助理)類的移動設(shè)備中的顯示裝置。
在服務(wù)器中,將具有層次結(jié)構(gòu)的數(shù)據(jù)變換成消除了層次結(jié)構(gòu)的數(shù)據(jù),并且通過網(wǎng)絡(luò)發(fā)送給移動設(shè)備。在移動設(shè)備中接收發(fā)送過來的數(shù)據(jù)。由于數(shù)據(jù)中不存在層次結(jié)構(gòu),因此,移動設(shè)備能夠高速處理并顯示接收到的數(shù)據(jù)。另外,并不限于移動設(shè)備的便攜式信息處理裝置,也可以是膝上型(筆記本型)或者臺式的個人計算機。對于這樣的個人計算機,由于消除了層次結(jié)構(gòu),也能夠高速地處理數(shù)據(jù),并利用顯示器等顯示接收到的數(shù)據(jù)。
另外,假設(shè)數(shù)據(jù)處理裝置113以及514是個人計算機,假設(shè)顯示裝置214以及615是安裝在移動電話之類的移動設(shè)備中的顯示裝置。在個人計算機中,將具有層次結(jié)構(gòu)的數(shù)據(jù)變換成不存在層次結(jié)構(gòu)的數(shù)據(jù),并且將其記錄在FD等記錄介質(zhì)中。通過將記錄有變換后的數(shù)據(jù)的記錄介質(zhì)搬運、安裝到移動設(shè)備,移動設(shè)備能夠讀入不存在層次結(jié)構(gòu)的數(shù)據(jù),能夠高速地處理和顯示讀入的數(shù)據(jù)。同樣地,顯示裝置不僅可以安裝到移動設(shè)備,也可以安裝到個人計算機。進一步,也可以不使用記錄介質(zhì)而通過網(wǎng)絡(luò)發(fā)送接收數(shù)據(jù)。
借助于上述的實施方式1和2,即使是具有層次結(jié)構(gòu)的數(shù)據(jù)300,通過預先消除層次結(jié)構(gòu)從而變換成不存在層次結(jié)構(gòu)的數(shù)據(jù)400,也能夠在數(shù)據(jù)300的顯示等輸出中使用數(shù)據(jù)400替代數(shù)據(jù)300。由此,在顯示等的輸出中,不需要分析層次結(jié)構(gòu)的處理,因此,數(shù)據(jù)的處理變得容易,能夠高速地進行處理。另外,由于不需要另行預先存儲層次結(jié)構(gòu),因此,能夠減少使用容量。
進一步,將數(shù)據(jù)分割成塊單位后,不需要從開頭開始對數(shù)據(jù)全體進行分析,因此,減輕了處理負擔。在塊內(nèi),由于不需要層次結(jié)構(gòu)的分析處理,能夠進一步實現(xiàn)高速的輸出處理。
(第3實施方式)其次,說明第3實施方式。在本實施方式的數(shù)據(jù)處理裝置中,采用對應的文本數(shù)據(jù)、標簽出現(xiàn)位置數(shù)據(jù)以及標簽詳細數(shù)據(jù)這些分別準備的數(shù)據(jù),對電子數(shù)據(jù)進行數(shù)據(jù)處理,因此,能夠省略與判定處理對象的數(shù)據(jù)是標簽部分還是文本部分相關(guān)的處理,高速地進行數(shù)據(jù)處理。以下說明其特征。
(數(shù)據(jù)處理裝置的結(jié)構(gòu))圖15是將本實施方式的數(shù)據(jù)處理裝置的結(jié)構(gòu)與外圍裝置關(guān)聯(lián)起來表示的圖。
在數(shù)據(jù)處理裝置1118的外圍,設(shè)有接收來自用戶的要求并發(fā)送記錄在未圖示的數(shù)據(jù)庫中的電子數(shù)據(jù)的服務(wù)器1114、用戶接收電子數(shù)據(jù)時使用的個人計算機1116、連接服務(wù)器1114和個人計算機1116的網(wǎng)絡(luò)1115、以及從個人計算機1116讀出電子數(shù)據(jù)并將電子數(shù)據(jù)提供給數(shù)據(jù)處理裝置1118用的記錄介質(zhì)1117。數(shù)據(jù)處理裝置1118在處理完從記錄介質(zhì)1117供給的電子數(shù)據(jù)之后,根據(jù)不同目的執(zhí)行數(shù)據(jù)處理,例如執(zhí)行用于顯示的數(shù)據(jù)處理等。這里假設(shè)為顯示電子數(shù)據(jù)的情況進行了說明,然而,也可以是其他的輸出形態(tài),例如打印電子數(shù)據(jù)。
也可以是將個人計算機1116替換成設(shè)置在便利店、車站內(nèi)等的電子數(shù)據(jù)接收裝置,從該電子數(shù)據(jù)接收裝置讀出電子數(shù)據(jù)并且記錄到記錄介質(zhì)1117中。在這種情況下,能夠在從電子數(shù)據(jù)接收裝置讀出電子數(shù)據(jù)并記錄到記錄介質(zhì)1117時進行收費。
另外,也可以是由數(shù)據(jù)處理裝置1118不通過個人計算機1116接收從服務(wù)器1114發(fā)送來的電子數(shù)據(jù),并將接收到的電子數(shù)據(jù)記錄到記錄介質(zhì)1117。
在記錄介質(zhì)1117中,利用個人計算機1116等裝置,將電子數(shù)據(jù)1100、和從該電子數(shù)據(jù)1100生成得到的文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102及標簽詳細數(shù)據(jù)1103關(guān)聯(lián)起來保存。這里,為了簡化說明,假設(shè)在記錄介質(zhì)1117中只關(guān)聯(lián)保存了1組電子數(shù)據(jù)1100和從該電子數(shù)據(jù)1100生成的數(shù)據(jù),然而,也可以存放多組。
電子數(shù)據(jù)1100是用于根據(jù)文檔描述語言的定義執(zhí)行預定處理的結(jié)構(gòu)化的電子數(shù)據(jù),采用用于記錄具有采用多個標簽的層次結(jié)構(gòu)的結(jié)構(gòu)化文檔的數(shù)據(jù)形式——SGML或XML等進行描述。
文本數(shù)據(jù)1101是僅表示結(jié)構(gòu)化的電子數(shù)據(jù)1100中要顯示的內(nèi)容的數(shù)據(jù)。
標簽出現(xiàn)位置數(shù)據(jù)1102是用來指示在處理對應的文本數(shù)據(jù)1101時所必需的標簽信息之中表示各標簽的標簽名的信息、表示文本數(shù)據(jù)1101中的各標簽的出現(xiàn)位置的信息、以及標簽詳細數(shù)據(jù)1103中的各標簽的屬性信息的存放位置的信息的下述信息的數(shù)據(jù),僅由固定長度數(shù)據(jù)構(gòu)成。標簽詳細數(shù)據(jù)1103是在處理對應的文本數(shù)據(jù)1101時所必需的標簽信息之中用來指示各標簽的屬性等的信息的數(shù)據(jù),由可變長度數(shù)據(jù)構(gòu)成。
從服務(wù)器1114發(fā)送過來并存放到記錄介質(zhì)1117中的數(shù)據(jù)既可以僅是電子數(shù)據(jù)1100,也可以僅是根據(jù)電子數(shù)據(jù)1100生成的文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103這3個數(shù)據(jù)。
數(shù)據(jù)處理裝置1118具備輸入部1104、數(shù)據(jù)結(jié)構(gòu)分析部1105、處理部1106、控制部1110、文本數(shù)據(jù)生成部1111、標簽出現(xiàn)位置數(shù)據(jù)生成部1112以及標簽詳細數(shù)據(jù)生成部1113。
輸入部1104從記錄介質(zhì)1117讀入電子數(shù)據(jù)1100、文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103。
數(shù)據(jù)結(jié)構(gòu)分析部1105根據(jù)電子數(shù)據(jù)1100或者根據(jù)文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103對電子數(shù)據(jù)1100的層次結(jié)構(gòu)進行分析。
當不存在文本數(shù)據(jù)1101的情況下,文本數(shù)據(jù)生成部1111根據(jù)電子數(shù)據(jù)1100生成文本數(shù)據(jù)1101。如果從服務(wù)器1114發(fā)送過來的數(shù)據(jù)是文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103這3個數(shù)據(jù),也可以省略文本數(shù)據(jù)生成部1111。
當不存在標簽出現(xiàn)位置數(shù)據(jù)1102的情況下,標簽出現(xiàn)位置數(shù)據(jù)生成部1112根據(jù)電子數(shù)據(jù)1100生成標簽出現(xiàn)位置數(shù)據(jù)1102。如果從服務(wù)器1114發(fā)送過來的數(shù)據(jù)是文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103這3個數(shù)據(jù),也可以省略標簽出現(xiàn)位置數(shù)據(jù)生成部1112。
在不存在標簽詳細數(shù)據(jù)1103的情況下,標簽詳細數(shù)據(jù)生成部1113根據(jù)電子數(shù)據(jù)1100生成標簽詳細數(shù)據(jù)1103。
如果從服務(wù)器1114發(fā)送過來的數(shù)據(jù)是文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103這3個數(shù)據(jù),也可以省略標簽詳細數(shù)據(jù)生成部1113。
控制部1110對輸入部1104、數(shù)據(jù)結(jié)構(gòu)分析部1105、文本數(shù)據(jù)生成部1111、標簽出現(xiàn)位置數(shù)據(jù)生成部1112、標簽詳細數(shù)據(jù)生成部1113以及處理部1106的處理進行控制。
處理部1106根據(jù)數(shù)據(jù)結(jié)構(gòu)分析部1105的層次結(jié)構(gòu)分析結(jié)果執(zhí)行預定的處理。具體地,處理部1106的結(jié)構(gòu)隨對象電子數(shù)據(jù)的內(nèi)容以及處理的類型而異,當數(shù)據(jù)處理裝置1118是用來顯示例如在網(wǎng)絡(luò)上交換的電子文檔、或電子數(shù)據(jù)、或單行本、教科書、雜志、小說、以及論文等文章的電子數(shù)據(jù)的裝置的情況下,具備顯示部1108以及用戶指示處理部1109,上述顯示部1108根據(jù)用來計算文章的顯示布局的布局計算部1107計算出來的顯示布局顯示電子數(shù)據(jù),上述用戶指示處理部1109用來處理上下滾動指示等來自用戶的指示1121。
當電子數(shù)據(jù)是音頻數(shù)據(jù)的情況下,處理裝置1106變?yōu)楦呗曌x出音頻數(shù)據(jù)的裝置,另外,顯示部1108中使用音頻重放部1108,布局計算部1107變?yōu)橛脕砼卸ㄗx出的部分和未讀出的部分或者判定強調(diào)讀出的部分和非強調(diào)讀出的部分并調(diào)整各高聲讀出的間隔的單元。在音頻數(shù)據(jù)的情況下,也可以根據(jù)層次結(jié)構(gòu)改變音頻屬性之后高聲讀出。進一步,在音頻的情況下,需要有腳本解釋部、音頻輸出部、為了管理重放源數(shù)據(jù)而在數(shù)據(jù)的各要素之間取得同步的同步部等。
(數(shù)據(jù)處理裝置的實施例)在圖16中表示將數(shù)據(jù)處理裝置1118作為便攜式的顯示處理裝置進行實施時的實例。在圖16中,顯示部1108由液晶顯示器等構(gòu)成。記錄介質(zhì)1117可自由拆卸地裝載在輸入部1104,在裝載了記錄介質(zhì)1117時,通過輸入部1104讀入預先存放在記錄介質(zhì)1117中的處理對象電子數(shù)據(jù)1100或文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103。
相關(guān)于用戶指示處理部1109,具備十字鍵1119以及筆1120。當用戶發(fā)出了顯示文檔的上下滾動指示或者指示希望顯示的書籍或文檔的電子數(shù)據(jù)1100的選擇等的情況下,操作十字鍵1119。當電子數(shù)據(jù)中包含鏈接功能時,用戶為了跳到鏈接目的地而使用筆1120,并且,為了輸入從數(shù)據(jù)處理裝置1118的控制部1110向用戶求取的確認事項的回答,也使用筆120。
此外,向數(shù)據(jù)處理裝置1118供給電子數(shù)據(jù)1100或文本數(shù)據(jù)1101、標簽出現(xiàn)位置1102以及標簽詳細數(shù)據(jù)1103的全部或一部分數(shù)據(jù)時,并不限于通過記錄介質(zhì)1117進行。
例如,也可以是在數(shù)據(jù)處理裝置1118本體的內(nèi)部設(shè)置預定的記錄區(qū)域并且在該區(qū)域記錄上述數(shù)據(jù)的一部分或者全部。
另外也可以是,在網(wǎng)絡(luò)1115上的服務(wù)器1114或者未圖示的數(shù)據(jù)庫中記錄上述數(shù)據(jù)的一部分或全部,在下載的同時進行處理。
(標簽出現(xiàn)位置數(shù)據(jù)的1102的說明)圖17表示標簽出現(xiàn)位置數(shù)據(jù)1102的結(jié)構(gòu)的一個實例。標簽出現(xiàn)位置數(shù)據(jù)1102包含文件名信息1300和標簽出現(xiàn)位置信息1301。
文件名信息1300包含數(shù)據(jù)1302和1303,上述數(shù)據(jù)1302和1303表示對應的文本數(shù)據(jù)1101的文件名和對應的標簽詳細數(shù)據(jù)1103的文件名。
由于文件名信息1300是指示標簽出現(xiàn)位置數(shù)據(jù)1102與哪一個文本數(shù)據(jù)1101或者與哪一個標簽詳細數(shù)據(jù)1103相對應,因此,與對應的文本數(shù)據(jù)1101關(guān)聯(lián)地記錄標簽出現(xiàn)位置數(shù)據(jù)1102的情況下,也可以省略文本數(shù)據(jù)文件名的數(shù)據(jù)1302的區(qū)域。另外,與對應的標簽詳細數(shù)據(jù)1103關(guān)聯(lián)地記錄標簽出現(xiàn)位置數(shù)據(jù)1102的情況下,也可以省略標簽詳細數(shù)據(jù)文件名的數(shù)據(jù)1303的區(qū)域。
標簽出現(xiàn)位置信息1301包含數(shù)據(jù)1304以及位置數(shù)據(jù)1305,該數(shù)據(jù)1304表示包含在對應的文本數(shù)據(jù)1101中的標簽的總數(shù),該位置數(shù)據(jù)1305與對應的文本數(shù)據(jù)1101中包含的所有的標簽的每一個相對應。
每個標簽位置數(shù)據(jù)1305包含表示對應的標簽名的數(shù)據(jù)1306、表示對應的標簽的文本數(shù)據(jù)1101中的出現(xiàn)開始位置和結(jié)束位置的數(shù)據(jù)1307和1308、以及表示對應的標簽的標簽詳細數(shù)據(jù)1103中的存放開始位置和結(jié)束位置的數(shù)據(jù)1309和1310。此外,數(shù)據(jù)1307和1308表示開始標簽和結(jié)束標簽在文本數(shù)據(jù)1101中的描述位置。按照從標簽的各數(shù)據(jù)(文本數(shù)據(jù)1101或標簽詳細數(shù)據(jù)1102)的開頭起的字節(jié)個數(shù)等來記錄數(shù)據(jù)1307~1310。
也可以記錄標簽的文本數(shù)據(jù)1101中的影響范圍以替代標簽的文本數(shù)據(jù)1101中的出現(xiàn)結(jié)束位置。影響范圍表示標簽的屬性有效的部分的文本數(shù)據(jù)的大小(范圍),它對應于從出現(xiàn)開始位置到出現(xiàn)結(jié)束位置之間的范圍。即,表示(出現(xiàn)結(jié)束位置-出現(xiàn)開始位置)之差。由此,即使記錄影響范圍的信息以替代出現(xiàn)位置的信息,也能夠根據(jù)(出現(xiàn)開始位置+影響范圍)的值得到出現(xiàn)結(jié)束位置的數(shù)據(jù)1308。
同樣地,也可以記錄標簽的標簽詳細數(shù)據(jù)1103中的數(shù)據(jù)大小以替代標簽的標簽詳細數(shù)據(jù)1103中的存放結(jié)束位置的數(shù)據(jù)1310。所謂的數(shù)據(jù)大小指的是,從存放開始位置到存放結(jié)束位置之間的尺寸。即,表示(存放結(jié)束位置-存放開始位置)之差。由此,即使記錄數(shù)據(jù)大小的信息以替代存放位置的信息,也能夠根據(jù)(存放開始位置+數(shù)據(jù)大小)的值取得存放結(jié)束位置的數(shù)據(jù)1310。
構(gòu)成標簽出現(xiàn)位置1102的各數(shù)據(jù)是如圖17所示的固定長度的數(shù)據(jù)。這里,在本實施方式中,所謂的固定長度數(shù)據(jù)指的是,即使電子數(shù)據(jù)1100所表示的信息發(fā)生變動,也不會超過預先準備的預定尺寸(例如,4個字節(jié))。因此,例如,如圖17所示,當分配4個字節(jié)作為表示標簽在文本數(shù)據(jù)1101中的出現(xiàn)開始位置的數(shù)據(jù)1307的情況下,必須輸入表示從文本數(shù)據(jù)1101的文件開頭起的字節(jié)個數(shù)0~4294967295中的任意一個值。此外,可以根據(jù)處理的電子數(shù)據(jù)1100的類型、數(shù)據(jù)處理裝置1118的處理能力來決定分配給構(gòu)成標簽出現(xiàn)位置數(shù)據(jù)1102的各數(shù)據(jù)的區(qū)域的尺寸。
(標簽詳細數(shù)據(jù)1103的說明)在圖18中表示標簽詳細數(shù)據(jù)1103的結(jié)構(gòu)的一個實例。參照圖18,標簽詳細數(shù)據(jù)1103與記錄在對應的標簽出現(xiàn)位置數(shù)據(jù)1102中的所有標簽的每一個對應地包含標簽詳細數(shù)據(jù)1401。標簽詳細數(shù)據(jù)1401包含數(shù)據(jù)1402以及數(shù)據(jù)1403,其中,上述數(shù)據(jù)1402表示對應的標簽所示的不同類型的屬性的總數(shù),上述數(shù)據(jù)1403與對應的標簽所示的不同類型的所有的屬性分別對應。數(shù)據(jù)1403包含表示對應的屬性的類型名的數(shù)據(jù)AN以及對應的屬性的值A(chǔ)V。標簽詳細數(shù)據(jù)1103的大小依賴于各標簽的信息的大小,因此,基本上由可變長度數(shù)據(jù)構(gòu)成標簽詳細數(shù)據(jù)1103,但也可以用足夠大小的固定長度數(shù)據(jù)構(gòu)成標簽詳細數(shù)據(jù)1103。
(關(guān)于數(shù)據(jù)的具體實例)接著,使用XHTML(extensible HTML,可擴展HTML)文檔針對文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102內(nèi)的各數(shù)據(jù)以及標簽詳細數(shù)據(jù)1103內(nèi)的各數(shù)據(jù)的格式加以說明,其中,上述XHTML是按照文檔描述語言的定義描述并具有層次結(jié)構(gòu)的電子數(shù)據(jù)1100的具體實例。圖19中表示了處理對象的XHTML文檔電子數(shù)據(jù)1100的一個實例。
圖20A中表示根據(jù)圖19的XHTML文檔的電子數(shù)據(jù)1100生成的文本數(shù)據(jù)1101的一個實例。如圖20A所示,基本上是僅將夾在各標簽中的子元素中的、要顯示的內(nèi)容即字符串記錄到文本數(shù)據(jù)1101中。通過這樣進行記錄,能夠獲得下述優(yōu)點在數(shù)據(jù)處理裝置1118的處理能力低并且難以分析標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103的情況下,僅處理并顯示文本數(shù)據(jù)1101時,用戶根據(jù)顯示內(nèi)容至少能夠理解所描述的文檔的內(nèi)容。因此,即使是要顯示的內(nèi)容,有時候也不記錄到文本數(shù)據(jù)1101中。
對此,以給字符串設(shè)定注音假名而使用的標簽(以下稱作注音假名標簽)為例來表示。
在圖19的注音假名標簽1503的情況下,通常將由開始標簽<rb>和結(jié)束標簽</rb>夾著的子元素「吾輩」”、以及由開始標簽<rt>和結(jié)束標簽</rt>夾著的子元素「わがはい」記錄在文本數(shù)據(jù)1101中,這樣,基于文本數(shù)據(jù)1101的記錄內(nèi)容的顯示內(nèi)容表示了「吾輩わがはい」,意思變得不可理解。因此,將注音假名標簽1503變換成<ruby2rt=“わがはい”>吾輩</ruby2>。在本實施方式中,<ruby2>是注音假名用的標簽,具有指定注音假名字符串的‘rt’屬性,是表示將帶有注音假名的字符串指定為子元素的標簽。通過將注音假名標簽1503變換成使用<ruby2>標簽的元素,在文本數(shù)據(jù)1101中,記錄作為子元素的「吾輩」,并且將‘rt’屬性的值「わがはい」記錄在標簽詳細數(shù)據(jù)1103中。
關(guān)于此時記錄到標簽詳細數(shù)據(jù)1103的記錄內(nèi)容,將在后文敘述。
在注音假名標簽1505的情況下,也是同樣地將其變換成<ruby2rt=“けんとう”>見當</ruby2>,將子元素「見當」記錄在文本數(shù)據(jù)1101中,將‘rt’屬性的值「けんとう」記錄在標簽詳細數(shù)據(jù)1103中。
即使是注音假名標簽以外的通常要記錄到文本數(shù)據(jù)1101中的子元素,將該子元素變換成對應的標簽的屬性值記錄到標簽詳細數(shù)據(jù)1103中的方式會使文本數(shù)據(jù)1101的內(nèi)容更易于理解,也可以進行相同的處理。
與上述的注音假名標簽相反,即使是標簽的屬性值,也有時將其記錄到文本數(shù)據(jù)1101而不是標簽詳細數(shù)據(jù)1103中。對此,以用來設(shè)定外字(注日本常用漢字表以外的漢字)而使用的標簽(以下稱作外字標簽)為例加以說明。
在本實施方式中,<gaiji>是外字用的標簽,它是指具有下述不同的多個類型的屬性的標簽,即指定字符字體名的‘set’屬性、指定用該‘set’屬性指定的字符字體內(nèi)的位置的‘code’屬性、指定橫寫顯示用的替代圖像的‘img’屬性、指定橫寫顯示用的替代圖像的‘vimg’屬性、以及指定替代字符串的‘a(chǎn)lt’屬性。
圖19的外字標簽1506的情況下,由于通常不在文本數(shù)據(jù)1101中記錄任何內(nèi)容,記錄在文本數(shù)據(jù)1101中的內(nèi)容就會變成「......という人間中て一番悪た種族て......」,顯示后意思變得不可理解。
因此,將外字標簽1506變換為<gaiji2 set=“○○○外字”code=“0x1234”img=“doul.jpg”vimg=“dou2.jpg”>どう</gaiji2>。這里,在本實施方式中,<gaiji2>是外字用的標簽,它是指具有指定字符字體名的‘set’屬性、指定用該‘set’屬性指定的字符字體內(nèi)的位置的‘code’屬性、指定橫寫顯示用的替代圖像的‘img’屬性、以及指定橫寫顯示用的替代圖像的‘vimg’屬性等多個類型的屬性并將替代字符串指定為子元素的標簽。
依照此種方式,通過將圖19的外字標簽1506變換成使用<gaiji2>標簽的元素,在文本數(shù)據(jù)1101中記錄子元素「どう」,在標簽詳細數(shù)據(jù)1103中記錄其他的屬性值。關(guān)于記錄在標簽詳細數(shù)據(jù)1103中的內(nèi)容,將在后文敘述。由此,記錄在文本數(shù)據(jù)1101中的內(nèi)容成為「......という人間中て一番どう悪た種族て......」,是意思明了的文章。
即使是外字標簽以外的通常在文本數(shù)據(jù)1101中不記錄任何內(nèi)容的標簽,將其屬性值變換成子元素并記錄到文本數(shù)據(jù)1101中的方式使文本數(shù)據(jù)1101的內(nèi)容更易于理解,也可以進行相同的處理。
圖20B中表示根據(jù)圖19的XHTML文檔的電子數(shù)據(jù)1100生成的文本數(shù)據(jù)1101的其他實例。在圖20B中,實際上在有換行標簽1504的位置進行換行。由此,能夠易于理解文本數(shù)據(jù)1101的內(nèi)容。這種情況下,也可以將換行標簽1504的信息記錄到標簽出現(xiàn)位置數(shù)據(jù)1102中,并在布局計算部1107中不使用文本數(shù)據(jù)1101中的換行信息,反之,也可以不將換行標簽1504的信息記錄到標簽出現(xiàn)位置數(shù)據(jù)1102而在布局計算部1107中使用文本數(shù)據(jù)1101中的換行信息。
即使是換行標簽以外的標簽、即通常在文本數(shù)據(jù)1101中不指示換行的標簽的情況下,為了使文本數(shù)據(jù)1101的內(nèi)容易于理解,也可以進行換行處理。
在圖21中表示了根據(jù)圖19的XHTML文檔的電子數(shù)據(jù)1100生成的標簽出現(xiàn)位置數(shù)據(jù)1102的一個實例。圖21的數(shù)據(jù)1700~1702對應于圖17的數(shù)據(jù)1302~1304。數(shù)據(jù)1702表示圖19的電子數(shù)據(jù)1100中包含的標簽(標簽對)的個數(shù)。原來構(gòu)成圖19的XHTML文檔的電子數(shù)據(jù)1100的標簽的個數(shù)為11個,而如前面所說明,將構(gòu)成注音假名元素的<ruby>標簽、<rb>標簽以及<rt>標簽這3個標簽變換成1個標簽進行處理,因此,變成了7個標簽,圖21的數(shù)據(jù)1702表示「7」。數(shù)據(jù)1703~1707對應于第1個標簽即<html>標簽1500的標簽位置數(shù)據(jù)1305的數(shù)據(jù)1306~310。數(shù)據(jù)1703表示標簽名「html」,數(shù)據(jù)1704表示<html>標簽1500在文本數(shù)據(jù)1101中的出現(xiàn)開始位置,數(shù)據(jù)1705表示<html>標簽在文本數(shù)據(jù)1101中的出現(xiàn)結(jié)束位置。其次,數(shù)據(jù)1706表示在標簽詳細數(shù)據(jù)1103中的<html>標簽1500的屬性信息的存放開始位置,數(shù)據(jù)1707表示在標簽詳細數(shù)據(jù)1130中的<html>標簽1500的屬性信息的存放結(jié)束位置。以下,同樣地,數(shù)據(jù)1708~1712表示用于第2個標簽即<body>標簽1501的標簽出現(xiàn)位置數(shù)據(jù)1305的信息,數(shù)據(jù)1713~1717表示用于第3個標簽即<img>標簽1502的標簽出現(xiàn)位置數(shù)據(jù)1305的信息,數(shù)據(jù)1718~1722表示用于第4個標簽<ruby>標簽1503的標簽出現(xiàn)位置數(shù)據(jù)1305的信息,數(shù)據(jù)1723~1727表示用于第5個標簽即<br>標簽1504的標簽出現(xiàn)位置數(shù)據(jù)1305的信息,數(shù)據(jù)1728~1732表示用于第6個標簽即<ruby>標簽1505的標簽出現(xiàn)位置1305的信息,數(shù)據(jù)1733~1737表示用于第7個標簽即<gaiji>標簽1506的標簽出現(xiàn)位置數(shù)據(jù)1305的信息。
圖22中表示了根據(jù)圖19的XHTML文檔的電子數(shù)據(jù)1100生成的標簽詳細數(shù)據(jù)1103的一個實例。與數(shù)據(jù)1402對應的數(shù)據(jù)1800表示第1個標簽即<html>標簽1500的屬性個數(shù)「0」。將記錄該信息的區(qū)域的開始位置、結(jié)束位置信息記為標簽出現(xiàn)位置數(shù)據(jù)1102的數(shù)據(jù)1706和數(shù)據(jù)1707。另外,由于<html>標簽1500的屬性個數(shù)為‘0’,在標簽詳細數(shù)據(jù)1103中不記錄屬性個數(shù)信息的數(shù)據(jù)1800,取而代之,也可以記錄標簽出現(xiàn)位置數(shù)據(jù)1102的數(shù)據(jù)1706和數(shù)據(jù)1707以表示“無存放區(qū)域”。
由此,能夠減少標簽詳細數(shù)據(jù)1103的數(shù)據(jù)容量。
以下,同樣地,在標簽詳細數(shù)據(jù)1103中分別記錄第2個標簽即<body>標簽1501的標簽詳細數(shù)據(jù)1401用的數(shù)據(jù)1801~1805、第3個標簽即<img/>標簽1502的標簽詳細數(shù)據(jù)1401用的數(shù)據(jù)1806~1810、第4個標簽即<ruby>標簽1503的標簽詳細數(shù)據(jù)1401用的數(shù)據(jù)1811~1813。
另外,記錄第5個標簽即<br/>標簽1504的標簽詳細數(shù)據(jù)1401用的數(shù)據(jù)1814。由于<br/>標簽1504也與<html>標簽1500相同,屬性個數(shù)為‘0’,因此,在標簽詳細數(shù)據(jù)1103中不記錄屬性個數(shù),取而代之,也可以記錄與出現(xiàn)位置數(shù)據(jù)1102對應的數(shù)據(jù)1726和數(shù)據(jù)1727以表示“無存放區(qū)域”。此外,分別記錄第6個標簽即<ruby>標簽1505的標簽詳細數(shù)據(jù)1401用的數(shù)據(jù)1815~1817、第7個標簽即<gaiji>標簽1506的標簽詳細數(shù)據(jù)1401用的數(shù)據(jù)1818~1826。
(數(shù)據(jù)處理裝置1118的處理步驟)
參照圖23和圖24,對圖15的數(shù)據(jù)處理裝置1118作為顯示裝置工作時的處理步驟加以說明。圖23和圖24的步驟在控制部1110的控制之下執(zhí)行。
首先,在步驟S901中,通過用戶指示處理部1109輸入表示用戶要求顯示的電子數(shù)據(jù)1100的用戶指示1121,并指定該電子數(shù)據(jù)1100。
在步驟S902中,輸入部1104對記錄介質(zhì)1117進行檢索,對于步驟S901指定的電子數(shù)據(jù)1100,判定在記錄介質(zhì)1117中僅存放指定的電子數(shù)據(jù)1100還是存放與指定的電子數(shù)據(jù)1100對應的文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103這3個數(shù)據(jù)。檢索結(jié)果如果是判定為僅存放了期望的電子數(shù)據(jù)1100,控制部1110使處理進至步驟S903,而若存在對應的文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103,則使處理進至步驟S904。
在步驟S903中,從記錄介質(zhì)1117中讀出指定的電子數(shù)據(jù)1100,針對讀出的電子數(shù)據(jù)1100,生成文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103。此后,使處理進至步驟S904。步驟S903的詳細情況將在后文描述。
在步驟S904中,從記錄介質(zhì)1117中檢索出與被指定的電子數(shù)據(jù)1100對應的標簽出現(xiàn)位置數(shù)據(jù)1102之后通過輸入部1104讀出。
在步驟S906中,從與被指定的電子數(shù)據(jù)1100對應的記錄介質(zhì)1117的文本數(shù)據(jù)1101中僅確定出作為處理對象的任意的部分數(shù)據(jù)并通過輸入部1104讀出。具體地,在步驟S901中,根據(jù)輸入的用戶指示1121確定并讀入處理對象的文本數(shù)據(jù)部分。例如,若用戶指定的電子數(shù)據(jù)1100是首次進行顯示處理,則從該數(shù)據(jù)的開頭起進行讀入?;蛘撸羰且郧斑M行過顯示處理的電子數(shù)據(jù)1100,則將表示上次顯示處理中的最終顯示位置的信息預先記錄到數(shù)據(jù)處理裝置1118的規(guī)定存儲區(qū)域,從所記錄的最終顯示位置信息表示的位置起讀入數(shù)據(jù)?;蛘?,若在數(shù)據(jù)處理裝置1118中預先備有跳頁功能之類的功能,則在根據(jù)用戶指示1121發(fā)出顯示期望的電子數(shù)據(jù)1100的任意位置的指示后,能夠采用跳頁功能從與指定的電子數(shù)據(jù)1100的指定位置相應的位置起讀入數(shù)據(jù)。
在步驟S907中,根據(jù)由S906確定并從文本數(shù)據(jù)1101中讀入的處理對象的部分數(shù)據(jù),通過輸入部1104從記錄介質(zhì)1117的標簽詳細數(shù)據(jù)1103中讀入對應的部分數(shù)據(jù)。在步驟S907中,利用標簽出現(xiàn)位置數(shù)據(jù)1102是固定長度數(shù)據(jù)的這一點,能夠高效地從標簽詳細數(shù)據(jù)1103中讀出要處理的標簽的屬性信息。具體地,若將表示標簽的屬性的信息歸納起來并用可變長度數(shù)據(jù)進行記錄而不是分解成標簽出現(xiàn)位置數(shù)據(jù)1102和標簽詳細數(shù)據(jù)1103,則必須從標簽屬性信息的開頭起對所有的標簽屬性信息判定是否為所要求的數(shù)據(jù)。具體地,若將表示標簽的屬性的信息歸納起來并用可變長度數(shù)據(jù)進行記錄而不是分解成標簽出現(xiàn)位置數(shù)據(jù)1102和標簽詳細數(shù)據(jù)1103,則必須從標簽屬性信息的開頭起對所有的標簽屬性信息判定是否為所要求的數(shù)據(jù)。另一方面,在本實施方式中,由于將標簽的屬性的信息分解成標簽出現(xiàn)位置數(shù)據(jù)1102和標簽詳細數(shù)據(jù)1103進行記錄,并且標簽出現(xiàn)位置數(shù)據(jù)1102是固定長度數(shù)據(jù),因此,參照標簽出現(xiàn)位置數(shù)據(jù)1102,能夠容易地確定所要求的數(shù)據(jù)位于標簽詳細數(shù)據(jù)1103的第幾個字節(jié),根據(jù)確定結(jié)果直接訪問標簽詳細數(shù)據(jù)1103就能夠讀出所要求的數(shù)據(jù)。
在步驟S909中,利用布局計算部1107計算用于顯示的布局。按照下述步驟計算布局。
首先,根據(jù)按照用戶指示1121確定的文本數(shù)據(jù)1101的顯示開始位置、以及在標簽出現(xiàn)位置數(shù)據(jù)1102中的各標簽的文本數(shù)據(jù)出現(xiàn)開始位置/結(jié)束位置的數(shù)據(jù),確定與文本數(shù)據(jù)1101的要顯示的部分數(shù)據(jù)相關(guān)的1個以上的標簽。其次,對于所確定的各標簽,從標簽出現(xiàn)位置數(shù)據(jù)1102讀出相應的標簽詳細數(shù)據(jù)存放開始位置/結(jié)束位置的數(shù)據(jù),根據(jù)讀出的數(shù)據(jù),通過檢索標簽詳細數(shù)據(jù)1103以讀出與該標簽對應的標簽詳細數(shù)據(jù)1401。
接著,從相應的標簽的文本數(shù)據(jù)出現(xiàn)開始位置起直到結(jié)束位置為止,根據(jù)按照上述步驟所讀出的標簽詳細數(shù)據(jù)1401,從顯示開始位置起依次將文本數(shù)據(jù)1101布置到未圖示的預定存儲區(qū)域。在步驟S910中,根據(jù)步驟S909的布局計算結(jié)果即預定存儲區(qū)域的內(nèi)容,由顯示部1108顯示文本數(shù)據(jù)1101。
在步驟S911中,等待用戶通過用戶指示處理部1109輸入指示1121。處理在步驟S911等待,直到用戶輸入指示1121。用戶輸入了顯示處理結(jié)束的指示1121后,圖23的顯示處理結(jié)束。當用戶發(fā)出向下一頁或前一頁滾動的上下滾動指示1121后,處理返回到步驟S906,此后,對文本數(shù)據(jù)1101的被指定的滾動目標的任意區(qū)域的部分數(shù)據(jù)進行相同的處理。
參照圖24的流程圖對圖23的步驟S903的文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103的生成處理的步驟加以說明。圖中,[文本]表示文本數(shù)據(jù)1101,[標簽出現(xiàn)]表示標簽出現(xiàn)位置數(shù)據(jù)1102,[標簽詳細]表示標簽詳細數(shù)據(jù)1103。圖中的[標簽信息]是指根據(jù)電子數(shù)據(jù)1100生成文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103而暫時預先存儲在數(shù)據(jù)處理裝置1118內(nèi)的未圖示的存儲區(qū)域中的信息。[標簽信息]是表示1個以上的標簽的每一個的標簽名和記錄位置的信息,其中,上述記錄位置是指表示該標簽的文本數(shù)據(jù)出現(xiàn)結(jié)束位置的數(shù)據(jù)1308在標簽出現(xiàn)位置數(shù)據(jù)1102中的記錄位置。
首先,在步驟S921中,通過輸入部1104從記錄介質(zhì)1117中讀出被指定的所要求的電子數(shù)據(jù)1100,使處理進至步驟S922。
在步驟S922以后的處理中,若由數(shù)據(jù)結(jié)構(gòu)分析部1105對讀出的電子數(shù)據(jù)1100進行分析,則此后,文本數(shù)據(jù)生成部1111、標簽出現(xiàn)位置數(shù)據(jù)生成部1112以及標簽詳細數(shù)據(jù)生成部1113分別生成文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103,與記錄介質(zhì)1117的被指定的所要求的電子數(shù)據(jù)1100關(guān)聯(lián)地存放所生成的這些數(shù)據(jù)。以下對其步驟加以說明。
首先,在步驟S922中,為了生成上述的各數(shù)據(jù),將必需的[標簽信息]區(qū)域初始化,此后,使處理進至步驟S923。
在步驟S923中,將表示文本數(shù)據(jù)文件名、標簽詳細數(shù)據(jù)文件名以及標簽個數(shù)的數(shù)據(jù)1302~1304記錄到標簽出現(xiàn)位置數(shù)據(jù)1102中,此后,使處理進至步驟S924。作為標簽個數(shù)的數(shù)據(jù)1304,此時記錄初始值‘0’。
在步驟S924以后的處理中,從開頭起以元素為單位對步驟S921中讀入的電子數(shù)據(jù)1100依次進行處理。
在步驟S924中,從電子數(shù)據(jù)1100的開頭起進行檢索以判定有無字符串或者標簽等的元素。若沒有元素,則一直處理到電子數(shù)據(jù)1100的最后的元素,在步驟S934中,將用于表示已經(jīng)沒有元素的數(shù)據(jù)存放到記錄介質(zhì)1117后,結(jié)束圖24的數(shù)據(jù)生成處理,返回原來圖23的處理。此外,也可以跳過步驟S834的處理而結(jié)束數(shù)據(jù)生成處理。另一方面,若存在元素,使處理進至步驟S925。
在步驟S925中,判定元素的類型。當判定結(jié)果為元素是開始標簽或者空標簽時,使處理進至步驟S926;若元素是結(jié)束標簽,則使處理進至步驟S930;若元素是字符串,則使處理進至步驟S933。
在步驟S926中,將該元素標簽的標簽位置數(shù)據(jù)1305記錄到標簽出現(xiàn)位置數(shù)據(jù)1102中。
具體地,由于該元素是標簽,因此,將數(shù)據(jù)1304表示的標簽個數(shù)加1。
接著,對于該標簽進行分析以判斷是開始標簽還是空標簽,根據(jù)分析結(jié)果取得標簽名,記錄所取得的標簽名作為該標簽用的標簽位置數(shù)據(jù)1305的數(shù)據(jù)1306。然后,記錄數(shù)據(jù)1307,其中,該數(shù)據(jù)1307將當前時刻的文本數(shù)據(jù)1101的寫入最終位置作為文本數(shù)據(jù)出現(xiàn)開始位置。若元素是空標簽,則記錄數(shù)據(jù)1308,其中,該數(shù)據(jù)1308將與數(shù)據(jù)1307相同的值作為文本數(shù)據(jù)出現(xiàn)結(jié)束位置。進一步,記錄數(shù)據(jù)1309,使處理進至步驟S927,其中,該數(shù)據(jù)1309將當前時刻的標簽詳細數(shù)據(jù)1103的寫入最終位置作為標簽詳細數(shù)據(jù)存放開始位置。
在步驟S927中,在應暫時預先存儲的[標簽信息]中,追加由步驟S926取得的標簽名和在標簽出現(xiàn)位置數(shù)據(jù)1102中的相應的標簽的[文本數(shù)據(jù)出現(xiàn)結(jié)束位置]的數(shù)據(jù)1308的存放位置信息,使處理進至步驟S928。
在步驟S928中,分析標簽是開始標簽還是結(jié)束標簽,根據(jù)分析結(jié)果,取得該標簽的屬性個數(shù)、屬性名以及屬性值,將取得的上述內(nèi)容作為該標簽的標簽詳細數(shù)據(jù)1401的數(shù)據(jù)1402以及數(shù)據(jù)1403記錄到標簽詳細數(shù)據(jù)1103中,使處理進至步驟S929。
在步驟S929中,在標簽出現(xiàn)位置數(shù)據(jù)1102中記錄當前時刻的標簽詳細數(shù)據(jù)1103的寫入最終位置作為標簽詳細數(shù)據(jù)存放結(jié)束位置的數(shù)據(jù)1310。對于該元素的處理到此結(jié)束,處理返回到步驟S924,對下一元素進行處理。
在步驟S930中,對結(jié)束標簽進行分析,根據(jù)分析結(jié)果,從暫時存儲的[標簽信息]中取得該標簽的標簽名和[文本數(shù)據(jù)出現(xiàn)結(jié)束位置]的存放位置這樣的信息,使處理進至步驟S931。
在步驟S931中,在與步驟S930取得的信息表示的標簽出現(xiàn)位置數(shù)據(jù)1102的存放位置相對應的標簽位置數(shù)據(jù)1305中記錄數(shù)據(jù)1308并使處理進至步驟S932,其中,上述數(shù)據(jù)1308將當前時刻的文本數(shù)據(jù)1101的寫入最終位置作為文本數(shù)據(jù)出現(xiàn)結(jié)束位置。
在步驟S932中,從暫時存儲的[標簽信息]中刪除相應的標簽的信息。對該元素的處理至此結(jié)束,處理返回到步驟S924,對下一元素進行處理。
在步驟S933中,將元素的字符串記錄到文本數(shù)據(jù)1101中。
對該元素的處理至此結(jié)束,處理返回到步驟S924,對下一元素進行處理。
若對于電子數(shù)據(jù)1100中的所有的元素進行上述處理,就完成了該電子數(shù)據(jù)1100的文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103的生成,因此,在步驟S934中,將生成的這些數(shù)據(jù)與該電子數(shù)據(jù)1100關(guān)聯(lián)起來存放到記錄介質(zhì)1117中,結(jié)束這一系列的處理,返回到原來的圖23的處理。
此外,在該實施方式中,以電子數(shù)據(jù)1100是XHTML文檔時的情形為例進行了說明,但并不限于XHTML文檔。例如,對于用XML(可擴展標記語言)等記錄的具有層次結(jié)構(gòu)的電子數(shù)據(jù)1100,也能夠進行相同的處理。
借助于本第3實施方式,采用根據(jù)存儲器容量構(gòu)成的固定長度的標簽出現(xiàn)位置數(shù)據(jù)1102進行處理,能夠高效地僅讀入文本數(shù)據(jù)1101以及標簽詳細數(shù)據(jù)1103各自的一部分的數(shù)據(jù),因此,能夠高速地、且用小容量的存儲器實現(xiàn)數(shù)據(jù)處理。在可預備的存儲器容量小的情況下,本實施方式尤其能發(fā)揮較大的效果。具體地,當標簽信息數(shù)據(jù)是可變長度而并沒有分解成標簽出現(xiàn)位置數(shù)據(jù)1102和標簽詳細數(shù)據(jù)1103的情況下,標簽信息數(shù)據(jù)量恐怕會超過存儲器容量。在本第3實施方式3,僅由固定長度數(shù)據(jù)構(gòu)成標簽出現(xiàn)位置數(shù)據(jù)1102,由此,能夠根據(jù)記錄介質(zhì)1117的可記錄容量等來估計能記錄標簽信息的最大容量,由此,能夠預先生成不會超過該可記錄容量的標簽出現(xiàn)位置數(shù)據(jù)1102的結(jié)構(gòu)。
另外,借助于本實施方式,采用對應的文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102、標簽詳細數(shù)據(jù)1103這樣的個別準備的數(shù)據(jù),對具有層次結(jié)構(gòu)的電子數(shù)據(jù)1100進行數(shù)據(jù)處理,能夠省略有關(guān)于判定處理對象的數(shù)據(jù)是標簽部分還是文本部分的處理,此外能夠減少所需要的存儲器,能夠?qū)崿F(xiàn)處理的高速化和減少消耗的存儲器容量。
(數(shù)據(jù)的變形例)在上述實施方式中,在標簽出現(xiàn)位置數(shù)據(jù)1102中記錄標簽名本身作為標簽名的數(shù)據(jù)1306,但也可以取而代之記錄能夠唯一地識別標簽名的識別序號。
在這種情況下,另外需要記錄標簽名和識別序號的對應關(guān)系的標簽識別信息數(shù)據(jù)。
同樣地,在標簽詳細數(shù)據(jù)1103中,記錄屬性名本身作為屬性名的數(shù)據(jù)AN,但也可以取而代之記錄能夠唯一地識別屬性名的識別序號。在這種情況下,另外需要記錄屬性名和識別序號的對應關(guān)系的屬性識別信息數(shù)據(jù)。
另外,在本實施方式中,針對所要求的電子數(shù)據(jù)1100的全體生成文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103,但生成的對象并不限定于電子數(shù)據(jù)1100的全體。
即,也可以針對電子數(shù)據(jù)1100的用戶所要求的任意的部分數(shù)據(jù)生成文本數(shù)據(jù)1101、標簽出現(xiàn)位置數(shù)據(jù)1102以及標簽詳細數(shù)據(jù)1103。
通過由計算機執(zhí)行描述該數(shù)據(jù)處理步驟的程序,來執(zhí)行上述各實施方式所示的數(shù)據(jù)處理功能。這樣的計算機的結(jié)構(gòu)實例如圖25所示。
參照25,計算機包括與顯示裝置110及511、顯示部1108對應的由CRT(陰極射線管)、液晶等構(gòu)成的監(jiān)視器143;對應于指示輸入部190、510、210、611以及用戶指示處理部1109的鍵盤150、鼠標160、書寫板170;對應于控制部108、209、509、610及1110的用于集中控制該計算機主機的CPU(中央處理裝置的簡稱)122;可對應于數(shù)據(jù)存儲部104、205、504、605以及記錄介質(zhì)1117的包含ROM或RAM(隨即存儲器的簡稱)而構(gòu)成的存儲器124;可對應于記錄介質(zhì)1117的固定盤126;拆裝自由地裝載FD132并且對裝載的FD132進行訪問的FD驅(qū)動裝置130;拆裝自由地裝載CD-ROM142并且訪問裝載的CD-ROM142的CD-ROM驅(qū)動裝置140;因特網(wǎng)等的通信網(wǎng)絡(luò)182;以及用于將該計算機進行通信連接的通信接口180。通過總線通信連接上述的各部分。FD132或CD-ROM142可對應于記錄介質(zhì)1117。
固定盤126或FD132或CD-ROM142對應于記錄介質(zhì)112、212、513、613。通信網(wǎng)絡(luò)182對應于網(wǎng)絡(luò)111、211、512、612以及1115。
計算機中也可以設(shè)置可拆裝地安裝了卡式磁帶的用來訪問卡式磁帶的磁帶裝置。
將用來使上述計算機執(zhí)行上述的數(shù)據(jù)處理方法的程序存放在計算機可讀取的記錄介質(zhì)中。在本實施方式中,該記錄介質(zhì)是由圖25所示的計算機進行處理所必須的存儲器、例如存儲器124之類的存儲器,也可以是存儲器媒體,作為外部存儲裝置,也可以通過設(shè)置未圖示的磁帶裝置以及CD-ROM驅(qū)動裝置140等的程序讀入裝置并且在其中裝載作為存儲媒體的磁帶或CD-ROM142而可讀取的程序媒體。無論哪種情況,所保存的程序既可以是由CPU122訪問執(zhí)行,也可以是在任何一種情況下一旦讀出程序,所讀出的程序裝載到圖25的計算機的預定程序存儲區(qū)域,例如存儲器124的RAM的預定區(qū)域,由CPU122讀出并執(zhí)行。假定該用于加載的計算機程序預先保存在該計算機中。
這里,上述的程序媒體是與計算機主機可分離的記錄介質(zhì),也可以是固定地載有程序的媒體。例如,可以是磁帶或盒式帶等的帶式系列;FD132或固定盤126等的磁盤或CD-ROM142/MO(MagneticOptical Disc磁光盤)/MD(Mini Disc小型盤)/DVD(DigitalVersatile Disc數(shù)字多功能光盤)等的光盤的盤片系列;IC卡(包含存儲器卡)/光卡等的卡系列;或者掩模只讀存儲器(Mask ROM)、EPROM(Erasable and Programmable ROM;可擦可編程只讀存儲器)、BEPROM(Electrically EPROM;電可擦除只讀存儲器)、快閃只讀存儲器(Flash ROM)等的半導體存儲器等。
另外,也可以是流動性持有程序的媒體。即,圖25的計算機采用通過包含因特網(wǎng)在內(nèi)的通信網(wǎng)絡(luò)182以及通信接口180能夠進行連接的結(jié)構(gòu),因此,也可以是從通信網(wǎng)絡(luò)182下載程序的記錄介質(zhì)。在下載程序的情況下,可以將下載用程序預先存放在該計算機主機內(nèi)或者將下載用程序從其他記錄介質(zhì)安裝到該計算機主機內(nèi)。
此外,存放在記錄介質(zhì)中的內(nèi)容并不限定于程序,也可以是數(shù)據(jù)。
應該認為,這里公開的各實施方式在各個方面都只是示例,并不具有限制性。本發(fā)明的權(quán)利要求不是上述說明,而是由權(quán)利要求書示出,并包含權(quán)利要求書的均等意義以及權(quán)利要求范圍內(nèi)的所有變化。
權(quán)利要求
1.一種數(shù)據(jù)處理裝置,其特征在于,具備分析單元(105),受理具有按照文檔描述語言的定義描述的層次結(jié)構(gòu)的數(shù)據(jù)(300),并對上述層次結(jié)構(gòu)進行分析;以及變換單元(106),根據(jù)由上述分析單元(105)所得的分析結(jié)果,將上述數(shù)據(jù)變換成消除了上述層次結(jié)構(gòu)的數(shù)據(jù)(400)。
2.如權(quán)利要求1所述的數(shù)據(jù)處理裝置,其特征在于,具有上述層次結(jié)構(gòu)的數(shù)據(jù)(300)包含多個標簽對,上述標簽對指示由該標簽對包圍的部分數(shù)據(jù)的屬性的信息,上述變換單元(106),在上述部分數(shù)據(jù)中包含與包圍該部分數(shù)據(jù)的上述標簽對指示相同類型的屬性的其他標簽對的情況下,利用包圍該部分數(shù)據(jù)的上述標簽對的屬性信息,對該其他標簽對的屬性信息進行變換。
3.如權(quán)利要求1所述的數(shù)據(jù)處理裝置,其特征在于,上述變換單元(106)進行變換省略掉變換后的數(shù)據(jù)中不需要的信息。
4.如權(quán)利要求1所述的數(shù)據(jù)處理裝置,其特征在于,進一步還具備布局計算單元(207),用來針對通過上述變換單元(106)的變換所得的消除了上述層次結(jié)構(gòu)的數(shù)據(jù)(400)計算用于輸出的布局。
5.如權(quán)利要求1所述的數(shù)據(jù)處理裝置,其特征在于,進一步還具備將具有上述層次結(jié)構(gòu)的數(shù)據(jù)(300)分割成多個塊的分割單元(505),上述分析單元(105)按照由上述分割單元分割的每一個塊受理數(shù)據(jù)并進行分析。
6.一種數(shù)據(jù)處理方法,其特征在于,具備分析步驟(S1002),針對具有按照文檔描述語言的定義描述的層次結(jié)構(gòu)并且存放在預先準備好的記錄區(qū)域中的數(shù)據(jù)(300),分析上述層次結(jié)構(gòu);以及變換步驟(S1004),根據(jù)上述分析步驟(S1002)所得的分析結(jié)果,將存儲在上述記錄區(qū)域中的上述數(shù)據(jù)(300)變換成消除了上述層次結(jié)構(gòu)的數(shù)據(jù)(400)。
7.一種數(shù)據(jù)處理程序,是使計算機執(zhí)行數(shù)據(jù)處理方法的數(shù)據(jù)處理程序,其特征在于,上述數(shù)據(jù)處理方法具備分析步驟(S1002),針對具有按照文檔描述語言的定義描述的層次結(jié)構(gòu)并且存放在預先準備好的記錄區(qū)域中的數(shù)據(jù)(300),分析上述層次結(jié)構(gòu);以及變換步驟(S1004),根據(jù)上述分析步驟(S1002)所得的分析結(jié)果,將存儲在上述記錄區(qū)域中的上述數(shù)據(jù)變換成消除了上述層次結(jié)構(gòu)的數(shù)據(jù)(400)。
8.一種計算機可讀取的記錄介質(zhì),其特征在于,是記錄了用于使計算機執(zhí)行數(shù)據(jù)處理方法的數(shù)據(jù)處理程序的計算機可讀取的記錄介質(zhì),上述數(shù)據(jù)處理方法具備分析步驟(S1002),針對具有按照文檔描述語言的定義描述的層次結(jié)構(gòu)并且存放在預先準備好的記錄區(qū)域中的數(shù)據(jù)(300),分析上述層次結(jié)構(gòu);以及變換步驟(S1004),根據(jù)上述分析步驟(S1002)所得的分析結(jié)果,將存儲在上述記錄區(qū)域中的上述數(shù)據(jù)(300)變換成消除了上述層次結(jié)構(gòu)的數(shù)據(jù)(400)。
9.一種數(shù)據(jù)處理裝置(1118),其特征在于,是處理電子數(shù)據(jù)(1100)的數(shù)據(jù)處理裝置(1118),其中,上述電子數(shù)據(jù)(1100)包含文本數(shù)據(jù)和在上述文本數(shù)據(jù)中出現(xiàn)的多個標簽,并且采用上述多個標簽構(gòu)成層次結(jié)構(gòu),具備輸入單元(1104),輸入記錄有上述文本數(shù)據(jù)的文本信息(1101)、與上述多個標簽的每一個對應地記錄表示該標簽的屬性的屬性數(shù)據(jù)的標簽詳細信息(1103)、以及記錄有對于上述多個標簽的每一個表示該標簽在上述文本數(shù)據(jù)中的出現(xiàn)位置的出現(xiàn)位置數(shù)據(jù)的標簽出現(xiàn)位置信息(1102);文本讀出單元,從由上述輸入單元(1104)輸入的上述文本信息(1101)中,讀出與上述電子數(shù)據(jù)(1100)的處理對象的任意區(qū)域?qū)纳鲜鑫谋緮?shù)據(jù);屬性讀出單元,根據(jù)由上述輸入單元(1104)輸入的上述標簽出現(xiàn)位置信息(1102),確定在與上述任意區(qū)域?qū)纳鲜鑫谋緮?shù)據(jù)中出現(xiàn)的上述標簽,從由上述輸入單元(1104)輸入的上述標簽詳細信息(1103)中讀出上述所確定的上述標簽的上述屬性數(shù)據(jù);以及處理單元(1106),根據(jù)由上述屬性讀出單元讀出的上述屬性數(shù)據(jù),處理由上述文本讀出單元讀出的上述文本數(shù)據(jù)。
10.如權(quán)利要求9所述的數(shù)據(jù)處理裝置(1118),其特征在于,上述出現(xiàn)位置數(shù)據(jù)是固定長度的數(shù)據(jù)。
11.如權(quán)利要求9所述的數(shù)據(jù)處理裝置(1118),其特征在于,上述出現(xiàn)位置數(shù)據(jù)包含表示上述文本數(shù)據(jù)中的該標簽的有效范圍的有效范圍數(shù)據(jù)和表示在上述標簽詳細信息(1103)中記錄該標簽的上述屬性數(shù)據(jù)的位置的記錄位置數(shù)據(jù);上述屬性讀出單元根據(jù)上述有效范圍數(shù)據(jù)確定與上述任意區(qū)域相應的標簽,根據(jù)所確定的上述標簽的上述記錄位置數(shù)據(jù),從上述標簽詳細信息(1103)中讀出該標簽的上述屬性數(shù)據(jù)。
12.如權(quán)利要求11所述的數(shù)據(jù)處理裝置(1118),其特征在于,上述有效范圍數(shù)據(jù)表示上述文本數(shù)據(jù)中該標簽的屬性有效的部分的數(shù)據(jù)的開始位置和結(jié)束位置。
13.如權(quán)利要求11所述的數(shù)據(jù)處理裝置(1118),其特征在于,上述有效范圍數(shù)據(jù)表示上述文本數(shù)據(jù)中該標簽的屬性有效的部分的數(shù)據(jù)的開始位置和該部分數(shù)據(jù)的大小。
14.如權(quán)利要求11所述的數(shù)據(jù)處理裝置(1118),其特征在于,上述記錄位置數(shù)據(jù)表示在上述標簽詳細信息(1103)中該標簽的上述屬性數(shù)據(jù)的記錄開始位置和結(jié)束位置。
15.如權(quán)利要求11所述的數(shù)據(jù)處理裝置(1118),其特征在于,上述記錄位置數(shù)據(jù)表示在上述標簽詳細信息(1103)中該標簽的上述屬性數(shù)據(jù)的記錄開始位置和該屬性數(shù)據(jù)的大小。
16.如權(quán)利要求9所述的數(shù)據(jù)處理裝置(1118),其特征在于,上述處理單元(1106)具有布局計算單元(1107),上述布局計算單元(1107)針對由上述文本讀出單元讀出的上述文本數(shù)據(jù),根據(jù)上述屬性讀出單元讀出的上述屬性數(shù)據(jù)計算布局。
17.如權(quán)利要求9所述的數(shù)據(jù)處理裝置(1118),其特征在于,具備下述單元中的至少一個,即文本信息生成單元(1111),對上述電子數(shù)據(jù)(1100)進行檢索,提取上述文本數(shù)據(jù)并進行記錄,生成上述文本信息(1101);標簽詳細信息生成單元(1113),對上述電子數(shù)據(jù)(1100)進行檢索并在每次檢索到上述標簽時,與該標簽對應地記錄上述屬性數(shù)據(jù),生成上述標簽詳細信息(1103);以及標簽出現(xiàn)位置信息生成單元(1112),對上述電子數(shù)據(jù)(1100)進行檢索并在每次檢索到上述標簽時,與該標簽對應地記錄上述出現(xiàn)位置數(shù)據(jù)并生成上述標簽出現(xiàn)位置信息(1102)。
18.如權(quán)利要求17所述的數(shù)據(jù)處理裝置(1118),其特征在于,上述文本信息生成單元(1111)對上述電子數(shù)據(jù)(1100)的上述任意區(qū)域進行檢索,提取上述文本數(shù)據(jù)并進行記錄,生成上述文本信息(1101);上述標簽詳細信息生成單元(1113)對上述電子數(shù)據(jù)(1100)的上述任意區(qū)域進行檢索并在每次檢索到上述標簽時,與該標簽對應地記錄上述屬性數(shù)據(jù)并生成上述標簽詳細信息(1103),標簽位置信息生成單元(1112)對上述電子數(shù)據(jù)(1100)的上述任意區(qū)域進行檢索并在每次檢索到上述標簽時,與該標簽對應地記錄上述出現(xiàn)位置數(shù)據(jù)并生成上述標簽出現(xiàn)位置信息(1102)。
19.如權(quán)利要求9所述的數(shù)據(jù)處理裝置(1118),其特征在于,進一步具備判斷是否可由上述輸入單元(1104)輸入用于上述電子數(shù)據(jù)(1100)的上述文本信息(1101)、上述標簽出現(xiàn)位置信息(1102)以及上述標簽詳細信息(1103)的單元。
20.一種數(shù)據(jù)處理方法,其特征在于,是處理電子數(shù)據(jù)(1100)的數(shù)據(jù)處理方法,其中,上述電子數(shù)據(jù)包含文本數(shù)據(jù)和在上述文本數(shù)據(jù)中出現(xiàn)的多個標簽,并且采用上述多個標簽構(gòu)成層次結(jié)構(gòu),具備輸入步驟,輸入記錄有上述文本數(shù)據(jù)的文本信息(1101)、與上述多個標簽的每一個對應地記錄有表示該標簽的屬性的屬性數(shù)據(jù)的標簽詳細信息(1103)、以及記錄有對于上述多個標簽的每一個表示該標簽在上述文本數(shù)據(jù)中的出現(xiàn)位置的出現(xiàn)位置數(shù)據(jù)的標簽出現(xiàn)位置信息(1102);文本讀出步驟(S906),從由上述輸入步驟輸入的上述文本信息(1101)中,讀出與上述電子數(shù)據(jù)(1100)的處理對象的任意區(qū)域?qū)纳鲜鑫谋緮?shù)據(jù);屬性讀出步驟(S907),根據(jù)由上述輸入步驟輸入的上述標簽出現(xiàn)位置信息(1102),確定在與上述任意區(qū)域?qū)纳鲜鑫谋緮?shù)據(jù)中出現(xiàn)的上述標簽,從由上述輸入步驟輸入的上述標簽詳細信息(1103)中讀出上述所確定的上述標簽的上述屬性數(shù)據(jù);以及處理步驟(S909、S910),根據(jù)在上述屬性讀出步驟(S906)中讀出的上述屬性數(shù)據(jù),處理由上述文本讀出步驟(S906)讀出的上述文本數(shù)據(jù)。
21.一種數(shù)據(jù)處理程序,其特征在于,是用于使計算機執(zhí)行處理電子數(shù)據(jù)(1100)的數(shù)據(jù)處理方法的數(shù)據(jù)處理程序,其中上述電子數(shù)據(jù)(1100)包含文本數(shù)據(jù)和在上述文本數(shù)據(jù)中出現(xiàn)的多個標簽并且采用上述多個標簽構(gòu)成層次結(jié)構(gòu),上述數(shù)據(jù)處理方法具備輸入步驟,輸入記錄有上述文本數(shù)據(jù)的文本信息(1101)、與上述多個標簽的每一個對應地記錄表示該標簽的屬性的屬性數(shù)據(jù)的標簽詳細信息(1103)、以及記錄有對于上述多個標簽的每一個表示該標簽在上述文本數(shù)據(jù)中的出現(xiàn)位置的出現(xiàn)位置數(shù)據(jù)的標簽出現(xiàn)位置信息(1102);文本讀出步驟(S906),從由上述輸入步驟輸入的上述文本信息(1101)中,讀出與上述電子數(shù)據(jù)(1100)的處理對象的任意區(qū)域?qū)纳鲜鑫谋緮?shù)據(jù);屬性讀出步驟(S907),根據(jù)由上述輸入步驟輸入的上述標簽出現(xiàn)位置信息(102),確定在與上述任意區(qū)域?qū)纳鲜鑫谋緮?shù)據(jù)中出現(xiàn)的上述標簽,從由上述輸入步驟輸入的上述標簽詳細信息(1103)中讀出上述所確定的上述標簽的上述屬性數(shù)據(jù);以及處理步驟(S909、S910),根據(jù)在上述屬性讀出步驟(S906)中讀出的上述屬性數(shù)據(jù),處理由上述文本讀出步驟(S906)讀出的上述文本數(shù)據(jù)。
22.一種計算機可讀取的記錄介質(zhì),其特征在于,是記錄了用于使計算機執(zhí)行處理電子數(shù)據(jù)(1100)的數(shù)據(jù)處理方法的數(shù)據(jù)處理程序的計算機可讀取的記錄介質(zhì),其中,上述電子數(shù)據(jù)(1100)包含文本數(shù)據(jù)和在上述文本數(shù)據(jù)中出現(xiàn)的多個標簽并且采用上述多個標簽構(gòu)成層次結(jié)構(gòu),上述數(shù)據(jù)處理方法具備輸入步驟,輸入記錄有上述文本數(shù)據(jù)的文本信息(1101)、與上述多個標簽的每一個對應地記錄表示該標簽的屬性的屬性數(shù)據(jù)的標簽詳細信息(1103)、以及記錄有對于上述多個標簽的每一個表示該標簽在上述文本數(shù)據(jù)中的出現(xiàn)位置的出現(xiàn)位置數(shù)據(jù)的標簽出現(xiàn)位置信息(1102);文本讀出步驟(S906),從由上述輸入步驟輸入的上述文本信息(1101)中,讀出與上述電子數(shù)據(jù)(1100)的處理對象的任意區(qū)域?qū)纳鲜鑫谋緮?shù)據(jù);屬性讀出步驟(S907),根據(jù)由上述輸入步驟輸入的上述標簽出現(xiàn)位置信息(1102),確定在與上述任意區(qū)域?qū)纳鲜鑫谋緮?shù)據(jù)中出現(xiàn)的上述標簽,從由上述輸入步驟輸入的上述標簽詳細信息(1103)中讀出上述所確定的上述標簽的上述屬性數(shù)據(jù);以及處理步驟(S909、S910),根據(jù)在上述屬性讀出步驟(S906)中讀出的上述屬性數(shù)據(jù),處理由上述文本讀出步驟(S906)讀出的上述文本數(shù)據(jù)。
全文摘要
受理具有按照XML定義描述的層次結(jié)構(gòu)的數(shù)據(jù)(300)并分析層次結(jié)構(gòu),根據(jù)分析結(jié)果變換成消除了層次結(jié)構(gòu)的數(shù)據(jù)(400)。數(shù)據(jù)(300)包含多個由標簽(302、303、305、307、310)構(gòu)成的標簽對,標簽對指示由該標簽對包圍的部分的字符串(304、305、309)的縮進或者顯示顏色的屬性值。當在由標簽對包圍的部分中包含與包圍該部分的標簽對指示相同類型的屬性的其他標簽對的情況下,通過變換處理,變換該其他標簽對的屬性值以反映出包圍該部分的標簽對的屬性值。其結(jié)果是,將數(shù)據(jù)(300)變換成消除了其層次結(jié)構(gòu)的數(shù)據(jù)(400)。
文檔編號G06F3/14GK1826595SQ20048002109
公開日2006年8月30日 申請日期2004年5月14日 優(yōu)先權(quán)日2003年5月22日
發(fā)明者光富智雄, 門脅干宏, 北村義弘, 巖崎圭介, 澤田裕司 申請人:夏普株式會社