專利名稱:用于較小顯示裝置的網(wǎng)頁內(nèi)容譯碼系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種網(wǎng)頁內(nèi)容轉(zhuǎn)換技術(shù),并且具體地說涉及用于小型顯示裝置的網(wǎng)頁內(nèi)容譯碼(轉(zhuǎn)換)系統(tǒng)和方法,在小型顯示裝置中,可以將預(yù)制的適合于通用桌面?zhèn)€人計算機(jī)的顯示性能的網(wǎng)頁文件轉(zhuǎn)換為甚至可以在小型顯示器上有效地顯示的文件。
背景技術(shù):
最近,隨著移動通信和小型裝置技術(shù)的快速發(fā)展,將這些技術(shù)移植到因特網(wǎng)上,形成無線因特網(wǎng)環(huán)境并且開始滿足人們希望在任何時候和任何地方使用網(wǎng)絡(luò)的希望。然而,通過有線因特網(wǎng),使產(chǎn)生的網(wǎng)絡(luò)信息適合臺式計算機(jī)的顯示大小,并且通過小型顯示裝置進(jìn)行瀏覽,現(xiàn)有的技術(shù)具有如下缺點由于它超出了小型顯示裝置的性能,因此不能很好地在小型顯示裝置上顯示內(nèi)容信息。
為了解決這個缺點,已經(jīng)提出了多種內(nèi)容轉(zhuǎn)換方法。最初的方法的主流是簡單的轉(zhuǎn)換正文概要,以便支持蜂窩式電話系列裝置或低性能PDA(個人數(shù)字助理)等等,不能較好的顯示用戶需要的大量信息。這是由于裝置性能的限制造成的,主要使用具有簡單的表示能力的無線因特網(wǎng)標(biāo)記語言,例如文本或HDML(手持裝置標(biāo)志語言)、WML(無線標(biāo)志語言)等等。
現(xiàn)有的轉(zhuǎn)換具有如下缺點因為只提取和轉(zhuǎn)換現(xiàn)有的網(wǎng)絡(luò)信息內(nèi)容的一部分,它很難精確地將當(dāng)前的復(fù)雜結(jié)構(gòu)的如具有同時表示的大量圖像和信息的網(wǎng)頁精確地進(jìn)行轉(zhuǎn)換。
之后,隨著PDA、手提式個人電腦等等高性能裝置的出現(xiàn),為此不斷地研究轉(zhuǎn)換的方法。結(jié)果,出現(xiàn)了由IBM制造的在服務(wù)器中的轉(zhuǎn)換工具,例如WebSphere Converting Publisher、Sypglass、Prism等等。轉(zhuǎn)換工具使用了一種方法,在該方法中,網(wǎng)絡(luò)服務(wù)器通過它的人工管理轉(zhuǎn)換,以便更精確地轉(zhuǎn)換網(wǎng)頁內(nèi)容。該轉(zhuǎn)換工具具有如下缺點執(zhí)行非自動的轉(zhuǎn)換,且與在有線因特網(wǎng)上的大量文件相比轉(zhuǎn)換的文件范圍有限。
此外,作為裝置中的一個運行的轉(zhuǎn)換方法,有Smart View、Pad++等等用于提供縮小/放大功能。所述的Smart View、Pad++等等具有如下優(yōu)點可以更精確地了解裝置性能,可以容易地反映用戶的要求,但是存在的問題在于,用圖像檢查在全部頁面上的通用信息之后,再一次檢查被縮小的內(nèi)容,以便通過利用在頁面上的每個內(nèi)容的縮小界面了解到真實的內(nèi)容。
此外,作為在代理服務(wù)器上運行的轉(zhuǎn)換方法,有Top Gun Wingman和匯編器,其中Top Gun Wingman提供了用于掌上裝置的瀏覽器的轉(zhuǎn)換代理,而匯編器支持全部手持或蜂窩系列裝置等等。匯編器根據(jù)多種啟發(fā)式轉(zhuǎn)換方法執(zhí)行轉(zhuǎn)換,所述的啟發(fā)式轉(zhuǎn)換方法是通過由人和恰當(dāng)?shù)膽?yīng)用規(guī)則直接執(zhí)行的轉(zhuǎn)換獲得的。為了準(zhǔn)確的轉(zhuǎn)換,使用了大量復(fù)雜的算法,關(guān)于轉(zhuǎn)換結(jié)果的信息被以概要、放大或頁面劃分等等表示。然而,缺點是用于基于有限的信息表示方法、復(fù)雜的分類結(jié)構(gòu)、和大量超級鏈接索引的使用來產(chǎn)生的信息檢索的界面是不方便的。
其它公知的現(xiàn)有技術(shù)在韓國專利公開號為2002 31691(申請?zhí)?0 2000 0062342)、發(fā)明名稱為“Real-time internet content convertingmethod and system(實時因特網(wǎng)內(nèi)容轉(zhuǎn)換方法和系統(tǒng))”,和韓國專利公開號為2002 15223(申請?zhí)?0 2000 0048415)的“Contentformulation system and method(內(nèi)容處理系統(tǒng)和方法)”中進(jìn)行了公開。這樣,“Real-time internet content converting method and system(實時因特網(wǎng)內(nèi)容轉(zhuǎn)換方法和系統(tǒng))”使用了預(yù)先確定的規(guī)則提取內(nèi)容文件內(nèi)容、劃分頁面或轉(zhuǎn)換成其它的標(biāo)志語言。僅執(zhí)行了轉(zhuǎn)換成為文件概要,沒有詳細(xì)公開文件分析方法和再表示方法。此外,“Contentformulation system and method(內(nèi)容處理系統(tǒng)和方法)”僅引用了小型裝置用戶有線網(wǎng)頁內(nèi)容的轉(zhuǎn)換系統(tǒng)的通用結(jié)構(gòu)。
因此,現(xiàn)有的網(wǎng)頁文件轉(zhuǎn)換方法沒有反映裝置性能的快速發(fā)展的設(shè)備,并以某種僅提取具體的內(nèi)容或內(nèi)容概要、表示的復(fù)雜的分類結(jié)構(gòu)、頁面劃分和連接關(guān)系的方式進(jìn)行轉(zhuǎn)換。不能為清楚地分析、轉(zhuǎn)換和表示方法提供詳細(xì)建議。也就是說,在大多數(shù)早期的研究中,執(zhí)行的簡單的文本概要轉(zhuǎn)換是用于低性能蜂窩電話系列裝置的。最近,已經(jīng)出現(xiàn)了高性能掌上型的器材,但是用于內(nèi)容簡化的轉(zhuǎn)換還是主流,所述的內(nèi)容簡化是例如內(nèi)容概要、圖像刪除等等?;蛘撸峁┝隧撁鎰澐趾褪褂面溄拥捻撁骀溄拥姆椒?,但是如果鏈接深度加深,即使沒有重要的內(nèi)容概要,有這樣一個困難即很難理解全部的內(nèi)容,并且再次返回前一頁。
發(fā)明內(nèi)容
因此,本發(fā)明涉及根據(jù)要素解析多個文件的系統(tǒng)和方法,它基本上避免了由現(xiàn)有技術(shù)造成的限制和缺點所產(chǎn)生的一個或多個問題。
因此,本發(fā)明涉及用于小型顯示裝置的網(wǎng)頁內(nèi)容轉(zhuǎn)換系統(tǒng)和方法,它基本上避免了由于現(xiàn)有技術(shù)造成的限制和缺點所產(chǎn)生的一個或多個問題。
本發(fā)明的目標(biāo)是提供用于小型顯示裝置的網(wǎng)頁內(nèi)容轉(zhuǎn)換系統(tǒng)和方法,其中考慮到用戶裝置的性能改進(jìn),包括很多復(fù)雜的信息的現(xiàn)有網(wǎng)頁文件可以被轉(zhuǎn)換成可以最大限度的反映原始文件的內(nèi)容文件,同時具有適當(dāng)?shù)慕缑妗?br>
本發(fā)明的其它優(yōu)點、目的和特征將在說明書中被部分地進(jìn)行闡述,并且對本領(lǐng)域的普通技術(shù)人員來講依據(jù)以下試驗或通過對本發(fā)明的學(xué)習(xí)將變得顯而易見。本發(fā)明的目的和其它優(yōu)點可以通過說明書和權(quán)利要求書以及說明書附圖的描述中指出的特定結(jié)構(gòu)獲得并且實現(xiàn)。
為了實現(xiàn)這些目標(biāo)及其它優(yōu)點并且根據(jù)本發(fā)明的目的,在此具體并且廣泛地進(jìn)行說明,在此提供了一網(wǎng)頁內(nèi)容轉(zhuǎn)換系統(tǒng),該內(nèi)容轉(zhuǎn)換系統(tǒng)將大顯示屏幕的網(wǎng)頁文件轉(zhuǎn)換為小顯示屏幕的網(wǎng)頁文件,該系統(tǒng)包括預(yù)處理器,其用于標(biāo)準(zhǔn)化具有錯誤標(biāo)記的非標(biāo)準(zhǔn)的網(wǎng)頁文件,將該標(biāo)準(zhǔn)化網(wǎng)頁文件以適合于分析的數(shù)據(jù)格式進(jìn)行輸出;用于提取和管理客戶信息的客戶個人文件分析器;結(jié)構(gòu)分析器,用于接收在預(yù)處理器中的標(biāo)準(zhǔn)化網(wǎng)頁文件,以根據(jù)文件分析算法將網(wǎng)頁文件設(shè)定為內(nèi)容單元塊(成分(component));圖像轉(zhuǎn)換器,用于在圖像編碼/解碼步驟提取信息和包括在網(wǎng)頁文件中的圖像大??;成分塊析取器,用于通過使用內(nèi)容單元塊(成分)的屬性值和客戶性能信息,將設(shè)定內(nèi)容單元塊(成分)在不超過最大的寬度范圍內(nèi)分組為相似組;成分塊分類器,用于根據(jù)內(nèi)容特征,對由成分塊析取器產(chǎn)生的每個成分塊進(jìn)行分類,分類為索引和正文體部分;索引產(chǎn)生器,用于提取圖像上的信息或來自被分類為索引部分的成分塊的文本索引,并且產(chǎn)生腳本文件和附加的標(biāo)記集合,該附加的標(biāo)記集合用于表示被提取的信息;語音標(biāo)志產(chǎn)生器,用于將文本中心正文體內(nèi)容塊轉(zhuǎn)換為語音標(biāo)志語言,以便實現(xiàn)語音支持功能;和超級文本標(biāo)志語言(HTML)產(chǎn)生器,用于根據(jù)文件模式重新布置和重新產(chǎn)生內(nèi)容對象要素,以產(chǎn)生小型顯示屏的網(wǎng)頁文件。
在本發(fā)明的另一個特征中,提供了網(wǎng)頁內(nèi)容轉(zhuǎn)換方法,用于將個大顯示屏幕的網(wǎng)頁文件轉(zhuǎn)換為小顯示屏幕的網(wǎng)頁文件,該方法包括預(yù)處理步驟,用于標(biāo)準(zhǔn)化包括錯誤標(biāo)記的非標(biāo)準(zhǔn)的網(wǎng)頁文件,將該標(biāo)準(zhǔn)化網(wǎng)頁文件以適合于分析的數(shù)據(jù)格式進(jìn)行輸出;網(wǎng)頁文件分析步驟,用于接收標(biāo)準(zhǔn)化網(wǎng)頁文件,并且根據(jù)文件分析算法分析標(biāo)記,以將網(wǎng)頁文件設(shè)定為內(nèi)容單元塊(成分);成分塊設(shè)定步驟,用于通過使用內(nèi)容單元塊(成分)的屬性值和客戶性能信息,將設(shè)定內(nèi)容單元塊(成分)在不超過最大的寬度范圍內(nèi)分組為相似組;成分塊分類步驟,用于根據(jù)內(nèi)容特征,對由成分塊析取器產(chǎn)生的每個成分塊進(jìn)行分類,分類成為索引和正文體部分;索引產(chǎn)生步驟,用于提取在圖像上的信息,或來自被分類為索引部分的成分塊的文本索引,并且產(chǎn)生腳本文件和附加的標(biāo)記集合,該附加的標(biāo)記集合用于表示被提取的信息;語音標(biāo)志產(chǎn)生步驟,用于將文本中心正文體內(nèi)容塊轉(zhuǎn)換為語音標(biāo)志語言,以便實現(xiàn)語音支持功能;和超級文本標(biāo)志語言(HTML)產(chǎn)生步驟,用于根據(jù)文件模式重新布置和重新產(chǎn)生的內(nèi)容對象要素,以產(chǎn)生小型顯示屏網(wǎng)頁文件。
根據(jù)上述結(jié)構(gòu)和方法,本發(fā)明提供了適當(dāng)?shù)慕缑妫渲芯W(wǎng)頁文件的特征是通過內(nèi)容單元塊的重排反映同時表示的很多現(xiàn)有復(fù)雜信息,而沒有現(xiàn)有的信息提取和匯總方法,并且同時支持可見和聲音表示,且不用通過索引生成和內(nèi)容單元塊的分類左右卷屏,并且將網(wǎng)頁文件轉(zhuǎn)化成語音支持的文件格式,而不使用沒有更深的或頁面劃分的索引結(jié)構(gòu)的現(xiàn)有方法。
因此,在本發(fā)明中,通過內(nèi)容單元塊的重排,不用左右卷屏就可以瀏覽全部網(wǎng)頁文件,索引塊的選擇和多種索引產(chǎn)生的功能考慮了顯示裝置的屏幕大小,在文字中心內(nèi)容正文體塊的情況下,可以通過轉(zhuǎn)化成語音支持的標(biāo)志語言提供更方便的界面,通過適當(dāng)?shù)貥?gòu)造用于小屏幕大小的結(jié)構(gòu),最大限度地反映最初的網(wǎng)頁文件的內(nèi)容。
應(yīng)當(dāng)理解的是上述本發(fā)明的一般說明及其后的詳細(xì)說明是示范性的和說明用的,并且為本發(fā)明的權(quán)利要求提供更進(jìn)一步的說明。
附圖是為了能進(jìn)一步了解本發(fā)明而包含的,并且被納入本說明書中構(gòu)成本說明書的一部分,這些附圖示出了一個或多個本發(fā)明的實施例,并用于與本說明書一起對本發(fā)明的原理進(jìn)行說明。在相關(guān)的附圖中圖1是一個示范性的視圖,示出了經(jīng)由可見分類和分組的網(wǎng)頁文件,該網(wǎng)頁文件用于表示彼此不同的成分塊;圖2是一個概念上的視圖,示出了根據(jù)本發(fā)明的優(yōu)選實施例的用于小型顯示裝置的網(wǎng)頁內(nèi)容轉(zhuǎn)換系統(tǒng)的模塊結(jié)構(gòu);圖3是一個視圖,示出了表格標(biāo)記的表示分類關(guān)系;圖4是一個流程圖,示出了根據(jù)本發(fā)明的優(yōu)選實施例的用于小型顯示裝置的網(wǎng)頁內(nèi)容轉(zhuǎn)換系統(tǒng)的操作步驟;圖5是一個流程圖,示出了圖4的網(wǎng)頁文件分析步驟的詳細(xì)算法;圖6是一個流程圖,示出了圖4的成分塊設(shè)定步驟的詳細(xì)算法;圖7A和7B是示范性的視圖,用于說明根據(jù)本發(fā)明的優(yōu)選實施例的網(wǎng)頁文件分析步驟和成分塊提取步驟;圖8是一個流程圖,示出了圖4的成分塊分類步驟的詳細(xì)算法;圖9A和9B是示范性的視圖,示出了根據(jù)本發(fā)明的優(yōu)選實施例的網(wǎng)頁內(nèi)容的轉(zhuǎn)換結(jié)果。
具體實施例方式
現(xiàn)在將對本發(fā)明的優(yōu)選實施例作出詳細(xì)地說明,其中的例子是在相關(guān)附圖中示出的例子。只要可能,自始至終使用相同的附圖標(biāo)記表示相同或相似的內(nèi)容。
圖1是一個示范性的視圖,示出了經(jīng)由可見分類和分組的網(wǎng)頁文件,該網(wǎng)頁文件用于表示彼此不同的成分塊。
參考圖1,網(wǎng)頁文件被使用版面和結(jié)構(gòu)的標(biāo)記設(shè)計為內(nèi)容的可見分類,且所述的內(nèi)容的可見分類具有有意義的差別,從而使HTML(超級文本標(biāo)志語言)的生產(chǎn)商清楚地發(fā)送內(nèi)容。大多數(shù)可見分類使用結(jié)構(gòu)表示的標(biāo)記,例如“表格”等等,并且相應(yīng)地,該標(biāo)記可以被分析,以便理解全部的結(jié)構(gòu)。在這時候,認(rèn)為標(biāo)記集合的一些不明智的使用、結(jié)構(gòu)中不清楚的分類和HTML本身的含義使用了標(biāo)記的屬性值,標(biāo)記的數(shù)據(jù)特征和用于表示標(biāo)記目標(biāo)的數(shù)據(jù)信息的位置信息等等,以及結(jié)構(gòu)的標(biāo)記來用于進(jìn)行分析。
通過網(wǎng)頁文件的結(jié)構(gòu)分析,設(shè)定了構(gòu)成如圖1所示的可見分類版面的最小的內(nèi)容單元塊101(稱作“成分”),并且考慮到性能,特別是用戶裝置的顯示性能,將內(nèi)容單元塊101分組,用內(nèi)容單元塊(稱作“成分塊”)102來表示。
根據(jù)內(nèi)容的特征將內(nèi)容單元塊102分類為“索引”內(nèi)容和“內(nèi)容正文體”部分,并且分別以適當(dāng)?shù)男问皆俦硎?。以如圖9A的121所示的向上選擇框的格式再表示索引部分,這點將在稍后進(jìn)行說明,僅對正文體部分進(jìn)行重新布置,不用進(jìn)行任何轉(zhuǎn)化成圖9A的122所示的主要的內(nèi)容部分的步驟,或轉(zhuǎn)化成圖9B的123所示的語音可支持的文件格式來表示。
圖2是一個概念上的視圖,示出根據(jù)本發(fā)明的優(yōu)選實施例的用于小型顯示裝置的網(wǎng)頁內(nèi)容轉(zhuǎn)換系統(tǒng)的模塊結(jié)構(gòu),圖4是一個流程圖,示出了根據(jù)本發(fā)明的優(yōu)選實施例的用于小型顯示裝置的網(wǎng)頁內(nèi)容轉(zhuǎn)換系統(tǒng)的操作步驟。
如圖2所示,根據(jù)本發(fā)明的內(nèi)容轉(zhuǎn)換系統(tǒng)詳細(xì)地包括模塊201到209,其用于執(zhí)行預(yù)處理步驟(S1)、網(wǎng)頁文件分析步驟(S2)、網(wǎng)頁文件轉(zhuǎn)換步驟(S3)、網(wǎng)頁文件產(chǎn)生步驟(S4)的操作。
在預(yù)處理器201和客戶個人文件分析器202中執(zhí)行預(yù)處理步驟(S1)。預(yù)處理器標(biāo)準(zhǔn)化包括錯誤標(biāo)記的非標(biāo)準(zhǔn)的網(wǎng)頁文件,將該標(biāo)準(zhǔn)化網(wǎng)頁文件以適合于分析的數(shù)據(jù)格式進(jìn)行輸出;所述的客戶個人文件分析器202執(zhí)行接收客戶信息的功能。所述的客戶信息可以被包括在用于傳輸?shù)某壩谋緜鬏攨f(xié)議HTTP報頭字段中,或可以利用用于傳輸?shù)木唧w的通信協(xié)議。此外,在所述的預(yù)處理步驟(S1)中執(zhí)行和外部模塊的輸入/輸出管理。
在網(wǎng)頁文件分析步驟(S2)中,基于版面的結(jié)構(gòu)分析器203接收在預(yù)處理步驟(S1)中標(biāo)準(zhǔn)化的網(wǎng)頁文件,并且通過網(wǎng)頁文件分析算法將網(wǎng)頁文件設(shè)置為內(nèi)容單元塊(成分)。圖像轉(zhuǎn)換器204提取有關(guān)圖像編碼/解碼操作和網(wǎng)頁文件的圖像大小的信息。
在網(wǎng)頁文件轉(zhuǎn)換步驟(S3)中,成分塊析取器205在不超過一個屏幕的最大寬度(MAXWIDTH)的范圍內(nèi),通過使用與客戶性能和內(nèi)容單元塊(成分)的屬性值相關(guān)的信息,將被定義的內(nèi)容單元塊(成分)分組為相似塊。成分塊分類器206根據(jù)內(nèi)容的特征將每個成分塊分類為“索引”和“正文體部分”內(nèi)容。
網(wǎng)頁文件產(chǎn)生步驟(S4)執(zhí)行產(chǎn)生必要的內(nèi)容對象的操作。索引產(chǎn)生器207從索引分類的成分塊中提取圖像或文本索引信息,并且產(chǎn)生用于表示提取的信息的正本文件和附加的標(biāo)記集合。聲音標(biāo)志產(chǎn)生器208執(zhí)行轉(zhuǎn)換操作,將文本中心正文體內(nèi)容塊轉(zhuǎn)換為標(biāo)志語言,所述的標(biāo)志語言是例如語音XML等等,以便執(zhí)行聲音支持的功能。在這時,瀏覽器應(yīng)該提供將聲音信息的網(wǎng)頁文件變?yōu)槁曇舻墓δ堋W詈?,定制的HTML產(chǎn)生器209適當(dāng)?shù)剡M(jìn)行重新布置,并且根據(jù)文件模式再構(gòu)造在早期步驟中產(chǎn)生的內(nèi)容對象要素,以產(chǎn)生定制的網(wǎng)頁文件。
圖4是一個流程圖,用于說明圖2的全部操作步驟。參考附圖,輸入最初的HTML文件以標(biāo)準(zhǔn)化HTML文件,然后輸出具有HTMLDOM樹格式的數(shù)據(jù)結(jié)構(gòu)(401到403)。在圖2的預(yù)處理器201模塊中執(zhí)行這些步驟。在網(wǎng)頁文件分析(HTML標(biāo)記分析)步驟404中,輸入樹數(shù)據(jù),以便分析標(biāo)記,在圖2的結(jié)構(gòu)分析器203和圖像轉(zhuǎn)換器204中執(zhí)行這些操作。下面將參考圖5的流程圖詳細(xì)說明網(wǎng)頁文件分析步驟404的詳細(xì)算法。
在標(biāo)記分析步驟之后,在圖2的成分塊析取器205中執(zhí)行成分塊設(shè)定步驟405,在圖2的成分塊分類器206中執(zhí)行下一個成分塊步驟406。參考圖6和8的流程圖說明成分塊設(shè)定步驟405和成分塊分類步驟406的每一個算法。
首先,參考圖5,對網(wǎng)頁文件分析步驟404的詳細(xì)算法進(jìn)行說明。
本發(fā)明的分析算法將就如下情況進(jìn)行說明,其中主要使用了例如<TABLE>、<TR>、<TD>、<IMG>等標(biāo)記,具體的標(biāo)記<TD>被定義為將被作為內(nèi)容單元分析的最小單元使用的成分。
首先,輸入HTML文件樹數(shù)據(jù)結(jié)構(gòu),通過用戶裝置接收的最大屏幕寬度被定義為最大的寬度“MAX_WIDTH”(501,502)。在分析操作中,將表格1中的信息另外存儲在標(biāo)記節(jié)點<TD>中,且稍后用來提取成分塊。
表格1
在步驟502的初始化全程變量結(jié)束之后,重復(fù)地執(zhí)行以下操作(503)的過程中,以預(yù)先確定順序的序列訪問所有的標(biāo)記節(jié)點。
在訪問的節(jié)點是<TABLE>標(biāo)記(504)的情況下,檢查表格深度(Table_depth)(505),在大于臨界值(例如3)情況下,<Table>標(biāo)記和全部下級子節(jié)點被認(rèn)為是用于僅執(zhí)行寬度設(shè)定步驟(506)而不用任何進(jìn)一步分析的通用內(nèi)容。如果表格深度(Table_depth)沒有超過臨界值(例如3),表格深度(Table_depth)值加1(507)。
如果訪問節(jié)點是<TR>標(biāo)記(508),行號增加(Row_num)。然而,如果是套用表格的第一行,行號不增加。此外,如果是根表格的<TR標(biāo)記>,將列號(Colnum)初始化為零。
如果訪問節(jié)點是<TD>標(biāo)記(510),確定是否包括內(nèi)容(511),以便增加列號(Col_num)(512)。然而,不增加套用表格<TR>的第一<TD>。如果<TD>沒有包括在版面表示中使用的內(nèi)容,執(zhí)行寬度設(shè)定步驟522,如果包括了內(nèi)容,設(shè)定內(nèi)容并且附加結(jié)構(gòu)信息。
也就是說,該內(nèi)容被定義為具有內(nèi)容的<TD>標(biāo)記塊。如果包括<TABLE>標(biāo)記作為內(nèi)容之中的子節(jié)點(513),將套用內(nèi)容設(shè)定為標(biāo)記如表格1所示內(nèi)容號碼(Comp_num)的值(514),如果作為內(nèi)容被包括的不是<TABLE>標(biāo)記,設(shè)定通用成分,以便將內(nèi)容號碼(Comp_num)的變量定義為增加的序號(515)。
參考圖3的<TABLE>標(biāo)記的表示分類關(guān)系視圖,可以對被包括在<TD>標(biāo)記中的標(biāo)記類型進(jìn)行檢查。參考附圖,表格被分類為TR和CAPTION,TR被分類為TH和TD。
如果訪問的節(jié)點是<IMG>(516),檢查寬度然后改為(517,518)。如果改變了寬度,檢查是否設(shè)定了圖像映射。如果設(shè)定了圖像映射,圖像映射代碼<AREA>的屬性值COORDS表示使用520的公式修改的坐標(biāo)值。在步驟518的寬度設(shè)定操作中,a%設(shè)定值被轉(zhuǎn)換為像素,如果寬度超過最大的寬度(MAXWIDTH),用最大的寬度(MAX_WIDTH))代替寬度,并且如果沒有設(shè)定寬度屬性值,使用<TR>寬度、<TD>寬度的總和以及最大<IMG>寬度等等做出類比。
圖7A和7B是示范性的視圖,用于說明根據(jù)本發(fā)明的優(yōu)選實施例的網(wǎng)頁文件分析步驟和成分塊提取步驟;通過圖7A和7B的例子,檢查從圖5的算法中獲得的結(jié)構(gòu)信息。
在圖7A中示出了結(jié)構(gòu)標(biāo)記的可見表示,示出了<TABLE>、<TR>、<TD>塊,將內(nèi)容設(shè)定為具有內(nèi)容的<TD>標(biāo)記塊。在表格2中示出了附加信息。在圖7B中以結(jié)構(gòu)標(biāo)記的樹模型的形式表示了圖7A中的標(biāo)記集合,可以很容易地理解標(biāo)記之間分類關(guān)系。
表格2
在上述表格2中,在圖7A和7B中的(A)是內(nèi)容號碼(Comp_num)的第一個數(shù)字,假設(shè)最大的寬度(MAX_WIDTH)低于500像素。
接下來,成分塊通過插入和用于生成的向上先輩<TABLE>相同的位置的分離<TABLE>標(biāo)記的單一<TD>,參考成分單元捆綁了包括在其中的所有的標(biāo)記集合。
參考圖6和圖7B,將接著說明成分塊設(shè)定步驟(405)的詳細(xì)算法。
首先,輸入成分樹(Component_tree),以便檢查全部內(nèi)容節(jié)點的最初寬度信息,然后當(dāng)超過最大的寬度(MAX_WIDTH)的時候執(zhí)行以下操作(601_604)。確定當(dāng)前內(nèi)容節(jié)點(A)是否有兄弟節(jié)點(siblingnode),然后,如果有兄弟節(jié)點,在不超過最大的寬度(MAX_WIDTH)范圍內(nèi)執(zhí)行捆綁相似兄弟節(jié)點的分組操作。在圖7B的例子中,可以將①、②、③的成分分組為(①)、(②)、(③)或(①③)、(②)。
在以下的數(shù)據(jù)表分塊步驟(608)中,用以例如“<TABLE><TR>成分①、③</TR></TABLE>”的格式的一個數(shù)據(jù)表塊來表示屬于每一個組的全部標(biāo)記集合。或,如果沒有兄弟節(jié)點,僅在步驟608中執(zhí)行成分節(jié)點的表格分塊操作。
在步驟609的數(shù)據(jù)表塊重新布置步驟中,在向上操作中重新產(chǎn)生的數(shù)據(jù)表塊被作為(A)的祖父節(jié)點插入到<TABLE>節(jié)點(B)的前一個兄弟節(jié)點中。
如果(A)是(B)的最后<TD>節(jié)點(610)并且(B)是套用表格(611),執(zhí)行下一步(612),否則,訪問下一個節(jié)點,以便重復(fù)地執(zhí)行步驟602中之前的操作。
當(dāng)圖7B的⑦、14、15是(A)的時候,也就是當(dāng)前正在訪問的成分是(A)的時候執(zhí)行下一步。如果向上先輩<TD>具有作為子節(jié)點的(B),也就是說,(C)是套用成分,執(zhí)行步驟609。換句話說,圖7B的⑦、14和每一個(C)變成了⊙和⊙″。參考在(C)的子節(jié)點中包括(B)的子節(jié)點(圖7B的701),在左右兩端的兄弟節(jié)點通過每一個數(shù)據(jù)表塊被捆綁在一起(圖7B的702、703)。此外,產(chǎn)生包括(C)的數(shù)據(jù)表塊(614),重復(fù)執(zhí)行步驟609。
通過數(shù)據(jù)表塊提取內(nèi)容作為一個表示單元,被提取的內(nèi)容被定義為成分塊。每一個成分塊具有根據(jù)該內(nèi)容在樹中的位置確定的布置序列,并且用數(shù)據(jù)表塊的形狀表示,取決于該序列從上到下。
繼續(xù)參考圖8,將說明成分塊分類步驟406的詳細(xì)算法。
比較成分塊的內(nèi)容模式時輸入成分塊樹以便在訪問全部成分塊。在這時候,以下表格3列出了可用的可比較的變量。
表3
根據(jù)比較模式值是否超過某一臨界值的結(jié)果,確定索引類型(INDEX類型)(804,805)。確定為索引(INDEX)的成分塊分別根據(jù)內(nèi)容的數(shù)據(jù)類型是圖像還是文本,設(shè)置類型值為圖像索引(INDEX_I)和文本索引(INDEX_T)(806_808)。
不是索引(INDEX)的塊被分類為正文體(BODY),作為語音正文體(BODY_V)類型的分類轉(zhuǎn)化成語音可支持的文件,作為其它通用成分塊的通用正文體(BODY_G)根據(jù)對被包括的內(nèi)容的相對重要性來處理。如果在步驟813中沒有最后塊,從步驟802開始為下一個塊執(zhí)行操作。
將參考圖4示出的全部操作步驟說明分類操作之后的處理。
參考附圖,將成分塊分類之后(407_409,412),執(zhí)行圖4的步驟411、413、414,或根據(jù)每個成分塊的類型較好地提取成分塊(410)。全部成分塊都執(zhí)行這個操作(415),在最后步驟416適當(dāng)?shù)嘏帕忻恳粋€塊,以便產(chǎn)生新的HTML文件(417)。接下來說明通過成分塊的類型的操作方法。
如果成分塊的類型是語音正文體(BQDYY)(Type==BODY_V),執(zhí)行語音文件產(chǎn)生步驟(411),以便產(chǎn)生語音支持文件,這個操作是在圖2的語音標(biāo)志產(chǎn)生器208模塊中執(zhí)行的,可以將全部文本內(nèi)容作為塊中的以下表格4的采樣代碼中的<prompt>值,將其添加到其中,以便產(chǎn)生簡單的語音XML文件。將產(chǎn)生的文件作為分離文件存儲,并且用鏈接連接到最初的HTML。
表格4< xml version=”1.0” >
<vxml version=”1.0”>
<form>
<block>
<prompt>
(將從被分類為BODY_V的塊中提取的文本信息添加到值)</prompt>
<discount/>
</block>
</form>
</vxml>
在此,如果成分塊的類型是通用的正文體(BODY_G)(Type=BODY_G),由于通用的內(nèi)容要素可以很好地為重排進(jìn)行提取。
如果成分塊的類型是圖像索引((INDEX_I)(Type==INDEXA_I),通過圖像索引產(chǎn)生步驟(413)產(chǎn)生用Java腳本表示的圖像索引(圖像索引)。作為在以下表格5的采樣代碼的例子,自動地產(chǎn)生簡單的腳本文件,并且該圖像文件映射于它的實施例。
表格5//jayascnpt filled into HEAD<SCRIPT LANGUAGE=”JavaScript”>
<!-imagel=newImage();
imagel.src=″imagel.gif′;
image2=newImage();
image2.src=″image2.gif”;
image3=newImage();
image3.src=″image3.gif”;
image4=newImage();
image4.src=″image4.gif′;
links=new Array;
links
″LINK#1″;
links[1]=″LINK#2″;
links[2]=″LINK#3″;
links[3]=″LINK#4″;
function imgchange(){var imageNum=document.form.sellmage.selectedlndex+1;
fname=eval(″image″+imageNum+″.src″);
document.img.srcfname;
}functiongo(){location=links[document.form.selhnage.selectedIndex];
}function showlink(){window.status=links[document.fonn.sellmage.selectedIndex];
}//->
</SCRIPT>
//form tag filled into BODY<FROM name=”from”>
<SELECT NAME=”selImage”size=1 onchange=”imgchange();”>
<OPTION>Index1<OPTION>Index2<OPTION>Index3<OPTION>Index4</SELECT>
</FORM>
<a href=”” onClick=″go();returnfalse;”onMouseOver=”showlink();return true;”onMouseOut=window/status=”;retureture;”><IMGSRC=”imagel.gif”NAME=”img”border=0></a>
在此,成分塊的類型是文本索引(INDEX_T)(類型=INDEX_T),索引信息表示為文本,并且通過文本索引產(chǎn)生步驟414使用如以下表格6所示的<select>標(biāo)記進(jìn)行再表示。在圖2的索引產(chǎn)生器207模塊中執(zhí)行圖像索引產(chǎn)生步驟(413)和文本索引產(chǎn)生步驟(414),并且可以以通用的方式提取索引信息。
表格6//java script filled into HEAD<script language=”JavaScript”>
<!-function change(form){var list=form.selectedIndex;
location type=form.options
用會話密鑰塊保證電子交易中的保密性的方法借助相關(guān)聯(lián)的圖像來訪問多媒體元素的方法和設(shè)備的制作方法用于分布式網(wǎng)絡(luò)上的考試的系統(tǒng)和方法響應(yīng)訪問一應(yīng)用服務(wù)的請求的方法和系統(tǒng)的制作方法.value;
//在下面中選擇位置類型//-self.location.href:鏈接到屬于自己的幀//-top.location.href:不顧幀改變所有屏幕//-parent.location.href:改變包括自己的父母幀//-parent.framename.location.href:鏈接到在父母幀中具有所選名稱的子幀form.selectedlndex=0;
};
//->
</script>
//form tag filled into BODY<form name=”formname”method=”get”>
<select name=”form”onchange=”change(document.formname.from)”>
<option selected>index List</option>
<option value=”linke#1”>index 1</option>
<option value=”linke#2”>index 2</option>
<option value=linke#3”>index 3</option>
</select>
</form>
根據(jù)如上所述的內(nèi)容特征用適當(dāng)?shù)姆椒ū硎久總€成分塊之后,通過在圖2的HTML產(chǎn)生器209中執(zhí)行的新的HTML構(gòu)造和產(chǎn)生步驟416,排列并且產(chǎn)生內(nèi)容對象。以下表格7的采樣代碼提供了全部的HTML的標(biāo)記結(jié)構(gòu),和每個內(nèi)容對象的簡單的排列方法。
表格七<HTML>
<HEAD>
<TIILE></TITLE>
<SCRIPT>-->通過Java腳本產(chǎn)生器模塊自動產(chǎn)生包裝腳本文件。
如果產(chǎn)生了圖像索引,添加這個.
</SCRIPT>
</HEAD>
<BODY>-->附加被分類為INDEX_T的成分塊或BODY標(biāo)記的BODY_G<SELECT>
<OPTION>-->產(chǎn)生和文本索引一樣多的選擇列表,并且利用選擇標(biāo)記排列相應(yīng)的值。
</SELECT>
<TABLE>
<TR>
<TD>-->按照TABLE TD.的值將包括了被分類為BODY_G的每個成分塊進(jìn)行排列。在這時候,根據(jù)客戶個人文件表示的顯示性能信息確定全部重新產(chǎn)生的表格的寬度。
<IMG src=”speaker.gif”/><A href=***.xml”>listening to content(Title)</A>-->將連接BODY_V塊轉(zhuǎn)化成語音XML。
</TD>
</TR>
</TABLE>
</BODY>
</HTML>
如上所述的發(fā)明的內(nèi)容轉(zhuǎn)換系統(tǒng)可以增加三層網(wǎng)絡(luò)服務(wù)器、客戶、代理,分別根據(jù)它的環(huán)境具有優(yōu)點和缺點。此外,成分和成分塊的選擇算法可以是多種方法,此外,用了幾個具體化方法之一舉例說明了索引產(chǎn)生和語音文件產(chǎn)生的方法。
圖9A和9B是示范性的視圖,示出了根據(jù)本發(fā)明的優(yōu)選實施例的網(wǎng)頁內(nèi)容的轉(zhuǎn)換結(jié)果。
圖9A示出通過內(nèi)容單元目標(biāo)的重排和索引選擇轉(zhuǎn)換的網(wǎng)頁文件的結(jié)果頁面,圖9B示出了一個結(jié)果頁面,該結(jié)果頁面表示了將語音支持標(biāo)志創(chuàng)建功能添加到了圖9A的結(jié)果頁面的情況。
工業(yè)實用性如上所述,本發(fā)明提供了新的技術(shù)和系統(tǒng),因此將適合于現(xiàn)有的通用臺式機(jī)個人計算機(jī)的顯示性能的制定的網(wǎng)頁文件,轉(zhuǎn)換成在小型顯示裝置的用戶想通過連接無線因特網(wǎng)使用網(wǎng)絡(luò)服務(wù)的情況下,即使在小型顯示器上也可以有效顯示的網(wǎng)頁文件。根據(jù)本發(fā)明,通過分析結(jié)構(gòu)標(biāo)記信息將網(wǎng)頁文件設(shè)置為內(nèi)容單元塊,并且捆綁相似的內(nèi)容單元組,然后在用于重排的內(nèi)容信息的基礎(chǔ)上,將其分類為索引或正文體部分,使得瀏覽功能具有適當(dāng)?shù)慕缑?,不用為了瀏覽全部網(wǎng)絡(luò)頁面而左右卷屏。此外,考慮了小型裝置的特征,還提供了索引的選擇和產(chǎn)生,和語音支持網(wǎng)頁文件的轉(zhuǎn)換,以便提供了多種網(wǎng)頁文件的重建,和有效表示。此外,還可以獲得為了進(jìn)行有意義的輸送而最大限度地保持原始文件的效果。
對本領(lǐng)域的普通技術(shù)人員來講,對本發(fā)明的多種修改和變動都是顯而易見。因此,本發(fā)明試圖覆蓋這些修改和變化,本發(fā)明提供的它們修改和變化都被歸入所附的權(quán)利要求和它們的等效范圍之內(nèi)。
權(quán)利要求
1.一種網(wǎng)頁內(nèi)容轉(zhuǎn)換系統(tǒng),用于將大顯示屏幕的網(wǎng)頁文件轉(zhuǎn)換為小顯示屏幕的網(wǎng)頁文件,所述的系統(tǒng)包括預(yù)處理器,其用于標(biāo)準(zhǔn)化具有錯誤標(biāo)記的非標(biāo)準(zhǔn)的網(wǎng)頁文件,以將該標(biāo)準(zhǔn)化網(wǎng)頁文件以適合于分析的數(shù)據(jù)格式輸出;客戶個人文件分析器,其用于提取和管理客戶信息;結(jié)構(gòu)分析器,其用于接收在預(yù)處理器中標(biāo)準(zhǔn)化的網(wǎng)頁文件,以根據(jù)文件分析算法將網(wǎng)頁文件設(shè)定為內(nèi)容單元塊(成分);圖像轉(zhuǎn)換器,其用于提取關(guān)于圖像編碼/解碼步驟的信息和包括在網(wǎng)頁文件中的圖像大??;成分塊析取器,其用于通過使用內(nèi)容單元塊(成分)的屬性值和客戶性能信息,將設(shè)定的內(nèi)容單元塊(成分)在不超過最大寬度的范圍內(nèi)分組為相似組;成分塊分類器,其用于根據(jù)內(nèi)容特征將由成分塊析取器產(chǎn)生的每個成分塊進(jìn)行分類,分類為索引和正文體部分;索引產(chǎn)生器,其用于從被分類為索引部分的成分塊提取關(guān)于圖像或文本索引的信息,并且產(chǎn)生腳本文件和附加的標(biāo)記集合,該附加的標(biāo)記集合用于表示被提取的信息;語音標(biāo)志產(chǎn)生器,其用于將文本中心正文體內(nèi)容塊轉(zhuǎn)換為語音標(biāo)志語言以便實現(xiàn)語音支持功能;和超級文本標(biāo)志語言HTML產(chǎn)生器,其用于根據(jù)文件模式重新布置和重新構(gòu)造產(chǎn)生的內(nèi)容對象要素,以產(chǎn)生小型顯示屏的網(wǎng)頁文件。
2.如權(quán)利要求1所述的網(wǎng)頁內(nèi)容轉(zhuǎn)換系統(tǒng),其中,該網(wǎng)頁內(nèi)容轉(zhuǎn)換系統(tǒng)是被安裝在網(wǎng)絡(luò)服務(wù)器、客戶和代理這三個層的任何一層上的。
3.一種網(wǎng)頁內(nèi)容轉(zhuǎn)換方法,其用于將大顯示屏幕的網(wǎng)頁文件轉(zhuǎn)換為小顯示屏幕的網(wǎng)頁文件,所述的方法包括預(yù)處理步驟,其用于標(biāo)準(zhǔn)化包括錯誤標(biāo)記的非標(biāo)準(zhǔn)的網(wǎng)頁文件,以將該標(biāo)準(zhǔn)化網(wǎng)頁文件以適合于分析的數(shù)據(jù)格式輸出;網(wǎng)頁文件分析步驟,其用于接收標(biāo)準(zhǔn)化網(wǎng)頁文件并且根據(jù)文件分析算法分析標(biāo)記,以便將網(wǎng)頁文件設(shè)定為內(nèi)容單元塊(成分);成分塊設(shè)定步驟,其用于通過使用內(nèi)容單元塊(成分)的屬性值和客戶性能信息,將設(shè)定的內(nèi)容單元塊(內(nèi)容)在不超過最大寬度的范圍內(nèi)分組為相似組;成分塊分類步驟,其用于根據(jù)內(nèi)容特征對由成分塊析取器產(chǎn)生的每個成分塊進(jìn)行分類,分類為索引和正文體部分;索引產(chǎn)生步驟,其用于從被分類為索引部分的成分塊提取關(guān)于圖像或文本索引的信息,并且產(chǎn)生腳本文件和附加的標(biāo)記集合,該附加的標(biāo)記集合用于表示被提取的信息;語音標(biāo)志產(chǎn)生步驟,其用于將文本中心正文體內(nèi)容塊轉(zhuǎn)換為語音標(biāo)志語言,以便實現(xiàn)語音支持功能;和超級文本標(biāo)志語言HTML產(chǎn)生步驟,其用于根據(jù)文件模式重新布置和重新構(gòu)造產(chǎn)生的內(nèi)容對象要素,以產(chǎn)生小型顯示屏網(wǎng)頁文件。
4.如權(quán)利要求3所述的網(wǎng)頁內(nèi)容轉(zhuǎn)換方法,其中,在該網(wǎng)頁文件分析步驟中,主要分析例如<TABLE>、<TR>、<TD>、<IMG>等標(biāo)記,且具體的標(biāo)記<TD>被定義為用作內(nèi)容單元分析的最小單元的成分。
5.如權(quán)利要求3所述的網(wǎng)頁內(nèi)容轉(zhuǎn)換方法,其中,在該成分塊設(shè)定步驟中,輸入內(nèi)容樹以檢查全部成分節(jié)點的最初寬度信息,并且檢查當(dāng)前成分節(jié)點是否存在兄弟節(jié)點,且如果存在兄弟節(jié)點,在不超過最大的寬度(MAXWIDTH)的范圍內(nèi)將相似的兄弟節(jié)點捆綁并分組。
6.如權(quán)利要求3所述的網(wǎng)頁內(nèi)容轉(zhuǎn)換方法,其中,該成分塊分類步驟包括如下步驟接收成分塊樹以當(dāng)比較成分塊的內(nèi)容模式時訪問全部成分塊;如果模式比較的結(jié)果值超過了確定的臨界值,則確定索引類型;根據(jù)內(nèi)容的數(shù)據(jù)類型是圖像或文本,設(shè)定確定的索引塊的類型為圖像索引INDEX_I或文本索引INDEX_T的每一個;和將不是索引的塊分類為正文體,并且將用于執(zhí)行轉(zhuǎn)化的語音正文體BODY_V分類為語音支持文件,并且將通用正文體BODY_G處理為其它通用內(nèi)容塊。
全文摘要
本申請公開了用于將大顯示屏幕的網(wǎng)頁文件轉(zhuǎn)換成為小顯示屏幕的網(wǎng)頁文件的網(wǎng)頁內(nèi)容轉(zhuǎn)換系統(tǒng)和方法。該系統(tǒng)可以包括用于為了分析標(biāo)準(zhǔn)化網(wǎng)頁文件的預(yù)處理器;用于提取和管理客戶信息的客戶個人文件分析器;結(jié)構(gòu)分析器;和用于提取與圖像編碼/解碼過程和圖像大小有關(guān)的信息的圖像轉(zhuǎn)換器;成分塊析取器,其用于在不超過最大寬度的范圍內(nèi)將內(nèi)容單元塊(成分)分組為相似的組;成分塊分類器,其用于將每個組件塊析取器分類為索引和正文體部分;索引產(chǎn)生器;聲音標(biāo)志產(chǎn)生器;和超級文本標(biāo)志語言(HTML)產(chǎn)生器。
文檔編號G06F17/30GK1732459SQ200380108132
公開日2006年2月8日 申請日期2003年10月31日 優(yōu)先權(quán)日2002年11月1日
發(fā)明者申喜淑, 李東雨, 馬萍洙, 金范鎬, 趙秀善, 韓東原, 崔銀凈 申請人:Lg電子株式會社