專利名稱:網(wǎng)絡(luò)兼容電子裝置、網(wǎng)頁處理方法和程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種網(wǎng)絡(luò)使能電子裝置、網(wǎng)頁處理方法和程序,其用于具有連接到網(wǎng)絡(luò)的功能并處理網(wǎng)絡(luò)上的內(nèi)容用于最適合于其自身顯示環(huán)境的顯示的諸如PDA、便攜式電話、電視機(jī)等的電子裝置。
背景技術(shù):
一般來說,和個(gè)人計(jì)算機(jī)相比,用于嵌入程序、網(wǎng)絡(luò)使能電子裝置(例如PDA(個(gè)人數(shù)字(數(shù)據(jù))助理)、便攜式電話、電視機(jī))的人機(jī)界面較差。另一方面,網(wǎng)絡(luò)上的許多內(nèi)容設(shè)計(jì)用于使用鼠標(biāo)和高分辨率顯示設(shè)備的個(gè)人計(jì)算機(jī)的瀏覽/顯示。因此,當(dāng)用戶試圖使用諸如上述的網(wǎng)絡(luò)使能電子裝置來瀏覽/顯示網(wǎng)絡(luò)上的內(nèi)容時(shí),用戶無法避免地要遇到各種不便。
例如,大部分網(wǎng)絡(luò)使能電子裝置采用分辨率低于個(gè)人計(jì)算機(jī)的顯示設(shè)備。如上所述,許多網(wǎng)頁被設(shè)計(jì)用于個(gè)人計(jì)算機(jī)所用的高分辨率顯示設(shè)備的瀏覽/顯示。由此,例如,如圖16所示,在許多情況下,諸如PDA的網(wǎng)絡(luò)使能電子裝置161所配備的低分辨率顯示設(shè)備162一次只能顯示整個(gè)網(wǎng)頁163的一部分164,從而對用戶操作造成了很大的負(fù)擔(dān),例如必須反復(fù)垂直和水平滾動以觀看整個(gè)頁面。
增加小屏幕上可顯示的信息量的方法包括根據(jù)頁面瀏覽器而省略圖像、緊排、換行字符的方法,以及根據(jù)顯示屏幕的表面面積而選擇所顯示字符字體的最優(yōu)尺寸的技術(shù)(例如參看日本專利申請第2002-156957( 段,圖15)。
發(fā)明內(nèi)容
然而,不論如何,根據(jù)網(wǎng)絡(luò)瀏覽器,即使省略了圖像、進(jìn)行緊排、換行字符,PDA等等的小屏幕一次也只能顯示整個(gè)頁面的一部分。另外,即使使用了根據(jù)顯示屏幕的表面面積而選擇所顯示字符字體的最優(yōu)尺寸的技術(shù),也存在單個(gè)屏幕上可顯示的字符數(shù)目的限制,并且進(jìn)一步地,小字符可能引起使閱讀困難的不良效果。
做出本發(fā)明以克服這些問題,并且目的在于,提供一種網(wǎng)絡(luò)使能電子裝置、網(wǎng)頁處理方法和程序,其能夠通過重構(gòu)為適合于在低分辨率環(huán)境下瀏覽的頁面來顯示通過網(wǎng)絡(luò)獲取的網(wǎng)頁,并且以低成本重構(gòu)以各種類型的語言編寫的網(wǎng)頁。
為了達(dá)到上述目的,本發(fā)明的網(wǎng)絡(luò)使能電子裝置包括網(wǎng)頁獲取部件,用于獲取至少包括標(biāo)題行和與該標(biāo)題行有關(guān)的故事主體的第一網(wǎng)頁;以及網(wǎng)頁重構(gòu)部件,用于從所述由網(wǎng)頁獲取部件所獲取的第一網(wǎng)頁中提取所述故事主體以創(chuàng)建包括該故事主體的第二網(wǎng)頁,并且從所述第一網(wǎng)頁中提取所述標(biāo)題行以創(chuàng)建包括該標(biāo)題行并且具有至所述第二網(wǎng)頁的鏈接的第三網(wǎng)頁。
即,該網(wǎng)絡(luò)使能電子裝置通過分割為具有至故事主體的鏈接的標(biāo)題行網(wǎng)頁(第三網(wǎng)頁)和故事主體網(wǎng)頁(第二網(wǎng)頁),使得能夠在分離的屏幕上瀏覽經(jīng)由網(wǎng)絡(luò)獲取并包括標(biāo)題行和與該標(biāo)題行有關(guān)的故事主體的第一網(wǎng)頁。結(jié)果,可以在不用滾動或者少量滾動的情況下,在諸如PDA等的移動終端的較差(低分辨率)顯示環(huán)境下高效地瀏覽設(shè)計(jì)用于個(gè)人計(jì)算機(jī)的高分辨率網(wǎng)頁的整個(gè)部分的內(nèi)容。
另外,在第一網(wǎng)頁的標(biāo)題行由標(biāo)題行和子標(biāo)題構(gòu)成、并且其故事主體由標(biāo)題行的故事主體和至屬于子標(biāo)題的文章的鏈接列表構(gòu)成的情況下,創(chuàng)建標(biāo)題行的故事主體的頁面和提供至屬于子標(biāo)題的文章的鏈接的列表頁面作為第三網(wǎng)頁,并且創(chuàng)建包括具有至其故事主體的鏈接的標(biāo)題行和具有至鏈接列表頁面的鏈接的子標(biāo)題的頁面作為第二網(wǎng)頁。結(jié)果,如果在第三網(wǎng)頁上指定標(biāo)題行,則可以顯示該標(biāo)題行的故事主體的頁面,并且當(dāng)指定子標(biāo)題時(shí),可以顯示提供至屬于該子標(biāo)題的文章的鏈接的列表頁面。由于以整體具有一定規(guī)律的方式提供每個(gè)網(wǎng)頁,用戶可以消除其在達(dá)到目標(biāo)網(wǎng)頁的操作中的嘗試和錯(cuò)誤,由此直接到網(wǎng)頁內(nèi)容本身的網(wǎng)絡(luò)瀏覽成為可能。
另外,在本發(fā)明的網(wǎng)絡(luò)使能電子裝置中,網(wǎng)頁重構(gòu)部件包括顯示元素位置判定部件,用于在內(nèi)部描繪(depict)第一網(wǎng)頁,并根據(jù)描繪的數(shù)據(jù)判定第一網(wǎng)頁上各個(gè)顯示元素的位置;群集(cluster)分類部件,用于根據(jù)判定的顯示元素位置,將布局上密切相關(guān)的各個(gè)顯示元素連接在一起,以分類為幾個(gè)群集;特定群集區(qū)分部件,用于檢測各個(gè)群集的布局特征,并且根據(jù)該特征檢測的結(jié)果,將第一網(wǎng)頁上的標(biāo)題行的群集和故事主體的群集與其他群集區(qū)分開來;以及對于經(jīng)過區(qū)分的標(biāo)題行群集和故事主體群集,形成每個(gè)包括具有為顯示元素的相同字符屬性的群集的組、計(jì)算包括在每個(gè)組中的各個(gè)群集內(nèi)的字符數(shù)目的平均值、并且將具有高平均值的組確定為故事主體以及將具有低平均值的組確定為標(biāo)題行的部件。
雖然有各種類型的頁面描述語言,例如HTML、XHTML、XML+CSS,但是根據(jù)本發(fā)明,只要網(wǎng)頁是以可解釋和可翻譯的頁面描述語言描述的,就可以重構(gòu)網(wǎng)頁,并且由此和涉及基于語義的標(biāo)簽分析的網(wǎng)頁重構(gòu)方法相比,可以減少頁面重構(gòu)所需的費(fèi)用。
另外,在本發(fā)明的網(wǎng)絡(luò)使能電子裝置中,特定群集區(qū)分部件將頁面上跨越最大數(shù)目顯示元素的垂直線確定為重心線,使用確定的重心線作為基準(zhǔn),從左側(cè)、右側(cè)、中間的至少一個(gè)判定各個(gè)群集的布局特征,并且將其特征被判定為中間的群集與其他群集區(qū)分開來作為標(biāo)題行群集和故事主體群集。
在大部分網(wǎng)頁中,主要內(nèi)容布局在頁面水平軸的中間??梢詫㈨撁嫔峡缭阶畲髷?shù)目顯示元素的垂直線當(dāng)作頁面水平軸上布局有主要內(nèi)容的位置,并且如果從左側(cè)、右側(cè)、中間的至少一個(gè)判定各個(gè)群集的布局特征,則設(shè)置該垂直線作為重心線,并且使用該重心線作為基準(zhǔn),然后可以用高精度將其特征被判定為中間的群集與其他群集區(qū)分開來作為標(biāo)題行群集和故事主體群集。
另外,根據(jù)本發(fā)明另一方面的網(wǎng)頁處理方法是一種用于具有處理/計(jì)算部件和顯示網(wǎng)頁的顯示部件的網(wǎng)絡(luò)使能電子裝置的網(wǎng)頁處理方法,所述網(wǎng)頁處理方法包括通過網(wǎng)絡(luò)獲取至少包括標(biāo)題行和與標(biāo)題行有關(guān)的故事主體的第一網(wǎng)頁的步驟;通過處理/計(jì)算部件的處理/計(jì)算而從獲取的第一網(wǎng)頁中提取故事主體以創(chuàng)建包括該故事主體的第二網(wǎng)頁的步驟;以及通過處理/計(jì)算部件的處理/計(jì)算而從第一網(wǎng)頁中提取標(biāo)題行以創(chuàng)建包括該標(biāo)題行并具有至第二網(wǎng)頁的鏈接的第三網(wǎng)頁的步驟。
即,本發(fā)明的網(wǎng)頁處理方法通過分割為具有至故事主體的鏈接的標(biāo)題行網(wǎng)頁(第三網(wǎng)頁)和故事主體網(wǎng)頁(第二網(wǎng)頁),使得能夠在分離的屏幕上瀏覽通過網(wǎng)絡(luò)獲取并包括標(biāo)題行和與該標(biāo)題行有關(guān)的故事主體的第一網(wǎng)頁。結(jié)果,可能在不用滾動或者少量滾動的情況下,在諸如PDA等移動終端的較差(低分辨率)顯示環(huán)境下高效地瀏覽設(shè)計(jì)用于個(gè)人計(jì)算機(jī)的高分辨率網(wǎng)頁的整個(gè)部分的內(nèi)容。
另外,在本發(fā)明的網(wǎng)頁處理方法中,處理/計(jì)算部件被配置用于在內(nèi)部描繪第一網(wǎng)頁,并且根據(jù)該描繪數(shù)據(jù)判定第一網(wǎng)頁上各個(gè)顯示元素的位置,根據(jù)判定的顯示元素位置將布局上密切相關(guān)的各個(gè)顯示元素連接在一起以分類為幾個(gè)群集,檢測各個(gè)群集的布局特征,并且根據(jù)該特征檢測的結(jié)果,將第一網(wǎng)頁上標(biāo)題行的群集和故事主體的群集與其他群集區(qū)分開來,對于經(jīng)過區(qū)分的標(biāo)題行群集和故事主體群集,形成每個(gè)包括具有為顯示元素的相同字符屬性的群集的組,計(jì)算包括在每個(gè)組中的各個(gè)群集內(nèi)的字符數(shù)目的平均值,并且將具有高平均值的組確定為故事主體、具有低平均值的組確定為標(biāo)題行。
因此,根據(jù)本發(fā)明,只要網(wǎng)頁是以可解釋和可翻譯的頁面描述語言描述的,就可以重構(gòu)網(wǎng)頁,并且由此與涉及基于語義的標(biāo)簽分析的網(wǎng)頁重構(gòu)方法相比,可以減少頁面重構(gòu)所需的費(fèi)用。
另外,在本發(fā)明的網(wǎng)頁處理方法中,處理/計(jì)算部件被配置用于將頁面上跨越最大數(shù)目顯示元素的垂直線確定為重心線,使用確定的重心線作為基準(zhǔn),從左側(cè)、右側(cè)、中間的至少一個(gè)判定各個(gè)群集的布局特征,并且將其特征被判定為中間的群集與其他群集區(qū)分開來作為標(biāo)題行群集和故事主體群集。
可以將頁面上跨越最大數(shù)目顯示元素的垂直線當(dāng)作上述頁面上的水平軸上布局有主要內(nèi)容的位置,并且如果從左側(cè)、右側(cè)、中間的至少一個(gè)判定各個(gè)群集的布局特征,則設(shè)置該垂直線作為重心線,并且使用該重心線作為基準(zhǔn),可以用高精確度將其特征被判定為中間的群集與其他群集區(qū)分開來作為標(biāo)題行群集和故事主體群集。
另外,根據(jù)本發(fā)明的另一方面的程序使計(jì)算機(jī)作為以下部件網(wǎng)頁獲取部件,用于獲取至少包括標(biāo)題行和與該標(biāo)題行有關(guān)的故事主體的第一網(wǎng)頁;和網(wǎng)頁重構(gòu)部件,用于從網(wǎng)頁獲取部件所獲取的第一網(wǎng)頁中提取故事主體以創(chuàng)建包括該故事主體的第二網(wǎng)頁,并且從第一網(wǎng)頁中提取標(biāo)題行以創(chuàng)建包括該標(biāo)題行并具有至第二網(wǎng)頁的鏈接的第三網(wǎng)頁。
根據(jù)本發(fā)明的程序,通過分割為具有至故事主體的鏈接的標(biāo)題行網(wǎng)頁(第三網(wǎng)頁)以及故事主體網(wǎng)頁(第二網(wǎng)頁),使得能夠在分離的屏幕上瀏覽通過網(wǎng)絡(luò)獲取并包括標(biāo)題行和與該標(biāo)題行有關(guān)的故事主體的第一網(wǎng)頁。結(jié)果,可能在不用滾動或者少量滾動的情況下,在諸如PDA等的移動終端的較差(低分辨率)顯示環(huán)境下高效地瀏覽設(shè)計(jì)用于個(gè)人計(jì)算機(jī)的高分辨率網(wǎng)頁的整個(gè)部分的內(nèi)容。
另外,在本發(fā)明的程序中,網(wǎng)頁重構(gòu)部件使計(jì)算機(jī)作為以下部件顯示元素位置判定部件,用于在內(nèi)部描繪第一網(wǎng)頁,并且根據(jù)該描繪數(shù)據(jù)判定第一網(wǎng)頁上各個(gè)顯示元素的位置;群集分類部件,用于根據(jù)判定的顯示元素的位置將布局上密切相關(guān)的顯示元素連接在一起以分類為幾個(gè)群集;特定群集區(qū)分部件,用于檢測各個(gè)群集的布局特征,并且根據(jù)該特征檢測的結(jié)果,將第一網(wǎng)頁上的標(biāo)題行的群集和故事主體的群集與其他群集區(qū)分開來;以及對于經(jīng)過區(qū)分的標(biāo)題行群集和故事主體群集,形成每個(gè)包括具有為顯示元素的相同字符屬性的群集的組、計(jì)算包括在每個(gè)組中的各個(gè)群集內(nèi)的字符數(shù)目的平均值并將具有高平均值的組確定為故事主體、將具有低平均值的組確定為標(biāo)題行的部件。
根據(jù)本發(fā)明,只要網(wǎng)頁是以可解釋和可翻譯的頁面描述語言描述的,就可以重構(gòu)網(wǎng)頁,并且由此和涉及基于語義的標(biāo)簽分析的網(wǎng)頁重構(gòu)方法相比,可以減少頁面重構(gòu)所需的費(fèi)用。
另外,在根據(jù)本發(fā)明的程序中,特定群集區(qū)分部件的特征在于使計(jì)算機(jī)作為具有以下功能的部件將頁面上跨越最大數(shù)目顯示元素的垂直線確定為重心線,使用所確定的重心線作為基準(zhǔn),從左側(cè)、右側(cè)、中間的至少一個(gè)判定各個(gè)群集的布局特征,并且將其特征被判定為中間的群集與其他群集區(qū)分開來作為標(biāo)題行群集和故事主體群集。
根據(jù)本發(fā)明,可以用高精確度區(qū)分其特征被判定為中間的群集作為標(biāo)題行群集和故事主體群集。
圖1為示出根據(jù)本發(fā)明實(shí)施方式的網(wǎng)絡(luò)使能電子裝置的電子結(jié)構(gòu)的方框圖。
圖2為示出頁面重構(gòu)程序的模塊結(jié)構(gòu)的圖。
圖3為示出頁面重構(gòu)程序的過程的流程圖。
圖4為示出在移動終端中附加了用于頁面重構(gòu)的標(biāo)識符的URL的輸入狀態(tài)的圖。
圖5為示出原始網(wǎng)頁的例子和通過群集該網(wǎng)頁上的每個(gè)顯示元素而獲得的結(jié)果的圖。
圖6為示出通過根據(jù)群集在布局上的含義進(jìn)行分類而獲得的結(jié)果的圖。
圖7為示出用于分類群集的過程的流程圖。
圖8為示出在圖7的用于分類群集的過程中確定重心線的過程的流程圖。
圖9為示出確定重心線的具體例子的圖。
圖10為示出在圖7的分類群集的過程中,在“左側(cè)”、“右側(cè)”、“未使用”當(dāng)中確定賦予群集的布局含意的過程的流程圖。
圖11為示出圖10中確定賦予群集的布局含意的處理的具體例子的圖。
圖12為示出在圖7的分類群集的過程中,在“標(biāo)題行(包括子標(biāo)題)”、“主體(包括至文章的鏈接)”當(dāng)中確定賦予群集的布局含意的過程的流程圖。
圖13為示出重構(gòu)的網(wǎng)頁的例子的圖。
圖14為示出用于(在創(chuàng)建頂部頁面133時(shí))重構(gòu)網(wǎng)頁的過程的流程圖。
圖15為示出在網(wǎng)絡(luò)上的服務(wù)器上重構(gòu)網(wǎng)頁的情況下的配置的方框圖。
圖16為示出在低分辨率的顯示設(shè)備上顯示普通網(wǎng)頁的狀態(tài)的圖。
具體實(shí)施例方式
以下將參照附圖描述本發(fā)明的實(shí)施方式。
圖1為示出根據(jù)本發(fā)明實(shí)施方式的網(wǎng)絡(luò)使能電子裝置的電子結(jié)構(gòu)的方框圖。
如圖所示,該網(wǎng)絡(luò)使能電子裝置100具有作為處理/計(jì)算部件的CPU(中央處理單元)1,主存儲器2,程序/數(shù)據(jù)存儲部件3,處理至諸如因特網(wǎng)的網(wǎng)絡(luò)4的連接的網(wǎng)絡(luò)接口部件5,可視地向用戶提供信息的顯示設(shè)備6,使用VRAM(視頻RAM)7對顯示設(shè)備6的屏幕執(zhí)行繪制處理的圖形控制器8,處理來自諸如微動盤(jog dial)的用戶操作輸入部件9的輸入的用戶接口控制器10,以及用于在上述部件之間傳送信號的總線11。
根據(jù)例如程序/數(shù)據(jù)存儲部件3中所存儲的、由用戶從操作輸入部件9輸入的程序和數(shù)據(jù)等,CPU 1使用主存儲器2作為工作區(qū)域來執(zhí)行各種計(jì)算處理和控制。主存儲器2包括隨機(jī)讀寫高速存儲器,例如RAM(隨機(jī)訪問存儲器)。程序/數(shù)據(jù)存儲部件3是只讀或可讀/可寫的非易失性存儲設(shè)備,例如為ROM(只讀存儲器)、閃存ROM、磁盤驅(qū)動器等等。
具體地講,顯示設(shè)備6是CRT(陰極射線管)、LCD(液晶顯示器)、PDP(等離子顯示板)、OEL(有機(jī)電致發(fā)光)等等。具體地講,用戶的操作輸入部件9為簡單的鍵盤、IR(紅外線)遙控器、微動盤、按鈕等等。
網(wǎng)絡(luò)接口部件5為例如模擬調(diào)制解調(diào)器、LAN(局域網(wǎng))、ISDN(綜合業(yè)務(wù)數(shù)字網(wǎng))、ADSL(非對稱數(shù)字用戶線)、FTTH(光纖到戶)、藍(lán)牙或FOMA(W-CDMA)等等。
該網(wǎng)絡(luò)使能電子裝置100提供有以下功能將獲取的網(wǎng)頁重構(gòu)為適合于諸如其自身顯示設(shè)備的分辨率的顯示環(huán)境的形式以顯示和瀏覽。
程序/數(shù)據(jù)存儲部件3存儲有例如用于操作該網(wǎng)絡(luò)使能電子裝置100的OS(操作系統(tǒng))的基本程序,以及在該基本程序下執(zhí)行網(wǎng)頁重構(gòu)的頁面重構(gòu)程序,網(wǎng)絡(luò)瀏覽器等等。這些程序被加載到主存儲器2內(nèi)由CPU 1解釋、執(zhí)行。
圖2為示出上述頁面重構(gòu)程序的模塊結(jié)構(gòu)的圖。如圖所示,頁面重構(gòu)程序21包括適配代理31、適配引擎32和群集引擎33。
接著將描述該頁面重構(gòu)程序21的過程。圖3為示出該頁面重構(gòu)程序21的過程的流程圖。注意此處將諸如PDA的移動終端100當(dāng)作網(wǎng)絡(luò)使能電子裝置100的例子。
首先,在該移動終端100中,由用戶輸入U(xiǎn)RL。此時(shí),如圖4所示,用于頁面重構(gòu)的標(biāo)識符(例如”/??ID=index”)52被附加到URL(例如http//www.somewhere.com)51的尾部,然后輸入頁面瀏覽請求,由此將該請求給予頁面重構(gòu)程序作為頁面重構(gòu)的請求(ST301)。
響應(yīng)于頁面重構(gòu)的請求,頁面重構(gòu)程序21啟動適配代理31,并向其發(fā)送該URL。適配代理31根據(jù)URL經(jīng)由因特網(wǎng)下載原始網(wǎng)頁34,以傳送到適配引擎32(ST302)。
適配引擎32在主存儲器2中以DOM(文檔對象模型,Document ObjectModel)樹35的形式存儲所獲取的網(wǎng)頁34的源代碼,并且在內(nèi)部繪制(不顯示)該網(wǎng)頁。接著,適配引擎32找到感興趣的網(wǎng)頁上諸如字符串和圖像的顯示元素的繪制位置,并且在主存儲器中和標(biāo)簽結(jié)合存儲該位置信息作為標(biāo)簽/位置信息36。注意,顯示元素的繪制位置根據(jù)字符字體的大小、字符數(shù)目、圖像大小而變化,并且因此對于字符考慮字符字體大小、字符數(shù)目等以及對于圖像考慮圖像大小等來找到繪制位置。
DOM樹指其中整個(gè)頁面的諸如標(biāo)簽、字符、圖像等的元素被制成層次型,以便使人能夠(例如)利用應(yīng)用程序來搜索、編輯頁面的樹形結(jié)構(gòu)。另外,DOM是訪問作為樹形結(jié)構(gòu)內(nèi)的一組節(jié)點(diǎn)對象的XML(可擴(kuò)展標(biāo)記語言)文檔的API(應(yīng)用程序編程接口,Application Programming Interface)。除了DOM之外,用于XML文檔的API還包括SAX(用于XML的簡單API)。
此后,適配引擎32將標(biāo)簽/位置信息36傳送給群集引擎33以指令群集引擎33進(jìn)行群集。通過根據(jù)標(biāo)簽/位置信息36將視覺上緊密相關(guān)(距離較近)的標(biāo)簽(顯示元素)連接在一起,群集引擎33將網(wǎng)頁上的標(biāo)簽(顯示元素)分類為幾個(gè)群集(ST304),并且在主存儲器2中存儲有關(guān)分類后的群集的信息作為群集列表37。
圖5的標(biāo)號70表示從原始網(wǎng)頁60上進(jìn)行的顯示元素61a至611的群集獲得的結(jié)果。標(biāo)號71a至711表示各個(gè)群集71b表示網(wǎng)頁上標(biāo)題行61b的群集,71c表示該標(biāo)題行的故事主體61c的群集;71f、71h、71j分別表示子標(biāo)題61f、61h、61j的群集;71g、71i、71k分別表示屬于子標(biāo)題的文章列表部分61g、61i、61k的群集。因?yàn)楹推渌@示元素沒有視覺上的相關(guān),所以,標(biāo)題行61b和子標(biāo)題61f、61h、61j被分別生成為單獨(dú)的群集71b、71f、71h、71j。另外,文章列表61g、61i、61k被分別生成為群集71g、71i、71k,其中對于每個(gè)屬于單個(gè)子標(biāo)題的集合提供一個(gè)列表。除此以外,獲得某些顯示信息作為群集71a、71d、71l。
群集技術(shù)包括在2D數(shù)據(jù)開采領(lǐng)域中公知的基于格柵的技術(shù)(參照http//www.cs.ualberta.ca/~zaiane/courses/cmput695-00/papers/wave.pdf)。
接著,群集引擎33從各個(gè)生成的群集71a至71l中提取布局特征,以賦予其布局上的含意。即,如圖6所示,群集引擎33將各個(gè)群集71a至71l分類為五種類型的含意,即“左側(cè)”(L)、“右側(cè)”(R)、“標(biāo)題行(包括子標(biāo)題)”(H)、“主體(包括至文章的鏈接)”(B)、“未使用”(U)(ST305),并且將結(jié)果傳送給適配引擎32。以后將詳細(xì)描述該群集分類的細(xì)節(jié)。
返回圖2,適配引擎32根據(jù)群集的分類結(jié)果重構(gòu)網(wǎng)頁(ST306),并且將重構(gòu)的頁面信息38存儲在主存儲器2中。此后,網(wǎng)絡(luò)瀏覽器讀取主存儲器2中存儲的重構(gòu)的頁面信息38以在顯示設(shè)備6的屏幕上顯示(ST307)。
接著,將描述分類群集的方法的細(xì)節(jié)。
圖7為示出用于分類群集的過程的流程圖;圖8為在圖7的用于分類群集的過程中確定重心線的過程;圖9為確定重心線的具體例子;圖10為在圖7的分類群集的過程中從“左側(cè)”、“右側(cè)”、“未使用”當(dāng)中確定賦予群集的布局含意的過程;圖11為圖10中確定賦予群集的布局含意的過程的具體例子;圖12為在圖7的分類群集的過程中從“標(biāo)題行(包括子標(biāo)題)”、“主體(包括至文章的鏈接)”當(dāng)中確定賦予群集的布局含意的過程。
首先,在圖7的ST701中,群集引擎33確定頁面屏幕的重心線,其作為檢測每個(gè)群集的布局特征的基準(zhǔn)。重心線指在頁面屏幕上沿其排列了最大數(shù)目的顯示元素并沿Y軸延伸的線。
例如圖8的過程和圖9的具體例子所示,確定重心線的具體方法如下。首先,設(shè)置網(wǎng)格線82,其相等地將已經(jīng)過群集的整個(gè)頁面屏幕分割為例如16(4×4)個(gè)區(qū)域(ST801)。對于頁面中間的4(2×2)個(gè)區(qū)域,對于從(X軸方向上)左或右端在預(yù)定間隔(Δd)處的Y軸方向上延伸的每條線,計(jì)數(shù)存在的顯示元素(P)的數(shù)目(ST802),以確定獲得最大計(jì)數(shù)Pmax的在Y軸方向上延伸的線作為重心線83(ST803-806)。
在以此方式確定重心線83之后,在圖7的ST702,執(zhí)行從“左側(cè)”、“右側(cè)”、“未使用”當(dāng)中確定賦予各個(gè)群集的布局含意的處理。例如圖10的過程和圖11的具體例子所示,用于該處理的具體方法如下。首先,在跨越重心線83的群集71a、71b、71c、71f、71g、71h、71i、71j、71k的、由網(wǎng)格線82分割的16(4×4)個(gè)區(qū)域的上部12(4×3)個(gè)區(qū)域,將在Y軸方向上延伸的、具有最左側(cè)投影群集(在該例子中為71c)的左端的X坐標(biāo)(具有最小X坐標(biāo))的線121判定為左手邊界線,將在Y軸方向上延伸的、具有最右側(cè)投影群集(在該例子中為71i)的右端的X坐標(biāo)(具有最大X坐標(biāo))的線122判定為右手邊界線(ST1001)。結(jié)果,以左手和右手邊界線121、122作為邊界整個(gè)頁面屏幕81被分割為三個(gè)區(qū)域。
此后,群集引擎33從群集列表37中得到有關(guān)單個(gè)群集的信息(ST1002)。該群集信息包括有關(guān)構(gòu)成該群集的顯示元素的信息(標(biāo)簽、位置信息)。群集引擎33根據(jù)該群集信息,如下所述,從“左側(cè)”、“右側(cè)”、“未使用”當(dāng)中確定賦予群集的布局含意。
首先,如果群集延伸越過左手邊界線121和右手邊界線122兩者(ST1003處為是),則群集引擎33將該群集歸類為“未使用”群集(ST1007),并且將其從群集列表37中排除(ST1008)。
在群集完全包括在左手邊界線121的左側(cè)區(qū)域中的情況下(ST1004處為是),則群集引擎33將該群集歸類為“左側(cè)”群集(ST1009),在群集完全包括在右手邊界線122的右側(cè)區(qū)域中的情況下(ST1004處為是),則群集引擎33將該群集歸類為“右側(cè)”群集(ST1009),并且將其從群集列表37中排除(ST1010)。
另外,在群集未完全包括在左手邊界線121的左側(cè)區(qū)域(ST1004處為否)但是跨越邊界線之一(左手邊界線121或右手邊界線122)(ST1005處為是)的情況下,則群集引擎33計(jì)算群集的重心線,并且根據(jù)該重心線距離左手邊界線121或右手邊界線122的遠(yuǎn)近而歸類該群集,即,在該群集更靠近左手邊界線121的情況下為“左側(cè)”群集,或者在該群集更靠近右手邊界線122的情況下為“右側(cè)”群集(ST1012),并且將其從群集列表37中排除(ST1013)。
對于群集列表37中所登記的每個(gè)群集重復(fù)以上處理。
那些未被分類為“左側(cè)”、“右側(cè)”、“未使用”中的任一種的群集應(yīng)該是“標(biāo)題行(包括子標(biāo)題)”和“故事主體(包括至文章的鏈接)”群集中的任一種。該群集分類例如由圖12所示的過程執(zhí)行。
首先,群集引擎33從群集列表37中獲取有關(guān)群集的信息,并且在內(nèi)部安排以在主存儲器2上繪制(ST1201),然后掃描圖11所示的左手邊界線121和右手邊界線122之間的區(qū)域(ST1202)。接著,群集引擎33確定具有諸如大小、顏色、字體風(fēng)格或者背景顏色的共同顯示屬性的群集(此后稱為“同類群集”)作為一組(ST1203)。
接著,群集引擎33從確定的組中選擇每個(gè)都具有大量群集的兩個(gè)組(ST1204),并且對于每個(gè)組計(jì)算其同類群集內(nèi)的例如字符數(shù)目的信息量的平均值。結(jié)果,具有高信息量平均值(大量字符)的組被確定為“故事主體(包括至文章的鏈接)”,而具有低信息量平均值(少量字符)的組被確定為“標(biāo)題行(包括子標(biāo)題)”(ST1206)。
接著,將描述重構(gòu)網(wǎng)頁的細(xì)節(jié)。
例如,如圖13所示,適配引擎32重構(gòu)由標(biāo)題行131和子標(biāo)題132構(gòu)成的頂部頁面133、具有至屬于子標(biāo)題132的文章的一組鏈接134的至文章的鏈接列表頁面135、由標(biāo)題行131的故事主體和屬于子標(biāo)題132的文章構(gòu)成的文章頁面136、故事主體頁面137、故事主體/文章頁面136、137等等。
在頂部頁面133中,在用戶通過操作微動盤等等選擇標(biāo)題行131的情況下,設(shè)置用于標(biāo)題行131的超鏈接將頁面切換到顯示故事主體/文章頁面137的頁面。另外,在頂部頁面133中,在用戶選擇任意子標(biāo)題132的情況下,設(shè)置用于選定子標(biāo)題132的超鏈接顯示屬于該子標(biāo)題132的至文章的鏈接列表頁面135。另外,當(dāng)用戶在該至文章的鏈接列表頁面135上選擇了至任意文章的鏈接134時(shí),顯示其所鏈接的故事主體/文章頁面136。在用戶希望再次顯示其他故事主體/文章頁面的情況下,用戶通過使用網(wǎng)絡(luò)瀏覽器的返回按鈕等等并重復(fù)類似的操作,可以返回到頂部頁面133或者至文章的鏈接列表頁面135。
針對移動終端的顯示環(huán)境,例如其顯示屏幕的大小、分辨率,預(yù)先最優(yōu)地設(shè)置這些頁面的布局。
圖14為示出用于重構(gòu)網(wǎng)頁的過程的流程圖(在創(chuàng)建頂部頁面133時(shí))。
首先,適配引擎32加載有關(guān)群集的分類數(shù)據(jù)(ST1401)。隨后,適配引擎32按降序順序從原始DOM樹(圖2的35)中讀取標(biāo)簽(ST1402),根據(jù)有關(guān)群集的分類數(shù)據(jù)從原始DOM樹中搜索標(biāo)題行或子標(biāo)題的標(biāo)簽(ST1404),并且將感興趣的標(biāo)簽添加到重構(gòu)頁面的DOM樹(ST1405)。如果在原始DOM樹中存在下一個(gè)感興趣的標(biāo)簽(ST1406處為是),則適配引擎32通過返回ST502來讀取該標(biāo)簽,而如果下一個(gè)感興趣的標(biāo)簽不是標(biāo)題行的標(biāo)簽(其為子標(biāo)題的標(biāo)簽)(ST1403處為否),則適配引擎32從原始DOM樹中搜索子標(biāo)題的標(biāo)簽(ST1404),并且將感興趣的標(biāo)簽添加到重構(gòu)頁面的DOM樹(ST1405)。通過這種方法,適配引擎32搜索標(biāo)題和子標(biāo)題的標(biāo)簽,以重構(gòu)頂部頁面133,并且將其添加到重構(gòu)頁面的DOM樹以完成重構(gòu)頁面。
類似地,可以通過在ST1404,根據(jù)有關(guān)群集的分類數(shù)據(jù),從原始DOM樹中搜索至文章和故事主體/文章的鏈接,并且在ST1405將感興趣的標(biāo)簽添加到重構(gòu)頁面的原始DOM樹中,創(chuàng)建至文章的鏈接列表頁面135和故事主體/文章頁面136。并且通過設(shè)置按上述方式創(chuàng)建的每個(gè)重構(gòu)頁面所需的鏈接,可以實(shí)現(xiàn)如圖13所示的從一個(gè)頁面到另一頁面的移動。
由此,根據(jù)本發(fā)明,可以通過轉(zhuǎn)換為針對諸如PDA的移動終端顯示環(huán)境而定做的設(shè)計(jì)而顯示設(shè)計(jì)用于個(gè)人計(jì)算機(jī)的顯示環(huán)境的網(wǎng)頁。具體地,通過將網(wǎng)頁重構(gòu)為可在移動終端的顯示屏幕上一次顯示的大小(分辨率),可以在不滾動的情況下瀏覽整個(gè)網(wǎng)頁。另外,主頁面由標(biāo)題行和子標(biāo)題構(gòu)成,并且例如,如果在頂部頁面上指定標(biāo)題行,則可以顯示上述感興趣的標(biāo)題行的故事主體頁面,并且如果指定子標(biāo)題,則可以顯示提供至屬于上述感興趣的子標(biāo)題的文章的鏈接的列表頁面。由此,以整體上具有一定規(guī)律性的方式提供每個(gè)網(wǎng)頁,由此就可能提高用戶的網(wǎng)絡(luò)瀏覽效率。進(jìn)一步講,可以消除達(dá)到目標(biāo)網(wǎng)頁的操作中的嘗試和錯(cuò)誤,由此直接到內(nèi)容本身的瀏覽成為可能。
另外,根據(jù)本發(fā)明,如果網(wǎng)頁是以可以解釋和翻譯的頁面描述語言編寫的,則可以重構(gòu)網(wǎng)頁。即,雖然有各種類型的網(wǎng)頁描述語言,例如HTML(超文本標(biāo)記語言)、XHTML(可擴(kuò)展超文本標(biāo)記語言)、XML+CSS(層疊風(fēng)格頁面),但是本實(shí)施方式可以在相同邏輯下實(shí)現(xiàn)以這些各種描述語言創(chuàng)建的網(wǎng)頁的重構(gòu)。與此不同,涉及基于語義的標(biāo)簽分析的重構(gòu)網(wǎng)頁的方法將需要相應(yīng)于每種頁面描述語言的分析程序,并且還意味著大量的分析時(shí)間。和涉及基于語義的標(biāo)簽分析的重構(gòu)網(wǎng)頁的方法相比,本實(shí)施方式可以極大地減少頁面重構(gòu)所必需的費(fèi)用。
另外,本實(shí)施方式使用原始網(wǎng)頁的標(biāo)簽來創(chuàng)建重構(gòu)的頁面,由此具有以下優(yōu)點(diǎn)可以直接使用現(xiàn)有的網(wǎng)絡(luò)瀏覽器來瀏覽重構(gòu)的網(wǎng)頁。另外,可以在不依賴于語言類型(日語、英語等等)和場所的情況下重構(gòu)網(wǎng)頁。
注意,頁面重構(gòu)程序不僅可以通過并入網(wǎng)絡(luò)使能電子裝置100來使用,而且可以通過存儲介質(zhì)和通信介質(zhì),作為可以并入個(gè)人計(jì)算機(jī)以及用做服務(wù)器的計(jì)算機(jī)的程序而提供。
例如,如圖15所示,可以如下配置,使得構(gòu)成頁面重構(gòu)程序的模塊-適配代理31、適配引擎32和群集引擎33預(yù)先并入網(wǎng)絡(luò)151(例如LAN(局域網(wǎng))或因特網(wǎng))上存在的服務(wù)器152中,并使得服務(wù)器152響應(yīng)于來自為網(wǎng)絡(luò)使能電子裝置(例如PDA)的客戶端153的請求,從網(wǎng)站154獲取由客戶端153指定的網(wǎng)頁,并且進(jìn)行一系列處理以重構(gòu)該網(wǎng)頁,經(jīng)由網(wǎng)絡(luò)151向客戶端153分發(fā)重構(gòu)的網(wǎng)頁。
另外,可替換地,可以如下配置,使得各組件,即適配代理、適配引擎、和群集引擎分布于多個(gè)服務(wù)器,以允許多個(gè)服務(wù)器以分布方式相互協(xié)同地進(jìn)行重構(gòu)網(wǎng)頁所涉及的一系列處理。
注意,本發(fā)明不限于任何上述實(shí)施方式,并且可以在本發(fā)明的技術(shù)概念的范圍內(nèi)通過適當(dāng)修改來實(shí)現(xiàn)。
工業(yè)實(shí)用性如上所述,根據(jù)本發(fā)明,可以在不用滾動或者借助少量滾動的前提下,在低分辨率顯示環(huán)境下,高效地瀏覽設(shè)計(jì)用于個(gè)人計(jì)算機(jī)的高分辨率網(wǎng)頁的整個(gè)部分的內(nèi)容,并且以低成本重構(gòu)以各種類型語言描述的網(wǎng)頁。
權(quán)利要求
1.一種網(wǎng)絡(luò)使能電子裝置,其特征在于,包括網(wǎng)頁獲取部件,用于獲取至少包括標(biāo)題行和與該標(biāo)題行有關(guān)的故事主體的第一網(wǎng)頁;以及網(wǎng)頁重構(gòu)部件,用于從所述網(wǎng)頁獲取部件所獲取的第一網(wǎng)頁中提取所述故事主體以創(chuàng)建包括該故事主體的第二網(wǎng)頁,并且從所述第一網(wǎng)頁中提取所述標(biāo)題行以創(chuàng)建包括該標(biāo)題行并具有至所述第二網(wǎng)頁的鏈接的第三網(wǎng)頁。
2.如權(quán)利要求1所述的網(wǎng)絡(luò)使能電子裝置,其特征在于,所述網(wǎng)頁重構(gòu)部件包括顯示元素位置判定部件,用于在內(nèi)部描繪所述第一網(wǎng)頁,并且根據(jù)該描繪的數(shù)據(jù)判定所述第一網(wǎng)頁上各個(gè)顯示元素的位置;群集分類部件,用于根據(jù)判定的所述顯示元素的位置,將布局上密切相關(guān)的各個(gè)顯示元素連接在一起,以分類為幾個(gè)群集;特定群集區(qū)分部件,用于檢測所述各個(gè)群集的布局特征,并且根據(jù)該特征檢測的結(jié)果,將所述第一網(wǎng)頁上所述標(biāo)題行的群集和故事主體的群集與其他群集區(qū)分開來;以及對于所述經(jīng)過區(qū)分的標(biāo)題行群集和故事主體群集,形成每個(gè)包括具有相同字符屬性的群集的組,計(jì)算包括在每個(gè)組中的各個(gè)群集內(nèi)的字符數(shù)目的平均值,并且將具有高平均值的組確定為所述故事主體、將具有低平均值的組確定為所述標(biāo)題行的部件,其中,所述字符屬性為顯示元素。
3.如權(quán)利要求1所述的網(wǎng)絡(luò)使能電子裝置,其特征在于,所述特定群集區(qū)分部件將頁面上跨越最大數(shù)目顯示元素的垂直線確定為重心線,使用所確定的重心線作為基準(zhǔn),從左側(cè)、右側(cè)、中間的至少一個(gè)判定各個(gè)群集的布局特征,并且將其特征被判定為中間的群集與其他群集區(qū)分開來作為所述標(biāo)題行群集和故事主體群集。
4.如權(quán)利要求1所述的網(wǎng)絡(luò)使能電子裝置,其特征在于,所述故事主體包括至屬于所述標(biāo)題行的文章的鏈接列表。
5.一種用于網(wǎng)絡(luò)使能電子裝置的網(wǎng)頁處理方法,所述網(wǎng)絡(luò)使能電子裝置具有處理/計(jì)算部件和顯示網(wǎng)頁的顯示部件,所述網(wǎng)頁處理方法包括通過網(wǎng)絡(luò)獲取至少包括標(biāo)題行和與該標(biāo)題行有關(guān)的故事主體的第一網(wǎng)頁的步驟;通過所述處理/計(jì)算部件的處理/計(jì)算,從獲取的第一網(wǎng)頁中提取所述故事主體以創(chuàng)建包括該故事主體的第二網(wǎng)頁的步驟;以及通過所述處理/計(jì)算部件的處理/計(jì)算,從所述第一網(wǎng)頁中提取所述標(biāo)題行以創(chuàng)建包括該標(biāo)題行并具有至所述第二網(wǎng)頁的鏈接的第三網(wǎng)頁的步驟。
6.如權(quán)利要求5所述的網(wǎng)頁處理方法,其特征在于,所述處理/計(jì)算部件在內(nèi)部描繪所述第一網(wǎng)頁,并且根據(jù)該描繪的數(shù)據(jù)判定所述第一網(wǎng)頁上各個(gè)顯示元素的位置,根據(jù)判定的所述顯示元素的位置而將布局上密切相關(guān)的各個(gè)顯示元素連接在一起以分類為幾個(gè)群集,檢測所述各個(gè)群集的布局特征,并且根據(jù)該特征檢測的結(jié)果,將所述第一網(wǎng)頁上所述標(biāo)題行的群集和所述故事主體的群集與其他群集區(qū)分開來,對于所述經(jīng)過區(qū)分的標(biāo)題行群集和故事主體群集,形成每個(gè)都包括具有相同字符屬性的群集的組,計(jì)算包括在每個(gè)組中的各個(gè)群集內(nèi)的字符數(shù)目的平均值,并且將具有高平均值的組確定為所述故事主體、將具有低平均值的組確定為所述標(biāo)題行,其中,所述字符屬性為顯示元素。
7.如權(quán)利要求5所述的網(wǎng)頁處理方法,其特征在于,所述處理/計(jì)算部件將頁面上跨越最大數(shù)目顯示元素的垂直線確定為重心線,使用所確定的重心線作為基準(zhǔn),從左側(cè)、右側(cè)、中間的至少一個(gè)判定各個(gè)群集的布局特征,并且將其特征被判定為中間的群集與其他群集區(qū)分開來作為所述標(biāo)題行群集和故事主體群集。
8.如權(quán)利要求5所述的網(wǎng)頁處理方法,其特征在于,所述故事主體包括至屬于所述標(biāo)題行的文章的鏈接列表。
9.一種程序,其特征在于使計(jì)算機(jī)作為以下部件網(wǎng)頁獲取部件,用于獲取至少包括標(biāo)題行和與該標(biāo)題行有關(guān)的故事主體的第一網(wǎng)頁;以及網(wǎng)頁重構(gòu)部件,用于從所述網(wǎng)頁獲取部件所獲取的第一網(wǎng)頁中提取所述故事主體以創(chuàng)建包括該故事主體的第二網(wǎng)頁,并且從所述第一網(wǎng)頁中提取所述標(biāo)題行以創(chuàng)建包括該標(biāo)題行并具有至所述第二網(wǎng)頁的鏈接的第三網(wǎng)頁。
10.如權(quán)利要求9所述的網(wǎng)絡(luò)使能電子裝置,其特征在于,所述網(wǎng)頁重構(gòu)部件使計(jì)算機(jī)作為以下部件顯示元素位置判定部件,用于在內(nèi)部描繪所述第一網(wǎng)頁,并且根據(jù)該描繪的數(shù)據(jù)判定所述第一網(wǎng)頁上各個(gè)顯示元素的位置;群集分類部件,用于根據(jù)判定的所述顯示元素的位置,將布局上密切相關(guān)的顯示元素連接在一起以分類為幾個(gè)群集;特定群集區(qū)分部件,用于檢測所述各個(gè)群集的布局特征,并且根據(jù)該特征檢測的結(jié)果,將所述第一網(wǎng)頁上所述標(biāo)題行的群集和所述故事主體的群集與其他群集區(qū)分開來;以及對于經(jīng)過區(qū)分的標(biāo)題行群集和故事主體群集,形成每個(gè)包括具有相同字符屬性的群集的組,計(jì)算包括在每個(gè)組中的各個(gè)群集內(nèi)的字符數(shù)目的平均值,并且將具有高平均值的組確定為所述故事主體、將具有低平均值的組確定為所述標(biāo)題行的部件,其中,所述字符屬性為顯示元素。
11.如權(quán)利要求10所述的程序,其特征在于,所述特定群集區(qū)分部件使計(jì)算機(jī)作為以下部件用于將頁面上跨越最大數(shù)目顯示元素的垂直線確定為重心線,使用所確定的重心線作為基準(zhǔn),從左側(cè)、右側(cè)、中間的至少一個(gè)判定各個(gè)群集的布局特征,并將其特征被判定為中間的群集與其他群集區(qū)分開來作為所述標(biāo)題行群集和故事主體群集的部件。
12.如權(quán)利要求9所述的程序,其特征在于,所述故事主體包括至屬于所述標(biāo)題行的文章的鏈接列表。
全文摘要
一種網(wǎng)絡(luò)兼容電子設(shè)備,獲取包括標(biāo)題行、其文本、子標(biāo)題以及至屬于子標(biāo)題的文章的鏈接作為顯示元素的網(wǎng)頁,在內(nèi)部繪制該網(wǎng)頁并根據(jù)繪圖數(shù)據(jù)計(jì)算每個(gè)顯示元素的位置。根據(jù)計(jì)算的顯示元素的位置,將顯示元素分類為一些群集。檢測每個(gè)群集的布局特征,并根據(jù)特征檢測的結(jié)果來判定每個(gè)標(biāo)題行/文本群集。接著,分組具有相同字符特征的標(biāo)題行/文本群集。將具有包括于每個(gè)組中的群集中的高字符數(shù)目平均值的組確定為文本、將具有低平均值的組為標(biāo)題行。創(chuàng)建文本/文章頁面,并且創(chuàng)建包括排列有至文本/文章的鏈接的標(biāo)題行和子標(biāo)題的頂部頁面。因此,將經(jīng)由網(wǎng)絡(luò)獲取的網(wǎng)頁重構(gòu)為適合于低分辨率顯示環(huán)境下的讀取的網(wǎng)頁并顯示。
文檔編號G06F17/30GK1698052SQ200480000570
公開日2005年11月16日 申請日期2004年5月21日 優(yōu)先權(quán)日2003年5月27日
發(fā)明者中村雅之, 由谷哲夫, 永留和敏, 山中信太郎 申請人:索尼株式會社