一種基于內(nèi)容相似的網(wǎng)頁分割方法
【專利摘要】本發(fā)明公開了一種基于內(nèi)容相似的網(wǎng)頁分割方法,首先采用內(nèi)容塊檢測算法檢測出網(wǎng)頁中所有的內(nèi)容塊。然后依據(jù)人類視覺特征得出六維度內(nèi)容視覺向量空間,并定義內(nèi)容視覺空間里兩點相似度計算公式。接著將內(nèi)容塊看作頂點,相似度看作頂點間邊的權(quán)值,網(wǎng)頁構(gòu)造為一張加權(quán)無向連通圖。依據(jù)移動終端軟硬件配置,采用Kruskal算法對加權(quán)無向連通圖進行分割,分割后的每張子圖適合移動終端處理和顯示。最后關(guān)聯(lián)所有子圖,建立子圖關(guān)系,并選取第一個子圖作為首頁推送給用戶,用戶可以根據(jù)子圖關(guān)系實現(xiàn)網(wǎng)頁遍歷。本發(fā)明可以用于移動終端訪問Web網(wǎng)頁的解決方案中,有效解決網(wǎng)頁在移動終端的顯示質(zhì)量差,甚至無法顯示的問題,從而提高用戶服務(wù)體驗。
【專利說明】—種基于內(nèi)容相似的網(wǎng)頁分割方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于自適應(yīng)web呈現(xiàn)與web信息提取【技術(shù)領(lǐng)域】,具體來講,涉及一種基于內(nèi)容相似的網(wǎng)頁分割方法。
【背景技術(shù)】
[0002]自適應(yīng)web呈現(xiàn)技術(shù)是自適應(yīng)技術(shù)的一個應(yīng)用領(lǐng)域,它描述了一類新“智能組件/智能結(jié)構(gòu)”,這些智能組件在工作條件改變的時候具有一個主動適應(yīng)和目標優(yōu)化調(diào)節(jié)的機械特性。這種主動的組件滿足了改善系統(tǒng)機械特性、效率、性能及其他特性的要求。
[0003]Web信息抽取技術(shù)是從Web網(wǎng)頁所包含的無結(jié)構(gòu)、半結(jié)構(gòu)或者結(jié)構(gòu)化的信息中識別用戶感興趣的數(shù)據(jù),并將其轉(zhuǎn)化為結(jié)構(gòu)和語義更為清晰的格式(XML、關(guān)系數(shù)據(jù)等),是信息提取的一個應(yīng)用領(lǐng)域。
[0004]早在20世紀90年代,人們便開始研究自適應(yīng)web呈現(xiàn)與web信息提取技術(shù),解決如何將針對PC端設(shè)計的網(wǎng)頁在移動終端正常問題。30年歷程,出現(xiàn)了各種解決方案。解決方法主要有三種:重構(gòu)網(wǎng)頁、轉(zhuǎn)碼、網(wǎng)頁分割。重構(gòu)網(wǎng)頁即建立一個與PC網(wǎng)頁對等的適合不同移動終端顯示的移動網(wǎng)頁,Web服務(wù)器判斷是移動終端用戶,則選擇重構(gòu)網(wǎng)頁作為響應(yīng)信息,該方法需要消耗大量的人力、物力、財力。轉(zhuǎn)碼即采用轉(zhuǎn)碼技術(shù)將HTML、JSP、ASP、PHP等不適合移動終端顯示的代碼轉(zhuǎn)換成對等的WML (適合移動終端顯示)的代碼,由于一個網(wǎng)頁含有大量的信息,如果將網(wǎng)頁內(nèi)容全部顯示在小屏幕的移動終端中,需要花費大量時間滑動滾動條尋找需要的信息,用戶體驗極差;網(wǎng)頁分割即將網(wǎng)頁分割成語義完整的語義塊,用戶每次看到的僅僅是一個語義塊形成的子頁,該方法是目前熱點研究話題,可分為以下幾類:基于標簽的網(wǎng)頁分割方法、基于DOM的網(wǎng)頁分割方法、基于位置關(guān)系的網(wǎng)頁分割方法、基于模板的網(wǎng)頁分割方法、基于視覺的網(wǎng)頁分割方法。針對Web網(wǎng)頁特點及用途的不同,每類分割方法具有多種不同的具體實現(xiàn)方法,這些具體實現(xiàn)方法一般只針對具有某種特征的網(wǎng)站,使用范圍有限。比較先進的VIPS方法因“內(nèi)容與樣式分離”思想的普及應(yīng)用以及大量網(wǎng)頁的不規(guī)范,變得力不從心。隨著移動終端的迅速發(fā)展與3G技術(shù)的普及,該矛盾日益關(guān)出和尖銳。
[0005]采用上述三種方法生成的智能組件有三種部署方案:客戶端部署、服務(wù)器端部署、代理服務(wù)器端部署??蛻舳瞬渴鸺丛诳蛻舳艘圆寮男问綄崿F(xiàn),但必須考慮移動終端軟硬件性能的有限性以不同設(shè)備的兼容性問題。服務(wù)器端部署即將組件安裝在服務(wù)器端,主要有聯(lián)機部署(使用反向代理)和脫機部署(制成插件安裝到網(wǎng)頁制作工具中)兩種,該部署方法會增加服務(wù)器負擔,且這種負擔會成倍的增加;代理服務(wù)器端部署即在服務(wù)器端與客服端之間建立一個類似服務(wù)器的設(shè)備,智能組件安裝在該設(shè)備中獲取與響應(yīng)用戶請求。
【發(fā)明內(nèi)容】
[0006]為了解決上述的技術(shù)問題,本發(fā)明基于內(nèi)容相似,從人類視覺角度提出一種解決移動終端瀏覽器準確、高效顯示W(wǎng)eb網(wǎng)頁問題的網(wǎng)頁分割方法,該方法采用代理服務(wù)器部署,既避免不同客戶端兼容問題,又不會增加Web服務(wù)器的負擔。
[0007]本發(fā)明所采用的技術(shù)方案是:一種基于內(nèi)容相似的網(wǎng)頁分割方法,其特征在于,包括以下步驟:
[0008]步驟1:自動獲取移動終端軟硬件配置信息并存儲;
[0009]步驟2:依據(jù)用戶請求獲取Web服務(wù)器中的Web網(wǎng)頁;
[0010]步驟3:對步驟2得到的Web頁面,進行HTML規(guī)范處理與CSS預處理,實現(xiàn)HTML規(guī)范化和樣式信息與數(shù)據(jù)的綁定;
[0011]步驟4:根據(jù)內(nèi)容塊檢測算法獲取經(jīng)步驟3處理后的Web網(wǎng)頁中所有內(nèi)容塊;
[0012]步驟5:對于步驟4得到的內(nèi)容塊,依據(jù)人類視覺特征得出六維度內(nèi)容視覺向量空間,并定義內(nèi)容視覺空間里兩點相似度計算公式;
[0013]步驟6:構(gòu)建加權(quán)無向連通圖,依據(jù)移動終端軟硬件配置信息,采用Kruskal算法對加權(quán)無向連通圖進行分割,得到所述的加權(quán)無向連通圖的子圖;
[0014]步驟7:關(guān)聯(lián)所有子圖,建立子圖關(guān)系,選取第一個子圖作為主頁面推送給用戶。
[0015]作為優(yōu)選,步驟I中所述的終端軟硬件配置信息包括移動終端品牌,移動終端型號,移動終端系統(tǒng)類型及版本,移動終端分辨率,移動終端瀏覽器類型、版本、內(nèi)核信息,并設(shè)定所述的移動終端品牌、移動終端型號、移動終端系統(tǒng)類型及版本移動終端瀏覽器類型、版本、內(nèi)核信息為主鍵。
[0016]作為優(yōu)選,步驟3所述的對步驟2得到的Web頁面進行HTML規(guī)范化,其具體采用HTMLClear Jar 包實現(xiàn)。
[0017]作為優(yōu)選,步驟3所述的對步驟2得到的Web頁面進行CSS預處理,其具體實現(xiàn)包括以下子步驟:
[0018]步驟3.1:獲取所述的Web頁面的進行HTML規(guī)范化后的樣式信息;
[0019]步驟3.2:關(guān)聯(lián)樣式信息和標簽;
[0020]步驟3.3:輸出HTML和PerfectNode關(guān)聯(lián)類列表。
[0021]作為優(yōu)選,步驟3.2所述的關(guān)聯(lián)樣式信息和標簽,其具體實現(xiàn)包括以下子步驟:
[0022]步驟3.2.1:查找所述的關(guān)聯(lián)樣式信息的對應(yīng)標簽;
[0023]步驟3.2.2:定義“樣式信息一標簽”關(guān)聯(lián)類;
[0024]步驟3.2.3:樣式?jīng)_突檢測與處理。
[0025]作為優(yōu)選,步驟5中所述的六維度內(nèi)容視覺向量空間為cv=(內(nèi)容塊相關(guān)度,內(nèi)容類型,空白,背景色,字體信息,邊框信息)。
[0026]作為優(yōu)選,步驟5所述的內(nèi)容視覺空間里兩點相似度計算公式定義為:
[0027]
【權(quán)利要求】
1.一種基于內(nèi)容相似的網(wǎng)頁分割方法,其特征在于,包括以下步驟: 步驟1:自動獲取移動終端軟硬件配置信息并存儲; 步驟2:依據(jù)用戶請求獲取Web服務(wù)器中的Web網(wǎng)頁; 步驟3:對步驟2得到的Web頁面,進行HTML規(guī)范處理與CSS預處理,實現(xiàn)HTML規(guī)范化和樣式信息與數(shù)據(jù)的綁定; 步驟4:根據(jù)內(nèi)容塊檢測算法獲取經(jīng)步驟3處理后的Web網(wǎng)頁中所有內(nèi)容塊; 步驟5:對于步驟4得到的內(nèi)容塊,依據(jù)人類視覺特征得出六維度內(nèi)容視覺向量空間,并定義內(nèi)容視覺空間里兩點相似度計算公式; 步驟6:構(gòu)建加權(quán)無向連通圖,依據(jù)移動終端軟硬件配置信息,采用Kruskal算法對加權(quán)無向連通圖進行分割,得到所述的加權(quán)無向連通圖的子圖; 步驟7:關(guān)聯(lián)所有子圖,建立子圖關(guān)系,選取第一個子圖作為主頁面推送給用戶。
2.根據(jù)權(quán)利要求1所述的基于內(nèi)容相似的網(wǎng)頁分割方法,其特征在于:步驟I中所述的終端軟硬件配置信息包括移動終端品牌,移動終端型號,移動終端系統(tǒng)類型及版本,移動終端分辨率,移動終端瀏覽器類型、版本、內(nèi)核信息,并設(shè)定所述的移動終端品牌、移動終端型號、移動終端系統(tǒng)類型及版本移動終端瀏覽器類型、版本、內(nèi)核信息為主鍵。
3.根據(jù)權(quán)利要求1所述的基于內(nèi)容相似的網(wǎng)頁分割方法,其特征在于:步驟3所述的對步驟2得到的Web頁面進行HTML規(guī)范化,其具體采用HTMLClear Jar包實現(xiàn)。
4.根據(jù)權(quán)利要求1所述的基于內(nèi)容相似的網(wǎng)頁分割方法,其特征在于:步驟3所述的對步驟2得到的Web頁面進行C`SS預處理,其具體實現(xiàn)包括以下子步驟: 步驟3.1:獲取所述的Web頁面的進行HTML規(guī)范化后的樣式信息; 步驟3.2:關(guān)聯(lián)樣式信息和標簽; 步驟3.3:輸出HTML和PerfectNode關(guān)聯(lián)類列表。
5.根據(jù)權(quán)利要求1所述的基于內(nèi)容相似的網(wǎng)頁分割方法,其特征在于:步驟3.2所述的關(guān)聯(lián)樣式信息和標簽,其具體實現(xiàn)包括以下子步驟: 步驟3.2.1:查找所述的關(guān)聯(lián)樣式信息的對應(yīng)標簽; 步驟3.2.2:定義“樣式信息一標簽”關(guān)聯(lián)類; 步驟3.2.3:樣式?jīng)_突檢測與處理。
6.根據(jù)權(quán)利要求1所述的基于內(nèi)容相似的網(wǎng)頁分割方法,其特征在于:步驟5中所述的六維度內(nèi)容視覺向量空間為CV=(內(nèi)容塊相關(guān)度,內(nèi)容類型,空白,背景色,字體信息,邊框信息)。
7.根據(jù)權(quán)利要求1所述的基于內(nèi)容相似的網(wǎng)頁分割方法,其特征在于:步驟5所述的內(nèi)容視覺空間里兩點相似度計算公式定義為:
S(i,j) =丄 |>A(/,./)
n *=, 其中n為內(nèi)容視覺空間里總點數(shù),即內(nèi)容塊數(shù);Sk (i,j)表示內(nèi)容視覺空間里i,j兩點第k維度的相似度;表示維度權(quán)重。
8.根據(jù)權(quán)利要求1所述的基于內(nèi)容相似的網(wǎng)頁分割方法,其特征在于:步驟6所述的構(gòu)建加權(quán)無向連通圖方法如下:將內(nèi)容塊看作頂點,內(nèi)容塊間的相似度看作頂點間邊的權(quán)值。
9.根據(jù)權(quán)利要求1所述的基于內(nèi)容相似的網(wǎng)頁分割方法,其特征在于:步驟6所述的Kruskal算法,其具體實現(xiàn)包括以下子步驟: 步驟6.1:讀取步驟I獲取的移動終端主鍵和移動終端分辨率信息; 步驟6.2:依據(jù)移動終端分辨率確定閾值分割模型,即確定子圖最大像素面積St ; 步驟6.3:將加權(quán)無向連通圖的n個頂點看成n個孤立的連通分支,將所有邊按權(quán)值從大到小排序; 步驟6.4:判斷各個連通分支的面積Sn: 如果Sn>=St,則將連通分支從原圖中分割出去,形成子圖,將該連通分支與其他連通分支權(quán)值最大的邊存儲于關(guān)連池cr中; 如果Sn〈St,按下述方法連接兩個不同的連通分支:設(shè)查看到第s條邊,若該邊兩端點分別是當前兩個不同的連通分支Tl和T2中的頂點時,則用該邊將Tl和T2連成一個連通分支,并重復步驟6.4 ;若該邊兩端點在當前的同一個連通分支中,直接查看第S+1條邊,并重復步驟6.4,直到?jīng)]有剩余邊為止; 步驟6.5:對于剩余的圖,重復步驟6.4,直到剩余的圖為空圖。
10.根據(jù)權(quán)利要求1所述的基于內(nèi)容相似的網(wǎng)頁分割方法,其特征在于:用于實現(xiàn)所述的基于內(nèi)容相似的網(wǎng)頁分割方法的系統(tǒng)部署于代理服務(wù)器中,所述代理服務(wù)器能夠獲取用戶請求與移動終端配置信息、獲取Web服務(wù)器響應(yīng)信息、獲取處理后的響應(yīng)信息,能夠模擬移動終端用戶發(fā)送請求、發(fā)送響應(yīng)信息與移動終端配置信息給處理器、發(fā)送處理后的響應(yīng)信息到用戶。
【文檔編號】G06F17/30GK103631944SQ201310669395
【公開日】2014年3月12日 申請日期:2013年12月10日 優(yōu)先權(quán)日:2013年12月10日
【發(fā)明者】童名文, 彭紅超, 郝秋紅, 牛琳, 栗歡, 楊蕾, 張小娟 申請人:華中師范大學