專(zhuān)利名稱(chēng):一種在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的普及,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的重要途徑之一,其中網(wǎng)頁(yè)中的文本內(nèi)容是信息的主要載體?,F(xiàn)在網(wǎng)頁(yè)中內(nèi)容多種多樣,除了常規(guī)的文字內(nèi)容外,網(wǎng)頁(yè)中也部分或者全部地包括圖片和其它非文字類(lèi)別的多媒體內(nèi)容,例如Flash插件、音頻播放插件、廣告類(lèi)彈窗或者圖片。對(duì)于小說(shuō)網(wǎng)站這一類(lèi)的網(wǎng)頁(yè)內(nèi)容全是文本的網(wǎng)站,其主要的內(nèi)容多是文本,小說(shuō)內(nèi)容才是用戶(hù)需要進(jìn)行閱讀的主要部分,但是其網(wǎng)頁(yè)中的右側(cè)或者左側(cè)等網(wǎng)頁(yè)部分會(huì)設(shè)置有大量的廣告類(lèi)圖片信息,影響用戶(hù)的閱讀。而對(duì)于一些漫畫(huà)網(wǎng)站,其網(wǎng)頁(yè)中的圖片是主要內(nèi)容,其網(wǎng)頁(yè)中的右側(cè)或者左側(cè)等網(wǎng)頁(yè)部分會(huì)設(shè)置有大量的廣告類(lèi)圖片信息,也會(huì)影響用戶(hù)的閱讀。
可見(jiàn),在一般網(wǎng)頁(yè)中,含有圖片信息的內(nèi)容排版的不規(guī)則,大量廣告圖片、頁(yè)面非內(nèi)容圖片太多,以至于影響用戶(hù)閱讀體驗(yàn),并且用戶(hù)無(wú)法屏蔽其余多余內(nèi)容,而聚集在真正閱讀內(nèi)容上,嚴(yán)重影響了用戶(hù)的閱讀體驗(yàn)。發(fā)明內(nèi)容
鑒于上述問(wèn)題,提出了本發(fā)明,以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的方法及裝置。
為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的方法,包括加載至少一個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置,所述設(shè)置中記錄有網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)以及該結(jié)構(gòu)下的數(shù)據(jù)提取方式;在瀏覽器側(cè)進(jìn)行網(wǎng)頁(yè)內(nèi)容的下載,通過(guò)分層解析獲得該下載網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu),并與所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置中記錄的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配;獲取一與所述下載的網(wǎng)頁(yè)具有相匹配的數(shù)據(jù)組織結(jié)構(gòu)的網(wǎng)頁(yè)內(nèi)容提取設(shè)置;根據(jù)該匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的數(shù)據(jù)提取方式,按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù);依據(jù)用戶(hù)的觸發(fā)指令加載所述提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示。
本發(fā)明的另一方面,提供一種在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的裝置,包括加載設(shè)置模塊用于加載至少一個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置,所述設(shè)置中記錄有網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)以及該結(jié)構(gòu)下的數(shù)據(jù)提取方式;匹配設(shè)置模塊用于在瀏覽器側(cè)進(jìn)行網(wǎng)頁(yè)內(nèi)容的下載,通過(guò)分層解析獲得該下載網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu),并與所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置中記錄的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配;獲取設(shè)置模塊用于獲取一與所述下載的網(wǎng)頁(yè)具有相匹配的數(shù)據(jù)組織結(jié)構(gòu)的網(wǎng)頁(yè)內(nèi)容提取設(shè)置;提取數(shù)據(jù)模塊用于根據(jù)該匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的數(shù)據(jù)提取方式,按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù);顯示數(shù)據(jù)模塊用于依據(jù)用戶(hù)的觸發(fā)指令加載所述提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示。
與現(xiàn)有技術(shù)相比,本發(fā)明可以針對(duì)不同格式、結(jié)構(gòu)的網(wǎng)頁(yè),通過(guò)分層解析獲得該網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu),從而能與網(wǎng)頁(yè)內(nèi)容提取設(shè)置中記錄的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配,從而確定并獲取一與所述下載的網(wǎng)頁(yè)具有相匹配的數(shù)據(jù)組織結(jié)構(gòu)的網(wǎng)頁(yè)內(nèi)容提取設(shè)置,并且根據(jù)該匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的數(shù)據(jù)提取方式,按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示。由于所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置的數(shù)據(jù)組織結(jié)構(gòu)能夠與網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配,所以這種顯示可以確保顯示的網(wǎng)頁(yè)內(nèi)容不發(fā)生混亂, 并且可以剔除不與之匹配的不重要的、雜亂的內(nèi)容,例如大量廣告圖片、頁(yè)面非內(nèi)容圖片太多,使瀏覽器用戶(hù)可以將注意力聚集在真正想要閱讀的內(nèi)容上,提高用戶(hù)閱讀體驗(yàn)。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖I示出了根據(jù)本發(fā)明實(shí)施例所述的一種在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的方法的流程圖2示出了根據(jù)本發(fā)明實(shí)施例所述的一種在瀏覽器側(cè)展現(xiàn)圖片及其對(duì)應(yīng)文字的方法的流程圖3示出了根據(jù)本發(fā)明實(shí)施例所述的一種在瀏覽器側(cè)展現(xiàn)圖片及其對(duì)應(yīng)文字的方法中圖片及文字在網(wǎng)頁(yè)中的結(jié)構(gòu)圖4示出了根據(jù)一個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置由網(wǎng)頁(yè)300提取內(nèi)容后最終顯示的網(wǎng)頁(yè) 300S ;
圖5示出了一種依據(jù)用戶(hù)使用“網(wǎng)頁(yè)內(nèi)容提取設(shè)置”的頻率達(dá)到第一頻率設(shè)定的 “網(wǎng)頁(yè)內(nèi)容提取設(shè)置”作為用戶(hù)特性化數(shù)據(jù)并進(jìn)行網(wǎng)頁(yè)內(nèi)容提取和顯示的方法流程圖6A、圖6B示出了一種采用網(wǎng)頁(yè)內(nèi)容提取設(shè)置中包括“圖文關(guān)聯(lián)項(xiàng)目”的顯示效果圖7示出了一種提供用戶(hù)選擇可擴(kuò)展項(xiàng)目的用戶(hù)界面700結(jié)構(gòu)圖8示出了一種根據(jù)本發(fā)明實(shí)施例所述的一種在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的裝置 800的模塊結(jié)構(gòu)圖9示出了一種根據(jù)本發(fā)明實(shí)施例所述的一種在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的裝置 900的模塊結(jié)構(gòu)圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
如圖I所示,為本發(fā)明實(shí)施例提供的一種在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的方法,包括
步驟101 :加載至少一個(gè)“網(wǎng)頁(yè)內(nèi)容提取設(shè)置”;所述設(shè)置中記錄有網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)以及該結(jié)構(gòu)下的數(shù)據(jù)提取方式;
一般的,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置,在可擴(kuò)展的XML文件中被定義;所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置定義相應(yīng)的內(nèi)容塊的結(jié)構(gòu)體;
下面結(jié)合一段代碼的示例對(duì)網(wǎng)頁(yè)內(nèi)容提取設(shè)置進(jìn)行具體說(shuō)明,以下是一段表達(dá)一個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置的代碼,其中,其中的title是對(duì)應(yīng)網(wǎng)頁(yè)標(biāo)題的,bookpic是對(duì)應(yīng)網(wǎng)頁(yè)中的圖片的,text是對(duì)應(yīng)該圖片的描述文字的,next是下一個(gè)網(wǎng)頁(yè)的鏈接,prev是上一個(gè)網(wǎng)頁(yè)的鏈接。
<websites>〈websites domain=”ifeng.com”>〈book (Jownloadmode==fTt elementfilteF=^ 15M><url match^ftAhttp://wvv;\v.1feng.com/iiew/||,,/>〈tide el-M" if name-,mvalue-1"鍶§^31=間 tag-'div"diildrenselecf h1:07> //*title 對(duì)應(yīng)網(wǎng)頁(yè)標(biāo)題〈bookpic ei=” I ” id=”pie” name=”” eiassname=fm value=關(guān) regula^ffff lag=,fdiv” cMdrenselect〒”pic: 0"> /7*bookpic對(duì)應(yīng)網(wǎng)頁(yè)中的圖片U<textel="l" id="conlent"腿me="" classname="" value="" regular="" tag=ndiv”/> /7*text 對(duì)應(yīng)該圖片的描述文字〈next el=" Γ id=nNextLinkrf Iiame=^fni dassname=1,,, value=”” regular^"11 tag^^a-hreff/> ,V^tiext 應(yīng)下一個(gè)網(wǎng)頁(yè)的鐽接<prev el=nΓ Id=nPrevIinkn nam&=,m dassname=漏 value=”” regular^醫(yī) tag=na-hrefV> //*prev 對(duì)應(yīng)上一個(gè)網(wǎng)頁(yè)的鏈接 </book>
</website>
優(yōu)選的,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置包括,圖文關(guān)聯(lián)項(xiàng)目,所述圖文關(guān)聯(lián)項(xiàng)目用于規(guī) 定圖片及與其對(duì)應(yīng)的文字的關(guān)系,以確保加載所述提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示時(shí), 所述圖片及其對(duì)應(yīng)的文字符合預(yù)定顯示要求。例如,在XML中增加一個(gè)圖文關(guān)聯(lián)項(xiàng)目,說(shuō)明 bookpic與text之間的關(guān)系“bookpic與text之間屬于同一個(gè)內(nèi)容塊,需要進(jìn)行關(guān)聯(lián)的顯示”這樣就可以實(shí)現(xiàn)在本地加載顯示時(shí)的,明確圖片和文字之間的關(guān)聯(lián)性,不出現(xiàn)文字和圖片的混亂,而且是可以相對(duì)應(yīng)地顯示加載的。
優(yōu)選的,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置通過(guò)以下方法獲得將某瀏覽器用戶(hù)使用頻率達(dá)到第一頻率限定的網(wǎng)頁(yè)內(nèi)容提取設(shè)置作為所述用戶(hù)的特性化數(shù)據(jù)保存在瀏覽器側(cè)并且/ 或者同步到瀏覽器對(duì)應(yīng)的服務(wù)器側(cè);在所述用戶(hù)登錄并使用瀏覽器時(shí),獲得所述保存的網(wǎng)頁(yè)內(nèi)容提取設(shè)置。所述第一頻率限定可以由本方法定義,或者由用戶(hù)定義,例如瀏覽頻率達(dá)5%以上。
優(yōu)選的,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置通過(guò)以下方法獲得根據(jù)某用戶(hù)瀏覽的當(dāng)前網(wǎng)頁(yè)和某一網(wǎng)頁(yè)內(nèi)容提取設(shè)置匹配的結(jié)果,判定所述匹配結(jié)果中可以擴(kuò)展的顯示項(xiàng)目,例如視頻、flash、聲音等可以顯示或播放的內(nèi)容;接收用戶(hù)對(duì)于所述可以擴(kuò)展的顯示項(xiàng)目在該“網(wǎng)頁(yè)內(nèi)容提取設(shè)置”中的添加或更改操作指令,重新設(shè)定所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置,例如用窗口提示用戶(hù)可加載的內(nèi)容,提供用戶(hù)選擇,并預(yù)覽選擇后的效果,當(dāng)用戶(hù)確定選擇后,按照用戶(hù)的選擇重新設(shè)定網(wǎng)頁(yè)內(nèi)容提取設(shè)置。優(yōu)選的,在完成所述重新設(shè)定所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置后,可將所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置其作為所述用戶(hù)的特性化數(shù)據(jù)保存在瀏覽器側(cè)或者同步到瀏覽器對(duì)應(yīng)的服務(wù)器側(cè)。
優(yōu)選的,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置通過(guò)以下方法獲得對(duì)以下內(nèi)容進(jìn)行解析比較 I、瀏覽頻率達(dá)到第二頻率限定的網(wǎng)頁(yè)的D0M,2、所述用戶(hù)設(shè)定的網(wǎng)頁(yè)內(nèi)容提取設(shè)置,3、加載提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示的頁(yè)面中的D0M,依據(jù)對(duì)三者的分析設(shè)定“常用的網(wǎng)頁(yè)中的圖文樣式”,并自動(dòng)設(shè)定相應(yīng)網(wǎng)頁(yè)內(nèi)容提取設(shè)置。
優(yōu)選的,還可針對(duì)不同網(wǎng)頁(yè)內(nèi)容提取設(shè)置,分別統(tǒng)計(jì)與已經(jīng)加載的網(wǎng)頁(yè)獲得匹配的次數(shù);根據(jù)所述統(tǒng)計(jì)次數(shù)確定對(duì)所述已經(jīng)加載的網(wǎng)頁(yè)內(nèi)容提取設(shè)置的遍歷順序。例如,有 A、B、C三個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置;其中A被加載過(guò)50出被加載過(guò)100次,C被加載過(guò)25次, 則其排序?yàn)锽AC,加載的網(wǎng)頁(yè)內(nèi)容提取設(shè)置的遍歷順序?yàn)锽AC。
優(yōu)選的,還可為所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置提供編輯接口,以對(duì)網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的項(xiàng)目進(jìn)行添加或修改,這種方式可讓用戶(hù)完全自定義地編輯網(wǎng)頁(yè)內(nèi)容提取設(shè)置。
步驟102 :在瀏覽器側(cè)進(jìn)行網(wǎng)頁(yè)內(nèi)容的下載,通過(guò)分層解析獲得該下載網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu),并與所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置中記錄的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配;
優(yōu)選的,步驟102還包括,通過(guò)分層解析所述網(wǎng)頁(yè)的DOM結(jié)構(gòu)獲取所述的網(wǎng)頁(yè)內(nèi)容,并通過(guò)所述DOM結(jié)構(gòu)與所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置中記錄的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配。 因?yàn)榫W(wǎng)頁(yè)內(nèi)容的呈現(xiàn)形式為Html語(yǔ)言,所以,網(wǎng)頁(yè)內(nèi)容提取設(shè)置的解析是針對(duì)Html語(yǔ)言的。通過(guò)分層解析網(wǎng)頁(yè)的DOM結(jié)構(gòu),能夠獲取相應(yīng)的網(wǎng)頁(yè)內(nèi)容。對(duì)DOM結(jié)構(gòu)可以實(shí)現(xiàn)網(wǎng)頁(yè)內(nèi)容提取設(shè)置的匹配。
步驟103 :獲取一與所述下載的網(wǎng)頁(yè)具有相匹配的數(shù)據(jù)組織結(jié)構(gòu)的網(wǎng)頁(yè)內(nèi)容提取設(shè)置;
優(yōu)選的,步驟103還包括,當(dāng)有多個(gè)匹配的數(shù)據(jù)組織結(jié)構(gòu)網(wǎng)頁(yè)內(nèi)容提取設(shè)置時(shí),可以依據(jù)用戶(hù)的選擇獲得其中一個(gè);優(yōu)選的,可以依據(jù)用戶(hù)的習(xí)慣性選擇默認(rèn)挑選一個(gè)用戶(hù)常用的匹配;優(yōu)選的,當(dāng)沒(méi)有獲得匹配的數(shù)據(jù)組織結(jié)構(gòu)網(wǎng)頁(yè)內(nèi)容提取設(shè)置時(shí),可以挑選最接近的數(shù)據(jù)組織結(jié)構(gòu)網(wǎng)頁(yè)內(nèi)容提取設(shè)置;
步驟104 :根據(jù)該匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的數(shù)據(jù)提取方式,按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù);
優(yōu)選的,步驟104還包括,將所述提取到的下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù)保存在計(jì)算機(jī)本地目錄的第一文件中,所述第一文件為本方法設(shè)定的一個(gè)特定文件;優(yōu)選的,獲得第一文件后,啟動(dòng)一個(gè)線程對(duì)所述第一文件中的項(xiàng)目逐一核實(shí),并依據(jù)其中的圖片的URL在后臺(tái)下載圖片,并將下載在計(jì)算機(jī)本地的所述圖片的路徑替換所述圖片的URL;優(yōu)選的,對(duì)所述第一文件中的項(xiàng)目逐一核實(shí)后,通知瀏覽器側(cè)可以使用該第一文件在瀏覽器側(cè)進(jìn)行顯/Jn ο
優(yōu)選的,步驟104還包括,如果沒(méi)有匹配到與當(dāng)前已經(jīng)加載的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置,則以最為接近的網(wǎng)頁(yè)內(nèi)容提取設(shè)置提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù)。
優(yōu)選的,步驟104還包括,當(dāng)偵測(cè)到瀏覽器用戶(hù)登錄時(shí),使用獲得匹配次數(shù)最多的網(wǎng)頁(yè)內(nèi)容提取設(shè)置直接提取已經(jīng)加載的網(wǎng)頁(yè)中的數(shù)據(jù)。
優(yōu)選的,步驟102 步驟104還可以包括,在自建瀏覽器瀏覽網(wǎng)頁(yè)并收到網(wǎng)頁(yè)加載的DocumentComplete事件后,遍歷與所述網(wǎng)頁(yè)匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置,并根據(jù)匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的數(shù)據(jù)提取方式,按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù)。優(yōu)選的,其又包括,啟動(dòng)一個(gè)線程,在該線程中遍歷與所述網(wǎng)頁(yè)匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置,依據(jù)所述匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置的其中一個(gè),對(duì)所述下載網(wǎng)頁(yè)中已經(jīng)解析完成的DOM進(jìn)行結(jié)構(gòu)上的查找,將可以匹配網(wǎng)頁(yè)內(nèi)容提取設(shè)置的內(nèi)容塊作為匹配結(jié)果進(jìn)行保存;將所述作為匹配結(jié)果的提取得到的所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù)保存在計(jì)算機(jī)本地目錄的第一文件中,所述第一文件為本方法設(shè)定的一個(gè)特定文件;獲得第一文件后,啟動(dòng)一個(gè)線程對(duì)所述第一文件中的項(xiàng)目逐一核實(shí),并依據(jù)其中的圖片的URL在后臺(tái)下載圖片,并將下載在計(jì)算機(jī)本地的所述圖片的路徑替換所述圖片的URL;優(yōu)選的,對(duì)所述第一文件中的項(xiàng)目逐一核實(shí)后,通知瀏覽器側(cè)可以使用該第一文件在瀏覽器側(cè)進(jìn)行顯示。
步驟105 :依據(jù)用戶(hù)的觸發(fā)指令加載所述提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示。
優(yōu)選的,步驟105還包括,在按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù)后,在瀏覽器側(cè)加載一按鈕,由用戶(hù)決定是否顯示,接收用戶(hù)對(duì)所述按鈕的觸發(fā), 選擇顯示時(shí),加載所述提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示。
如圖2所示,為根據(jù)本發(fā)明實(shí)施例所述的一種在瀏覽器側(cè)展現(xiàn)圖片及其對(duì)應(yīng)文字的方法的流程圖,如圖3A所示,為根據(jù)本發(fā)明實(shí)施例所述的一種在瀏覽器側(cè)展現(xiàn)圖片及其對(duì)應(yīng)文字的方法中圖片及文字在網(wǎng)頁(yè)300中的結(jié)構(gòu)圖,如圖4所示,為根據(jù)一個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置由網(wǎng)頁(yè)300提取內(nèi)容后最終顯示的網(wǎng)頁(yè)300S ;所述方法包括以下步驟
步驟201 :加載至少一個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置,所述設(shè)置中記錄有網(wǎng)頁(yè)的圖片和文字的組織結(jié)構(gòu)以及該結(jié)構(gòu)下的圖片和文字提取方式,其需要獲得圖片的Url ;
步驟202 :通過(guò)自建瀏覽器在瀏覽器側(cè)進(jìn)行網(wǎng)頁(yè)300內(nèi)容的下載,自建瀏覽器瀏覽網(wǎng)頁(yè)300,在收到DocumentComplete事件后,遍歷已經(jīng)加載的網(wǎng)頁(yè)內(nèi)容提取設(shè)置,通過(guò)分層解析獲得該下載網(wǎng)頁(yè)的圖片和文字的組織結(jié)構(gòu),并與所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置中記錄的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配。
步驟203 :獲取一與所述下載的網(wǎng)頁(yè)具有相匹配的圖片和文字的組織結(jié)構(gòu)的網(wǎng)頁(yè)內(nèi)容提取設(shè)置;
步驟204:根據(jù)該匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的數(shù)據(jù)提取方式,按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù),保存在第一文件中,啟動(dòng)一個(gè)線程對(duì)所述第一文件中的項(xiàng)目逐一核實(shí),包括獲取所需提取的URL,依據(jù)該URL在后臺(tái)下載圖片,并將下載在計(jì)算機(jī)本地的所述圖片的路徑替換所述圖片的URL。
步驟205 :依據(jù)用戶(hù)的觸發(fā)指令加載所述提取的網(wǎng)頁(yè)圖片及文字在瀏覽器側(cè)進(jìn)行顯不O
如圖3,所示,為根據(jù)本發(fā)明實(shí)施例所述的一種在瀏覽器側(cè)展現(xiàn)圖片及其對(duì)應(yīng)文字的方法中圖片及文字在網(wǎng)頁(yè)300中的結(jié)構(gòu)圖;網(wǎng)頁(yè)中包含文字塊Title301 (為網(wǎng)頁(yè)300的標(biāo)題文字)、圖片A302、圖片A302對(duì)應(yīng)的文字塊A303、圖片B304、圖片B304對(duì)應(yīng)的文字塊 B305,Flash塊306、相關(guān)文章鏈接塊307、獨(dú)立的文字塊C308、“上一頁(yè)”按鈕309、下一頁(yè)按鈕 “310,,。
實(shí)例中的一個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置由如下代碼規(guī)定
<websites>〈websites domaifeig·com”〉<book downloadmode=" I" elementfilter=" 15n><mi match=!!Ahttp://wm¥ JfengxonVnewZIIn^〈title el=M4M id=”" name="" classname=”titlen value="" regular=關(guān) tag=,,div”childrenselect^!!hl :07> //*title 對(duì)應(yīng)網(wǎng)黃標(biāo)題<bookpic el=,’Γ, id^^pic11 name="!, classname=ffi! value=,1f1 regulap=Hir Iag=1tCiivii cMldrenselectr=rrpic:Oi!> //*bookpic 對(duì)應(yīng)網(wǎng)頁(yè)中的圏片<text el=、" id=”conteiit” mme=tm classname=ffii value=,1f1 regular="ir tag=”divf7>//.text 對(duì)應(yīng)該圖片的描述文字<next d=!T* Id=1iNextLinkir name=間 classname-1 value=!!f! regular=1*11 tag=,,a-href7> //*next 對(duì)應(yīng)下一個(gè)網(wǎng)頁(yè)的鏈接<prev el-fIn id="PrevLink" name—lff classname-,,ff value=”” regular=”” tag—^a-href1,*^ //^prev 對(duì)應(yīng)上一個(gè)網(wǎng)If的鏈接 </book></website>
其規(guī)則為,提取網(wǎng)頁(yè)的標(biāo)題文字;提取圖片;提取所述圖像對(duì)應(yīng)的描述文字;提取上一頁(yè)按鈕的鏈接;提取下一頁(yè)按鈕的鏈接。
針對(duì)所述網(wǎng)頁(yè)300,文字塊Title301為網(wǎng)頁(yè)300的標(biāo)題文字,所以被提??;圖片 A302被提?。晃淖謮KA303,由于其在網(wǎng)頁(yè)html語(yǔ)言描述中對(duì)應(yīng)于圖片A302,其被提??;同理;圖片B304和文字塊B305被提??;Flash塊306、相關(guān)文章鏈接塊307由于不屬于被提取的內(nèi)容類(lèi)型,所以不提??;獨(dú)立的文字塊C308由于沒(méi)有在html語(yǔ)言描述中對(duì)應(yīng)任何一張圖片,所以不提??;“上一頁(yè)”按鈕309的鏈接,下一頁(yè)按鈕“310”的鏈接都被提取。
判斷提取內(nèi)容后,將需提取的圖片塊URL和文字塊存儲(chǔ)在第一文件中,下載URL指向的圖片,并將文件中URL更改為下載的本地圖片存儲(chǔ)地址,并通知瀏覽器測(cè),待用戶(hù)觸發(fā)指令后,加載所述第一文件中的圖片存儲(chǔ)地址和文字,在瀏覽器側(cè)進(jìn)行顯示。
最終顯示的效果如圖4,最終顯示網(wǎng)頁(yè)300S中包括文字塊Title301、圖片A302、 文字塊A303、圖片B304、文字塊B305、“上一頁(yè)”按鈕309的鏈接,下一頁(yè)按鈕“310”的鏈接。
如圖5所示,為一種依據(jù)用戶(hù)使用“網(wǎng)頁(yè)內(nèi)容提取設(shè)置”的頻率達(dá)到第一頻率設(shè)定的“網(wǎng)頁(yè)內(nèi)容提取設(shè)置”作為用戶(hù)特性化數(shù)據(jù)并進(jìn)行網(wǎng)頁(yè)內(nèi)容提取和顯示的方法流程圖。包括以下步驟
步驟501 :偵測(cè)瀏覽器用戶(hù)(例如張三)使用各“網(wǎng)頁(yè)內(nèi)容提取設(shè)置”的頻率;
步驟502 :判斷所述用戶(hù)使用某“網(wǎng)頁(yè)內(nèi)容提取設(shè)置”的頻率值達(dá)到第一頻率限定 (所述第一頻率限定可以由本方法定義,或者由用戶(hù)定義,例如瀏覽頻率達(dá)10%以上。)
步驟503 :將所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置作為所述用戶(hù)的特性化數(shù)據(jù)保存在瀏覽器側(cè)并且/或者同步到瀏覽器對(duì)應(yīng)的服務(wù)器側(cè);
步驟504 :在所述用戶(hù)登錄并使用瀏覽器時(shí),獲得所述保存的網(wǎng)頁(yè)內(nèi)容提取設(shè)置;
步驟505 :采用所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置提取網(wǎng)頁(yè)內(nèi)容并顯示。
如圖6A、圖6B所示為一種采用網(wǎng)頁(yè)內(nèi)容提取設(shè)置中包括“圖文關(guān)聯(lián)項(xiàng)目”的顯示效果圖。包括文字塊A601、圖片A縮略圖602、圖片A603。
所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置包括,圖文關(guān)聯(lián)項(xiàng)目,所述圖文關(guān)聯(lián)項(xiàng)目用于規(guī)定圖片及與其對(duì)應(yīng)的文字的關(guān)系,以確保加載所述提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示時(shí),所述圖片及其對(duì)應(yīng)的文字符合預(yù)定顯示要求。例如,在XML中增加一個(gè)圖文關(guān)聯(lián)項(xiàng)目,說(shuō)明 bookpic與text之間的關(guān)系“bookpic與text之間屬于同一個(gè)內(nèi)容塊,需要進(jìn)行關(guān)聯(lián)的顯示”這樣就可以實(shí)現(xiàn)在本地加載顯示時(shí)的,明確圖片和文字之間的關(guān)聯(lián)性,不出現(xiàn)文字和圖片的混亂,而且是可以相對(duì)應(yīng)地顯示加載的。
如圖6A所示,右邊圖片A縮略圖602為圖片A603的縮略圖,左邊為圖片A603對(duì)應(yīng)的文字塊A601,所述圖文關(guān)聯(lián)項(xiàng)目確保了圖片A603的縮略圖和文字塊A601正確的顯示關(guān)系。當(dāng)鼠標(biāo)懸浮在圖片縮略圖上會(huì)加載原尺寸圖片,顯示為圖6B ;當(dāng)鼠標(biāo)移出后顯示還原為圖6A。
如圖7 :為一種提供用戶(hù)選擇可擴(kuò)展項(xiàng)目的用戶(hù)界面700結(jié)構(gòu)圖,包括界面701,界面702,界面703。當(dāng)加載某一網(wǎng)頁(yè)內(nèi)容提取設(shè)置后,根據(jù)當(dāng)前用戶(hù)瀏覽的當(dāng)前網(wǎng)頁(yè)和所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置匹配的結(jié)果,判定所述匹配結(jié)果中可以擴(kuò)展的顯示項(xiàng)目(例如Flash), 此時(shí)彈出此用戶(hù)界面700,在界面701中,用戶(hù)可選擇是否添加此項(xiàng)目,在界面702中,根據(jù)用戶(hù)的選擇可以預(yù)覽顯示出匹配的初步結(jié)果顯示在頁(yè)面上,在界面703中,接收用戶(hù)對(duì)于所述可以擴(kuò)展的顯示項(xiàng)目在該網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的添加、或更改、或者僅使用一次此設(shè)置的指令,重新設(shè)定所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置,或者可以取消設(shè)置。并且,可以通過(guò)這種有用戶(hù)匹配接入的方式,更新上述的網(wǎng)頁(yè)內(nèi)容提取設(shè)置庫(kù),并形成特定用戶(hù)的網(wǎng)頁(yè)內(nèi)容提取設(shè)置,形成用戶(hù)特定數(shù)據(jù)。
此外,瀏覽器側(cè)可以進(jìn)行自動(dòng)的調(diào)整所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置,在對(duì)于閱讀模式下的頁(yè)面中的DOM結(jié)構(gòu)的解析、用戶(hù)經(jīng)常閱讀的網(wǎng)頁(yè)的D0M、以及用戶(hù)設(shè)置的網(wǎng)頁(yè)內(nèi)容提取設(shè)置進(jìn)行比較后,設(shè)置其中的常出現(xiàn)的“文字+圖片”等的樣式,并自動(dòng)進(jìn)行所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置的更新設(shè)置。
如圖8所示,為根據(jù)本發(fā)明實(shí)施例所述的一種在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的裝置 800的模塊結(jié)構(gòu)圖,所述裝置包括
加載設(shè)置模塊810:用于加載至少一個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置,所述設(shè)置中記錄有網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)以及該結(jié)構(gòu)下的數(shù)據(jù)提取方式;
匹配設(shè)置模塊820:用于在瀏覽器側(cè)進(jìn)行網(wǎng)頁(yè)內(nèi)容的下載,通過(guò)分層解析獲得該下載網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu),并與所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置中記錄的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配;
獲取設(shè)置模塊830 :用于獲取一與所述下載的網(wǎng)頁(yè)具有相匹配的數(shù)據(jù)組織結(jié)構(gòu)的網(wǎng)頁(yè)內(nèi)容提取設(shè)置;
提取數(shù)據(jù)模塊840 :用于根據(jù)該匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的數(shù)據(jù)提取方式,按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù);
顯示數(shù)據(jù)模塊850 :用于依據(jù)用戶(hù)的觸發(fā)指令加載所述提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示。
如圖9所示為根據(jù)本發(fā)明實(shí)施例所述的一種在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的裝置 900的模塊結(jié)構(gòu)圖,所述裝置包括
加載設(shè)置模塊910:用于加載至少一個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置,所述設(shè)置中記錄有網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)以及該結(jié)構(gòu)下的數(shù)據(jù)提取方式;
一般的,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置,在可擴(kuò)展的XML文件中被定義;所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置定義相應(yīng)的內(nèi)容塊的結(jié)構(gòu)體;
下面結(jié)合一段代碼的示例對(duì)網(wǎng)頁(yè)內(nèi)容提取設(shè)置進(jìn)行具體說(shuō)明,以下是一段表達(dá)一個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置的代碼,其中,其中的title是對(duì)應(yīng)網(wǎng)頁(yè)標(biāo)題的,bookpic是對(duì)應(yīng)網(wǎng)頁(yè)中的圖片的,text是對(duì)應(yīng)該圖片的描述文字的,next是下一個(gè)網(wǎng)頁(yè)的鏈接,prev是上一個(gè)網(wǎng)頁(yè)的鏈接。
權(quán)利要求
1.一種在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的方法,包括 加載至少一個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置,所述設(shè)置中記錄有網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)以及該結(jié)構(gòu)下的數(shù)據(jù)提取方式; 在瀏覽器側(cè)進(jìn)行網(wǎng)頁(yè)內(nèi)容的下載,通過(guò)分層解析獲得該下載網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu),并與所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置中記錄的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配; 獲取一與所述下載的網(wǎng)頁(yè)具有相匹配的數(shù)據(jù)組織結(jié)構(gòu)的網(wǎng)頁(yè)內(nèi)容提取設(shè)置; 根據(jù)該匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的數(shù)據(jù)提取方式,按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù); 依據(jù)用戶(hù)的觸發(fā)指令加載所述提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示。
2.如權(quán)利要求I所述方法,其特征在于,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置,在可擴(kuò)展的XML文件中被定義,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置定義相應(yīng)的內(nèi)容塊的結(jié)構(gòu)體。
3.如權(quán)利要求I所述方法,其特征在于,所述通過(guò)分層解析獲得該下載網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu),并與所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置中記錄的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配包括 通過(guò)分層解析所述網(wǎng)頁(yè)的DOM結(jié)構(gòu)獲取所述的網(wǎng)頁(yè)內(nèi)容,并通過(guò)所述DOM結(jié)構(gòu)與所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置中記錄的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配。
4.如權(quán)利要求I所述方法,其特征在于,所述根據(jù)該匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的數(shù)據(jù)提取方式按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù)包括 在自建瀏覽器瀏覽網(wǎng)頁(yè)并收到網(wǎng)頁(yè)加載的DocumentComplete事件后,遍歷與所述網(wǎng)頁(yè)匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置,并根據(jù)匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的數(shù)據(jù)提取方式,按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù)。
5.如權(quán)利要求4所述方法,其特征在于,所述遍歷與所述網(wǎng)頁(yè)匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置,并根據(jù)匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的數(shù)據(jù)提取方式,按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù)包括 啟動(dòng)一個(gè)線程,在該線程中遍歷與所述網(wǎng)頁(yè)匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置,依據(jù)所述匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置的其中一個(gè),對(duì)所述下載網(wǎng)頁(yè)中已經(jīng)解析完成的DOM進(jìn)行結(jié)構(gòu)上的查找,將可以匹配網(wǎng)頁(yè)內(nèi)容提取設(shè)置的內(nèi)容塊作為匹配結(jié)果進(jìn)行保存。
6.如權(quán)利要求5所述方法,其特征在于,所述將可以匹配網(wǎng)頁(yè)內(nèi)容提取設(shè)置的內(nèi)容塊作為匹配結(jié)果進(jìn)行保存包括 將所述作為匹配結(jié)果的提取得到的所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù)保存在計(jì)算機(jī)本地目錄的第一文件中。
7.如權(quán)利要求6所述方法,其特征在于,進(jìn)一步包括 啟動(dòng)一個(gè)線程對(duì)所述第一文件中的項(xiàng)目逐一核實(shí),并依據(jù)其中的圖片的URL在后臺(tái)下載圖片,并將下載在計(jì)算機(jī)本地的所述圖片的路徑替換所述圖片的URL。
8.如權(quán)利要求7所述方法,其特征在于,進(jìn)一步包括 對(duì)所述第一文件中的項(xiàng)目逐一核實(shí)后,通知瀏覽器側(cè)可以使用該第一文件在瀏覽器側(cè)進(jìn)行顯示。
9.如權(quán)利要求I所述方法,其特征在于,所述依據(jù)用戶(hù)的觸發(fā)指令加載所述提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示包括 在按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù)后,在瀏覽器側(cè)加載一按鈕,接收用戶(hù)對(duì)所述按鈕的觸發(fā),加載所述提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示。
10.如權(quán)利要求I所述方法,其特征在于,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置通過(guò)以下方法獲得 將某瀏覽器用戶(hù)使用頻率達(dá)到第一頻率限定的網(wǎng)頁(yè)內(nèi)容提取設(shè)置作為所述用戶(hù)的特性化數(shù)據(jù)保存在瀏覽器側(cè)或者同步到瀏覽器對(duì)應(yīng)的服務(wù)器側(cè); 在所述用戶(hù)登錄并使用瀏覽器時(shí),獲得所述保存的網(wǎng)頁(yè)內(nèi)容提取設(shè)置。
11.如權(quán)利要求I所述方法,其特征在于,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置包括圖文關(guān)聯(lián)項(xiàng)目,所述圖文關(guān)聯(lián)項(xiàng)目用于規(guī)定圖片及與其對(duì)應(yīng)的文字的關(guān)系,以確保加載所述提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示時(shí),所述圖片及其對(duì)應(yīng)的文字符合預(yù)定顯示要求。
12.如權(quán)利要求I所述方法,其特征在于,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置通過(guò)以下方法獲得 根據(jù)某用戶(hù)瀏覽的當(dāng)前網(wǎng)頁(yè)和某一網(wǎng)頁(yè)內(nèi)容提取設(shè)置匹配的結(jié)果,判定所述匹配結(jié)果中可以擴(kuò)展的顯示項(xiàng)目, 接收用戶(hù)對(duì)于所述可以擴(kuò)展的顯示項(xiàng)目在該網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的添加或更改操作指令,重新設(shè)定所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置。
13.如權(quán)利要求12所述方法,其特征在于,進(jìn)一步包括 在完成重新設(shè)定所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置后,將所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置其作為所述用戶(hù)的特性化數(shù)據(jù)保存在瀏覽器側(cè)或者同步到瀏覽器對(duì)應(yīng)的服務(wù)器側(cè)。
14.如權(quán)利要求I所述方法,其特征在于,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置通過(guò)以下方法獲得 對(duì)瀏覽頻率達(dá)到第二頻率限定的網(wǎng)頁(yè)的DOM和所述用戶(hù)設(shè)定的網(wǎng)頁(yè)內(nèi)容提取設(shè)置,以及加載提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示的頁(yè)面中的DOM結(jié)構(gòu)進(jìn)行解析比較; 設(shè)定常用的網(wǎng)頁(yè)中的圖文樣式,并自動(dòng)設(shè)定相應(yīng)網(wǎng)頁(yè)內(nèi)容提取設(shè)置。
15.如權(quán)利要求I所述的方法,其特征在于,進(jìn)一步包括 針對(duì)不同網(wǎng)頁(yè)內(nèi)容提取設(shè)置,分別統(tǒng)計(jì)與已經(jīng)加載的網(wǎng)頁(yè)獲得匹配的次數(shù); 根據(jù)所述統(tǒng)計(jì)次數(shù)確定對(duì)所述已經(jīng)加載的網(wǎng)頁(yè)內(nèi)容提取設(shè)置的遍歷順序。
16.如權(quán)利要求15所述的方法,其特征在于,進(jìn)一步包括 當(dāng)偵測(cè)到瀏覽器用戶(hù)登錄時(shí),使用獲得匹配次數(shù)最多的網(wǎng)頁(yè)內(nèi)容提取設(shè)置直接提取已經(jīng)加載的網(wǎng)頁(yè)中的數(shù)據(jù)。
17.如權(quán)利要求I所述的方法,其特征在于,進(jìn)一步包括 如果沒(méi)有匹配到與當(dāng)前已經(jīng)加載的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置,則以最為接近的網(wǎng)頁(yè)內(nèi)容提取設(shè)置提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù)。
18.如權(quán)利要求I所述的方法,其特征在于,進(jìn)一步包括 為所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置提供編輯接口,以對(duì)網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的項(xiàng)目進(jìn)行添加或修改。
19.一種在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的裝置,包括 加載設(shè)置模塊用于加載至少一個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置,所述設(shè)置中記錄有網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)以及該結(jié)構(gòu)下的數(shù)據(jù)提取方式; 匹配設(shè)置模塊用于在瀏覽器側(cè)進(jìn)行網(wǎng)頁(yè)內(nèi)容的下載,通過(guò)分層解析獲得該下載網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu),并與所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置中記錄的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配; 獲取設(shè)置模塊用于獲取一與所述下載的網(wǎng)頁(yè)具有相匹配的數(shù)據(jù)組織結(jié)構(gòu)的網(wǎng)頁(yè)內(nèi)容提取設(shè)置;提取數(shù)據(jù)模塊用于根據(jù)該匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的數(shù)據(jù)提取方式,按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù); 顯示數(shù)據(jù)模塊用于依據(jù)用戶(hù)的觸發(fā)指令加載所述提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯/Jn o
20.如權(quán)利要求19所述裝置,其特征在于,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置,在可擴(kuò)展的XML文件中被定義,所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置定義相應(yīng)的內(nèi)容塊的結(jié)構(gòu)體。
全文摘要
本發(fā)明公開(kāi)了一種在瀏覽器側(cè)展現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的方法及裝置,該方法包括加載至少一個(gè)網(wǎng)頁(yè)內(nèi)容提取設(shè)置,所述設(shè)置中記錄有網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)以及該結(jié)構(gòu)下的數(shù)據(jù)提取方式;在瀏覽器側(cè)進(jìn)行網(wǎng)頁(yè)內(nèi)容的下載,通過(guò)分層解析獲得該下載網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu),并與所述網(wǎng)頁(yè)內(nèi)容提取設(shè)置中記錄的網(wǎng)頁(yè)的數(shù)據(jù)組織結(jié)構(gòu)相匹配;獲取一與所述下載的網(wǎng)頁(yè)具有相匹配的數(shù)據(jù)組織結(jié)構(gòu)的網(wǎng)頁(yè)內(nèi)容提取設(shè)置;根據(jù)該匹配的網(wǎng)頁(yè)內(nèi)容提取設(shè)置中的數(shù)據(jù)提取方式,按照對(duì)應(yīng)的數(shù)據(jù)組織結(jié)構(gòu)提取所述下載的網(wǎng)頁(yè)中的網(wǎng)頁(yè)數(shù)據(jù);依據(jù)用戶(hù)的觸發(fā)指令加載所述提取的網(wǎng)頁(yè)數(shù)據(jù)在瀏覽器側(cè)進(jìn)行顯示。
文檔編號(hào)G06F17/30GK102982181SQ20121055313
公開(kāi)日2013年3月20日 申請(qǐng)日期2012年12月18日 優(yōu)先權(quán)日2012年12月18日
發(fā)明者謝洲為, 潘洪學(xué), 糜裕峰, 任寰 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司