一種在瀏覽器中顯示網(wǎng)頁(yè)內(nèi)容的方法和裝置制造方法
【專利摘要】本申請(qǐng)公開了一種在瀏覽器中顯示網(wǎng)頁(yè)內(nèi)容的方法和裝置,該方法包括:獲取用戶請(qǐng)求讀取的網(wǎng)頁(yè);判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文,并在瀏覽器中以預(yù)設(shè)閱讀模式輸出所述標(biāo)題和正文。本發(fā)明能夠過濾掉網(wǎng)頁(yè)中正文以外的無(wú)用信息。
【專利說明】一種在瀏覽器中顯示網(wǎng)頁(yè)內(nèi)容的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,特別涉及一種在瀏覽器中顯示網(wǎng)頁(yè)內(nèi)容的方法和裝置。
【背景技術(shù)】
[0002]當(dāng)前互聯(lián)網(wǎng)中,存在大量的內(nèi)容型網(wǎng)頁(yè)(例如提供新聞、小說等內(nèi)容的網(wǎng)頁(yè)),用戶在瀏覽內(nèi)容型網(wǎng)頁(yè)時(shí),主要關(guān)注的對(duì)象是網(wǎng)頁(yè)中的文章。在內(nèi)容型網(wǎng)頁(yè)中往往包含大量的廣告等的正文以外的信息,這些正文以外的信息給用戶的閱讀帶來了很多干擾。
[0003]為了減少網(wǎng)頁(yè)中正文以外的信息給用戶帶來的干擾,目前,一些瀏覽器(例如Chrome)使用插件對(duì)網(wǎng)頁(yè)中的廣告信息進(jìn)行過濾,可以在一定程度上減少?gòu)V告信息對(duì)用戶的閱讀帶來的干擾。然而,這種使用插件對(duì)廣告信息進(jìn)行過濾的方法只能有限的減少干擾,并不能提供純粹的閱讀模式,使用戶在瀏覽內(nèi)容型網(wǎng)站時(shí)不受無(wú)用信息的干擾。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本申請(qǐng)的目的在于提供一種提升瀏覽器的閱讀體驗(yàn)的方法,該方法能夠過濾掉網(wǎng)頁(yè)中正文以外的無(wú)用信息。
[0005]為了達(dá)到上述目的,本申請(qǐng)?zhí)峁┝艘环N在瀏覽器中顯示網(wǎng)頁(yè)內(nèi)容的方法,該方法包括:
[0006]獲取用戶請(qǐng)求讀取的網(wǎng)頁(yè);
[0007]判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文,并在瀏覽器中以預(yù)設(shè)閱讀模式輸出所述標(biāo)題和正文。
[0008]預(yù)先針對(duì)每個(gè)網(wǎng)站中使用同一模版的所有內(nèi)容型網(wǎng)頁(yè)建立一條匹配規(guī)則,所述匹配規(guī)則包括鍵值對(duì),其中,鍵包括使用該模版的內(nèi)容型網(wǎng)頁(yè)的統(tǒng)一資源定位符URL匹配規(guī)貝U,值包括使用該模版的內(nèi)容型網(wǎng)頁(yè)的標(biāo)題位置信息和正文位置信息;
[0009]所述判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文包括:使用預(yù)先建立的每條匹配規(guī)則中的鍵與所述網(wǎng)頁(yè)的URL進(jìn)行匹配,如果匹配成功,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),根據(jù)該條匹配規(guī)則中的標(biāo)題位置信息和正文位置信息獲取所述網(wǎng)頁(yè)的標(biāo)題和正文。
[0010]所述判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文包括:將所述網(wǎng)頁(yè)解析成文當(dāng)對(duì)象模型DOM樹,獲取DOM樹中的每個(gè)節(jié)點(diǎn)的位置信息,根據(jù)該節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值,如果該節(jié)點(diǎn)的視覺屬性值超過預(yù)設(shè)正文視覺屬性值,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),提取視覺屬性值大于預(yù)設(shè)正文視覺屬性值的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為一級(jí)標(biāo)題hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
[0011]所述判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文包括:將所述網(wǎng)頁(yè)解析成DOM樹,提取DOM樹中每個(gè)節(jié)點(diǎn)的文本,如果該節(jié)點(diǎn)的文本中包括超過預(yù)設(shè)個(gè)數(shù)的標(biāo)點(diǎn)符號(hào),則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),將該節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
[0012]所述判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文包括:將所述網(wǎng)頁(yè)解析成DOM樹,如果DOM樹中存在標(biāo)簽為文章article的節(jié)點(diǎn),則確定該網(wǎng)頁(yè)為內(nèi)容型網(wǎng)頁(yè),提取標(biāo)簽為article的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
[0013]所述判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文包括:將所述網(wǎng)頁(yè)解析成DOM樹,并計(jì)算DOM樹中的每個(gè)節(jié)點(diǎn)的正文權(quán)值,如果該節(jié)點(diǎn)的正文權(quán)值大于預(yù)設(shè)正文權(quán)值,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),提取該節(jié)點(diǎn)的正文作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題;
[0014]其中,計(jì)算DOM樹中的每個(gè)節(jié)點(diǎn)的正文權(quán)值,包括:獲取該節(jié)點(diǎn)的位置信息,根據(jù)該節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值,如果視覺屬性值大于預(yù)設(shè)正文視覺屬性值,則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第一權(quán)值;如果該節(jié)點(diǎn)的標(biāo)簽為article,則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第二權(quán)值;提取該節(jié)點(diǎn)的文本信息,如果該節(jié)點(diǎn)的文本中存在超過預(yù)設(shè)個(gè)數(shù)的標(biāo)點(diǎn)符號(hào),則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第三權(quán)值。
[0015]所述在瀏覽器中以預(yù)設(shè)閱讀模式輸出所述標(biāo)題和正文的方法為:使用內(nèi)嵌框架iframe載入預(yù)設(shè)閱讀模式模板頁(yè)面,將所述標(biāo)題和正文填充到預(yù)設(shè)閱讀模式模板頁(yè)面。
[0016]本申請(qǐng)還提供了一種瀏覽器,該瀏覽器包括:網(wǎng)頁(yè)獲取單元、正文提取單元、輸出單元;
[0017]所述網(wǎng)頁(yè)獲取單元,用于獲取用戶請(qǐng)求讀取的網(wǎng)頁(yè);
[0018]所述正文提取單元,用于判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文;
[0019]所述輸出單元,用于在瀏覽器中以預(yù)設(shè)閱讀模式輸出正文提取單元從所述網(wǎng)頁(yè)中提取的標(biāo)題和正文。
[0020]所述規(guī)則建立單元,用于預(yù)先針對(duì)每個(gè)網(wǎng)站中使用同一模版的所有內(nèi)容型網(wǎng)頁(yè)建立一條匹配規(guī)則,所述匹配規(guī)則包括鍵值對(duì),其中,鍵包括使用該模版的內(nèi)容型網(wǎng)頁(yè)的URL匹配規(guī)則,值包括使用該模版的內(nèi)容型網(wǎng)頁(yè)的標(biāo)題位置信息和正文位置信息;
[0021]所述正文提取單元在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:使用預(yù)先建立的每條匹配規(guī)則中的鍵與所述網(wǎng)頁(yè)的統(tǒng)一資源定位符URL進(jìn)行匹配,如果匹配成功,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),根據(jù)該條匹配規(guī)則中的標(biāo)題位置信息和正文位置信息獲取所述網(wǎng)頁(yè)的標(biāo)題和正文。
[0022]所述正文提取單元在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:將所述網(wǎng)頁(yè)解析成文檔對(duì)象模型DOM樹,獲取DOM樹中的每個(gè)節(jié)點(diǎn)的位置信息,根據(jù)該節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值,如果該節(jié)點(diǎn)的視覺屬性值超過預(yù)設(shè)正文視覺屬性值,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),提取視覺屬性值大于預(yù)設(shè)正文視覺屬性值的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為一級(jí)標(biāo)題hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
[0023]所述正文提取單元在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:將所述網(wǎng)頁(yè)解析成DOM樹,提取DOM樹中每個(gè)節(jié)點(diǎn)的文本,如果該節(jié)點(diǎn)的文本中包括超過預(yù)設(shè)個(gè)數(shù)的標(biāo)點(diǎn)符號(hào),則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),將該節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hI的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
[0024]所述正文提取單元在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:將所述網(wǎng)頁(yè)解析成DOM樹,如果DOM樹中存在標(biāo)簽為文章article的節(jié)點(diǎn),則確定該網(wǎng)頁(yè)為內(nèi)容型網(wǎng)頁(yè),提取標(biāo)簽為article的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
[0025]所述正文提取單元在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:將所述網(wǎng)頁(yè)解析成DOM樹,并計(jì)算DOM樹中的每個(gè)節(jié)點(diǎn)的正文權(quán)值,如果該節(jié)點(diǎn)的正文權(quán)值大于預(yù)設(shè)正文權(quán)值,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),提取該節(jié)點(diǎn)的正文作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題;
[0026]其中,計(jì)算DOM樹中的每個(gè)節(jié)點(diǎn)的正文權(quán)值,包括:獲取該節(jié)點(diǎn)的位置信息,根據(jù)該節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值,如果視覺屬性值大于預(yù)設(shè)正文視覺屬性值,則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第一權(quán)值;如果該節(jié)點(diǎn)的標(biāo)簽為article,則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第二權(quán)值;提取該節(jié)點(diǎn)的文本信息,如果該節(jié)點(diǎn)的文本中存在超過預(yù)設(shè)個(gè)數(shù)的標(biāo)點(diǎn)符號(hào),則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第三權(quán)值。
[0027]所述輸出單元在瀏覽器中以預(yù)設(shè)閱讀模式輸出正文提取單元從所述網(wǎng)頁(yè)中提取的標(biāo)題和正文時(shí),用于:使用內(nèi)嵌框架iframe載入預(yù)設(shè)閱讀模式模板頁(yè)面,將所述標(biāo)題和正文填充到預(yù)設(shè)閱讀模式模板頁(yè)面。
[0028]由上面的技術(shù)方案可知,本申請(qǐng)中,獲取用戶請(qǐng)求的網(wǎng)頁(yè)后,如果判定網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),則提取網(wǎng)頁(yè)的標(biāo)題和正文并在瀏覽器中輸出提取的標(biāo)題和正文,從而實(shí)現(xiàn)過濾網(wǎng)頁(yè)中正文以外的無(wú)用信息,使用戶在瀏覽內(nèi)容型網(wǎng)頁(yè)時(shí)可以不受無(wú)用信息的干擾的目的。
【專利附圖】
【附圖說明】
[0029]圖1是本發(fā)明實(shí)施例在瀏覽器中顯示網(wǎng)頁(yè)內(nèi)容的方法流程圖;
[0030]圖2是本發(fā)明實(shí)施例提供的瀏覽器的架構(gòu)示意圖。
【具體實(shí)施方式】
[0031]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,下面結(jié)合附圖并舉實(shí)施例,對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明。
[0032]參見圖1,圖1是本發(fā)明實(shí)施例在瀏覽器中顯示網(wǎng)頁(yè)內(nèi)容的方法流程圖,主要包括以下幾個(gè)步驟:
[0033]步驟101、獲取用戶請(qǐng)求讀取的網(wǎng)頁(yè);
[0034]當(dāng)用戶需要瀏覽某一網(wǎng)頁(yè)時(shí),需要在瀏覽器的統(tǒng)一資源定位符(URL)地址欄中輸入該網(wǎng)頁(yè)的URL地址或點(diǎn)擊該網(wǎng)頁(yè)的鏈接,以觸發(fā)瀏覽器獲取該網(wǎng)頁(yè)的過程。
[0035]步驟102、判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文,并在瀏覽器中以預(yù)設(shè)閱讀模式輸出所述標(biāo)題和正文。
[0036]這里,所述內(nèi)容型網(wǎng)頁(yè)是指以文章作為主體的網(wǎng)頁(yè),包括較多的文字內(nèi)容,例如提供新聞、小說、資訊(例如博客)等內(nèi)容的網(wǎng)頁(yè),均屬于內(nèi)容型網(wǎng)頁(yè)。這類網(wǎng)頁(yè)中通常都有廣告等干擾信息,本實(shí)施例中通過提取標(biāo)題和正文的方式去除網(wǎng)頁(yè)中的干擾信息。
[0037]本實(shí)施例中,只對(duì)內(nèi)容型網(wǎng)頁(yè)的標(biāo)題和正文進(jìn)行提取,需要判斷網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),如果是內(nèi)容型網(wǎng)頁(yè),才會(huì)在瀏覽器中輸出從網(wǎng)頁(yè)中提取的標(biāo)題和正文。
[0038]圖1所示本發(fā)明實(shí)施例中,判斷網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從網(wǎng)頁(yè)中提取標(biāo)題和正文的方法有多種,下面分別進(jìn)行說明:
[0039]第一種:針對(duì)每個(gè)網(wǎng)站中使用相同模版的內(nèi)容型網(wǎng)頁(yè)建立匹配規(guī)則,根據(jù)匹配規(guī)則進(jìn)行標(biāo)題和正文的判斷和提取。
[0040]在實(shí)際應(yīng)用中,每個(gè)網(wǎng)站中,對(duì)于同一類型網(wǎng)頁(yè)往往使用相同的模版,對(duì)于同一網(wǎng)站中使用相同模版的內(nèi)容型網(wǎng)頁(yè),每個(gè)網(wǎng)頁(yè)的標(biāo)題所在的位置、正文所在的位置均相同,可以將內(nèi)容型網(wǎng)頁(yè)解析成文檔對(duì)象模型(Document Object Model, DOM)樹,貝U每個(gè)網(wǎng)頁(yè)的標(biāo)題所在的DOM樹節(jié)點(diǎn)以及正文所在的DOM樹節(jié)點(diǎn)均相同?;谠撎攸c(diǎn),可以針對(duì)每個(gè)網(wǎng)站中使用同一模版的所有內(nèi)容型網(wǎng)頁(yè)建立一條匹配規(guī)則,所述匹配規(guī)則包括鍵值對(duì),所述健值對(duì)包括健和值,其中,鍵包括使用該模版的內(nèi)容型網(wǎng)頁(yè)的URL匹配規(guī)則,這里的URL匹配規(guī)則可以是使用該模版的所有內(nèi)容型網(wǎng)頁(yè)的URL的正則表達(dá)式,例如:http://news.com/\d{8, 8} /\d+.htm/i ;值包括使用該模版的內(nèi)容型網(wǎng)頁(yè)的標(biāo)題位置信息和正文位置信息,例如:{title: ' #id:article hi' , content: ' #id:article, class:content/ },表示標(biāo)題所在的DOM樹節(jié)點(diǎn)為標(biāo)識(shí)(id)屬性為文章(article)的節(jié)點(diǎn)的子節(jié)點(diǎn):一級(jí)標(biāo)題(hi)節(jié)點(diǎn),正文所在的DOM樹節(jié)點(diǎn)`為id屬性為article、class屬性為content的節(jié)點(diǎn)。
[0041]這種情況下,所述判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文包括:使用預(yù)先建立的每條匹配規(guī)則中的鍵與所述網(wǎng)頁(yè)的URL進(jìn)行匹配,如果匹配成功,則根據(jù)該條匹配規(guī)則中的標(biāo)題位置信息和正文位置信息獲取所述網(wǎng)頁(yè)的標(biāo)題和正文(也即提取標(biāo)題所在的DOM樹節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題,提取正文所在DOM樹節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文)。
[0042]這種針對(duì)每個(gè)網(wǎng)站中使用相同模版的內(nèi)容型網(wǎng)頁(yè)建立一條匹配規(guī)則的方法是由人工設(shè)定和更新規(guī)則,準(zhǔn)確率比較高。
[0043]第二種:根據(jù)網(wǎng)頁(yè)渲染的視覺效果的智能算法策略進(jìn)行標(biāo)題和正文的判斷和提取。
[0044]在實(shí)際應(yīng)用中,在內(nèi)容型網(wǎng)頁(yè)中,正文內(nèi)容通常占用顯示區(qū)域的主要部分,例如在顯示區(qū)域的第一屏?;谠撎攸c(diǎn),可以將網(wǎng)頁(yè)解析成DOM樹,獲取DOM樹中的每個(gè)節(jié)點(diǎn)的位置信息(包括該節(jié)點(diǎn)的文本占用的寬度、高度、以及字體大小等),根據(jù)該節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值,如果該節(jié)點(diǎn)的視覺屬性值大于預(yù)設(shè)正文視覺屬性值的節(jié)點(diǎn),則可以確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),可以提取視覺屬性值大于預(yù)設(shè)正文視覺屬性值的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,這里,節(jié)點(diǎn)的視覺屬性值表明了該節(jié)點(diǎn)在網(wǎng)頁(yè)中的位置與網(wǎng)頁(yè)的主要顯示區(qū)域的位置關(guān)系,其值越大,表明節(jié)點(diǎn)在網(wǎng)頁(yè)中的位置越接近網(wǎng)頁(yè)的主要顯示區(qū)域的中心位置,其值越小,表明節(jié)點(diǎn)在網(wǎng)頁(yè)中的位置越遠(yuǎn)離網(wǎng)頁(yè)的主要顯示區(qū)域的中心位置;另夕卜,網(wǎng)頁(yè)的標(biāo)題通常位于標(biāo)簽hi (<hl>標(biāo)題</hl>)中,當(dāng)該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),如果DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則可以提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
[0045]其中,根據(jù)DOM樹中每個(gè)節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值可以采用以下公式:
[0046]ViewValue=a-1- (height Xwidth) X fondsize,其中,ViewValue 表不節(jié)點(diǎn)的視覺屬性值,height表示節(jié)點(diǎn)的文本占用的高度,width表示節(jié)點(diǎn)的文本占用的寬度,fondsize表示節(jié)點(diǎn)的文本的字體大小,a為調(diào)節(jié)系數(shù),初始值為預(yù)設(shè)初始值(例如1),當(dāng)該節(jié)點(diǎn)的id屬性為 article、入 P (entry)、提交(post)、正文體(body)、列(column)、主(main)、或上下文(content)時(shí),將a的值增加第一預(yù)設(shè)調(diào)節(jié)系數(shù)(例如0.4);當(dāng)該節(jié)點(diǎn)的類(class)屬性為 article、entry、post、body、column、main、或 content 時(shí),將 a 的值增加第一預(yù)設(shè)調(diào)節(jié)系數(shù);當(dāng)該節(jié)點(diǎn)的id屬性為注釋(comment)、組合框(combobox)、disqus (一種名位disqus的第三方評(píng)注插件系統(tǒng))、腳注(foot)、頭注(header)、菜單(menu)、聚合(rss)、免費(fèi)資源網(wǎng)路社群(shoutbox)、側(cè)邊欄(sidebar)、或感應(yīng)器(sponsor)時(shí),將a的值減去第二預(yù)設(shè)調(diào)節(jié)系數(shù)(例如 0.8),當(dāng)該節(jié)點(diǎn)的 Class 屬性為 comment、combobox、disqus、foot、header、menu、rss、shoutbox、sidebar、或sponsor時(shí),將a的值減去第二預(yù)設(shè)調(diào)節(jié)系數(shù)。
[0047]下面對(duì)上述公式舉例說明:
[0048]假設(shè)網(wǎng)頁(yè)中包括如下源代碼:〈div id= “article”, class= “post”〉文本內(nèi)容〈/div>,則將網(wǎng)頁(yè)解析成DOM樹后,該部分內(nèi)容將會(huì)被解析為標(biāo)簽為div的節(jié)點(diǎn),該節(jié)點(diǎn)的id屬性為 article,該節(jié)點(diǎn)的 class 屬性為 post,則 a=l+0.4+0.4=1.8 ;
[0049]再假設(shè)網(wǎng)頁(yè)中包括如下源代碼:〈div id= “co_ent”,class= “post”〉文本內(nèi)容</div>,則將網(wǎng)頁(yè)解析成DOM樹后,該部分內(nèi)容將會(huì)被解析為標(biāo)簽為div的節(jié)點(diǎn),該節(jié)點(diǎn)的id 屬性為 comment,該節(jié)點(diǎn)的 class 屬性為 post,則 a=l+0.4-0.8=0.6。
[0050]第三種:基于正文中包括多個(gè)標(biāo)點(diǎn)符號(hào)的判斷準(zhǔn)則進(jìn)行標(biāo)題和正文的判斷和提取。
[0051]在實(shí)際應(yīng)用中,網(wǎng)頁(yè)的正文中往往會(huì)包括很多標(biāo)點(diǎn)符號(hào)。基于該特點(diǎn),可以將網(wǎng)頁(yè)解析成DOM樹,提取DOM樹中的每個(gè)節(jié)點(diǎn)的文本,如果該節(jié)點(diǎn)的文本中包括超過預(yù)設(shè)個(gè)數(shù)的標(biāo)點(diǎn)符號(hào)的節(jié)點(diǎn),則可以確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),可以將該節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,另外,當(dāng)該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),如果DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則可以提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
[0052]第四種,基于網(wǎng)頁(yè)中的標(biāo)簽的語(yǔ)義進(jìn)行標(biāo)題和正文的判斷和提取。
[0053]網(wǎng)頁(yè)中的各標(biāo)簽都具有一定的語(yǔ)義,例如hi標(biāo)簽代表網(wǎng)頁(yè)的標(biāo)題,article表示網(wǎng)頁(yè)的正文,如果網(wǎng)頁(yè)中正確使用了各標(biāo)簽,則可以根據(jù)各標(biāo)簽的語(yǔ)義提取出網(wǎng)頁(yè)的正文和標(biāo)題。具體地,可以將所述網(wǎng)頁(yè)解析成DOM樹,如果DOM樹中存在標(biāo)簽為article的標(biāo)簽,則可以確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),可以提取標(biāo)簽為article的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,另外,當(dāng)該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),如果DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則可以提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
[0054]第五種:基于上述第二、三、四種方法的綜合考慮進(jìn)行標(biāo)題和正文的判斷和提取。[0055]實(shí)際上,上述第二、三、四種方法均可以完成標(biāo)題和正文的判斷和提取,然而卻不能保證結(jié)果的正確性,可以通過對(duì)該三種方法進(jìn)行綜合考慮,計(jì)算加權(quán)平均值,則可以更精確的進(jìn)行標(biāo)題和正文的判斷和提取。
[0056]所述判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文具體包括:將所述網(wǎng)頁(yè)解析成DOM樹,并計(jì)算DOM樹中的每個(gè)節(jié)點(diǎn)的正文權(quán)值,如果該節(jié)點(diǎn)的正文權(quán)值大于預(yù)設(shè)正文權(quán)值,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),提取該節(jié)點(diǎn)的正文作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hI的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題;
[0057]其中,計(jì)算DOM樹中的每個(gè)節(jié)點(diǎn)的正文權(quán)值,包括:獲取該節(jié)點(diǎn)的位置信息,根據(jù)該節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值,如果視覺屬性值大于預(yù)設(shè)正文視覺屬性值,則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第一權(quán)值;如果該節(jié)點(diǎn)的標(biāo)簽為article,則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第二權(quán)值;提取該節(jié)點(diǎn)的文本信息,如果該節(jié)點(diǎn)的文本中存在超過預(yù)設(shè)個(gè)數(shù)的標(biāo)點(diǎn)符號(hào),則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第三權(quán)值。
[0058]圖1所示本發(fā)明實(shí)施例中,可以預(yù)先設(shè)定閱讀模式模板頁(yè)面,該模板頁(yè)面中可以對(duì)標(biāo)題以及正文的字體類型、字體大小、字體顏色、正文之間的行距、頁(yè)邊距等進(jìn)行設(shè)置。這樣,可以使用內(nèi)嵌框架(iframe)載入預(yù)設(shè)閱讀模式模板頁(yè)面,將標(biāo)題和正文填充到預(yù)設(shè)閱讀模式模板中,從而實(shí)現(xiàn)在瀏覽器中以預(yù)設(shè)閱讀模式顯示網(wǎng)頁(yè)的內(nèi)容。
[0059]綜上所述,本發(fā)明中,當(dāng)獲取到用戶請(qǐng)求讀取的網(wǎng)頁(yè)內(nèi)容后,當(dāng)判斷確定網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)后,可以利用內(nèi)容型網(wǎng)頁(yè)的特性(例如標(biāo)題和正文所在的標(biāo)簽,標(biāo)題和正文位于網(wǎng)頁(yè)顯示區(qū)域的第一屏等)來獲取網(wǎng)頁(yè)的標(biāo)題和正文,然后再利用預(yù)設(shè)閱讀模式在瀏覽器中顯示網(wǎng)頁(yè)的標(biāo)題和正文,從而達(dá)到去除網(wǎng)頁(yè)中的無(wú)用信息,只將網(wǎng)頁(yè)的主要內(nèi)容顯示給用戶,使用戶在瀏覽內(nèi)容型網(wǎng)頁(yè)時(shí)可以不受無(wú)用信息的干擾的目的。
[0060]以上對(duì)本發(fā)明實(shí)施例提升瀏覽器的閱讀體驗(yàn)的方法進(jìn)行了詳細(xì)說明,本發(fā)明還提供了一種瀏覽器,下面結(jié)合圖2進(jìn)行說明。
[0061]圖2是本發(fā)明實(shí)施例提供的瀏覽器的架構(gòu)示意圖,該瀏覽器包括網(wǎng)頁(yè)獲取單元201、正文提取單元202、輸出單元203 ;其中,
[0062]網(wǎng)頁(yè)獲取單元201,用于獲取用戶請(qǐng)求讀取的網(wǎng)頁(yè);
[0063]正文提取單元202,用于判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文;
[0064]輸出單元203,用于在瀏覽器中以預(yù)設(shè)閱讀模式輸出正文提取單元從所述網(wǎng)頁(yè)中提取的標(biāo)題和正文。
[0065]該瀏覽還包括規(guī)則建立單元204 ;
[0066]所述規(guī)則建立單元204,用于預(yù)先針對(duì)每個(gè)網(wǎng)站中使用同一模版的所有內(nèi)容型網(wǎng)頁(yè)建立一條匹配規(guī)則,所述匹配規(guī)則包括鍵值對(duì),其中,鍵包括使用該模版的內(nèi)容型網(wǎng)頁(yè)的URL匹配規(guī)則,值包括使用該模版的內(nèi)容型網(wǎng)頁(yè)的標(biāo)題位置信息和正文位置信息;
[0067]所述正文提取單元202在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:使用預(yù)先建立的每條匹配規(guī)則中的鍵與所述網(wǎng)頁(yè)的URL進(jìn)行匹配,如果匹配成功,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),根據(jù)該條匹配規(guī)則中的標(biāo)題位置信息和正文位置信息獲取所述網(wǎng)頁(yè)的標(biāo)題和正文。[0068]上述瀏覽器中,所述正文提取單元202在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:將所述網(wǎng)頁(yè)解析成DOM樹,獲取DOM樹中的每個(gè)節(jié)點(diǎn)的位置信息,根據(jù)該節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值,如果該節(jié)點(diǎn)的視覺屬性值超過預(yù)設(shè)正文視覺屬性值,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),提取視覺屬性值大于預(yù)設(shè)正文視覺屬性值的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
[0069]上述瀏覽器中,所述正文提取單元202在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:將所述網(wǎng)頁(yè)解析成DOM樹,提取DOM樹中每個(gè)節(jié)點(diǎn)的文本,如果該節(jié)點(diǎn)的文本中包括超過預(yù)設(shè)個(gè)數(shù)的標(biāo)點(diǎn)符號(hào),則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),將該節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
[0070]上述瀏覽器中,所述正文提取單元202在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:將所述網(wǎng)頁(yè)解析成DOM樹,如果DOM樹中存在標(biāo)簽為article的節(jié)點(diǎn),則確定該網(wǎng)頁(yè)為內(nèi)容型網(wǎng)頁(yè),提取標(biāo)簽為article的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
[0071]上述瀏覽器中,所述正文提取單元202在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:將所述網(wǎng)頁(yè)解析成DOM樹,并計(jì)算DOM樹中的每個(gè)節(jié)點(diǎn)的正文權(quán)值,如果該節(jié)點(diǎn)的正文權(quán)值大于預(yù)設(shè)正文權(quán)值,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),提取該節(jié)點(diǎn)的正文作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題;
[0072]其中,計(jì)算DOM樹中的每個(gè)節(jié)點(diǎn)的正文權(quán)值,包括:獲取該節(jié)點(diǎn)的位置信息,根據(jù)該節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值,如果視覺屬性值大于預(yù)設(shè)正文視覺屬性值,則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第一權(quán)值;如果該節(jié)點(diǎn)的標(biāo)簽為article,則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第二權(quán)值;提取該節(jié)點(diǎn)的文本信息,如果該節(jié)點(diǎn)的文本中存在超過預(yù)設(shè)個(gè)數(shù)的標(biāo)點(diǎn)符號(hào),則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第三權(quán)值。
[0073]上述瀏覽器中,所述正文提取單元202在根據(jù)該節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值時(shí),用于采用以下公式:
[0074]ViewValue=a-1- (heightXwidth) X fondsize,其中,ViewValue 表不節(jié)點(diǎn)的視覺屬性值,height表示節(jié)點(diǎn)的文本占用的高度,width表示節(jié)點(diǎn)的文本占用的寬度,fondsize表示節(jié)點(diǎn)的文本的字體大小為調(diào)節(jié)系數(shù),初始值為預(yù)設(shè)初始值,當(dāng)該節(jié)點(diǎn)的id屬性包括article、entry、post、body、column、main、或 content 時(shí),將 a 的值增加第一預(yù)設(shè)調(diào)節(jié)系數(shù);當(dāng)該節(jié)點(diǎn)的 class 屬性包括 article、entry、post、body、column、main、或 content 時(shí),將a的值增加第一預(yù)設(shè)調(diào)節(jié)系數(shù);當(dāng)該節(jié)點(diǎn)的id屬性包括comment、combx、disqus、foot、header、menu、rss、shoutbox、sideba、或sponsor時(shí),將a的值減去第二預(yù)設(shè)調(diào)節(jié)系數(shù),當(dāng)該節(jié)點(diǎn)的 Class 屬性包括 comment、combx、disqus、foot、header、menu、rss、shoutbox、sideba、或sponsor時(shí),將a的值減去第二預(yù)設(shè)調(diào)節(jié)系數(shù)。
[0075]上述瀏覽器中,所述輸出單元203在瀏覽器中以預(yù)設(shè)閱讀模式輸出正文提取單元從所述網(wǎng)頁(yè)中提取的標(biāo)題和正文時(shí),用于:使用內(nèi)嵌框iframe載入預(yù)設(shè)閱讀模式模板頁(yè)面,將所述標(biāo)題和正文填充到預(yù)設(shè)閱讀模式模板頁(yè)面。
[0076]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1.一種在瀏覽器中顯示網(wǎng)頁(yè)內(nèi)容的方法,其特征在于,該方法包括: 獲取用戶請(qǐng)求讀取的網(wǎng)頁(yè); 判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文,并在瀏覽器中以預(yù)設(shè)閱讀模式輸出所述標(biāo)題和正文。
2.根據(jù)權(quán)利要求1所述的提升瀏覽器的閱讀體驗(yàn)的方法,其特征在于,預(yù)先針對(duì)每個(gè)網(wǎng)站中使用同一模版的所有內(nèi)容型網(wǎng)頁(yè)建立一條匹配規(guī)則,所述匹配規(guī)則包括鍵值對(duì),其中,鍵包括使用該模版的內(nèi)容型網(wǎng)頁(yè)的統(tǒng)一資源定位符URL匹配規(guī)則,值包括使用該模版的內(nèi)容型網(wǎng)頁(yè)的標(biāo)題位置信息和正文位置信息; 所述判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文包括:使用預(yù)先建立的每條匹配規(guī)則中的鍵與所述網(wǎng)頁(yè)的URL進(jìn)行匹配,如果匹配成功,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),根據(jù)該條匹配規(guī)則中的標(biāo)題位置信息和正文位置信息獲取所述網(wǎng)頁(yè)的標(biāo)題和正文。
3.根據(jù)權(quán)利要求1所述的在瀏覽器中顯示網(wǎng)頁(yè)內(nèi)容的方法,其特征在于, 所述判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文包括:將所述網(wǎng)頁(yè)解析成文當(dāng)對(duì)象模型DOM樹,獲取DOM樹中的每個(gè)節(jié)點(diǎn)的位置信息,根據(jù)該節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值,如果該節(jié)點(diǎn)的視覺屬性值超過預(yù)設(shè)正文視覺屬性值,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),提取視覺屬性值大于預(yù)設(shè)正文視覺屬性值的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為一級(jí)標(biāo)題hI的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
4.根據(jù)權(quán)利要求1所述的在瀏覽器中顯示網(wǎng)頁(yè)內(nèi)容的方法,其特征在于, 所述判斷所述網(wǎng)頁(yè)是否是內(nèi)·容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文包括:將所述網(wǎng)頁(yè)解析成DOM樹,提取DOM樹中每個(gè)節(jié)點(diǎn)的文本,如果該節(jié)點(diǎn)的文本中包括超過預(yù)設(shè)個(gè)數(shù)的標(biāo)點(diǎn)符號(hào),則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),將該節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
5.根據(jù)權(quán)利要求1所述的在瀏覽器中顯示網(wǎng)頁(yè)內(nèi)容的方法,其特征在于, 所述判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文包括:將所述網(wǎng)頁(yè)解析成DOM樹,如果DOM樹中存在標(biāo)簽為文章article的節(jié)點(diǎn),則確定該網(wǎng)頁(yè)為內(nèi)容型網(wǎng)頁(yè),提取標(biāo)簽為article的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
6.根據(jù)權(quán)利要求1所述的在瀏覽器中顯示網(wǎng)頁(yè)內(nèi)容的方法,其特征在于, 所述判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文包括:將所述網(wǎng)頁(yè)解析成DOM樹,并計(jì)算DOM樹中的每個(gè)節(jié)點(diǎn)的正文權(quán)值,如果該節(jié)點(diǎn)的正文權(quán)值大于預(yù)設(shè)正文權(quán)值,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),提取該節(jié)點(diǎn)的正文作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題; 其中,計(jì)算DOM樹中的每個(gè)節(jié)點(diǎn)的正文權(quán)值,包括:獲取該節(jié)點(diǎn)的位置信息,根據(jù)該節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值,如果視覺屬性值大于預(yù)設(shè)正文視覺屬性值,則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第一權(quán)值;如果該節(jié)點(diǎn)的標(biāo)簽為articIe,則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第二權(quán)值;提取該節(jié)點(diǎn)的文本信息,如果該節(jié)點(diǎn)的文本中存在超過預(yù)設(shè)個(gè)數(shù)的標(biāo)點(diǎn)符號(hào),則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第三權(quán)值。
7.根據(jù)權(quán)利要求1-6任一權(quán)項(xiàng)所述的在瀏覽器中顯示網(wǎng)頁(yè)內(nèi)容的方法,其特征在于, 所述在瀏覽器中以預(yù)設(shè)閱讀模式輸出所述標(biāo)題和正文的方法為:使用內(nèi)嵌框架iframe載入預(yù)設(shè)閱讀模式模板頁(yè)面,將所述標(biāo)題和正文填充到預(yù)設(shè)閱讀模式模板頁(yè)面。
8.—種瀏覽器,其特征在于,該瀏覽器包括網(wǎng)頁(yè)獲取單元、正文提取單元、輸出單元: 所述網(wǎng)頁(yè)獲取單元,用于獲取用戶請(qǐng)求讀取的網(wǎng)頁(yè); 所述正文提取單元,用于判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文; 所述輸出單元,用于在瀏覽器中以預(yù)設(shè)閱讀模式輸出正文提取單元從所述網(wǎng)頁(yè)中提取的標(biāo)題和正文。
9.根據(jù)權(quán)利要求8所述的瀏覽器,其特征在于,該瀏覽還包括規(guī)則建立單元; 所述規(guī)則建立單元,用于預(yù)先針對(duì)每個(gè)網(wǎng)站中使用同一模版的所有內(nèi)容型網(wǎng)頁(yè)建立一條匹配規(guī)則,所述匹配規(guī)則包括鍵值對(duì),其中,鍵包括使用該模版的內(nèi)容型網(wǎng)頁(yè)的URL匹配規(guī)則,值包括使用該模版的內(nèi)容型網(wǎng)頁(yè)的標(biāo)題位置信息和正文位置信息; 所述正文提取單元在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:使用預(yù)先建立的每條匹配規(guī)則中的鍵與所述網(wǎng)頁(yè)的統(tǒng)一資源定位符URL進(jìn)行匹配,如果匹配成功,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),根據(jù)該條匹配規(guī)則中的標(biāo)題位置信息和正文位置信息獲取所述網(wǎng)頁(yè)的標(biāo)題和正文。`
10.根據(jù)權(quán)利要求8所述的瀏覽器,其特征在于, 所述正文提取單元在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:將所述網(wǎng)頁(yè)解析成文檔對(duì)象模型DOM樹,獲取DOM樹中的每個(gè)節(jié)點(diǎn)的位置信息,根據(jù)該節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值,如果該節(jié)點(diǎn)的視覺屬性值超過預(yù)設(shè)正文視覺屬性值,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),提取視覺屬性值大于預(yù)設(shè)正文視覺屬性值的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為一級(jí)標(biāo)題hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
11.根據(jù)權(quán)利要求8所述的瀏覽器,其特征在于, 所述正文提取單元在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:將所述網(wǎng)頁(yè)解析成DOM樹,提取DOM樹中每個(gè)節(jié)點(diǎn)的文本,如果該節(jié)點(diǎn)的文本中包括超過預(yù)設(shè)個(gè)數(shù)的標(biāo)點(diǎn)符號(hào),則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),將該節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hI的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
12.根據(jù)權(quán)利要求8所述的瀏覽器,其特征在于, 所述正文提取單元在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:將所述網(wǎng)頁(yè)解析成DOM樹,如果DOM樹中存在標(biāo)簽為文章articIe的節(jié)點(diǎn),則確定該網(wǎng)頁(yè)為內(nèi)容型網(wǎng)頁(yè),提取標(biāo)簽為articIe的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hi的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題。
13.根據(jù)權(quán)利要求8所述的瀏覽器,其特征在于, 所述正文提取單元在判斷所述網(wǎng)頁(yè)是否是內(nèi)容型網(wǎng)頁(yè),當(dāng)所述網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè)時(shí),按照預(yù)設(shè)規(guī)則從所述網(wǎng)頁(yè)中提取標(biāo)題和正文時(shí),用于:將所述網(wǎng)頁(yè)解析成DOM樹,并計(jì)算DOM樹中的每個(gè)節(jié)點(diǎn)的正文權(quán)值,如果該節(jié)點(diǎn)的正文權(quán)值大于預(yù)設(shè)正文權(quán)值,則確定該網(wǎng)頁(yè)是內(nèi)容型網(wǎng)頁(yè),提取該節(jié)點(diǎn)的正文作為該網(wǎng)頁(yè)的正文,若DOM樹中存在標(biāo)簽為hI的節(jié)點(diǎn),則提取標(biāo)簽為hi的節(jié)點(diǎn)的文本作為該網(wǎng)頁(yè)的標(biāo)題; 其中,計(jì)算DOM樹中的每個(gè)節(jié)點(diǎn)的正文權(quán)值,包括:獲取該節(jié)點(diǎn)的位置信息,根據(jù)該節(jié)點(diǎn)的位置信息計(jì)算該節(jié)點(diǎn)的視覺屬性值,如果視覺屬性值大于預(yù)設(shè)正文視覺屬性值,則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第一權(quán)值;如果該節(jié)點(diǎn)的標(biāo)簽為article,則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第二權(quán)值;提取該節(jié)點(diǎn)的文本信息,如果該節(jié)點(diǎn)的文本中存在超過預(yù)設(shè)個(gè)數(shù)的標(biāo)點(diǎn)符號(hào),則將該節(jié)點(diǎn)的正文權(quán)值增加預(yù)設(shè)第三權(quán)值。
14.根據(jù)權(quán)利要求8-13任一權(quán)項(xiàng)所述的瀏覽器,其特征在于, 所述輸出單元在瀏覽器中以預(yù)設(shè)閱讀模式輸出正文提取單元從所述網(wǎng)頁(yè)中提取的標(biāo)題和正文時(shí),用于:使用內(nèi)嵌框架iframe載入預(yù)設(shè)閱讀模式模板頁(yè)面,將所述標(biāo)題和正文填充到預(yù)設(shè)閱讀模式模板頁(yè)面。
【文檔編號(hào)】G06F17/30GK103577466SQ201210274520
【公開日】2014年2月12日 申請(qǐng)日期:2012年8月3日 優(yōu)先權(quán)日:2012年8月3日
【發(fā)明者】張寧, 劉鐘書, 王文明, 劉帥, 李一山 申請(qǐng)人:騰訊科技(深圳)有限公司