判斷網頁內容是否相同的方法

文檔序號：6469870閱讀：307來源：國知局

專利名稱：判斷網頁內容是否相同的方法
技術領域：
本發(fā)明涉及一種判斷具有相同內容的網頁的方法，能有助于過濾搜索引擎中出現(xiàn)的重復的搜索結果。
背景技術：
目前，搜索引擎是將所有與關鍵詞相關的頁面根據(jù)其特定算法排序后都顯示給用戶，但由于網絡上很多網站會相互轉載一些內容相同的文章、新聞等，并且搜索引擎并未對這些內容相同的網頁進行過濾，從而導致搜索引擎會返回很多這樣的文章內容相同的網頁結果給用戶，使得用戶不得不在大量的冗余結果中尋找有用結果，帶來使用上的不便。有的搜索引擎將來自同一網站的相關網
頁(域名相同，URL不同)歸為一組結果，相鄰在一起顯示出來，但并沒有能夠將來自不同網站而內容相同的文章、新聞等網頁識別并過濾出來。

發(fā)明內容
目前，有的搜索引擎可以把來自同一網站的相關網頁過濾出來，合并為一組相似結果顯示出來，但并沒有能夠將來自不同網站而內容相同的網頁識別并過濾出來。本發(fā)明提供了一種判斷相同內容網頁的方法。這個方法能解決的問題
時可以過濾掉搜索引擎返回的重復結果，降低查詢結果的信息冗余度，更方便用戶査看搜索結果。
本發(fā)明所采用的技術方案是計算網頁標題的相似度和網頁正文內容的相似度，根據(jù)網頁的標題和正文內容的相似度來判斷其是否為相同內容，如果二者的
相似度達到一定閥值，那么就判定為相同內容的網頁。下面分別描述這些方法: 1. 網頁標題相似度的計算方法
1.1對于具有相同域名或目錄的所有網頁的標題(命為
OriginSameTitle)，去除其公共前綴(即位于標題最開頭的相同的公共字符串)或公共后綴(即位于標題最末尾的相同的公共字符串)部分，剩下的內容作為真正的標題(RealSameTitle)。這里說的域名相同是指完整域名(FQDN)都相同。優(yōu)先去除相同域名的URL網頁標題的公共字符，然后再去除相同目錄的網頁標題公共字符。比如以下幾個 URL的網頁就屬于域名相同，都是news. sina. com. cn:
http://news. sina. com. cn/c/2008-09-05/062716236203. shtml， http://news. sina. com. cn/c/2008—08-27/221716184284. shtml， http:〃news. sina. com. cn/w/2008-08-28/040716186003. shtml。并且前面兩個URL屬于相同目錄http:〃news. sina. com. cn/c八所以先去除上述3個域名同為news. sina. com. cn的標題公共后綴"—新聞中心—新浪網"，然后再看前面兩個網頁標題是否還有其他標題公共前綴或后綴，如果有也可以去掉。這里只是以3個網頁為例，實際處理必須以所有符合上述條件的網頁為基礎，去除所有這些網頁標題的公共前綴或后
敏 ^。
而如下幾個URL就不屬于域名相同 http:〃news. sina. com. cn/c/2008-08-27/221716184284. shtml，
其域名為news. sina. com. cn ; http:〃sports. sina. com. cn/o/2008-08-28/08143907467. shtml, 其域名為sports.sina.com.cn ;
http:〃www. google, cn/intl/zh_CN/ads/，其域名為www.google.cn。 1.2 對所有網頁的標題(OriginTitle，也包括經過方法l. l處理后得到的RealSameTitle)進行清除HTML標記的處理，使得標題中不再包含任何HTML標記 (HTML標記就是HTMLTAG ，諸如〈htmlX/html〉〈body〉〈/body〉〈font〉〈/font〉等，參見w3c組織頒布的最新HTML標準)。這個清除HTML標記的處理是可選的，不是必須的。 1. 3 對經過方法l. l和1 . 2處理后的網頁標題內容進行切割，可以任選如下字符中的一個或多個來作為分隔符，將標題切割為多個部分
1) 空格空格(該分隔符只適用于字符集為中文的網頁)
2) 減號-
3) 中文的破折號_
4)下劃線_
5)英文冒號
6)中文冒號
7)英文逗號，
8)中文逗號，
9)豎線1
IO)英文點號:.
ll)中文點號。
12)英文圓括號0
13)中文圓括號()
14)英文方括號:[]
15) 中文方括號[]
16) 中文粗括號
17) 英文大括弧{}
18) 中文大括弧{}
19) 英文尖括號〈〉
20) 中文尖括號《》
21) 以及所有上述的字符對應的半角和全角字符形式
22) 所有上述的字符的HTML編碼形式，比如&化3口;代表空格，> 代表尖括號，等等。
1.4在用戶提交搜索請求時，在通過方法l. 3和1.4切割出來的各個部分中
1) 如果其中只有一部分包含用戶查詢關鍵詞(經過搜索引擎分詞處理后的關鍵詞)，那么就將這部分作為該網頁的真實標題
(RealTitle);
2) 如果該標題分隔后兩部分或多個部分都含有用戶査詢關鍵詞，那么就以靠近標題左側的那部分內容作為RealTitle，或者選擇內容更長的部分作為RealTitle，也可以選擇任意一部分為 RealTitlej
3) 如果各部分都不包含用戶査詢關鍵詞，則選擇內容更長的部分作為RealTitle，或選擇任意一部分為RealTitle。
1.5計算出RealTitle的相似度ST， ST計算方式如下
假設有兩個RealTitle: RTa， RTb。首先將RTa和RTb都統(tǒng)一轉換為 UTF-8字符集。Ls代表RTa和RTb中包含的相同字符(或公共字符)的字
符數(shù)長度，而La和Lb分別代表RTa和RTb的字符數(shù)長度，STab即作為網頁A和網頁B之間的標題相似度。那么 STab=| LTs/LTa — LTs/LTb |
其中，字符數(shù)長度的計算方式是將文本內容統(tǒng)一轉換為UTF-8字符集后的字節(jié)數(shù)。
2. 網頁正文相似度判定方法
2.1網頁正文(命名為0riginBody)中包含有很多段被HTML標記分隔開的文字內容，可以選擇其中長度最長的一段內容作為代表該網頁的真正內容(RealBody);或者找出包含用戶查詢關鍵詞的這些段落，并將其中長度最長的一段內容作為RealBody。 2.2計算RealBody相似度，其計算方法與RealTitle相似度類似。 RealBody相似度計算方式如下假設有兩個RealBody: RBa， RBb。首先將RBa和RBb都統(tǒng)一轉換為UTF-8 字符集。LBs代表RBa和RBb中包含的相同字符(或公共字符)的字符數(shù)長度，而LBa和LBb分別代表RBa和RBb的字符數(shù)長度，SBab作為網頁A和網頁 B之間的正文相似度。那么
SBabH LBs/LBa - LBs/LBb | 其中，字符數(shù)長度的計算方式是將文本內容統(tǒng)一轉換為UTF-8字符集后的字節(jié)數(shù)。
3. 根據(jù)網頁標題相似度和網頁正文相似度，可以判斷出兩個網頁A和B是否內容相同。判斷方法如下
(1) 如果STab小于或等于kl，則判定為內容相同的網頁，否則為不同內容；其中，kl是預先設定的閥值，比如kl二O. 1。偽代碼如下
If (STab<=kl) Then A=B Else A!=B
(2) 或者，如果SBab小于或等于k2，則判定為內容相同的網頁，否則為不同內容；其中，k2是預先設定的閥值，比如k2二0. 1。偽代碼如下
If (SBab〈二k2) Then A=B Else A!=B
(3) 或者，如果STab小于或等于kl，并且SBab小于或等于k2，則判定為內容相同的網頁，否則為不同內容；其中，kl,k2是預先設定的閥值，比如kl二O. 1，k2二0. 2。偽代碼如下
If ((STab〈二kl) && (SBab<=k2)) Then A=B Else A!=B 方法(l)、 (2)、 (3)可任選其一。
本發(fā)明的有益效果是，可以過濾掉搜索引擎查詢結果中重復內容的網頁，減少冗于結果頁面，使得用戶能夠更方便快捷地査看有用査詢結果。

圖1是計算網頁標題相似度的流程圖；圖2是計算網頁正文相似度的流程圖3是根據(jù)網頁標題相似度和網頁正文相似度判斷網頁內容是否相同的流程圖4是網頁A的URL及其在IE瀏覽器中的顯示效果圖；圖5是網頁B的URL及其在IE瀏覽器中的顯示效果圖；圖6是網頁A的HTML源碼文件縮略圖；圖7是網頁B的HTML源碼文件縮略具體實施例方式
下面結合附圖和實例對本發(fā)明作進一步詳細的說明。以如下兩個網頁A和B為例，其中
網頁A的URL參見圖4中的410，網頁A在IE瀏覽器中的顯示效果參見圖 4中的420，網頁A的HTML源碼文件縮略內容參見圖6;
網頁B的URL參見圖5中的510，網頁B在IE瀏覽器中的顯示效果參見圖 5中的520，網頁B的HTML源碼文件縮略內容參見圖7;
如圖1所示，我們首先計算網頁A和B的標題相似度。
110是從網頁HTML源文件中提取網頁標題內容的處理，其提取方式是在源文件中找到〈title〉和〈/title〉標記(不區(qū)分大小寫)，位于這兩個標記之間的內容就是網頁標題。對于網頁A而言，其網頁標題就是圖6中的610，其內容為記住，媽媽愛你—新華網。對于網頁B而言，其網頁標題就是圖7中的710，其內容為關注5. 12地震記住，媽媽愛你。
在115中我們選擇否，即不去除標題公共前綴或后綴，進入135的處理。
135是進行標題切割的處理，由于A和B的標題中分別包含有下劃線、逗號和冒號、點號的分隔符。具體切割可以借助正則表達式匹配函數(shù)或字符串匹配
函數(shù)來完成。所以進行切割后，網頁A分為如下幾個部分
1) 記住
2) 媽媽愛你
3) 新華網
網頁B分為如下幾個部分
1) 關注5
2) 12地震
3) 記住
4) 媽媽愛你
140是從135切割出來的各個部分中選出一個作為RealTitle。這里我們選擇方法是采用最長部分作為RealTitle。因此在145，我們得到網頁A和B的 RealTitle都為媽媽愛你。
因此，155中LTs=4X 3=12， 160中計算出來LTa=LTb=LTs，從而165中計算出來STabH LTs/LTa - LTs/LTb | = 0。
接下來我們再計算A和B的網頁正文相似度，如圖2所示。
210是按照HTML標記作為分隔符，將網頁HTML源文件切割為很多不含H頂L 標記的段落。具體切割可以借助正則表達式匹配函數(shù)或字符串匹配函數(shù)來完成。
在220中我們仍然采用最長選擇準則，即選出其中最長的文本塊作為 RealBody。因此得到網頁A的RealBody為圖6中的620，網頁B的RealBody為圖7中的720。
240中計算出LBs=135X3=405， 250計算出來LBa=LBb=LBs，從而260中計算出來SBab二l LBs/LBa - LBs/LBb | 二 0。
最后，我們來判斷A和B是否內容相同，如圖3所示。在310中，我們選擇第一種判斷方式M4，即同時使用STab和SBab。在340中，我們設定kl和k2閥值均為0. 1。由于STab和SBab都為O，且都小于O. 1。因此
(STab<=kl) && (SBab〈二k2)
即
(0〈=0. 1) && (0〈=0. 1) 條件為真，所以進入350，即A和B相同。
權利要求
1.一種能夠判斷具有相同文章內容的網頁的方法，其特征在于，包含對于任意兩個網頁，(1)計算二者之間的網頁標題相似度；(2)計算二者之間的網頁正文相似度；(3)根據(jù)網頁標題相似度和網頁正文相似度，按照特定算法判斷兩個網頁是否內容相同。
2. 根據(jù)權利要求1所述的方法，其特征在于，其(l)中計算網頁標題相似度的方法包含(1) 從網頁中提取出網頁標題的內容；(2) 刪除標題中的公共前綴和后綴；(3) 提取出真正代表這篇網頁文章的真實標題RealTitle;(4) 按照特定算法計算出網頁標題相似度ST。
3. 根據(jù)權利要求2所述的方法，其特征在于，其(l)中提取網頁標題的方法包含提取出網頁HTML源文件中位于HTML標記〈title〉和HTML標記〈/title〉之間的內容，這里的HTML標記〈title〉和〈/title〉是不區(qū)分大小寫的。
4. 根據(jù)權利要求2所述的方法，其特征在于，其(2)中刪除標題公共前綴或后綴的方法包含-(1) 識別標題的公共前綴即所指定的各網頁中，位于標題最開頭部分的相同的連續(xù)的公共字符串。(2) 識別標題的公共后綴即所指定的各網頁中，位于標題最末尾部分的相同的連續(xù)的公共字符串。對于具有相同域名或目錄的所有網頁的標題(命為OriginSameTiUe)，去除其公共前綴或公共后綴部分，剩下的內容作為真正的標題(RealSameTitle)。這里說的域名相同是指完整域名(FQDN)都相同。優(yōu)先去除具有相同域名的網頁標題的公共前綴或后綴，然后再去除具有相同目錄的網頁標題的公共前綴或后綴。舉例如下-比如以下幾個URL的網頁就屬于域名相同，都是news, sina. com. cn:I)http://news. sina. com. cn/c/2008-09-05/062716236203. shtml，其標題為反壟斷第一案被法院裁定不予受理—新聞中心—新浪網I工)http:〃news. sina. com. cn/c/2008—08—27/221716184284. shtml，其標題為審計發(fā)現(xiàn)國開行58億貸款違規(guī)進入股市樓市一新聞中心—新浪網III)http:〃news. sina. com. cn/w/2008-08-28/040716186003. shtml 。其標題為格魯吉亞準備與俄羅斯單方面斷絕外交關系—新聞中心_新浪網并且前面兩個URL屬于相同目錄http:〃news. sina. com. cn/c/。所以先去掉上述3個域名同為news. sina. com. cn的標題公共后綴"—新聞中心—新浪網"，分別得到如下三個標題.."反壟斷第一案被法院裁定不予受理"、"審計發(fā)現(xiàn)國開行58億貸款違規(guī)進入股市樓市"、"格魯吉亞準備與俄羅斯單方面斷絕外交關系"。然后再看前面兩個具有相同目錄的網頁的標題是否還有其他公共前綴或后綴，如果有也可以去掉。這里只是以3個網頁為例，實際處理以所有符合上述條件的網頁為基礎，刪除所有這些網頁標題的公共前綴或后綴。而如下幾個URL就不屬于域名相同I) http:〃news. sina. com. cn/c/2008-08-27/221716184284. shtml，其域名為news* si肌coriK cn ;II) http://sports, sina. com. cn/o/2008-08-28,/08143907467. shtml，其域名為sports.sina.com.cn ;III) h"ttp:〃www. google- cn/intl/zh-CN/adsZ，其域名為ww.google.cn。
5.根據(jù)權利要求2所述的方法，其特征在于，其(3)中提取出真實標題 (RealTitle)的方法包含(1) 對所有網頁的標題(也包括經過權力要求4所述方法處理后得到的 RealSameTitle)進行清除HTML標記的處理，使得標題中不再包含任何 HTML 標記 (HTML 標記就是 HTML TAG ，諸如〈html〉〈/htmlXbody〉〈/body〉〈font〉〈/font〉等，參見w3c組織頒布的最新HTML標準)。這個方法是可選的，不是必須的。(2) 對所有網頁標題(包括經過上述方法(1)或權力要求4所述方法處理后的網頁標題)內容進行切割，可以任選如下字符中的一個或多個來作為分隔符，將標題切割為多個部分1) 空格(該分隔符只適用于字符集為中文、日文、韓文的網頁)2) 減號-3)中文的破折號4)下劃線—5)英文冒號6)中文冒號7)英文逗號8)中文逗號，9)豎線1io)英文點號- ，ll)中文點號-。12)英文圓括號013)中文圓括號()14)英文方括號[]15)中文方括號:[]16)中文粗括號:17)英文大括弧{}18)中文大括弧:{}19)英文尖括號〈〉20)中文尖括號:《》21) 以及所有上述的字符對應的半角和全角字符形式22) 所有上述的字符的H頂L編碼形式，比如&油印;代表空格，> 代表尖括號，等等。(3)在通過方法(2)切割出來的標題的各個部分中i. 如果其中只有一部分包含指定的關鍵詞(比如搜索引擎所定義詞庫中的關鍵詞)，那么就將這部分作為該網頁的真實標題(RealTitle); ii. 如果其中有兩部分或多個部分都含有指定的關鍵詞，那么就以靠近標題左側的那部分內容作為RealTitle，或者選擇內容更長的部分作為 RealTitle，也可以選擇任意一部分為RealTitle; iii. 如果各部分都不包含指定的關鍵詞，則選擇內容更長的部分作為 RealTitle，或選擇任意一部分為RealTitle。 (4)直接將權利要求4所述方法得到的標題內容作為RealTitle。這個方法是可選的，不是必須的。這里方法(3)、 (4)可以任選其一。
6. 根據(jù)權利要求2所述的方法，其特征在于，其(4)中計算網頁標題相似度ST 的方法包含假設有兩個RealTitle: RTa， RTb。首先將RTa和RTb都統(tǒng)一轉換為UTF-8 字符集。LTs代表RTa和RTb中包含的相同字符(或公共字符)的字符數(shù)長度，而LTa和LTb分別代表RTa和RTb的字符數(shù)長度，STab即作為網頁A 和網頁B之間的標題相似度。那么STab二l LTs/LTa - LTs/LTb |其中，字符數(shù)長度的計算方式是將文本內容統(tǒng)一轉換為UTF-8字符集后的字節(jié)數(shù)。
7. 根據(jù)權利要求1所述的方法，其特征在于，其(2)中計算網頁正文相似度的方法包含(1)從網頁中提取出被HTML標記所分隔的所有文本內容塊，選出其中的一個或幾個內容塊作為代表本網頁的核心內容RealBody;(2)計算出RealBody的相似度，作為網頁正文相似度。
8. 根據(jù)權利要求7所述的方法，其特征在于，其(l)中獲取RealBody的方法是(1) 網頁正文(命名為0riginBody)是HTML源碼文件中位于HTML標記〈body〉禾口 </body〉之間的內容，這里的〈body〉和〈/body〉是不區(qū)分大小寫的。 OriginBody中包含有很多段被各種HTML標記分隔開的文本內容塊，分別提取出這些文本內容塊Blockl, Block2…Blockn;(2) 選擇其中長度最長的文本內容塊BlockLongest作為代表該網頁的真正內容(RealBody);這是可選的，不是必須的。(3) 從方法(1)得到的文本內容塊中找出包含指定關鍵詞(比如搜索引擎所定義詞庫中的關鍵詞)的文本內容塊，并從中選擇任意一個或長度最長的文本內容塊作為RealBody。這是可選的，不是必須的。方法(2)、 (3)可任選其一。
9. 根據(jù)權利要求7所述的方法，其特征在于，其(2)中計算RealBody相似度 SB的方法包含假設有兩個RealBody: RBa， RBb。首先將RBa和RBb都統(tǒng)一轉換為UTF-8 字符集。LBs代表RBa和RBb中包含的相同字符(或公共字符)的字符數(shù)長度，而LBa和LBb分別代表RBa和RBb的字符數(shù)長度，SBab作為網頁A和網頁B之間的正文相似度。那么SBab=l LBs/LBa — LBs/LBb |其中，字符數(shù)長度的計算方式是將文本內容統(tǒng)一轉換為UTF-8字符集后的字節(jié)數(shù)。
10.根據(jù)權利要求1所述的方法，其特征在于，其(3)中判斷網頁A和B內容相同的方法包含(l)如果STab小于或等于kl，則判定為內容相同的網頁，否則為不同內容；其中，kl是預先設定的閥值，比如kl^. 1。偽代碼如下<formula>formula see original document page 8</formula>(2)或者，如果SBab小于或等于k2，則判定為內容相同的網頁，否則為不同內容；其中，k2是預先設定的閥值，比如1<2=0. 1。偽代碼如下 If (SBab〈二k2)Then A二B Else A!=B(3)或者，如果STab小于或等于kl，并且SBab小于或等于k2，則判定為內容相同的網頁，否則為不同內容；其中，kl，k2是預先設定的閥值，比如 kl=0. I，k2=0. 2。偽代碼如下<formula>formula see original document page 8</formula>方法(l)、 (2)、 (3)可任選其一<
11.根據(jù)權利要求l所述的方法，其特征在于，其中方法(1)和方法(2)可以任選其一，也可以同時使用。
全文摘要
判斷網頁內容是否相同的方法，可用于搜索引擎技術領域，過濾網頁內容相同的查詢結果。根據(jù)計算網頁標題的相似度和網頁正文內容的相似度，根據(jù)網頁的標題和正文內容的相似度來判斷其是否為相同內容。如果二者的相似度達到一定閥值，那么就判定為相同內容的網頁，否則就判定為不同內容的網頁。
文檔編號G06F17/30GK101350032SQ20081021166
公開日2009年1月21日申請日期2008年9月23日優(yōu)先權日2008年9月23日
發(fā)明者輝胡申請人:輝胡

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：胡輝
技術所有人：胡輝
我是此專利的發(fā)明人

上一篇：基于用戶定制的規(guī)則修改資源內容的布局的制作方法
上一篇：代理服務器和網絡計算機系統(tǒng)的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

保存網頁內容的方法相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

判斷網頁內容是否相同的方法