專利名稱::網(wǎng)站內(nèi)容檢索系統(tǒng)及方法
技術領域:
:本發(fā)明涉及一種檢索系統(tǒng)及方法,尤其涉及一種網(wǎng)站內(nèi)容檢索系統(tǒng)及方法。
背景技術:
:隨著計算機網(wǎng)絡的發(fā)展,網(wǎng)站在信息發(fā)布與傳遞方面的作用越來越強大,其所包含的內(nèi)容與數(shù)據(jù)也成倍增長。數(shù)據(jù)量的膨脹導致用戶要準確找到所需資料非常困難。目前大部分采用的方式是公共搜索服務,用戶利用各大搜索引擎(如百度、谷歌等)進行搜索所需要的資料,這些搜索引擎通過強大的服務器與文件數(shù)據(jù)索引技術,將目標網(wǎng)站中的內(nèi)容進行索引,提供給公眾查詢服務。但是,這些搜索引擎存在了一定的缺陷,首先,所述搜索引擎只能搜索已經(jīng)收錄于數(shù)據(jù)庫的網(wǎng)站內(nèi)容。搜索引擎查找是第三方服務商提供的文件內(nèi)容檢索服務,搜索引擎在收錄一個站點時,會根據(jù)自身的詞庫對站點進行搜索,保存搜索結(jié)果。例如A網(wǎng)站被某搜索引擎所收錄,那么A網(wǎng)站中的大部分內(nèi)容用戶可以通過該搜索引擎搜索出來。若B網(wǎng)站沒有被該搜索引擎收錄,那么在搜索引擎中是不能查找到該B網(wǎng)站中的相關內(nèi)容。建立專門的搜索服務引擎需要消耗大量的人力物力,且維護困難。其次,由于站點開發(fā)的語言和運行服務器環(huán)境存在很大的差異,搜索引擎在收錄站點的時候?qū)τ诟鞣N動態(tài)的網(wǎng)站收錄支持并不是很完善,內(nèi)容收錄不全面。除此之外,搜索引擎采用文件索引技術,在其收錄過程中會對預搜索的結(jié)果進行保存,而網(wǎng)站的實際內(nèi)容可能已經(jīng)發(fā)生變化,所以搜索到的可能為過期內(nèi)容。
發(fā)明內(nèi)容鑒于以上內(nèi)容,有必要提供一種網(wǎng)站內(nèi)容檢索系統(tǒng),可以有效地檢索到用戶需要的所有網(wǎng)站內(nèi)容。還有必要提供一種網(wǎng)站內(nèi)容檢索方法,可以有效地檢索到用戶需要的所有網(wǎng)站內(nèi)容。—種網(wǎng)站內(nèi)容檢索系統(tǒng),該系統(tǒng)運行于客戶端主機中,該客戶端主機包括一個檢索結(jié)果列表,該系統(tǒng)包括接收模塊,用于接收關鍵字及網(wǎng)址,向Web服務器發(fā)送訪問所述網(wǎng)址對應的當前網(wǎng)頁的請求,并接收Web服務器解析該當前網(wǎng)頁所產(chǎn)生的html代碼;篩選模塊,用于從所述html代碼中篩選出文字信息;查找模塊,用于從篩選后的文字信息中查找所述關鍵字;保存模塊,用于當從篩選后的文字信息中查找到所述關鍵字時,保存該當前網(wǎng)頁的路徑至檢索結(jié)果列表中;提取模塊,用于在查找完成后,當所述html代碼中存在跳轉(zhuǎn)鏈接地址時,提取所需的跳轉(zhuǎn)鏈接地址;所述保存模塊,還用于將所提取出的跳轉(zhuǎn)鏈接地址存儲到一個數(shù)組中;及所述篩選模塊,還用于遍歷所述數(shù)組,從中篩選出當前網(wǎng)頁的子網(wǎng)頁跳轉(zhuǎn)鏈接地址,并將每個子網(wǎng)頁跳轉(zhuǎn)鏈接地址發(fā)送給所述接收模塊?!N網(wǎng)站內(nèi)容檢索方法,該方法包括如下步驟(a)接收關鍵字及網(wǎng)址;(b)向Web服務器發(fā)送訪問該網(wǎng)址對應的當前網(wǎng)頁的請求;(c)接收Web服務器解析該當前網(wǎng)頁所產(chǎn)3生的html代碼;(d)從所述html代碼中篩選出文字信息;(e)當從篩選后的文字信息中查找到所述關鍵字時,保存該當前網(wǎng)頁的路徑至檢索結(jié)果列表中;(f)當所述html代碼中存在跳轉(zhuǎn)鏈接地址時,提取所需的跳轉(zhuǎn)鏈接地址,將所提取出的跳轉(zhuǎn)鏈接地址存儲到一個數(shù)組中,遍歷所述數(shù)組,從中篩選出當前網(wǎng)頁的子網(wǎng)頁跳轉(zhuǎn)鏈接地址作為當前網(wǎng)頁,轉(zhuǎn)至步驟(b);及(g)當所述html代碼中不存在跳轉(zhuǎn)鏈接地址時,提示檢索完成。相較于現(xiàn)有技術,所述網(wǎng)站內(nèi)容檢索系統(tǒng)及方法,通過遞歸算法層級搜索網(wǎng)站內(nèi)容,不依賴于網(wǎng)站數(shù)據(jù)庫的檢索,可以更加全面地搜索到用戶所需要檢索的網(wǎng)站內(nèi)容。圖1是本發(fā)明網(wǎng)站內(nèi)容檢索控制系統(tǒng)較佳實施例的運行環(huán)境圖。圖2是本發(fā)明網(wǎng)站內(nèi)容檢索系統(tǒng)100較佳實施例的功能模塊圖。圖3是本發(fā)明網(wǎng)站內(nèi)容檢索方法較佳實施例的作業(yè)流程圖。具體實施例方式如圖l所示,是本發(fā)明一種網(wǎng)站內(nèi)容檢索系統(tǒng)較佳實施例的運行環(huán)境圖。該網(wǎng)站內(nèi)容檢索系統(tǒng)100運行于客戶端主機1上,該網(wǎng)站內(nèi)容檢索系統(tǒng)100可以擁有自己的域名獨立運行,也可以內(nèi)嵌于一個網(wǎng)頁4中,作為該網(wǎng)頁4內(nèi)的一個組件,該網(wǎng)頁可設置為首頁。該網(wǎng)站內(nèi)容檢索系統(tǒng)IOO提供了一個界面,該界面包括至少兩個輸入欄,用戶可以于一個輸入欄中輸入至少一個關鍵字,也可以在該輸入欄中輸入多個關鍵字,關鍵字之間以空格進行區(qū)分,在另一個欄位中輸入網(wǎng)址,該網(wǎng)址即為檢索的最上層網(wǎng)頁,該網(wǎng)址對應的網(wǎng)站也即為所需要檢索的目標網(wǎng)站。所述網(wǎng)站內(nèi)容檢索系統(tǒng)ioo找到用戶輸入的網(wǎng)址對應的網(wǎng)頁,并在該網(wǎng)頁中查找所輸入的關鍵字。本發(fā)明采取多線程技術,支持多網(wǎng)站檢索,即可以將檢索關鍵字的范圍設置為多個網(wǎng)站。該客戶端主機1包括一個檢索結(jié)果列表,該檢索結(jié)果列表用于存儲該網(wǎng)站內(nèi)容檢索系統(tǒng)100所檢索到的網(wǎng)頁地址或者網(wǎng)頁內(nèi)容。所述客戶端主機1連接于Web服務器2,該Web服務器2用于通過網(wǎng)絡3訪問所有網(wǎng)頁4,所述網(wǎng)絡3可以是互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)或者其他任意適用的通信媒介。如圖2所示,是本發(fā)明網(wǎng)站內(nèi)容檢索系統(tǒng)100較佳實施例的功能模塊圖。所述模塊是具有特定功能的軟件程序段,該軟件存儲于計算機可讀存儲介質(zhì)或其它存儲設備,可被計算機或其它包含處理器的計算裝置執(zhí)行,從而完成網(wǎng)站內(nèi)容檢索的系列流程。所述網(wǎng)站內(nèi)容檢索系統(tǒng)100包括接收模塊10、篩選模塊12、查找模塊14、保存模塊16、提取模塊18及提示模塊20。接收模塊10用于接收用戶在輸入欄中所輸入的關鍵字及要檢索的網(wǎng)址。該接收模塊10還用于在接收到需要檢索的網(wǎng)址后向Web服務器2發(fā)送訪問所接收的網(wǎng)址對應的網(wǎng)頁的請求,將該網(wǎng)址對應的網(wǎng)頁稱為當前網(wǎng)頁,并接收Web服務器2解析當前網(wǎng)頁所產(chǎn)生的html代碼。本較佳實施例中,當用戶在輸入欄中輸入關鍵字和要檢索的網(wǎng)址后,Web服務器2立即對該網(wǎng)址對應的網(wǎng)頁的內(nèi)容進行解析。若網(wǎng)站本身采用的開發(fā)語言為動態(tài)語言(例如JSP,ASP,.NET等),該Web服務器2解析所述動態(tài)語言程序生成html代碼,并將該html代碼返回給客戶端主機l,所述接收模塊10接收該html代碼。4篩選模塊12用于從接收模塊10所接收的html代碼中篩選出文字信息。因為html代碼中包括構建頁面所需要的標準html標簽,例如表格標簽〈table〉,層標簽div等,所述標準html標簽不是網(wǎng)頁顯示的內(nèi)容,只是用于修飾網(wǎng)頁的界面。因此該篩選模塊12篩選掉除了跳轉(zhuǎn)鏈接(〈a〉〈a〉)之外的所有html標簽,剩下的即為網(wǎng)頁的文字信息。查找模塊14用于在所篩選后的文字信息中查找是否存在所述接收模塊IO所接收的關鍵字。保存模塊16用于當篩選后的文字信息中查找到所述關鍵字時,保存該當前網(wǎng)頁的路徑至檢索結(jié)果列表中。提取模塊18用于查找完成后,判斷所述html代碼中是否存在跳轉(zhuǎn)鏈接,若存在,提取所述html代碼中的所有跳轉(zhuǎn)鏈接。本實施例中,所述跳轉(zhuǎn)鏈接的格式為〈ahref=http://xxx.com〉文字〈/a〉。所述保存模塊16還用于將所提取出的跳轉(zhuǎn)鏈接存儲到一個數(shù)組中。所述篩選模塊12還用于遍歷所述數(shù)組,從中篩選出當前網(wǎng)頁的所有子網(wǎng)頁跳轉(zhuǎn)鏈接地址,將該每個子網(wǎng)頁跳轉(zhuǎn)鏈接地址發(fā)送給接收模塊10。所述接收模塊10向所述Web服務器2發(fā)送訪問每個所選擇的跳轉(zhuǎn)鏈接地址的請求。跳轉(zhuǎn)鏈接中不僅包括當前網(wǎng)頁的子網(wǎng)頁的鏈接,還包括友情鏈接或者網(wǎng)絡鏈接等跳轉(zhuǎn)鏈接地址。所述篩選模塊12將不屬于本網(wǎng)站的跳轉(zhuǎn)鏈接地址篩選掉。本較佳實施例中,該篩選模塊12查看所述數(shù)組中的跳轉(zhuǎn)鏈接地址路徑是否為檢索結(jié)果列表中保存的當前網(wǎng)頁路徑的子路徑,也即判斷每個跳轉(zhuǎn)鏈接地址的域名的前部分是否都與接收模塊10所接收的需檢索的網(wǎng)址對應網(wǎng)站的域名相同,如果相同,則該跳轉(zhuǎn)鏈接地址屬于該網(wǎng)站,否則表明該跳轉(zhuǎn)鏈接地址不屬于該網(wǎng)站。同時為了避免出現(xiàn)對同一網(wǎng)址中的網(wǎng)頁反復檢索造成死循環(huán),數(shù)組中所保存的跳轉(zhuǎn)鏈接地址的域名長度必須要大于接收模塊IO所接收的網(wǎng)址的域名長度。如所接的網(wǎng)址的域名路徑為http:〃www.abc.com,則所述數(shù)組中保存的跳轉(zhuǎn)鏈接網(wǎng)頁的域名地址必須包含該路徑,且長度必須大于該路徑,比如跳轉(zhuǎn)鏈接地址為http:〃www.abc.com/xxx才符合要求。提示模塊20用于當所述html代碼中不存在跳轉(zhuǎn)鏈接時,提示檢索完成。如圖3所示,是本發(fā)明網(wǎng)站內(nèi)容檢索方法較佳實施例的作業(yè)流程圖。步驟S30,接收模塊10接收用戶在輸入欄中所輸入的關鍵字及需檢索的網(wǎng)址。步驟S32,該接收模塊10向Web服務器2發(fā)送訪問所接收的網(wǎng)址對應網(wǎng)頁的請求,將該網(wǎng)址對應的網(wǎng)頁稱為當前網(wǎng)頁。步驟S34,接收模塊10接收Web服務器2解析該當前網(wǎng)頁所產(chǎn)生的html代碼。本較佳實施例中,當用戶在輸入欄中輸入關鍵字和需檢索的網(wǎng)址后,Web服務器2立即對該網(wǎng)址對應的網(wǎng)頁的內(nèi)容進行解析。若網(wǎng)站本身采用的開發(fā)語言為動態(tài)語言(例如JSP,ASP,.NET等),該Web服務器2解析所述動態(tài)語言程序生成html代碼,并將該html代碼返回給客戶端主機l,所述接收模塊10接收該html代碼。步驟S36,篩選模塊12從接收模塊10所接收的html代碼中篩選出文字信息。因為html代碼中包括構建頁面所需要的標準html標簽,例如表格標簽〈table〉,層標簽div等,所述標簽不是網(wǎng)頁顯示的內(nèi)容,只是用于修飾網(wǎng)頁的界面。因此該篩選模塊12篩選掉除了跳轉(zhuǎn)鏈接(〈a〉〈a〉)之外的所有html標簽,剩下的即為網(wǎng)頁的文字信息。步驟S38,查找模塊14在所篩選后的文字信息中查找是否存在所述接收模塊10所接收的關鍵字。若查找模塊14在篩選后的文字信息中查找到所述關鍵字時,進入步驟S40。若查找模塊14在篩選后的文字信息中沒有查找到所述關鍵字時,進入步驟S42。步驟S40,保存模塊16保存該當前網(wǎng)頁的路徑至檢索結(jié)果列表中,并進入步驟S42。步驟S42,提取模塊18判斷所述html代碼中是否存在跳轉(zhuǎn)鏈接。若存在,進入步驟S44。若不存在,進入步驟S48。步驟S44,提取模塊18提取所述html代碼中的所有跳轉(zhuǎn)鏈接。本實施例中,所述跳轉(zhuǎn)鏈接的格式為〈ahref=http:〃xxx.com〉文字〈/a>。所述保存模塊16將所提取出的跳轉(zhuǎn)鏈接存儲到一個數(shù)組中。步驟S46,所述篩選模塊12遍歷所述數(shù)組,從中篩選出當前網(wǎng)頁的所有子網(wǎng)頁跳轉(zhuǎn)鏈接地址,并將每個子網(wǎng)頁跳轉(zhuǎn)鏈接地址發(fā)送給接收模塊IO,轉(zhuǎn)至步驟S32,所述接收模塊10向所述Web服務器2發(fā)送訪問每個所選擇的跳轉(zhuǎn)鏈接地址的請求。跳轉(zhuǎn)鏈接中不僅包括當前網(wǎng)頁的子網(wǎng)頁的鏈接,還包括友情鏈接或者網(wǎng)絡鏈接等跳轉(zhuǎn)鏈接地址。所述篩選模塊12將不屬于本網(wǎng)站的跳轉(zhuǎn)鏈接地址篩選掉。本較佳實施例中,該篩選模塊12查看所述數(shù)組中的跳轉(zhuǎn)鏈接地址路徑是否為檢索結(jié)果列表中保存的當前網(wǎng)頁的路徑的子路徑,也即判斷每個跳轉(zhuǎn)鏈接地址的域名的前部分是否都與接收模塊10所接收的網(wǎng)址對應網(wǎng)站的域名相同,如果相同,則該跳轉(zhuǎn)鏈接地址屬于該網(wǎng)站,否則表明該跳轉(zhuǎn)鏈接地址不屬于該網(wǎng)站。同時為了避免出現(xiàn)對同一網(wǎng)址中的網(wǎng)頁反復檢索造成死循環(huán),數(shù)組中所保存的跳轉(zhuǎn)鏈接地址域名長度必須要大于接收模塊IO所接收的網(wǎng)址的域名長度。如所接的網(wǎng)址的域名路徑為http:〃www.abc.com,則所述數(shù)組中保存的跳轉(zhuǎn)鏈接網(wǎng)頁的域名地址必須包含該路徑,且長度必須大于該路徑,比如跳轉(zhuǎn)鏈接地址為http:〃www.abc.com/xxx才符合要求。步驟S48,提示模塊20提示檢索完成。最后所應說明的是,以上實施例僅用以說明本發(fā)明的技術方案而非限制,盡管參照較佳實施例對本發(fā)明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發(fā)明的技術方案進行修改或等同替換,而不脫離本發(fā)明技術方案的精神和范圍。權利要求一種網(wǎng)站內(nèi)容檢索系統(tǒng),該系統(tǒng)運行于客戶端主機中,該客戶端主機包括一個檢索結(jié)果列表,其特征在于,該系統(tǒng)包括接收模塊,用于接收關鍵字及網(wǎng)址,向Web服務器發(fā)送訪問所述網(wǎng)址對應的當前網(wǎng)頁的請求,并接收Web服務器解析該當前網(wǎng)頁所產(chǎn)生的html代碼;篩選模塊,用于從所述html代碼中篩選出文字信息;查找模塊,用于從篩選后的文字信息中查找所述關鍵字;保存模塊,用于當從篩選后的文字信息中查找到所述關鍵字時,保存該當前網(wǎng)頁的路徑至檢索結(jié)果列表中;提取模塊,用于在查找完成后,當所述html代碼中存在跳轉(zhuǎn)鏈接地址時,提取所需的跳轉(zhuǎn)鏈接地址;所述保存模塊,還用于將所提取出的跳轉(zhuǎn)鏈接地址存儲到一個數(shù)組中;及所述篩選模塊,還用于遍歷所述數(shù)組,從中篩選出當前網(wǎng)頁的子網(wǎng)頁跳轉(zhuǎn)鏈接地址,并將每個子網(wǎng)頁跳轉(zhuǎn)鏈接地址發(fā)送給所述接收模塊。2.如權利要求1所述的網(wǎng)站內(nèi)容檢索系統(tǒng),其特征在于,該系統(tǒng)還包括提示模塊,用于當所述html代碼中不存在跳轉(zhuǎn)鏈接時,提示檢索完成。3.如權利要求l所述的網(wǎng)站內(nèi)容檢索系統(tǒng),其特征在于,所述當前網(wǎng)頁的子網(wǎng)頁的跳轉(zhuǎn)鏈接地址域名長度大于當前網(wǎng)頁的域名長度。4.如權利要求1所述的網(wǎng)站內(nèi)容檢索系統(tǒng),其特征在于,所述關鍵字為一個或多個,若為多個關鍵字,則每個關鍵字之間以空格進行區(qū)分。5.—種網(wǎng)站內(nèi)容檢索方法,其特征在于,該方法包括如下步驟(a)接收關鍵字及網(wǎng)址;(b)向Web服務器發(fā)送訪問該網(wǎng)址對應的當前網(wǎng)頁的請求;(c)接收Web服務器解析該當前網(wǎng)頁所產(chǎn)生的html代碼;(d)從所述html代碼中篩選出文字信息;(e)當從篩選后的文字信息中查找到所述關鍵字時,保存該當前網(wǎng)頁的路徑至檢索結(jié)果列表中;(f)當所述html代碼中存在跳轉(zhuǎn)鏈接地址時,提取所需的跳轉(zhuǎn)鏈接地址,將所提取出的跳轉(zhuǎn)鏈接地址存儲到一個數(shù)組中,遍歷所述數(shù)組,從中篩選出當前網(wǎng)頁的子網(wǎng)頁跳轉(zhuǎn)鏈接地址作為當前網(wǎng)頁,轉(zhuǎn)至步驟(b);及(g)當所述html代碼中不存在跳轉(zhuǎn)鏈接地址時,提示檢索完成。6.如權利要求5所述的網(wǎng)站內(nèi)容檢索方法,其特征在于,所述當前網(wǎng)頁的子網(wǎng)頁的跳轉(zhuǎn)鏈接地址域名長度大于當前網(wǎng)頁的域名長度。7.如權利要求5所述的網(wǎng)站內(nèi)容檢索方法,其特征在于,所述關鍵字為一個或多個,若為多個關鍵字,則每個關鍵字之間以空格進行區(qū)分。全文摘要一種網(wǎng)站內(nèi)容檢索方法,包括(a)接收關鍵字及網(wǎng)址;(b)向Web服務器發(fā)送訪問該網(wǎng)址對應的當前網(wǎng)頁的請求;(c)接收Web服務器解析該當前網(wǎng)頁所產(chǎn)生的html代碼;(d)從所述html代碼中篩選出文字信息;(e)當從篩選后的文字信息中查找到所述關鍵字時,保存該當前網(wǎng)頁的路徑至檢索結(jié)果列表中;(f)當所述html代碼中存在跳轉(zhuǎn)鏈接地址時,提取所需的跳轉(zhuǎn)鏈接地址,將所提取出的跳轉(zhuǎn)鏈接地址存儲到一個數(shù)組中,遍歷所述數(shù)組,從中篩選出當前網(wǎng)頁的子網(wǎng)頁跳轉(zhuǎn)鏈接地址作為當前網(wǎng)頁,轉(zhuǎn)至步驟(b);及(g)當所述html代碼中不存在跳轉(zhuǎn)鏈接地址時,提示檢索完成。另外,本發(fā)明還提供一種網(wǎng)站內(nèi)容檢索系統(tǒng)。文檔編號G06F17/30GK101727471SQ200810305300公開日2010年6月9日申請日期2008年10月30日優(yōu)先權日2008年10月30日發(fā)明者常小軍申請人:鴻富錦精密工業(yè)(深圳)有限公司;鴻海精密工業(yè)股份有限公司