技術編號:6460821
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術詳細信息。本發(fā)明屬于互聯網信息處理領域,尤其涉及一種互聯網網頁清洗方法、系 統(tǒng)及設備。背景技術隨著互聯網的快速發(fā)展,Web已經成為信息發(fā)布和信息共享的基礎平臺, 其中以HTML格式的Web網頁是主要的信息載體。目前,Web網頁已經從最 初的手工編輯的靜態(tài)網頁發(fā)展成為由數據庫和模板生成的動態(tài)網頁,Web網頁 中包含的內容也越來越復雜,除了正文內容外,還包含廣告、標語、導航信息、 版權信息等噪聲信息。網頁清洗類似于數據挖掘中的數據清洗,通過Web挖掘和機器學習技術將 W...
注意:該技術已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權人授權前,僅供技術研究參考不得用于商業(yè)用途。
該專利適合技術人員進行技術研發(fā)參考以及查看自身技術是否侵權,增加技術思路,做技術知識儲備,不適合論文引用。
請注意,此類技術沒有源代碼,用于學習研究技術思路。