技術編號:8299154
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術詳細信息。隨著網頁信息資源快速的發(fā)展,每天都會產生很多網頁。網頁中可以包括正文信息和一些廣告信息。如何從網頁中提取出正文,變得十分重要?,F(xiàn)有技術中,通過網頁中標簽之間的嵌套關系先從HTML(Hyper Text Mark-upLanguage,超文本標記語言文件)網頁中解析出DOM(Document Object Model,文件對象模型)樹,然后遍歷所有DOM樹,依據(jù)正文信息在DOM樹中的分布規(guī)律確定正文的位置。通過上述描述可見,現(xiàn)有技術中提取網頁正文的方法需要遍...
注意:該技術已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權人授權前,僅供技術研究參考不得用于商業(yè)用途。
該專利適合技術人員進行技術研發(fā)參考以及查看自身技術是否侵權,增加技術思路,做技術知識儲備,不適合論文引用。
請注意,此類技術沒有源代碼,用于學習研究技術思路。