亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向聚焦的Web網(wǎng)頁獲取和信息抽取方法與流程

文檔序號:11691067閱讀:來源:國知局

技術(shù)特征:

技術(shù)總結(jié)
本發(fā)明涉及面向聚焦的Web網(wǎng)頁獲取和信息抽取方法,其包括以下步驟:1.創(chuàng)建一個(gè)基于URL結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲。2.在新聞?lì)I(lǐng)域可以采取基于視覺單位的Web網(wǎng)頁信息抽取技術(shù),根據(jù)視覺特征和文本特征自頂向下尋找DOM樹的最小視覺單位,獲得多個(gè)視覺單位后,通過分析目標(biāo)信息區(qū)別于非目標(biāo)信息的特征檢測找出目標(biāo)信息所在的視覺塊。3.利用基于增量聚類的非模型Web網(wǎng)頁信息抽取方法以獲得較好的適應(yīng)性。本發(fā)明基于URL結(jié)構(gòu)過濾的非監(jiān)督聚焦爬蟲相較于基于內(nèi)容的聚焦爬蟲,可以達(dá)到更高的收獲率和執(zhí)行效率,該方法克服了傳統(tǒng)網(wǎng)頁信息抽取中針對不同的網(wǎng)站制作不同的包裝器的缺點(diǎn),提高了抽取方法的適應(yīng)能力。

技術(shù)研發(fā)人員:朱文浩;金鑫;姚滕俊;陳潔;胡冠男
受保護(hù)的技術(shù)使用者:上海大學(xué)
技術(shù)研發(fā)日:2017.02.13
技術(shù)公布日:2017.07.21
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1