面向聚焦的Web網(wǎng)頁獲取和信息抽取方法與流程

文檔序號：11691067閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>面向聚焦的Web網(wǎng)頁獲取和信息抽取方法與流程

技術(shù)特征：

技術(shù)總結(jié)
本發(fā)明涉及面向聚焦的Web網(wǎng)頁獲取和信息抽取方法，其包括以下步驟：1.創(chuàng)建一個(gè)基于URL結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲。2.在新聞?lì)I(lǐng)域可以采取基于視覺單位的Web網(wǎng)頁信息抽取技術(shù)，根據(jù)視覺特征和文本特征自頂向下尋找DOM樹的最小視覺單位，獲得多個(gè)視覺單位后，通過分析目標(biāo)信息區(qū)別于非目標(biāo)信息的特征檢測找出目標(biāo)信息所在的視覺塊。3.利用基于增量聚類的非模型Web網(wǎng)頁信息抽取方法以獲得較好的適應(yīng)性。本發(fā)明基于URL結(jié)構(gòu)過濾的非監(jiān)督聚焦爬蟲相較于基于內(nèi)容的聚焦爬蟲，可以達(dá)到更高的收獲率和執(zhí)行效率，該方法克服了傳統(tǒng)網(wǎng)頁信息抽取中針對不同的網(wǎng)站制作不同的包裝器的缺點(diǎn)，提高了抽取方法的適應(yīng)能力。

技術(shù)研發(fā)人員：朱文浩;金鑫;姚滕俊;陳潔;胡冠男
受保護(hù)的技術(shù)使用者：上海大學(xué)
技術(shù)研發(fā)日：2017.02.13
技術(shù)公布日：2017.07.21

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向聚焦的Web網(wǎng)頁獲取和信息抽取方法與流程