技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明涉及面向聚焦的Web網(wǎng)頁獲取和信息抽取方法,其包括以下步驟:1.創(chuàng)建一個(gè)基于URL結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲。2.在新聞?lì)I(lǐng)域可以采取基于視覺單位的Web網(wǎng)頁信息抽取技術(shù),根據(jù)視覺特征和文本特征自頂向下尋找DOM樹的最小視覺單位,獲得多個(gè)視覺單位后,通過分析目標(biāo)信息區(qū)別于非目標(biāo)信息的特征檢測找出目標(biāo)信息所在的視覺塊。3.利用基于增量聚類的非模型Web網(wǎng)頁信息抽取方法以獲得較好的適應(yīng)性。本發(fā)明基于URL結(jié)構(gòu)過濾的非監(jiān)督聚焦爬蟲相較于基于內(nèi)容的聚焦爬蟲,可以達(dá)到更高的收獲率和執(zhí)行效率,該方法克服了傳統(tǒng)網(wǎng)頁信息抽取中針對不同的網(wǎng)站制作不同的包裝器的缺點(diǎn),提高了抽取方法的適應(yīng)能力。
技術(shù)研發(fā)人員:朱文浩;金鑫;姚滕俊;陳潔;胡冠男
受保護(hù)的技術(shù)使用者:上海大學(xué)
技術(shù)研發(fā)日:2017.02.13
技術(shù)公布日:2017.07.21