1.一種網(wǎng)頁(yè)信息抽取方法,其特征在于,所述網(wǎng)頁(yè)信息抽取方法包括以下步驟:
接收到信息抽取請(qǐng)求時(shí),根據(jù)網(wǎng)頁(yè)中HTML元素建立節(jié)點(diǎn)樹;
根據(jù)所述信息抽取請(qǐng)求中預(yù)設(shè)的配置信息在所述節(jié)點(diǎn)樹中確定待抽取信息的目標(biāo)位置;
抽取所述目標(biāo)位置對(duì)應(yīng)的信息。
2.如權(quán)利要求1所述的網(wǎng)頁(yè)信息抽取方法,其特征在于,所述接收到信息抽取請(qǐng)求時(shí),根據(jù)網(wǎng)頁(yè)中HTML元素建立節(jié)點(diǎn)樹之前還包括:
根據(jù)所述待抽取信息的類型和所述待抽取信息在所述節(jié)點(diǎn)樹中的位置按照預(yù)置規(guī)則生成配置信息;
根據(jù)所述配置信息生成信息抽取請(qǐng)求。
3.如權(quán)利要求2所述的網(wǎng)頁(yè)信息抽取方法,其特征在于,所述根據(jù)所述信息抽取請(qǐng)求中預(yù)設(shè)的配置信息在所述節(jié)點(diǎn)樹中確定待抽取信息的目標(biāo)位置包括:
根據(jù)所述待抽取信息的類型和所述待抽取信息在所述節(jié)點(diǎn)樹中的位置,按照樹遍歷算法確定所述目標(biāo)位置。
4.如權(quán)利要求1至3中任一項(xiàng)所述的網(wǎng)頁(yè)信息抽取方法,其特征在于,所述接收到信息抽取請(qǐng)求時(shí),根據(jù)網(wǎng)頁(yè)中HTML元素建立節(jié)點(diǎn)樹包括:
接收到信息抽取請(qǐng)求時(shí),解析HTML文本內(nèi)容;
當(dāng)解析到HTML元素的開始標(biāo)簽時(shí),將當(dāng)前解析到的HTML元素設(shè)定為目標(biāo)節(jié)點(diǎn)繼續(xù)解析;
將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽;
若是,則將當(dāng)前解析到的HTML元素設(shè)定為所述目標(biāo)節(jié)點(diǎn)的子節(jié)點(diǎn);然后將所述子節(jié)點(diǎn)設(shè)定為目標(biāo)節(jié)點(diǎn)繼續(xù)解析,并執(zhí)行所述將解析獲得的非 HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽的步驟;
若否,則在解析到的所述目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)HTML元素的結(jié)束標(biāo)簽為非首個(gè)HTLM元素對(duì)應(yīng)的HTML元素的結(jié)束標(biāo)簽時(shí),將所述目標(biāo)節(jié)點(diǎn)的父節(jié)點(diǎn)設(shè)置為目標(biāo)節(jié)點(diǎn)繼續(xù)解析,并執(zhí)行所述將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并執(zhí)行所述將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽的步驟;在解析到的所述目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)HTML元素的結(jié)束標(biāo)簽為首個(gè)HTLM元素對(duì)應(yīng)的HTML元素的結(jié)束標(biāo)簽時(shí),結(jié)束對(duì)HTML文本內(nèi)容的解析,根據(jù)各節(jié)點(diǎn)的遞歸關(guān)系形成節(jié)點(diǎn)樹。
5.如權(quán)利要求4所述的網(wǎng)頁(yè)信息抽取方法,其特征在于,所述將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽之前還包括:
當(dāng)解析到所述目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)HTML元素的元素屬性和屬性值時(shí),將所述元素屬性和屬性值設(shè)定為所述目標(biāo)節(jié)點(diǎn)的子節(jié)點(diǎn)。
6.一種網(wǎng)頁(yè)信息抽取裝置,其特征在于,所述網(wǎng)頁(yè)信息抽取裝置包括:
建模模塊,用于接收到信息抽取請(qǐng)求時(shí),根據(jù)網(wǎng)頁(yè)中HTML元素建立節(jié)點(diǎn)樹;
確定模塊,用于根據(jù)所述信息抽取請(qǐng)求中預(yù)設(shè)的配置信息在所述節(jié)點(diǎn)樹中確定待抽取信息的目標(biāo)位置;
抽取模塊,用于抽取所述目標(biāo)位置對(duì)應(yīng)的信息。
7.如權(quán)利要求6所述的網(wǎng)頁(yè)信息抽取裝置,其特征在于,所述網(wǎng)頁(yè)信息抽取裝置還包括:
配置生成模塊,用于根據(jù)所述待抽取信息的類型和所述待抽取信息在所述節(jié)點(diǎn)樹中的位置按照預(yù)置規(guī)則生成配置信息;
請(qǐng)求生成模塊,用于根據(jù)所述配置信息生成信息抽取請(qǐng)求。
8.如權(quán)利要求7所述的網(wǎng)頁(yè)信息抽取裝置,其特征在于,所述確定模塊具體用于,根據(jù)所述待抽取信息的類型和所述待抽取信息在所述節(jié)點(diǎn)樹中的位置,按照樹遍歷算法確定所述目標(biāo)位置。
9.如權(quán)利要求6至8中任一項(xiàng)所述的網(wǎng)頁(yè)信息抽取裝置,其特征在于,所述建模模塊包括:
解析單元,用于接收到信息抽取請(qǐng)求時(shí),解析HTML文本內(nèi)容;并當(dāng)解析到HTML元素的開始標(biāo)簽時(shí),將當(dāng)前解析到的HTML元素設(shè)定為目標(biāo)節(jié)點(diǎn)繼續(xù)解析;
判斷單元,用于將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽;
第一處理單元,用于當(dāng)再次解析到HTML元素的開始標(biāo)簽時(shí),將當(dāng)前解析到的HTML元素設(shè)定為所述目標(biāo)節(jié)點(diǎn)的子節(jié)點(diǎn);然后將所述子節(jié)點(diǎn)設(shè)定為目標(biāo)節(jié)點(diǎn)繼續(xù)解析,并由判斷單元繼續(xù)執(zhí)行將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽的操作;
第二處理單元,用于當(dāng)未再次解析到HTML元素的開始標(biāo)簽時(shí),在解析到的所述目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)HTML元素的結(jié)束標(biāo)簽為非首個(gè)HTLM元素對(duì)應(yīng)的HTML元素的結(jié)束標(biāo)簽時(shí),將所述目標(biāo)節(jié)點(diǎn)的父節(jié)點(diǎn)設(shè)置為目標(biāo)節(jié)點(diǎn)繼續(xù)解析,并執(zhí)行所述將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并由判斷單元繼續(xù)執(zhí)行將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽的操作;在解析到的所述目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)HTML元素的結(jié)束標(biāo)簽為首個(gè)HTLM元素對(duì)應(yīng)的HTML元素的結(jié)束標(biāo)簽時(shí),結(jié)束對(duì)HTML文本內(nèi)容的解析,根據(jù)各節(jié)點(diǎn)的遞歸關(guān)系形成節(jié)點(diǎn)樹。
10.如權(quán)利要求9所述的網(wǎng)頁(yè)信息抽取裝置,其特征在于,所述信息抽取裝置還包括:
子節(jié)點(diǎn)設(shè)定單元,用于當(dāng)解析到所述目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)HTML元素的元素屬性和屬性值時(shí),將所述元素屬性和屬性值設(shè)定為所述目標(biāo)節(jié)點(diǎn)的子節(jié)點(diǎn)。