亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁(yè)信息抽取方法及裝置與流程

文檔序號(hào):12597749閱讀:來源:國(guó)知局

技術(shù)特征:

1.一種網(wǎng)頁(yè)信息抽取方法,其特征在于,所述網(wǎng)頁(yè)信息抽取方法包括以下步驟:

接收到信息抽取請(qǐng)求時(shí),根據(jù)網(wǎng)頁(yè)中HTML元素建立節(jié)點(diǎn)樹;

根據(jù)所述信息抽取請(qǐng)求中預(yù)設(shè)的配置信息在所述節(jié)點(diǎn)樹中確定待抽取信息的目標(biāo)位置;

抽取所述目標(biāo)位置對(duì)應(yīng)的信息。

2.如權(quán)利要求1所述的網(wǎng)頁(yè)信息抽取方法,其特征在于,所述接收到信息抽取請(qǐng)求時(shí),根據(jù)網(wǎng)頁(yè)中HTML元素建立節(jié)點(diǎn)樹之前還包括:

根據(jù)所述待抽取信息的類型和所述待抽取信息在所述節(jié)點(diǎn)樹中的位置按照預(yù)置規(guī)則生成配置信息;

根據(jù)所述配置信息生成信息抽取請(qǐng)求。

3.如權(quán)利要求2所述的網(wǎng)頁(yè)信息抽取方法,其特征在于,所述根據(jù)所述信息抽取請(qǐng)求中預(yù)設(shè)的配置信息在所述節(jié)點(diǎn)樹中確定待抽取信息的目標(biāo)位置包括:

根據(jù)所述待抽取信息的類型和所述待抽取信息在所述節(jié)點(diǎn)樹中的位置,按照樹遍歷算法確定所述目標(biāo)位置。

4.如權(quán)利要求1至3中任一項(xiàng)所述的網(wǎng)頁(yè)信息抽取方法,其特征在于,所述接收到信息抽取請(qǐng)求時(shí),根據(jù)網(wǎng)頁(yè)中HTML元素建立節(jié)點(diǎn)樹包括:

接收到信息抽取請(qǐng)求時(shí),解析HTML文本內(nèi)容;

當(dāng)解析到HTML元素的開始標(biāo)簽時(shí),將當(dāng)前解析到的HTML元素設(shè)定為目標(biāo)節(jié)點(diǎn)繼續(xù)解析;

將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽;

若是,則將當(dāng)前解析到的HTML元素設(shè)定為所述目標(biāo)節(jié)點(diǎn)的子節(jié)點(diǎn);然后將所述子節(jié)點(diǎn)設(shè)定為目標(biāo)節(jié)點(diǎn)繼續(xù)解析,并執(zhí)行所述將解析獲得的非 HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽的步驟;

若否,則在解析到的所述目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)HTML元素的結(jié)束標(biāo)簽為非首個(gè)HTLM元素對(duì)應(yīng)的HTML元素的結(jié)束標(biāo)簽時(shí),將所述目標(biāo)節(jié)點(diǎn)的父節(jié)點(diǎn)設(shè)置為目標(biāo)節(jié)點(diǎn)繼續(xù)解析,并執(zhí)行所述將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并執(zhí)行所述將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽的步驟;在解析到的所述目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)HTML元素的結(jié)束標(biāo)簽為首個(gè)HTLM元素對(duì)應(yīng)的HTML元素的結(jié)束標(biāo)簽時(shí),結(jié)束對(duì)HTML文本內(nèi)容的解析,根據(jù)各節(jié)點(diǎn)的遞歸關(guān)系形成節(jié)點(diǎn)樹。

5.如權(quán)利要求4所述的網(wǎng)頁(yè)信息抽取方法,其特征在于,所述將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽之前還包括:

當(dāng)解析到所述目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)HTML元素的元素屬性和屬性值時(shí),將所述元素屬性和屬性值設(shè)定為所述目標(biāo)節(jié)點(diǎn)的子節(jié)點(diǎn)。

6.一種網(wǎng)頁(yè)信息抽取裝置,其特征在于,所述網(wǎng)頁(yè)信息抽取裝置包括:

建模模塊,用于接收到信息抽取請(qǐng)求時(shí),根據(jù)網(wǎng)頁(yè)中HTML元素建立節(jié)點(diǎn)樹;

確定模塊,用于根據(jù)所述信息抽取請(qǐng)求中預(yù)設(shè)的配置信息在所述節(jié)點(diǎn)樹中確定待抽取信息的目標(biāo)位置;

抽取模塊,用于抽取所述目標(biāo)位置對(duì)應(yīng)的信息。

7.如權(quán)利要求6所述的網(wǎng)頁(yè)信息抽取裝置,其特征在于,所述網(wǎng)頁(yè)信息抽取裝置還包括:

配置生成模塊,用于根據(jù)所述待抽取信息的類型和所述待抽取信息在所述節(jié)點(diǎn)樹中的位置按照預(yù)置規(guī)則生成配置信息;

請(qǐng)求生成模塊,用于根據(jù)所述配置信息生成信息抽取請(qǐng)求。

8.如權(quán)利要求7所述的網(wǎng)頁(yè)信息抽取裝置,其特征在于,所述確定模塊具體用于,根據(jù)所述待抽取信息的類型和所述待抽取信息在所述節(jié)點(diǎn)樹中的位置,按照樹遍歷算法確定所述目標(biāo)位置。

9.如權(quán)利要求6至8中任一項(xiàng)所述的網(wǎng)頁(yè)信息抽取裝置,其特征在于,所述建模模塊包括:

解析單元,用于接收到信息抽取請(qǐng)求時(shí),解析HTML文本內(nèi)容;并當(dāng)解析到HTML元素的開始標(biāo)簽時(shí),將當(dāng)前解析到的HTML元素設(shè)定為目標(biāo)節(jié)點(diǎn)繼續(xù)解析;

判斷單元,用于將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽;

第一處理單元,用于當(dāng)再次解析到HTML元素的開始標(biāo)簽時(shí),將當(dāng)前解析到的HTML元素設(shè)定為所述目標(biāo)節(jié)點(diǎn)的子節(jié)點(diǎn);然后將所述子節(jié)點(diǎn)設(shè)定為目標(biāo)節(jié)點(diǎn)繼續(xù)解析,并由判斷單元繼續(xù)執(zhí)行將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽的操作;

第二處理單元,用于當(dāng)未再次解析到HTML元素的開始標(biāo)簽時(shí),在解析到的所述目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)HTML元素的結(jié)束標(biāo)簽為非首個(gè)HTLM元素對(duì)應(yīng)的HTML元素的結(jié)束標(biāo)簽時(shí),將所述目標(biāo)節(jié)點(diǎn)的父節(jié)點(diǎn)設(shè)置為目標(biāo)節(jié)點(diǎn)繼續(xù)解析,并執(zhí)行所述將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并由判斷單元繼續(xù)執(zhí)行將解析獲得的非HTML元素內(nèi)容的字符串以子節(jié)點(diǎn)的形式添加在所述目標(biāo)節(jié)點(diǎn)下,并判斷是否再次解析到HTML元素的開始標(biāo)簽的操作;在解析到的所述目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)HTML元素的結(jié)束標(biāo)簽為首個(gè)HTLM元素對(duì)應(yīng)的HTML元素的結(jié)束標(biāo)簽時(shí),結(jié)束對(duì)HTML文本內(nèi)容的解析,根據(jù)各節(jié)點(diǎn)的遞歸關(guān)系形成節(jié)點(diǎn)樹。

10.如權(quán)利要求9所述的網(wǎng)頁(yè)信息抽取裝置,其特征在于,所述信息抽取裝置還包括:

子節(jié)點(diǎn)設(shè)定單元,用于當(dāng)解析到所述目標(biāo)節(jié)點(diǎn)對(duì)應(yīng)HTML元素的元素屬性和屬性值時(shí),將所述元素屬性和屬性值設(shè)定為所述目標(biāo)節(jié)點(diǎn)的子節(jié)點(diǎn)。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1