亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)絡(luò)信息的自動(dòng)提取方法及裝置的制作方法

文檔序號(hào):6376771閱讀:276來(lái)源:國(guó)知局
專利名稱:一種網(wǎng)絡(luò)信息的自動(dòng)提取方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種網(wǎng)絡(luò)信息的自動(dòng)提取方法及裝置,屬于網(wǎng)絡(luò)信息提取技術(shù)領(lǐng)域。
背景技術(shù)
對(duì)于在網(wǎng)頁(yè)上展現(xiàn)的信息,現(xiàn)有技術(shù)普遍通過(guò)正則表達(dá)式來(lái)描述,對(duì)于不同的網(wǎng)頁(yè),所對(duì)應(yīng)的正則表達(dá)式往往是各不相同,這樣就導(dǎo)致網(wǎng)絡(luò)信息提取的工作量較大。

發(fā)明內(nèi)容
本發(fā)明為解決現(xiàn)有的網(wǎng)絡(luò)信息提取的工作量較大的問(wèn)題,進(jìn)而提供了一種網(wǎng)絡(luò)信息的自動(dòng)提取方法及裝置。為此,本發(fā)明提供了如下的技術(shù)方案一種網(wǎng)絡(luò)信息的自動(dòng)提取方法,包括·從給定信息S相關(guān)的網(wǎng)頁(yè)合集W中找到含有給定信息S的子集Ssub中元素的網(wǎng)頁(yè)W,;根據(jù)預(yù)定規(guī)則生成信息pattern集合P’,并將信息pattern集合P’與正則表達(dá)式集合P求合集獲得集合P1 ;將集合P1與給定信息相關(guān)的網(wǎng)頁(yè)合集W中的所有的網(wǎng)頁(yè)進(jìn)行匹配,獲得集合Ssub ’,直到Ssub==Ssub'時(shí)抓取過(guò)程結(jié)束。一種網(wǎng)絡(luò)信息的自動(dòng)提取裝置,包括網(wǎng)頁(yè)選取單元,用于從給定信息S相關(guān)的網(wǎng)頁(yè)合集W中找到含有給定信息S的子集Ssub中元素的網(wǎng)頁(yè)W,;集合選取單元,用于根據(jù)預(yù)定規(guī)則生成信息pattern集合P’,并將信息pattern集合P’與正則表達(dá)式集合P求合集獲得集合P1 ;內(nèi)容抓取單元,用于將集合P1與給定信息相關(guān)的網(wǎng)頁(yè)合集W中的所有的網(wǎng)頁(yè)進(jìn)行匹配,獲得集合Ssub’,直到Ssub==Ssub'時(shí)抓取過(guò)程結(jié)束。本發(fā)明提供的技術(shù)方案通過(guò)根據(jù)不同的網(wǎng)頁(yè)生成相應(yīng)的正則表達(dá)式集合,實(shí)現(xiàn)自動(dòng)提取網(wǎng)頁(yè)中的內(nèi)容,省去了很多工作量。


為了更清楚地說(shuō)明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I是本發(fā)明的具體實(shí)施方式
提供的兩個(gè)網(wǎng)頁(yè)獲取信息的示意圖;圖2是本發(fā)明的具體實(shí)施方式
提供的n個(gè)網(wǎng)頁(yè)獲取信息的示意圖;圖3是本發(fā)明的具體實(shí)施方式
提供的網(wǎng)絡(luò)信息的自動(dòng)提取方法的流程示意圖;圖4是本發(fā)明的具體實(shí)施方式
提供的生成信息pattern集合P’的流程示意圖5是本發(fā)明的具體實(shí)施方式
提供的驗(yàn)證正則表達(dá)式集合的流程示意圖;圖6是本發(fā)明的具體實(shí)施方式
提供的人臉特征定位裝置的結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本具體實(shí)施方式
提供的技術(shù)方案的原理是對(duì)于不同類型的網(wǎng)頁(yè)會(huì)包含同一種信息的情況,由于同一種信息在不同的網(wǎng)站上表達(dá)方式是不同的。例如在音樂(lè)領(lǐng)域,互聯(lián)網(wǎng)上有很多的包含音樂(lè)信息網(wǎng)站、論壇等,它們不同的網(wǎng)站、論壇網(wǎng)頁(yè)結(jié)構(gòu)和表現(xiàn)形式一般是不相同的,但是它們包含了很多同種類型的信息,例如歌曲名、歌手名、專輯等信息,對(duì)于 一種信息,對(duì)于同一類型的網(wǎng)頁(yè)(記為urlpatternl),可以通過(guò)正則表達(dá)式(prefixl infosuffixl)來(lái)表示,并將記錄下來(lái)值的合集記為VI。而對(duì)于不同類型的網(wǎng)頁(yè)(urlpattern2),它們有不同的正則表達(dá)式(prefix2 info suff ix2),將這個(gè)網(wǎng)站的值的合集記為V2,則Vl與V2的交集不等于空,并且Vl和V2的值描述的信息是一致的。以此類推如果存在n —個(gè)不同類型網(wǎng)頁(yè),則應(yīng)存在小于等于n個(gè)值的集合,存在小于等于n個(gè)正則表達(dá)式。具體邏輯如圖I和圖2所示。因此對(duì)于給定信息的部分集合(比如10到100的樣本量),記為Ssub,則可以通過(guò)網(wǎng)頁(yè)合集W,來(lái)得到信息合集S’。定義覆蓋率為|S n S’ I/S,定義準(zhǔn)確率Is n s’ I/S’,相對(duì)于覆蓋率,準(zhǔn)確率對(duì)于網(wǎng)頁(yè)內(nèi)容提取更重要。因?yàn)槿绻麥?zhǔn)確率過(guò)低,對(duì)于大多數(shù)的應(yīng)用是沒(méi)有意義的,但是覆蓋率過(guò)低可以通過(guò)海量的網(wǎng)頁(yè)數(shù)量進(jìn)行彌補(bǔ),所以本具體實(shí)施方式
提供的技術(shù)方案是針對(duì)提高網(wǎng)頁(yè)內(nèi)容提取的準(zhǔn)確率而提出的。下面結(jié)合說(shuō)明書附圖進(jìn)行詳細(xì)說(shuō)明,如圖3所示,相應(yīng)的網(wǎng)絡(luò)信息的自動(dòng)提取方法包括步驟31,從給定信息S相關(guān)的網(wǎng)頁(yè)合集W中找到含有給定信息S的子集Ssub中元素的網(wǎng)頁(yè)W’。具體的,對(duì)于給定信息S的子集Ssub,子集Ssub中的元素是可枚舉的,并定義正則表達(dá)式合集P=|。首先遍歷給定信息S相關(guān)的網(wǎng)頁(yè)合集W,從網(wǎng)頁(yè)合集W中找到含有給定信息S的子集Ssub中元素的網(wǎng)頁(yè)W,。步驟32,根據(jù)預(yù)定規(guī)則生成信息pattern集合P’,并將信息pattern集合P’與正則表達(dá)式集合P求合集獲得集合匕。根據(jù)預(yù)定規(guī)則生成信息pattern集合P’,并使W’ =>Ssub,其中信息pattern集合P’的生成過(guò)程具體如圖4所示,具體可以包括首先定義正則表達(dá)式的樣式為p=prefix info suffix ;并用以下集合作為正則表達(dá)式的組成元素?cái)?shù)字集合NumberSet、字母集合EnglishSet、特殊符號(hào)集合SpecialSet、漢字集合ChineseSet、網(wǎng)頁(yè)標(biāo)簽集合MetaSet ;其中正則表達(dá)式的info的內(nèi)容通過(guò)數(shù)字集合NumberSet、字母集合EnglishSet、特殊符號(hào)集合SpecialSet和漢字集合ChineseSet表示,prefix和suffix的內(nèi)容通過(guò)網(wǎng)頁(yè)標(biāo)簽集合MetaSet表示;遍歷給定信息S的子集Ssub,找到某一元素S,并找到在網(wǎng)頁(yè)w中元素s的位置;向前回溯,找到第一個(gè)網(wǎng)頁(yè)標(biāo)簽,記為prefix ;向后回溯,找到第一個(gè)網(wǎng)頁(yè)標(biāo)簽,記為 suffix ;把prefix和suffix中間的內(nèi)容按照數(shù)字集合NumberSet、字母集合EnglishSet、特殊符號(hào)集合SpecialSet和漢字集合ChineseSet的描述規(guī)則生成元素s在網(wǎng)頁(yè)w上的正則集合;根據(jù)元素s在網(wǎng)頁(yè)w上的正則集合生成Ssub在網(wǎng)頁(yè)w上的正則表達(dá)集合,記錄為P,pl, p2…pn。步驟33,將集合P1與給定信息相關(guān)的網(wǎng)頁(yè)合集W中的所有的網(wǎng)頁(yè)進(jìn)行匹配,獲得集合Ssub ’,直到Ssub==Ssub'時(shí)抓取過(guò)程結(jié)束。具體的,將集合P1與給定信息相關(guān)的網(wǎng)頁(yè)合集W中的所有的網(wǎng)頁(yè)進(jìn)行匹配,獲得集合Ssub',如果Ssub>Ssub’,則令Ssub=Ssub'后重新執(zhí)行步驟31,直到Ssub==Ssub'時(shí)抓取過(guò)程結(jié)束。 進(jìn)一步地,本具體實(shí)施方式
還可以包括驗(yàn)證正則表達(dá)式集合的過(guò)程,如圖5所示,具體可以包括將每個(gè)網(wǎng)頁(yè)r與給定信息的子集Ssub相乘,得到正則表達(dá)式合集Tt=Tl,T2…Tn ;遍歷正則表達(dá)式合集Tt,得到一個(gè)正則表達(dá)式合集T1,遍歷正則表達(dá)式合集T1,將任意的正則表達(dá)式P G Tn與網(wǎng)頁(yè)W’進(jìn)行匹配,得到值的集合S;如果S-Ssub幸O,舍棄改表達(dá)式(該步驟的作用是去掉同時(shí)匹配其他內(nèi)容的正則表達(dá)式);如果S-Ssub=①,則給定信息的子集Ssub中元素的個(gè)數(shù)Scount等于集合S中的元素個(gè)數(shù);遍歷正則表達(dá)式合集Tt,對(duì)于任意的Tn G Tt,如果Tn中正則表達(dá)式的個(gè)數(shù)大于1,則選取Tn中Scount最大的正則表達(dá)式,舍去其余的正則表達(dá)式(該步驟的作用是對(duì)于同一個(gè)匹配的多個(gè)表達(dá)式,選取匹配最多的那個(gè));遍歷正則表達(dá)式合集Tt,對(duì)比其中任意兩個(gè)Tn,如果正則表達(dá)式相同,則舍棄其中任意一個(gè)(該步驟的作用是去掉相同的正則表達(dá)式);將剩余的正則表達(dá)式組成集合,記為P’ =pl,p2*“pn。采用本具體實(shí)施方式
提供的技術(shù)方案,通過(guò)根據(jù)不同的網(wǎng)頁(yè)生成相應(yīng)的正則表達(dá)式集合,實(shí)現(xiàn)自動(dòng)提取網(wǎng)頁(yè)中的內(nèi)容,省去了很多工作量,并且能夠驗(yàn)證正則表達(dá)式的正確性。需要說(shuō)明的是,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述各方法實(shí)施例中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,相應(yīng)的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。本發(fā)明的具體實(shí)施方式
還提供了一種網(wǎng)絡(luò)信息的自動(dòng)提取裝置,如圖6所示,包括網(wǎng)頁(yè)選取單元61,用于從給定信息S相關(guān)的網(wǎng)頁(yè)合集W中找到含有給定信息S的子集Ssub中元素的網(wǎng)頁(yè)r ;集合選取單元62,用于根據(jù)預(yù)定規(guī)則生成信息pattern集合P’,并將信息pattern集合P’與正則表達(dá)式集合P求合集獲得集合P1,;內(nèi)容抓取單元63,用于將集合P1與給定信息相關(guān)的網(wǎng)頁(yè)合集W中的所有的網(wǎng)頁(yè)進(jìn)行匹配,獲得集合Ssub’,直到Ssub==Ssub’時(shí)抓取過(guò)程結(jié)束??蛇x的,在集合選取單元62中包括遍歷子單元、回溯子單元、正則集合表述子單元和正則集合生成子單元;其中的遍歷子單元用于遍歷給定信息S的子集Ssub,找到某一元素S,并找到在網(wǎng)頁(yè)w中元素s的位置;回溯子單元用于向前回溯,找到第一個(gè)網(wǎng)頁(yè)標(biāo)簽,記為prefix ;向后回溯,找到第一個(gè)網(wǎng)頁(yè)標(biāo)簽,記為suffix ;正則集合表述子單元用于把prefix和suffix中間的內(nèi)容按照數(shù)字集合NumberSet、字母集合EnglishSet、特殊符號(hào)集合SpecialSet和漢字集合ChineseSet的描述規(guī)則生成元素s在網(wǎng)頁(yè)w上的正則集合;正則集合生成子單元用于根據(jù)元素s在網(wǎng)頁(yè)w上的正則集合生成Ssub在網(wǎng)頁(yè)w上的正則表達(dá)集合,記錄為P,=pl, p2…pn??蛇x的,該裝置還可以包括驗(yàn)證單元,在驗(yàn)證單元中包括取乘子單元、匹配子單元、元素個(gè)數(shù)確定子單元、第一篩選子單元、第二篩選子單元和正則集合確定子單元;其中的取乘子單元用于將每個(gè)網(wǎng)頁(yè)W’與給定信息的子集Ssub相乘,得到正則表達(dá)式合集 Tt=Tl, T2…Tn ;匹配子單元用于遍歷正則表達(dá)式合集Tt,得到一個(gè)正則表達(dá)式合集T1,遍歷正則表達(dá)式合集T1,將任意的正則表達(dá)式p e Tn與網(wǎng)頁(yè)W’進(jìn)行匹配,得到值的集合S ;元素個(gè)數(shù)確定子單元用于如果S-Ssub幸O,舍棄改表達(dá)式;如果S-Ssub=O ,則給定信息的子集Ssub中元素的個(gè)數(shù)Scount等于集合S中的元素個(gè)數(shù);第一篩選子單元用于遍歷正則表達(dá)式合集Tt,對(duì)于任意的Tn G Tt,如果Tn中正則表達(dá)式的個(gè)數(shù)大于1,則選取Tn中Scount最大的正則表達(dá)式,舍去其余的正則表達(dá)式;第二篩選子單元用于遍歷正則表達(dá)式合集Tt,對(duì)比其中任意兩個(gè)Tn,如果正則表達(dá)式相同,則舍棄其中任意一個(gè);正則集合確定子單元用于將剩余的正則表達(dá)式組成集合,記為P’ = 1,?2夂口]1。上述網(wǎng)絡(luò)信息的自動(dòng)提取裝置中包含的各單元的處理功能的具體實(shí)現(xiàn)方式在之前的方法實(shí)施例中已經(jīng)描述,在此不再重復(fù)描述。采用本具體實(shí)施方式
提供的技術(shù)方案,通過(guò)根據(jù)不同的網(wǎng)頁(yè)生成相應(yīng)的正則表達(dá)式集合,實(shí)現(xiàn)自動(dòng)提取網(wǎng)頁(yè)中的內(nèi)容,省去了很多工作量,并且能夠驗(yàn)證正則表達(dá)式的正確性。需要注意的是,上述裝置的實(shí)施例中,所包括的各個(gè)單元只是按照功能邏輯進(jìn)行劃分的,但并不局限于上述的劃分,只要能夠?qū)崿F(xiàn)相應(yīng)的功能即可;另外,各功能單元的具體名稱也只是為了便于相互區(qū)分,并不用于限制本發(fā)明的保護(hù)范圍。以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明實(shí)施例揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種網(wǎng)絡(luò)信息的自動(dòng)提取方法,其特征在于,包括 從給定信息S相關(guān)的網(wǎng)頁(yè)合集W中找到含有給定信息S的子集Ssub中元素的網(wǎng)頁(yè)r ; 根據(jù)預(yù)定規(guī)則生成信息pattern集合P’,并將信息pattern集合P’與正則表達(dá)式集合P求合集獲得集合P1 ; 將集合P1與給定信息相關(guān)的網(wǎng)頁(yè)合集W中的所有的網(wǎng)頁(yè)進(jìn)行匹配,獲得集合Ssub’,直到Ssub==Ssub'時(shí)抓取過(guò)程結(jié)束。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述根據(jù)預(yù)定規(guī)則生成信息pattern集合P’包括 遍歷給定信息S的子集Ssub,找到某一元素S,并找到在網(wǎng)頁(yè)w中元素s的位置; 向前回溯,找到第一個(gè)網(wǎng)頁(yè)標(biāo)簽,記為prefix;向后回溯,找到第一個(gè)網(wǎng)頁(yè)標(biāo)簽,記為suffix ; 把prefix和suffix中間的內(nèi)容按照數(shù)字集合NumberSet、字母集合EnglishSet、特殊符號(hào)集合SpecialSet和漢字集合ChineseSet的描述規(guī)則生成元素s在網(wǎng)頁(yè)w上的正則集合; 根據(jù)元素s在網(wǎng)頁(yè)w上的正則集合生成Ssub在網(wǎng)頁(yè)w上的正則表達(dá)集合,記錄為P,=pl, p2.“ pn。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,該方法還包括驗(yàn)證正則表達(dá)式集合,所述驗(yàn)證正則表達(dá)式集合包括 將每個(gè)網(wǎng)頁(yè)す與給定信息的子集Ssub相乘,得到正則表達(dá)式合集Tt=Tl, T2…Tn ; 遍歷正則表達(dá)式合集Tt,得到一個(gè)正則表達(dá)式合集T1,遍歷正則表達(dá)式合集T1,將任意的正則表達(dá)式P G Tn與網(wǎng)頁(yè)W’進(jìn)行匹配,得到值的集合S; 如果S-Ssubデ①,舍棄改表達(dá)式;如果S-Ssub=①,則給定信息的子集Ssub中元素的個(gè)數(shù)Scount等于集合S中的元素個(gè)數(shù); 遍歷正則表達(dá)式合集Tt,對(duì)于任意的Tn G Tt,如果Tn中正則表達(dá)式的個(gè)數(shù)大于I,則選取Tn中Scount最大的正則表達(dá)式,舍去其余的正則表達(dá)式; 遍歷正則表達(dá)式合集Tt,對(duì)比其中任意兩個(gè)Tn,如果正則表達(dá)式相同,則舍棄其中任意ー個(gè); 將剩余的正則表達(dá)式組成集合,記為P’ = 1,?2丨ロ11。
4.一種網(wǎng)絡(luò)信息的自動(dòng)提取裝置,其特征在于,包括 網(wǎng)頁(yè)選取単元,用于從給定信息S相關(guān)的網(wǎng)頁(yè)合集W中找到含有給定信息S的子集Ssub中元素的網(wǎng)頁(yè)r ; 集合選取單元,用于根據(jù)預(yù)定規(guī)則生成信息pattern集合P’,并將信息pattern集合P’與正則表達(dá)式集合P求合集獲得集合P1 ; 內(nèi)容抓取単元,用于將集合P1與給定信息相關(guān)的網(wǎng)頁(yè)合集W中的所有的網(wǎng)頁(yè)進(jìn)行匹配,獲得集合Ssub’,直到Ssub==Ssub'時(shí)抓取過(guò)程結(jié)束。
5.根據(jù)權(quán)利要求4所述的裝置,其特征在于,在集合選取單元中包括 遍歷子単元,用于遍歷給定信息S的子集Ssub,找到某一元素S,并找到在網(wǎng)頁(yè)w中元素S的位置; 回溯子単元,用于向前回溯,找到第一個(gè)網(wǎng)頁(yè)標(biāo)簽,記為prefix;向后回溯,找到第一個(gè)網(wǎng)頁(yè)標(biāo)簽,記為suffix ; 正則集合表述子單元,用于把prefix和suffix中間的內(nèi)容按照數(shù)字集合NumberSet、字母集合EnglishSet、特殊符號(hào)集合SpecialSet和漢字集合ChineseSet的描述規(guī)則生成元素s在網(wǎng)頁(yè)w上的正則集合; 正則集合生成子單元,用于根據(jù)元素s在網(wǎng)頁(yè)w上的正則集合生成Ssub在網(wǎng)頁(yè)w上的正則表達(dá)集合,記錄為P’ =口142吣?]1。
6.根據(jù)權(quán)利要求4所述的裝置,其特征在于,該裝置還包括驗(yàn)證單元,所述驗(yàn)證單元包括 取乘子單元,用于將每個(gè)網(wǎng)頁(yè)r與給定信息的子集Ssub相乘,得到正則表達(dá)式合集Tt=Tl, T2…Tn ; 匹配子單元,用于遍歷正則表達(dá)式合集Tt,得到一個(gè)正則表達(dá)式合集T1,遍歷正則表達(dá)式合集T1,將任意的正則表達(dá)式P e Tn與網(wǎng)頁(yè)W’進(jìn)行匹配,得到值的集合S ; 元素個(gè)數(shù)確定子單元,用于如果S-Ssub Φ· Φ,舍棄改表達(dá)式;如果S_Ssub=C>,則給定信息的子集Ssub中元素的個(gè)數(shù)Scount等于集合S中的元素個(gè)數(shù); 第一篩選子單元,用于遍歷正則表達(dá)式合集Tt,對(duì)于任意的Tn e Tt,如果Tn中正則表達(dá)式的個(gè)數(shù)大于1,則選取Tn中Scount最大的正則表達(dá)式,舍去其余的正則表達(dá)式; 第二篩選子單元,用于遍歷正則表達(dá)式合集Tt,對(duì)比其中任意兩個(gè)Tn,如果正則表達(dá)式相同,則舍棄其中任意一個(gè); 正則集合確定子單元,用于將剩余的正則表達(dá)式組成集合,記為P’ = 1,?2夂口]1。
全文摘要
本發(fā)明提供了一種網(wǎng)絡(luò)信息的自動(dòng)提取方法及裝置,相應(yīng)的方法包括從給定信息S相關(guān)的網(wǎng)頁(yè)合集W中找到含有給定信息S的子集Ssub中元素的網(wǎng)頁(yè)W’;根據(jù)預(yù)定規(guī)則生成信息pattern集合P’,并將信息pattern集合P’與正則表達(dá)式集合P求合集獲得集合P1;將集合P1與給定信息相關(guān)的網(wǎng)頁(yè)合集W中的所有的網(wǎng)頁(yè)進(jìn)行匹配,獲得集合Ssub’,直到Ssub==Ssub’時(shí)抓取過(guò)程結(jié)束。本發(fā)明通過(guò)根據(jù)不同的網(wǎng)頁(yè)生成相應(yīng)的正則表達(dá)式集合,實(shí)現(xiàn)自動(dòng)提取網(wǎng)頁(yè)中的內(nèi)容,省去了很多工作量。
文檔編號(hào)G06F17/30GK102855324SQ201210335719
公開日2013年1月2日 申請(qǐng)日期2012年9月11日 優(yōu)先權(quán)日2012年9月11日
發(fā)明者楊俊拯, 溫予, 張旸, 黃百寧, 王世平, 葛猛, 孟玲會(huì) 申請(qǐng)人:北京云泓道元信息技術(shù)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1