亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于網(wǎng)頁抽取的搜索系統(tǒng)及搜索方法

文檔序號:6573899閱讀:297來源:國知局

專利名稱::一種基于網(wǎng)頁抽取的搜索系統(tǒng)及搜索方法
技術(shù)領(lǐng)域
:本發(fā)明涉及信息搜索領(lǐng)域,更具體地說,涉及一種基于網(wǎng)頁抽取的搜索系統(tǒng)及搜索方法。
背景技術(shù)
:隨著搜索引擎技術(shù)的發(fā)展,搜索結(jié)果的準(zhǔn)確率已成為普遍關(guān)注的問題。目前,絕大多數(shù)搜索引擎都能呈現(xiàn)大量的搜索結(jié)果,^f旦往往只有相關(guān)性好、結(jié)果準(zhǔn)確的記錄才:f皮關(guān)注。因此,具有針對性強(qiáng)、信息準(zhǔn)確、更新及時等特點(diǎn)的專項(xiàng)搜索應(yīng)用較廣。在整個搜索引擎中,網(wǎng)頁的下載和分析是搜索結(jié)果的數(shù)l居來源。因此,網(wǎng)頁抽取算法是其關(guān)鍵技術(shù)之一,該算法的復(fù)雜度、可操作性、容錯性和準(zhǔn)確度都是影響搜索結(jié)果的數(shù)量和質(zhì)量的重要因素,甚至?xí)蔀檎麄€搜索引擎的瓶頸。專利申請?zhí)枮?2111893.0、名稱為《基于信息抽取的搜索引擎》的中國公開了一種利用機(jī)器學(xué)習(xí)的方法對含有同類信息且布局基本一致的HTML頁面樣本集進(jìn)行學(xué)習(xí),從而得出對此類HTML頁面進(jìn)行信息抽取的規(guī)則;應(yīng)用這些規(guī)則,結(jié)合一個特定領(lǐng)域的搜索引擎,對網(wǎng)絡(luò)上的相關(guān)信息進(jìn)行大量地獲取,并從半自由的HTML文本中獲取結(jié)構(gòu)化的信息。通過訓(xùn)練和學(xué)習(xí),調(diào)整規(guī)則數(shù)目和抽象程度,使其滿足精度要求,然后基于學(xué)習(xí)提煉后的規(guī)則集對樣本集以外的文本進(jìn)行信息提取。對用搜索引擎獲取的特定內(nèi)容的頁面,利用規(guī)則進(jìn)行信息提取。然而,上述搜索引擎由于使用了機(jī)器學(xué)習(xí)方法,由程序生成頁面的抽取規(guī)則,因此這些規(guī)則容錯性比較差一方面,很多類似結(jié)構(gòu)的頁面無法處理;另一方面,會降低抽取的準(zhǔn)確率。此外,由于機(jī)器學(xué)習(xí)需要大量的測試集來對算法進(jìn)行訓(xùn)練和學(xué)習(xí),其間不斷地調(diào)整和適應(yīng)規(guī)則需要花費(fèi)大量的人力和時間。
發(fā)明內(nèi)容本發(fā)明要解決的技術(shù)問題在于,針對上述搜索引擎抽取準(zhǔn)確率低、可操作性差的問題,提供一種基于網(wǎng)頁抽取的搜索系統(tǒng)及搜索方法。本發(fā)明解決上述技術(shù)問題的技術(shù)方案是,提供一種基于網(wǎng)頁抽取的搜索系統(tǒng),包括用于下載網(wǎng)頁的網(wǎng)頁下載單元以及用于存儲搜索結(jié)果的結(jié)果存儲單元,還包括模板存儲單元,用于存儲一個或多個模板,所述模板用于記錄預(yù)設(shè)的網(wǎng)頁特征;網(wǎng)頁抽取單元,用于將所述網(wǎng)頁下載單元下載的網(wǎng)頁中與所述模板匹配的內(nèi)容作為搜索結(jié)果。在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng)中,所述才莫板存儲單元中的每一模板對應(yīng)一組URL特征項(xiàng),所述網(wǎng)頁抽取單元進(jìn)一步包括模板匹配子單元,用于通過所述網(wǎng)頁的URL匹配模板的URL特征項(xiàng),并丟棄與所有模板都不匹配的網(wǎng)頁。在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng)中,所述模板存儲單元中的每一模板包括一個或多個塊特征,所述塊特征包括HTML標(biāo)簽的順序和/或標(biāo)簽的嵌套,所述網(wǎng)頁抽取單元進(jìn)一步包括塊匹配子單元,用于才艮據(jù)所述網(wǎng)頁中的HTML標(biāo)簽匹配所述模板匹配子單元確定的模板中的塊特征,并丟棄網(wǎng)頁中與所述模板中所有塊特征都不匹配的內(nèi)容。'在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng)中,所述才莫板存儲單元中的每一模板的塊特征中包括一個或多個結(jié)點(diǎn)特征,所述結(jié)點(diǎn)特征包括數(shù)據(jù)類型、過濾規(guī)則和/或抽取規(guī)則,所述網(wǎng)頁抽取單元進(jìn)一步包括結(jié)點(diǎn)匹配子單元,用于根據(jù)網(wǎng)頁中的數(shù)據(jù)類型和內(nèi)容匹配所述塊匹配子單元確定的塊中的結(jié)點(diǎn)特征,并將與所述結(jié)點(diǎn)特征匹配的內(nèi)容作為搜索結(jié)果。在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng)中,還包括才莫板設(shè)置單元,用于將被選擇網(wǎng)頁的URL或者經(jīng)過編輯的URL作為模板的URL特征、將網(wǎng)頁中被選擇部分內(nèi)容的標(biāo)簽作為塊特征及結(jié)點(diǎn)特征生成模板。本發(fā)明還提供一種基于網(wǎng)頁抽取的搜索方法,包括以下步驟(a)從互聯(lián)網(wǎng)獲取網(wǎng)頁;(b)將步驟(a)中獲取的網(wǎng)頁中與預(yù)設(shè)的模板匹配的內(nèi)容作為搜索結(jié)果,所述模板用于記錄預(yù)設(shè)的網(wǎng)頁特征;(c)存儲步驟(b)獲得的搜索結(jié)果。在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索方法中,每一所述模板對應(yīng)一個URL特征項(xiàng),所述步驟(b)進(jìn)一步包括(bl)將所述網(wǎng)頁的URL匹配所述模板的URL特征項(xiàng),并丟棄與所有模板都不匹配的網(wǎng)頁。在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索方法中,每一所述模板包括一個或多個塊特征,所述塊特征包括HTML標(biāo)簽的順序和/或標(biāo)簽的嵌套,所述步驟(b)進(jìn)一步包括(b2)根據(jù)所述網(wǎng)頁中的HTML標(biāo)簽匹配所述步驟(bl)確定的模板中的塊特征,并丟棄網(wǎng)頁中與所述模板中所有塊特征都不匹配的內(nèi)容。在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索方法中,每一所述模板的塊特征中包括一個或多個結(jié)點(diǎn)特征,所述結(jié)點(diǎn)特征包括數(shù)據(jù)類型、過濾規(guī)則和/或抽取規(guī)則,所述步驟(b)進(jìn)一步包括(b3)根據(jù)網(wǎng)頁中的數(shù)據(jù)類型和/或內(nèi)容匹配所述步驟(b2)確定的塊中的結(jié)點(diǎn)特征,并將與所述結(jié)點(diǎn)特征匹配的內(nèi)容作為4臾索結(jié)果。在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索方法中,所述^莫4反中預(yù)設(shè)的網(wǎng)頁特征包括URL特征、塊特征或結(jié)點(diǎn)特征,所述步驟(b)進(jìn)一步包括(bl,)將網(wǎng)頁的URL匹配模板的URL特征項(xiàng),若存在對應(yīng)的URL特征項(xiàng)的模板,則將包含匹配URL特征的模板作為當(dāng)前網(wǎng)頁的模板并執(zhí)行步驟(b2,),否則執(zhí)行步驟(b5,);(b2,)根據(jù)網(wǎng)頁中的HTML標(biāo)簽匹配步驟(bl,)確定的模板中的塊特征,若網(wǎng)頁中存在匹配塊特征的內(nèi)容,則執(zhí)行步驟(b3,),否則執(zhí)行步驟(b5,);(b3,)根據(jù)網(wǎng)頁中的數(shù)據(jù)類型和/或內(nèi)容匹配所述步驟(b2)確定的塊中的結(jié)點(diǎn)特征,若網(wǎng)頁中存在與結(jié)點(diǎn)特征匹配的內(nèi)容,則執(zhí)行步驟(b4,),否則執(zhí)行步驟(b5,);(b4,)將與結(jié)點(diǎn)特征匹配的內(nèi)容作為搜索結(jié)果;(b5,)丟棄當(dāng)前網(wǎng)頁。在本發(fā)明所述的一種基于網(wǎng)頁抽取的搜索方法中,還包括將被選擇網(wǎng)頁的URL或者經(jīng)過編輯的URL作為模板的URL特4正、將網(wǎng)頁中,皮選擇部分內(nèi)容的標(biāo)簽作為塊特征及結(jié)點(diǎn)特征生成模板。本發(fā)明一種基于網(wǎng)頁抽取的搜索系統(tǒng)及搜索方法,通過將下載的網(wǎng)頁與預(yù)設(shè)的網(wǎng)頁特征進(jìn)行匹配,從而獲得更加準(zhǔn)確的搜索結(jié)果。此外,由于本發(fā)明對網(wǎng)頁中的內(nèi)容依次使用塊匹配、節(jié)點(diǎn)匹配,因此對于每一網(wǎng)頁只需進(jìn)行一次遍歷,減少了復(fù)雜度,同時也加快了搜索的速度。下面將結(jié)合附圖及實(shí)施例對本發(fā)明作進(jìn)一步說明,附圖中.圖1是本發(fā)明一種基于網(wǎng)頁抽取的搜索系統(tǒng)實(shí)施例的結(jié)構(gòu)示意圖;圖2是圖1中網(wǎng)頁抽取單元的結(jié)構(gòu)示意圖圖3是本發(fā)明一種基于網(wǎng)頁抽取的搜索方法第一實(shí)施例的流程圖;圖4是本發(fā)明一種基于網(wǎng)頁抽取的搜索方法第二實(shí)施例的流程圖。具體實(shí)施例方式本發(fā)明通過預(yù)設(shè)的模板,能夠準(zhǔn)確地抽取出目標(biāo)內(nèi)容并排除掉無關(guān)信息,提高了信息抽取的準(zhǔn)確率和容錯性,從而提高了搜索結(jié)果的準(zhǔn)確性。HTML頁面不同于普通的文本文件,其包含有明顯的層次信息,這些層次信息可用樹的結(jié)構(gòu)來進(jìn)行描述,即DOM(DocumentObjectModel,文檔對象模型)。由于DOM具有統(tǒng)一的規(guī)范和編程接口,因此本實(shí)施例對HTML建立DOM樹,利用DOM接口可便捷地訪問樹中的任何結(jié)點(diǎn)信息。如圖1所示,是本發(fā)明一種基于網(wǎng)頁抽取的搜索系統(tǒng)實(shí)施例的結(jié)構(gòu)示意圖。在本實(shí)施例中,該搜索系統(tǒng)包括網(wǎng)頁下載單元11、網(wǎng)頁抽取單元12、模板存儲單元13以及結(jié)果存儲單元14。其中網(wǎng)頁下載單元11可以是一個或多個。網(wǎng)頁下載單元11連4I:到互^:網(wǎng)10,用于從互耳關(guān)網(wǎng)下載網(wǎng)頁。該網(wǎng)頁下載單元11與現(xiàn)有的網(wǎng)絡(luò)爬蟲類似,可接收用戶輸入的關(guān)鍵字并從互聯(lián)網(wǎng)獲得與該關(guān)^:字匹配的網(wǎng)頁。模板存儲單元13用于存儲一個或多個模板,該模板用于記錄預(yù)設(shè)的網(wǎng)頁特征。在本實(shí)施例中,模板中預(yù)設(shè)的網(wǎng)頁特征可以是URL特征、塊特征或結(jié)點(diǎn)特征中的一個或多個。由于專項(xiàng)搜索中的網(wǎng)頁具有類似的URL和結(jié)構(gòu)特征,因此可以通過URL識別對網(wǎng)頁進(jìn)行分類。在本實(shí)施例中,每一模板對應(yīng)一個URL特征。該URL特征是一個與URL具有類似結(jié)構(gòu)的字符串,且該字符串中可以包括通配符?和/或*,以表示多個URL不同、但具有相同網(wǎng)頁結(jié)構(gòu)的網(wǎng)頁。通常網(wǎng)頁中包括很多內(nèi)容,例如標(biāo)題、菜單、正文、廣告等,而專項(xiàng)搜索抽取的內(nèi)容往往是正文中的一部分,這部分內(nèi)容可能使用不同的HTML標(biāo)簽(tag)描述,如table、img、a、div等。塊(block)是指網(wǎng)頁正文中的部分內(nèi)容,這些內(nèi)容雖然同屬于網(wǎng)頁正文頁,但可能^f吏用不同的標(biāo)簽進(jìn)行描述。在本實(shí)施例中,塊特征是指網(wǎng)頁中特定順序的標(biāo)簽組和/或按特定順序嵌套的多個標(biāo)簽。每一模板中包括一個或多個塊特征。結(jié)點(diǎn)是指位于網(wǎng)頁同一塊中的具體內(nèi)容,位于DOM樹的結(jié)點(diǎn)位置。在本實(shí)施例中,結(jié)點(diǎn)特征包括位置信息、數(shù)據(jù)類型、過濾規(guī)則以及抽取規(guī)則等。其中位置信息用于描述抽取的結(jié)點(diǎn)在塊中的位置;數(shù)據(jù)類型用于描述抽取內(nèi)容的類型,例如音樂搜索中的歌曲名或歌手名等;過濾規(guī)則用于算法容錯,以排除不符合過濾規(guī)則的內(nèi)容,通常過濾規(guī)則是一組限制最終抽取內(nèi)容的字符串,例如在音樂搜索中,通常制定".wma"、".mp3"這樣的過濾規(guī)則,如果在塊中沒有上述字符串,則直接丟棄該結(jié)點(diǎn);抽取規(guī)則是指提取經(jīng)過過濾后內(nèi)容中的無用信息,例如對于"歌星張學(xué)友"的結(jié)點(diǎn),抽取規(guī)則為"歌星*",表示只抽取"歌星"字符串右邊的內(nèi)容。在本實(shí)施例中,同一塊中可包含多個結(jié)點(diǎn)特征。網(wǎng)頁抽取單元12用于將網(wǎng)頁下載單元11下載的網(wǎng)頁中與存儲單元13中的模板匹配的內(nèi)容作為搜索結(jié)果。例如在音樂搜索中,某歌手某專輯網(wǎng)頁正文包含有以下內(nèi)容歌手名、歌手介紹(包括生日、喜好、個性介紹)、專輯名、專輯介紹、專輯相關(guān)信息、歌曲信息等,而對應(yīng)模板中預(yù)設(shè)的抽取內(nèi)容只包括歌手名、專輯名、歌曲信息三部分,則網(wǎng)頁抽取單元12將網(wǎng)頁匹配模板后只抽取歌手名、專輯名、歌曲信息作為搜索結(jié)果。結(jié)果存儲單元14用于存儲搜索結(jié)果。通常搜索結(jié)果是結(jié)構(gòu)化列表,僅包含搜索系統(tǒng)使用者關(guān)心的內(nèi)容。如圖2所示,圖1中的網(wǎng)頁抽取單元12包括才莫板匹配子單元121、塊匹配子單元122以及結(jié)點(diǎn)匹配子單元123。模板匹配子單元121用于通過網(wǎng)頁的URL匹配模板的URL特征項(xiàng),從而為網(wǎng)頁選擇一個模板,并丟棄與所有模板都不匹配的網(wǎng)頁。塊匹配子單元122用于根據(jù)所述網(wǎng)頁中的HTML標(biāo)簽匹配模板匹配子單元121確定的模板中的塊特征,并丟棄網(wǎng)頁中與所述才莫板中所有塊特征都不匹配的內(nèi)容。結(jié)點(diǎn)匹配子單元123用于才艮據(jù)網(wǎng)頁中的數(shù)據(jù)類型和/或內(nèi)容匹配塊匹配子單元122確定的塊中的結(jié)點(diǎn)特征,并將與結(jié)點(diǎn)特征匹配的內(nèi)容作為搜索結(jié)果。當(dāng)然,在具體應(yīng)用中,可以設(shè)置不同的模板內(nèi)容,而網(wǎng)頁抽取單元12也設(shè)置相應(yīng)的匹配子單元進(jìn)行網(wǎng)頁內(nèi)容的抽取。此外,在上述搜索系統(tǒng)中,還可包括一個模^i殳置單元。該才莫板設(shè)置單元提供有圖形用戶界面,可通過鼠標(biāo)在網(wǎng)頁中選擇的方式生成4莫板。該模板設(shè)置單元將被選4奪網(wǎng)頁的URL或者經(jīng)過編輯的URL作為模板的URL特征,并提取網(wǎng)頁中被選擇部分內(nèi)容的標(biāo)簽作為塊特征及結(jié)點(diǎn)特征,從而生成模板。該模板設(shè)置單元還可對已存模板進(jìn)行修改及測試。如圖3所示,是本發(fā)明一種基于網(wǎng)頁抽取的搜索方法第一實(shí)施例的流程圖,該方法包括以下步驟步驟S31:從互聯(lián)網(wǎng)獲取網(wǎng)頁。步驟S32:將步驟S31中獲取的網(wǎng)頁中與預(yù)設(shè)的模板匹配的內(nèi)容作為搜索結(jié)果,上述模板用于記錄預(yù)設(shè)的網(wǎng)頁特征。在本實(shí)施例中,模板中預(yù)設(shè)的網(wǎng)頁特征可以是url特征、塊特征或結(jié)點(diǎn)特征中的一個或多個。每一模板通過url特征項(xiàng)相區(qū)別。在該步驟中,依次對步驟s31中下載的每一網(wǎng)頁進(jìn)行信息抽取,該信息抽取的過程即為網(wǎng)頁內(nèi)容與模板匹配的過程,網(wǎng)頁中與對應(yīng)模板及沖莫板中特征匹配的內(nèi)容即為搜索結(jié)果。例如在音樂搜索中,某歌手某專輯網(wǎng)頁正文包含有以下內(nèi)容歌手名、歌手介紹(包括生日、喜好、個性介紹)、專輯名、專輯介紹、專輯相關(guān)信息、歌曲信息等,而對應(yīng)模板中預(yù)設(shè)的抽取內(nèi)容只包括歌手名;專輯名、歌曲信息三部分,則將網(wǎng)頁匹配模板后只抽取歌手名、專輯名、歌曲信息作為搜索結(jié)果。步驟s33:存儲步驟s32獲得的搜索結(jié)果。通常搜索結(jié)果是結(jié)構(gòu)化列表,僅包含搜索系統(tǒng)使用者關(guān)心的內(nèi)容如圖4所示,是本發(fā)明一種基于網(wǎng)頁抽取的搜索方法第二實(shí)施例的流程圖,該方法包括以下步驟步驟s41:從互聯(lián)網(wǎng)獲取網(wǎng)頁。該步驟可通過使用網(wǎng)絡(luò)爬蟲或類似工具實(shí)現(xiàn)。步驟s42:將網(wǎng)頁的url匹配模板的url特征項(xiàng),若存在對應(yīng)的Ur!特征項(xiàng)的模板,則將包含匹配url特征項(xiàng)的模板作為當(dāng)前網(wǎng)頁的模板并執(zhí)行步驟s43,否則執(zhí)行步驟s46。步驟s43:根據(jù)網(wǎng)頁中的html標(biāo)簽匹配步驟s42確定的模板中的塊特征,若網(wǎng)頁中存在匹配塊特征的內(nèi)容,則執(zhí)行步驟s44,否則執(zhí)行步驟s46。步驟s44:根據(jù)網(wǎng)頁中的數(shù)據(jù)類型和/或內(nèi)容匹配所述步驟s43確定的塊中的結(jié)點(diǎn)特征,若網(wǎng)頁中存在與結(jié)點(diǎn)特征匹配的內(nèi)容,則執(zhí)行步驟s45,否則執(zhí)行步驟s46。步驟s45:將與結(jié)點(diǎn)特征匹配的內(nèi)容作為搜索結(jié)果,并存儲上述搜索結(jié)果,步驟s46:丟棄當(dāng)前網(wǎng)頁。在上述方法中,還可包括創(chuàng)建模板的步驟將^L選擇網(wǎng)頁的url或者經(jīng)過編輯的url作為模板的url特征、將網(wǎng)頁中被選擇部分內(nèi)容的標(biāo)簽作為塊特征及結(jié)點(diǎn)特征生成模板。上述搜索系統(tǒng)及方法不僅可以應(yīng)用于搜索引擎中,也可應(yīng)用于其它搜索網(wǎng)頁信息的系統(tǒng)或裝置中。以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本
技術(shù)領(lǐng)域
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。權(quán)利要求1、一種基于網(wǎng)頁抽取的搜索系統(tǒng),包括用于下載網(wǎng)頁的網(wǎng)頁下載單元以及用于存儲搜索結(jié)果的結(jié)果存儲單元,其特征在于,還包括模板存儲單元,用于存儲一個或多個模板,所述模板用于記錄預(yù)設(shè)的網(wǎng)頁特征;網(wǎng)頁抽取單元,用于將所述網(wǎng)頁下載單元下載的網(wǎng)頁中與所述模板匹配的內(nèi)容作為搜索結(jié)果。2、根據(jù)權(quán)利要求1所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng),其特征在于,所述模板存儲單元中的每一模板對應(yīng)一組URL特征項(xiàng),所述網(wǎng)頁抽取單元進(jìn)一步包括模板匹配子單元,用于通過所述網(wǎng)頁的URL匹配模板的URL特征項(xiàng),并丟棄與所有才莫;歐都不匹配的網(wǎng)頁。3、根據(jù)權(quán)利要求2所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng),其特征在于,所述模板存儲單元中的每一模板包括一個或多個塊特征,所述塊特征包括HTML標(biāo)簽的順序和/或標(biāo)簽的嵌套,所述網(wǎng)頁抽取單元進(jìn)一步包括塊匹配于單元,用于根據(jù)所述網(wǎng)頁中的HTML標(biāo)簽匹配所述模板匹配子單元確定的模板中的塊特征,并丟棄網(wǎng)頁中與所述模板中所有塊特征都不匹配的內(nèi)容。4、根據(jù)權(quán)利要求3所述的一種基于網(wǎng)頁抽取的搜索系統(tǒng),其特征在于,所述模板存儲單元中的每一模板的塊特征中包括一個或多個結(jié)點(diǎn)特征,所述結(jié)點(diǎn)特征包括數(shù)據(jù)類型、過濾規(guī)則和/或抽取規(guī)則,所述網(wǎng)頁抽取單元進(jìn)一步包括結(jié)點(diǎn)匹配子單元,用于根據(jù)網(wǎng)頁中的數(shù)據(jù)類型和內(nèi)容匹配所述塊匹配子單元確定的塊中的結(jié)點(diǎn)特征,并將與所述結(jié)點(diǎn)特征匹配的內(nèi)容作為搜索結(jié)果。5、根據(jù)權(quán)利要求1-4中任一項(xiàng)所述的一種基于網(wǎng)頁抽耳又的搜索系統(tǒng),其特征在于,還包括模板設(shè)置單元,用于將被選擇網(wǎng)頁的URL或者經(jīng)過編輯的URL作為模板的URL特征、將網(wǎng)頁中被選擇部分內(nèi)容的標(biāo)簽作為塊特征及結(jié)點(diǎn)特征生成一莫板。6、一種基于網(wǎng)頁抽取的搜索方法,其特征在于,包括以下步驟(a)從互聯(lián)網(wǎng)獲取網(wǎng)頁;(b)將步驟(a)中獲取的網(wǎng)頁中與預(yù)設(shè)的?!┓雌ヅ涞膬?nèi)容作為搜索結(jié)果,所述模板用于記錄預(yù)設(shè)的網(wǎng)頁特征;(c)存儲步驟(b)獲得的搜索結(jié)果。7、根據(jù)權(quán)利要求6所述的一種基于網(wǎng)頁抽取的搜索方法,其特征在于,每一所述模板對應(yīng)一個URL特征項(xiàng),所述步驟(b)進(jìn)一步包括(bl)將所述網(wǎng)頁的URL匹配所述模板的URL特征項(xiàng),并丟棄與所有模板都不匹配的網(wǎng)頁。8、根據(jù)權(quán)利要求7所述的一種基于網(wǎng)頁抽取的搜索方法,其特征在于,每一所述模板包括一個或多個塊特征,所述塊特4正包括HTML標(biāo)簽的順序和/或標(biāo)簽的嵌套,所述步驟(b)進(jìn)一步包括(b2)根據(jù)所述網(wǎng)頁中的HTML標(biāo)簽匹配所述步驟(bl)確定的模板中的塊特征,并丟棄網(wǎng)頁中與所述模板中所有塊特征都不匹配的內(nèi)容。9、根據(jù)權(quán)利要求8所述的一種基于網(wǎng)頁抽取的搜索方法,其特征在于,每一所述模板的塊特征中包括一個或多個結(jié)點(diǎn)特征,所述結(jié)點(diǎn)特征包括數(shù)據(jù)類型、過濾規(guī)則和/或抽取規(guī)則,所述步驟(b)進(jìn)一步包括(b3)根據(jù)網(wǎng)頁中的數(shù)據(jù)類型和/或內(nèi)容匹配所述步驟(b2)確定的塊中的結(jié)點(diǎn)特征,并將與所述結(jié)點(diǎn)特征匹配的內(nèi)容作為^_索結(jié)果。10、根據(jù)權(quán)利要求6所述的一種基于網(wǎng)頁抽取的搜索方法,其特征在于,所述模板中預(yù)設(shè)的網(wǎng)頁特征包括URL特征、塊特征或結(jié)點(diǎn)特征,所述步驟(b)進(jìn)一步包括(bl,)將網(wǎng)頁的URL匹配模板的URL特征項(xiàng),若存在對應(yīng)的URL特征項(xiàng)的模板,則將包含匹配URL特征的模板作為當(dāng)前網(wǎng)頁的模板并執(zhí)行步驟(b2,),否則執(zhí)行步驟(b5,);(b2,)根據(jù)網(wǎng)頁中的HTML標(biāo)簽匹配步驟(bl,)確定的模板中的塊特征,若網(wǎng)頁中存在匹配塊特征的內(nèi)容,則執(zhí)行步驟(b3,),否則執(zhí)行步驟(b5,);(b3,)根據(jù)網(wǎng)頁中的數(shù)據(jù)類型和/或內(nèi)容匹配所述步驟(b2)確定的塊中的結(jié)點(diǎn)特征,若網(wǎng)頁中存在與結(jié)點(diǎn)特征匹配的內(nèi)容,則執(zhí)行步驟(b4,),否則執(zhí)行步驟(b5,);(b4,)將與結(jié)點(diǎn)特征匹配的內(nèi)容作為搜索結(jié)果;(b5,)丟棄當(dāng)前網(wǎng)頁。11、根據(jù)權(quán)利要求6-10中任一項(xiàng)所述的一種基于網(wǎng)頁抽取的搜索方法,其特征在于,還包括將被選擇網(wǎng)頁的URL或者經(jīng)過編輯的URL作為模板的URL特征、將網(wǎng)頁中被選擇部分內(nèi)容的標(biāo)簽作為塊特征及結(jié)點(diǎn)特征生成模板。全文摘要本發(fā)明公開了一種基于網(wǎng)頁抽取的搜索系統(tǒng),包括用于下載網(wǎng)頁的網(wǎng)頁下載單元以及存儲搜索結(jié)果的結(jié)果存儲單元,還包括模板存儲單元,用于存儲一個或多個模板,所述模板用于記錄預(yù)設(shè)的網(wǎng)頁特征;網(wǎng)頁抽取單元,用于將所述網(wǎng)頁下載單元下載的網(wǎng)頁中與所述模板匹配的內(nèi)容作為搜索結(jié)果。本發(fā)明還公開了一種對應(yīng)的基于網(wǎng)頁抽取的搜索方法。本發(fā)明通過將下載的網(wǎng)頁與預(yù)設(shè)的網(wǎng)頁特征進(jìn)行匹配,從而獲得更加準(zhǔn)確的搜索結(jié)果。文檔編號G06F17/30GK101192234SQ20071007474公開日2008年6月4日申請日期2007年6月7日優(yōu)先權(quán)日2007年6月7日發(fā)明者杜建強(qiáng),鄧大付申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1