亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法及裝置與流程

文檔序號:12305583閱讀:467來源:國知局
一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法及裝置與流程

本發(fā)明涉及互聯(lián)網(wǎng)信息技術(shù)領(lǐng)域,尤其是涉及一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法及裝置。



背景技術(shù):

互聯(lián)網(wǎng)(internet)自20世紀(jì)90年代中期商業(yè)化運(yùn)作后,在全球得到迅速發(fā)展。隨著當(dāng)今社會互聯(lián)網(wǎng)的高速發(fā)展,互聯(lián)網(wǎng)已經(jīng)滲透到我們?nèi)粘I畹母鱾€領(lǐng)域?;ヂ?lián)網(wǎng)可以讓我們及時了解時事新聞,獲取各種最新的知識和信息,開闊我們的視野,提高我們平時的娛樂生活。

然而,在我們感受互聯(lián)網(wǎng)的便利時,我們也感受到互聯(lián)網(wǎng)內(nèi)容的紛繁復(fù)雜,互聯(lián)網(wǎng)內(nèi)容不僅涉獵內(nèi)容廣泛,而且更新較快,每時每刻都在不斷變化,具體體現(xiàn)在內(nèi)容的變換、內(nèi)容的增加、內(nèi)容的刪除等。并且,在內(nèi)容日新變換的情況下,互聯(lián)網(wǎng)中難免會有眾多重復(fù)的內(nèi)容。

針對上述情況,在現(xiàn)有的搜索技術(shù)背景下,當(dāng)用戶在網(wǎng)頁的搜索框中輸入搜索關(guān)鍵字后,將出現(xiàn)以下幾種情況:找不到要搜索的內(nèi)容,或者搜索到的內(nèi)容和搜索關(guān)鍵字不相關(guān),或者搜索到多個重復(fù)的內(nèi)容,因而通過現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁內(nèi)容時,往往存在準(zhǔn)確性較差的技術(shù)問題。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明的目的在于提供一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法及裝置,以緩解通過現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁內(nèi)容時,存在的準(zhǔn)確性較差的技術(shù)問題。

第一方面,本發(fā)明實施例提供了一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法,包括:

獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,其中,所述網(wǎng)站信息為當(dāng)前時刻所述目標(biāo)網(wǎng)站的最新網(wǎng)站信息,所述網(wǎng)站信息包括網(wǎng)站內(nèi)容和網(wǎng)站地址;

對用戶輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,其中,所述搜索信息為對所述目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行搜索的信息;

根據(jù)所述關(guān)聯(lián)信息中查找與所述搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向所述用戶推送所述網(wǎng)站內(nèi)容。

結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第一種可能的實施方式,其中,在獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息之前,所述方法還包括:

獲取目標(biāo)爬取時間;

在所述目標(biāo)爬取時間控制爬蟲執(zhí)行當(dāng)前爬取任務(wù),以爬取目標(biāo)網(wǎng)站,得到第一網(wǎng)站信息;

根據(jù)所述第一網(wǎng)站信息中包括的網(wǎng)站內(nèi)容確定預(yù)設(shè)搜索詞,并建立所述預(yù)設(shè)搜索詞和所述第一網(wǎng)站信息之間的關(guān)聯(lián)信息;

將所述關(guān)聯(lián)信息存儲在數(shù)據(jù)服務(wù)器中。

結(jié)合第一方面的第一種可能的實施方式,本發(fā)明實施例提供了第一方面的第二種可能的實施方式,其中,在所述目標(biāo)爬取時間控制爬蟲執(zhí)行當(dāng)前爬取任務(wù),以爬取所述目標(biāo)網(wǎng)站,得到第一網(wǎng)站信息,包括:

在執(zhí)行所述當(dāng)前爬取任務(wù)時,對所述目標(biāo)網(wǎng)站的首頁進(jìn)行爬取,得到所述目標(biāo)網(wǎng)站的首頁內(nèi)容和所述目標(biāo)網(wǎng)站的首頁信息中包含的超鏈接接口;

對所述超鏈接接口進(jìn)行分析,確定所述超鏈接接口是否為目標(biāo)超鏈接接口,其中,所述目標(biāo)超鏈接接口為未被爬取過的接口,且所述目標(biāo)超鏈接接口為正確的超鏈接接口,且所述目標(biāo)超鏈接接口所對應(yīng)的網(wǎng)頁內(nèi)容中包含預(yù)先設(shè)置的網(wǎng)頁內(nèi)容;

在確定出所述目標(biāo)超鏈接接口的情況下,對所述超鏈接接口對應(yīng)的網(wǎng)頁進(jìn)行遍歷,得到所述目標(biāo)超鏈接接口的網(wǎng)站內(nèi)容;

將每個所述目標(biāo)超鏈接接口的網(wǎng)站內(nèi)容和網(wǎng)站地址作為所述第一網(wǎng)站信息。

結(jié)合第一方面的第二種可能的實施方式,本發(fā)明實施例提供了第一方面的第三種可能的實施方式,其中,對所述目標(biāo)網(wǎng)站的首頁進(jìn)行爬取,包括:

判斷對所述目標(biāo)網(wǎng)站是否為首次執(zhí)行爬取任務(wù);

在判斷出否的情況下,對第二網(wǎng)站信息進(jìn)行分析,確定是否能夠通過所述目標(biāo)網(wǎng)站對目標(biāo)網(wǎng)址所指示的網(wǎng)頁進(jìn)行訪問,或所述目標(biāo)網(wǎng)址所指示的網(wǎng)頁中是否存在網(wǎng)頁內(nèi)容,所述第二網(wǎng)站信息為所述爬蟲執(zhí)行第一爬取任務(wù)時爬取到的信息,所述第一爬取任務(wù)為所述當(dāng)前爬取任務(wù)的上一個爬取任務(wù),所述目標(biāo)網(wǎng)址為所述第二網(wǎng)站信息中的任意一個網(wǎng)站地址,

其中,在確定出是的情況下,則對所述目標(biāo)網(wǎng)站的首頁進(jìn)行爬取,以得到所述目標(biāo)網(wǎng)站的首頁內(nèi)容和所述首頁信息中包含的超鏈接接口;

在確定出否的情況下,將與所述目標(biāo)網(wǎng)址相關(guān)聯(lián)的關(guān)聯(lián)信息從所述數(shù)據(jù)服務(wù)器中刪除。

結(jié)合第一方面的第一種可能的實施方式,本發(fā)明實施例還提供了第一方面的第四種可能的實施方式,其中,所述方法還包括:

判斷對所述目標(biāo)網(wǎng)站是否為首次執(zhí)行所述當(dāng)前爬取任務(wù);

在判斷出否的情況下,對第二網(wǎng)站信息進(jìn)行分析,確定是否能夠通過所述目標(biāo)網(wǎng)站對目標(biāo)網(wǎng)址所指示的網(wǎng)頁進(jìn)行訪問,或所述目標(biāo)網(wǎng)址所指示的網(wǎng)頁中是否存在網(wǎng)頁內(nèi)容,所述第二網(wǎng)站信息為所述爬蟲執(zhí)行第一爬取任務(wù)時爬取到的信息,所述第一爬取任務(wù)為所述當(dāng)前爬取任務(wù)的上一個爬取任務(wù),所述目標(biāo)網(wǎng)址為所述第二網(wǎng)站信息中的任意一個網(wǎng)站地址,

其中,在確定出是的情況下,則執(zhí)行對所述目標(biāo)網(wǎng)站的首頁進(jìn)行爬取的步驟;

在確定出否的情況下,將與所述目標(biāo)網(wǎng)址相關(guān)聯(lián)的關(guān)聯(lián)信息從所述數(shù)據(jù)服務(wù)器中刪除。

結(jié)合第一方面的第二種可能的實施方式,本發(fā)明實施例提供了第一方面的第五種可能的實施方式,其中,獲取目標(biāo)爬取時間,包括:

預(yù)先對java的定時器quartz進(jìn)行設(shè)置,以設(shè)置所述爬蟲的爬取時間,其中,java的定時器quartz用于定時觸發(fā)所述爬蟲執(zhí)行爬取任務(wù);

從所述爬取時間中提取目標(biāo)爬取時間。

結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第六種可能的實施方式,其中,對用戶輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,包括:

通過ikanalyzer分詞器,對用戶輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字。

結(jié)合第一方面,本發(fā)明實施例提供了第一方面的第氣種可能的實施方式,其中,根據(jù)所述關(guān)聯(lián)信息查找與所述搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,包括:從所述關(guān)聯(lián)信息的搜索詞中查找所述搜索關(guān)鍵字;根據(jù)所述搜索詞和所述搜索關(guān)鍵字之間的匹配程度,確定與所述搜索詞相關(guān)聯(lián)的所述網(wǎng)站信息;

向所述用戶推送所述網(wǎng)站內(nèi)容包括:根據(jù)所述匹配程度,將所述網(wǎng)站信息中的網(wǎng)站內(nèi)容推送給所述用戶。

第二方面,本發(fā)明實施例還提供一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的裝置,包括:

第一獲取模塊,用于獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,其中,所述網(wǎng)站信息為當(dāng)前時刻所述目標(biāo)網(wǎng)站的最新網(wǎng)站信息,所述網(wǎng)站信息包括網(wǎng)站內(nèi)容和網(wǎng)站地址;

分詞模塊,用于對用戶輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,其中,所述搜索信息為對所述目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行搜索的信息;

推送模塊,用于根據(jù)所述關(guān)聯(lián)信息查找與所述搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向所述用戶推送所述網(wǎng)站內(nèi)容。

第三方面,本發(fā)明實施例還提供一種具有處理器可執(zhí)行的非易失的程序代碼的計算機(jī)可讀介質(zhì),所述程序代碼使所述處理器執(zhí)行第一方面所述的提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法。

本發(fā)明實施例帶來了以下有益效果:獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,其中,網(wǎng)站信息為當(dāng)前時刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,網(wǎng)站信息包括網(wǎng)站內(nèi)容和網(wǎng)站地址;對用戶輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,其中,搜索信息為對目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行搜索的信息;根據(jù)關(guān)聯(lián)信息查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向用戶推送所述網(wǎng)站內(nèi)容。本發(fā)明實施例中,網(wǎng)站信息為當(dāng)前時刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,關(guān)聯(lián)信息也為當(dāng)前時刻的最新的關(guān)聯(lián)信息,關(guān)聯(lián)信息的實時性保證了關(guān)聯(lián)信息的準(zhǔn)確性,從而緩解了通過現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁內(nèi)容時,存在的準(zhǔn)確性較差的技術(shù)問題。

本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。

為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細(xì)說明如下。

附圖說明

為了更清楚地說明本發(fā)明具體實施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對具體實施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施方式,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實施例一提供的一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法流程圖;

圖2為本發(fā)明實施例一提供的對目標(biāo)網(wǎng)站的首頁進(jìn)行爬取的方法流程圖;

圖3為本發(fā)明實施例二提供的一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的裝置示意圖;

圖4為本發(fā)明實施例二提供的另一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的裝置示意圖。

圖標(biāo):100-第一獲取模塊;200-分詞模塊;300-推送模塊;400-第二獲取模塊;500-爬取模塊;600-建立模塊;700-存儲模塊。

具體實施方式

為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。

互聯(lián)網(wǎng)內(nèi)容不僅涉獵內(nèi)容廣泛,而且更新較快,因而,在用戶輸入搜索關(guān)鍵字后,或者找不到要搜索的內(nèi)容,或者搜索的內(nèi)容和搜索關(guān)鍵字不相關(guān),或者搜索到多個重復(fù)的內(nèi)容,與搜索關(guān)鍵字相匹配的網(wǎng)頁內(nèi)容往往存在準(zhǔn)確性較差的技術(shù)問題?;诖?,本發(fā)明實施例提供的一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法及裝置,可以緩解通過現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁內(nèi)容時,存在的準(zhǔn)確性較差的技術(shù)問題。

實施例一

本發(fā)明實施例提供的一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法,如圖1所示,該方法包括如下步驟:

步驟s102,獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,其中,網(wǎng)站信息為當(dāng)前時刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,網(wǎng)站信息包括網(wǎng)站內(nèi)容和網(wǎng)站地址。

具體地,目標(biāo)網(wǎng)站包括單個網(wǎng)站站點(diǎn)或多個網(wǎng)站站點(diǎn)。

此外,由于一些網(wǎng)站的信息都是在實時更新的,上述網(wǎng)站信息為當(dāng)前時刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,因而網(wǎng)站信息為實時的網(wǎng)站信息。

步驟s104,對用戶輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,其中,搜索信息為對目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行搜索的信息。

具體地,用戶輸入的搜索信息多為字符串,通過對字符串進(jìn)行分詞處理,得到搜索關(guān)鍵字。

步驟s106,根據(jù)關(guān)聯(lián)信息查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向用戶推送網(wǎng)站內(nèi)容。

需要說明的是,上述步驟s102至步驟s106所描述的步驟可以通過一個執(zhí)行裝置來實行,該執(zhí)行裝置可設(shè)于公司內(nèi)網(wǎng)和目標(biāo)網(wǎng)站(目標(biāo)網(wǎng)站為公司的外網(wǎng))之間,執(zhí)行裝置通過和外網(wǎng)的通信而獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,并將關(guān)聯(lián)信息進(jìn)行保存。此外,執(zhí)行裝置預(yù)先設(shè)置了對用戶輸入的搜索信息進(jìn)行分詞處理的分詞規(guī)則。在公司內(nèi)網(wǎng)的用戶要對目標(biāo)網(wǎng)站的數(shù)據(jù)進(jìn)行搜索時,執(zhí)行裝置通過和內(nèi)網(wǎng)中的客戶端通信而獲取用戶輸入的搜索信息,并獲取預(yù)先保存的關(guān)聯(lián)信息,然后根據(jù)關(guān)聯(lián)信息查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向用戶推送網(wǎng)站內(nèi)容。

需要強(qiáng)調(diào)的是,網(wǎng)站信息為當(dāng)前時刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,關(guān)聯(lián)信息也為當(dāng)前時刻的最新的關(guān)聯(lián)信息,關(guān)聯(lián)信息的實時性保證了關(guān)聯(lián)信息的準(zhǔn)確性,從而緩解了通過現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁內(nèi)容時,存在的準(zhǔn)確性較差的技術(shù)問題。

關(guān)于執(zhí)行裝置通過和外網(wǎng)的通信而獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,本發(fā)明實施例的一個可選實施方式中給出了詳細(xì)的實施方式,具體包括如下步驟:

在獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息之前,獲取目標(biāo)爬取時間;

在目標(biāo)爬取時間控制爬蟲執(zhí)行當(dāng)前爬取任務(wù),以爬取目標(biāo)網(wǎng)站,得到第一網(wǎng)站信息;

根據(jù)第一網(wǎng)站信息中包括的網(wǎng)站內(nèi)容確定預(yù)設(shè)搜索詞,并建立預(yù)設(shè)搜索詞和第一網(wǎng)站信息之間的關(guān)聯(lián)信息;

將關(guān)聯(lián)信息存儲在數(shù)據(jù)服務(wù)器中。

具體地,還可以將網(wǎng)站站點(diǎn)的地址深度,以及用于判斷地址是否是目標(biāo)網(wǎng)站的地址等實體類網(wǎng)頁信息存儲在數(shù)據(jù)服務(wù)器中,以便在以后的爬取任務(wù)中能更高效地爬取。

需要說明的是,數(shù)據(jù)服務(wù)器中存儲的關(guān)聯(lián)信息包括以下兩種情況:第一種情況是網(wǎng)站內(nèi)容和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,第二種情況是網(wǎng)站地址和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息。對于第一種情況,在用戶輸入搜索信息后,直接從關(guān)聯(lián)信息中查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,并將網(wǎng)站內(nèi)容推送給用戶;對于第二種情況,在用戶輸入搜索信息后,從關(guān)聯(lián)信息中查找與搜索關(guān)鍵字相匹配的網(wǎng)站地址,然后查找網(wǎng)站地址所指示網(wǎng)頁的網(wǎng)站內(nèi)容,并將網(wǎng)站內(nèi)容推送給用戶。

其中,在目標(biāo)爬取時間控制爬蟲執(zhí)行當(dāng)前爬取任務(wù),而目標(biāo)爬取時間的詳細(xì)獲取方法,參見本發(fā)明實施例的另一個可選實施方式,具體地,如下:

預(yù)先對java的定時器quartz進(jìn)行設(shè)置,以設(shè)置爬蟲的爬取時間,其中,java的定時器quartz用于定時觸發(fā)爬蟲執(zhí)行爬取任務(wù);然后從爬取時間中提取目標(biāo)爬取時間。

需要說明的是,java的定時器quartz有觸發(fā)爬蟲執(zhí)行爬取任務(wù)的預(yù)設(shè)時間,而執(zhí)行當(dāng)前爬取任務(wù)的目標(biāo)爬取時間為上述預(yù)設(shè)時間里距離當(dāng)前時刻最近的前一時間。

本發(fā)明實施例的另一個可選實施方式中,在目標(biāo)爬取時間控制爬蟲執(zhí)行當(dāng)前爬取任務(wù),以爬取目標(biāo)網(wǎng)站,得到第一網(wǎng)站信息,包括:

在執(zhí)行當(dāng)前爬取任務(wù)時,對目標(biāo)網(wǎng)站的首頁進(jìn)行爬取,得到目標(biāo)網(wǎng)站的首頁內(nèi)容和目標(biāo)網(wǎng)站的首頁信息中包含的超鏈接接口,例如,href接口、src接口。

對超鏈接接口進(jìn)行分析,確定超鏈接接口是否為目標(biāo)超鏈接接口,其中,目標(biāo)超鏈接接口為未被爬取過的接口,且目標(biāo)超鏈接接口為正確的超鏈接接口,且目標(biāo)超鏈接接口所對應(yīng)的網(wǎng)頁內(nèi)容中包含預(yù)先設(shè)置的網(wǎng)頁內(nèi)容。這里的預(yù)先設(shè)置的網(wǎng)頁內(nèi)容即預(yù)先想要獲得的網(wǎng)頁內(nèi)容,如果是不感興趣的網(wǎng)頁內(nèi)容則網(wǎng)頁的超鏈接接口不為上述目標(biāo)超鏈接接口。

在確定出目標(biāo)超鏈接接口的情況下,對超鏈接接口對應(yīng)的網(wǎng)頁進(jìn)行遍歷,得到目標(biāo)超鏈接接口的網(wǎng)站內(nèi)容;

將每個目標(biāo)超鏈接接口的網(wǎng)站內(nèi)容和網(wǎng)站地址作為第一網(wǎng)站信息。

需要說明的是,本發(fā)明實施例給出了爬蟲對網(wǎng)站首頁進(jìn)行爬取的方式,對于不同深度的網(wǎng)站,爬蟲對更深的網(wǎng)頁進(jìn)行爬取,同樣可以采取上述的爬取方式。

本發(fā)明實施例的另一個可選實施方式中,如圖2所示,對目標(biāo)網(wǎng)站的首頁進(jìn)行爬取,包括如下步驟:

步驟s201,判斷對目標(biāo)網(wǎng)站是否為首次執(zhí)行爬取任務(wù),其中,在判斷出否的情況下執(zhí)行步驟s202,在判斷出是的情況下執(zhí)行步驟s203;

步驟s202,對第二網(wǎng)站信息進(jìn)行分析,確定是否能夠通過目標(biāo)網(wǎng)站對目標(biāo)網(wǎng)址所指示的網(wǎng)頁進(jìn)行訪問(即,目標(biāo)網(wǎng)址的網(wǎng)頁是否存在),或目標(biāo)網(wǎng)址所指示的網(wǎng)頁中是否存在網(wǎng)頁內(nèi)容(即,目標(biāo)網(wǎng)址的網(wǎng)頁信息是否存在),第二網(wǎng)站信息為爬蟲執(zhí)行第一爬取任務(wù)時爬取到的信息,第一爬取任務(wù)為當(dāng)前爬取任務(wù)的上一個爬取任務(wù),目標(biāo)網(wǎng)址為第二網(wǎng)站信息中的任意一個網(wǎng)站地址。其中,在確定出是的情況下執(zhí)行步驟s203,在確定出否的情況下執(zhí)行步驟s204;

步驟s203,對目標(biāo)網(wǎng)站的首頁進(jìn)行爬取,以得到目標(biāo)網(wǎng)站的首頁內(nèi)容和首頁信息中包含的超鏈接接口;

步驟s204,將與目標(biāo)網(wǎng)址相關(guān)聯(lián)的關(guān)聯(lián)信息從數(shù)據(jù)服務(wù)器中刪除,然后返回繼續(xù)執(zhí)行步驟s203。

需要說明的是,本發(fā)明實施例中,目標(biāo)網(wǎng)址為第二網(wǎng)站信息中的任意一個網(wǎng)站地址,第二網(wǎng)站信息為爬蟲執(zhí)行第一爬取任務(wù)時爬取到的信息,通過上述步驟實現(xiàn)了對上一次爬取得到的網(wǎng)站信息進(jìn)行驗證的目的,避免了搜索結(jié)果有出現(xiàn)目標(biāo)網(wǎng)址的信息,但點(diǎn)擊目標(biāo)網(wǎng)址的鏈接后沒有獲取到相關(guān)的網(wǎng)站內(nèi)容的現(xiàn)象,避免了因此而造成的后續(xù)搜索錯誤。

本發(fā)明實施例的另一個可選實施方式中,在將關(guān)聯(lián)信息存儲在數(shù)據(jù)服務(wù)器中之前,提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法還包括:

判斷數(shù)據(jù)服務(wù)器是否為首次存儲關(guān)聯(lián)信息;

在判斷出數(shù)據(jù)服務(wù)器為首次存儲關(guān)聯(lián)信息的情況下,將數(shù)據(jù)服務(wù)器中已存儲的數(shù)據(jù)進(jìn)行清空處理,從而避免了數(shù)據(jù)服務(wù)器中殘留有以前對目標(biāo)網(wǎng)站之外的網(wǎng)站進(jìn)行爬取而得到的關(guān)聯(lián)信息,或者避免數(shù)據(jù)服務(wù)器中殘留一些臟數(shù)據(jù)。

本發(fā)明實施例的另一個可選實施方式中,對用戶輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,包括:

通過ikanalyzer分詞器,對用戶輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字。

具體地,首先通過一個分詞的通用接口來管理分詞的共同方法。其中,對于分詞處理的返回結(jié)果,需要考慮到多種情況,包括:第一種,返回結(jié)果是以鍵值對map集合;第二種,返回結(jié)果是string字符串為標(biāo)識的set集合。

此外,通過ikanalyzer分詞器進(jìn)行分詞,可以添加兩種分詞類型,一種是智能切分,還有一種是細(xì)粒度切分,這樣就可以根據(jù)需要去進(jìn)行不同方式的切分字符串。

此外,可以對ikanalyzer的詞庫進(jìn)行及時的更新,讓分詞能夠達(dá)到更理想的分詞效果。

本發(fā)明實施例采用ikanalyzer分詞器,采用基于文本匹配的方式,不需要投入大量人力進(jìn)行訓(xùn)練和標(biāo)注,可以自定詞典,方便加入domainspecific的詞語,能分出多粒度的結(jié)果。

本發(fā)明實施例的另一個可選實施方式中,根據(jù)關(guān)聯(lián)信息查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,包括:從關(guān)聯(lián)信息的搜索詞中查找搜索關(guān)鍵字;根據(jù)搜索詞和搜索關(guān)鍵字之間的匹配程度,確定與搜索詞相關(guān)聯(lián)的網(wǎng)站信息;

向用戶推送網(wǎng)站內(nèi)容包括:根據(jù)匹配程度,將網(wǎng)站信息中的網(wǎng)站內(nèi)容推送給用戶。

具體地,可以通過搜索服務(wù)器來實施(例如solr,solr是一個獨(dú)立的數(shù)據(jù)服務(wù)器,solr可以根據(jù)用戶輸入的搜索信息,生成索引來快速地搜索到結(jié)果并返回);用戶也可以通過httpget提出包含搜索信息的搜索請求。

在搜索關(guān)鍵字為多詞組的情況下,可以通過or來把搜索關(guān)鍵字連接起來,然后通過client去匹配預(yù)設(shè)搜索詞以得到網(wǎng)站內(nèi)容。其中,將網(wǎng)站信息中的網(wǎng)站內(nèi)容推送給用戶,可以把篩選出的網(wǎng)站內(nèi)容,按照網(wǎng)站內(nèi)容對應(yīng)的預(yù)設(shè)搜索詞含有搜索關(guān)鍵字的數(shù)量個數(shù)排序來進(jìn)行搜索結(jié)果的頁面展示。

實施例二

本發(fā)明實施例提供的一種提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的裝置,如圖3所示,包括:

第一獲取模塊100,用于獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,其中,網(wǎng)站信息為當(dāng)前時刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,網(wǎng)站信息包括網(wǎng)站內(nèi)容和網(wǎng)站地址;

分詞模塊200,用于對用戶輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,其中,搜索信息為對目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行搜索的信息;

推送模塊300,用于根據(jù)關(guān)聯(lián)信息查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向用戶推送網(wǎng)站內(nèi)容。

在本發(fā)明實施例中,第一獲取模塊100獲取目標(biāo)網(wǎng)站的網(wǎng)站信息和預(yù)設(shè)搜索詞之間的關(guān)聯(lián)信息,其中,網(wǎng)站信息為當(dāng)前時刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,網(wǎng)站信息包括網(wǎng)站內(nèi)容和網(wǎng)站地址;分詞模塊200對用戶輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字,其中,搜索信息為對目標(biāo)網(wǎng)站數(shù)據(jù)進(jìn)行搜索的信息;推送模塊300根據(jù)關(guān)聯(lián)信息查找與搜索關(guān)鍵字相匹配的網(wǎng)站內(nèi)容,向用戶推送網(wǎng)站內(nèi)容。本發(fā)明實施例中,網(wǎng)站信息為當(dāng)前時刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,關(guān)聯(lián)信息也為當(dāng)前時刻的最新的關(guān)聯(lián)信息,關(guān)聯(lián)信息的實時性保證了關(guān)聯(lián)信息的準(zhǔn)確性,從而緩解了通過現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁內(nèi)容時,存在的準(zhǔn)確性較差的技術(shù)問題。

本發(fā)明實施例的另一個可選實施方式中,如圖4所示,提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的裝置還包括:

第二獲取模塊400,用于獲取目標(biāo)爬取時間;

爬取模塊500,用于在目標(biāo)爬取時間控制爬蟲執(zhí)行當(dāng)前爬取任務(wù),以爬取目標(biāo)網(wǎng)站,得到第一網(wǎng)站信息;

建立模塊600,用于根據(jù)第一網(wǎng)站信息中包括的網(wǎng)站內(nèi)容確定預(yù)設(shè)搜索詞,并建立預(yù)設(shè)搜索詞和第一網(wǎng)站信息之間的關(guān)聯(lián)信息;

存儲模塊700,用于將關(guān)聯(lián)信息存儲在數(shù)據(jù)服務(wù)器中。

本發(fā)明實施例的另一個可選實施方式中,爬取模塊包括:

爬取單元,用于在執(zhí)行當(dāng)前爬取任務(wù)時,對目標(biāo)網(wǎng)站的首頁進(jìn)行爬取,得到目標(biāo)網(wǎng)站的首頁內(nèi)容和目標(biāo)網(wǎng)站的首頁信息中包含的超鏈接接口;

確定單元,用于對超鏈接接口進(jìn)行分析,確定超鏈接接口是否為目標(biāo)超鏈接接口,其中,目標(biāo)超鏈接接口為未被爬取過的接口,且目標(biāo)超鏈接接口為正確的超鏈接接口,且目標(biāo)超鏈接接口所對應(yīng)的網(wǎng)頁內(nèi)容中包含預(yù)先設(shè)置的網(wǎng)頁內(nèi)容;

遍歷單元,用于在確定出目標(biāo)超鏈接接口的情況下,對超鏈接接口對應(yīng)的網(wǎng)頁進(jìn)行遍歷,得到目標(biāo)超鏈接接口的網(wǎng)站內(nèi)容;

確定單元,用于將每個目標(biāo)超鏈接接口的網(wǎng)站內(nèi)容和網(wǎng)站地址作為第一網(wǎng)站信息。

本發(fā)明實施例的另一個可選實施方式中,爬取單元還用于:

判斷對目標(biāo)網(wǎng)站是否為首次執(zhí)行爬取任務(wù);

在判斷出否的情況下,對第二網(wǎng)站信息進(jìn)行分析,確定是否能夠通過目標(biāo)網(wǎng)站對目標(biāo)網(wǎng)址所指示的網(wǎng)頁進(jìn)行訪問,或目標(biāo)網(wǎng)址所指示的網(wǎng)頁中是否存在網(wǎng)頁內(nèi)容,第二網(wǎng)站信息為爬蟲執(zhí)行第一爬取任務(wù)時爬取到的信息,第一爬取任務(wù)為當(dāng)前爬取任務(wù)的上一個爬取任務(wù),目標(biāo)網(wǎng)址為第二網(wǎng)站信息中的任意一個網(wǎng)站地址,

其中,在確定出是的情況下,則對目標(biāo)網(wǎng)站的首頁進(jìn)行爬取,以得到目標(biāo)網(wǎng)站的首頁內(nèi)容和首頁信息中包含的超鏈接接口;

在確定出否的情況下,將與目標(biāo)網(wǎng)址相關(guān)聯(lián)的關(guān)聯(lián)信息從數(shù)據(jù)服務(wù)器中刪除。

本發(fā)明實施例的另一個可選實施方式中,提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的裝置還包括:

判斷模塊,用于判斷數(shù)據(jù)服務(wù)器是否為首次存儲關(guān)聯(lián)信息;

清空模塊,用于在判斷出數(shù)據(jù)服務(wù)器為首次存儲關(guān)聯(lián)信息的情況下,將數(shù)據(jù)服務(wù)器中已存儲的數(shù)據(jù)進(jìn)行清空處理。

本發(fā)明實施例的另一個可選實施方式中,第二獲取模塊用于:

預(yù)先對java的定時器quartz進(jìn)行設(shè)置,以設(shè)置爬蟲的爬取時間,其中,java的定時器quartz用于定時觸發(fā)爬蟲執(zhí)行爬取任務(wù);

從爬取時間中提取目標(biāo)爬取時間。

本發(fā)明實施例的另一個可選實施方式中,分詞模塊用于:

通過ikanalyzer分詞器,對用戶輸入的搜索信息進(jìn)行分詞處理,得到搜索關(guān)鍵字。

本發(fā)明實施例的另一個可選實施方式中,推送模塊用于:

從關(guān)聯(lián)信息的搜索詞中查找搜索關(guān)鍵字;根據(jù)搜索詞和搜索關(guān)鍵字之間的匹配程度,確定與搜索詞相關(guān)聯(lián)的網(wǎng)站信息;

根據(jù)匹配程度,將網(wǎng)站信息中的網(wǎng)站內(nèi)容推送給用戶。

實施例三

本發(fā)明實施例提供了一種具有處理器可執(zhí)行的非易失的程序代碼的計算機(jī)可讀介質(zhì),程序代碼使處理器執(zhí)行實施例一種的提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法,其中,由于網(wǎng)站信息為當(dāng)前時刻目標(biāo)網(wǎng)站的最新網(wǎng)站信息,關(guān)聯(lián)信息也為當(dāng)前時刻的最新的關(guān)聯(lián)信息,關(guān)聯(lián)信息的實時性保證了關(guān)聯(lián)信息的準(zhǔn)確性,從而緩解了通過現(xiàn)有技術(shù)的搜索方法搜索與搜索關(guān)鍵字相匹配的網(wǎng)頁內(nèi)容時,存在的準(zhǔn)確性較差的技術(shù)問題。

本發(fā)明實施例所提供的提高多站點(diǎn)搜索關(guān)鍵字準(zhǔn)確性的方法及裝置的計算機(jī)程序產(chǎn)品,包括存儲了程序代碼的計算機(jī)可讀存儲介質(zhì),所述程序代碼包括的指令可用于執(zhí)行前面方法實施例中所述的方法,具體實現(xiàn)可參見方法實施例,在此不再贅述。

所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng)和裝置的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。

另外,在本發(fā)明實施例的描述中,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通。對于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。

所述功能如果以軟件功能單元的形式實現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機(jī)存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

在本發(fā)明的描述中,需要說明的是,術(shù)語“中心”、“上”、“下”、“左”、“右”、“豎直”、“水平”、“內(nèi)”、“外”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。

此外,術(shù)語“第一”、“第二”、“第三”僅用于描述目的,而不能理解為指示或暗示相對重要性。

最后應(yīng)說明的是:以上所述實施例,僅為本發(fā)明的具體實施方式,用以說明本發(fā)明的技術(shù)方案,而非對其限制,本發(fā)明的保護(hù)范圍并不局限于此,盡管參照前述實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),其依然可以對前述實施例所記載的技術(shù)方案進(jìn)行修改或可輕易想到變化,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改、變化或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明實施例技術(shù)方案的精神和范圍,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1