專利名稱:一種基于云計(jì)算技術(shù)的搜索方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)軟件技術(shù)領(lǐng)域,尤其涉及一種基于云計(jì)算技術(shù)的搜索方法及系統(tǒng)。
背景技術(shù):
搜索引擎及對(duì)應(yīng)搜索方法的出現(xiàn),大大提高了人們對(duì)互聯(lián)網(wǎng)信息檢索的能力和效率,已經(jīng)成為互聯(lián)網(wǎng)的基礎(chǔ)應(yīng)用之一。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心在2008年中期的統(tǒng)計(jì),中國(guó)網(wǎng)民搜索引擎的使用率為69.2%,并處在高速增長(zhǎng)之中,而在互聯(lián)網(wǎng)高度普及的美國(guó),網(wǎng)民對(duì)搜索引擎的使用率已達(dá)91%??梢姡暇W(wǎng)用戶對(duì)搜索引擎及搜索方法產(chǎn)生了強(qiáng)烈的依賴。近年來(lái),搜索引擎和搜索方法發(fā)展迅速。例如,美國(guó)專利(US20060106)提出了“用于生成搜索引擎搜索結(jié)果的方法和系統(tǒng)”,提供搜索引擎;將搜索查詢輸入到所述搜索引擎中;使用所述搜索引擎來(lái)對(duì)與所述搜索查詢有關(guān)的聯(lián)機(jī)文件進(jìn)行定位;對(duì)駐留在客戶端計(jì)算機(jī)上的與所述搜索查詢有關(guān)的脫機(jī)文件進(jìn)行定位;將所述聯(lián)機(jī)文件與所述脫機(jī)文件合并以生成單一的搜索結(jié)果概覽;以及在所述搜索引擎的顯示中提供所述單一的搜索結(jié)果概覽。中國(guó)專利(申請(qǐng)?zhí)朇N200910020951)提出了 “基于用戶興趣的個(gè)性化元搜索引擎及搜索結(jié)果處理方法”,其搜索引擎包括用戶注冊(cè)/登錄單元、元搜索結(jié)果收集單元和個(gè)性化處理單元,該個(gè)性化處理單元通過(guò)搜索結(jié)果預(yù)處理模塊、個(gè)性化排序處理模塊和用戶興趣更新模塊,完成對(duì)搜索結(jié)果的篩選、個(gè)性化排序及對(duì)用戶興趣模型的建立和更新。其對(duì)搜索結(jié)果的處理為建立并初始化用戶興趣模型,存入服務(wù)器;將用戶輸入的搜索詞語(yǔ),按各搜索引擎要求的格式分發(fā);將收集的返回結(jié)果轉(zhuǎn)換成統(tǒng)一的格式,依次進(jìn)行去除重復(fù)處理和個(gè)性化排序,并提交給用戶;捕獲用戶點(diǎn)擊的搜索結(jié)果,改變興趣種類和權(quán)值大小,更新用戶興趣模型數(shù)據(jù)。
鑒于上述技術(shù)現(xiàn)狀,本發(fā)明提出了一種基于云計(jì)算技術(shù)的搜索方法及系統(tǒng),用以提高信息的安全性與資源管理便捷性。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于云計(jì)算技術(shù)的搜索方法及系統(tǒng),用以提高信息的安全性與資源管理便捷性。一種基于云計(jì)算技術(shù)的搜索方法,該搜索方法為提供搜索引擎;在搜索引擎中設(shè)定搜索內(nèi)容;通過(guò)搜索引擎建立網(wǎng)頁(yè)地圖,記錄互聯(lián)網(wǎng)的鏈接結(jié)構(gòu);利用網(wǎng)頁(yè)抓取程序,根據(jù)網(wǎng)頁(yè)地圖來(lái)抓取關(guān)聯(lián)網(wǎng)頁(yè),并將被抓取的網(wǎng)頁(yè)存儲(chǔ)到網(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中;利用索引程序?qū)⒕W(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)編號(hào)存儲(chǔ)到網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中,以及剔
4除作弊網(wǎng)頁(yè)。進(jìn)一步,所述的基于云計(jì)算技術(shù)的搜索方法,還具有如下技術(shù)特征運(yùn)用搜索引擎進(jìn)行搜索時(shí),對(duì)搜索關(guān)鍵字的比重進(jìn)行識(shí)別搜索,并對(duì)不同關(guān)鍵字的重要性程度進(jìn)行區(qū)分。運(yùn)用搜索引擎進(jìn)行搜索時(shí),對(duì)分散在不同存儲(chǔ)介質(zhì)上的數(shù)據(jù)信息進(jìn)行搜集整合, 形成搜索云,并由關(guān)聯(lián)軟件自動(dòng)管理。向服務(wù)器版用戶和群組共享用戶提供云搜索接口,群用戶搜索關(guān)鍵詞時(shí)候,其它組內(nèi)用戶的計(jì)算機(jī)在開機(jī)的情況下會(huì)幫助一起搜索,并把結(jié)果異步送回搜索端,形成搜索云。運(yùn)用搜索引擎進(jìn)行搜索時(shí),預(yù)先將不同的關(guān)鍵詞,設(shè)定分布到個(gè)人分片的內(nèi)存區(qū)和計(jì)算機(jī)內(nèi),需要搜索的時(shí)候,調(diào)用各個(gè)片區(qū)的自動(dòng)作業(yè)一起檢索并將關(guān)聯(lián)內(nèi)容存儲(chǔ)。利用蜘蛛程序根據(jù)網(wǎng)頁(yè)地圖來(lái)抓取質(zhì)量好的網(wǎng)頁(yè),對(duì)結(jié)果進(jìn)行分析,從中抽取出標(biāo)題及內(nèi)容信息存儲(chǔ)到網(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中。索引程序?qū)⒕W(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)編號(hào)存儲(chǔ)到網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中,在這個(gè)過(guò)程中利用去掉作弊網(wǎng)頁(yè),同時(shí)根據(jù)配置,程序可以在后臺(tái)自動(dòng)的發(fā)送請(qǐng)求,來(lái)獲取數(shù)據(jù)。一種基于云計(jì)算技術(shù)的搜索系統(tǒng),該系統(tǒng)包括前端發(fā)起支撐模塊,即關(guān)鍵詞管理模塊,它是該搜索系統(tǒng)的前端發(fā)起支撐平臺(tái),它是通過(guò)搜索工具對(duì)用戶提供專業(yè)化服務(wù),給用戶開辟數(shù)據(jù)庫(kù),讓用戶能夠創(chuàng)建自己的搜索關(guān)鍵詞、設(shè)置個(gè)性化關(guān)鍵詞分類,以及設(shè)置群組關(guān)鍵詞的功能模塊;后臺(tái)核心運(yùn)作模塊,它包括自動(dòng)任務(wù)模塊、云搜索模塊以及數(shù)據(jù)存儲(chǔ)模塊,其中的自動(dòng)任務(wù)模塊是參照前述的關(guān)鍵詞關(guān)聯(lián)模塊設(shè)定的關(guān)鍵詞,調(diào)用自動(dòng)搜索程序,把最新的數(shù)據(jù)信息發(fā)送至不同存儲(chǔ)介質(zhì)的功能模塊,其中的云搜索模塊是根據(jù)不同的關(guān)鍵詞設(shè)定, 對(duì)分散在不同存儲(chǔ)介質(zhì)上的數(shù)據(jù)信息進(jìn)行搜集整合,并將搜索結(jié)果同步保存至搜索端、個(gè)人分片的內(nèi)存區(qū)和計(jì)算機(jī)內(nèi)的功能模塊,其中的數(shù)據(jù)存儲(chǔ)模塊是包括有公共大型數(shù)據(jù)庫(kù)、 客戶端個(gè)性化數(shù)據(jù)庫(kù)及共享用戶數(shù)據(jù)庫(kù),以實(shí)現(xiàn)不同用戶的個(gè)性化搜索和操作為目的的功能模塊;展示模塊,它是與前述的前端發(fā)起支撐模塊、后臺(tái)核心運(yùn)作模塊相連接,將來(lái)自于客戶端、服務(wù)器的數(shù)據(jù)庫(kù),結(jié)合現(xiàn)有的群組概念,在服務(wù)器上設(shè)置關(guān)聯(lián)群組,進(jìn)行搜索關(guān)鍵詞和搜索結(jié)果共享的功能模塊。進(jìn)一步,所述的基于云計(jì)算技術(shù)的搜索系統(tǒng),還具有如下技術(shù)特征在該搜索系統(tǒng)中,還包括接口設(shè)計(jì)模塊,它是先設(shè)計(jì)完所有的接口和算法,確定各個(gè)功能模塊間接口的功能模塊。所述的數(shù)據(jù)存儲(chǔ)模塊,包括有分布式數(shù)據(jù)庫(kù)子模塊,它是采用分布式數(shù)據(jù)庫(kù)技術(shù), 對(duì)數(shù)據(jù)進(jìn)行橫向分片處理,以及對(duì)固定個(gè)性化的數(shù)據(jù)進(jìn)行全內(nèi)存化數(shù)據(jù)處理的功能模塊。本發(fā)明的優(yōu)點(diǎn)本發(fā)明所述的基于云計(jì)算技術(shù)的搜索方法及系統(tǒng),主要包括前端發(fā)起支撐模塊、 后臺(tái)核心運(yùn)作模塊、展示模塊,以及接口設(shè)計(jì)模塊,其搜索方法為提供搜索引擎;在搜索引擎中設(shè)定搜索內(nèi)容;通過(guò)搜索引擎建立網(wǎng)頁(yè)地圖,記錄互聯(lián)網(wǎng)的鏈接結(jié)構(gòu);利用網(wǎng)頁(yè)抓取程序,根據(jù)網(wǎng)頁(yè)地圖來(lái)抓取關(guān)聯(lián)網(wǎng)頁(yè),并將被抓取的網(wǎng)頁(yè)存儲(chǔ)到網(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中;利用索引程序?qū)⒕W(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)編號(hào)存儲(chǔ)到網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中,以及剔除作弊網(wǎng)頁(yè)。本技術(shù)和現(xiàn)有方案比較起來(lái),主要的優(yōu)點(diǎn)在于功能覆蓋,系統(tǒng)配置能力強(qiáng),覆蓋范圍,及具有極強(qiáng)的數(shù)據(jù)分析能力,提高了信息的安全性與資源管理便捷性。
下面結(jié)合附圖,對(duì)本發(fā)明所述的基于云計(jì)算技術(shù)的搜索方法及系統(tǒng),作進(jìn)一步詳細(xì)的說(shuō)明圖1是本發(fā)明所述的基于云計(jì)算技術(shù)的搜索方法的流程圖。圖2是本發(fā)明所述的基于云計(jì)算技術(shù)的搜索系統(tǒng)的原理框圖。圖3是本發(fā)明所述的基于云計(jì)算技術(shù)的搜索方法的一個(gè)實(shí)施例。圖中的標(biāo)號(hào)說(shuō)明基于云計(jì)算的搜索系統(tǒng)-100,前端發(fā)起支撐模塊-110,關(guān)鍵詞管理模塊-111,后臺(tái)核心運(yùn)作模塊-120,自動(dòng)任務(wù)模塊-121,云搜索模塊-122,數(shù)據(jù)存儲(chǔ)模塊-123,分布式數(shù)據(jù)庫(kù)子模塊-123a,展示模塊-130,接口設(shè)計(jì)模塊-140。
具體實(shí)施例方式首先參照?qǐng)D1所示的本發(fā)明所述的基于云計(jì)算技術(shù)的搜索方法的流程圖,對(duì)本發(fā)明做一個(gè)介紹。本發(fā)明所述的基于云計(jì)算技術(shù)的搜索方法,包括如下步驟①提供搜索引擎;②在搜索引擎中設(shè)定搜索內(nèi)容;③通過(guò)搜索引擎建立網(wǎng)頁(yè)地圖,記錄互聯(lián)網(wǎng)的鏈接結(jié)構(gòu);④利用網(wǎng)頁(yè)抓取程序,根據(jù)網(wǎng)頁(yè)地圖來(lái)抓取關(guān)聯(lián)網(wǎng)頁(yè),并將被抓取的網(wǎng)頁(yè)存儲(chǔ)到網(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中;⑤利用索引程序?qū)⒕W(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)編號(hào)存儲(chǔ)到網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中,以及剔除作弊網(wǎng)頁(yè)。針對(duì)“②在搜索引擎中設(shè)定搜索內(nèi)容”,作為對(duì)本發(fā)明的一種創(chuàng)新,包括有如下情況中的至少一種其一,運(yùn)用搜索引擎進(jìn)行搜索時(shí),對(duì)搜索關(guān)鍵字的比重進(jìn)行識(shí)別搜索,并對(duì)不同關(guān)鍵字的重要性程度進(jìn)行區(qū)分。例如,用不同字體的大小,粗細(xì)以及字型進(jìn)行區(qū)分。其二,運(yùn)用搜索引擎進(jìn)行搜索時(shí),對(duì)分散在不同存儲(chǔ)介質(zhì)(例如,計(jì)算服務(wù)器、存儲(chǔ)服務(wù)器、寬帶資源等)上的數(shù)據(jù)信息進(jìn)行搜集整合,形成搜索云,并由關(guān)聯(lián)軟件自動(dòng)管理。向服務(wù)器版用戶和群組共享用戶提供云搜索接口,群用戶搜索關(guān)鍵詞時(shí)候,其它組內(nèi)用戶的計(jì)算機(jī)在開機(jī)的情況下會(huì)幫助一起搜索,并把結(jié)果異步送回搜索端,形成搜索云。其三,運(yùn)用搜索引擎進(jìn)行搜索時(shí),預(yù)先將不同的關(guān)鍵詞,設(shè)定分布到個(gè)人分片的內(nèi)存區(qū)和計(jì)算機(jī)內(nèi),需要搜索的時(shí)候,調(diào)用各個(gè)片區(qū)的自動(dòng)作業(yè)一起檢索并將關(guān)聯(lián)內(nèi)容存儲(chǔ)。針對(duì)“④利用網(wǎng)頁(yè)抓取程序,根據(jù)網(wǎng)頁(yè)地圖來(lái)抓取關(guān)聯(lián)網(wǎng)頁(yè),并將被抓取的網(wǎng)頁(yè)存儲(chǔ)到網(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中”,作為舉例而非限定,在本發(fā)明中,主要利用蜘蛛程序來(lái)實(shí)現(xiàn)這一功能。所述的蜘蛛程序是一種搜索引擎的“機(jī)器人”(Computer Robot)程序,它依靠腳本程序自動(dòng)搜索網(wǎng)上的文件,然后對(duì)有關(guān)信息進(jìn)行索引,供使用者以一定的表達(dá)式查詢。利用網(wǎng)絡(luò)蜘蛛(Web Spider)根據(jù)網(wǎng)頁(yè)地圖來(lái)抓取(Crawl)質(zhì)量好的網(wǎng)頁(yè),對(duì)結(jié)果進(jìn)行分析,從中抽取出標(biāo)題及內(nèi)容信息存儲(chǔ)到網(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中。接下來(lái),索引程序andexer)會(huì)將快照數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)編號(hào)存儲(chǔ)到網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中,在這個(gè)過(guò)程中去掉作弊網(wǎng)頁(yè)(Spam),同時(shí)根據(jù)配置,程序可以在后臺(tái)自動(dòng)的發(fā)送請(qǐng)求,來(lái)獲取數(shù)據(jù)。圖2所示為本發(fā)明所述的基于云計(jì)算技術(shù)的搜索系統(tǒng)的原理框圖,該基于云計(jì)算的搜索系統(tǒng)100主要包括前端發(fā)起支撐模塊110、后臺(tái)核心運(yùn)作模塊120、展示模塊130,以及接口設(shè)計(jì)模塊140。所述的前端發(fā)起支撐模塊110,即關(guān)鍵詞管理模塊111,它是該搜索系統(tǒng)的前端發(fā)起支撐平臺(tái),它是通過(guò)搜索工具對(duì)用戶提供專業(yè)化服務(wù),給用戶開辟數(shù)據(jù)庫(kù),讓用戶能夠創(chuàng)建自己的搜索關(guān)鍵詞、設(shè)置個(gè)性化關(guān)鍵詞分類,以及設(shè)置群組關(guān)鍵詞的功能模塊。作為舉例而非限定,所述的搜索工具為google、百度、雅虎等常用搜索工具。所述的后臺(tái)核心運(yùn)作模塊120,是該發(fā)明的核心技術(shù),它包括自動(dòng)任務(wù)模塊121、 云搜索模塊122以及數(shù)據(jù)存儲(chǔ)模塊123。其中的自動(dòng)任務(wù)模塊121是參照前述的關(guān)鍵詞關(guān)聯(lián)模塊111設(shè)定的關(guān)鍵詞,調(diào)用自動(dòng)搜索程序,把最新的數(shù)據(jù)信息發(fā)送至不同存儲(chǔ)介質(zhì)的功能模塊。該自動(dòng)任務(wù)模塊121 主要用于設(shè)定關(guān)鍵詞和自動(dòng)JOB搜索在本發(fā)明中采用多線程技術(shù)和網(wǎng)絡(luò)技術(shù),在安全性上開1588端口,能夠云端調(diào)用自動(dòng)JOB,為自動(dòng)異步多作業(yè)任務(wù)的自動(dòng)搜索功能做準(zhǔn)備,把最新的,未閱讀過(guò)的文章自動(dòng)發(fā)送到計(jì)算服務(wù)器、存儲(chǔ)服務(wù)器、寬帶資源等存儲(chǔ)介質(zhì)上(例如,主頁(yè),郵箱)讓用戶閱讀。其中的云搜索模塊122,是根據(jù)不同的關(guān)鍵詞設(shè)定,對(duì)分散在不同存儲(chǔ)介質(zhì)上的數(shù)據(jù)信息進(jìn)行搜集整合,并將搜索結(jié)果同步保存至搜索端、個(gè)人分片的內(nèi)存區(qū)和計(jì)算機(jī)內(nèi)的功能模塊。本發(fā)明提供了一套算法,根據(jù)不同的關(guān)鍵詞設(shè)定,分布到每個(gè)人分片的內(nèi)存區(qū)和計(jì)算機(jī)內(nèi),需要搜索的時(shí)候,調(diào)用各個(gè)片區(qū)的自動(dòng)作業(yè)一起檢索存儲(chǔ)。同時(shí)運(yùn)用微軟的 WINDOWS Live云搜索接口,將搜索結(jié)果保存到特殊數(shù)據(jù)區(qū)——“搜索云”。基于云計(jì)算的技術(shù),提供算法接口,給服務(wù)器版用戶和群組共享用戶,群用戶搜索關(guān)鍵詞時(shí)候,其它組內(nèi)用戶的計(jì)算機(jī)在開機(jī)的情況下會(huì)幫助一起搜索,把結(jié)果異步送回搜索端。在以后可以的情況下,將會(huì)開放相關(guān)的搜索技術(shù)給云端anternet),互聯(lián)網(wǎng)上的用戶就可以使用相關(guān)的接口。其中的數(shù)據(jù)存儲(chǔ)模塊123,它是包括有公共大型數(shù)據(jù)庫(kù)、客戶端個(gè)性化數(shù)據(jù)庫(kù)及共享用戶數(shù)據(jù)庫(kù),以實(shí)現(xiàn)不同用戶的個(gè)性化搜索和操作為目的的功能模塊。在本發(fā)明中,為了提高搜索速度,和不同用戶能夠做更多的個(gè)性化搜索和操作,搭建了一套專門的數(shù)據(jù)庫(kù) C/S平臺(tái),有1多臺(tái)的SQL大型數(shù)據(jù)庫(kù)系統(tǒng)作為S端的數(shù)據(jù)總成,同時(shí)在每個(gè)客戶端都裝有 SQLITE的個(gè)性化數(shù)據(jù)庫(kù),用戶既可以得到S端的數(shù)據(jù),也可以只拿自己的數(shù)據(jù),最后還可以在群組內(nèi)得到共享用戶數(shù)據(jù)庫(kù)端的部分?jǐn)?shù)據(jù)。作為本發(fā)明的創(chuàng)新之處,所述的數(shù)據(jù)存儲(chǔ)模塊123包括有分布式數(shù)據(jù)庫(kù)子模塊 123a,它是采用分布式數(shù)據(jù)庫(kù)技術(shù),對(duì)數(shù)據(jù)進(jìn)行橫向分片處理,以及對(duì)固定個(gè)性化的數(shù)據(jù)進(jìn)行全內(nèi)存化數(shù)據(jù)處理的功能模塊。在本發(fā)明中,采用目前最穩(wěn)定的分布式數(shù)據(jù)庫(kù)技術(shù),并且適當(dāng)改進(jìn),對(duì)數(shù)據(jù)進(jìn)行橫向分片處理,對(duì)固定個(gè)性化的數(shù)據(jù)進(jìn)行全內(nèi)存化數(shù)據(jù)處理,這樣有選擇性的促優(yōu)去缺的方法,大大提高了數(shù)據(jù)庫(kù)的效率,同時(shí)又不破壞數(shù)據(jù)的穩(wěn)定性和安全性。展示模塊130,它是與前述的前端發(fā)起支撐模塊110、后臺(tái)核心運(yùn)作模塊120相連接,將來(lái)自于客戶端、服務(wù)器的數(shù)據(jù)庫(kù),結(jié)合現(xiàn)有的群組概念,在服務(wù)器上設(shè)置關(guān)聯(lián)群組,進(jìn)行搜索關(guān)鍵詞和搜索結(jié)果共享的功能模塊。在本發(fā)明中,該展示模塊使用了 HTML/XML技術(shù)網(wǎng)頁(yè)界面,支持郵件傳輸功能。目前市場(chǎng)上的搜索技術(shù),都是個(gè)人搜索,而且不能記憶,不能共享。而本發(fā)明中,客戶端有SQLite數(shù)據(jù)庫(kù),服務(wù)器上有SQL數(shù)據(jù)庫(kù),結(jié)合QQ,MSN群組概念,在服務(wù)器上可以按個(gè)人喜好,開辟群組,在群組里面可以開辟共享的搜索關(guān)鍵詞和搜索結(jié)果。對(duì)應(yīng)著前述的前端發(fā)起支撐模塊110、后臺(tái)核心運(yùn)作模塊120、展示模塊130,設(shè)置有接口設(shè)計(jì)模塊140,它是先設(shè)計(jì)完所有的接口和算法,確定各個(gè)功能模塊間接口的功能模塊。具體為確定各個(gè)模塊的接口,先設(shè)計(jì)完所有的接口和算法,經(jīng)過(guò)嚴(yán)格測(cè)試,然后給各個(gè)模塊設(shè)計(jì)UI界面,同時(shí)對(duì)關(guān)鍵詞搜索模塊111做動(dòng)態(tài)可配置的設(shè)計(jì),對(duì)關(guān)鍵詞可以多層樹狀設(shè)計(jì),對(duì)引擎可以配置,頁(yè)面解析方法可以添加算法。自動(dòng)異步任務(wù)JOB,采用單機(jī)多線程,多機(jī)共享多線程任務(wù)。對(duì)數(shù)據(jù)庫(kù)平臺(tái)的數(shù)據(jù)不光分機(jī)器,內(nèi)部還對(duì)數(shù)據(jù)分區(qū),切片。圖3是本發(fā)明所述的基于云計(jì)算技術(shù)的搜索方法的一個(gè)實(shí)施例。某市創(chuàng)業(yè)園區(qū)的管委會(huì)之前一直采用半手工的方式,利用人力和常用的搜索網(wǎng)站每天收集關(guān)于園區(qū)的相關(guān)信息,每日信息收集人員重復(fù)地在搜索引擎中搜索關(guān)注的信息, 以該創(chuàng)業(yè)園區(qū)的部分企業(yè)對(duì)外招聘為例,如圖(a)所示,負(fù)責(zé)人為了獲取該創(chuàng)業(yè)園區(qū)哪些企業(yè)有招聘意向,通常在本創(chuàng)業(yè)園區(qū)的站內(nèi)搜索輸入關(guān)鍵詞和關(guān)鍵詞對(duì)應(yīng)比重“招聘、專業(yè)”,將會(huì)顯示“A公司...自動(dòng)化;B公司...軟件分析;C公司...材料工程”;針對(duì)該園區(qū)的招聘意向,為了給這些招聘的企業(yè)提供關(guān)聯(lián)招聘信息,負(fù)責(zé)人將會(huì)分別在Google和百度搜索引擎中輸入“某市招聘會(huì)、所在區(qū)、專業(yè)領(lǐng)域”,負(fù)責(zé)人必須自己判斷哪些信息相互匹配和適用于該創(chuàng)業(yè)園區(qū)的招聘。幾天之后,如果負(fù)責(zé)人需要再次檢索相關(guān)信息時(shí),必須重復(fù)操作上述步驟,使得搜索效率低下,而搜索結(jié)果無(wú)法自動(dòng)保存到數(shù)據(jù)庫(kù)中。在本發(fā)明中,利用該搜索系統(tǒng)和采用該搜索方法之后,負(fù)責(zé)人只需在相關(guān)搜索工具上設(shè)定搜索關(guān)鍵詞和搜索引擎之后,就會(huì)自動(dòng)進(jìn)行搜索,并給出相應(yīng)搜索結(jié)果。針對(duì)圖 (a)所示的情況,如圖(b)所示,負(fù)責(zé)人通過(guò)搜索關(guān)鍵詞設(shè)定工具,設(shè)定搜索關(guān)鍵詞為“某市創(chuàng)業(yè)園區(qū)招聘(50%)、招聘會(huì)(30%)、專業(yè)(20%)”,通過(guò)搜索引擎設(shè)定工具,設(shè)定搜索引擎為“站內(nèi)搜索(50% ) ,Google (30%)、百度(20% ) ”,進(jìn)一步,為了對(duì)搜索內(nèi)容進(jìn)行匹配分析,還可以通過(guò)個(gè)性化設(shè)定工具,設(shè)定搜索內(nèi)容個(gè)性化匹配“公司專業(yè)招聘會(huì)詳情”。負(fù)責(zé)人將相關(guān)內(nèi)容設(shè)定完畢之后,經(jīng)由本發(fā)明所述的搜索系統(tǒng)進(jìn)行關(guān)聯(lián)處理之后,會(huì)直接顯示如下內(nèi)容A公司自動(dòng)化專業(yè)周五體育館專場(chǎng)招聘會(huì)(Google、百度);B公司軟件分析專業(yè)周五體育館專場(chǎng)招聘會(huì)(Google、百度);C公司材料工程周六各區(qū)人才市場(chǎng)綜合招聘會(huì)(Google、百度)。在本實(shí)施例中負(fù)責(zé)人由原先的被動(dòng)收集轉(zhuǎn)換為信息分析,提高信息的安全性與資源管理便捷性,使信息加工的工作邁上了一個(gè)新的臺(tái)階。以上是對(duì)本發(fā)明的描述而非限定,基于本發(fā)明思想的其它實(shí)施方式,均在本發(fā)明的保護(hù)范圍之中。
權(quán)利要求
1.一種基于云計(jì)算技術(shù)的搜索方法,其特征在于,該搜索方法為提供搜索引擎;在搜索引擎中設(shè)定搜索內(nèi)容;通過(guò)搜索引擎建立網(wǎng)頁(yè)地圖,記錄互聯(lián)網(wǎng)的鏈接結(jié)構(gòu);利用網(wǎng)頁(yè)抓取程序,根據(jù)網(wǎng)頁(yè)地圖來(lái)抓取關(guān)聯(lián)網(wǎng)頁(yè),并將被抓取的網(wǎng)頁(yè)存儲(chǔ)到網(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中;利用索引程序?qū)⒕W(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)編號(hào)存儲(chǔ)到網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中,以及剔除作弊網(wǎng)頁(yè)。
2.根據(jù)權(quán)利要求1所述的基于云計(jì)算技術(shù)的搜索方法,其特征在于運(yùn)用搜索引擎進(jìn)行搜索時(shí),對(duì)搜索關(guān)鍵字的比重進(jìn)行識(shí)別搜索,并對(duì)不同關(guān)鍵字的重要性程度進(jìn)行區(qū)分。
3.根據(jù)權(quán)利要求1所述的基于云計(jì)算技術(shù)的搜索方法,其特征在于運(yùn)用搜索引擎進(jìn)行搜索時(shí),對(duì)分散在不同存儲(chǔ)介質(zhì)上的數(shù)據(jù)信息進(jìn)行搜集整合,形成搜索云,并由關(guān)聯(lián)軟件自動(dòng)管理。
4.根據(jù)權(quán)利要求3所述的基于云計(jì)算技術(shù)的搜索方法,其特征在于向服務(wù)器版用戶和群組共享用戶提供云搜索接口,群用戶搜索關(guān)鍵詞時(shí)候,其它組內(nèi)用戶的計(jì)算機(jī)在開機(jī)的情況下會(huì)幫助一起搜索,并把結(jié)果異步送回搜索端,形成搜索云。
5.根據(jù)權(quán)利要求1所述的基于云計(jì)算技術(shù)的搜索方法,其特征在于運(yùn)用搜索引擎進(jìn)行搜索時(shí),預(yù)先將不同的關(guān)鍵詞,設(shè)定分布到個(gè)人分片的內(nèi)存區(qū)和計(jì)算機(jī)內(nèi),需要搜索的時(shí)候,調(diào)用各個(gè)片區(qū)的自動(dòng)作業(yè)一起檢索并將關(guān)聯(lián)內(nèi)容存儲(chǔ)。
6.根據(jù)權(quán)利要求1所述的基于云計(jì)算技術(shù)的搜索方法,其特征在于利用蜘蛛程序根據(jù)網(wǎng)頁(yè)地圖來(lái)抓取質(zhì)量好的網(wǎng)頁(yè),對(duì)結(jié)果進(jìn)行分析,從中抽取出標(biāo)題及內(nèi)容信息存儲(chǔ)到網(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中。
7.根據(jù)權(quán)利要求1所述的基于云計(jì)算技術(shù)的搜索方法,其特征在于索引程序?qū)⒕W(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)編號(hào)存儲(chǔ)到網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中,在這個(gè)過(guò)程中利用去掉作弊網(wǎng)頁(yè),同時(shí)根據(jù)配置,程序可以在后臺(tái)自動(dòng)的發(fā)送請(qǐng)求,來(lái)獲取數(shù)據(jù)。
8.一種基于云計(jì)算技術(shù)的搜索系統(tǒng),其特征在于,該系統(tǒng)包括前端發(fā)起支撐模塊,即關(guān)鍵詞管理模塊,它是該搜索系統(tǒng)的前端發(fā)起支撐平臺(tái),它是通過(guò)搜索工具對(duì)用戶提供專業(yè)化服務(wù),給用戶開辟數(shù)據(jù)庫(kù),讓用戶能夠創(chuàng)建自己的搜索關(guān)鍵詞、設(shè)置個(gè)性化關(guān)鍵詞分類,以及設(shè)置群組關(guān)鍵詞的功能模塊;后臺(tái)核心運(yùn)作模塊,它包括自動(dòng)任務(wù)模塊、云搜索模塊以及數(shù)據(jù)存儲(chǔ)模塊,所述的自動(dòng)任務(wù)模塊是參照前述的關(guān)鍵詞關(guān)聯(lián)模塊設(shè)定的關(guān)鍵詞,調(diào)用自動(dòng)搜索程序,把最新的數(shù)據(jù)信息發(fā)送至不同存儲(chǔ)介質(zhì)的功能模塊,以及所述的云搜索模塊,是根據(jù)不同的關(guān)鍵詞設(shè)定,對(duì)分散在不同存儲(chǔ)介質(zhì)上的數(shù)據(jù)信息進(jìn)行搜集整合,并將搜索結(jié)果同步保存至搜索端、個(gè)人分片的內(nèi)存區(qū)和計(jì)算機(jī)內(nèi)的功能模塊,以及所述的數(shù)據(jù)存儲(chǔ)模塊,它是包括有公共大型數(shù)據(jù)庫(kù)、客戶端個(gè)性化數(shù)據(jù)庫(kù)及共享用戶數(shù)據(jù)庫(kù),以實(shí)現(xiàn)不同用戶的個(gè)性化搜索和操作為目的的功能模塊;展示模塊,它是與前述的前端發(fā)起支撐模塊、后臺(tái)核心運(yùn)作模塊相連接,將來(lái)自于客戶端、服務(wù)器的數(shù)據(jù)庫(kù),結(jié)合現(xiàn)有的群組概念,在服務(wù)器上設(shè)置關(guān)聯(lián)群組,進(jìn)行搜索關(guān)鍵詞和搜索結(jié)果共享的功能模塊。
9.根據(jù)權(quán)利要求8所述的基于云計(jì)算技術(shù)的搜索系統(tǒng),其特征在于在該搜索系統(tǒng)中, 還包括接口設(shè)計(jì)模塊,它是先設(shè)計(jì)完所有的接口和算法,確定各個(gè)功能模塊間接口的功能模塊。
10.根據(jù)權(quán)利要求8所述的基于云計(jì)算技術(shù)的搜索系統(tǒng),其特征在于所述的數(shù)據(jù)存儲(chǔ)模塊,包括有分布式數(shù)據(jù)庫(kù)子模塊,它是采用分布式數(shù)據(jù)庫(kù)技術(shù),對(duì)數(shù)據(jù)進(jìn)行橫向分片處理,以及對(duì)固定個(gè)性化的數(shù)據(jù)進(jìn)行全內(nèi)存化數(shù)據(jù)處理的功能模塊。
全文摘要
本發(fā)明提出了一種基于云計(jì)算技術(shù)的搜索方法及系統(tǒng),屬于計(jì)算機(jī)軟件技術(shù)領(lǐng)域。該系統(tǒng)主要包括前端發(fā)起支撐模塊、后臺(tái)核心運(yùn)作模塊、展示模塊,以及接口設(shè)計(jì)模塊,其搜索方法為提供搜索引擎;在搜索引擎中設(shè)定搜索內(nèi)容;通過(guò)搜索引擎建立網(wǎng)頁(yè)地圖,記錄互聯(lián)網(wǎng)的鏈接結(jié)構(gòu);利用網(wǎng)頁(yè)抓取程序,根據(jù)網(wǎng)頁(yè)地圖來(lái)抓取關(guān)聯(lián)網(wǎng)頁(yè),并將被抓取的網(wǎng)頁(yè)存儲(chǔ)到網(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中;利用索引程序?qū)⒕W(wǎng)頁(yè)快照數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)編號(hào)存儲(chǔ)到網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中,以及剔除作弊網(wǎng)頁(yè)。本技術(shù)和現(xiàn)有方案比較起來(lái),主要的優(yōu)點(diǎn)在于功能覆蓋,系統(tǒng)配置能力強(qiáng),覆蓋范圍,及具有極強(qiáng)的數(shù)據(jù)分析能力,提高了信息的安全性與資源管理便捷性。
文檔編號(hào)G06F17/30GK102253939SQ201010177260
公開日2011年11月23日 申請(qǐng)日期2010年5月17日 優(yōu)先權(quán)日2010年5月17日
發(fā)明者姚南, 蔣科偉 申請(qǐng)人:無(wú)錫艾斯科軟件有限公司