專利名稱:一種用于更新索引數(shù)據(jù)庫的方法及裝置、搜索方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)搜索技術(shù)領(lǐng)域,具體涉及一種購物搜索中用于更新索引數(shù)據(jù)庫的方法及裝置。本發(fā)明同時(shí)還涉及一種用于提供被搜索物狀態(tài)信息搜索服務(wù)的方法和系統(tǒng)。
背景技術(shù):
購物搜索是指通過購物搜索引擎搜索欲購買的商品的價(jià)格、庫存、規(guī)格、圖片等狀態(tài)信息(以下簡稱商品信息)。購物搜索與一般的網(wǎng)頁搜索相比,具備諸多的優(yōu)點(diǎn)通過購物搜索可以展示各個(gè)購物網(wǎng)站的商品信息,還可以對(duì)不同購物網(wǎng)站的商品進(jìn)行比價(jià),而且也可以對(duì)商品進(jìn)行在線商店評(píng)級(jí)。越來越多人開始使用并依賴購物搜索來搜索并購買需要的商品。
現(xiàn)有的購物搜索引擎的原理如下通過網(wǎng)絡(luò)蜘蛛(spider)爬取各個(gè)購物網(wǎng)站的網(wǎng)頁;解析出網(wǎng)上的商品信息;建立索引數(shù)據(jù)庫,即索引關(guān)鍵詞到商品信息之間映射關(guān)系;搜索時(shí),用戶由客戶端搜索入口輸入關(guān)鍵詞,通過索引數(shù)據(jù)庫中關(guān)鍵詞與商品信息之間的映射關(guān)系,找找相關(guān)的商品信息,并將該信息呈現(xiàn)給用戶,即完成了用戶的搜索。索引數(shù)據(jù)庫中的數(shù)據(jù)需要定期進(jìn)行更新,以便能夠使數(shù)據(jù)庫中商品信息能夠與源網(wǎng)站保持一致。比如,有的購物網(wǎng)站一天更新一次。數(shù)據(jù)庫更新的原理同上,即用網(wǎng)絡(luò)蜘蛛爬取網(wǎng)頁,解析網(wǎng)頁,然后重新建立索引數(shù)據(jù)。在更新時(shí)由于受網(wǎng)絡(luò)帶寬資源或服務(wù)器資源等方面的限制,可能無法將全部數(shù)據(jù)更新,故只能更新部分。因而,更新時(shí)會(huì)有優(yōu)先級(jí)的考量,比如有的搜索引擎將數(shù)據(jù)庫中時(shí)間久未更新的商品信息作為標(biāo)記為高優(yōu)先級(jí),優(yōu)選進(jìn)行更新。各個(gè)購物搜索引擎的更新調(diào)度策略不盡相同,這里僅舉出上面的例子來說明。在現(xiàn)實(shí)情況中,購物網(wǎng)站(或在線商店)的商品信息不斷在變化,其變化的周期往往小于搜索引起更新的周期,而搜索引擎受諸如帶寬資源、購物網(wǎng)站服務(wù)器以及搜索引擎自身索引等方面的限制,只能按照較低的、固定的頻率在固定的時(shí)間(例如一天一次或者更低的頻率)創(chuàng)建索引,更新索引數(shù)據(jù)庫中的信息。這使得創(chuàng)建索引之前得到更新的商品信息能夠反映在索引中,但之后的變化往往無能為力。反映在搜索結(jié)果上就是,商品在陳列系統(tǒng)中展示的時(shí)候,商品信息跟源網(wǎng)站信息會(huì)有不符的問題,比如商品的是否有售狀態(tài)不一致、價(jià)格不一致等等。而為了提高信息的準(zhǔn)確性,只能頻繁的建立索引,然后檢索系統(tǒng)加載索引,這不但浪費(fèi)機(jī)器資源,而且也很耗時(shí),商品的狀態(tài)更新仍會(huì)有大量延遲。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的用于更新索引數(shù)據(jù)庫的方法及相應(yīng)的用于更新索引數(shù)據(jù)庫的裝置。本發(fā)明同時(shí)還提供了一種用于提供被搜索物狀態(tài)信息搜索服務(wù)的方法和系統(tǒng)。依據(jù)本發(fā)明的一個(gè)方面,提供了一種用于更新索引數(shù)據(jù)庫的方法,包括
獲取客戶端搜索被搜索物的操作行為的對(duì)象;根據(jù)所述操作行為的對(duì)象,由源網(wǎng)站獲取與該操作行為的對(duì)象相關(guān)的被搜索物最新的屬性信息;根據(jù)所述被搜索物最新的屬性信息,更新索引數(shù)據(jù)庫中所述被搜索物的狀態(tài)信息。可選的,所述搜索被搜索物的操作行為包括以下行為中的一種或多種接收客戶端在搜索入口輸入的被搜索物關(guān)鍵詞查詢請(qǐng)求,接收點(diǎn)擊的鏈接請(qǐng)求,接收收藏或保存搜索到的被搜索物頁面的請(qǐng)求;所述操作行為的對(duì)象包括以下中的一種或多種在搜索入口中輸入的被搜索物的關(guān)鍵詞、點(diǎn)擊的已搜索出的被搜索物鏈接,收藏或保存搜索到的被搜索物網(wǎng)頁。可選的,所述收藏或保存搜索到的被搜索物網(wǎng)頁包括將網(wǎng)頁網(wǎng)址保存到瀏覽器 的收藏夾或書簽中,或者將網(wǎng)頁保存到本地客戶端。可選的,所述獲取客戶端搜索被搜索物的操作行為的對(duì)象包括通過異步的JavaSrcipt和可擴(kuò)展標(biāo)記語言向服務(wù)器發(fā)送異步消息的方式獲取客戶端搜索被搜索物的操作行為的對(duì)象??蛇x的,所述根據(jù)所述操作行為的對(duì)象,由源網(wǎng)站獲取與該操作行為的對(duì)象相關(guān)的被搜索物最新的屬性信息包括通過網(wǎng)絡(luò)蜘蛛爬取與該對(duì)象對(duì)應(yīng)的網(wǎng)頁或與該對(duì)象相關(guān)的被搜索物的網(wǎng)頁;解析所爬取的網(wǎng)頁,獲得被搜索物最新的屬性信息??蛇x的,解析所爬取的網(wǎng)頁,獲得被搜索物最新的屬性信息包括采用正則表達(dá)式方式,由網(wǎng)頁頁面中提取被搜索物最新的屬性信息??蛇x的,所述通過網(wǎng)絡(luò)蜘蛛爬取與該對(duì)象對(duì)應(yīng)的網(wǎng)頁或與該對(duì)象相關(guān)的被搜索物的網(wǎng)頁包括判斷待爬取的網(wǎng)頁本次爬取與最近一次的爬取的時(shí)間間隔是否滿足設(shè)定的間隔閾值;若滿足,則執(zhí)行本次爬取動(dòng)作;否則,不執(zhí)行本次爬取動(dòng)作。可選的,所述通過網(wǎng)絡(luò)蜘蛛爬取與該對(duì)象對(duì)應(yīng)的網(wǎng)頁或與該對(duì)象相關(guān)的被搜索物的網(wǎng)頁包括按照網(wǎng)頁獲取的時(shí)間先后順序?qū)Υ廊〉木W(wǎng)頁排序,在后獲取的網(wǎng)頁排在在先獲取的網(wǎng)頁的前面;對(duì)排序的網(wǎng)頁順次執(zhí)行爬取動(dòng)作??蛇x的,所述更新索引數(shù)據(jù)庫中所述被搜索物的狀態(tài)信息包括與索引數(shù)據(jù)庫中已有的被搜索物比對(duì),判斷獲取的被搜索物最新的狀態(tài)信息是否不同;若是,更改該被搜索物的狀態(tài)信息記錄;若否,則不更改該被搜索物的狀態(tài)信息記錄??蛇x的,所述更改被搜索物的狀態(tài)信息記錄的方法包括存儲(chǔ)被搜索物的最新狀態(tài)信息;建立關(guān)鍵詞到所述被搜索物的最新狀態(tài)信息的映射。根據(jù)本發(fā)明的另一方面,還提供一種用于提供被搜索物狀態(tài)信息搜索服務(wù)的方法,包括
接收客戶端輸入的被搜索物搜索詞;根據(jù)所述被搜索物搜索詞,在索引數(shù)據(jù)庫中搜索對(duì)應(yīng)的被搜索物的屬性信息,所述索引數(shù)據(jù)庫通過上述中任一項(xiàng)所述的用于更新索引數(shù)據(jù)庫的方法進(jìn)行更新;向客戶端展現(xiàn)關(guān)于所述被搜索物狀態(tài)更新后的搜索結(jié)果。根據(jù)本發(fā)明的另一方面,還提供一種用于更新索引數(shù)據(jù)庫的裝置,包括獲取單元,用于獲取客戶端搜索被搜索物的操作行為的對(duì)象;下載單元,根據(jù)所述操作行為的對(duì)象,由源網(wǎng)站獲取與該操作行為的對(duì)象相關(guān)的被搜索物最新的屬性信息;更新單元,用于根據(jù)所述被搜索物最新的屬性信息,更新索引數(shù)據(jù)庫中所述被搜 索物的狀態(tài)信息。可選的,所述下載單元包括爬取單元,用于通過網(wǎng)絡(luò)蜘蛛爬取與該對(duì)象對(duì)應(yīng)的網(wǎng)頁或與該對(duì)象相關(guān)的被搜索物的網(wǎng)頁;解析單元,用于析所爬取的網(wǎng)頁,獲得被搜索物最新的屬性信息??蛇x的,所述爬取單元包括判斷單元,用于判斷待爬取的網(wǎng)頁本次爬取與最近一次的爬取的時(shí)間間隔是否滿足設(shè)定的間隔閾值;執(zhí)行單元,用于執(zhí)行爬取動(dòng)作??蛇x的,所述爬取單元包括排序單元,用于按照網(wǎng)頁獲取的時(shí)間先后順序?qū)Υ廊〉木W(wǎng)頁排序,在后獲取的網(wǎng)頁排在在先獲取的網(wǎng)頁的前面;調(diào)度單元,用于調(diào)度排序的網(wǎng)頁順次執(zhí)行爬取動(dòng)作??蛇x的,所述更新單元包括比對(duì)單元,用于與索引數(shù)據(jù)庫中已有的被搜索物比對(duì),判斷獲取的被搜索物最新的狀態(tài)信息是否不同;更改單元,用于在所述狀態(tài)信息不同時(shí)更改索引數(shù)據(jù)庫中的狀態(tài)信息記錄。可選的,所述更改單元包括存儲(chǔ)單元,用于存儲(chǔ)被搜索物的最新狀態(tài)信息;映射單元,用于建立關(guān)鍵詞到所述被搜索物的最新狀態(tài)信息的映射。根據(jù)本發(fā)明的另一方面,還提供一種用于提供被搜索物狀態(tài)信息搜索服務(wù)的系統(tǒng),包括客戶端,用于接收客戶端輸入的被搜索物搜索詞以及向客戶端展現(xiàn)關(guān)于被搜索物的搜索結(jié)果;服務(wù)器,用于根據(jù)所述被搜索物搜索詞,在索引數(shù)據(jù)庫中搜索對(duì)應(yīng)的被搜索物的屬性信息,并按照上述中任一項(xiàng)所述的用于更新索引數(shù)據(jù)庫的方法進(jìn)行更新所述索引數(shù)據(jù)庫,向客戶端發(fā)送關(guān)于所述被搜索物的搜索結(jié)果。本發(fā)明的用于更新索引數(shù)據(jù)庫的方法,以客戶端在搜索時(shí)的搜索操作行為為依據(jù),認(rèn)為客戶端搜索時(shí)操作的被搜索物為熱門產(chǎn)品,根據(jù)該操作行為爬取該被搜索物相關(guān)的源網(wǎng)站的網(wǎng)頁,并解析獲取網(wǎng)頁上被搜索物的屬性信息,依據(jù)該屬性信息更新索引數(shù)據(jù)庫中相應(yīng)的被搜索物狀態(tài)信息中;客戶端的每一次操作行為都會(huì)作為觸發(fā)搜索引擎的索引數(shù)據(jù)庫中被搜索物狀態(tài)信息更新的依據(jù),故索引數(shù)據(jù)庫中的被搜索物狀態(tài)信息能夠高頻率的得到更新,由此解決了客戶端在訪問搜索網(wǎng)站時(shí),被搜索物狀態(tài)信息與源網(wǎng)站不一致的問題;此外,本方法中由客戶端操作行為引起的被搜索物狀態(tài)信息更新的數(shù)據(jù)量相比背景技術(shù)中的更新數(shù)據(jù)量大大下降,且本方法中不必在每次更新后再次執(zhí)行索引的步驟,直接更改被搜索物狀態(tài)信息記錄即可,因而不會(huì)不過多占用帶寬資源,不增加及其資源的消耗且耗時(shí)較少。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式
。
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中圖I為本發(fā)明的一種用于更新索引數(shù)據(jù)庫的方法的實(shí)施例的流程圖;圖2為本發(fā)明的一種用于更新索引數(shù)據(jù)庫的裝置的一種實(shí)施例的示意圖;圖3為本發(fā)明的一種用于提供被搜索物狀態(tài)信息搜索服務(wù)的方法的實(shí)施例的流程圖;以及圖4為本發(fā)明的一種用于提供被搜索物狀態(tài)信息搜索服務(wù)的系統(tǒng)的實(shí)施例的示意圖。
具體實(shí)施例方式下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。請(qǐng)參看圖1,其為本發(fā)明的一種用于更新索引數(shù)據(jù)庫的方法的實(shí)施例的流程圖。步驟100,獲取客戶端搜索被搜索物的操作行為的對(duì)象。所述搜索被搜索物的操作行為具體包括以下行為中的一種或多種接收客戶端在搜索入口輸入的被搜索物關(guān)鍵詞查詢請(qǐng)求,接收點(diǎn)擊的鏈接請(qǐng)求,接收收藏或保存搜索到的被搜索物頁面的請(qǐng)求。所述操作行為的對(duì)象包括以下中的一種或多種在搜索入口中輸入的被搜索物的關(guān)鍵詞、點(diǎn)擊的已搜索出的被搜索物鏈接,收藏或保存搜索到的被搜索物網(wǎng)頁。其中,所述收藏或保存搜索到的被搜索物網(wǎng)頁具體包括將網(wǎng)頁網(wǎng)址保存到瀏覽器的收藏夾或書簽中,或者將網(wǎng)頁保存到本地客戶端、拷貝屏幕,或者通過一些筆記軟件記錄被搜索物網(wǎng)頁等行為。需要說明的是,本申請(qǐng)中的“被搜索物”包括有形的產(chǎn)品,還包括無形的服務(wù),例如購物搜索中的商品,服務(wù)產(chǎn)品搜索中的“金融產(chǎn)品”、“保險(xiǎn)產(chǎn)品”、“旅游產(chǎn)品”等等,應(yīng)當(dāng)理解,本實(shí)施例的方法可以應(yīng)用到所有垂直搜索領(lǐng)域中。在本實(shí)施例的描述中,具體以被搜索物為購物搜索中的商品為例來進(jìn)行說明。但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)意識(shí)到本實(shí)施例的方法可應(yīng)用于垂直搜索領(lǐng)域中任何被搜索信息與源網(wǎng)站不一致的情形。具體而言,以購物搜索為例,購物搜索時(shí),一種典型的模式如下在客戶端輸入商品的名稱、型號(hào)等待搜索信息信息。由客戶端瀏覽器向Web (WORLDWIDE WEB)服務(wù)器發(fā)送搜索請(qǐng)求。Web服務(wù)器將該請(qǐng)求提交給嵌入到服務(wù)器中的PHP (Hypertext Preprocessor,超文本預(yù)處理語言)引擎。由該P(yáng)HP引擎處理請(qǐng)求,并查詢存儲(chǔ)于服務(wù)器上數(shù)據(jù)庫,獲取滿足要求的商品及其屬性信息,生成頁面。然后服務(wù)器將完成的頁面回傳給瀏覽器,最終通過瀏覽器展現(xiàn)給客戶端用戶。用戶可以對(duì)感興趣的商品進(jìn)行進(jìn)一步操作,例如,點(diǎn)擊回傳頁面上某商品的鏈接,此時(shí),客戶端執(zhí)行同樣的操作,將該點(diǎn)擊請(qǐng)求上傳,服務(wù)器回傳,并下發(fā)該鏈接的具體內(nèi)容。此外,用戶還可以保存、收藏該頁面,以備后續(xù)進(jìn)一步操作或者查詢。可見,所述搜索商品的操作行為即為上述的客戶端為獲取搜索結(jié)果而執(zhí)行的任何 與獲取該搜索結(jié)果有關(guān)的操作。本實(shí)施例中僅僅列舉其中的幾種搜索商品的操作行為,但并非是窮舉。不難理解,所述搜索商品的操作行為的對(duì)象即指該操作行為具體指向的內(nèi)容。本實(shí)施例的本步驟中,所述獲取客戶端搜索商品的操作行為的對(duì)象包括,通過異步數(shù)據(jù)傳輸?shù)姆椒ǐ@取客戶端搜索商品的操作行為的對(duì)象。具體而言,在客戶端Web搜索商品時(shí),通過Ajax (Asynchronous JavaScript and XML)向服務(wù)器發(fā)送客戶端搜索商品的操作行為。其中,Ajax為異步的JavaSrcipt和可擴(kuò)展標(biāo)記語言(Extensible MarkupLanguage, XML),其原理簡單來說,實(shí)際上就是通過XmlHttpRequest對(duì)象來向服務(wù)器發(fā)異步請(qǐng)求,從服務(wù)器獲得數(shù)據(jù),然后用javascript來操作DOM(Document Object Model,文檔對(duì)象模型)而更新頁面。本實(shí)施例中具體用到了 Ajax向服務(wù)器發(fā)送異步請(qǐng)求的技術(shù)。步驟110,根據(jù)所述操作行為的對(duì)象,由源網(wǎng)站獲取與該操作行為的對(duì)象相關(guān)的被搜索物最新的屬性信息。如上所述,若所述操作行為是輸入商品關(guān)鍵詞的查詢請(qǐng)求,其對(duì)象即為所輸入的商品關(guān)鍵詞;若所述操作行為點(diǎn)擊搜索到的某商品的統(tǒng)一資源定位符(Uniform ResoureLocator,url),則其對(duì)象即為該url ;...在獲取的所述操作行為的對(duì)象包含的商品的基礎(chǔ)上,到源網(wǎng)站(即源購物網(wǎng)站)獲取所述的商品的最新的屬性信息。其中,所述根據(jù)所述操作行為的對(duì)象,由源網(wǎng)站獲取與該操作行為的對(duì)象相關(guān)的商品最新的屬性信息包括a,通過網(wǎng)絡(luò)蜘蛛(Web Spider,也稱為搜索引擎蜘蛛)爬取與該對(duì)象對(duì)應(yīng)的網(wǎng)頁或與該對(duì)象相關(guān)的商品的網(wǎng)頁;b,解析所爬取的網(wǎng)頁,獲得商品最新的屬性信息。具體而言,由客戶端提交的請(qǐng)求為輸入商品的關(guān)鍵詞的查詢請(qǐng)求,則在檢索數(shù)據(jù)庫中查詢所有與該商品關(guān)鍵詞相關(guān)的數(shù)據(jù),獲得其保存在數(shù)據(jù)庫中的url,將該url提交給網(wǎng)絡(luò)蜘蛛,由網(wǎng)絡(luò)蜘蛛爬取該url對(duì)應(yīng)的網(wǎng)頁,該網(wǎng)頁上即保存有該商品最新的屬性信息,包括商品的最新價(jià)格、是否有售的狀態(tài)、商品的規(guī)格以及圖片等狀態(tài)信息。通過網(wǎng)頁解析獲取商品的最新的屬性信息。若由客戶端提交的請(qǐng)求為點(diǎn)擊某商品的url的請(qǐng)求行為,則網(wǎng)絡(luò)蜘蛛可根據(jù)該url,爬取其相應(yīng)的網(wǎng)頁。所述網(wǎng)絡(luò)蜘蛛通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,并從網(wǎng)站某一個(gè)頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁,這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁都抓取完為止。目前,各大搜索網(wǎng)站都有自己的網(wǎng)絡(luò)蜘蛛程序,通過不同的爬取策略實(shí)現(xiàn)網(wǎng)頁的抓取。本實(shí)施例中所稱的網(wǎng)絡(luò)蜘蛛并不局限于某一具體的網(wǎng)絡(luò)蜘蛛程序,應(yīng)當(dāng)理解,任何的網(wǎng)絡(luò)蜘蛛程序都能夠應(yīng)用到本實(shí)施例中,以實(shí)現(xiàn)本發(fā)明的目的。所述的網(wǎng)頁解析是指去除網(wǎng)頁中的格式標(biāo)簽,提取正文內(nèi)容或目標(biāo)內(nèi)容。由于網(wǎng)頁結(jié)構(gòu)復(fù)雜且多變,目前已經(jīng)發(fā)展了多種網(wǎng)頁解析技術(shù)。例如基于字符串匹配的正則表達(dá)式方式的網(wǎng)頁內(nèi)容和標(biāo)記提取技術(shù),基于文件對(duì)象模型(Document Object Model,簡稱DOM)樹形結(jié)構(gòu)的路徑抽象表達(dá)式提取Web頁面信息的方法,基于模板的網(wǎng)頁信息解析技術(shù)等等。本實(shí)施例中,并不限制使用哪一種網(wǎng)頁解析技術(shù)。應(yīng)當(dāng)理解,任何能夠?qū)崿F(xiàn)抽取網(wǎng)頁商品屬性信息的網(wǎng)頁解析技術(shù)均可應(yīng)用于本實(shí)施例中。由于在同一時(shí)刻或較短的時(shí)間段內(nèi),客戶端可能有多次的搜索商品的操作行為,若對(duì)每一次的操作行為均響應(yīng),并執(zhí)行商品屬性信息的爬取動(dòng)作;勢(shì)必會(huì)造成服務(wù)器資源 以及帶寬資源浪費(fèi);另一方面,源網(wǎng)站的商品屬性信息在一段時(shí)間內(nèi)可能并未更新,使得多次爬取獲得的商品屬性信息均相同,也就是出第一次爬取之外的其它連續(xù)多次爬取都在做無用功。因而需要考量對(duì)于某一 url,本次爬取與上次爬取的時(shí)間間隔的問題。例如,可以設(shè)定一時(shí)間間隔閾值,判斷本次待爬取的網(wǎng)頁與最近一次已執(zhí)行的爬取的時(shí)間間隔是否滿足該閾值,若滿足,則本次執(zhí)行爬取動(dòng)作,爬取并解析該網(wǎng)頁;否則,則不執(zhí)行本次爬取動(dòng)作。所述的間隔閾值可以根據(jù)實(shí)際情況而設(shè)定,對(duì)于不同的源網(wǎng)站可以分別設(shè)定不同的間隔閾值,也可以所有源網(wǎng)站設(shè)定統(tǒng)一的間隔閾值,還可以某些網(wǎng)站設(shè)定同樣的間隔閾值。此夕卜,所述間隔閾值也可以根據(jù)購物源網(wǎng)站的商品信息刷新頻率而調(diào)整。此外,如上所述,在同一時(shí)刻或較短的時(shí)間段內(nèi),客戶端可能有多次的搜索商品的操作行為,對(duì)于滿足爬取時(shí)間間隔的待爬取網(wǎng)頁,網(wǎng)絡(luò)蜘蛛需要按照一定的先后順序順次執(zhí)行爬取動(dòng)作。本實(shí)施例中,具體的設(shè)定方式之一是按照網(wǎng)頁獲取的時(shí)間先后順序?qū)Υ廊〉木W(wǎng)頁排序,在后獲取的網(wǎng)頁排在在先獲取的網(wǎng)頁的前面,接著對(duì)排序的網(wǎng)頁順次執(zhí)行爬取動(dòng)作。即按照在先獲取在后執(zhí)行爬取的方式順次執(zhí)行對(duì)多個(gè)網(wǎng)頁的爬取動(dòng)作。當(dāng)然,爬行順序的執(zhí)行方式并非一定要按照本實(shí)施例所述的方式實(shí)施,其還可以有其它方式,例如在先獲取在先執(zhí)行,這里不再贅述。步驟120,根據(jù)所述被搜索物最新的屬性信息,更新索引數(shù)據(jù)庫中所述被搜索物的狀態(tài)信息。以被搜索物為商品為例,所述根據(jù)所述商品最新的屬性信息,更新索引數(shù)據(jù)庫中所述商品的商品信息包括:A,與索引數(shù)據(jù)庫中已有的商品比對(duì),判斷獲取的商品最新的商品f目息是否不同;B,若是,更改該商品的商品/[目息記錄;否則,不更改該商品的彳目息記錄。其中,所述的商品信息包括商品的名稱、價(jià)格、庫存、照片、規(guī)格等信息。所述商品信息不同包括商品信息的任何一項(xiàng)或數(shù)項(xiàng)的不同或者所有信息均不同。所述的更改被搜索物的狀態(tài)信息記錄的方法包括單獨(dú)存儲(chǔ)被搜索物的最新狀態(tài)信息,而非將其放入原索引數(shù)據(jù)中,接著建立關(guān)鍵詞到所述被搜索物的最新狀態(tài)信息的映射,例如hashmap。這樣可以提高更新效率。當(dāng)然也可以指直接更改索引數(shù)據(jù)庫中的信息記錄。此外,根據(jù)所述商品最新的屬性信息,更新索引數(shù)據(jù)庫中所述商品的商品信息還可以以如下方式實(shí)現(xiàn),無需對(duì)比判斷獲取的商品最新的商品信息與數(shù)據(jù)庫中的是否相同,直接將最新獲取的商品信息更新至索引數(shù)據(jù)庫。此外,若通過解析獲取的商品及其屬性信息在所述索引數(shù)據(jù)庫中沒有相應(yīng)的記錄,則索引數(shù)據(jù)庫中添加該商品的信息記錄,并建立對(duì)應(yīng)于該信息記錄的索引。通過上述的方法,可實(shí)現(xiàn)索引數(shù)據(jù)庫的更新,在更新完畢后再次在客戶端搜索該商品,則可以顯不出該商品最新的彳目息。本實(shí)施例中的用于更新索引數(shù)據(jù)庫的方法,以客戶端在搜索時(shí)的搜索操作行為為依據(jù),認(rèn)為客戶端搜索時(shí)操作的商品為熱門商品,根據(jù)該操作行為爬取該商品相關(guān)的源網(wǎng)站的網(wǎng)頁,并解析獲取網(wǎng)頁上商品的屬性信息,依據(jù)該屬性信息更新索引數(shù)據(jù)庫中相應(yīng)的商品信息中;客戶端的每一次操作行為都會(huì)作為觸發(fā)搜索引擎的索引數(shù)據(jù)庫中商品信息更新的依據(jù),故索引數(shù)據(jù)庫中的商品信息能夠高頻率的得到更新,由此解決了客戶端在訪問購物搜索網(wǎng)站時(shí),商品價(jià)格與庫存等商品信息與源網(wǎng)站不一致的問題;此外,本方法中由客戶端操作行為引起的商品信息更新的數(shù)據(jù)量相比背景技術(shù)中的更新數(shù)據(jù)量大大下降,且本 方法中不必在每次更新后再次執(zhí)行索引的步驟,直接更改商品信息記錄即可,因而不會(huì)不過多占用帶寬資源,不增加及其資源的消耗且耗時(shí)較少。以上公開了本發(fā)明的一種用于更新索引數(shù)據(jù)庫的方法的實(shí)施例,與此相應(yīng)的,本發(fā)明還公開了一種用于更新索引數(shù)據(jù)庫的裝置。請(qǐng)參考圖2,其為本發(fā)明的一種用于更新索引數(shù)據(jù)庫的裝置的一種實(shí)施例的示意圖。由于該裝置的實(shí)施例與前述的方法的實(shí)施例基本相同,下面僅簡單描述本實(shí)施例中的裝置。本實(shí)施例的一種用于更新索引數(shù)據(jù)庫的裝置,包括獲取單元102,用于獲取客戶端搜索被搜索物的操作行為的對(duì)象;下載單元104,根據(jù)所述操作行為的對(duì)象,由源網(wǎng)站獲取與該操作行為的對(duì)象相關(guān)的被搜索物最新的屬性信息;更新單元106,用于根據(jù)所述被搜索物最新的屬性信息,更新索引數(shù)據(jù)庫中所述被搜索物的狀態(tài)信息??蛇x的,所述下載單元包括爬取單元,用于通過網(wǎng)絡(luò)蜘蛛爬取與該對(duì)象對(duì)應(yīng)的網(wǎng)頁或與該對(duì)象相關(guān)的被搜索物的網(wǎng)頁。解析單元,用于析所爬取的網(wǎng)頁,獲得被搜索物最新的屬性信息??蛇x的,所述爬取單元包括判斷單元,用于判斷待爬取的網(wǎng)頁本次爬取與最近一次的爬取的時(shí)間間隔是否滿足設(shè)定的間隔閾值;執(zhí)行單元,用于執(zhí)行爬取動(dòng)作??蛇x的,所述爬取單元包括排序單元,用于按照網(wǎng)頁獲取的時(shí)間先后順序?qū)Υ廊〉木W(wǎng)頁排序,在后獲取的網(wǎng)頁排在在先獲取的網(wǎng)頁的前面;調(diào)度單元,用于調(diào)度排序的網(wǎng)頁順次執(zhí)行爬取動(dòng)作。可選的,所述更新單元包括比對(duì)單元,用于與索引數(shù)據(jù)庫中已有的被搜索物比對(duì),判斷獲取的被搜索物最新的狀態(tài)信息是否不同;更改單元,用于在所述狀態(tài)信息不同時(shí)更改索引數(shù)據(jù)庫中的狀態(tài)信息記錄。可選的,所述更改單元包括存儲(chǔ)單元,用于存儲(chǔ)被搜索物的最新狀態(tài)信息;映射單元,用于建立關(guān)鍵詞到所述被搜索物的最新狀態(tài)信息的映射。此外,本發(fā)明還提供一種用于提供被搜索物狀態(tài)信息搜索服務(wù)的方法。圖3為本發(fā)明的一種用于提供被搜索物狀態(tài)信息搜索服務(wù)的方法的實(shí)施例的流程圖。請(qǐng)參看圖3,步驟200,接收客戶端輸入的被搜索物搜索詞。即在客戶端Web入口輸入待搜索被搜索物的關(guān)鍵詞。步驟210,根據(jù)所述被搜索物搜索詞,在索引數(shù)據(jù)庫中搜索對(duì)應(yīng)的被搜索物的屬性信息,所述索引數(shù)據(jù)庫通過上述更新索引數(shù)據(jù)庫的方法進(jìn)行更新。具體的,在客戶端輸入被搜索物的名稱、型號(hào)等待搜索信息信息。由客戶端瀏覽器向Web (WORLD WIDE WEB)服務(wù)器發(fā)送搜索請(qǐng)求。Web服務(wù)器將該請(qǐng)求提交給嵌入到服務(wù)器中的PHP (Hypertext Preprocessor,超文本預(yù)處理語言)引擎。由該P(yáng)HP引擎處理請(qǐng)求,并查詢存儲(chǔ)于服務(wù)器上數(shù)據(jù)庫,獲取滿足要求的被搜索物及其屬性信息,生成頁面。然后服務(wù)器將完成的頁面回傳給瀏覽器,最終通過瀏覽器展現(xiàn)給客戶端用戶。其中,與現(xiàn)有的技術(shù)所不同的是,服務(wù)器回傳至客戶端的狀態(tài)信息是通過本發(fā)明上述實(shí)施例所更新之后的數(shù)據(jù)庫的被搜索物狀態(tài)信息。也就是說,在服務(wù)器接收用戶的查詢請(qǐng)求之后,首先通過本發(fā)明的上述實(shí)施例所記載的方法更新索引數(shù)據(jù)庫,使得索引數(shù)據(jù)中的被搜索物信息記錄為最新的,然后將該最新的被搜索物狀態(tài)信息記錄生成頁面回傳至客戶端。這里不再對(duì)如何更新被搜索物索引數(shù)據(jù)庫做重復(fù)的描述,詳細(xì)的過程可參看上述的更新索引數(shù)據(jù)庫的實(shí)施例的 描述。步驟220,向客戶端展現(xiàn)關(guān)于所述被搜索物更新后的搜索結(jié)果。此外,本發(fā)明還公開了一種用于提供被搜索物狀態(tài)信息搜索服務(wù)的系統(tǒng),請(qǐng)參考圖4,其為本發(fā)明的一種用于提供被搜索物狀態(tài)信息搜索服務(wù)的系統(tǒng)的實(shí)施例的示意圖。本實(shí)施例中,所述系統(tǒng)包括客戶端202,用于接收客戶端輸入的被搜索物搜索詞以及向客戶端展現(xiàn)關(guān)于被搜索物狀態(tài)的搜索結(jié)果;服務(wù)器204,用于根據(jù)所述被搜索物狀態(tài)搜索詞,在索引數(shù)據(jù)庫中搜索對(duì)應(yīng)的被搜索物狀態(tài)的屬性信息,通過上述更新索引數(shù)據(jù)庫的方法更新所述索引數(shù)據(jù)庫,向客戶端發(fā)送關(guān)于所述被搜索物狀態(tài)的搜索結(jié)果。本申請(qǐng)可以應(yīng)用于計(jì)算機(jī)系統(tǒng)/服務(wù)器,其可與眾多其它通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置一起操作。適于與計(jì)算機(jī)系統(tǒng)/服務(wù)器一起使用的眾所周知的計(jì)算系統(tǒng)、環(huán)境和/或配置的例子包括但不限于個(gè)人計(jì)算機(jī)系統(tǒng)、服務(wù)器計(jì)算機(jī)系統(tǒng)、瘦客戶機(jī)、厚客戶機(jī)、手持或膝上設(shè)備、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)個(gè)人電腦、小型計(jì)算機(jī)系統(tǒng)、大型計(jì)算機(jī)系統(tǒng)和包括上述任何系統(tǒng)的分布式云計(jì)算技術(shù)環(huán)境,等等。計(jì)算機(jī)系統(tǒng)/服務(wù)器可以在由計(jì)算機(jī)系統(tǒng)執(zhí)行的計(jì)算機(jī)系統(tǒng)可執(zhí)行指令(諸如程序模塊)的一般語境下描述。通常,程序模塊可以包括例程、程序、目標(biāo)程序、組件、邏輯、數(shù)據(jù)結(jié)構(gòu)等等,它們執(zhí)行特定的任務(wù)或者實(shí)現(xiàn)特定的抽象數(shù)據(jù)類型。計(jì)算機(jī)系統(tǒng)/服務(wù)器可以在分布式云計(jì)算環(huán)境中實(shí)施,分布式云計(jì)算環(huán)境中,任務(wù)是由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行的。在分布式云計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備的本地或遠(yuǎn)程計(jì)算系統(tǒng)存儲(chǔ)介質(zhì)上。在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式
的權(quán)利要求書由此明確地并入該具體實(shí)施方式
,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開 的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的用于更新索引數(shù)據(jù)庫裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
權(quán)利要求
1.一種用于更新索引數(shù)據(jù)庫的方法,包括獲取客戶端搜索被搜索物的操作行為的對(duì)象;根據(jù)所述操作行為的對(duì)象,由源網(wǎng)站獲取與該操作行為的對(duì)象相關(guān)的被捜索物最新的屬性信息;根據(jù)所述被捜索物最新的屬性信息,更新索引數(shù)據(jù)庫中所述被搜索物的狀態(tài)信息。
2.根據(jù)權(quán)利要求I所述的用于更新索引數(shù)據(jù)庫的方法,所述搜索被捜索物的操作行為包括以下行為中的ー種或多種接收客戶端在捜索入口輸入的被捜索物關(guān)鍵詞查詢請(qǐng)求,接收點(diǎn)擊的鏈接請(qǐng)求,接收收藏或保存搜索到的被搜索物頁面的請(qǐng)求;所述操作行為的對(duì)象包括以下中的ー種或多種在搜索入ロ中輸入的被搜索物的關(guān)鍵詞、點(diǎn)擊的已搜索出的被搜索物鏈接,收藏或保存搜索到的被搜索物網(wǎng)頁。
3.根據(jù)權(quán)利要求2所述的用于更新索引數(shù)據(jù)庫的方法,所述收藏或保存捜索到的被搜索物網(wǎng)頁包括將網(wǎng)頁網(wǎng)址保存到瀏覽器的收藏夾或書簽中,或者將網(wǎng)頁保存到本地客戶端。
4.根據(jù)權(quán)利要求I所述的用于更新索引數(shù)據(jù)庫的方法,所述獲取客戶端搜索被捜索物的操作行為的對(duì)象包括通過異步的JavaSrcipt和可擴(kuò)展標(biāo)記語言向服務(wù)器發(fā)送異步消息的方式獲取客戶端搜索被搜索物的操作行為的對(duì)象。
5.根據(jù)權(quán)利要求I所述的用于更新索引數(shù)據(jù)庫的方法,所述根據(jù)所述操作行為的對(duì)象,由源網(wǎng)站獲取與該操作行為的對(duì)象相關(guān)的被捜索物最新的屬性信息包括通過網(wǎng)絡(luò)蜘蛛爬取與該對(duì)象對(duì)應(yīng)的網(wǎng)頁或與該對(duì)象相關(guān)的被捜索物的網(wǎng)頁;解析所爬取的網(wǎng)頁,獲得被捜索物最新的屬性信息。
6.根據(jù)權(quán)利要求5所述的用于更新所以數(shù)據(jù)庫的方法,解析所爬取的網(wǎng)頁,獲得被搜索物最新的屬性信息包括采用正則表達(dá)式方式,由網(wǎng)頁頁面中提取被捜索物最新的屬性信息。
7.根據(jù)權(quán)利要求5所述的用于更新索引數(shù)據(jù)庫的方法,所述通過網(wǎng)絡(luò)蜘蛛爬取與該對(duì)象對(duì)應(yīng)的網(wǎng)頁或與該對(duì)象相關(guān)的被捜索物的網(wǎng)頁包括判斷待爬取的網(wǎng)頁本次爬取與最近一次的爬取的時(shí)間間隔是否滿足設(shè)定的間隔閾值;若滿足,則執(zhí)行本次爬取動(dòng)作;否則,不執(zhí)行本次爬取動(dòng)作。
8.根據(jù)權(quán)利要求5所述的用于更新索引數(shù)據(jù)庫的方法,所述通過網(wǎng)絡(luò)蜘蛛爬取與該對(duì)象對(duì)應(yīng)的網(wǎng)頁或與該對(duì)象相關(guān)的被捜索物的網(wǎng)頁包括按照網(wǎng)頁獲取的時(shí)間先后順序?qū)Υ廊〉木W(wǎng)頁排序,在后獲取的網(wǎng)頁排在在先獲取的網(wǎng)頁的前面;對(duì)排序的網(wǎng)頁順次執(zhí)行爬取動(dòng)作。
9.根據(jù)權(quán)利要求I所述的用于更新索引數(shù)據(jù)庫的方法,所述更新索引數(shù)據(jù)庫中所述被捜索物的狀態(tài)信息包括與索引數(shù)據(jù)庫中已有的被捜索物比對(duì),判斷獲取的被捜索物最新的狀態(tài)信息是否不同;若是,更改該被搜索物的狀態(tài)信息記錄;若否,則不更改該被搜索物的狀態(tài)信息記錄。
10.根據(jù)權(quán)利要求9所述的用于更新索引數(shù)據(jù)庫的方法,所述更改被捜索物的狀態(tài)信息記錄的方法包括存儲(chǔ)被捜索物的最新狀態(tài)信息;建立關(guān)鍵詞到所述被搜索物的最新狀態(tài)信息的映射。
11.一種用于提供被搜索物狀態(tài)信息搜索服務(wù)的方法,,包括接收客戶端輸入的被搜索物搜索詞;根據(jù)所述被搜索物搜索詞,在索引數(shù)據(jù)庫中搜索對(duì)應(yīng)的被搜索物的屬性信息,所述索引數(shù)據(jù)庫通過權(quán)利要求1-10中任一項(xiàng)所述的方法進(jìn)行更新;向客戶端展現(xiàn)關(guān)于所述被捜索物狀態(tài)更新后的捜索結(jié)果。
12.一種用于更新索引數(shù)據(jù)庫的裝置,包括獲取單元,用于獲取客戶端搜索被捜索物的操作行為的對(duì)象;下載單元,根據(jù)所述操作行為的對(duì)象,由源網(wǎng)站獲取與該操作行為的對(duì)象相關(guān)的被搜索物最新的屬性信息;更新単元,用于根據(jù)所述被搜索物最新的屬性信息,更新索引數(shù)據(jù)庫中所述被搜索物的狀態(tài)信息。
13.根據(jù)權(quán)利要求12所述的用于更新索引數(shù)據(jù)庫的裝置,所述下載単元包括爬取單元,用于通過網(wǎng)絡(luò)蜘蛛爬取與該對(duì)象對(duì)應(yīng)的網(wǎng)頁或與該對(duì)象相關(guān)的被捜索物的網(wǎng)頁;解析単元,用于析所爬取的網(wǎng)頁,獲得被捜索物最新的屬性信息。
14.根據(jù)權(quán)利要求13所述的用于更新索引數(shù)據(jù)庫的裝置,所述爬取単元包括判斷単元,用于判斷待爬取的網(wǎng)頁本次爬取與最近一次的爬取的時(shí)間間隔是否滿足設(shè)定的間隔閾值;執(zhí)行單元,用于執(zhí)行爬取動(dòng)作。
15.根據(jù)權(quán)利要求13所述的用于更新索引數(shù)據(jù)庫的裝置,所述爬取単元包括排序單元,用于按照網(wǎng)頁獲取的時(shí)間先后順序?qū)Υ廊〉木W(wǎng)頁排序,在后獲取的網(wǎng)頁排在在先獲取的網(wǎng)頁的前面;調(diào)度單元,用于調(diào)度排序的網(wǎng)頁順次執(zhí)行爬取動(dòng)作。
16.根據(jù)權(quán)利要求12所述的用于更新索引數(shù)據(jù)庫的裝置,所述更新単元包括比對(duì)單元,用干與索引數(shù)據(jù)庫中已有的被捜索物比對(duì),判斷獲取的被捜索物最新的狀態(tài)信息是否不同;更改単元,用于在所述狀態(tài)信息不同時(shí)更改索引數(shù)據(jù)庫中的狀態(tài)信息記錄。
17.根據(jù)權(quán)利要求16所述的用于更新索引數(shù)據(jù)庫的裝置,所述更改単元包括存儲(chǔ)單元,用于存儲(chǔ)被搜索物的最新狀態(tài)信息;映射単元,用于建立關(guān)鍵詞到所述被搜索物的最新狀態(tài)信息的映射。
18.一種用于提供被捜索物狀態(tài)信息捜索服務(wù)的系統(tǒng),包括客戶端,用于接收客戶端輸入的被捜索物捜索詞以及向客戶端展現(xiàn)關(guān)于被捜索物的搜索結(jié)果;服務(wù)器,用于根據(jù)所述被搜索物搜索詞,在索引數(shù)據(jù)庫中捜索對(duì)應(yīng)的被捜索物的屬性信息,并按照 權(quán)利要求1-10中任一項(xiàng)所述的方法進(jìn)行更新所述索引數(shù)據(jù)庫,向客戶端發(fā)送關(guān)于所述被搜索物的搜索結(jié)果。
全文摘要
本發(fā)明公開了一種用于更新索引數(shù)據(jù)庫的方法,包括獲取客戶端搜索被搜索物的操作行為的對(duì)象;根據(jù)所述操作行為的對(duì)象,由源網(wǎng)站獲取與該操作行為的對(duì)象相關(guān)的被搜索物最新的屬性信息;根據(jù)所述被搜索物最新的屬性信息,更新索引數(shù)據(jù)庫中所述被搜索物的狀態(tài)信息。本發(fā)明還公開了一種用于更新索引數(shù)據(jù)庫的裝置。能夠使得索引數(shù)據(jù)庫中的被搜索物狀態(tài)信息得到高頻率更新,且占用資源少。本發(fā)明同時(shí)公開了一種用于提供被搜索物狀態(tài)信息搜索服務(wù)的方法和一種用于提供被搜索物狀態(tài)信息搜索服務(wù)的系統(tǒng),該方法和系統(tǒng)能夠提供被搜索物最新狀態(tài)信息。
文檔編號(hào)G06F17/30GK102831252SQ20121035718
公開日2012年12月19日 申請(qǐng)日期2012年9月21日 優(yōu)先權(quán)日2012年9月21日
發(fā)明者周雷, 高揚(yáng), 姜鑫 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司