。
[0055]步驟S130,保存所爬取到的推廣內(nèi)容。
[0056]步驟S140,在接收搜索關(guān)鍵詞時,根據(jù)搜索關(guān)鍵詞從所保存的推廣內(nèi)容中查找到匹配的推廣內(nèi)容,將匹配的推廣內(nèi)容作為搜索結(jié)果的一部分展現(xiàn)在搜索結(jié)果頁面中。
[0057]可見,圖1所示的方法在搜索服務(wù)與內(nèi)容推廣服務(wù)之間建立起關(guān)聯(lián),通過推廣用戶所選擇的模板統(tǒng)一雙方交互規(guī)范,依據(jù)該交互規(guī)范從推廣用戶的服務(wù)器爬取并保存推廣內(nèi)容,當接收到搜索用戶發(fā)出的搜索關(guān)鍵詞時,查找與搜索關(guān)鍵詞匹配的推廣內(nèi)容并在搜索結(jié)果頁面上進行展示。該方案針對搜索用戶的搜索需求在搜索結(jié)果頁面上展示匹配的推廣內(nèi)容,使得推廣服務(wù)更具定向性和靈活性,不僅滿足了推廣用戶的內(nèi)容推廣需求,也滿足了搜索用戶的搜索需求,極大程度地提高了內(nèi)容推廣服務(wù)的價值與意義。
[0058]在本發(fā)明的一個實施例中,可以預(yù)先獲取推廣用戶的服務(wù)器地址列表,該列表中記錄了所有推廣用戶的服務(wù)器地址,則圖1所示方法的步驟S120,分別從各推廣用戶的服務(wù)器爬取對應(yīng)的推廣內(nèi)容包括:從推廣用戶的服務(wù)器地址列表獲得各推廣用戶的服務(wù)器地址;根據(jù)獲得地址訪問各推廣用戶的服務(wù)器,并爬取對應(yīng)的推廣內(nèi)容。
[0059]上述方法中,為了保證推廣內(nèi)容爬取過程的有效性、可靠性以及效率,在本發(fā)明的一個實施例中,圖1所示方法的步驟S120,從各推廣用戶的服務(wù)器爬取對應(yīng)的推廣內(nèi)容包括:將從每個推廣用戶的服務(wù)器爬取推廣內(nèi)容的一個或多個任務(wù)放入任務(wù)隊列,調(diào)度多個進程來完成任務(wù)隊列中的任務(wù)。
[0060]進一步地,由于進程是運行在機器上的,考慮到單一機器發(fā)生故障的可能性以及負荷的有限性,本發(fā)明提供了由多臺機器組成多節(jié)點任務(wù)執(zhí)行系統(tǒng)的方案,即上述方法中所述調(diào)度多個進程來完成任務(wù)隊列中的任務(wù)包括:在一臺或多臺機器上啟動進程,其中每個機器上啟動了多個進程;從任務(wù)隊列中取任務(wù),并使用一致性哈希算法調(diào)度所述一臺或多臺機器上的進程來完成任務(wù)。
[0061]本實施例中的多臺機器組成了一個多節(jié)點任務(wù)執(zhí)行系統(tǒng),用于完成任務(wù)隊列中的任務(wù),通過使用一致性哈希算法,能夠?qū)⑷蝿?wù)隊列中的任務(wù)盡可能平衡地分配到多臺機器中的去,使得所有機器都能得到利用,并且當其中一臺機器出現(xiàn)故障失效后,能夠動態(tài)地將該故障機器的任務(wù)轉(zhuǎn)移分配給臨近的機器,保證了當多節(jié)點任務(wù)執(zhí)行系統(tǒng)的機器數(shù)目發(fā)生變化時仍然能夠?qū)ν馓峁┝己玫耐茝V內(nèi)容的爬取服務(wù);與現(xiàn)有技術(shù)中只使用單一機器啟動進程執(zhí)行爬取任務(wù)的方案相比,本實施例中的爬取任務(wù)調(diào)度方案具有更好的容錯性和可擴展性。
[0062]圖2示出了根據(jù)本發(fā)明一個實施例的從推廣用戶的服務(wù)器爬取對應(yīng)推廣內(nèi)容的方法的流程圖。在本實施例中,推廣用戶根據(jù)所選擇模板的規(guī)范定制自身的推廣內(nèi)容,以網(wǎng)站地圖(Sitemap)的形式保存到自身的服務(wù)器上,該網(wǎng)站地圖中包括多個XML文件,其中列出網(wǎng)站中的網(wǎng)址以及關(guān)于每個網(wǎng)址的其他元數(shù)據(jù)(上次更新的時間、更改的頻率以及相對于網(wǎng)站上其他網(wǎng)址的重要程度為何等),使得推廣內(nèi)容的爬取更加智能。則如圖2所示,從推廣用戶的服務(wù)器爬取對應(yīng)推廣內(nèi)容的方法包括:
[0063]步驟S210,網(wǎng)站地圖提取:從推廣用戶的服務(wù)器上提取網(wǎng)站地圖,依據(jù)該網(wǎng)站地圖,執(zhí)行步驟S220。
[0064]步驟S220,頻度判斷:判斷該網(wǎng)站地圖的推廣內(nèi)容是否爬取過且與前一次爬取過的該網(wǎng)站地圖的推廣內(nèi)容相同,否則執(zhí)行步驟S230,是則執(zhí)行步驟S250。
[0065]本步驟中的判斷可以每隔預(yù)定時間執(zhí)行一次,能夠有效追蹤推廣用戶對推廣內(nèi)容的更新。本步驟所述的判斷該網(wǎng)站地圖的推廣內(nèi)容是否爬取過且與前一次爬取過的該網(wǎng)站地圖的推廣內(nèi)容相同包括:依次判斷網(wǎng)站地圖的推廣內(nèi)容中的XML文件是否爬取過且與前一次爬取過的該XML文件相同,其中判斷XML文件是否相同的依據(jù)包括:該XML文件的URL地址、該XML文件的最近更改時間等信息,如果這些信息都相同則認為是相同的XML文件。
[0066]步驟S230,任務(wù)隊列設(shè)置:如果網(wǎng)站地圖中的推廣內(nèi)容不超過預(yù)定任務(wù)負荷,則將爬取該推廣內(nèi)容作為一個任務(wù),放入任務(wù)隊列中;如果網(wǎng)站地圖中的推廣內(nèi)容超過預(yù)定任務(wù)負荷,則將爬取該推廣內(nèi)容作為多個任務(wù),放入任務(wù)隊列中,執(zhí)行步驟S240。
[0067]步驟S240,任務(wù)調(diào)度:從任務(wù)隊列中取任務(wù),使用一致性哈希算法調(diào)度一臺或多臺機器上的進程來完成爬取任務(wù)。
[0068]步驟S250,結(jié)束:結(jié)束爬取過程。
[0069]需要說明的是,本實施例中的推廣用戶以網(wǎng)站地圖保存多個XML文件的格式保存推廣內(nèi)容,使得本方案最終爬取到的推廣內(nèi)容是多個XML文件,不應(yīng)當作為對本發(fā)明提供的在搜索中實現(xiàn)內(nèi)容推廣的方案的限制。
[0070]在本發(fā)明的一個實施例中,圖1所示方法的步驟S130,保存所爬取到的推廣內(nèi)容包括:
[0071]步驟S131,從爬取到的推廣內(nèi)容的每一項中抽取關(guān)鍵詞。
[0072]本步驟中,爬取的推廣內(nèi)容包括一個或多個項,每項包括關(guān)鍵詞和結(jié)構(gòu)化的推廣數(shù)據(jù)。
[0073]步驟S132,對于推廣內(nèi)容中的每一項,判斷抽取的關(guān)鍵詞是否屬于競價詞庫中的詞,如果不屬于則丟棄該項,如果屬于則對該項進行保存處理。
[0074]本步驟中,所述對該項進行保存處理包括:將該項的結(jié)構(gòu)化的推廣數(shù)據(jù)中的圖片保存到圖片服務(wù)器中;將圖片在圖片服務(wù)器上的地址、該項的結(jié)構(gòu)化的推廣數(shù)據(jù)中的文本和URL地址,以該項的關(guān)鍵詞為索引保存到推廣內(nèi)容庫中。
[0075]基于上述對爬取到的推廣內(nèi)容的保存過程,則圖1所示方法的步驟S140,根據(jù)搜索關(guān)鍵詞從所保存的推廣內(nèi)容中查找到匹配的推廣內(nèi)容包括:
[0076]步驟S141,根據(jù)搜索關(guān)鍵詞從推廣內(nèi)容庫中查找匹配的索引關(guān)鍵詞,獲得相應(yīng)的圖片在圖片服務(wù)器上的地址、文本和URL地址。
[0077]步驟S142,根據(jù)圖片在圖片服務(wù)器上的地址獲取相應(yīng)的圖片。
[0078]步驟S143,將圖片、文本和URL地址作為最終推廣內(nèi)容。
[0079]圖3示出了根據(jù)本發(fā)明一個實施例的保存所爬取到的推廣內(nèi)容的方法的流程圖。本實施例與圖2所示的實施例相同,推廣用戶以網(wǎng)站地圖(Sitemap)保存多個XML文件的格式保存推廣內(nèi)容,使得最終爬取到的推廣內(nèi)容是多個XML文件,其中,一個XML文件中包括多個項(Item),每項包括關(guān)鍵詞(Key)和結(jié)構(gòu)化的推廣數(shù)據(jù)(Display)。對于爬取到的推廣內(nèi)容的每一項,如圖3所示,保存所爬取到的推廣內(nèi)容的方法包括:
[0080]步驟S310,Key抽取:從該項中抽取關(guān)鍵詞;
[0081]步驟S320,Bidword (競價詞)判斷:判斷抽取的關(guān)鍵詞是否屬于競價詞庫中的詞,如果不屬于則執(zhí)行步驟S330,如果屬于則執(zhí)行步驟S340。
[0082]本步驟中所述的競價詞庫中的詞是預(yù)先設(shè)置好的,不同的詞有不同的優(yōu)先級,在最初提供給推廣用戶定制模板的同時,還將該競價詞庫提供給推廣用戶,用戶可以根據(jù)自身需求按照該競價詞庫設(shè)置推廣內(nèi)容中各項中的關(guān)鍵詞,即屬于競價詞庫的關(guān)鍵詞被認為可以被推廣,且根據(jù)不同的競價詞的優(yōu)先級能夠給不同的推廣用戶的推廣內(nèi)容進行排序,在需要展示多個推廣內(nèi)容的情況下,按照該排序進行展示。
[0083]步驟S330,丟棄:丟棄該項。
[0084]步驟S340,Display抽取:從該項中抽取結(jié)構(gòu)化的推廣數(shù)據(jù)。
[0085]步驟S350,指紋對比:利用指紋對比方法(如MD5方法)判斷結(jié)構(gòu)化的推廣數(shù)據(jù)與前一次爬取過的該結(jié)構(gòu)化的推廣數(shù)據(jù)相同,是則執(zhí)行步驟S330,否則執(zhí)行步驟S360。
[0086]步驟S360,Pic抽取和保存:抽取該項的結(jié)構(gòu)化的推廣數(shù)據(jù)中的圖片;將該項的結(jié)構(gòu)化的推廣數(shù)據(jù)中的圖片保存到圖片服務(wù)器中。
[0087]步驟S370,TXT/URL/Key抽取和保存:抽取該項的結(jié)構(gòu)化的推廣數(shù)據(jù)中的文本和URL地址;將圖片在圖片服務(wù)器上的地址、該項的結(jié)構(gòu)化的推廣數(shù)據(jù)中的文本和URL地址,以該項的關(guān)鍵詞為索引保存到推廣內(nèi)容庫中。
[0088]步驟S370,結(jié)束:結(jié)束對該項的保存。
[0089]需要說明的是,本實施例中的推廣用戶以網(wǎng)站地圖保存多個XML文件的格式保存推廣內(nèi)容,使得本方案最終爬取到的推廣內(nèi)容是多個XML文件,以及XML文件中的關(guān)鍵詞與結(jié)構(gòu)化的推廣數(shù)據(jù)不應(yīng)當作為對本發(fā)明提供的在搜索中實現(xiàn)內(nèi)容推廣的方案的限制。
[0090]在本發(fā)明的一個實施例中,圖1所示方法的步驟S140,將匹配的推廣內(nèi)容作為搜索結(jié)果的一部分展現(xiàn)在搜索結(jié)果頁面中包括:在搜索結(jié)合頁面的指定位置處展現(xiàn)一個應(yīng)用盒子,在該應(yīng)用盒子中展現(xiàn)匹配的推廣內(nèi)容。
[0091]圖4示出了根據(jù)本發(fā)明一個實施例的一種在搜索中實現(xiàn)內(nèi)容推廣的裝置的示意圖。如圖4所示,該在搜索中實現(xiàn)內(nèi)容推廣的裝置400包括:
[0092]模板處理單元410,適于提供不同的用于