專利名稱:互聯(lián)網(wǎng)即時(shí)信息的共享訂閱系統(tǒng)及共享訂閱方法
互聯(lián)網(wǎng)即時(shí)信息的共享訂閱系統(tǒng)及共享訂閱方法技術(shù)領(lǐng)域木發(fā)明屬于計(jì)算機(jī)網(wǎng)絡(luò)技和信息處理技術(shù),具休的涉及一種能夠滿足信息 訂閱需求的互聯(lián)網(wǎng)上即時(shí)信息的共享訂閱系統(tǒng)及共享訂閱方法。
背景技術(shù):
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的信息日趨豐富,甚至可以說是爆炸式增長(zhǎng), 人們對(duì)互聯(lián)網(wǎng)上信息的需求也越來越大。搜索引擎公司正是捕捉到了人們?cè)谶@ 一方面的需求應(yīng)運(yùn)而生,并且取得了令人矚目的成績(jī)。但是,目前的實(shí)際狀況 是互聯(lián)網(wǎng)上的信息不是太少了,而是太多了,從搜索引擎返回的信息屮包含了 大量重復(fù)、過時(shí)的信息,用戶淹沒在信息的海洋中。及時(shí)準(zhǔn)確的信息獲取技術(shù) 和有價(jià)值的資料已成信息獲取技術(shù)的研究重點(diǎn)。即吋信息訂閱為人們及時(shí)獲取 信息提供了很好的模式,用戶通過提交信息需求,訂閱服務(wù)完成信息獲取、分 析、過濾,并主動(dòng)呈現(xiàn)給用戶,很好的滿足了對(duì)信息的準(zhǔn)確、及時(shí)的需求。近 兩年,在用戶需求驅(qū)動(dòng)下,信息訂閱技術(shù)得到廣泛地研究和應(yīng)用。目前訂閱系統(tǒng)可以大概分為兩類, 一類是基于客戶端方式,如RSS訂閱; 一類基于服務(wù)器力'式,例如一些垂直搜索中的新聞搜索?;诜?wù)器端訂閱方式中,如圖1所示,服務(wù)器3提供信息訂閱入口, 一用戶1、 另一用戶2和其它用戶4和按照服務(wù)器提供的信息訂閱格式,填寫信息需求和 信息來源網(wǎng)站。服務(wù)器3根據(jù)注冊(cè)的用戶需求,對(duì)其內(nèi)置的索引數(shù)據(jù)庫(kù)5進(jìn)行 檢索,并通過下載服務(wù)器組6從源數(shù)據(jù)服務(wù)器7進(jìn)行原始信息的采集,提取和 過濾,并根據(jù)某一用戶選定的方式提交給該用戶,其中包括E-mail提醒、Rss (Really Simple Syndication,是某一站點(diǎn)用來和其它站點(diǎn)之間共享內(nèi)容的一 種簡(jiǎn)易方式,也叫聚合內(nèi)容。)查詢方式、約定協(xié)議提示客戶端下載等。該訂閱 方式中服務(wù)器3和下載服務(wù)器組6承擔(dān)了數(shù)據(jù)的下載、分析和過濾,以及實(shí)時(shí) 更新的全部工作。隨著訂閱數(shù)量的增加,服務(wù)器將承擔(dān)更大量的K載和計(jì)算工 作,服務(wù)器將成為資源瓶頸,同時(shí),服務(wù)器端IP資源有限,為了保證訂閱信息
的時(shí)效性,服務(wù)器需要集中、頻繁地訪問信息源服務(wù)器7,致使信息源所在的防 火墻或者服務(wù)器拒絕訪問,使信息訂閱服務(wù)無法完成或者導(dǎo)致訂閱信息的時(shí)效 性下降?;谟脩舳擞嗛喎绞街?,用戶通過安裝用戶端來完成信息的訂閱服務(wù)。用 戶端承擔(dān)所有信息訂閱的邏輯,包括數(shù)據(jù)下載、分析過濾、匯總、主動(dòng)呈現(xiàn)等工作。訂閱信息源包括RSS信息源、各搜索引擎檢索入口或者網(wǎng)頁(yè)信息。根據(jù)用戶設(shè)定的更新周期,用戶端定期掃描數(shù)據(jù)源網(wǎng)站,并根據(jù)用戶需求對(duì)數(shù)據(jù)進(jìn)行分析過濾。這些工作將耗費(fèi)大量用戶機(jī)器的帶寬和CPU資源。該訂閱方式區(qū) 別于服務(wù)器方式訂閱,用戶訪問分散在不同的用戶機(jī)器上完成,避免信息源服 務(wù)器屏蔽的問題。但隨著訂閱用戶的增加,信息源服務(wù)器將承受大量來自用戶 端的訪問,致使服務(wù)器訪問壓力過大,服務(wù)性能惡化。發(fā)明內(nèi)容本發(fā)明的目的是提供一種結(jié)構(gòu)設(shè)計(jì)合理,充分結(jié)合用戶端訂閱和服務(wù)器端 訂閱二種訂閱方式的優(yōu)點(diǎn),能夠較好的利用服務(wù)器和用戶端的CPU資源和帶寬資源,實(shí)現(xiàn)及時(shí)、有效的信息訂閱的互聯(lián)網(wǎng)即時(shí)信息的共享訂閱系統(tǒng), 本發(fā)明的另一目的是提供一種充分結(jié)合用戶端訂閱和服務(wù)器端訂閱二種訂閱方式的優(yōu)點(diǎn),能夠較好的利用服務(wù)器和用戶端的CPU資源和帶寬資源,實(shí)現(xiàn)及時(shí)、有效的信息訂閱的互聯(lián)網(wǎng)即時(shí)信息的共享訂閱方法,它滿足用戶實(shí)時(shí)性 的信息需求,并實(shí)現(xiàn)了對(duì)同類信息需求的共享,同時(shí)降低了對(duì)數(shù)據(jù)源網(wǎng)站的過 度壓力。為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案如下 一種互聯(lián)網(wǎng)即時(shí)信息 的共享訂閱系統(tǒng),包括用戶端,其特征在于該共享訂閱系統(tǒng)還包括共享訂閱數(shù)據(jù)處理模塊,用戶端通過該模塊進(jìn)行訂閱信息的發(fā)送,訂閱數(shù) 據(jù)的收集、分析、排重和上傳;內(nèi)容服務(wù)模塊,負(fù)責(zé)訂閱數(shù)據(jù)的接收、存儲(chǔ)、檢索及推送,并與調(diào)度服務(wù) 模塊通信;調(diào)度服務(wù)模塊,該模塊與用戶端通信,調(diào)配用戶端的資源,分配訂閱數(shù)據(jù) 下載任務(wù)。具體的講,所述共享訂閱系統(tǒng)還包括一下載服務(wù)器組模塊,在用戶端資源 有限時(shí),進(jìn)行訂閱數(shù)據(jù)的抓取、處理和上傳,所述下載服務(wù)器組模塊與用戶端
和調(diào)度服務(wù)模塊通信,調(diào)度服務(wù)模塊調(diào)配用戶端和下載服務(wù)器組模塊的資源, 分配訂閱數(shù)據(jù)下載任務(wù)。該共享訂閱系統(tǒng)的包括用戶端、內(nèi)容服務(wù)器、調(diào)度服務(wù)器和下載服務(wù)器組, 其中用戶端和下載服務(wù)器組內(nèi)配置有共享訂閱數(shù)據(jù)處理模塊,用戶通過用戶端 訂閱信息,用戶端根據(jù)訂閱任務(wù)完成訂閱數(shù)據(jù)的收集和分析,并主動(dòng)呈現(xiàn)給用 戶,同時(shí)將訂閱數(shù)據(jù)上傳給內(nèi)容服務(wù)器,內(nèi)容服務(wù)器向所有具有相同訂閱信息 的用戶端分發(fā),實(shí)現(xiàn)訂閱數(shù)據(jù)的共享;內(nèi)容服務(wù)器為配置內(nèi)容服務(wù)器模塊,具有多陣列的硬盤存儲(chǔ)數(shù)據(jù)及其容錯(cuò) 處理能力的數(shù)據(jù)存儲(chǔ)發(fā)送服務(wù)器,內(nèi)容服務(wù)器接收用戶端的訂閱信息,通過其 配置的索引數(shù)據(jù)庫(kù)檢索訂閱信息,檢索到結(jié)果時(shí),向用戶端推送訂閱數(shù)據(jù);沒有檢索到結(jié)果時(shí),向調(diào)度服務(wù)器發(fā)送訂閱數(shù)據(jù)缺失并要求提供訂閱數(shù)據(jù)。調(diào)度服務(wù)器為配置調(diào)度服務(wù)模塊的通用服務(wù)器,在訂閱數(shù)據(jù)缺失或需定時(shí) 更新訂閱信息時(shí),調(diào)度服務(wù)器發(fā)出指令,向用戶端或者下載服務(wù)器組分配數(shù)據(jù) 處理任務(wù),當(dāng)用戶端或下載服務(wù)器組完成數(shù)據(jù)處理任務(wù)后,將數(shù)據(jù)處理結(jié)果發(fā)送至內(nèi)容服務(wù)器,由內(nèi)容服務(wù)器推送至用戶端;下載服務(wù)器組為配置下載服務(wù)器組模塊的普通PC機(jī),在用戶端資源有限時(shí) 進(jìn)行訂閱數(shù)據(jù)的抓取、處理和上傳。所述用戶端、內(nèi)容服務(wù)器、調(diào)度服務(wù)器、下載服務(wù)器組間通過http協(xié)議建 立通信聯(lián)系。一種互聯(lián)網(wǎng)即時(shí)信息的共享訂閱方法,其特征在于所述共享訂閱方法包括 用戶從服務(wù)器端下載用戶端實(shí)現(xiàn)信息的訂閱任務(wù)設(shè)定,用戶端承擔(dān)服務(wù)器 端的部分功能,根據(jù)訂閱任務(wù)完成訂閱數(shù)據(jù)的收集、分析和過濾,主動(dòng)呈現(xiàn)給 客戶;同時(shí)用戶端將訂閱數(shù)據(jù)上傳給服務(wù)器端,服務(wù)器端向所有具有相同訂閱任務(wù)的用戶端分發(fā),實(shí)現(xiàn)訂閱數(shù)據(jù)的共享。該共享訂閱方法中,所述服務(wù)器端對(duì)用戶端的計(jì)算資源進(jìn)行協(xié)調(diào),在計(jì)算 資源緊張的情況下,參與完成訂閱數(shù)據(jù)的收集、分析和過濾,并存儲(chǔ)訂閱數(shù)據(jù), 向所有具有相同訂閱任務(wù)的用戶端分發(fā)。所述共享訂閱方法中,用戶端和服務(wù)器端配置有共享訂閱數(shù)據(jù)處理模塊、內(nèi)容服務(wù)模塊、調(diào)度服務(wù)模塊和下載服務(wù)組模塊,所述共享訂閱方法包括用戶從用戶端發(fā)起訂閱信息,所述訂閱信息分為新訂閱和已有訂閱信息,
新訂閱信息時(shí),用戶端會(huì)向調(diào)度服務(wù)模塊發(fā)送消息,注冊(cè)該用戶的訂閱,并為 調(diào)度服務(wù)模塊調(diào)度時(shí)參考;內(nèi)容服務(wù)模塊接收訂閱信息,然后從其后臺(tái)的索引數(shù)據(jù)庫(kù)檢索訂閱信息, 檢索有結(jié)果則將訂閱數(shù)據(jù)推送至用戶端,否則,給調(diào)度服務(wù)器發(fā)送消息,請(qǐng)求訂閱信息;調(diào)度服務(wù)模塊接收到訂閱信息請(qǐng)求后,分析用戶端和下載服務(wù)器組模塊的 計(jì)算資源,找到最合適的計(jì)算資源,然后通知用戶端,將訂閱任務(wù)分配至共享 訂閱數(shù)據(jù)處理模塊;共享訂閱數(shù)據(jù)處理模塊接收到訂閱任務(wù)后執(zhí)行,進(jìn)行訂閱數(shù)據(jù)的收集、分 析和排重,并將訂閱數(shù)據(jù)上傳至內(nèi)容服務(wù)器;內(nèi)容服務(wù)器接收到訂閱數(shù)據(jù)后,存儲(chǔ)索引結(jié)果供其它訂閱該信息的用戶共 享,同時(shí)推送該訂閱數(shù)據(jù)至訂閱用戶端;用戶端呈現(xiàn)訂閱數(shù)據(jù)。更近一步的講,所述服務(wù)器端包括內(nèi)容服務(wù)器、調(diào)度服務(wù)器和下載服務(wù)器 組,所述共享訂閱方法具體包括--用戶通過用戶端發(fā)起一新的訂閱信息,用戶端向內(nèi)容服務(wù)器發(fā)送該訂閱 信息,同時(shí)向調(diào)度服務(wù)器發(fā)送消息,注冊(cè)該訂閱信息;內(nèi)容服務(wù)器接收到該訂閱信息,如果檢索到已存儲(chǔ)的相應(yīng)訂閱數(shù)據(jù),則把 訂閱數(shù)據(jù)向該用戶發(fā)送,如果沒有檢索到訂閱數(shù)據(jù),則向調(diào)度服務(wù)器發(fā)送請(qǐng)求;調(diào)度服務(wù)器接收請(qǐng)求后,進(jìn)行訂閱任務(wù)分配調(diào)度,如果發(fā)現(xiàn)其它客戶端滿 足條件,則向該客戶端發(fā)送指令,該客戶端執(zhí)行調(diào)度服務(wù)器分配的訂閱任務(wù), 進(jìn)行訂閱數(shù)據(jù)的收集、分析和排重,并將訂閱數(shù)據(jù)上傳至內(nèi)容服務(wù)器;如果其 它客戶端計(jì)算資源不足,則向下載服務(wù)器組發(fā)送指令;下載服務(wù)器組接收到調(diào)度服務(wù)器的工作指令后,進(jìn)行訂閱數(shù)據(jù)的抓取與分 析,排重,并將訂閱數(shù)據(jù)上傳至內(nèi)容服務(wù)器;內(nèi)容服務(wù)器將訂閱數(shù)據(jù)推送至所有訂閱信息的客戶端,實(shí)現(xiàn)共享訂閱。所述共享訂閱數(shù)據(jù)處理模塊內(nèi)設(shè)有一數(shù)據(jù)收集下載子模塊,所述數(shù)據(jù)收集 下載子模塊包括立即更新和普通更新兩個(gè)URL隊(duì)列,所述立即更新URL隊(duì)列對(duì)應(yīng)用戶端添加的一個(gè)新訂閱信息,此時(shí)無論內(nèi)容 服務(wù)模塊是否存儲(chǔ)有該訂閱數(shù)據(jù)都要立即響應(yīng)用戶端的新訂閱信息;當(dāng)內(nèi)容服 務(wù)模塊存儲(chǔ)有所需訂閱數(shù)據(jù)時(shí),由內(nèi)容服務(wù)模塊推送該訂閱數(shù)據(jù),共享訂閱數(shù)
據(jù)處理模塊不啟動(dòng);當(dāng)內(nèi)容服務(wù)模塊沒有所需訂閱數(shù)據(jù)時(shí),由內(nèi)容服務(wù)模塊請(qǐng) 求調(diào)度模塊,調(diào)度模塊選擇用戶端或下載服務(wù)器組模塊的共享數(shù)據(jù)處理模塊啟 動(dòng),添加立即更新URL隊(duì)列去下載數(shù)據(jù);所述普通更新URL隊(duì)列對(duì)應(yīng)用戶端已經(jīng)存在的訂閱信息,內(nèi)容服務(wù)模塊定時(shí)的收集源數(shù)據(jù)內(nèi)容,分析處理后推送給用戶端。該互聯(lián)網(wǎng)即時(shí)信息的共享訂閱系統(tǒng)和共享訂閱方法結(jié)合用戶端和服務(wù)器端 二種訂閱方式的優(yōu)點(diǎn),借鑒網(wǎng)格計(jì)算技術(shù),吸收網(wǎng)格計(jì)算中資源協(xié)同共享觀點(diǎn), 把具有相同訂閱的用戶看作一個(gè)虛擬組織,虛擬組織內(nèi)部共享計(jì)算資源、存儲(chǔ) 資源及其信息資源等。在上述共享訂閱系統(tǒng)和共享訂閱方法中,用戶端可以是搜索引擎的個(gè)人門 戶平臺(tái),它包含了一個(gè)共享訂閱數(shù)據(jù)處理模塊,共享訂閱數(shù)據(jù)處理模塊扮演執(zhí) 行者角色,能夠完成訂閱數(shù)據(jù)的收集、分析、排重及其上傳工作。個(gè)人門戶平 臺(tái)是一個(gè)通信紐帶,把共享訂閱數(shù)據(jù)處理模塊和內(nèi)容服務(wù)器及調(diào)度服務(wù)器有效 的鏈接起來。完成共享訂閱的數(shù)據(jù)處理模塊和調(diào)度服務(wù)器及內(nèi)容服務(wù)器之間的 通信。因?yàn)橛脩舳说臋C(jī)器配置情況因用戶不同差異很大,而且其網(wǎng)絡(luò)狀況也不 盡相同,因此對(duì)用戶的硬件配置不應(yīng)要求過高,普通低配置的用戶同樣能滿足 其需求。內(nèi)容服務(wù)器作為一臺(tái)數(shù)據(jù)存儲(chǔ)發(fā)送服務(wù)器,負(fù)責(zé)用戶訂閱信息的存儲(chǔ)、檢 索、接收和推送等工作,是訂閱信息共享的發(fā)布源,擔(dān)當(dāng)傳球手的角色。它接 受用戶端發(fā)送過來的訂閱信息,得知用戶的訂閱需求后,通過檢索索引數(shù)據(jù)庫(kù)檢索用戶訂閱信息。當(dāng)檢索到結(jié)果時(shí),向用戶推送訂閱數(shù)據(jù);當(dāng)沒有檢索到結(jié) 果時(shí),向調(diào)度服務(wù)器反映訂閱信息缺失情況,積極要求提供訂閱信息。該服務(wù) 器要求要有多陣列的硬盤存儲(chǔ)數(shù)據(jù)及其容錯(cuò)處理,同時(shí)要求一定的計(jì)算能力。 同時(shí),對(duì)帶寬的要求也比較高,以便能夠在短時(shí)間完成集中度很高的響應(yīng)要求。 調(diào)度服務(wù)器是一臺(tái)監(jiān)督服務(wù)器,擔(dān)當(dāng)任務(wù)分配者角色。它時(shí)刻觀察訂閱信 息的缺失情況和資源情況,綜合調(diào)配資源進(jìn)行訂閱數(shù)據(jù)處理。當(dāng)有訂閱信息缺 失發(fā)生或者需要定時(shí)更新訂閱信息時(shí),調(diào)度服務(wù)器發(fā)出指令,向用戶端或者下 載服務(wù)器組分配訂閱數(shù)據(jù)處理的任務(wù)。當(dāng)用戶端或者下載服務(wù)器組完成數(shù)據(jù)處 理任務(wù)后,將結(jié)果發(fā)送至內(nèi)容服務(wù)器,由內(nèi)容服務(wù)器推送至訂閱用戶。調(diào)度服 務(wù)器需要普通服務(wù)器的配置即可。下載服務(wù)器組可由一組主要用來下載數(shù)據(jù)的普通PC機(jī)組成,擔(dān)當(dāng)替補(bǔ)和支
持的角色,是對(duì)用戶端資源的有益補(bǔ)充。下載服務(wù)器組內(nèi)機(jī)器通過預(yù)裝用戶端 完成數(shù)據(jù)處理的所有功能。該組內(nèi)的機(jī)器要求也比較低,類似用戶端機(jī)器的配 置即可。通過上述四部分的緊密配合,使得用戶端或者下載服務(wù)器組能夠及時(shí)抓取 時(shí)間性比較強(qiáng)的訂閱信息,并通過內(nèi)容服務(wù)器及時(shí)的推送給每個(gè)相關(guān)的訂閱用 戶,實(shí)現(xiàn)了訂閱信息和訂閱數(shù)據(jù)據(jù)快速共享的目的。數(shù)據(jù)源和數(shù)據(jù)源服務(wù)器是指用戶所需數(shù)據(jù)的提供網(wǎng)站,用戶端就是向其抓 取數(shù)據(jù)然后處理的。數(shù)據(jù)源服務(wù)器多是一些互聯(lián)網(wǎng)上的專門的信息門戶或者垂 直搜索引擎。 一些信息提供門戶網(wǎng)站,例如火車票網(wǎng),本身提供站內(nèi)搜索,有 些不提供站內(nèi)搜索的功能。通過站內(nèi)搜索,得到一個(gè)檢索結(jié)果頁(yè),抓取每個(gè)檢 索結(jié)果頁(yè),提取該頁(yè)的內(nèi)容得到用戶所需的信息。該類網(wǎng)站若短時(shí)間內(nèi)有集中 式的訪問,可能對(duì)其造成巨大的流量壓力。對(duì)垂直搜索而言,它們已經(jīng)提前向 一些專業(yè)信息網(wǎng)站抓取數(shù)據(jù)并分析索引,用戶查詢便可得到所需的信息。垂直 搜索一般可以接收較高的請(qǐng)求壓力,但是頻繁的軟件抓取方式也不是其能夠接 受的。因此必須改變這種一人的集中頻繁式請(qǐng)求為多人分散的頻繁請(qǐng)求。本發(fā)明的有益效果在于,該互聯(lián)網(wǎng)即時(shí)信息的共享訂閱系統(tǒng)和共享訂閱方 法充分結(jié)合用戶端訂閱和服務(wù)器端訂閱二種訂閱方式的優(yōu)點(diǎn),能夠較好的利用 服務(wù)器和用戶端的CPU資源和帶寬資源,實(shí)現(xiàn)及時(shí)、有效的信息訂閱的互聯(lián)網(wǎng) 即時(shí)信息的共享訂閱方法,它滿足用戶實(shí)時(shí)性的信息需求,并實(shí)現(xiàn)了對(duì)同類信 息需求的共享,同時(shí)降低了對(duì)數(shù)據(jù)源網(wǎng)站的過度壓力。
圖1是本發(fā)明中現(xiàn)有服務(wù)器端訂閱方式的系統(tǒng)構(gòu)架圖;圖2是本發(fā)明具體實(shí)施方式
的共享訂閱系統(tǒng)構(gòu)架圖;圖3是本發(fā)明具體實(shí)施方式
的共享訂閱方法的處理方式示意圖。
具體實(shí)施方式
如圖1,基于系統(tǒng)架構(gòu)分析和硬件需求分析,該互聯(lián)網(wǎng)即時(shí)信息的共享訂閱系統(tǒng)共有四部分組成,分別是用戶端、內(nèi)容服務(wù)器9、調(diào)度服務(wù)器8和下載服務(wù) 器組6,其中用戶端為多個(gè)用戶端,包括用戶端l、用戶端2和其它用戶端4, 另外圖中還示出用戶所需數(shù)據(jù)的提供網(wǎng)站一數(shù)據(jù)源服務(wù)器7。這里采用的用戶端
為中搜的IG用戶端。用戶端和調(diào)度服務(wù)器8內(nèi)配置有共享訂閱數(shù)據(jù)處理模塊,用戶通過用戶端訂閱信息,用戶端根據(jù)訂閱任務(wù)完成訂閱數(shù)據(jù)的收集和分析,主動(dòng)呈現(xiàn)在用戶端,同時(shí)將訂閱數(shù)據(jù)上傳給內(nèi)容服務(wù)器9,內(nèi)容服務(wù)器向所有具有相同訂閱信息 的用戶端分發(fā),實(shí)現(xiàn)訂閱數(shù)據(jù)的共享;內(nèi)容服務(wù)器9為配置內(nèi)容服務(wù)器模塊,具有多陣列的硬盤存儲(chǔ)數(shù)據(jù)及其容 錯(cuò)處理能力的數(shù)據(jù)存儲(chǔ)發(fā)送服務(wù)器,內(nèi)容服務(wù)器接收用戶端的訂閱信息,通過 其配置的索引數(shù)據(jù)庫(kù)檢索訂閱信息,檢索到結(jié)果時(shí),向用戶端推送訂閱數(shù)據(jù); 沒有檢索到結(jié)果時(shí),向調(diào)度服務(wù)器8發(fā)送訂閱數(shù)據(jù)缺失并要求提供訂閱數(shù)據(jù)。調(diào)度服務(wù)器8為配置調(diào)度服務(wù)模塊和共享訂閱數(shù)據(jù)處理模塊的通用服務(wù)器, 在訂閱數(shù)據(jù)缺失或需定時(shí)更新訂閱信息時(shí),調(diào)度服務(wù)器發(fā)出指令,向用戶端或 者下載服務(wù)器組分配數(shù)據(jù)處理任務(wù),當(dāng)用戶端或下載服務(wù)器組完成數(shù)據(jù)處理任 務(wù)后,將數(shù)據(jù)處理結(jié)果發(fā)送至內(nèi)容服務(wù)器,由內(nèi)容服務(wù)器推送至用戶端;下載服務(wù)器組6為配置下載服務(wù)器組模塊的普通PC機(jī),在用戶端資源有限 時(shí)進(jìn)行訂閱數(shù)據(jù)的抓取、處理和上傳。組成該共享訂閱系統(tǒng)的四個(gè)模塊分別為共享訂閱數(shù)據(jù)處理模塊、內(nèi)容服務(wù)模塊、調(diào)度服務(wù)模塊和下載服務(wù)器組模塊。各個(gè)模塊間按照如下流程進(jìn)行工作 100: —用戶從用戶端1發(fā)起訂閱。訂閱分為新訂閱和已有訂閱,新訂閱時(shí), 用戶端1會(huì)向調(diào)度服務(wù)模塊發(fā)消息,注冊(cè)該用戶的訂閱,供調(diào)度服務(wù)模塊調(diào)度 時(shí)參考。200:內(nèi)容服務(wù)模塊接收訂閱,然后從后臺(tái)數(shù)據(jù)庫(kù)檢索訂閱,檢索有結(jié)果則 推送給用戶,結(jié)束。否則,給調(diào)度服務(wù)模塊發(fā)送消息,請(qǐng)求訂閱信息。300:調(diào)度服務(wù)模塊接到調(diào)度請(qǐng)求,分析用戶端2、 3和下載服務(wù)器組的計(jì) 算資源情況,找到最合適的資源,如果用戶端2的資源適合,然后通知用戶端2, 把任務(wù)分配至用戶端2的共享訂閱數(shù)據(jù)處理模塊。400:共享訂閱數(shù)據(jù)處理模塊接到任務(wù)后執(zhí)行。共享訂閱數(shù)據(jù)處理模塊接到有兩類任務(wù),立即執(zhí)行任務(wù)和周期性任務(wù),分別對(duì)應(yīng)無數(shù)據(jù)的新訂閱和己有訂 閱。任務(wù)完成后把結(jié)果發(fā)送至內(nèi)容服務(wù)器。500:內(nèi)容服務(wù)器9接收到結(jié)果后,存儲(chǔ)索引結(jié)果供其他訂閱,同時(shí)推送結(jié)果至訂閱用戶端l。600:用戶端l展示結(jié)果。
以上流程中,100、 600是由用戶端1的共享訂閱數(shù)據(jù)處理模塊完成,400 是由用戶端2的數(shù)據(jù)處理模塊完成,共享訂閱數(shù)據(jù)處理模塊為本架構(gòu)系統(tǒng)的關(guān) 鍵模塊之一,200和500為內(nèi)容服務(wù)模塊功能,300為調(diào)度模塊功能。共享訂閱模塊是嵌入中搜IG用戶端中的一個(gè)單獨(dú)的功能模塊,它只和用戶 下載的IG用戶端通信,等待分配任務(wù)并執(zhí)行如下任務(wù)若用戶發(fā)起某個(gè)訂閱,IG用戶端首先判斷該訂閱是新訂閱還是已有訂閱。 若為新訂閱,IG用戶端首先分別向調(diào)度服務(wù)器和內(nèi)容服務(wù)器發(fā)送新訂閱消息。 然后等待消息。若直接返回訂閱結(jié)果,則由IG用戶端直接展示;若返回的是承 擔(dān)數(shù)據(jù)處理任務(wù)的消息,IG用戶端把接收到的調(diào)度服務(wù)器指令傳送至共享訂閱 數(shù)據(jù)處理模塊,共享訂閱數(shù)據(jù)處理模塊類似一個(gè)"傻終端",任勞任怨的完成各項(xiàng)指示,如下載,分析,排重,上傳等工作。任務(wù)執(zhí)行完畢后把結(jié)果發(fā)送至IG用戶端,由用戶端把結(jié)果的訂閱數(shù)據(jù)上傳至內(nèi)容服務(wù)器。其數(shù)據(jù)下載方式采用分散下載源頭進(jìn)行,變"幾點(diǎn)對(duì)一點(diǎn)方式"(幾個(gè)下 載服務(wù)器對(duì)應(yīng)一個(gè)數(shù)據(jù)源服務(wù)器)為"多點(diǎn)對(duì)一點(diǎn)方式"(很多用戶端和少數(shù) 下載服務(wù)器對(duì)應(yīng)一個(gè)數(shù)據(jù)源服務(wù)器)。采用幾點(diǎn)對(duì)一點(diǎn)方式時(shí),用戶端向訂閱服 務(wù)器請(qǐng)求訂閱數(shù)據(jù),內(nèi)容服務(wù)器檢索索引數(shù)據(jù)庫(kù),沒有結(jié)果時(shí)報(bào)告用戶端查不 到結(jié)果,若有結(jié)果則將結(jié)果返給用戶端。當(dāng)用戶端需求的訂閱信息的實(shí)時(shí)性比 較高的時(shí)候,此時(shí)后臺(tái)下載服務(wù)器必須得頻繁訪問數(shù)據(jù)源服務(wù)器才能取得更新 的數(shù)據(jù),會(huì)給源數(shù)據(jù)服務(wù)器在短時(shí)間內(nèi)造成很大壓力,可能被數(shù)據(jù)源服務(wù)器拒 絕服務(wù)。同時(shí)服務(wù)器響應(yīng)模式都采用輪循制, 一個(gè)IP的N次請(qǐng)求響應(yīng)時(shí)間肯定 要比N個(gè)IP的一次請(qǐng)求響應(yīng)時(shí)間要長(zhǎng)得多。當(dāng)采用多點(diǎn)對(duì)一點(diǎn)方式的架構(gòu)時(shí), 因?yàn)橛脩舳说臄?shù)量比下載服務(wù)器組的數(shù)量要大的多,用戶端在數(shù)據(jù)源服務(wù)器的 請(qǐng)求響應(yīng)更能迅速的得到滿足。同時(shí),如若査不到結(jié)果,調(diào)度服務(wù)器立即會(huì)調(diào) 度資源為用戶搜索其需求,并在盡可能短的時(shí)間內(nèi)給用戶端以回復(fù)。正是基于 這些因素的考慮,可以把具有數(shù)據(jù)收集下載功能的數(shù)據(jù)收集下載子模塊放在共 享訂閱數(shù)據(jù)處理模塊里邊,并打包到了用戶端里。在數(shù)據(jù)收集下載子模塊中,設(shè)置了兩個(gè)URL隊(duì)列立即更新URL隊(duì)列和 普通更新URL隊(duì)列。兩個(gè)隊(duì)列的區(qū)別就是響應(yīng)優(yōu)先級(jí)不同,立即更新URL隊(duì) 列要求立即去響應(yīng)用戶的訂閱需求,普通URL隊(duì)列一般是周期性的下載訂閱需 求。立即更新隊(duì)列對(duì)應(yīng)用戶新添加的一個(gè)訂閱需求,當(dāng)用戶發(fā)起此類訂閱需求
時(shí)候,此時(shí)無論后臺(tái)索引數(shù)據(jù)庫(kù)有沒有數(shù)據(jù)都要立即相應(yīng)用戶的需求。當(dāng)后臺(tái)索引數(shù)據(jù)庫(kù)有用戶所需訂閱信息時(shí),由內(nèi)容服務(wù)模塊負(fù)責(zé)返回用戶所需訂閱信息,共享訂閱數(shù)據(jù)處理模塊不會(huì)被啟動(dòng)。當(dāng)后臺(tái)索引數(shù)據(jù)庫(kù)沒有用戶所需訂閱信息時(shí),由內(nèi)容服務(wù)模塊通知調(diào)度模塊處理,調(diào)度服務(wù)模塊按照一定的條件選擇某個(gè)端口 (用戶端或者下載服務(wù)器組)的共享訂閱數(shù)據(jù)處理模塊啟動(dòng),添加立即更新URL內(nèi)容去下載訂閱數(shù)據(jù)。普通更新URL隊(duì)列對(duì)應(yīng)用戶已經(jīng)存在的訂閱信息需求,為了滿足用戶對(duì)訂 閱信息的實(shí)時(shí)性需求,需要定時(shí)的抓取源數(shù)據(jù)服務(wù)器內(nèi)容,分析處理后推送給 用戶。當(dāng)某個(gè)用戶端的共享訂閱數(shù)據(jù)處理模塊被選中時(shí),定期的抓取普通更新 URL隊(duì)列里的內(nèi)容,供共享訂閱數(shù)據(jù)處理模塊的分析功能處理。下載的訂閱數(shù)據(jù)按來源可以分為兩類, 一類就是專業(yè)門戶站點(diǎn)的站內(nèi)檢索 結(jié)果頁(yè), 一類就是專業(yè)垂直搜索引擎的檢索結(jié)果頁(yè)。專業(yè)門戶站點(diǎn)一般專注于 某一領(lǐng)域,力求成為關(guān)心這一領(lǐng)域內(nèi)容的用戶上網(wǎng)的首選站點(diǎn),因此其信息比 較專業(yè)豐富,是選擇的主要目標(biāo)之一。對(duì)于專業(yè)門戶站點(diǎn)的站內(nèi)檢索結(jié)果頁(yè), 首先要對(duì)檢索結(jié)果頁(yè)分析,找出其中每個(gè)內(nèi)容頁(yè)面的地址,然后按照響應(yīng)優(yōu)先 級(jí)程度分別掛在立即更新URL隊(duì)列和普通更新URL隊(duì)列上,等待下載。垂直 搜索引擎多是抓取專業(yè)網(wǎng)站的信息,分析整理后索引至自己的數(shù)據(jù)庫(kù),以便用 戶的查詢。這樣,數(shù)據(jù)來源的不一致造成了如格式不一的諸多問題,不同數(shù)據(jù)源的同 一化也是必不可少的。下載的原始網(wǎng)頁(yè)數(shù)據(jù)不光包含了用戶所需的信息,還包含了很多其他的信 息網(wǎng)站導(dǎo)航、版權(quán)聲明、廣告鏈接等等,這些是用戶不關(guān)心的。因此從原始 網(wǎng)頁(yè)分析出結(jié)構(gòu)化的數(shù)據(jù),整理出用戶關(guān)心的內(nèi)容是數(shù)據(jù)分析的重要職責(zé)。對(duì)來源于專業(yè)門戶的內(nèi)容數(shù)據(jù),調(diào)用分析程序分析內(nèi)容頁(yè)面,把頁(yè)面轉(zhuǎn)化 為一條實(shí)際記錄,發(fā)送給IG用戶端。對(duì)于垂直搜索引擎的檢索結(jié)果,可以直接解析出其結(jié)果,每一條形成-一個(gè) 記錄,發(fā)送給IG用戶端。因?yàn)樗阉饕嬉话闶菍?shí)現(xiàn)抓取大量的相關(guān)網(wǎng)站的信息 后,加工處理,形成自己的數(shù)據(jù)庫(kù)以備用戶檢索,因此其結(jié)果可以直接拿來使 用,這樣的做法類似原搜索引擎。在此可利用基于網(wǎng)頁(yè)模板分析技術(shù)和正則匹配的技術(shù)來抽取結(jié)構(gòu)化的記錄 信息,它具有很高的準(zhǔn)確性,同時(shí)具有極高的分析速度。從單一數(shù)據(jù)源上看,其數(shù)據(jù)是規(guī)范的,多按照某種模式自數(shù)據(jù)庫(kù)中抽出展 示給用戶。單一數(shù)據(jù)源的規(guī)范、 一致的數(shù)據(jù)集合在一起,就有了差別。多個(gè)數(shù) 據(jù)源的數(shù)據(jù)差異必須經(jīng)過同一化處理,處理成同一的格式,否則發(fā)送到內(nèi)容服 務(wù)器后,把相同的數(shù)據(jù)當(dāng)成不同數(shù)據(jù)存儲(chǔ)索引, 一方面浪費(fèi)了存儲(chǔ)空間,加L《 了查找時(shí)間,更重要的是嚴(yán)重影響了用戶的感受。本發(fā)明方法在數(shù)據(jù)分析的時(shí) 候,把不同的數(shù)據(jù)同質(zhì)化,使得數(shù)據(jù)具有可比較性。內(nèi)容頁(yè)面經(jīng)過數(shù)據(jù)分析,整理成統(tǒng)一的格式后,此時(shí)可能存在來源于不同 的網(wǎng)站的相同數(shù)據(jù)記錄,這對(duì)用戶而言是多余的,此類數(shù)據(jù)記錄需要排除掉, 只留一份提供服務(wù)。其保留策略可分為先到為主原則或者站點(diǎn)權(quán)重優(yōu)先原則。 先到為主原則是以先分析出的數(shù)據(jù)記錄為保留條目,后面有與其相同的數(shù)據(jù)記 錄統(tǒng)統(tǒng)拋棄;站點(diǎn)權(quán)重優(yōu)先原則是分析后的數(shù)據(jù)記錄和其來源作為一個(gè)整體。 當(dāng)后續(xù)分析數(shù)據(jù)記錄有與先前相同時(shí),兩者比較后,保留站點(diǎn)權(quán)重較大的數(shù)據(jù)。經(jīng)過下載、分析、排重后的數(shù)據(jù),附著上其他信息形成一條記錄,由共享 訂閱數(shù)據(jù)處理模塊發(fā)送至IG用戶端,再由IG用戶端發(fā)送到內(nèi)容服務(wù)器,共享 給其他的用戶。在實(shí)際情況中,發(fā)送的數(shù)據(jù)量不是很大,記錄在發(fā)送時(shí)沒有打 包壓縮處理,壓縮后可以更加節(jié)省空間。數(shù)據(jù)的存儲(chǔ)要考慮到存儲(chǔ)量和查詢速度的需求。假設(shè)有IO萬不同的訂閱,每條訂閱保存IOOO條歷史記錄,每條記錄按1KB計(jì)算,大概有0.1MX 1000X 1KB為100 KMB即IOOG的數(shù)據(jù)量,顯然這么大的數(shù)據(jù)量是不能完全存儲(chǔ)在內(nèi) 存中的。為此本發(fā)明借用了搜索引擎公司特有的大數(shù)據(jù)量的文件快速存取和查 詢技術(shù)來處理用戶查詢記錄,典型的技術(shù)有多級(jí)緩存、倒排索引等技術(shù)。調(diào)度服務(wù)模塊與IG用戶端和下載服務(wù)器組模塊通信,負(fù)責(zé)調(diào)配資源,分配 任務(wù)。為了降低同一個(gè)站點(diǎn)對(duì)數(shù)據(jù)源服務(wù)器的集中大量式請(qǐng)求,本發(fā)明改"兒 點(diǎn)對(duì)一點(diǎn)方式"為"多點(diǎn)對(duì)一點(diǎn)方式"。在所謂的"多點(diǎn)"中,我們并不是調(diào)度 所有的點(diǎn)去執(zhí)行數(shù)據(jù)處理任務(wù),而是由調(diào)度服務(wù)模塊在參考用戶端和下載服務(wù) 器組端的計(jì)算資源情況下,選擇較優(yōu)的資源去執(zhí)行數(shù)據(jù)處理任務(wù)。其中用戶端考慮的因素主要有用戶有該訂閱的需求、用戶端的主機(jī)的CPU 資源、用戶端的帶寬資源、沒有承擔(dān)過多的數(shù)據(jù)處理任務(wù)。調(diào)度模塊主要體現(xiàn)兩個(gè)原則信息共享來自于我的奉獻(xiàn)和以用戶為本,不干擾用戶正常工作。調(diào)度服務(wù)模塊接收內(nèi)容服務(wù)器信息需求請(qǐng)求,然后根據(jù)訂 閱信息注冊(cè)情況,綜合各種資源,向某一個(gè)或者一些用戶端下達(dá)數(shù)據(jù)處理任務(wù)指令。下載服務(wù)器組模塊是對(duì)原有框架的一個(gè)保留補(bǔ)充。當(dāng)目前的用戶端資源有 限時(shí),調(diào)度服務(wù)模塊會(huì)調(diào)度該模塊控制的下載服務(wù)器組完成數(shù)據(jù)抓取、處理和 上傳的任務(wù),保證訂閱信息服務(wù)的有效性,再者,該模塊還將分析訂閱信息請(qǐng)求,對(duì)擁有較多訂閱請(qǐng)求者的訂閱定期更新,并做Cache處理,以便及時(shí)快速 的相應(yīng)用戶需求。還可將下載任務(wù)分散均衡,可以在數(shù)據(jù)源服務(wù)器較空閑的時(shí) 間抓取分析數(shù)據(jù)。如圖3,該共享訂閱方法的具體處理方式和方法如下101:用戶端2發(fā)起一個(gè)新訂閱信息,向內(nèi)容服務(wù)器9發(fā)送該訂閱信息消息。 102:同時(shí),用戶端2向調(diào)度服務(wù)器8發(fā)送消息,注冊(cè)該訂閱信息。 201:內(nèi)容服務(wù)器9檢索到結(jié)果,則把結(jié)果推送給用戶端2,訂閱結(jié)束。 202:內(nèi)容服務(wù)器9沒有檢索到結(jié)果,則向調(diào)度服務(wù)器8發(fā)送消息。 301:調(diào)度服務(wù)器8若發(fā)現(xiàn)一個(gè)用戶端1滿足條件,則向用戶端1送指令。 401:用戶端1執(zhí)行調(diào)度服務(wù)器8發(fā)出指令的分配任務(wù),其配置的共享訂閱數(shù)據(jù)處理模塊開始工作,從數(shù)據(jù)源服務(wù)器7收集、分析、排重訂閱數(shù)據(jù)。 103:用戶端1工作完成后把訂閱數(shù)據(jù)上傳至內(nèi)容服務(wù)器9。 302:若用戶端1和其它用戶端4處理能力不夠,則向下載服務(wù)器組6發(fā)送消息。402:下載服務(wù)器組6接收到調(diào)度服務(wù)器8的工作指令后,其共享訂閱數(shù)據(jù) 處理模塊開始工作,從數(shù)據(jù)源服務(wù)器7收集、分析、排重訂閱數(shù)據(jù)。403:下載服務(wù)器組工作完成后把訂閱數(shù)據(jù)傳送內(nèi)容服務(wù)器9,由內(nèi)容服務(wù) 器將結(jié)果推送至所有客戶端展示,訂閱結(jié)束。104:其它用戶端4發(fā)起一個(gè)新訂閱信息,向內(nèi)容服務(wù)器9發(fā)送該訂閱信息 消息。203:內(nèi)容服務(wù)器9檢索到結(jié)果,則把結(jié)果推送給其它用戶端4,訂閱結(jié)束。
權(quán)利要求
1. 一種互聯(lián)網(wǎng)即時(shí)信息的共享訂閱系統(tǒng),包括用戶端,其特征在于該共享 訂閱系統(tǒng)還包括共享訂閱數(shù)據(jù)處理模塊,用戶端通過該模塊進(jìn)行訂閱信息的發(fā)送,訂閱數(shù) 據(jù)的收集、分析、排重和上傳;內(nèi)容服務(wù)模塊,負(fù)責(zé)訂閱數(shù)據(jù)的接收、存儲(chǔ)、檢索及推送,并與調(diào)度服務(wù) 模塊通信;調(diào)度服務(wù)模塊,該模塊與用戶端通信,調(diào)配用戶端的資源,分配訂閱數(shù)據(jù) 下載任務(wù)。
2. 根據(jù)權(quán)利要求l所述的互聯(lián)網(wǎng)即時(shí)信息的共享訂閱系統(tǒng),其特征在于所 述共享訂閱系統(tǒng)還包括一下載服務(wù)器組模塊,在用戶端資源有限時(shí),進(jìn)行訂閱 數(shù)據(jù)的抓取、處理和上傳,所述下載服務(wù)器組模塊與用戶端和調(diào)度服務(wù)模塊通 信,調(diào)度服務(wù)模塊調(diào)配用戶端和下載服務(wù)器組模塊的資源,分配訂閱數(shù)據(jù)下載 任務(wù)。
3. 根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)即時(shí)信息的共享訂閱系統(tǒng),其特征在于該 共享訂閱系統(tǒng)的包括用戶端、內(nèi)容服務(wù)器、調(diào)度服務(wù)器和下載服務(wù)器組,其中用戶端和下載服務(wù)器組內(nèi)配置有共享訂閱數(shù)據(jù)處理模塊,用戶通過用戶端 訂閱信息,用戶端根據(jù)訂閱任務(wù)完成訂閱數(shù)據(jù)的收集和分析,并主動(dòng)呈現(xiàn)給用 戶,同時(shí)將訂閱數(shù)據(jù)上傳給內(nèi)容服務(wù)器,內(nèi)容服務(wù)器向所有具有相同訂閱信息 的用戶端分發(fā),實(shí)現(xiàn)訂閱數(shù)據(jù)的共享;內(nèi)容服務(wù)器為配置內(nèi)容服務(wù)器模塊,具有多陣列的硬盤存儲(chǔ)數(shù)據(jù)及其容錯(cuò) 處理能力的數(shù)據(jù)存儲(chǔ)發(fā)送服務(wù)器,內(nèi)容服務(wù)器接收用戶端的訂閱信息,通過其 配置的索引數(shù)據(jù)庫(kù)檢索訂閱信息,檢索到結(jié)果時(shí),向用戶端推送訂閱數(shù)據(jù);沒 有檢索到結(jié)果時(shí),向調(diào)度服務(wù)器發(fā)送訂閱數(shù)據(jù)缺失并要求提供訂閱數(shù)據(jù)。調(diào)度服務(wù)器為配置調(diào)度服務(wù)模塊的通用服務(wù)器,在訂閱數(shù)據(jù)缺失或需定時(shí) 更新訂閱信息時(shí),調(diào)度服務(wù)器發(fā)出指令,向用戶端或者下載服務(wù)器組分配數(shù)據(jù) 處理任務(wù),當(dāng)用戶端或下載服務(wù)器組完成數(shù)據(jù)處理任務(wù)后,將數(shù)據(jù)處理結(jié)果發(fā) 送至內(nèi)容服務(wù)器,由內(nèi)容服務(wù)器推送至用戶端;下載服務(wù)器組為配置下載服務(wù)器組模塊的普通PC機(jī),在用戶端資源有限時(shí)進(jìn)行訂閱數(shù)據(jù)的抓取、處理和上傳。
4. 根據(jù)權(quán)利要求3所述的互聯(lián)網(wǎng)即時(shí)信息的共享訂閱系統(tǒng),其特征在丁所 述用戶端、內(nèi)容服務(wù)器、調(diào)度服務(wù)器、下載服務(wù)器組間通過http協(xié)議建立通信 聯(lián)系。
5. —種互聯(lián)網(wǎng)即時(shí)信息的共享訂閱方法,其特征在于所述共享訂閱方法包括用戶從服務(wù)器端下載用戶端實(shí)現(xiàn)信息的訂閱任務(wù)設(shè)定,用戶端承擔(dān)服務(wù)器端的部分功能,根據(jù)訂閱任務(wù)完成訂閱數(shù)據(jù)的收集、分析和過濾,牛:動(dòng)呈現(xiàn)給客戶;同時(shí)用戶端將訂閱數(shù)據(jù)上傳給服務(wù)器端,服務(wù)器端向所有具有相同訂閱 任務(wù)的用戶端分發(fā),實(shí)現(xiàn)訂閱數(shù)據(jù)的共亨。
6. 根據(jù)權(quán)利耍求5所述的互聯(lián)網(wǎng)即時(shí)信息的共享訂閱方法,其特征在于所 述服務(wù)器端對(duì)用戶端的計(jì)算資源進(jìn)行協(xié)調(diào),在計(jì)算資源緊張的情況下,參與完 成訂閱數(shù)據(jù)的收集、分析和過濾,并存儲(chǔ)訂閱數(shù)據(jù),向所有具有相同訂閱任務(wù) 的用戶端分發(fā)。
7. 根據(jù)權(quán)利要求5所述的互聯(lián)網(wǎng)即時(shí)信息的共享訂閱方法,其特征在于所 述共享訂閱方法中,用戶端和服務(wù)器端配置有共享訂閱數(shù)據(jù)處理模塊、內(nèi)容服務(wù)模塊、調(diào)度服務(wù)模塊和下載服務(wù)組模塊,所述共享訂閱方法包括用戶從用戶端發(fā)起訂閱信息,所述訂閱信息分為新訂閱和已有訂閱信息, 新訂閱信息時(shí),用戶端會(huì)向調(diào)度服務(wù)模塊發(fā)送消息,注冊(cè)該用戶的訂閱,并為調(diào)度服務(wù)模塊調(diào)度時(shí)參考;內(nèi)容服務(wù)模塊接收訂閱信息,然后從其后臺(tái)的索引數(shù)據(jù)庫(kù)檢索訂閱信息, 檢索有結(jié)果則將訂閱數(shù)據(jù)推送至用戶端,否則,給調(diào)度服務(wù)器發(fā)送消息,請(qǐng)求 訂閱信息;調(diào)度服務(wù)模塊接收到訂閱信息請(qǐng)求后,分析用戶端和下載服務(wù)器組模塊的 計(jì)算資源,找到最合適的計(jì)算資源,然后通知用戶端,將訂閱任務(wù)分配至共享 訂閱數(shù)據(jù)處理模塊;共享訂閱數(shù)據(jù)處理模塊接收到訂閱任務(wù)后執(zhí)行,進(jìn)行訂閱數(shù)據(jù)的收集、分 析和排重,并將訂閱數(shù)據(jù)上傳至內(nèi)容服務(wù)器;內(nèi)容服務(wù)器接收到訂閱數(shù)據(jù)后,存儲(chǔ)索引結(jié)果供其它訂閱該信息的用戶共 享,同時(shí)推送該訂閱數(shù)據(jù)至訂閱用戶端;用戶端呈現(xiàn)訂閱數(shù)據(jù)。
8. 根據(jù)權(quán)利要求5所述的互聯(lián)網(wǎng)即時(shí)信息的共享訂閱方法,其特征在子所述服務(wù)器端包括內(nèi)容服務(wù)器、調(diào)度服務(wù)器和下載服務(wù)器組,所述共享訂閱方法 具體包括一用戶通過用戶端發(fā)起一新的訂閱信息,用戶端向內(nèi)容服務(wù)器發(fā)送該訂閱 信息,同時(shí)向調(diào)度服務(wù)器發(fā)送消息,注冊(cè)該訂閱信息;內(nèi)容服務(wù)器接收到該訂閱信息,如果檢索到已存儲(chǔ)的相應(yīng)訂閱數(shù)據(jù),則把訂閱數(shù)據(jù)向該用戶發(fā)送,如果沒有檢索到訂閱數(shù)據(jù),則向調(diào)度服務(wù)器發(fā)送請(qǐng)求;調(diào)度服務(wù)器接收請(qǐng)求后,進(jìn)行訂閱任務(wù)分配調(diào)度,如果發(fā)現(xiàn)其它客戶端滿 足條件,則向該客戶端發(fā)送指令,該客戶端執(zhí)行調(diào)度服務(wù)器分配的訂閱任務(wù),進(jìn)行訂閱數(shù)據(jù)的收集、分析和排重,并將訂閱數(shù)據(jù)上傳至內(nèi)容服務(wù)器;如果其 它客戶端計(jì)算資源不足,則向下載服務(wù)器組發(fā)送指令;下載服務(wù)器組接收到調(diào)度服務(wù)器的工作指令后,進(jìn)行訂閱數(shù)據(jù)的抓取與分 析,排重,并將訂閱數(shù)據(jù)上傳至內(nèi)容服務(wù)器;內(nèi)容服務(wù)器將訂閱數(shù)據(jù)推送至所有訂閱信息的客戶端,實(shí)現(xiàn)共享訂閱。
9. 根據(jù)權(quán)利要求7所述的互聯(lián)網(wǎng)即時(shí)信息的共享訂閱方法,其特征在于所 述共享訂閱數(shù)據(jù)處理模塊內(nèi)設(shè)有一數(shù)據(jù)收集下載子模塊,所述數(shù)據(jù)收集下載子 模塊包括立即更新和普通更新兩個(gè)URL隊(duì)列,所述立即更新URL隊(duì)列對(duì)應(yīng)用戶端添加的一個(gè)新訂閱信息,此時(shí)無論內(nèi)容 服務(wù)模塊是否存儲(chǔ)有該訂閱數(shù)據(jù)都要立即響應(yīng)用戶端的新訂閱信息;當(dāng)內(nèi)容服 務(wù)模塊存儲(chǔ)有所需訂閱數(shù)據(jù)時(shí),由內(nèi)容服務(wù)模塊推送該訂閱數(shù)據(jù),共享訂閱數(shù) 據(jù)處理模塊不啟動(dòng);當(dāng)內(nèi)容服務(wù)模塊沒有所需訂閱數(shù)據(jù)時(shí),由內(nèi)容服務(wù)模塊請(qǐng) 求調(diào)度模塊,調(diào)度模塊選擇用戶端或下載服務(wù)器組模塊的共享數(shù)據(jù)處理模塊啟 動(dòng),添加立即更新URL隊(duì)列去下載數(shù)據(jù);所述普通更新URL隊(duì)列對(duì)應(yīng)用戶端已經(jīng)存在的訂閱信息,內(nèi)容服務(wù)模塊定 時(shí)的收集源數(shù)據(jù)內(nèi)容,分析處理后推送給用戶端。
全文摘要
互聯(lián)網(wǎng)即時(shí)信息的共享訂閱系統(tǒng)及共享訂閱方法,該系統(tǒng)包括用戶端、共享訂閱數(shù)據(jù)處理模塊、內(nèi)容服務(wù)模塊和調(diào)度服務(wù)模塊。該方法包括用戶從服務(wù)器端下載用戶端,用戶端根據(jù)訂閱任務(wù)完成訂閱數(shù)據(jù)的收集、分析和過濾,主動(dòng)呈現(xiàn)給客戶;同時(shí)用戶端將訂閱數(shù)據(jù)上傳給服務(wù)器端,服務(wù)器端向所有具有相同訂閱任務(wù)的用戶端分發(fā),實(shí)現(xiàn)訂閱數(shù)據(jù)的共享。本發(fā)明充分結(jié)合用戶端訂閱和服務(wù)器端訂閱二種訂閱方式的優(yōu)點(diǎn),能夠較好的利用服務(wù)器和用戶端的CPU資源和帶寬資源,實(shí)現(xiàn)及時(shí)、有效的信息訂閱的互聯(lián)網(wǎng)即時(shí)信息的共享訂閱方法,它滿足用戶實(shí)時(shí)性的信息需求,并實(shí)現(xiàn)了對(duì)同類信息需求的共享,同時(shí)降低了對(duì)數(shù)據(jù)源網(wǎng)站的過度壓力。
文檔編號(hào)H04L12/58GK101146058SQ20071016617
公開日2008年3月19日 申請(qǐng)日期2007年11月13日 優(yōu)先權(quán)日2007年11月13日
發(fā)明者許歡慶, 郭永福, 沛 陳 申請(qǐng)人:北京中搜在線軟件有限公司