本申請涉及計算機應(yīng)用技術(shù)領(lǐng)域,更具體地說,涉及一種信息采集系統(tǒng)及web應(yīng)用。
背景技術(shù):
web(worldwideweb,全球廣域網(wǎng)),也稱為萬維網(wǎng),是一種基于超文本和http(hypertexttransferprotocol,超文本傳輸協(xié)議)的分布式圖形信息系統(tǒng)。web應(yīng)用是一種可以通過web訪問的應(yīng)用程序。web應(yīng)用的一個最大好處是用戶很容易訪問應(yīng)用程序。用戶只需要有瀏覽器即可,不需要再安裝其他軟件,這一特性使得web應(yīng)用的使用非常廣泛。
隨著信息化的不斷推進,如何采集用戶在訪問web應(yīng)用過程中產(chǎn)生的數(shù)據(jù)(例如被訪問次數(shù)、關(guān)鍵詞搜索頻次等)成為各個web應(yīng)用公司關(guān)注的焦點?,F(xiàn)有技術(shù)中對于web應(yīng)用在用戶訪問過程中產(chǎn)生的信息采集的方式通常為:抓取服務(wù)器生成的日志,并對抓取的日志進行分析以期得到想要的信息數(shù)據(jù)。但是隨著服務(wù)器使用時間的增加,服務(wù)器生成的日志數(shù)量越來越多,對服務(wù)器日志的抓取和分析消耗的計算資源變得越來越龐大,并且由于各個服務(wù)器生成的日志格式的不一,導(dǎo)致日志的分析難度很大。
技術(shù)實現(xiàn)要素:
為解決上述技術(shù)問題,本發(fā)明提供了一種信息采集系統(tǒng)及web應(yīng)用,以實現(xiàn)降低采集目標數(shù)據(jù)所消耗的計算資源和日志文件的分析難度的目的。
為實現(xiàn)上述技術(shù)目的,本發(fā)明實施例提供了如下技術(shù)方案:
一種信息采集系統(tǒng),應(yīng)用于web應(yīng)用,所述信息采集系統(tǒng)包括:數(shù)據(jù)采集模塊、數(shù)據(jù)寫入模塊和數(shù)據(jù)分析模塊;其中,
所述數(shù)據(jù)采集模塊,用于采集目標數(shù)據(jù)并向所述數(shù)據(jù)寫入模塊傳輸;
所述數(shù)據(jù)寫入模塊,用于將所述目標數(shù)據(jù)以預(yù)設(shè)格式寫入日志文件中;
所述數(shù)據(jù)分析模塊,用于分析所述日志文件獲得分析數(shù)據(jù)。
可選的,所述數(shù)據(jù)采集模塊具體用于,以異步方式采集所述目標數(shù)據(jù)并向所述數(shù)據(jù)寫入模塊傳輸。
可選的,所述數(shù)據(jù)寫入模塊具體用于每隔預(yù)設(shè)時間生成一個日志文件,所述日志文件包括所述預(yù)設(shè)時間內(nèi)的目標數(shù)據(jù)。
可選的,所述數(shù)據(jù)寫入模塊還用于以預(yù)設(shè)分類模式對生成的日志文件進行分類保存。
可選的,所述預(yù)設(shè)分類模式為按日志生成日期分類。
可選的,所述數(shù)據(jù)分析模塊具體用于,在每個預(yù)設(shè)周期內(nèi)分析所述日志文件獲得分析數(shù)據(jù)。
可選的,所述數(shù)據(jù)分析模塊還用于在每個預(yù)設(shè)周期內(nèi)根據(jù)所述分析數(shù)據(jù)生成數(shù)據(jù)報表。
可選的,所述目標數(shù)據(jù)為收視率數(shù)據(jù)或點擊率數(shù)據(jù)或關(guān)鍵詞搜索頻次數(shù)據(jù)。
一種web應(yīng)用,包括前端頁面、后臺處理模塊和上述任一項所述的信息采集系統(tǒng)。
從上述技術(shù)方案可以看出,本發(fā)明實施例提供了一種信息采集系統(tǒng)及web應(yīng)用,其中,所述信息采集系統(tǒng)直接通過所述數(shù)據(jù)采集模塊采集web應(yīng)用的目標數(shù)據(jù),而不需要抓取服務(wù)器日志再對服務(wù)器日志進行分析,降低了目標數(shù)據(jù)采集過程消耗的計算資源;所述輸入寫入模塊以統(tǒng)一的預(yù)設(shè)格式將所述目標數(shù)據(jù)寫入日志文件中,從而降低了所述數(shù)據(jù)分析模塊分析所述日志文件獲得分析數(shù)據(jù)的難度。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本申請的一個實施例提供的一種信息采集系統(tǒng)的結(jié)構(gòu)示意圖;
圖2為本申請的一個實施例提供的一種web應(yīng)用的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本申請實施例提供了一種信息采集系統(tǒng),如圖1所示,應(yīng)用于web應(yīng)用,所述信息采集系統(tǒng)包括:數(shù)據(jù)采集模塊100、數(shù)據(jù)寫入模塊200和數(shù)據(jù)分析模塊300;其中,
所述數(shù)據(jù)采集模塊100,用于采集目標數(shù)據(jù)并向所述數(shù)據(jù)寫入模塊200傳輸;
所述數(shù)據(jù)寫入模塊200,用于將所述目標數(shù)據(jù)以預(yù)設(shè)格式寫入日志文件中;
所述數(shù)據(jù)分析模塊300,用于分析所述日志文件獲得分析數(shù)據(jù)。
需要說明的是,一般情況下,所述web應(yīng)用由前端頁面和后臺處理模塊構(gòu)成,在實際應(yīng)用過程中,所述數(shù)據(jù)采集模塊100一般內(nèi)嵌于所述web應(yīng)用的前端頁面中,所述數(shù)據(jù)寫入模塊200和數(shù)據(jù)分析模塊300集成于所述后臺處理模塊中,所述數(shù)據(jù)采集模塊100直接采集用戶訪問所述web應(yīng)用產(chǎn)生的數(shù)據(jù)中的目標數(shù)據(jù),這些目標數(shù)據(jù)可以是收視率數(shù)據(jù),也可以是點擊率數(shù)據(jù),還可以是關(guān)鍵詞搜索頻次數(shù)據(jù),本申請對所述目標數(shù)據(jù)的具體種類并不做限定,具體視實際情況而定。
所述信息采集系統(tǒng)直接通過所述數(shù)據(jù)采集模塊100采集web應(yīng)用的目標數(shù)據(jù),而不需要抓取服務(wù)器日志再對服務(wù)器日志進行分析,降低了目標數(shù)據(jù)采集過程消耗的計算資源;所述輸入寫入模塊以統(tǒng)一的預(yù)設(shè)格式將所述目標數(shù)據(jù)寫入日志文件中,從而降低了所述數(shù)據(jù)分析模塊300分析所述日志文件獲得分析數(shù)據(jù)的難度。
在上述實施例的基礎(chǔ)上,在本申請的一個實施例中,所述數(shù)據(jù)采集模塊100具體用于,以異步方式采集所述目標數(shù)據(jù)并向所述數(shù)據(jù)寫入模塊200傳輸。
在本實施例中,以異步方式采集所述目標數(shù)據(jù)的目的是避免采集所述目標數(shù)據(jù)的過程拖慢web應(yīng)用的加載速度。
具體地,可以通過ajax(asynchronousjavascriptandxml,異步j(luò)avascript和xml)實現(xiàn)異步采集所述目標數(shù)據(jù)。ajax是一種用于創(chuàng)建快速動態(tài)網(wǎng)頁的技術(shù)。通過在后臺進行的少量數(shù)據(jù)交換,ajax可以使網(wǎng)頁實現(xiàn)異步更新。這意味著可以在不重新加載整個網(wǎng)頁的情況下,對網(wǎng)頁的某部分進行更新。
在上述實施例的基礎(chǔ)上,在本申請的另一個實施例中,所述數(shù)據(jù)寫入模塊200具體用于每隔預(yù)設(shè)時間生成一個日志文件,所述日志文件包括所述預(yù)設(shè)時間內(nèi)的目標數(shù)據(jù)。
在本實施例中,所述數(shù)據(jù)寫入模塊200將每個預(yù)設(shè)時間內(nèi)的目標數(shù)據(jù)寫入一個日志文件中,所述預(yù)設(shè)時間的取值可以是30min、60min、90min或120min。本申請對所述預(yù)設(shè)時間的具體取值并不做限定,具體視實際情況而定。
在上述實施例的基礎(chǔ)上在,在本申請的又一個實施例中,所述數(shù)據(jù)寫入模塊200還用于以預(yù)設(shè)分類模式對生成的日志文件進行分類保存。
在本實施例中,以預(yù)設(shè)分類模式保存生成的日志文件的目的是進一步降低所述數(shù)據(jù)分析模塊300對日志文件的分析難度。例如,在本申請的一個實施例中,所述預(yù)設(shè)分類模式為按日志生成日期分類,則所述數(shù)據(jù)分析模塊300想要獲得2017年3月份各個電視劇的收視率,就可以只對3月份的日志文件進行分析,避免了對大量日志文件進行盲目分析和處理的情況,降低了所述數(shù)據(jù)分析模塊300的分析難度。
在上述實施例的基礎(chǔ)上,在本申請的一個優(yōu)選實施例中,所述數(shù)據(jù)分析模塊300具體用于,在每個預(yù)設(shè)周期內(nèi)分析所述日志文件獲得分析數(shù)據(jù)。
需要說明的是,所述預(yù)設(shè)周期可以為每隔一天、每隔一周或每隔1小時等。本申請對所述預(yù)設(shè)周期的具體取值并不做限定,具體視實際情況而定。
在上述實施例的基礎(chǔ)上,在本申請的另一個優(yōu)選實施例中,所述數(shù)據(jù)分析模塊300還用于在每個預(yù)設(shè)周期內(nèi)根據(jù)所述分析數(shù)據(jù)生成數(shù)據(jù)報表。
在本實施例中,所述數(shù)據(jù)分析模塊300生成的數(shù)據(jù)報表可以為分析人員提供分析數(shù)據(jù)。
綜上所述,本申請實施例提供了一種信息采集系統(tǒng),所述信息采集系統(tǒng)直接通過所述數(shù)據(jù)采集模塊100采集web應(yīng)用的目標數(shù)據(jù),而不需要抓取服務(wù)器日志再對服務(wù)器日志進行分析,降低了目標數(shù)據(jù)采集過程消耗的計算資源;所述輸入寫入模塊以統(tǒng)一的預(yù)設(shè)格式將所述目標數(shù)據(jù)寫入日志文件中,從而降低了所述數(shù)據(jù)分析模塊300分析所述日志文件獲得分析數(shù)據(jù)的難度。
相應(yīng)的,本申請實施例還提供了一種web應(yīng)用,如圖2所示,包括前端頁面a10、后臺處理模塊a20和上述任一實施例所述的信息采集系統(tǒng)a30。
在實際應(yīng)用過程中,所述信息采集系統(tǒng)a30的數(shù)據(jù)采集模塊一般內(nèi)嵌于所述web應(yīng)用的前端頁面中,所述信息采集系統(tǒng)a30的數(shù)據(jù)寫入模塊和數(shù)據(jù)分析模塊集成于所述后臺處理模塊中,所述數(shù)據(jù)采集模塊直接采集用戶訪問所述web應(yīng)用產(chǎn)生的數(shù)據(jù)中的目標數(shù)據(jù),這些目標數(shù)據(jù)可以是收視率數(shù)據(jù),也可以是點擊率數(shù)據(jù),還可以是關(guān)鍵詞搜索頻次數(shù)據(jù),本申請對所述目標數(shù)據(jù)的具體種類并不做限定,具體視實際情況而定。
綜上所述,本申請實施例提供了一種信息采集系統(tǒng)及web應(yīng)用,其中,所述信息采集系統(tǒng)直接通過所述數(shù)據(jù)采集模塊采集web應(yīng)用的目標數(shù)據(jù),而不需要抓取服務(wù)器日志再對服務(wù)器日志進行分析,降低了目標數(shù)據(jù)采集過程消耗的計算資源;所述輸入寫入模塊以統(tǒng)一的預(yù)設(shè)格式將所述目標數(shù)據(jù)寫入日志文件中,從而降低了所述數(shù)據(jù)分析模塊分析所述日志文件獲得分析數(shù)據(jù)的難度。
本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。
對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。