本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)處理方法和裝置。
背景技術(shù):
互聯(lián)網(wǎng)作為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。例如,對于產(chǎn)品開發(fā)者而言,根據(jù)采集到的信息,可以分析得到用戶的行為習慣,進而對產(chǎn)品的開發(fā)進行相應的調(diào)整。
目前,服務器中記錄文件的記錄時間,是客戶端開始記錄的時間,但是該時間包含記錄文件的錄制時間,并不能準確反映服務器采集到的記錄的準確記錄時間,降低了數(shù)據(jù)分析的準確度。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供了一種數(shù)據(jù)處理方法和裝置,可以得到更加準確的數(shù)據(jù)。
一方面,本發(fā)明實施例提供了一種數(shù)據(jù)處理方法,包括:
獲取至少一個記錄文件;
確定每一個記錄文件的客戶端開始記錄時間;
根據(jù)所述客戶端開始記錄時間,對所述至少一個記錄文件進行分組;
針對每一組記錄文件,確定當前組中所述客戶端開始記錄時間最大的目標記錄文件,獲取所述當前組的所述目標記錄文件對應的當前系統(tǒng)時間,根據(jù)所述當前系統(tǒng)時間和所述當前組的記錄文件的數(shù)量,計算所述當前組的標準開始記錄時間,根據(jù)所述當前組的標準開始記錄時間,描述所述當前組。
優(yōu)選地,
進一步包括:預先設(shè)定單個記錄文件的錄制時間;
所述根據(jù)所述當前系統(tǒng)時間和所述當前組的記錄文件的數(shù)量,計算所述當前組的標準開始記錄時間,包括:
根據(jù)所述當前系統(tǒng)時間、所述當前組的記錄文件的數(shù)量和所述單個記錄文件的錄制時間,按照第一公式,計算所述當前組的標準開始記錄時間;
所述第一公式包括:
TR=TS-C×TH
其中,TR用于表征所述當前組的標準開始記錄時間;TS用于表征所述當前系統(tǒng)時間;C用于表征所述當前組的記錄文件的數(shù)量;TH用于表征所述單個記錄文件的錄制時間。
優(yōu)選地,
進一步包括:獲取所述每一組記錄文件開始記錄時對應的第一服務器時間;
所述根據(jù)所述當前組的標準開始記錄時間,描述所述當前組,包括:
利用所述當前組的標準開始記錄時間和所述目標記錄文件的所述客戶端開始記錄時間,根據(jù)第二公式,計算時間間隔;
利用所述時間間隔和所述第一服務器時間,根據(jù)所述第三公式,對所述第一服務器時間進行修正,獲得第二服務器時間;
利用所述第二服務器時間,描述所述當前組;
其中,所述第二公式包括:
ΔT=TR-TK
其中,ΔT用于表征所述時間間隔;TR用于表征所述當前組的標準開始記錄時間;TK用于表征所述目標記錄文件的所述客戶端開始記錄時間;
所述第三公式包括:
TM=TN+ΔT
其中,TM用于表征所述第二服務器時間;TN用于表征所述第一服務器時間;ΔT用于表征所述時間間隔。
優(yōu)選地,
在所述根據(jù)所述當前組的標準開始記錄時間,描述所述當前組之后,進一步包括:
刪除所述當前組中除所述目標記錄文件外的其他記錄文件。
優(yōu)選地,
在所述根據(jù)所述當前組的標準開始記錄時間,描述所述當前組之后,進一步包括:
預先設(shè)置記錄文件的類型;
預先設(shè)置所述類型與分數(shù)之間的對應關(guān)系;
確定所述目標記錄文件的目標類型;
根據(jù)所述對應關(guān)系,確定所述目標類型對應的目標分數(shù);
根據(jù)所述目標分數(shù),描述所述當前組。
另一方面,本發(fā)明實施例提供了一種數(shù)據(jù)處理裝置,包括:
確定單元,用于獲取至少一個記錄文件,確定每一個記錄文件的客戶端開始記錄時間;
劃分單元,用于根據(jù)所述確定單元確定的所述客戶端開始記錄時間,對所述至少一個記錄文件進行分組;
處理單元,用于針對每一組記錄文件,確定當前組中所述客戶端開始記錄時間最大的目標記錄文件,獲取所述當前組的所述目標記錄文件對應的當前系統(tǒng)時間,根據(jù)所述當前系統(tǒng)時間和所述當前組的記錄文件的數(shù)量,計算所述當前組的標準開始記錄時間,根據(jù)所述當前組的標準開始記錄時間,描述所述當前組。
優(yōu)選地,
設(shè)置單元,用于設(shè)定單個記錄文件的錄制時間;
所述處理單元,用于根據(jù)所述當前系統(tǒng)時間、所述當前組的記錄文件的數(shù)量和所述設(shè)置單元設(shè)置的所述單個記錄文件的錄制時間,按照第一公式,計算所述當前組的標準開始記錄時間;
所述第一公式包括:
TR=TS-C×TH
其中,TR用于表征所述當前組的標準開始記錄時間;TS用于表征所述當前系統(tǒng)時間;C用于表征所述當前組的記錄文件的數(shù)量;TH用于表征所述單個記錄文件的錄制時間。
優(yōu)選地,
獲取單元,用于獲取所述每一組記錄文件開始記錄時對應的第一服務器時間;
所述處理單元,用于利用所述當前組的標準開始記錄時間和所述目標記錄文件的所述客戶端開始記錄時間,根據(jù)第二公式,計算時間間隔;利用所述時間間隔和所述獲取單元獲取的所述第一服務器時間,根據(jù)所述第三公式,對所述第一服務器時間進行修正,獲得第二服務器時間;利用所述第二服務器時間,描述所述當前組;
其中,所述第二公式包括:
ΔT=TR-TK
其中,ΔT用于表征所述時間間隔;TR用于表征所述當前組的標準開始記錄時間;TK用于表征所述目標記錄文件的所述客戶端開始記錄時間;
所述第三公式包括:
TM=TN+ΔT
其中,TM用于表征所述第二服務器時間;TN用于表征所述第一服務器時間;ΔT用于表征所述時間間隔。
優(yōu)選地,
刪除單元,用于接收所述處理單元的觸發(fā),刪除所述當前組中除所述目標記錄文件外的其他記錄文件。
優(yōu)選地,
描述單元,用于接收所述處理單元的觸發(fā),設(shè)置記錄文件的類型,設(shè)置所述類型與分數(shù)之間的對應關(guān)系,確定所述目標記錄文件的目標類型,根據(jù)所述對應關(guān)系,確定所述目標類型對應的目標分數(shù);根據(jù)所述目標分數(shù),描述所述當前組。
本發(fā)明實施例提供了一種數(shù)據(jù)處理方法和裝置,該方法通過獲取至少一個記錄文件,確定每一個記錄文件的客戶端開始記錄時間,根據(jù)客戶端開始記錄時間,對至少一個記錄文件進行分組,針對每一組記錄文件,確定當前組中客戶端開始記錄時間最大的目標記錄文件,獲取當前組的目標記錄文件對應的當前系統(tǒng)時間,根據(jù)當前系統(tǒng)時間和當前組的記錄文件的數(shù)量,計算當前組的標準開始記錄時間,根據(jù)當前組的標準開始記錄時間,描述當前組。該方法通過對客戶端開始記錄時間進行修正,排除記錄文件錄制時間的影響,得到更加準確的記錄時間,進而提高數(shù)據(jù)分析的準確度。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明一個實施例提供的一種數(shù)據(jù)處理方法流程圖;
圖2是本發(fā)明一個實施例提供的另一種數(shù)據(jù)處理方法流程圖;
圖3是本發(fā)明一個實施例提供的一種數(shù)據(jù)處理裝置結(jié)構(gòu)示意圖;
圖4是本發(fā)明一個實施例提供的另一種數(shù)據(jù)處理裝置結(jié)構(gòu)示意圖;
圖5是本發(fā)明一個實施例提供的又一種數(shù)據(jù)處理裝置結(jié)構(gòu)示意圖;
圖6是本發(fā)明一個實施例提供的再一種數(shù)據(jù)處理裝置結(jié)構(gòu)示意圖;
圖7是本發(fā)明另一個實施例提供的一種數(shù)據(jù)處理裝置結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例,基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
如圖1所示,本發(fā)明實施例提供了一種數(shù)據(jù)處理方法,該方法可以包括以下步驟:
步驟101:獲取至少一個記錄文件;
步驟102:確定每一個記錄文件的客戶端開始記錄時間;
步驟103:根據(jù)客戶端開始記錄時間,對至少一個記錄文件進行分組;
步驟104:針對每一組記錄文件,確定當前組中客戶端開始記錄時間最大的目標記錄文件,獲取當前組的目標記錄文件對應的當前系統(tǒng)時間,根據(jù)當前系統(tǒng)時間和當前組的記錄文件的數(shù)量,計算當前組的標準開始記錄時間,根據(jù)當前組的標準開始記錄時間,描述當前組。
在圖1所示的實施例中,通過獲取至少一個記錄文件,確定每一個記錄文件的客戶端開始記錄時間,根據(jù)客戶端開始記錄時間,對至少一個記錄文件進行分組,針對每一組記錄文件,確定當前組中客戶端開始記錄時間最大的目標記錄文件,獲取當前組的目標記錄文件對應的當前系統(tǒng)時間,根據(jù)當前系統(tǒng)時間和當前組的記錄文件的數(shù)量,計算當前組的標準開始記錄時間,根據(jù)當前組的標準開始記錄時間,描述當前組。該方法通過對客戶端開始記錄時間進行修正,排除記錄文件錄制時間的影響,得到更加準確的記錄時間,進而提高數(shù)據(jù)分析的準確度。
在本發(fā)明的一個實施例中,為了確定當前組的標準開始記錄時間,該方法還包括:預先設(shè)定單個記錄文件的錄制時間;步驟104包括:根據(jù)當前系統(tǒng)時間、當前組的記錄文件的數(shù)量和單個記錄文件的錄制時間,按照式(1),計算當前組的標準開始記錄時間;
TR=TS-C×TH (1)
其中,TR用于表征當前組的標準開始記錄時間;TS用于表征當前系統(tǒng)時間;C用于表征當前組的記錄文件的數(shù)量;TH用于表征單個記錄文件的錄制時間。
在本實施例中,每單個記錄文件的錄制時間是相同的。當前組的標準開始記錄時間是相對于接收端的開始時間。例如,當前系統(tǒng)時間TS為10:00,當前組的記錄文件的數(shù)量C為10,單個記錄文件的錄制時間TH為1分鐘,則當前組的標準開始記錄時間TR為9:50。
在本發(fā)明的一個實施例中,為了對當前組的標準開始記錄時間進行修正,并利用修正后的當前組的標準開始記錄時間來描述當前組,該方法還包括:獲取每一組記錄文件開始記錄時對應的第一服務器時間;步驟104包括:利用當前組的標準開始記錄時間和目標記錄文件的客戶端開始記錄時間,根據(jù)式(2),計算時間間隔;利用時間間隔和第一服務器時間,根據(jù)式(3),對第一服務器時間進行修正,獲得第二服務器時間;利用第二服務器時間,描述當前組;
ΔT=TR-TK (2)
其中,ΔT用于表征時間間隔;TR用于表征當前組的標準開始記錄時間;TK用于表征目標記錄文件的客戶端開始記錄時間;
TM=TN+ΔT (3)
其中,TM用于表征第二服務器時間;TN用于表征第一服務器時間;ΔT用于表征時間間隔。
其中,第一服務器時間是客戶端的服務器時間,第二服務器時間是服務端,也就是接收端的服務器時間。例如,當前組的標準開始記錄時間TR為9:50,目標記錄文件的客戶端開始記錄時間TK為9:20,第一服務器時間TN為9:25,則時間間隔ΔT為30分鐘,第二服務器時間TM為9:55。利用第二服務器時間描述當前組,即為利用第二服務器時間表征當前組,例如,修正前,當前組中包括:記錄名稱,第一服務器時間;修正后,當前組中包括:記錄名稱,第二服務器時間。
在本發(fā)明的一個實施例中,為了對當前組中記錄文件進行去燥,在步驟104之后,還包括:刪除當前組中除目標記錄文件外的其他記錄文件。
在本發(fā)明的一個實施例中,為了對記錄文件進行標記,突出重要的記錄,在步驟104之后,還包括:預先設(shè)置記錄文件的類型;預先設(shè)置類型與分數(shù)之間的對應關(guān)系;確定目標記錄文件的目標類型;根據(jù)對應關(guān)系,確定目標類型對應的目標分數(shù);根據(jù)目標分數(shù),描述當前組。
例如,預先設(shè)置的記錄文件的類型有:娛樂、郵箱、搜索。其中,娛樂、郵箱、搜索分別對應的分數(shù)為1、2、3。如果,目標記錄文件的目標類型為娛樂,則目標分數(shù)為1。因此,當前組可以描述為:記錄名稱、目標分數(shù)。
下面以學生進行網(wǎng)絡(luò)學習時,產(chǎn)生的10個記錄文件為例,展開說明數(shù)據(jù)處理方法,如圖2所示,該方法可以包括如下步驟:
步驟201:預先設(shè)定單個記錄文件的錄制時間。
錄制時間是指,記錄錄制到服務端的時間,設(shè)定每單個記錄文件的錄制時間是相同的。在本實施例中,錄制時間設(shè)定為1分鐘。
步驟202:獲取10個記錄文件。
獲取在使用客戶端進行學習時,產(chǎn)生的10個記錄文件。
步驟203:確定每一個記錄文件的客戶端開始記錄時間。
確定10個記錄文件的客戶端開始記錄時間分別為9:00,9:10,9:20,9:30,9:40,9:50,10:00,10:10,10:20,10:30。
步驟204:根據(jù)客戶端開始記錄時間,對10個記錄文件進行分組。
按照客戶端開始記錄時間每隔40分鐘為一組,將10個記錄文件分成A、B兩組,A組記錄文件對應的客戶端開始記錄時間分別為a1=9:00,a2=9:10,a3=9:20,a4=9:30,a5=9:40;B組記錄文件對應的客戶端開始記錄時間分別為b1=9:50,b2=10:00,b3=10:10,b4=10:20,b5=10:30。
步驟205:針對每一組記錄文件,確定當前組中客戶端開始記錄時間最大的目標記錄文件。
針對A組記錄文件,確定客戶端開始記錄時間最大為9:00,對應的目標記錄文件為a1。針對B組記錄文件,確定客戶端開始記錄時間最大為9:50,對應的目標記錄文件為b1。
在本實施例中,以A組記錄文件為當前組進行說明。
步驟206:獲取當前組的目標記錄文件對應的當前系統(tǒng)時間,根據(jù)當前系統(tǒng)時間、單個記錄文件的錄制時間和當前組的記錄文件的數(shù)量,計算當前組的標準開始記錄時間。
根據(jù)當前系統(tǒng)時間、當前組的記錄文件的數(shù)量和單個記錄文件的錄制時間,按照式(1),計算當前組的標準開始記錄時間;
TR=TS-C×TH (1)
其中,TR用于表征當前組的標準開始記錄時間;TS用于表征當前系統(tǒng)時間;C用于表征當前組的記錄文件的數(shù)量;TH用于表征單個記錄文件的錄制時間。
在本實施例中,A組的目標記錄文件a1對應的當前系統(tǒng)時間TS為9:40,當前組的記錄文件的數(shù)量C為5,單個記錄文件的錄制時間TH為1分鐘,根據(jù)式(1),計算得到當前組的標準開始記錄時間TR為9:35。
步驟207:獲取每一組記錄文件開始記錄時對應的第一服務器時間,利用第一服務時間獲得第二服務器時間,利用第二服務器時間,描述當前組。
利用當前組的標準開始記錄時間和目標記錄文件的客戶端開始記錄時間,根據(jù)式(2),計算時間間隔;利用時間間隔和第一服務器時間,根據(jù)式(3),對第一服務器時間進行修正,獲得第二服務器時間;利用第二服務器時間,描述當前組;
ΔT=TR-TK (2)
其中,ΔT用于表征時間間隔;TR用于表征當前組的標準開始記錄時間;TK用于表征目標記錄文件的客戶端開始記錄時間;
TM=TN+ΔT (3)
其中,TM用于表征第二服務器時間;TN用于表征第一服務器時間;ΔT用于表征時間間隔。
在本實施例中,當前組的標準開始記錄時間TR為9:35,目標記錄文件的客戶端開始記錄時間TK為9:00,獲取的第一服務器時間TN為9:05,根據(jù)式(2),得到時間間隔ΔT為35分鐘,根據(jù)式(3),得到第二服務器時間TM為9:40。
利用第二服務器時間描述當前組,即為利用第二服務器時間表征當前組,例如,修正前,當前組中包括:記錄名稱,第一服務器時間;修正后,當前組中包括:記錄名稱,第二服務器時間。此時,A組記錄文件可以用目標記錄文件a1進行表示,即為(a1,9:40)。
步驟208:刪除當前組中除目標記錄文件外的其他記錄文件。
刪除A組中除了a1以外的其他記錄文件a2、a3、a4、a5。
步驟209:預先設(shè)置記錄文件的類型和類型與分數(shù)之間的對應關(guān)系。
預先設(shè)置的記錄文件的類型有:娛樂、郵箱、搜索。其中,娛樂、郵箱、搜索分別對應的分數(shù)為1、2、3。
步驟210:確定目標記錄文件的目標類型,根據(jù)對應關(guān)系,確定目標類型對應的目標分數(shù),根據(jù)目標分數(shù),描述當前組。
確定a1的目標類型為搜索,對應關(guān)系,確定搜索對應的目標分數(shù)為3??梢岳糜涗浢Q和分數(shù)描述當前組,即將A組描述為(a1,3)。
如圖3所示,本發(fā)明實施例提供了一種數(shù)據(jù)處理裝置,包括:確定單元301,用于獲取至少一個記錄文件,確定每一個記錄文件的客戶端開始記錄時間;劃分單元302,用于根據(jù)確定單元301確定的客戶端開始記錄時間,對至少一個記錄文件進行分組;處理單元303,用于針對每一組記錄文件,確定當前組中客戶端開始記錄時間最大的目標記錄文件,獲取當前組的目標記錄文件對應的當前系統(tǒng)時間,根據(jù)當前系統(tǒng)時間和當前組的記錄文件的數(shù)量,計算當前組的標準開始記錄時間,根據(jù)當前組的標準開始記錄時間,描述當前組。
在本發(fā)明的一個實施例中,如圖4所示,該裝置還包括:設(shè)置單元304,用于設(shè)定單個記錄文件的錄制時間;處理單元303,用于根據(jù)當前系統(tǒng)時間、當前組的記錄文件的數(shù)量和設(shè)置單元304設(shè)置的單個記錄文件的錄制時間,按照式(1),計算當前組的標準開始記錄時間;
TR=TS-C×TH (1)
其中,TR用于表征當前組的標準開始記錄時間;TS用于表征當前系統(tǒng)時間;C用于表征當前組的記錄文件的數(shù)量;TH用于表征單個記錄文件的錄制時間。
在本發(fā)明的一個實施例中,如圖5所示,還包括獲取單元305,用于獲取每一組記錄文件開始記錄時對應的第一服務器時間;處理單元303,用于利用當前組的標準開始記錄時間和目標記錄文件的客戶端開始記錄時間,根據(jù)式(2),計算時間間隔;利用時間間隔和獲取單元305獲取的第一服務器時間,根據(jù)式(3),對第一服務器時間進行修正,獲得第二服務器時間;利用第二服務器時間,描述當前組;
ΔT=TR-TK (2)
其中,ΔT用于表征時間間隔;TR用于表征當前組的標準開始記錄時間;TK用于表征目標記錄文件的客戶端開始記錄時間;
TM=TN+ΔT (3)
其中,TM用于表征第二服務器時間;TN用于表征第一服務器時間;ΔT用于表征時間間隔。
在本發(fā)明的一個實施例中,如圖6所示,該裝置還包括:刪除單元306,用于接收處理單元303的觸發(fā),刪除當前組中除目標記錄文件外的其他記錄文件。
在本發(fā)明的一個實施例中,如圖7所示,該裝置還包括:描述單元307,用于接收處理單元303的觸發(fā),設(shè)置記錄文件的類型,設(shè)置類型與分數(shù)之間的對應關(guān)系,確定目標記錄文件的目標類型,根據(jù)對應關(guān)系,確定目標類型對應的目標分數(shù);根據(jù)目標分數(shù),描述當前組。
綜上,本發(fā)明各個實施例至少具有如下效果:
1、在本發(fā)明實施例中,通過獲取至少一個記錄文件,確定每一個記錄文件的客戶端開始記錄時間,根據(jù)客戶端開始記錄時間,對至少一個記錄文件進行分組,針對每一組記錄文件,確定當前組中客戶端開始記錄時間最大的目標記錄文件,獲取當前組的目標記錄文件對應的當前系統(tǒng)時間,根據(jù)當前系統(tǒng)時間和當前組的記錄文件的數(shù)量,計算當前組的標準開始記錄時間,根據(jù)當前組的標準開始記錄時間,描述當前組。該方法通過對客戶端開始記錄時間進行修正,排除記錄文件錄制時間的影響,得到更加準確的記錄時間,進而提高數(shù)據(jù)分析的準確度。
2、在本發(fā)明實施例中,通過預先設(shè)定的錄制時間確定當前組的標準開始時間,并利用當前組的標準開始時間對第一服務器時間進行修正,得到第二服務器時間,利用第二服務器時間對當前組的記錄文件進行去燥,刪除可能存在異常的記錄文。
3、在本發(fā)明實施例中,通過設(shè)置記錄文件的類型與分數(shù)的對應關(guān)系,為目標記錄文件匹配對應的分數(shù),進而利用目標分數(shù),描述當前組。對于一些重要的記錄文件,可以通過設(shè)置較高的分數(shù),標識記錄文件,便于對記錄文件進行分析。
上述裝置內(nèi)的各單元之間的信息交互、執(zhí)行過程等內(nèi)容,由于與本發(fā)明方法實施例基于同一構(gòu)思,具體內(nèi)容可參見本發(fā)明方法實施例中的敘述,此處不再贅述。
需要說明的是,在本文中,諸如第一和第二之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個······”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同因素。
最后需要說明的是:以上所述僅為本發(fā)明的較佳實施例,僅用于說明本發(fā)明的技術(shù)方案,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所做的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內(nèi)。