更新地理信息數(shù)據(jù)增量的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種更新地理信息數(shù)據(jù)增量的方法及
目.0
【背景技術(shù)】
[0002]關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘的一個(gè)重要領(lǐng)域,用于發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間的關(guān)聯(lián)性,在各個(gè)領(lǐng)域發(fā)揮著不可替代的作用。目前,隨著信息技術(shù)的進(jìn)一步發(fā)展,在國(guó)民經(jīng)濟(jì)的各個(gè)領(lǐng)域積累的數(shù)據(jù)量越來(lái)越大,我們迎來(lái)了大數(shù)據(jù)的時(shí)代。在大數(shù)據(jù)的實(shí)際應(yīng)用中,關(guān)聯(lián)規(guī)則挖掘的對(duì)象往往是一個(gè)龐大的集中式或分布式的數(shù)據(jù)源。如果采用單機(jī)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,存儲(chǔ)能力和挖掘效率勢(shì)必成為挖掘過(guò)程中的瓶頸,從而不能滿足大數(shù)據(jù)挖掘的需求。另一方面,在很多實(shí)際的數(shù)據(jù)挖掘應(yīng)用中,往往還存在增量更新的問(wèn)題。很多應(yīng)用領(lǐng)域的數(shù)據(jù)庫(kù)都處在不斷更新中,從而導(dǎo)致原有挖掘出來(lái)的模式失去作用或產(chǎn)生新的模式。
[0003]針對(duì)上述的問(wèn)題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施例提供了一種更新地理信息數(shù)據(jù)增量的方法及裝置,以至少解決相關(guān)技術(shù)中地理信息的數(shù)據(jù)更新效率低的技術(shù)問(wèn)題。
[0005]根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種更新地理信息數(shù)據(jù)增量的方法,包括:獲取地理信息的原始數(shù)據(jù)集和新增數(shù)據(jù)集;對(duì)上述原始數(shù)據(jù)集和上述新增數(shù)據(jù)集進(jìn)行計(jì)算,得到增量計(jì)算結(jié)果;根據(jù)上述增量計(jì)算結(jié)果更新上述地理信息的數(shù)據(jù)增量。
[0006]進(jìn)一步地,獲取地理信息的原始數(shù)據(jù)集和新增數(shù)據(jù)集包括:掃描地理信息數(shù)據(jù)庫(kù);根據(jù)掃描結(jié)果生成地理信息的候選項(xiàng)集,上述候選項(xiàng)集包括上述原始數(shù)據(jù)集和上述新增數(shù)據(jù)集。
[0007]進(jìn)一步地,對(duì)上述原始數(shù)據(jù)集和上述新增數(shù)據(jù)集進(jìn)行計(jì)算,得到增量計(jì)算結(jié)果包括:將上述原始數(shù)據(jù)集劃分為原始頻繁項(xiàng)集和原始非頻繁項(xiàng)集,并將上述新增數(shù)據(jù)集劃分為新增頻繁項(xiàng)集和新增非頻繁項(xiàng)集,其中,在數(shù)據(jù)集中,支持度計(jì)數(shù)大于等于數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為頻繁項(xiàng)集,支持度計(jì)數(shù)小于數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為非頻繁項(xiàng)集;計(jì)算上述原始頻繁項(xiàng)集與上述新增頻繁項(xiàng)集的并集,得到第一并集;計(jì)算上述原始頻繁項(xiàng)集與上述新增非頻繁項(xiàng)集,得到第二并集;計(jì)算上述原始非頻繁項(xiàng)集與上述新增頻繁項(xiàng)集,得到第三并集;計(jì)算上述原始非頻繁項(xiàng)集與上述新增非頻繁項(xiàng)集,得到第四并集;將上述第一并集、上述第二并集、上述第三并集和上述第四并集作為上述增量計(jì)算結(jié)果。
[0008]進(jìn)一步地,根據(jù)上述增量計(jì)算結(jié)果更新上述地理信息的數(shù)據(jù)增量包括:將上述第一并集中的項(xiàng)集作為數(shù)據(jù)增量添加至上述新增數(shù)據(jù)集中;將上述第四并集中的項(xiàng)集從上述原始數(shù)據(jù)集中刪除。
[0009]進(jìn)一步地,根據(jù)上述增量計(jì)算結(jié)果更新上述地理信息的數(shù)據(jù)增量包括:判斷上述第二并集中的項(xiàng)集是否是非頻繁項(xiàng)集;若是,則將該非頻繁項(xiàng)集對(duì)應(yīng)的原始頻繁項(xiàng)集從上述原始數(shù)據(jù)集中刪除;和/或判斷上述第三并集中的項(xiàng)集是否是頻繁項(xiàng)集;若是,則將該頻繁項(xiàng)集對(duì)應(yīng)的原始非頻繁項(xiàng)集添加到上述新增數(shù)據(jù)集中。
[0010]根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種更新地理信息數(shù)據(jù)增量的裝置,包括:獲取單元,用于獲取地理信息的原始數(shù)據(jù)集和新增數(shù)據(jù)集;計(jì)算單元,用于對(duì)上述原始數(shù)據(jù)集和上述新增數(shù)據(jù)集進(jìn)行計(jì)算,得到增量計(jì)算結(jié)果;更新單元,用于根據(jù)上述增量計(jì)算結(jié)果更新上述地理信息的數(shù)據(jù)增量。
[0011 ]進(jìn)一步地,上述獲取單元包括:掃描模塊,用于掃描地理信息數(shù)據(jù)庫(kù);生成模塊,用于根據(jù)掃描結(jié)果生成地理信息的候選項(xiàng)集,上述候選項(xiàng)集包括上述原始數(shù)據(jù)集和上述新增數(shù)據(jù)集。
[0012]進(jìn)一步地,上述計(jì)算單元包括:劃分模塊,用于將上述原始數(shù)據(jù)集劃分為原始頻繁項(xiàng)集和原始非頻繁項(xiàng)集,并將上述新增數(shù)據(jù)集劃分為新增頻繁項(xiàng)集和新增非頻繁項(xiàng)集,其中,在數(shù)據(jù)集中,支持度計(jì)數(shù)大于等于數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為頻繁項(xiàng)集,支持度計(jì)數(shù)小于數(shù)據(jù)集中事務(wù)記錄數(shù)目與最小支持度閾值的乘積的項(xiàng)集為非頻繁項(xiàng)集;第一計(jì)算模塊,用于計(jì)算上述原始頻繁項(xiàng)集與上述新增頻繁項(xiàng)集的并集,得到第一并集;第二計(jì)算模塊,用于計(jì)算上述原始頻繁項(xiàng)集與上述新增非頻繁項(xiàng)集,得到第二并集;第三計(jì)算模塊,用于第一計(jì)算模塊,用于計(jì)算上述原始非頻繁項(xiàng)集與上述新增頻繁項(xiàng)集,得到第三并集;第四計(jì)算模塊,用于計(jì)算上述原始非頻繁項(xiàng)集與上述新增非頻繁項(xiàng)集,得到第四并集;確定模塊,用于將上述第一并集、上述第二并集、上述第三并集和上述第四并集作為上述增量計(jì)算結(jié)果。
[0013]進(jìn)一步地,根據(jù)上述增量計(jì)算結(jié)果更新上述地理信息的數(shù)據(jù)增量包括:第一添加模塊,用于將上述第一并集中的項(xiàng)集作為數(shù)據(jù)增量添加至上述新增數(shù)據(jù)集中;第一刪除模塊,用于將上述第四并集中的項(xiàng)集從上述原始數(shù)據(jù)集中刪除。
[0014]進(jìn)一步地,上述更新單元包括:第一判斷模塊,用于判斷上述第二并集中的項(xiàng)集是否是非頻繁項(xiàng)集;第二刪除模塊,用于在上述第二并集中的項(xiàng)集是非頻繁項(xiàng)集時(shí),將該非頻繁項(xiàng)集對(duì)應(yīng)的原始頻繁項(xiàng)集從上述原始數(shù)據(jù)集中刪除;和/或第二判斷模塊,用于判斷上述第三并集中的項(xiàng)集是否是頻繁項(xiàng)集;第二添加模塊,用于上述第三并集中的項(xiàng)集是頻繁項(xiàng)集時(shí),將該頻繁項(xiàng)集對(duì)應(yīng)的原始非頻繁項(xiàng)集添加到上述新增數(shù)據(jù)集中。
[0015]在本發(fā)明實(shí)施例中,采用根據(jù)項(xiàng)集在數(shù)據(jù)庫(kù)增量更新前后是否為頻繁的情形動(dòng)態(tài)的更新數(shù)據(jù)結(jié)構(gòu)的方式,通過(guò)獲取地理信息的原始數(shù)據(jù)集和新增數(shù)據(jù)集;對(duì)原始數(shù)據(jù)集和新增數(shù)據(jù)集進(jìn)行計(jì)算,得到增量計(jì)算結(jié)果;根據(jù)增量計(jì)算結(jié)果更新地理信息的數(shù)據(jù)增量,達(dá)到了快速、高效更新新增地理信息數(shù)據(jù)的技術(shù)效果,進(jìn)而解決了相關(guān)技術(shù)中地理信息的數(shù)據(jù)更新效率低的技術(shù)問(wèn)題。
【附圖說(shuō)明】
[0016]此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0017]圖1是根據(jù)本發(fā)明實(shí)施例的一種可選的更新地理信息數(shù)據(jù)增量的方法的流程圖;
[0018]圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的更新地理信息數(shù)據(jù)增量的裝置的示意圖。
【具體實(shí)施方式】
[0019]為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0020]需要說(shuō)明的是,本發(fā)明的說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語(yǔ)“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒(méi)有清楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0021]實(shí)施例1
[0022]根據(jù)本發(fā)明實(shí)施例,提供了一種更新地理信息數(shù)據(jù)增量的方法的實(shí)施例,需要說(shuō)明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0023]圖1是根據(jù)本發(fā)明實(shí)施例的一種可選的更新地理信息數(shù)據(jù)增量的方法的流程圖,如圖1所示,該方法包括如下步驟:
[0024]步驟S102,獲取地理信息的原始數(shù)據(jù)集和新增數(shù)據(jù)集;
[0025]步驟S104,對(duì)原始數(shù)據(jù)集和新增數(shù)據(jù)集進(jìn)行計(jì)算,得到增量計(jì)算結(jié)果;
[0026]步驟S106,根據(jù)增量計(jì)算結(jié)果更新地理信息的數(shù)據(jù)增量。
[0027]很多應(yīng)用領(lǐng)域的數(shù)據(jù)庫(kù)都處在不斷更新中,使用本發(fā)明提供的技術(shù)方案,可以在原有模式的基礎(chǔ)上,結(jié)合新增數(shù)據(jù)集進(jìn)行再次挖掘,即進(jìn)行增量關(guān)聯(lián)規(guī)則挖掘處理。這樣,即使數(shù)據(jù)挖掘應(yīng)用中存在增量更新的問(wèn)題,也不會(huì)導(dǎo)致原有挖掘出來(lái)的模式失去作用或產(chǎn)生新的模式。
[0028]通過(guò)上述步驟,在對(duì)海量數(shù)據(jù)挖掘時(shí),不僅能夠滿足海量數(shù)據(jù)挖掘的需求,還能極大地提高挖掘效率。
[0029]可選地,獲取地理信息的原始數(shù)據(jù)集和新增數(shù)據(jù)集包括:
[0030]S2,掃描地理信息數(shù)據(jù)庫(kù);
[0031]S4,根據(jù)掃描結(jié)果生成地理信息的候選項(xiàng)集,候選項(xiàng)集包括原始數(shù)據(jù)集和新增數(shù)據(jù)集。
[0032]其中,地理信息數(shù)據(jù)庫(kù)可以是多系統(tǒng)的分布式數(shù)據(jù)庫(kù)。原始數(shù)據(jù)集包括原始頻繁項(xiàng)集和原始非頻繁項(xiàng)集。其中,在原始數(shù)據(jù)集中,支持度計(jì)數(shù)大于等于原始數(shù)據(jù)集中