應(yīng)用于實(shí)時(shí)大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)庫系統(tǒng),具體涉及一種應(yīng)用于實(shí)時(shí)大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng)(簡稱大數(shù)據(jù)系統(tǒng)),屬于計(jì)算機(jī)數(shù)據(jù)計(jì)算領(lǐng)域。
【背景技術(shù)】
[0002]大數(shù)據(jù)(big data, mega data),或稱巨量資料,指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的4V特點(diǎn):Volume (大量)、Velocity (高速)、Variety (多樣)、Value (價(jià)值)。
[0003]大數(shù)據(jù)廣泛應(yīng)用于信息搜索、廣告投放、金融等領(lǐng)域,每種不同應(yīng)用類型的大數(shù)據(jù)系統(tǒng)都有不同的特性,應(yīng)用的響應(yīng)速度、數(shù)據(jù)量、數(shù)據(jù)類型和訪問模式?jīng)Q定了大數(shù)據(jù)系統(tǒng)的架構(gòu)方式。
[0004]大數(shù)據(jù)系統(tǒng)的響應(yīng)速度直接決定了大數(shù)據(jù)的存儲(chǔ)架構(gòu),搜索引擎的響應(yīng)速度是200ms,而廣告系統(tǒng)往往是50ms,這就決定這兩者對架構(gòu)的要求完全不同。大數(shù)據(jù)應(yīng)用往往數(shù)據(jù)量很大,通常達(dá)到TB甚至PB級別,很多數(shù)據(jù)存儲(chǔ)方式在如此大的數(shù)據(jù)規(guī)模上會(huì)變的相當(dāng)?shù)托踔翢o效。
[0005]大數(shù)據(jù)處理的數(shù)據(jù)類型多種多樣,但無論是非結(jié)構(gòu)性文檔還是結(jié)構(gòu)性數(shù)據(jù)都要經(jīng)過處理,以結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)提供服務(wù),這個(gè)過程的時(shí)效性需求也決定了大數(shù)據(jù)架構(gòu)的不同。
[0006]大數(shù)據(jù)的訪問模式也是決定大數(shù)據(jù)存儲(chǔ)方法的重要因素,對于數(shù)據(jù)的讀寫比例、隨機(jī)或順序?qū)ο到y(tǒng)的要求都是完全不同的。
[0007]Hadoop等傳統(tǒng)大數(shù)據(jù)處理設(shè)施在應(yīng)對大規(guī)模數(shù)據(jù)量上做了很多優(yōu)化,但對于廣告等實(shí)時(shí)訪問要求很強(qiáng)的應(yīng)用則完全無法試用,這在業(yè)界是一個(gè)普遍的難題。
【發(fā)明內(nèi)容】
[0008]為解決現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種應(yīng)用于實(shí)時(shí)大數(shù)據(jù)場景下、能夠高速的訪問實(shí)時(shí)數(shù)據(jù)、有效應(yīng)對超大規(guī)模的數(shù)據(jù)存儲(chǔ)和容災(zāi)能力的數(shù)據(jù)庫系統(tǒng)。
[0009]為了實(shí)現(xiàn)上述目標(biāo),本發(fā)明采用如下的技術(shù)方案:
[0010]一種應(yīng)用于實(shí)時(shí)大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,包括:數(shù)據(jù)抓取模塊、特征數(shù)據(jù)庫模塊、實(shí)時(shí)數(shù)據(jù)庫模塊和廣告投放模塊,
[0011]前述數(shù)據(jù)抓取模塊用于限定抓取數(shù)據(jù)源的范圍,自動(dòng)抓取網(wǎng)頁數(shù)據(jù),并進(jìn)行內(nèi)容抽取、排重、上下文分析的工作;
[0012]前述特征數(shù)據(jù)庫模塊用于保存Cookie數(shù)據(jù)、廣告位數(shù)據(jù)和鏈接數(shù)據(jù);
[0013]前述實(shí)時(shí)數(shù)據(jù)庫模塊用于對特征數(shù)據(jù)庫模塊中的數(shù)據(jù)進(jìn)行索引和分片存儲(chǔ);
[0014]前述廣告投放模塊用于從實(shí)時(shí)數(shù)據(jù)庫模塊中獲得廣告特征數(shù)據(jù),與特征數(shù)據(jù)庫模塊中的數(shù)據(jù)進(jìn)行匹配,最終決定是否投放廣告給特定用戶以及投放哪一條廣告給用戶。
[0015]前述的應(yīng)用于實(shí)時(shí)大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,前述特征數(shù)據(jù)庫模塊包括=Cookie數(shù)據(jù)庫子模塊、廣告位數(shù)據(jù)庫子模塊和鏈接數(shù)據(jù)庫子模塊,
[0016]前述Cookie數(shù)據(jù)庫子模塊用于存儲(chǔ)識(shí)別互聯(lián)網(wǎng)用戶或者某一類瀏覽行為一致的用戶的唯一標(biāo)識(shí),能夠快速識(shí)別出一個(gè)互聯(lián)網(wǎng)訪問對應(yīng)的用戶屬性;
[0017]前述廣告位數(shù)據(jù)庫子模塊用于保存所有待投放的廣告庫存數(shù)據(jù),前述廣告庫存數(shù)據(jù)包括:廣告所屬行業(yè)、分類、物料屬性、價(jià)格;
[0018]前述鏈接數(shù)據(jù)庫子模塊用于保存各個(gè)用于展示廣告位的網(wǎng)頁的特征數(shù)據(jù),以鏈接作為網(wǎng)頁的唯一標(biāo)識(shí)。
[0019]前述的應(yīng)用于實(shí)時(shí)大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,前述數(shù)據(jù)抓取模塊通過爬蟲自動(dòng)收集和解析指定的網(wǎng)站數(shù)據(jù)信息,確定特定鏈接的內(nèi)容特征和上下文關(guān)系,并將清洗計(jì)算后的網(wǎng)頁的特征數(shù)據(jù)反饋給特征數(shù)據(jù)庫模塊中的鏈接數(shù)據(jù)庫子模塊,將網(wǎng)頁信息進(jìn)行結(jié)構(gòu)化存儲(chǔ)。
[0020]前述的應(yīng)用于實(shí)時(shí)大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,前述實(shí)時(shí)數(shù)據(jù)庫模塊包括:廣告位實(shí)時(shí)數(shù)據(jù)庫子模塊、IP實(shí)時(shí)數(shù)據(jù)庫子模塊、Cookie實(shí)時(shí)數(shù)據(jù)庫子模塊、鏈接實(shí)時(shí)數(shù)據(jù)庫子模塊和狀態(tài)數(shù)據(jù)庫子模塊,
[0021]前述廣告位實(shí)時(shí)數(shù)據(jù)庫子模塊用于保存廣告文案規(guī)范、圖片規(guī)范、廣告指向鏈接、商品所屬類目,并支持實(shí)時(shí)查詢;
[0022]前述IP實(shí)時(shí)數(shù)據(jù)庫子模塊用于配合Cookie實(shí)時(shí)數(shù)據(jù)庫子模塊對訪問用戶進(jìn)行識(shí)另U,判斷該用戶的價(jià)值和投放內(nèi)容;
[0023]前述Cookie實(shí)時(shí)數(shù)據(jù)庫子模塊用于保存Cookie和特征的對應(yīng)關(guān)系、第三方Cookie和平臺(tái)Cookie的對應(yīng)關(guān)系,配合IP實(shí)時(shí)數(shù)據(jù)庫子模塊對訪問用戶進(jìn)行識(shí)別,同時(shí)判斷該用戶的價(jià)值和投放內(nèi)容;
[0024]前述鏈接實(shí)時(shí)數(shù)據(jù)庫子模塊用于保存便于快速查詢的鏈接與內(nèi)容特征的映射關(guān)系;
[0025]前述狀態(tài)數(shù)據(jù)庫子模塊用于跟蹤紀(jì)錄實(shí)時(shí)狀態(tài)數(shù)據(jù),前述實(shí)時(shí)狀態(tài)數(shù)據(jù)包括:廣告競價(jià)結(jié)果、投放結(jié)果、點(diǎn)擊結(jié)果。
[0026]前述的應(yīng)用于實(shí)時(shí)大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,前述廣告投放模塊包括:投放頻率數(shù)據(jù)庫子模塊、用戶頻率數(shù)據(jù)庫子模塊、廣告索引數(shù)據(jù)庫子模塊和廣告數(shù)據(jù)庫子模塊,
[0027]前述投放頻率數(shù)據(jù)庫子模塊用于存放各廣告庫存時(shí)間和空間維度的投放頻次限制;
[0028]前述用戶頻率數(shù)據(jù)庫子模塊用于存放每個(gè)用戶被展示廣告的時(shí)間頻次和空間頻次;
[0029]前述廣告索引數(shù)據(jù)庫子模塊用于存放所有廣告庫存數(shù)據(jù),并建立倒排索引便于全文檢索和分類檢索;
[0030]前述廣告數(shù)據(jù)庫子模塊用于保存廣告數(shù)據(jù)的詳細(xì)信息,是廣告庫存的最權(quán)威數(shù)據(jù)。
[0031]前述的應(yīng)用于實(shí)時(shí)大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,數(shù)據(jù)庫內(nèi)的數(shù)據(jù)的類型為結(jié)構(gòu)化標(biāo)簽。
[0032]前述的應(yīng)用于實(shí)時(shí)大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,數(shù)據(jù)庫的訪問模式為:隨機(jī)/批量寫,隨機(jī)讀。
[0033]本發(fā)明的有益之處在于:
[0034](I)由于采用了內(nèi)存一 SSD —硬盤三級存儲(chǔ)結(jié)構(gòu),有效的降低了整個(gè)系統(tǒng)的硬件成本,同時(shí)采用Aerospike管理SSD,提供分布式可擴(kuò)展的Nosql數(shù)據(jù)管理,兼顧成本的同時(shí)有效的提高了存儲(chǔ)的速度,同時(shí)由于采用了 Spark進(jìn)行分布式計(jì)算管理,較Hadoop等傳統(tǒng)MapReduce架構(gòu)效率提高10倍以上,所以本發(fā)明的數(shù)據(jù)庫系統(tǒng)提供了高速的實(shí)時(shí)數(shù)據(jù)訪問能力;
[0035](2)由于采用內(nèi)存一 SSD—硬盤三級存儲(chǔ)結(jié)構(gòu),使數(shù)據(jù)存在多級備份,同時(shí)使用Paxos算法進(jìn)行數(shù)據(jù)更新決策保證數(shù)據(jù)操作的原子性、一致性、隔離性、持久性,所以本發(fā)明的數(shù)據(jù)庫系統(tǒng)能夠有效應(yīng)對超大規(guī)模的數(shù)據(jù)存儲(chǔ)和容災(zāi)能力。
【附圖說明】
[0036]圖1是本發(fā)明的數(shù)據(jù)庫系統(tǒng)的架構(gòu)圖。
【具體實(shí)施方式】
[0037]為了便于理解本發(fā)明的系統(tǒng)的各個(gè)方面,以下結(jié)合附圖和具體實(shí)施例對本發(fā)明的系統(tǒng)作具體的介紹。
[0038]首先,本發(fā)明的系統(tǒng)在投入使用前需要進(jìn)行基礎(chǔ)數(shù)據(jù)的準(zhǔn)備。數(shù)據(jù)抓取模塊設(shè)立一個(gè)約束范疇,即限定抓取數(shù)據(jù)源的范圍,之后通過爬蟲自動(dòng)收集和解析指定的網(wǎng)站數(shù)據(jù)信息,并進(jìn)行