內(nèi)容抽取、排重、上下文分析等工作,確定特定鏈接的內(nèi)容特征和上下文關(guān)系,最后將清洗計算后的數(shù)據(jù)保存到鏈接數(shù)據(jù)庫。同時廣告需求方根據(jù)自己的需求錄入廣告投放需求到廣告數(shù)據(jù)庫。
[0039]在基礎(chǔ)數(shù)據(jù)準備好后,啟動各子模塊,子模塊開始進行數(shù)據(jù)預(yù)處理和加載工作。廣告索引數(shù)據(jù)庫子模塊會根據(jù)廣告數(shù)據(jù)庫子模塊的數(shù)據(jù)進行索引,使用基于統(tǒng)計語言模型算法和雙向搜索最大化的自動分詞技術(shù)對應(yīng)廣告數(shù)據(jù)進行分詞、特征提取建立便于快速檢索和全文檢索的廣告索引數(shù)據(jù)庫。系統(tǒng)會定時的將廣告位數(shù)據(jù)庫子模塊的數(shù)據(jù)轉(zhuǎn)化為易于快速查詢的Key-Value結(jié)構(gòu),存放到廣告位實時數(shù)據(jù)庫子模塊中,便于系統(tǒng)實時響應(yīng)請求。Cookie數(shù)據(jù)庫子模塊中保存的Cookie數(shù)據(jù)與對應(yīng)的人群數(shù)據(jù),也會定期經(jīng)過MapReduce計算轉(zhuǎn)化為Cookie和特征、以及特征與Cookie的對應(yīng)關(guān)系,以便于實現(xiàn)快速的檢索一個用戶的特征,以及通過特征找到適合的用戶,這些數(shù)據(jù)處理后都保存在Cookie實時數(shù)據(jù)庫子模塊中。
[0040]隨后系統(tǒng)開始正常服務(wù)。當(dāng)一個廣告競價需求發(fā)送給系統(tǒng)時,系統(tǒng)根據(jù)Cookie實時數(shù)據(jù)庫子模塊拿到的該廣告請求的歷史特征,同時比對IP實時數(shù)據(jù)庫子模塊進行校正,將請求的特征數(shù)據(jù)在廣告位實時數(shù)據(jù)庫子模塊中進行查詢,并與鏈接數(shù)據(jù)庫子模塊中記錄的網(wǎng)站特征進行對比,判斷符合投放要求后,由廣告投放模塊判斷本廣告有沒有超過當(dāng)天投放次數(shù)的限制(投放頻率數(shù)據(jù)庫),以及投放目標用戶的展示次數(shù)是否超過限制(用戶頻率數(shù)據(jù)庫),一切復(fù)合后競價該投放請求,并將競價數(shù)據(jù)更新到狀態(tài)數(shù)據(jù)庫子模塊中。同時在服務(wù)過程中記錄和建立Cookie數(shù)據(jù)庫子模塊、廣告位數(shù)據(jù)庫子模塊,在每一次廣告請求時,將該用戶的IP、Cookie、特征等信息保存到特征數(shù)據(jù)庫模塊中。
[0041]經(jīng)驗證,本發(fā)明的數(shù)據(jù)庫系統(tǒng),其具有以下優(yōu)勢:
[0042](I)響應(yīng)速度:數(shù)十毫秒之內(nèi),單機QPS在萬級別;
[0043](2)數(shù)據(jù)量:用戶信息和信息數(shù)據(jù)在億級以上,精確設(shè)置百萬級,用戶與設(shè)置的對應(yīng)關(guān)系為前兩者的笛卡爾積。
[0044]可見,由于采用了分層的信息存儲和基于SSD的高性能分布式存儲架構(gòu),所以本發(fā)明的數(shù)據(jù)庫系統(tǒng)提供了高速的實時數(shù)據(jù)訪問能力;此外,由于采用了冷熱數(shù)據(jù)的分層管理以及先進算法支持數(shù)據(jù)一致性管理,所以本發(fā)明的數(shù)據(jù)庫系統(tǒng)能夠有效應(yīng)對超大規(guī)模的數(shù)據(jù)存儲和容災(zāi)能力。
[0045]需要說明的是,上述實施例不以任何形式限制本發(fā)明,凡采用等同替換或等效變換的方式所獲得的技術(shù)方案,均落在本發(fā)明的保護范圍內(nèi)。
【主權(quán)項】
1.應(yīng)用于實時大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,包括:數(shù)據(jù)抓取模塊、特征數(shù)據(jù)庫模塊、實時數(shù)據(jù)庫模塊和廣告投放模塊, 所述數(shù)據(jù)抓取模塊用于限定抓取數(shù)據(jù)源的范圍,自動抓取網(wǎng)頁數(shù)據(jù),并進行內(nèi)容抽取、排重、上下文分析的工作; 所述特征數(shù)據(jù)庫模塊用于保存Cookie數(shù)據(jù)、廣告位數(shù)據(jù)和鏈接數(shù)據(jù); 所述實時數(shù)據(jù)庫模塊用于對特征數(shù)據(jù)庫模塊中的數(shù)據(jù)進行索引和分片存儲; 所述廣告投放模塊用于從實時數(shù)據(jù)庫模塊中獲得廣告特征數(shù)據(jù),與特征數(shù)據(jù)庫模塊中的數(shù)據(jù)進行匹配,最終決定是否投放廣告給特定用戶以及投放哪一條廣告給用戶。
2.根據(jù)權(quán)利要求1所述的應(yīng)用于實時大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,所述特征數(shù)據(jù)庫模塊包括=Cookie數(shù)據(jù)庫子模塊、廣告位數(shù)據(jù)庫子模塊和鏈接數(shù)據(jù)庫子模塊, 所述Cookie數(shù)據(jù)庫子模塊用于存儲識別互聯(lián)網(wǎng)用戶或者某一類瀏覽行為一致的用戶的唯一標識,能夠快速識別出一個互聯(lián)網(wǎng)訪問對應(yīng)的用戶屬性; 所述廣告位數(shù)據(jù)庫子模塊用于保存所有待投放的廣告庫存數(shù)據(jù),所述廣告庫存數(shù)據(jù)包括:廣告所屬行業(yè)、分類、物料屬性、價格; 所述鏈接數(shù)據(jù)庫子模塊用于保存各個用于展示廣告位的網(wǎng)頁的特征數(shù)據(jù),以鏈接作為網(wǎng)頁的唯一標識。
3.根據(jù)權(quán)利要求2所述的應(yīng)用于實時大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,所述數(shù)據(jù)抓取模塊通過爬蟲自動收集和解析指定的網(wǎng)站數(shù)據(jù)信息,確定特定鏈接的內(nèi)容特征和上下文關(guān)系,并將清洗計算后的網(wǎng)頁的特征數(shù)據(jù)反饋給特征數(shù)據(jù)庫模塊中的鏈接數(shù)據(jù)庫子模塊,將網(wǎng)頁信息進行結(jié)構(gòu)化存儲。
4.根據(jù)權(quán)利要求2所述的應(yīng)用于實時大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,所述實時數(shù)據(jù)庫模塊包括:廣告位實時數(shù)據(jù)庫子模塊、IP實時數(shù)據(jù)庫子模塊、Cookie實時數(shù)據(jù)庫子模塊、鏈接實時數(shù)據(jù)庫子模塊和狀態(tài)數(shù)據(jù)庫子模塊, 所述廣告位實時數(shù)據(jù)庫子模塊用于保存廣告文案規(guī)范、圖片規(guī)范、廣告指向鏈接、商品所屬類目,并支持實時查詢; 所述IP實時數(shù)據(jù)庫子模塊用于配合Cookie實時數(shù)據(jù)庫子模塊對訪問用戶進行識別,判斷該用戶的價值和投放內(nèi)容; 所述Cookie實時數(shù)據(jù)庫子模塊用于保存Cookie和特征的對應(yīng)關(guān)系、第三方Cookie和平臺Cookie的對應(yīng)關(guān)系,配合IP實時數(shù)據(jù)庫子模塊對訪問用戶進行識別,同時判斷該用戶的價值和投放內(nèi)容; 所述鏈接實時數(shù)據(jù)庫子模塊用于保存便于快速查詢的鏈接與內(nèi)容特征的映射關(guān)系; 所述狀態(tài)數(shù)據(jù)庫子模塊用于跟蹤紀錄實時狀態(tài)數(shù)據(jù),所述實時狀態(tài)數(shù)據(jù)包括:廣告競價結(jié)果、投放結(jié)果、點擊結(jié)果。
5.根據(jù)權(quán)利要求4所述的應(yīng)用于實時大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,所述廣告投放模塊包括:投放頻率數(shù)據(jù)庫子模塊、用戶頻率數(shù)據(jù)庫子模塊、廣告索引數(shù)據(jù)庫子模塊和廣告數(shù)據(jù)庫子模塊, 所述投放頻率數(shù)據(jù)庫子模塊用于存放各廣告庫存時間和空間維度的投放頻次限制; 所述用戶頻率數(shù)據(jù)庫子模塊用于存放每個用戶被展示廣告的時間頻次和空間頻次; 所述廣告索引數(shù)據(jù)庫子模塊用于存放所有廣告庫存數(shù)據(jù),并建立倒排索引便于全文檢索和分類檢索; 所述廣告數(shù)據(jù)庫子模塊用于保存廣告數(shù)據(jù)的詳細信息,是廣告庫存的最權(quán)威數(shù)據(jù)。
6.根據(jù)權(quán)利要求1至5任意一項所述的應(yīng)用于實時大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,數(shù)據(jù)庫內(nèi)的數(shù)據(jù)的類型為結(jié)構(gòu)化標簽。
7.根據(jù)權(quán)利要求1至5任意一項所述的應(yīng)用于實時大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,數(shù)據(jù)庫的訪問模式為:隨機/批量寫,隨機讀。
【專利摘要】本發(fā)明公開了一種應(yīng)用于實時大數(shù)據(jù)場景下的數(shù)據(jù)庫系統(tǒng),其特征在于,包括:用于限定抓取數(shù)據(jù)源的范圍,自動抓取網(wǎng)頁數(shù)據(jù),并進行內(nèi)容抽取、排重、上下文分析工作的數(shù)據(jù)抓取模塊;用于保存Cookie數(shù)據(jù)、廣告位數(shù)據(jù)和鏈接數(shù)據(jù)的特征數(shù)據(jù)庫模塊;用于對特征數(shù)據(jù)庫模塊中的數(shù)據(jù)進行索引和分片存儲的實時數(shù)據(jù)庫模塊;以及用于從實時數(shù)據(jù)庫模塊中獲得廣告特征數(shù)據(jù),與特征數(shù)據(jù)庫模塊中的數(shù)據(jù)進行匹配,最終決定是否投放廣告給特定用戶以及投放哪一條廣告給用戶的廣告投放模塊。本發(fā)明的有益之處在于:由于采用了內(nèi)存-SSD-硬盤三級存儲結(jié)構(gòu),所以本發(fā)明的系統(tǒng)不僅提供了高速的實時數(shù)據(jù)訪問能力,而且能夠有效應(yīng)對超大規(guī)模的數(shù)據(jù)存儲和容災(zāi)能力。
【IPC分類】G06F17-30
【公開號】CN104834719
【申請?zhí)枴緾N201510237342
【發(fā)明人】劉彤
【申請人】北京比酷天地文化股份有限公司
【公開日】2015年8月12日
【申請日】2015年5月12日