本發(fā)明屬于大數(shù)據(jù)處理技術(shù)領(lǐng)域,具體地涉及一種RTB競價廣告位價值分析方法及系統(tǒng)。
背景技術(shù):
實時競價(Real-Time Bidding)廣告簡稱為RTB廣告,2010年最先在美國興起,并很快被引入國內(nèi)。對于RTB廣告,從不同的角度有不同的理解。從用戶數(shù)據(jù)分析的角度,RTB廣告是一種在用戶數(shù)據(jù)分析基礎(chǔ)上針對每個用戶的廣告展示行為展開實時競價的廣告類型。而從技術(shù)和平臺的宏觀角度出發(fā),RTB廣告是一種模仿股票交易模式,通過機器算法實現(xiàn)實時自動買賣的廣告類型。
在RTB廣告的交易過程中,實時競價技術(shù)是最關(guān)鍵的技術(shù),需求方(Demand Side Platform,簡稱DSP)會向媒體采購廣告位,廣告位的價值是DSP出價高低的關(guān)鍵因素。一般情況下,DSP會接入海量的網(wǎng)站的廣告位,如何判斷廣告位是否值得競價購買或出價多少購買是困擾DSP的一個難題。
但是,從經(jīng)濟和高效的角度出發(fā),DSP更愿意購買訪問量不高且頁面較為優(yōu)質(zhì)的網(wǎng)站的廣告位,主要原因有兩個,第一,在以前這是不被重視的市場,因此往往具有相對低廉的價格優(yōu)勢;第二是此類網(wǎng)站市場份額雖小,但由于數(shù)量眾多,是一個巨大的微小市場,卻也占據(jù)了市場中客觀的份額,也因此會存在眾多優(yōu)質(zhì)的廣告。
同時,近年來隨著技術(shù)的進步、互聯(lián)網(wǎng)速度不斷提升、以及移動互聯(lián)網(wǎng)的更新?lián)Q代,都使得我們對海量網(wǎng)絡(luò)數(shù)據(jù)分析的需求不斷加深。而面對成幾何級數(shù)增長的海量網(wǎng)絡(luò)數(shù)據(jù),很多行業(yè)都開始設(shè)法將其變“數(shù)”為寶,并從中分析挖掘出更具商業(yè)價值的數(shù)據(jù)信息。將大數(shù)據(jù)分析應(yīng)用到網(wǎng)站廣告位的價值分析上,將更能體現(xiàn)出大數(shù)據(jù)的商業(yè)和技術(shù)優(yōu)勢。
但是,面對海量網(wǎng)絡(luò)數(shù)據(jù)分析之前需要面對如下的一些問題,諸如未能與時俱進的磁盤數(shù)據(jù)讀取速度問題、硬件故障常態(tài)化的問題等等。Hadoop集群是一種專門為存儲和分析海量非結(jié)構(gòu)化數(shù)據(jù)而設(shè)計的特定類型的集群。本質(zhì)上,它是一種計算集群,即將數(shù)據(jù)分析的工作分配到多個集群節(jié)點上,從而并行處理數(shù)據(jù)。使用Hadoop集群最大的好處在于它非常適合大數(shù)據(jù)分析,而它的兩大核心技術(shù)HDFS和MapReduce更是將大數(shù)據(jù)處理提高到了一個新的水平。HDFS是分布式文件系統(tǒng),它所具有的高容錯高可靠性、高可擴展性、高獲得性、高吞吐率等特征為海量數(shù)據(jù)提供了不怕故障的存儲,為超大數(shù)據(jù)集的應(yīng)用處理帶來了很大的便利。而MapReduce是指一種處理海量數(shù)據(jù)的并行編程模型和計算框架,用于對大規(guī)模數(shù)據(jù)集的并行計算。
因此,有必要提供出一種RTB競價廣告位價值分析方法。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種RTB競價廣告位價值分析方法。
本發(fā)明的技術(shù)方案如下:一種RTB競價廣告位價值分析方法,包括如下步驟:一、輸入互聯(lián)網(wǎng)的網(wǎng)絡(luò)數(shù)據(jù)到Hadoop集群中,并運用Hadoop集群的MapReduce模塊,編寫Mapper和Reducer函數(shù),統(tǒng)計出每個host出現(xiàn)的數(shù)目,并將統(tǒng)計結(jié)果寫入Hadoop FS文件系統(tǒng)中;二、將統(tǒng)計結(jié)果從Hadoop FS文件系統(tǒng)中導出,并導入Redis數(shù)據(jù)庫,在Redis中,過濾掉訪問大于上限次數(shù)和小于下限次數(shù)的網(wǎng)站的URL,并使得文本以特定的格式保存,得到URL列表文件;三、依據(jù)上述獲得RTB競價中高價值網(wǎng)站的host列表,編寫網(wǎng)絡(luò)爬蟲去爬取每個網(wǎng)站的html源碼,依據(jù)廣告的特征計算出html源碼中廣告的屬性,并將所述屬性保存為廣告統(tǒng)計結(jié)果文件;四、將所述廣告統(tǒng)計結(jié)果文件與URL列表文件合并,依據(jù)訪問量進行排序,獲得RTB競價中高價值網(wǎng)站網(wǎng)站的廣告統(tǒng)計列表,對網(wǎng)站廣告價值評分標準建模,并對Hadoop篩選結(jié)果和爬蟲結(jié)果進行量化分析。
優(yōu)選地,在步驟一中,具體包括如下步驟:從每條DPI日志的URL字段中抽取Host;在每個Mapper中建立字典,字典的Key為Host字符串,值為該Key出現(xiàn)的頻次,每當有重復(fù)的Key出現(xiàn)時,對應(yīng)的值就增加一,當Mapper的循環(huán)結(jié)束時,將字典的信息Key和Value打印出來交由Reducer匯總統(tǒng)計;在Reducer中,Mapper的輸出被還原為字典,Key為Host字符串,值為Mapper階段各個節(jié)點的輸出,隨后Reducer對相同的Key進行值合并,得到最終的頻次之和,并統(tǒng)計輸出;將統(tǒng)計結(jié)果寫入Hadoop FS文件系統(tǒng)中。
優(yōu)選地,在步驟二中,網(wǎng)站訪問次數(shù)的上限次數(shù)和下限次數(shù)均建模得出,建模公式為:
其中,Nf表示判斷RTB競價高價值網(wǎng)站訪問次數(shù)上限次數(shù),Nb表示高價值網(wǎng)站訪問次數(shù)下限次數(shù),M表示網(wǎng)站的總個數(shù),N1、N2、…NM分別代表網(wǎng)站訪問從第一至第M個的網(wǎng)站的訪問次數(shù)。
優(yōu)選地,所述高價值網(wǎng)站為網(wǎng)站訪問量處于Nf、Nb之間的網(wǎng)站。
優(yōu)選地,在步驟三中,具體包括如下步驟:根據(jù)URL對指定網(wǎng)頁進行內(nèi)容獲??;使用爬蟲爬取網(wǎng)頁的標題、關(guān)鍵字、描述和正文的字段,并將爬取的結(jié)果作為值,網(wǎng)頁URL作為鍵,以文本的形式存入HDFS中,隨后利用基于hadoop的分布式分詞軟件,對海量文本數(shù)據(jù)進行分詞處理;對于源碼本身,則進行多模式匹配,尋找源碼中的加載廣告位的代碼,用于分析其網(wǎng)頁中廣告位的信息,并輸出到爬蟲結(jié)果文件中;爬取網(wǎng)站網(wǎng)頁的編寫模板和插件,以及圖片超鏈接數(shù)量和文字超鏈接數(shù)量,來確定網(wǎng)站精美度。
優(yōu)選地,在步驟三中,所述廣告的屬性包括網(wǎng)站精美度、網(wǎng)站廣告位數(shù)量和網(wǎng)站非法性。
優(yōu)選地,在步驟四中分析得到的結(jié)果為:網(wǎng)站廣告位的價值分別與網(wǎng)站訪問量及排名、網(wǎng)站精美度、網(wǎng)站廣告位數(shù)量和網(wǎng)站非法性有關(guān)。
優(yōu)選地,在對所述網(wǎng)站訪問量及排名的量化分析中,適中訪問量Na的量化標準為:
在對所述網(wǎng)站精美度的量化分析中,精美度影響系數(shù)Q的量化標準為:
其中,G為網(wǎng)站精美度的貢獻系數(shù),T和W分別為網(wǎng)頁中圖片鏈接數(shù)和文字鏈接數(shù);
在對所述網(wǎng)站廣告位數(shù)量的量化分析中,設(shè)內(nèi)嵌廣告位的數(shù)量價值系數(shù)為P,q為內(nèi)嵌廣告為數(shù)量,計算公式為
在對所述網(wǎng)站非法性的量化分析中,設(shè)非法系數(shù)為F,根據(jù)經(jīng)驗對所述非法系數(shù)F進行判斷。
優(yōu)選地,長尾網(wǎng)站廣告價值系數(shù)為V,其計算公式為:
其中,N為進行價值評估的網(wǎng)站的訪問量。
一種根據(jù)權(quán)利要求任一上述的RTB競價廣告位價值分析方法的系統(tǒng),包括:Hadoop集群數(shù)據(jù)處理模塊,用于導入互聯(lián)網(wǎng)的網(wǎng)絡(luò)數(shù)據(jù),并運用Hadoop集群的MapReduce模塊,編寫Mapper和Reducer函數(shù),統(tǒng)計出每個host出現(xiàn)的數(shù)目,并將統(tǒng)計結(jié)果寫入Hadoop FS文件系統(tǒng)中;Redis數(shù)據(jù)庫過濾模塊,按訪問上限次數(shù)和下限次數(shù)確定合適RTB競價的網(wǎng)站;網(wǎng)絡(luò)爬蟲廣告計算模塊,依據(jù)上述獲得RTB競價中高價值網(wǎng)站的host列表,爬取每個網(wǎng)站的html源碼,依據(jù)廣告的特征計算出html源碼中廣告的屬性,并將所述屬性保存為廣告統(tǒng)計結(jié)果文件;網(wǎng)站廣告價值評分標準建模,將所述廣告統(tǒng)計結(jié)果文件與URL列表文件合并,依據(jù)訪問量進行排序,獲得RTB競價中高價值網(wǎng)站網(wǎng)站的廣告統(tǒng)計列表,對網(wǎng)站廣告價值評分標準建模,并對Hadoop篩選結(jié)果和爬蟲結(jié)果進行量化分析。
本發(fā)明提供的技術(shù)方案具有如下有益效果:
1.基于位置信息形成融合的、標準化的位置輸出能力。通過從移動網(wǎng)DPI中提取基站小區(qū)位置、從移動網(wǎng)DPI中提取GPS位置信息、從4G信令數(shù)據(jù)中提取基站位置信息,彌補單一從2G基站獲取的位置信息精度不高及實時性不高的問題。融合多數(shù)據(jù)源后,形成的位置數(shù)據(jù)基礎(chǔ)能力,提高用戶位置信息的精確度、持續(xù)性、完整性,形成完整的位置信息能力輸出。
2.利用Spark計算集群的實時處理能力,對海量的多數(shù)據(jù)源實現(xiàn)不間斷的連續(xù)在線處理分析,處理能力達到每秒20000條以上記錄,處理的時延小于5min,而傳統(tǒng)的數(shù)據(jù)入庫-處理-分析的流程,至少有3-6個小時的時延,無法提供實時準確的位置數(shù)據(jù)。同時,使用Spark的離線數(shù)據(jù)分析處理能力對歷史存量數(shù)據(jù)進行挖掘分析,相較于傳統(tǒng)的Map/Reduce的方式提高了10倍以上的性能。
3.形成基于位置數(shù)據(jù)的實時應(yīng)用能力?;趯崟r的位置數(shù)據(jù),以系統(tǒng)的方式提供:實時客流分析,游客來源地分析,游客屬性分析,停留時間統(tǒng)計,客流對比分析,客流預(yù)測分析,景區(qū)關(guān)聯(lián)分析等實時分析功能。
附圖說明
圖1是本發(fā)明實施例提供的RTB競價廣告位價值分析方法的流程示意圖;
圖2是圖1所示RTB競價廣告位價值分析方法中步驟一和步驟二的流程示意圖;
圖3是圖1所示RTB競價廣告位價值分析方法中步驟三的流程示意圖;
圖4是基于圖1所示RTB競價廣告位價值分析方法的系統(tǒng)的結(jié)構(gòu)框圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
除非上下文另有特定清楚的描述,本發(fā)明中的元件和組件,數(shù)量既可以單個的形式存在,也可以多個的形式存在,本發(fā)明并不對此進行限定。本發(fā)明中的步驟雖然用標號進行了排列,但并不用于限定步驟的先后次序,除非明確說明了步驟的次序或者某步驟的執(zhí)行需要其他步驟作為基礎(chǔ),否則步驟的相對次序是可以調(diào)整的??梢岳斫?,本文中所使用的術(shù)語“和/或”涉及且涵蓋相關(guān)聯(lián)的所列項目中的一者或一者以上的任何和所有可能的組合。
請參閱圖1,本發(fā)明實施例提供的RTB競價廣告位價值分析方法包括如下步驟:
一、輸入互聯(lián)網(wǎng)的網(wǎng)絡(luò)數(shù)據(jù)到Hadoop集群中,并運用Hadoop集群的MapReduce模塊,編寫Mapper和Reducer函數(shù),統(tǒng)計出每個host出現(xiàn)的數(shù)目,并將統(tǒng)計結(jié)果寫入Hadoop FS文件系統(tǒng)中。
請結(jié)合參閱圖2,具體地,在步驟一中,具體包括如下步驟:
a、從每條DPI日志的URL字段中抽取Host;
b、在每個Mapper中建立字典,字典的Key為Host字符串,值為該Key出現(xiàn)的頻次,每當有重復(fù)的Key出現(xiàn)時,對應(yīng)的值就增加一,當Mapper的循環(huán)結(jié)束時,將字典的信息Key和Value打印出來交由Reducer匯總統(tǒng)計;
c、在Reducer中,Mapper的輸出被還原為字典,Key為Host字符串,值為Mapper階段各個節(jié)點的輸出,隨后Reducer對相同的Key進行值合并,得到最終的頻次之和,并統(tǒng)計輸出;
d、將統(tǒng)計結(jié)果寫入Hadoop FS文件系統(tǒng)中。
其中,在步驟b中,其具體算法為:
1,創(chuàng)建一個空字典host_pv={};
2,從dpi日志rul字段解析出host;
3,如果host存在于host_pv字典中,host_pv[host]加1,否則初始化host_pv[host]=1;
4,一個map處理結(jié)束時,遍歷host_pv字典,以(host,pv)格式輸出每個host對應(yīng)的pv值。
在步驟c中,得到了Host在全部日志中的計數(shù)和,即為總的PV數(shù),其具體算法為:
1、初始化pre_host="",total_pv=0;
2、根據(jù)map階段輸出,提取每一行對應(yīng)的host及pv值;
3、如果host不等于pre_host,進行如步驟a)的判斷,否則轉(zhuǎn)到步驟4,
a)如果pre_host是為空,則pre_host=host,total_pv=pv;否則打印(pre_host,total_pv),并設(shè)置pre_host=host,total_pv=pv;
4、如果host等于pre_host,令total_pv+=pv;
5、reduce最后結(jié)束時,如果pre_host不為空,打印(pre_host,total_pv)。
二、將統(tǒng)計結(jié)果從Hadoop FS文件系統(tǒng)中導出,并導入Redis數(shù)據(jù)庫,在Redis中,過濾掉訪問大于上限次數(shù)和小于下限次數(shù)的網(wǎng)站的URL,并使得文本以特定的格式保存,得到URL列表文件。
具體地,請結(jié)合參閱圖2,在步驟二中,網(wǎng)站訪問次數(shù)的上限次數(shù)和下限次數(shù)均建模得出。而且,建模公式為:
其中,Nf表示判斷RTB競價高價值網(wǎng)站訪問次數(shù)上限次數(shù),Nb表示高價值網(wǎng)站訪問次數(shù)下限次數(shù),M表示網(wǎng)站的總個數(shù),N1、N2、…NM分別代表網(wǎng)站訪問從第一至第M個的網(wǎng)站的訪問次數(shù)。
需要說明的是,在本實施例中,所述高價值網(wǎng)站定義為網(wǎng)站訪問量處于Nf、Nb之間的網(wǎng)站。
三、依據(jù)上述獲得RTB競價中高價值網(wǎng)站的host列表,編寫網(wǎng)絡(luò)爬蟲去爬取每個網(wǎng)站的html源碼,依據(jù)廣告的特征計算出html源碼中廣告的屬性,并將所述屬性保存為廣告統(tǒng)計結(jié)果文件。
具體地,在步驟三中,使用Kafka+flume的分布式架構(gòu),既可在單一爬蟲服務(wù)器上實現(xiàn)多線程爬取,又可便捷地部署在多個爬蟲集群中加快爬取進度??蛇x擇地,所述廣告的屬性包括網(wǎng)站精美度、網(wǎng)站廣告位數(shù)量和網(wǎng)站非法性。
請參閱圖3,所述步驟三具體包括如下步驟:
A)根據(jù)URL對指定網(wǎng)頁進行內(nèi)容獲?。?/p>
B)使用爬蟲爬取網(wǎng)頁的標題、關(guān)鍵字、描述和正文的字段,并將爬取的結(jié)果作為值,網(wǎng)頁URL作為鍵,以文本的形式存入HDFS中,隨后利用基于hadoop的分布式分詞軟件,對海量文本數(shù)據(jù)進行分詞處理;
C)對于源碼本身,則進行多模式匹配,尋找源碼中的加載廣告位的代碼,用于分析其網(wǎng)頁中廣告位的信息,并輸出到爬蟲結(jié)果文件中;
D)爬取網(wǎng)站網(wǎng)頁的編寫模板和插件,以及圖片超鏈接數(shù)量和文字超鏈接數(shù)量,來確定網(wǎng)站精美度。
其中,在步驟B中,分詞的結(jié)果是網(wǎng)頁URL做鍵、中文單詞和詞頻計數(shù)結(jié)果為值的文本結(jié)果。利用開源工具Apache Mahout這一分布式可擴展的的機器學習和數(shù)據(jù)挖掘算法包,使用k-Means聚類算法對分詞結(jié)果進行聚類分析,點之間的距離建模使用cosine余弦夾角算法。通過分詞技術(shù),可以得知網(wǎng)站的屬性,可以判斷網(wǎng)站的內(nèi)容類型。而網(wǎng)站的非法性通過判斷內(nèi)容類型可以得出。
在步驟C中,爬蟲模擬用戶訪問網(wǎng)頁后,網(wǎng)頁通過JavaScript代碼請求在指定的位置加載廣告,一個內(nèi)嵌廣告位的網(wǎng)站會將與如下代碼類似的代碼加入到頁面的HTML代碼中:
爬蟲在爬取了頁面的HTML源碼后,對網(wǎng)頁源碼內(nèi)容進行建立HTML的DOM樹,對所有的<script>tag進行依次分析,比對<script>tag中的src字段和目標集合進行比對,如果符合,則這個JavaScript會在后續(xù)的瀏覽器內(nèi)容的加載中發(fā)出廣告展示的請求,并加載廣告內(nèi)容。
通過對幾大主流廣告媒體的JavaScript的分析,總結(jié)得出了會加載廣告的以下域名等等:
a.alimama.cn;
cbjs.baidu.com;
cpro.baidustatic.com;
googlesyndication.com;
p.tanx.com。
通過分析<script>的src字段有哪些包含以上的域名結(jié)果,就可以得知有各種類型的廣告位的具體數(shù)目。
在步驟D中,網(wǎng)站的網(wǎng)頁架構(gòu)的使用從某種程度決定了網(wǎng)站的精美度,根據(jù)經(jīng)驗,設(shè)定主流網(wǎng)頁架構(gòu)的對網(wǎng)站精美度的貢獻系數(shù)G的取值如下表所示:
而且,近兩年比較精美的網(wǎng)站,出現(xiàn)了圖片鏈接多而文字鏈接少的趨勢。因此,本次爬蟲對網(wǎng)頁的圖片鏈接數(shù)T和文字鏈接數(shù)W進行了統(tǒng)計。
四、將所述廣告統(tǒng)計結(jié)果文件與URL列表文件合并,依據(jù)訪問量進行排序,獲得RTB競價中高價值網(wǎng)站網(wǎng)站的廣告統(tǒng)計列表,對網(wǎng)站廣告價值評分標準建模,并對Hadoop篩選結(jié)果和爬蟲結(jié)果進行量化分析。
具體地,在步驟四中,分析得到的結(jié)果為:網(wǎng)站廣告位的價值分別與網(wǎng)站訪問量及排名、網(wǎng)站精美度、網(wǎng)站廣告位數(shù)量和網(wǎng)站非法性有關(guān)。因此,在本實施例中,將所有因素量化分析,建立網(wǎng)站廣告價值的分析模型。
其中,在對所述網(wǎng)站訪問量及排名的量化分析中,但若訪問量過少,其關(guān)注度過低,則其廣告價值也不大;若訪問量較大,其網(wǎng)站廣告位價格較高,廣告價值也較小。因此,RTB競價高價值網(wǎng)站的訪問量約適中,網(wǎng)站廣告位價值越大。具體地,適中訪問量Na的量化標準為:
在對所述網(wǎng)站精美度的量化分析中,根據(jù)網(wǎng)站模板和嵌套精品模板的數(shù)量進行量化,精美度影響系數(shù)Q的量化標準為:
在對所述網(wǎng)站廣告位數(shù)量的量化分析中,設(shè)內(nèi)嵌廣告位的數(shù)量價值系數(shù)為P,q為內(nèi)嵌廣告為數(shù)量,計算公式為
在對所述網(wǎng)站非法性的量化分析中,設(shè)非法系數(shù)為F,根據(jù)經(jīng)驗對所述非法系數(shù)F進行判斷。而且,F(xiàn)的定義標準為:
根據(jù)上述分析,將所有因素進行綜合建模處理,即為長尾網(wǎng)站廣告價值系數(shù)為V,其計算公式為:
其中,N為進行價值評估的網(wǎng)站的訪問量。
而且,對于最終的網(wǎng)站廣告價值系數(shù)V,其對應(yīng)評價為:
一般來說,高價值、較高價值的網(wǎng)站的商用價值很大。
請參閱圖4,一種基于圖1所示RTB競價廣告位價值分析方法的系統(tǒng)包括Hadoop集群數(shù)據(jù)處理模塊10、Redis數(shù)據(jù)庫過濾模塊20、網(wǎng)絡(luò)爬蟲廣告計算模塊30和網(wǎng)站廣告價值評分標準建模40。
其中,所述Hadoop集群數(shù)據(jù)處理模塊10用于用于導入互聯(lián)網(wǎng)的網(wǎng)絡(luò)數(shù)據(jù)。
具體地,在所述Hadoop集群數(shù)據(jù)處理模塊10中,將某個時段內(nèi)的海量的網(wǎng)絡(luò)數(shù)據(jù)輸入到Hadoop集群中,存儲在Hadoop的HDFS(分布式文件管理系統(tǒng)),由于網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)量較大,數(shù)據(jù)將會被分配HDFS的多個數(shù)據(jù)節(jié)點上,這可以便于實現(xiàn)數(shù)據(jù)的并行處理和分析。在集群中編寫shell腳本,配置數(shù)據(jù)處理路徑和調(diào)用模塊;接著編寫MapRedue模塊中的Mapper和Reducer函數(shù),其中Mapper函數(shù)提取其中的URL字段,將URL字段根據(jù)“com”、“net”、“org”、“co”、“gov”、“edu”、“biz”、“info”、“name”、“.cn”域名分析出其host字段,每出現(xiàn)一次,Mapper將此記錄推送到Reducer處理,而Reducer函數(shù)接受排序分組后的Mapper的輸出,統(tǒng)計每個host出現(xiàn)的數(shù)目,并寫入到HDFS文件管理系統(tǒng)中。
所述Redis數(shù)據(jù)庫過濾模塊20按訪問上限次數(shù)和下限次數(shù)確定合適RTB競價的網(wǎng)站。
具體地,在所述Redis數(shù)據(jù)庫過濾模塊20中,將Reducer寫入的HDFS的結(jié)果數(shù)據(jù)導出,并導入Redis數(shù)據(jù)庫進行分析。在Redis數(shù)據(jù)庫過濾模塊中,編寫python腳本,留存訪問量在網(wǎng)站訪問次數(shù)上限次數(shù)和上限次數(shù)之間的網(wǎng)站,從而也可以根據(jù)其他需求,過濾掉不需要處理的網(wǎng)站。接著,將Redis過濾之后的數(shù)據(jù)導出為一個待處理的文本:此文本的格式為:每行一個僅有host字段的短URL,這就是要獲取的長尾網(wǎng)站的URL列表,并將此長尾URL列表文本交由網(wǎng)絡(luò)爬蟲模塊。
所述網(wǎng)絡(luò)爬蟲廣告計算模塊30依據(jù)上述獲得RTB競價中高價值網(wǎng)站的host列表,爬取每個網(wǎng)站的html源碼,依據(jù)廣告的特征計算出html源碼中廣告的屬性,并將所述屬性保存為廣告統(tǒng)計結(jié)果文件。
具體地,在所述網(wǎng)絡(luò)爬蟲廣告計算模塊30中,依據(jù)此URL列表開始爬取每個網(wǎng)站首頁的html源碼,根據(jù)廣告的特征計算出html源碼會成廣告的數(shù)量和種類,并將計算結(jié)果寫入文本保存。接著將爬蟲技術(shù)爬取的廣告信息與URL列表文件合并,并按照訪問量進行排序,這樣就獲得了長尾網(wǎng)站廣告統(tǒng)計列表。
所述網(wǎng)站廣告價值評分標準建模40將所述廣告統(tǒng)計結(jié)果文件與URL列表文件合并,依據(jù)訪問量進行排序,獲得RTB競價中高價值網(wǎng)站網(wǎng)站的廣告統(tǒng)計列表,對網(wǎng)站廣告價值評分標準建模,并對Hadoop篩選結(jié)果和爬蟲結(jié)果進行量化分析。
需要說明的是,在本實施例中,所述RTB競價廣告位價值分析方法及系統(tǒng)具有如下特點:
1.將“長尾”的思想與網(wǎng)站廣告價值分析相結(jié)合。利用長尾的思想“小”和“大”,小指份額很少的市場,在以前這是不被重視的市場或沒有條件重視的市場;大指的是這些市場雖然很小,但是數(shù)量眾多。很多數(shù)量的微小市場占據(jù)著市場中可觀的份額。“長尾網(wǎng)站廣告價值分析”是“長尾營銷”的一種具體實現(xiàn)形式,具有巨大的研究和商業(yè)價值。以某電信省級運營商管道數(shù)據(jù)為例,一天的有效訪問流量大概在100億條左右,每天的訪問網(wǎng)站大概在700萬個,而大概170主流網(wǎng)站如百度、騰訊、淘寶、京東等約占比67%左右,這部分網(wǎng)站的廣告位價格一般極高,而33%的流量集中在剩余700萬個網(wǎng)站中,而從700萬個中網(wǎng)站中找到適合的廣告高價值網(wǎng)站意義極大。
2.將“大數(shù)據(jù)分析”引入到網(wǎng)站廣告價值分析中。隨著技術(shù)的進步、互聯(lián)網(wǎng)速度不斷提升、以及移動互聯(lián)網(wǎng)的更新?lián)Q代,都更使得我們不斷加深了大數(shù)據(jù)分析的需求不斷的加深。而面對成幾何級數(shù)增長的海量網(wǎng)絡(luò)數(shù)據(jù),很多行業(yè)都開始設(shè)法將其變“數(shù)”為寶,并從中分析挖掘出更具有商業(yè)價值的數(shù)據(jù)信息價值的信息顯得尤為重要。將大數(shù)據(jù)分析應(yīng)用到長尾網(wǎng)站的廣告分析上,將更能體現(xiàn)出長尾網(wǎng)站的個體優(yōu)勢及潛在商業(yè)價值。
3.針對網(wǎng)站廣告屬性分析的“網(wǎng)絡(luò)爬蟲”技術(shù)。傳統(tǒng)網(wǎng)絡(luò)爬蟲從一個或若干初始網(wǎng)頁的URL開始,編寫網(wǎng)絡(luò)爬蟲去爬取每個網(wǎng)站的html源碼,主要爬取網(wǎng)站的基本屬性和自有業(yè)務(wù)內(nèi)容,而本專利利用網(wǎng)絡(luò)爬蟲技術(shù),主要爬取目標為網(wǎng)站廣告位,通過自定義算法得出網(wǎng)站中各廣告位的各種屬性,滿足長尾網(wǎng)站廣告位的定制化需求分析。
相較于現(xiàn)有技術(shù),本發(fā)明提供的技術(shù)方案具有如下有益效果:
1、將網(wǎng)絡(luò)爬蟲與網(wǎng)站廣告的特征相結(jié)合,通過自定義算法得出網(wǎng)站中各廣告位的各種屬性,使得網(wǎng)站廣告價值分析更具針對性,也能夠滿足網(wǎng)站廣告的定制化需求分析,所有被爬蟲抓取的廣告屬性特征將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的分析和利用;
2、利用Hadoop集群的大數(shù)據(jù)處理,來分析RTB競價高價值網(wǎng)站的廣告價值,從而可以有效地處理海量網(wǎng)路數(shù)據(jù),并從所述海量網(wǎng)絡(luò)數(shù)據(jù)中高效的地提取并分析RTB競價高價值網(wǎng)站的廣告價值。
對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標記視為限制所涉及的權(quán)利要求。
此外,應(yīng)當理解,雖然本說明書按照實施方式加以描述,但并非每個實施方式僅包含一個獨立的技術(shù)方案,說明書的這種敘述方式僅僅是為清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當將說明書作為一個整體,各實施例中的技術(shù)方案也可以經(jīng)適當組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實施方式。