一種RTB競價廣告位價值分析方法及系統(tǒng)與流程

文檔序號：12719891閱讀：250來源：國知局

本發(fā)明屬于大數(shù)據(jù)處理技術(shù)領(lǐng)域，具體地涉及一種RTB競價廣告位價值分析方法及系統(tǒng)。

背景技術(shù)：

實時競價(Real-Time Bidding)廣告簡稱為RTB廣告，2010年最先在美國興起，并很快被引入國內(nèi)。對于RTB廣告，從不同的角度有不同的理解。從用戶數(shù)據(jù)分析的角度，RTB廣告是一種在用戶數(shù)據(jù)分析基礎(chǔ)上針對每個用戶的廣告展示行為展開實時競價的廣告類型。而從技術(shù)和平臺的宏觀角度出發(fā)，RTB廣告是一種模仿股票交易模式，通過機器算法實現(xiàn)實時自動買賣的廣告類型。

在RTB廣告的交易過程中，實時競價技術(shù)是最關(guān)鍵的技術(shù)，需求方(Demand Side Platform，簡稱DSP)會向媒體采購廣告位，廣告位的價值是DSP出價高低的關(guān)鍵因素。一般情況下，DSP會接入海量的網(wǎng)站的廣告位，如何判斷廣告位是否值得競價購買或出價多少購買是困擾DSP的一個難題。

但是，從經(jīng)濟和高效的角度出發(fā)，DSP更愿意購買訪問量不高且頁面較為優(yōu)質(zhì)的網(wǎng)站的廣告位，主要原因有兩個，第一，在以前這是不被重視的市場，因此往往具有相對低廉的價格優(yōu)勢；第二是此類網(wǎng)站市場份額雖小，但由于數(shù)量眾多，是一個巨大的微小市場，卻也占據(jù)了市場中客觀的份額，也因此會存在眾多優(yōu)質(zhì)的廣告。

同時，近年來隨著技術(shù)的進步、互聯(lián)網(wǎng)速度不斷提升、以及移動互聯(lián)網(wǎng)的更新?lián)Q代，都使得我們對海量網(wǎng)絡(luò)數(shù)據(jù)分析的需求不斷加深。而面對成幾何級數(shù)增長的海量網(wǎng)絡(luò)數(shù)據(jù)，很多行業(yè)都開始設(shè)法將其變“數(shù)”為寶，并從中分析挖掘出更具商業(yè)價值的數(shù)據(jù)信息。將大數(shù)據(jù)分析應(yīng)用到網(wǎng)站廣告位的價值分析上，將更能體現(xiàn)出大數(shù)據(jù)的商業(yè)和技術(shù)優(yōu)勢。

但是，面對海量網(wǎng)絡(luò)數(shù)據(jù)分析之前需要面對如下的一些問題，諸如未能與時俱進的磁盤數(shù)據(jù)讀取速度問題、硬件故障常態(tài)化的問題等等。Hadoop集群是一種專門為存儲和分析海量非結(jié)構(gòu)化數(shù)據(jù)而設(shè)計的特定類型的集群。本質(zhì)上，它是一種計算集群，即將數(shù)據(jù)分析的工作分配到多個集群節(jié)點上，從而并行處理數(shù)據(jù)。使用Hadoop集群最大的好處在于它非常適合大數(shù)據(jù)分析，而它的兩大核心技術(shù)HDFS和MapReduce更是將大數(shù)據(jù)處理提高到了一個新的水平。HDFS是分布式文件系統(tǒng)，它所具有的高容錯高可靠性、高可擴展性、高獲得性、高吞吐率等特征為海量數(shù)據(jù)提供了不怕故障的存儲，為超大數(shù)據(jù)集的應(yīng)用處理帶來了很大的便利。而MapReduce是指一種處理海量數(shù)據(jù)的并行編程模型和計算框架，用于對大規(guī)模數(shù)據(jù)集的并行計算。

因此，有必要提供出一種RTB競價廣告位價值分析方法。

技術(shù)實現(xiàn)要素：

本發(fā)明的目的在于提供一種RTB競價廣告位價值分析方法。

本發(fā)明的技術(shù)方案如下：一種RTB競價廣告位價值分析方法，包括如下步驟：一、輸入互聯(lián)網(wǎng)的網(wǎng)絡(luò)數(shù)據(jù)到Hadoop集群中，并運用Hadoop集群的MapReduce模塊，編寫Mapper和Reducer函數(shù)，統(tǒng)計出每個host出現(xiàn)的數(shù)目，并將統(tǒng)計結(jié)果寫入Hadoop FS文件系統(tǒng)中；二、將統(tǒng)計結(jié)果從Hadoop FS文件系統(tǒng)中導出，并導入Redis數(shù)據(jù)庫，在Redis中，過濾掉訪問大于上限次數(shù)和小于下限次數(shù)的網(wǎng)站的URL，并使得文本以特定的格式保存，得到URL列表文件；三、依據(jù)上述獲得RTB競價中高價值網(wǎng)站的host列表，編寫網(wǎng)絡(luò)爬蟲去爬取每個網(wǎng)站的html源碼，依據(jù)廣告的特征計算出html源碼中廣告的屬性，并將所述屬性保存為廣告統(tǒng)計結(jié)果文件；四、將所述廣告統(tǒng)計結(jié)果文件與URL列表文件合并，依據(jù)訪問量進行排序，獲得RTB競價中高價值網(wǎng)站網(wǎng)站的廣告統(tǒng)計列表，對網(wǎng)站廣告價值評分標準建模，并對Hadoop篩選結(jié)果和爬蟲結(jié)果進行量化分析。

優(yōu)選地，在步驟一中，具體包括如下步驟：從每條DPI日志的URL字段中抽取Host；在每個Mapper中建立字典，字典的Key為Host字符串，值為該Key出現(xiàn)的頻次，每當有重復(fù)的Key出現(xiàn)時，對應(yīng)的值就增加一，當Mapper的循環(huán)結(jié)束時，將字典的信息Key和Value打印出來交由Reducer匯總統(tǒng)計；在Reducer中，Mapper的輸出被還原為字典，Key為Host字符串，值為Mapper階段各個節(jié)點的輸出，隨后Reducer對相同的Key進行值合并，得到最終的頻次之和，并統(tǒng)計輸出；將統(tǒng)計結(jié)果寫入Hadoop FS文件系統(tǒng)中。

優(yōu)選地，在步驟二中，網(wǎng)站訪問次數(shù)的上限次數(shù)和下限次數(shù)均建模得出，建模公式為：

其中，N_f表示判斷RTB競價高價值網(wǎng)站訪問次數(shù)上限次數(shù)，N_b表示高價值網(wǎng)站訪問次數(shù)下限次數(shù)，M表示網(wǎng)站的總個數(shù)，N₁、N₂、…N_M分別代表網(wǎng)站訪問從第一至第M個的網(wǎng)站的訪問次數(shù)。

優(yōu)選地，所述高價值網(wǎng)站為網(wǎng)站訪問量處于N_f、N_b之間的網(wǎng)站。

優(yōu)選地，在步驟三中，具體包括如下步驟：根據(jù)URL對指定網(wǎng)頁進行內(nèi)容獲??；使用爬蟲爬取網(wǎng)頁的標題、關(guān)鍵字、描述和正文的字段，并將爬取的結(jié)果作為值，網(wǎng)頁URL作為鍵，以文本的形式存入HDFS中，隨后利用基于hadoop的分布式分詞軟件，對海量文本數(shù)據(jù)進行分詞處理；對于源碼本身，則進行多模式匹配，尋找源碼中的加載廣告位的代碼，用于分析其網(wǎng)頁中廣告位的信息，并輸出到爬蟲結(jié)果文件中；爬取網(wǎng)站網(wǎng)頁的編寫模板和插件，以及圖片超鏈接數(shù)量和文字超鏈接數(shù)量，來確定網(wǎng)站精美度。

優(yōu)選地，在步驟三中，所述廣告的屬性包括網(wǎng)站精美度、網(wǎng)站廣告位數(shù)量和網(wǎng)站非法性。

優(yōu)選地，在步驟四中分析得到的結(jié)果為：網(wǎng)站廣告位的價值分別與網(wǎng)站訪問量及排名、網(wǎng)站精美度、網(wǎng)站廣告位數(shù)量和網(wǎng)站非法性有關(guān)。

優(yōu)選地，在對所述網(wǎng)站訪問量及排名的量化分析中，適中訪問量N_a的量化標準為：

在對所述網(wǎng)站精美度的量化分析中，精美度影響系數(shù)Q的量化標準為：

其中，G為網(wǎng)站精美度的貢獻系數(shù)，T和W分別為網(wǎng)頁中圖片鏈接數(shù)和文字鏈接數(shù)；

在對所述網(wǎng)站廣告位數(shù)量的量化分析中，設(shè)內(nèi)嵌廣告位的數(shù)量價值系數(shù)為P，q為內(nèi)嵌廣告為數(shù)量，計算公式為

在對所述網(wǎng)站非法性的量化分析中，設(shè)非法系數(shù)為F，根據(jù)經(jīng)驗對所述非法系數(shù)F進行判斷。

優(yōu)選地，長尾網(wǎng)站廣告價值系數(shù)為V，其計算公式為：

其中，N為進行價值評估的網(wǎng)站的訪問量。

一種根據(jù)權(quán)利要求任一上述的RTB競價廣告位價值分析方法的系統(tǒng)，包括：Hadoop集群數(shù)據(jù)處理模塊，用于導入互聯(lián)網(wǎng)的網(wǎng)絡(luò)數(shù)據(jù)，并運用Hadoop集群的MapReduce模塊，編寫Mapper和Reducer函數(shù)，統(tǒng)計出每個host出現(xiàn)的數(shù)目，并將統(tǒng)計結(jié)果寫入Hadoop FS文件系統(tǒng)中；Redis數(shù)據(jù)庫過濾模塊，按訪問上限次數(shù)和下限次數(shù)確定合適RTB競價的網(wǎng)站；網(wǎng)絡(luò)爬蟲廣告計算模塊，依據(jù)上述獲得RTB競價中高價值網(wǎng)站的host列表，爬取每個網(wǎng)站的html源碼，依據(jù)廣告的特征計算出html源碼中廣告的屬性，并將所述屬性保存為廣告統(tǒng)計結(jié)果文件；網(wǎng)站廣告價值評分標準建模，將所述廣告統(tǒng)計結(jié)果文件與URL列表文件合并，依據(jù)訪問量進行排序，獲得RTB競價中高價值網(wǎng)站網(wǎng)站的廣告統(tǒng)計列表，對網(wǎng)站廣告價值評分標準建模，并對Hadoop篩選結(jié)果和爬蟲結(jié)果進行量化分析。

本發(fā)明提供的技術(shù)方案具有如下有益效果：

1.基于位置信息形成融合的、標準化的位置輸出能力。通過從移動網(wǎng)DPI中提取基站小區(qū)位置、從移動網(wǎng)DPI中提取GPS位置信息、從4G信令數(shù)據(jù)中提取基站位置信息，彌補單一從2G基站獲取的位置信息精度不高及實時性不高的問題。融合多數(shù)據(jù)源后，形成的位置數(shù)據(jù)基礎(chǔ)能力，提高用戶位置信息的精確度、持續(xù)性、完整性，形成完整的位置信息能力輸出。

2.利用Spark計算集群的實時處理能力，對海量的多數(shù)據(jù)源實現(xiàn)不間斷的連續(xù)在線處理分析，處理能力達到每秒20000條以上記錄，處理的時延小于5min，而傳統(tǒng)的數(shù)據(jù)入庫-處理-分析的流程，至少有3-6個小時的時延，無法提供實時準確的位置數(shù)據(jù)。同時，使用Spark的離線數(shù)據(jù)分析處理能力對歷史存量數(shù)據(jù)進行挖掘分析，相較于傳統(tǒng)的Map/Reduce的方式提高了10倍以上的性能。

3.形成基于位置數(shù)據(jù)的實時應(yīng)用能力?；趯崟r的位置數(shù)據(jù)，以系統(tǒng)的方式提供：實時客流分析，游客來源地分析,游客屬性分析，停留時間統(tǒng)計，客流對比分析，客流預(yù)測分析，景區(qū)關(guān)聯(lián)分析等實時分析功能。

附圖說明

圖1是本發(fā)明實施例提供的RTB競價廣告位價值分析方法的流程示意圖；

圖2是圖1所示RTB競價廣告位價值分析方法中步驟一和步驟二的流程示意圖；

圖3是圖1所示RTB競價廣告位價值分析方法中步驟三的流程示意圖；

圖4是基于圖1所示RTB競價廣告位價值分析方法的系統(tǒng)的結(jié)構(gòu)框圖。

具體實施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白，以下結(jié)合附圖及實施例，對本發(fā)明進行進一步詳細說明。應(yīng)當理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

除非上下文另有特定清楚的描述，本發(fā)明中的元件和組件，數(shù)量既可以單個的形式存在，也可以多個的形式存在，本發(fā)明并不對此進行限定。本發(fā)明中的步驟雖然用標號進行了排列，但并不用于限定步驟的先后次序，除非明確說明了步驟的次序或者某步驟的執(zhí)行需要其他步驟作為基礎(chǔ)，否則步驟的相對次序是可以調(diào)整的?？梢岳斫?，本文中所使用的術(shù)語“和/或”涉及且涵蓋相關(guān)聯(lián)的所列項目中的一者或一者以上的任何和所有可能的組合。

請參閱圖1，本發(fā)明實施例提供的RTB競價廣告位價值分析方法包括如下步驟：

一、輸入互聯(lián)網(wǎng)的網(wǎng)絡(luò)數(shù)據(jù)到Hadoop集群中，并運用Hadoop集群的MapReduce模塊，編寫Mapper和Reducer函數(shù)，統(tǒng)計出每個host出現(xiàn)的數(shù)目，并將統(tǒng)計結(jié)果寫入Hadoop FS文件系統(tǒng)中。

請結(jié)合參閱圖2，具體地，在步驟一中，具體包括如下步驟：

a、從每條DPI日志的URL字段中抽取Host；

b、在每個Mapper中建立字典，字典的Key為Host字符串，值為該Key出現(xiàn)的頻次，每當有重復(fù)的Key出現(xiàn)時，對應(yīng)的值就增加一，當Mapper的循環(huán)結(jié)束時，將字典的信息Key和Value打印出來交由Reducer匯總統(tǒng)計；

c、在Reducer中，Mapper的輸出被還原為字典，Key為Host字符串，值為Mapper階段各個節(jié)點的輸出，隨后Reducer對相同的Key進行值合并，得到最終的頻次之和，并統(tǒng)計輸出；

d、將統(tǒng)計結(jié)果寫入Hadoop FS文件系統(tǒng)中。

其中，在步驟b中，其具體算法為：

1，創(chuàng)建一個空字典host_pv＝{}；

2，從dpi日志rul字段解析出host；

3，如果host存在于host_pv字典中，host_pv[host]加1，否則初始化host_pv[host]＝1；

4，一個map處理結(jié)束時，遍歷host_pv字典，以(host，pv)格式輸出每個host對應(yīng)的pv值。

在步驟c中，得到了Host在全部日志中的計數(shù)和，即為總的PV數(shù)，其具體算法為：

1、初始化pre_host＝"",total_pv＝0；

2、根據(jù)map階段輸出，提取每一行對應(yīng)的host及pv值；

3、如果host不等于pre_host，進行如步驟a)的判斷，否則轉(zhuǎn)到步驟4，

a)如果pre_host是為空，則pre_host＝host,total_pv＝pv；否則打印(pre_host,total_pv),并設(shè)置pre_host＝host,total_pv＝pv；

4、如果host等于pre_host，令total_pv+＝pv；

5、reduce最后結(jié)束時，如果pre_host不為空，打印(pre_host,total_pv)。

二、將統(tǒng)計結(jié)果從Hadoop FS文件系統(tǒng)中導出，并導入Redis數(shù)據(jù)庫，在Redis中，過濾掉訪問大于上限次數(shù)和小于下限次數(shù)的網(wǎng)站的URL，并使得文本以特定的格式保存，得到URL列表文件。

具體地，請結(jié)合參閱圖2，在步驟二中，網(wǎng)站訪問次數(shù)的上限次數(shù)和下限次數(shù)均建模得出。而且，建模公式為：

需要說明的是，在本實施例中，所述高價值網(wǎng)站定義為網(wǎng)站訪問量處于N_f、N_b之間的網(wǎng)站。

三、依據(jù)上述獲得RTB競價中高價值網(wǎng)站的host列表，編寫網(wǎng)絡(luò)爬蟲去爬取每個網(wǎng)站的html源碼，依據(jù)廣告的特征計算出html源碼中廣告的屬性，并將所述屬性保存為廣告統(tǒng)計結(jié)果文件。

具體地，在步驟三中，使用Kafka+flume的分布式架構(gòu)，既可在單一爬蟲服務(wù)器上實現(xiàn)多線程爬取，又可便捷地部署在多個爬蟲集群中加快爬取進度?？蛇x擇地，所述廣告的屬性包括網(wǎng)站精美度、網(wǎng)站廣告位數(shù)量和網(wǎng)站非法性。

請參閱圖3，所述步驟三具體包括如下步驟：

A)根據(jù)URL對指定網(wǎng)頁進行內(nèi)容獲?。?/p>

B)使用爬蟲爬取網(wǎng)頁的標題、關(guān)鍵字、描述和正文的字段，并將爬取的結(jié)果作為值，網(wǎng)頁URL作為鍵，以文本的形式存入HDFS中，隨后利用基于hadoop的分布式分詞軟件，對海量文本數(shù)據(jù)進行分詞處理；

C)對于源碼本身，則進行多模式匹配，尋找源碼中的加載廣告位的代碼，用于分析其網(wǎng)頁中廣告位的信息，并輸出到爬蟲結(jié)果文件中；

D)爬取網(wǎng)站網(wǎng)頁的編寫模板和插件，以及圖片超鏈接數(shù)量和文字超鏈接數(shù)量，來確定網(wǎng)站精美度。

其中，在步驟B中，分詞的結(jié)果是網(wǎng)頁URL做鍵、中文單詞和詞頻計數(shù)結(jié)果為值的文本結(jié)果。利用開源工具Apache Mahout這一分布式可擴展的的機器學習和數(shù)據(jù)挖掘算法包，使用k-Means聚類算法對分詞結(jié)果進行聚類分析，點之間的距離建模使用cosine余弦夾角算法。通過分詞技術(shù)，可以得知網(wǎng)站的屬性，可以判斷網(wǎng)站的內(nèi)容類型。而網(wǎng)站的非法性通過判斷內(nèi)容類型可以得出。

在步驟C中，爬蟲模擬用戶訪問網(wǎng)頁后，網(wǎng)頁通過JavaScript代碼請求在指定的位置加載廣告，一個內(nèi)嵌廣告位的網(wǎng)站會將與如下代碼類似的代碼加入到頁面的HTML代碼中：

爬蟲在爬取了頁面的HTML源碼后，對網(wǎng)頁源碼內(nèi)容進行建立HTML的DOM樹，對所有的<script>tag進行依次分析，比對<script>tag中的src字段和目標集合進行比對，如果符合，則這個JavaScript會在后續(xù)的瀏覽器內(nèi)容的加載中發(fā)出廣告展示的請求，并加載廣告內(nèi)容。

通過對幾大主流廣告媒體的JavaScript的分析，總結(jié)得出了會加載廣告的以下域名等等：

a.alimama.cn；

cbjs.baidu.com；

cpro.baidustatic.com；

googlesyndication.com；

p.tanx.com。

通過分析<script>的src字段有哪些包含以上的域名結(jié)果，就可以得知有各種類型的廣告位的具體數(shù)目。

在步驟D中，網(wǎng)站的網(wǎng)頁架構(gòu)的使用從某種程度決定了網(wǎng)站的精美度，根據(jù)經(jīng)驗，設(shè)定主流網(wǎng)頁架構(gòu)的對網(wǎng)站精美度的貢獻系數(shù)G的取值如下表所示：

而且，近兩年比較精美的網(wǎng)站，出現(xiàn)了圖片鏈接多而文字鏈接少的趨勢。因此，本次爬蟲對網(wǎng)頁的圖片鏈接數(shù)T和文字鏈接數(shù)W進行了統(tǒng)計。

四、將所述廣告統(tǒng)計結(jié)果文件與URL列表文件合并，依據(jù)訪問量進行排序，獲得RTB競價中高價值網(wǎng)站網(wǎng)站的廣告統(tǒng)計列表，對網(wǎng)站廣告價值評分標準建模，并對Hadoop篩選結(jié)果和爬蟲結(jié)果進行量化分析。

具體地，在步驟四中，分析得到的結(jié)果為：網(wǎng)站廣告位的價值分別與網(wǎng)站訪問量及排名、網(wǎng)站精美度、網(wǎng)站廣告位數(shù)量和網(wǎng)站非法性有關(guān)。因此，在本實施例中，將所有因素量化分析，建立網(wǎng)站廣告價值的分析模型。

其中，在對所述網(wǎng)站訪問量及排名的量化分析中，但若訪問量過少，其關(guān)注度過低，則其廣告價值也不大；若訪問量較大，其網(wǎng)站廣告位價格較高，廣告價值也較小。因此，RTB競價高價值網(wǎng)站的訪問量約適中，網(wǎng)站廣告位價值越大。具體地，適中訪問量Na的量化標準為：

在對所述網(wǎng)站精美度的量化分析中，根據(jù)網(wǎng)站模板和嵌套精品模板的數(shù)量進行量化，精美度影響系數(shù)Q的量化標準為：

在對所述網(wǎng)站廣告位數(shù)量的量化分析中，設(shè)內(nèi)嵌廣告位的數(shù)量價值系數(shù)為P，q為內(nèi)嵌廣告為數(shù)量，計算公式為

在對所述網(wǎng)站非法性的量化分析中，設(shè)非法系數(shù)為F，根據(jù)經(jīng)驗對所述非法系數(shù)F進行判斷。而且，F(xiàn)的定義標準為：

根據(jù)上述分析，將所有因素進行綜合建模處理，即為長尾網(wǎng)站廣告價值系數(shù)為V，其計算公式為：

其中，N為進行價值評估的網(wǎng)站的訪問量。

而且，對于最終的網(wǎng)站廣告價值系數(shù)V，其對應(yīng)評價為：

一般來說，高價值、較高價值的網(wǎng)站的商用價值很大。

請參閱圖4，一種基于圖1所示RTB競價廣告位價值分析方法的系統(tǒng)包括Hadoop集群數(shù)據(jù)處理模塊10、Redis數(shù)據(jù)庫過濾模塊20、網(wǎng)絡(luò)爬蟲廣告計算模塊30和網(wǎng)站廣告價值評分標準建模40。

其中，所述Hadoop集群數(shù)據(jù)處理模塊10用于用于導入互聯(lián)網(wǎng)的網(wǎng)絡(luò)數(shù)據(jù)。

具體地，在所述Hadoop集群數(shù)據(jù)處理模塊10中，將某個時段內(nèi)的海量的網(wǎng)絡(luò)數(shù)據(jù)輸入到Hadoop集群中，存儲在Hadoop的HDFS(分布式文件管理系統(tǒng))，由于網(wǎng)絡(luò)數(shù)據(jù)的數(shù)據(jù)量較大，數(shù)據(jù)將會被分配HDFS的多個數(shù)據(jù)節(jié)點上，這可以便于實現(xiàn)數(shù)據(jù)的并行處理和分析。在集群中編寫shell腳本，配置數(shù)據(jù)處理路徑和調(diào)用模塊；接著編寫MapRedue模塊中的Mapper和Reducer函數(shù)，其中Mapper函數(shù)提取其中的URL字段，將URL字段根據(jù)“com”、“net”、“org”、“co”、“gov”、“edu”、“biz”、“info”、“name”、“.cn”域名分析出其host字段，每出現(xiàn)一次，Mapper將此記錄推送到Reducer處理，而Reducer函數(shù)接受排序分組后的Mapper的輸出，統(tǒng)計每個host出現(xiàn)的數(shù)目，并寫入到HDFS文件管理系統(tǒng)中。

所述Redis數(shù)據(jù)庫過濾模塊20按訪問上限次數(shù)和下限次數(shù)確定合適RTB競價的網(wǎng)站。

具體地，在所述Redis數(shù)據(jù)庫過濾模塊20中，將Reducer寫入的HDFS的結(jié)果數(shù)據(jù)導出，并導入Redis數(shù)據(jù)庫進行分析。在Redis數(shù)據(jù)庫過濾模塊中，編寫python腳本，留存訪問量在網(wǎng)站訪問次數(shù)上限次數(shù)和上限次數(shù)之間的網(wǎng)站，從而也可以根據(jù)其他需求，過濾掉不需要處理的網(wǎng)站。接著，將Redis過濾之后的數(shù)據(jù)導出為一個待處理的文本：此文本的格式為：每行一個僅有host字段的短URL，這就是要獲取的長尾網(wǎng)站的URL列表，并將此長尾URL列表文本交由網(wǎng)絡(luò)爬蟲模塊。

所述網(wǎng)絡(luò)爬蟲廣告計算模塊30依據(jù)上述獲得RTB競價中高價值網(wǎng)站的host列表，爬取每個網(wǎng)站的html源碼，依據(jù)廣告的特征計算出html源碼中廣告的屬性，并將所述屬性保存為廣告統(tǒng)計結(jié)果文件。

具體地，在所述網(wǎng)絡(luò)爬蟲廣告計算模塊30中，依據(jù)此URL列表開始爬取每個網(wǎng)站首頁的html源碼，根據(jù)廣告的特征計算出html源碼會成廣告的數(shù)量和種類，并將計算結(jié)果寫入文本保存。接著將爬蟲技術(shù)爬取的廣告信息與URL列表文件合并，并按照訪問量進行排序，這樣就獲得了長尾網(wǎng)站廣告統(tǒng)計列表。

所述網(wǎng)站廣告價值評分標準建模40將所述廣告統(tǒng)計結(jié)果文件與URL列表文件合并，依據(jù)訪問量進行排序，獲得RTB競價中高價值網(wǎng)站網(wǎng)站的廣告統(tǒng)計列表，對網(wǎng)站廣告價值評分標準建模，并對Hadoop篩選結(jié)果和爬蟲結(jié)果進行量化分析。

需要說明的是，在本實施例中，所述RTB競價廣告位價值分析方法及系統(tǒng)具有如下特點：

1.將“長尾”的思想與網(wǎng)站廣告價值分析相結(jié)合。利用長尾的思想“小”和“大”，小指份額很少的市場，在以前這是不被重視的市場或沒有條件重視的市場；大指的是這些市場雖然很小，但是數(shù)量眾多。很多數(shù)量的微小市場占據(jù)著市場中可觀的份額。“長尾網(wǎng)站廣告價值分析”是“長尾營銷”的一種具體實現(xiàn)形式，具有巨大的研究和商業(yè)價值。以某電信省級運營商管道數(shù)據(jù)為例，一天的有效訪問流量大概在100億條左右，每天的訪問網(wǎng)站大概在700萬個，而大概170主流網(wǎng)站如百度、騰訊、淘寶、京東等約占比67％左右，這部分網(wǎng)站的廣告位價格一般極高，而33％的流量集中在剩余700萬個網(wǎng)站中，而從700萬個中網(wǎng)站中找到適合的廣告高價值網(wǎng)站意義極大。

2.將“大數(shù)據(jù)分析”引入到網(wǎng)站廣告價值分析中。隨著技術(shù)的進步、互聯(lián)網(wǎng)速度不斷提升、以及移動互聯(lián)網(wǎng)的更新?lián)Q代，都更使得我們不斷加深了大數(shù)據(jù)分析的需求不斷的加深。而面對成幾何級數(shù)增長的海量網(wǎng)絡(luò)數(shù)據(jù)，很多行業(yè)都開始設(shè)法將其變“數(shù)”為寶，并從中分析挖掘出更具有商業(yè)價值的數(shù)據(jù)信息價值的信息顯得尤為重要。將大數(shù)據(jù)分析應(yīng)用到長尾網(wǎng)站的廣告分析上，將更能體現(xiàn)出長尾網(wǎng)站的個體優(yōu)勢及潛在商業(yè)價值。

3.針對網(wǎng)站廣告屬性分析的“網(wǎng)絡(luò)爬蟲”技術(shù)。傳統(tǒng)網(wǎng)絡(luò)爬蟲從一個或若干初始網(wǎng)頁的URL開始，編寫網(wǎng)絡(luò)爬蟲去爬取每個網(wǎng)站的html源碼，主要爬取網(wǎng)站的基本屬性和自有業(yè)務(wù)內(nèi)容，而本專利利用網(wǎng)絡(luò)爬蟲技術(shù)，主要爬取目標為網(wǎng)站廣告位，通過自定義算法得出網(wǎng)站中各廣告位的各種屬性，滿足長尾網(wǎng)站廣告位的定制化需求分析。

相較于現(xiàn)有技術(shù)，本發(fā)明提供的技術(shù)方案具有如下有益效果：

1、將網(wǎng)絡(luò)爬蟲與網(wǎng)站廣告的特征相結(jié)合，通過自定義算法得出網(wǎng)站中各廣告位的各種屬性，使得網(wǎng)站廣告價值分析更具針對性，也能夠滿足網(wǎng)站廣告的定制化需求分析，所有被爬蟲抓取的廣告屬性特征將會被系統(tǒng)存貯，進行一定的分析、過濾，并建立索引，以便之后的分析和利用；

2、利用Hadoop集群的大數(shù)據(jù)處理，來分析RTB競價高價值網(wǎng)站的廣告價值，從而可以有效地處理海量網(wǎng)路數(shù)據(jù)，并從所述海量網(wǎng)絡(luò)數(shù)據(jù)中高效的地提取并分析RTB競價高價值網(wǎng)站的廣告價值。

對于本領(lǐng)域技術(shù)人員而言，顯然本發(fā)明不限于上述示范性實施例的細節(jié)，而且在不背離本發(fā)明的精神或基本特征的情況下，能夠以其他的具體形式實現(xiàn)本發(fā)明。因此，無論從哪一點來看，均應(yīng)將實施例看作是示范性的，而且是非限制性的，本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定，因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標記視為限制所涉及的權(quán)利要求。

此外，應(yīng)當理解，雖然本說明書按照實施方式加以描述，但并非每個實施方式僅包含一個獨立的技術(shù)方案，說明書的這種敘述方式僅僅是為清楚起見，本領(lǐng)域技術(shù)人員應(yīng)當將說明書作為一個整體，各實施例中的技術(shù)方案也可以經(jīng)適當組合，形成本領(lǐng)域技術(shù)人員可以理解的其他實施方式。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳輝;許愷;黃強松;黃娟
技術(shù)所有人：江蘇號百信息服務(wù)有限公司
我是此專利的發(fā)明人

上一篇：一種六堡茶香牛肉干的加工方法與流程
上一篇：一種欠平衡更換管柱工藝方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

廣告位管理系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種RTB競價廣告位價值分析方法及系統(tǒng)與流程