本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種識別廣告位點擊異常的方法和裝置。
背景技術(shù):
廣告位作為互聯(lián)網(wǎng)廣告投放的主要載體,其質(zhì)量直接影響著廣告投放的效果與收益。而隨著互聯(lián)網(wǎng)流量的迅猛增長,其中的虛假作弊流量也隨之激增。因此,針對廣告位的作弊流量識別技術(shù)就變得尤為重要。
在實現(xiàn)本發(fā)明過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:
現(xiàn)有技術(shù)均是依據(jù)用戶的操作行為來判斷當(dāng)前點擊是否作弊或異常的,并沒有考慮廣告位本身的實際情況(如坐標(biāo)、尺寸等),導(dǎo)致判斷出的結(jié)果準(zhǔn)確率低,無法準(zhǔn)確識別出異常的點擊行為。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明實施例提供一種識別廣告位點擊異常的方法和裝置,能夠解決現(xiàn)有技術(shù)中因沒有全面考慮點擊的情況,而導(dǎo)致判斷點擊的結(jié)果準(zhǔn)確率低,無法準(zhǔn)確識別出異常點擊的問題。
為實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的一個方面,提供了一種識別廣告位點擊異常的方法。
本發(fā)明實施例一種識別廣告位點擊異常的方法包括:根據(jù)獲取的待識別廣告位的點擊日志數(shù)據(jù)得到點擊矩陣;將點擊矩陣輸入到預(yù)測模型中以得到該點擊矩陣的得分,該預(yù)測模型用于計算點擊矩陣的異常程度的得分;根據(jù)該點擊矩陣的得分確定待識別廣告位點擊屬于異常的概率。
優(yōu)選的,本發(fā)明的實施例根據(jù)獲取的待識別廣告位的點擊日志數(shù)據(jù)得到點擊矩陣,包括:將日志數(shù)據(jù)進(jìn)行歸一化處理得到歸一化數(shù)據(jù);將歸一化數(shù)據(jù)進(jìn)行矩陣化處理得到點擊矩陣。
優(yōu)選的,本發(fā)明的實施例將日志數(shù)據(jù)進(jìn)行歸一化處理得到歸一化數(shù)據(jù)的步驟包括:從日志數(shù)據(jù)中提取出點擊坐標(biāo)以及點擊坐標(biāo)的個數(shù);將點擊坐標(biāo)以及個數(shù)映射成歸一化數(shù)據(jù)。
優(yōu)選的,本發(fā)明實施例的預(yù)測模型是按以下步驟得到:獲取多個廣告位的歷史點擊日志數(shù)據(jù);根據(jù)歷史點擊日志數(shù)據(jù)得到多個點擊矩陣以及多個廣告位的熱力圖;保存多個廣告位熱力圖的標(biāo)簽值;將多個點擊矩陣和多個廣告位熱力圖的標(biāo)簽值作為訓(xùn)練數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)cnn中進(jìn)行訓(xùn)練以得到預(yù)測模型。
優(yōu)選的,本發(fā)明實施例的每個廣告位的熱力圖是按以下步驟得到:獲取廣告位的歷史點擊日志數(shù)據(jù)中的點擊坐標(biāo)以及點擊坐標(biāo)的個數(shù);根據(jù)點擊坐標(biāo)以及個數(shù)將歷史點擊日志數(shù)據(jù)轉(zhuǎn)換成廣告位的熱力圖。
為實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的另一方面,提供了一種識別廣告位點擊異常的裝置。
本發(fā)明實施例的一種識別廣告位點擊異常的裝置包括:轉(zhuǎn)換模塊,用于根據(jù)獲取的待識別廣告位的點擊日志數(shù)據(jù)得到點擊矩陣;處理模塊,用于將點擊矩陣輸入到預(yù)測模型中以得到該點擊矩陣的得分,該預(yù)測模型用于計算點擊矩陣的異常程度的得分;確認(rèn)模塊,用于根據(jù)該點擊矩陣的得分確定待識別廣告位點擊屬于異常的概率。
優(yōu)選的,本發(fā)明實施例的轉(zhuǎn)換模塊具體用于:將日志數(shù)據(jù)進(jìn)行歸一化處理得到歸一化數(shù)據(jù);將歸一化數(shù)據(jù)進(jìn)行矩陣化處理得到點擊矩陣。
優(yōu)選的,本發(fā)明實施例的轉(zhuǎn)換模塊還用于:從日志數(shù)據(jù)中提取出點擊坐標(biāo)以及點擊坐標(biāo)的個數(shù);將點擊坐標(biāo)以及個數(shù)映射成歸一化數(shù)據(jù)。
優(yōu)選的,本發(fā)明的實施例還包括模型訓(xùn)練模塊,用于按以下步驟得到預(yù)測模型:獲取多個廣告位的歷史點擊日志數(shù)據(jù);根據(jù)歷史點擊日志數(shù)據(jù)得到多個點擊矩陣以及多個廣告位的熱力圖;保存多個廣告位熱力圖的標(biāo)簽值;將多個點擊矩陣和多個廣告位熱力圖的標(biāo)簽值作為訓(xùn)練數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)cnn中進(jìn)行訓(xùn)練以得到預(yù)測模型。
優(yōu)選的,本發(fā)明的實施例還包括熱力圖轉(zhuǎn)換模塊,用于按以下步驟得到廣告位的熱力圖:獲取廣告位的歷史點擊日志數(shù)據(jù)中的點擊坐標(biāo)以及點擊坐標(biāo)的個數(shù);根據(jù)點擊坐標(biāo)以及個數(shù)將歷史點擊日志數(shù)據(jù)轉(zhuǎn)換成廣告位的熱力圖。
為實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的再一方面,提供了一種實現(xiàn)識別廣告位點擊異常的方法的電子設(shè)備。
本發(fā)明實施例的一種電子設(shè)備包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)本發(fā)明實施例的識別廣告位點擊異常的方法。
為實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的又一方面,提供了一種計算機(jī)可讀介質(zhì)。
本發(fā)明實施例的一種計算機(jī)可讀介質(zhì),其上存儲有計算機(jī)程序,所述程序被處理器執(zhí)行時實現(xiàn)本發(fā)明實施例的識別廣告位點擊異常的方法。
上述發(fā)明中的一個實施例具有如下優(yōu)點或有益效果:因為采用將日志數(shù)據(jù)轉(zhuǎn)換成與待識別廣告位相應(yīng)的點擊矩陣數(shù)據(jù),并將該點擊矩陣數(shù)據(jù)輸入到預(yù)測模型中進(jìn)行預(yù)測的技術(shù)手段,所以克服了因沒有考慮到廣告位自身的因素而導(dǎo)致最終的結(jié)果不準(zhǔn)確,甚至無法判斷出異常的點擊行為的技術(shù)問題,進(jìn)而達(dá)到提高判斷的準(zhǔn)確度以及多維度識別異常點擊行為的技術(shù)效果,有利于對網(wǎng)頁中不同坐標(biāo)的廣告位的點擊行為進(jìn)行全面的判斷。本發(fā)明通過將廣告位自身的數(shù)據(jù)增加到判斷的參數(shù)當(dāng)中,使判斷條件更加全面,多維度的識別出異常的點擊行為。
上述的非慣用的可選方式所具有的進(jìn)一步效果將在下文中結(jié)合具體實施方式加以說明。
附圖說明
附圖用于更好地理解本發(fā)明,不構(gòu)成對本發(fā)明的不當(dāng)限定。其中:
圖1是根據(jù)本發(fā)明實施例的識別廣告位點擊異常的方法的主要流程的示意圖;
圖2是根據(jù)本發(fā)明實施例的生成預(yù)測模型的具體工作流程的示意圖;
圖3是根據(jù)本發(fā)明實施例的生成預(yù)測模型的系統(tǒng)構(gòu)架的示意圖;
圖4是根據(jù)本發(fā)明實施例的生成預(yù)測模型的作圖模塊的流程示意圖;
圖5是根據(jù)本發(fā)明實施例的生成預(yù)測模型的標(biāo)注模塊的流程示意圖;
圖6是根據(jù)本發(fā)明實施例的生成預(yù)測模型的特征量化模塊的流程示意圖;
圖7是根據(jù)本發(fā)明實施例的生成預(yù)測模型的卷積神經(jīng)網(wǎng)絡(luò)模塊的流程示意圖;
圖8是根據(jù)本發(fā)明實施例對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)設(shè)的流程示意圖;
圖9是根據(jù)本發(fā)明實施例的卷積神經(jīng)網(wǎng)絡(luò)計算的示意圖;
圖10是根據(jù)本發(fā)明具體實施例利用預(yù)測模型對待識別廣告位進(jìn)行判斷的主要流程示意圖;
圖11是根據(jù)本發(fā)明實施例的識別廣告位點擊異常的裝置的主要模塊的示意圖;
圖12是本發(fā)明實施例可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
圖13是適于用來實現(xiàn)本發(fā)明實施例的終端設(shè)備或服務(wù)器的計算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明的示范性實施例做出說明,其中包括本發(fā)明實施例的各種細(xì)節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識到,可以對這里描述的實施例做出各種改變和修改,而不會背離本發(fā)明的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結(jié)構(gòu)的描述。
正如本發(fā)明背景技術(shù)中所述,目前,業(yè)界如facebook、谷歌、百度、騰訊等廣告平臺都會建立自己的反作弊系統(tǒng)來為廣告業(yè)務(wù)保駕護(hù)航,例如:adwords、adsense、鳳巢、廣點通等。針對廣告位維度的點擊反作弊一般采用離線異常檢測模型,常用做法是:通過收集計算點擊ip、cookie、鼠標(biāo)行為等各種用戶維度數(shù)據(jù)的統(tǒng)計量,累積一定數(shù)據(jù)量后觀察每種統(tǒng)計量的top占比分布,然后找出離群的廣告位。
然而,廣告平臺使用的這種離線異常檢測模型,由于計算的是標(biāo)量統(tǒng)計值,無法對廣告位做出一個基于點擊位置分布的判斷。因此,對于點擊坐標(biāo)均勻分布或十分集中的作弊流量廣告位,在各項統(tǒng)計指標(biāo)正常的情況下,該檢測系統(tǒng)將會漏判。不僅如此,目前市面上存在不少可隨意切換ip和cookie的廣告點擊作弊器,這意味著基于標(biāo)量統(tǒng)計的異常檢測模型較容易被作弊器繞過。然而對于點擊作弊器來說,要實現(xiàn)整體點擊坐標(biāo)在廣告位上的擬人化分布,是十分困難的。
除了離線異常檢測模型以外,業(yè)界還有一種實時反作弊策略,可以在線過濾點擊。常用做法是使用時間窗口策略、頻次控制策略與黑名單策略等。時間窗口策略通過在一個固定的時間窗口內(nèi)設(shè)置請求或點擊上限值,超過該值的請求或點擊則過濾;頻次控制策略則是規(guī)定同一個ip、用戶或商品一次點擊的次數(shù),超過則過濾;黑名單策略通常針對的是非法ua和設(shè)備號,匹配上則過濾。
綜上,實時策略同樣無法解決離線模型不能解決的坐標(biāo)位置問題。也就是說,現(xiàn)有技術(shù)中沒有考慮到廣告位自身的情況而導(dǎo)致最終的結(jié)果不準(zhǔn)確,甚至無法判斷出異常的點擊行為。因此,本發(fā)明實施例的技術(shù)方案將廣告位自身的數(shù)據(jù)也當(dāng)作參考參數(shù),輸入到預(yù)測模型中進(jìn)行評估,因此使得評估的條件更加全面,評估的結(jié)果也更加準(zhǔn)確,從而解決了現(xiàn)有技術(shù)中判斷出的結(jié)果準(zhǔn)確率低,甚至無法準(zhǔn)確識別出異常的點擊行為的問題。
圖1是根據(jù)本發(fā)明實施例的識別廣告位點擊異常的方法的主要流程的示意圖,如圖1所示,本發(fā)明實施例的一種識別廣告位點擊異常的方法主要包括如下步驟:
步驟s101:根據(jù)獲取的待識別廣告位的點擊日志數(shù)據(jù)得到點擊矩陣。本發(fā)明是通過增加廣告為自身的屬性數(shù)據(jù)來使判斷條件更加全面的,具體的,根據(jù)獲取的待識別廣告位的點擊日志數(shù)據(jù)得到點擊矩陣的步驟包括:將日志數(shù)據(jù)進(jìn)行歸一化處理得到歸一化數(shù)據(jù);將歸一化數(shù)據(jù)進(jìn)行矩陣化處理得到點擊矩陣。其中,將日志數(shù)據(jù)進(jìn)行歸一化處理得到歸一化數(shù)據(jù)的步驟包括:從日志數(shù)據(jù)中提取出點擊坐標(biāo)以及點擊坐標(biāo)的個數(shù);將點擊坐標(biāo)以及個數(shù)映射成歸一化數(shù)據(jù)。
通過步驟s101的處理,我們就可以得到與廣告位的點擊行為相對應(yīng)的數(shù)據(jù),后續(xù)就可以將得到的數(shù)據(jù)輸入到模型中進(jìn)行預(yù)測評估,進(jìn)而通過評估的結(jié)果來對該廣告位的點擊行為做出異常概率判斷,判斷其是否為異常的點擊行為,具體的處理過程將在后續(xù)的步驟中詳盡闡述,在此不再贅述。
步驟s102:將點擊矩陣輸入到預(yù)測模型中以得到該點擊矩陣的得分,該預(yù)測模型用于計算點擊矩陣的異常程度的得分。本步驟旨在對廣告位自身的屬性數(shù)據(jù)做出判斷,將這些數(shù)據(jù)輸入到預(yù)測模型中,然后根據(jù)輸出的評估結(jié)果對廣告位的點擊行為做出異常概率的判斷,也就是說,本發(fā)明是在判斷完用戶的操作行為之后,才對廣告位自身的屬性數(shù)據(jù)做出進(jìn)一步判斷的,當(dāng)然,在一些具體的實施場景中,也可以是將用戶的操作行為以及廣告位自身的屬性數(shù)據(jù)一起進(jìn)行判斷,這樣的變化并不會影響本發(fā)明的保護(hù)范圍。
進(jìn)一步的,在本發(fā)明開始之前還需要對預(yù)測模型進(jìn)行訓(xùn)練,具體的訓(xùn)練方式為:獲取多個廣告位的歷史點擊日志數(shù)據(jù);根據(jù)歷史點擊日志數(shù)據(jù)得到多個點擊矩陣以及多個廣告位的熱力圖;保存多個廣告位熱力圖的標(biāo)簽值;將多個點擊矩陣和多個廣告位熱力圖的標(biāo)簽值作為訓(xùn)練數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)cnn中進(jìn)行訓(xùn)練以得到預(yù)測模型。這樣就得到了預(yù)測模型,而該預(yù)測模型中存儲有大量的數(shù)據(jù),后續(xù)便可以直接將數(shù)據(jù)輸入到該預(yù)測模型中進(jìn)行預(yù)測評估了。需要說明的是,熱力圖是以特殊高亮的形式顯示訪客熱衷的頁面區(qū)域和訪客所在的地理區(qū)域的圖示。
在本發(fā)明的實施方式中,每個廣告位的熱力圖是按以下步驟得到:獲取廣告位的歷史點擊日志數(shù)據(jù)中的點擊坐標(biāo)以及點擊坐標(biāo)的個數(shù);根據(jù)點擊坐標(biāo)以及個數(shù)將歷史點擊日志數(shù)據(jù)轉(zhuǎn)換成廣告位的熱力圖。
步驟s103:根據(jù)該點擊矩陣的得分確定待識別廣告位點擊屬于異常的概率。具體的,是以預(yù)測模型輸出結(jié)果來判斷廣告位的點擊行為為異常的概率,而本發(fā)明的實施例是將輸出的評估得分與預(yù)測模型中的閥值進(jìn)行對比,如果小于該閥值則確定其為正常廣告位點擊;如果大于該閥值則確定其為異常廣告位熱力圖,進(jìn)而確定該廣告位的點擊行為是異常的。當(dāng)然,在本發(fā)明確定出待識別廣告位點擊屬于異常的概率之后,還可以根據(jù)其他的方式或參數(shù)來確定廣告位的點擊行為是否異常。
上述方法可以采用計算機(jī)來實現(xiàn),軟件的一種架構(gòu)如圖2所示,圖2是根據(jù)本發(fā)明實施例的生成預(yù)測模型的具體工作流程的示意圖。在圖2中,本發(fā)明的識別廣告位點擊異常的系統(tǒng)主要包括作圖模塊、標(biāo)注模塊、特征量化模塊以及卷積神經(jīng)網(wǎng)絡(luò)模塊。
本發(fā)明主要分為兩個部分,訓(xùn)練部分和預(yù)測部分,其中,訓(xùn)練部分需要作圖模塊、標(biāo)注模塊、特征量化模塊以及卷積神經(jīng)網(wǎng)絡(luò)模塊共同參與;預(yù)測部分需要特征量化模塊和預(yù)測模型與。
第一部分是訓(xùn)練部分,首先是將獲取的歷史日志數(shù)據(jù)轉(zhuǎn)換成廣告位熱力圖并進(jìn)行人工標(biāo)注,以及轉(zhuǎn)換成點擊矩陣,具體的如圖3所示,圖3是根據(jù)本發(fā)明實施例的生成預(yù)測模型的系統(tǒng)構(gòu)架的示意圖。針對本發(fā)明的使用情況可知,廣告位點擊坐標(biāo)范圍應(yīng)在廣告位寬高范圍內(nèi),而對于單個目標(biāo)(商品、圖片)的點擊位置特征,正常流量通常具有集中分布性;廣告位點擊分布圖的這種集中分布性,在一定程度上反映了該廣告位流量的異常程度,量化后的得分值可作為一種衡量廣告位優(yōu)劣的指標(biāo)。下面就結(jié)合圖3針對作圖模塊、標(biāo)注模塊、特征量化模塊以及卷積神經(jīng)網(wǎng)絡(luò)模塊的功能與用途做詳盡說明。
作圖模塊主要是將歷史點擊日志轉(zhuǎn)換成廣告位熱力圖,具體的如圖4所示,是根據(jù)本發(fā)明實施例的生成預(yù)測模型的作圖模塊的流程示意圖。實現(xiàn)流程為:(1)獲取廣告系統(tǒng)累計的歷史點擊日志;(2)提取點擊坐標(biāo)(一般是1天的日志的點擊坐標(biāo)),并進(jìn)行統(tǒng)計,按廣告位維度統(tǒng)計不同坐標(biāo)出現(xiàn)的個數(shù);(3)按不同個數(shù)從小到大等頻分箱(主要是按照熱力圖的原理來進(jìn)行分類,將按照個數(shù)分類好的坐標(biāo)進(jìn)行統(tǒng)計歸類),定色(主要是按照熱力圖的原理來對分箱上色,顏色可以從深藍(lán)到深紅十色過渡);(4)根據(jù)定色作圖。最后就得到了關(guān)于廣告位日志數(shù)據(jù)的廣告位熱力圖。緊接著,還需要對制作好的廣告位熱力圖進(jìn)行標(biāo)注,由標(biāo)注模塊來完成,具體的如圖5所示,是根據(jù)本發(fā)明實施例的生成預(yù)測模型的標(biāo)注模塊的流程示意圖。其實現(xiàn)流程為:為了提高人工標(biāo)注的效率,采用服務(wù)器(例如web服務(wù)器apache或應(yīng)用服務(wù)器tomcat)搭建一個web服務(wù)器,然后使用java服務(wù)器頁面(例如javaserverpages服務(wù)器)技術(shù)對轉(zhuǎn)換的廣告位熱力圖圖片進(jìn)行手工標(biāo)注,在本發(fā)明中是將異常廣告位熱力圖標(biāo)注為1,正常廣告位熱力圖標(biāo)注為0。
特征量化模塊主要是將歷史點擊日志轉(zhuǎn)換成點擊矩陣,如圖6所示,是根據(jù)本發(fā)明實施例的生成預(yù)測模型的特征量化模塊的流程示意圖。其實現(xiàn)流程為:獲取廣告系統(tǒng)累計的歷史點擊日志,對點擊坐標(biāo)進(jìn)行統(tǒng)計,由于點擊坐標(biāo)計數(shù)據(jù)有長尾現(xiàn)象,且模型數(shù)據(jù)集一般要求特征值介于0-1之間,因此采用歸一化算法將統(tǒng)計數(shù)據(jù)映射到0-1的范圍內(nèi)(這里得到上述的歸一化數(shù)據(jù)),再通過矩陣化算法對映射后的數(shù)據(jù)進(jìn)行處理,然后輸出成符合圖片性質(zhì)的圖片數(shù)據(jù)(這里得到上述的點擊矩陣)。需要說明的是,這里的圖片數(shù)據(jù)是與廣告位熱力圖對應(yīng)的圖片數(shù)據(jù)。
卷積神經(jīng)網(wǎng)絡(luò)模塊主要是對輸入的標(biāo)注后的廣告位熱力圖和點擊矩陣進(jìn)行訓(xùn)練,以得到預(yù)測模型,具體的如圖7所示,是根據(jù)本發(fā)明實施例的生成預(yù)測模型的卷積神經(jīng)網(wǎng)絡(luò)模塊的流程示意圖。其實現(xiàn)流程為:根據(jù)標(biāo)注模塊與特征量化模塊生成的數(shù)據(jù)組成數(shù)據(jù)集,然后利用卷積神經(jīng)網(wǎng)絡(luò)cnn對這些圖片進(jìn)行特征學(xué)習(xí)訓(xùn)練。其中,模型訓(xùn)練時,我們預(yù)先設(shè)定好網(wǎng)絡(luò)結(jié)構(gòu)(例如網(wǎng)絡(luò)層數(shù),每層的網(wǎng)絡(luò)節(jié)點、卷積核大小、激活函數(shù)等),然后利用機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)網(wǎng)絡(luò)中卷積核、邊的權(quán)重。模型訓(xùn)練達(dá)到一定的準(zhǔn)確率后,我們再次利用歷史日志(未參與模型訓(xùn)練的日志)對模型進(jìn)行評估,當(dāng)模型達(dá)到預(yù)期標(biāo)準(zhǔn)則輸出預(yù)測模型并推至線上開始對識別出的異常廣告位進(jìn)行封禁。
具體的,本發(fā)明中使用到的cnn網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示,共包含:輸入層、卷積層、池化層、全連接層和輸出層等部分。其中,卷積層和池化層首先來學(xué)習(xí)輸入圖像中的局部空間結(jié)構(gòu),然后將局部信息匯合到全連接層,全連接層則學(xué)習(xí)更加抽象的包含了整個圖像中的全局信息。因此,cnn網(wǎng)絡(luò)具有自動特征挖掘的能力,無需人工去嘗試挖掘特征。具體的結(jié)構(gòu)介紹如下:
1)輸入層:經(jīng)標(biāo)注模塊與特征量化模塊處理好的數(shù)據(jù)集;
2)卷積層:輸入來源于輸入層或池化層。卷積層實現(xiàn)原理:首先選定卷積核(取值通常是先隨機(jī)初始化后再通過訓(xùn)練逐步更新,然后將卷積核與輸入層的任意一區(qū)域(大小與卷積核大小一致)進(jìn)行卷積計算,全部計算完成之后,生成卷積結(jié)果(其中,卷積層輸出的結(jié)果則是下一層網(wǎng)絡(luò)的輸入),具體的,如圖9是根據(jù)本發(fā)明實施例的卷積神經(jīng)網(wǎng)絡(luò)計算的示意圖,并以圖9所示的陰影區(qū)域為例。
關(guān)于卷積層,一般我們認(rèn)為圖中局部的像素聯(lián)系較為緊密,而距離較遠(yuǎn)的像素相關(guān)性則較弱。因此,網(wǎng)絡(luò)中每個神經(jīng)元只需要對局部進(jìn)行感知,然后在更高層的神經(jīng)元將局部的信息綜合起來就得到了全局的信息。
3)池化層:池化層主要目的是仿照人的視覺系統(tǒng)對網(wǎng)絡(luò)進(jìn)行降維,例如,我們可以計算圖像一個區(qū)域上特征的平均值(或最大值),使用這個特征均值來代替這一區(qū)域中所有的特征。這些概要統(tǒng)計特征不僅可以極大降低特征維度(相比使用所有提取得到的特征),同時還會改善模型結(jié)果(不容易過擬合)。
4)全連接層
全連接層將卷積池化層抽取的高維空間圖像特征,通過多層全連接的神經(jīng)網(wǎng)絡(luò)進(jìn)一步學(xué)習(xí)高層組合特征,進(jìn)而最終得到最終模型推斷結(jié)果。這里不同于卷積層的局部連接和權(quán)值共享,全連接層的每個輸入節(jié)點和輸出節(jié)點之間都保持連接,因此它丟棄了一些局部特征的位置信息,從全局的角度出發(fā),給出一個綜合的模型推斷結(jié)果。
5)輸出層:該廣告位點擊圖像的得分。
基于上述對cnn網(wǎng)絡(luò)的介紹可知,本發(fā)明中預(yù)測模型的訓(xùn)練過程如下:(1).從標(biāo)注模塊與特征量化模塊獲取訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)結(jié)構(gòu)為<點擊矩陣,帶有標(biāo)注的熱力圖>,其中異常熱力圖標(biāo)簽取值為1,正常熱力圖標(biāo)簽取值為0;(2).將訓(xùn)練數(shù)據(jù)作為cnn網(wǎng)絡(luò)的輸入,經(jīng)過卷積、池化等操作后,再接入全連接層,最終經(jīng)過輸出層輸出一個得分;(3).將輸出的得分(取值范圍為[0,1])與真實的熱力圖的標(biāo)注(異常為1,正常為0)進(jìn)行對比,依據(jù)cnn輸出的得分與真實的熱力圖的標(biāo)注的差值來迭代更新網(wǎng)絡(luò)中每條邊的權(quán)重;(4).重復(fù)進(jìn)行上述過程,直至cnn輸出的得分與真實的熱力圖的標(biāo)注的差值達(dá)到預(yù)期之內(nèi)。
在訓(xùn)練好預(yù)測模型之后,接下來就是第二部分了,如圖10所示,是根據(jù)本發(fā)明具體實施例利用預(yù)測模型對待識別廣告位進(jìn)行判斷的主要流程示意圖,主要是通過訓(xùn)練好的預(yù)測模型對待識別的廣告位的點擊行為進(jìn)行判斷,需要特征量化模塊與預(yù)測模型參與,通過特征量化模塊將獲取的待識別廣告位的點擊日志數(shù)據(jù)轉(zhuǎn)換成點擊矩陣,然后將點擊矩陣輸入到預(yù)測模型中以得到該點擊矩陣的得分,最后根據(jù)該點擊矩陣的得分確定待識別廣告位點擊屬于異常的概率。
這里,還需要對本發(fā)明所涉及的技術(shù)名字做如下解釋:
tomcat服務(wù)器:tomcat服務(wù)器是一個免費的開放源代碼的web應(yīng)用服務(wù)器,屬于輕量級應(yīng)用服務(wù)器,在中小型系統(tǒng)和并發(fā)訪問用戶不是很多的場合下被普遍使用,是開發(fā)和調(diào)試jsp程序的首選。
jsp:jsp全名為javaserverpages,中文名叫java服務(wù)器頁面,其根本是一個簡化的servlet設(shè)計,它是由sunmicrosystems公司倡導(dǎo)、許多公司參與一起建立的一種動態(tài)網(wǎng)頁技術(shù)標(biāo)準(zhǔn)。
cnn:卷積神經(jīng)網(wǎng)絡(luò),是deeplearning技術(shù)的一種實現(xiàn)。
過擬合:為了得到一致假設(shè)而使假設(shè)變得過度復(fù)雜稱為過擬合。標(biāo)準(zhǔn)定義:給定一個假設(shè)空間h,一個假設(shè)h屬于h,如果存在其他的假設(shè)h’屬于h,使得在訓(xùn)練樣例上h的錯誤率比h’小,但在整個實例分布上h’比h的錯誤率小,那么就說假設(shè)h過度擬合訓(xùn)練數(shù)據(jù)。
根據(jù)本發(fā)明實施例的識別廣告位點擊異常的方法可以看出,因為采用將日志數(shù)據(jù)轉(zhuǎn)換成與待識別廣告位相應(yīng)的點擊矩陣數(shù)據(jù),并將該點擊矩陣數(shù)據(jù)輸入到預(yù)測模型中進(jìn)行預(yù)測的技術(shù)手段,所以克服了因沒有考慮到廣告位自身的因素而導(dǎo)致最終的結(jié)果不準(zhǔn)確,甚至無法判斷出異常的點擊行為的技術(shù)問題,進(jìn)而達(dá)到提高判斷的準(zhǔn)確度以及多維度識別異常點擊行為的技術(shù)效果,有利于對網(wǎng)頁中不同坐標(biāo)的廣告位的點擊行為進(jìn)行全面的判斷。本發(fā)明通過將廣告位自身的數(shù)據(jù)增加到判斷的參數(shù)當(dāng)中,使判斷條件更加全面,多維度的識別出異常的點擊行為。
圖11是根據(jù)本發(fā)明實施例的識別廣告位點擊異常的裝置的主要模塊的示意圖。如圖11所示,本發(fā)明實施例的識別廣告位點擊異常的裝置1100主要包括:轉(zhuǎn)換模塊1101、處理模塊1102以及確認(rèn)模塊1103。其中:
轉(zhuǎn)換模塊1101,用于根據(jù)獲取的待識別廣告位的點擊日志數(shù)據(jù)得到點擊矩陣;處理模塊1102,用于將點擊矩陣輸入到預(yù)測模型中以得到該點擊矩陣的得分,該預(yù)測模型用于計算點擊矩陣的異常程度的得分;確認(rèn)模塊1103,用于根據(jù)該點擊矩陣的得分確定待識別廣告位點擊屬于異常的概率。
優(yōu)選的,本發(fā)明實施例的轉(zhuǎn)換模塊1101具體用于:將日志數(shù)據(jù)進(jìn)行歸一化處理得到歸一化數(shù)據(jù);將歸一化數(shù)據(jù)進(jìn)行矩陣化處理得到點擊矩陣。
優(yōu)選的,本發(fā)明實施例的轉(zhuǎn)換模塊1101還用于:從日志數(shù)據(jù)中提取出點擊坐標(biāo)以及點擊坐標(biāo)的個數(shù);將點擊坐標(biāo)以及個數(shù)映射成歸一化數(shù)據(jù)。
優(yōu)選的,本發(fā)明的實施例還包括模型訓(xùn)練模塊1104,用于按以下步驟得到預(yù)測模型:獲取多個廣告位的歷史點擊日志數(shù)據(jù);根據(jù)歷史點擊日志數(shù)據(jù)得到多個點擊矩陣以及多個廣告位的熱力圖;保存多個廣告位熱力圖的標(biāo)簽值;將多個點擊矩陣和多個廣告位熱力圖的標(biāo)簽值作為訓(xùn)練數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)cnn中進(jìn)行訓(xùn)練以得到預(yù)測模型。
優(yōu)選的,本發(fā)明的實施例還包括熱力圖轉(zhuǎn)換模塊1105,用于按以下步驟得到廣告位的熱力圖:獲取廣告位的歷史點擊日志數(shù)據(jù)中的點擊坐標(biāo)以及點擊坐標(biāo)的個數(shù);根據(jù)點擊坐標(biāo)以及個數(shù)將歷史點擊日志數(shù)據(jù)轉(zhuǎn)換成廣告位的熱力圖。
從以上描述可以看出,因為采用將日志數(shù)據(jù)轉(zhuǎn)換成與待識別廣告位相應(yīng)的點擊矩陣數(shù)據(jù),并將該點擊矩陣數(shù)據(jù)輸入到預(yù)測模型中進(jìn)行預(yù)測的技術(shù)手段,所以克服了因沒有考慮到廣告位自身的因素而導(dǎo)致最終的結(jié)果不準(zhǔn)確,甚至無法判斷出異常的點擊行為的技術(shù)問題,進(jìn)而達(dá)到提高判斷的準(zhǔn)確度以及多維度識別異常點擊行為的技術(shù)效果,有利于對網(wǎng)頁中不同坐標(biāo)的廣告位的點擊行為進(jìn)行全面的判斷。本發(fā)明通過將廣告位自身的數(shù)據(jù)增加到判斷的參數(shù)當(dāng)中,使判斷條件更加全面,多維度的識別出異常的點擊行為。
圖12示出了可以應(yīng)用本發(fā)明實施例的識別廣告位點擊異常方法或識別廣告位點擊異常裝置的示例性系統(tǒng)架構(gòu)1200。
如圖12所示,系統(tǒng)架構(gòu)1200可以包括終端設(shè)備1201、1202、1203,網(wǎng)絡(luò)1204和服務(wù)器1205。網(wǎng)絡(luò)1204用以在終端設(shè)備1201、1202、1203和服務(wù)器1205之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)1204可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
用戶可以使用終端設(shè)備1201、1202、1203通過網(wǎng)絡(luò)1204與服務(wù)器1205交互,以接收或發(fā)送消息等。終端設(shè)備1201、1202、1203上可以安裝有各種通訊客戶端應(yīng)用,例如購物類應(yīng)用、網(wǎng)頁瀏覽器應(yīng)用、搜索類應(yīng)用、即時通信工具、郵箱客戶端、社交平臺軟件等(僅為示例)。
終端設(shè)備1201、1202、1203可以是具有顯示屏并且支持網(wǎng)頁瀏覽的各種電子設(shè)備,包括但不限于智能手機(jī)、平板電腦、膝上型便攜計算機(jī)和臺式計算機(jī)等等。
服務(wù)器1205可以是提供各種服務(wù)的服務(wù)器,例如對用戶利用終端設(shè)備1201、1202、1203所瀏覽的購物類網(wǎng)站提供支持的后臺管理服務(wù)器(僅為示例)。后臺管理服務(wù)器可以對接收到的產(chǎn)品信息查詢請求等數(shù)據(jù)進(jìn)行分析等處理,并將處理結(jié)果(例如目標(biāo)推送信息、產(chǎn)品信息--僅為示例)反饋給終端設(shè)備。
需要說明的是,本發(fā)明實施例所提供的識別廣告位點擊異常方法一般由服務(wù)器1205執(zhí)行,相應(yīng)地,識別廣告位點擊異常裝置一般設(shè)置于服務(wù)器1205中。
應(yīng)該理解,圖12中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。
下面參考圖13,其示出了適于用來實現(xiàn)本發(fā)明實施例的終端設(shè)備的計算機(jī)系統(tǒng)1300的結(jié)構(gòu)示意圖。圖13示出的終端設(shè)備僅僅是一個示例,不應(yīng)對本發(fā)明實施例的功能和使用范圍帶來任何限制。
如圖13所示,計算機(jī)系統(tǒng)1300包括中央處理單元(cpu)1301,其可以根據(jù)存儲在只讀存儲器(rom)1302中的程序或者從存儲部分1308加載到隨機(jī)訪問存儲器(ram)1303中的程序而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚怼T趓am1303中,還存儲有系統(tǒng)1300操作所需的各種程序和數(shù)據(jù)。cpu1301、rom1302以及ram1303通過總線1304彼此相連。輸入/輸出(i/o)接口1305也連接至總線1304。
以下部件連接至i/o接口1305:包括鍵盤、鼠標(biāo)等的輸入部分1306;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分1307;包括硬盤等的存儲部分1308;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分1309。通信部分1309經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器1310也根據(jù)需要連接至i/o接口1305??刹鹦督橘|(zhì)1311,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器1310上,以便于從其上讀出的計算機(jī)程序根據(jù)需要被安裝入存儲部分1308。
特別地,根據(jù)本發(fā)明公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機(jī)軟件程序。例如,本發(fā)明公開的實施例包括一種計算機(jī)程序產(chǎn)品,其包括承載在計算機(jī)可讀介質(zhì)上的計算機(jī)程序,該計算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機(jī)程序可以通過通信部分1309從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)1311被安裝。在該計算機(jī)程序被中央處理單元(cpu)1301執(zhí)行時,執(zhí)行本發(fā)明的系統(tǒng)中限定的上述功能。
需要說明的是,本發(fā)明所示的計算機(jī)可讀介質(zhì)可以是計算機(jī)可讀信號介質(zhì)或者計算機(jī)可讀存儲介質(zhì)或者是上述兩者的任意組合。計算機(jī)可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機(jī)可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導(dǎo)線的電連接、便攜式計算機(jī)磁盤、硬盤、隨機(jī)訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本發(fā)明中,計算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本發(fā)明中,計算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機(jī)可讀的信號介質(zhì)還可以是計算機(jī)可讀存儲介質(zhì)以外的任何計算機(jī)可讀介質(zhì),該計算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實施例的系統(tǒng)、方法和計算機(jī)程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖或流程圖中的每個方框、以及框圖或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機(jī)指令的組合來實現(xiàn)。
描述于本發(fā)明實施例中所涉及到的模塊可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的模塊也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括轉(zhuǎn)換模塊和處理模塊。其中,這些模塊的名稱在某種情況下并不構(gòu)成對該模塊本身的限定。
作為另一方面,本發(fā)明還提供了一種計算機(jī)可讀介質(zhì),該計算機(jī)可讀介質(zhì)可以是上述實施例中描述的設(shè)備中所包含的;也可以是單獨存在,而未裝配入該設(shè)備中。上述計算機(jī)可讀介質(zhì)承載有一個或者多個程序,當(dāng)上述一個或者多個程序被一個該設(shè)備執(zhí)行時,使得該設(shè)備包括:根據(jù)獲取的待識別廣告位的點擊日志數(shù)據(jù)得到點擊矩陣;將點擊矩陣輸入到預(yù)測模型中以得到該點擊矩陣的得分,該預(yù)測模型用于計算點擊矩陣的異常程度的得分;根據(jù)該點擊矩陣的得分確定待識別廣告位點擊屬于異常的概率。
根據(jù)本發(fā)明實施例的技術(shù)方案,因為采用將日志數(shù)據(jù)轉(zhuǎn)換成與待識別廣告位相應(yīng)的點擊矩陣數(shù)據(jù),并將該點擊矩陣數(shù)據(jù)輸入到預(yù)測模型中進(jìn)行預(yù)測的技術(shù)手段,所以克服了因沒有考慮到廣告位自身的因素而導(dǎo)致最終的結(jié)果不準(zhǔn)確,甚至無法判斷出異常的點擊行為的技術(shù)問題,進(jìn)而達(dá)到提高判斷的準(zhǔn)確度以及多維度識別異常點擊行為的技術(shù)效果,有利于對網(wǎng)頁中不同坐標(biāo)的廣告位的點擊行為進(jìn)行全面的判斷。本發(fā)明通過將廣告位自身的數(shù)據(jù)增加到判斷的參數(shù)當(dāng)中,使判斷條件更加全面,多維度的識別出異常的點擊行為。
上述具體實施方式,并不構(gòu)成對本發(fā)明保護(hù)范圍的限制。本領(lǐng)域技術(shù)人員應(yīng)該明白的是,取決于設(shè)計要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)范圍之內(nèi)。