br>[0030] 下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明再作進(jìn)一步詳細(xì)的說明
[0031] 圖1為本發(fā)明所述網(wǎng)絡(luò)媒介信息的處理方法的一種流程圖。本發(fā)明的網(wǎng)絡(luò)媒介 信息的處理方法又可以稱為網(wǎng)絡(luò)媒介信息受眾人群包的提取方法,參見圖1,該方法主要包 括:
[0032] 步驟101、收集網(wǎng)絡(luò)媒介信息的歷史發(fā)布效果數(shù)據(jù)。
[0033] 所述歷史發(fā)布效果數(shù)據(jù)是根據(jù)受眾人群對(duì)網(wǎng)絡(luò)媒介信息發(fā)布的歷史反應(yīng)數(shù)據(jù)得 到,是現(xiàn)有的數(shù)據(jù),可以從現(xiàn)有的網(wǎng)絡(luò)媒介信息發(fā)布系統(tǒng)中直接獲取。所述發(fā)布效果數(shù)據(jù)例 如是曝光、點(diǎn)擊、和轉(zhuǎn)化數(shù)據(jù)等,具體可以包括:曝光站點(diǎn)、網(wǎng)絡(luò)媒介信息標(biāo)識(shí)、網(wǎng)絡(luò)媒介信 息位標(biāo)識(shí)、時(shí)間、跳轉(zhuǎn)信息(即網(wǎng)絡(luò)媒介信息所在的網(wǎng)頁是從哪一個(gè)網(wǎng)頁跳轉(zhuǎn)來的,在業(yè)界 也被稱為refer信息),網(wǎng)絡(luò)媒介信息發(fā)布方信息、以及各個(gè)受眾標(biāo)識(shí)等各種字段信息。 [0034] 本步驟還可以進(jìn)一步對(duì)所收集的發(fā)布效果數(shù)據(jù)進(jìn)行加工處理,如清洗去噪處理。 所述清洗去噪處理例如包括對(duì)無效曝光等錯(cuò)誤數(shù)據(jù)進(jìn)行刪除,對(duì)重復(fù)數(shù)據(jù)進(jìn)行排重處理 等。
[0035] 步驟102、獲取人群屬性數(shù)據(jù)、網(wǎng)絡(luò)媒介信息管理數(shù)據(jù),利用人群屬性數(shù)據(jù)、網(wǎng)絡(luò)媒 介信息管理數(shù)據(jù)對(duì)所述發(fā)布效果數(shù)據(jù)進(jìn)行屬性完善處理,得到特征屬性數(shù)據(jù)。
[0036] 具體的,所述人群屬性數(shù)據(jù)可以從現(xiàn)有的人群屬性系統(tǒng)中獲取,所述人群屬性數(shù) 據(jù)具體包括:例如用戶ID、IP地址、性別、所屬區(qū)域、年齡段、興趣標(biāo)簽等等。
[0037] 所述網(wǎng)絡(luò)媒介信息管理數(shù)據(jù)可以從現(xiàn)有的網(wǎng)絡(luò)媒介信息展示位、發(fā)布請(qǐng)求管理系 統(tǒng)中獲取,具體包括:例如網(wǎng)絡(luò)媒介信息展示位ID、展示位描述、網(wǎng)絡(luò)媒介信息的標(biāo)簽、發(fā) 布請(qǐng)求信息(例如網(wǎng)絡(luò)媒介信息的發(fā)布訂單就是一種發(fā)布請(qǐng)求)等等。
[0038] 由于所述發(fā)布效果數(shù)據(jù)中,單條日志中的各種屬性字段往往不完善,其中只包括 了關(guān)鍵屬性字段,但是相關(guān)屬性字段對(duì)于本發(fā)明后續(xù)的模型訓(xùn)練和效果數(shù)據(jù)的計(jì)算的精確 性有直接的影像,因此需要對(duì)所述發(fā)布效果數(shù)據(jù)進(jìn)行屬性完善處理,具體包括:根據(jù)所述 發(fā)布效果數(shù)據(jù)中的關(guān)鍵屬性字段查找所述人群屬性數(shù)據(jù)和網(wǎng)絡(luò)媒介信息管理數(shù)據(jù),從中得 到對(duì)應(yīng)的相關(guān)屬性字段,將該相關(guān)屬性字段加入到所述關(guān)鍵屬性字段對(duì)應(yīng)的發(fā)布效果數(shù)據(jù) 中,以所述關(guān)鍵屬性字段和相關(guān)屬性字段組成所述的特征屬性數(shù)據(jù)。
[0039] 例如,在一條網(wǎng)絡(luò)媒介信息的曝光日志中,只包括了曝光受眾的ID和本網(wǎng)絡(luò)媒介 信息的展示位ID等關(guān)鍵屬性字段,那么從人群屬性數(shù)據(jù)就可以查找到該受眾的性別、所屬 區(qū)域、年齡段、興趣標(biāo)簽等等相關(guān)屬性字段,從網(wǎng)絡(luò)媒介信息管理數(shù)據(jù)中就可以查找到該網(wǎng) 絡(luò)媒介信息的展示位描述、標(biāo)簽、發(fā)布請(qǐng)求信息等相關(guān)屬性字段,將這些相關(guān)屬性字段加入 到該曝光日志中,那么這些關(guān)鍵屬性字段和相關(guān)屬性字段就組成了所述的特征屬性數(shù)據(jù)。 當(dāng)針對(duì)大量的發(fā)布效果數(shù)據(jù)進(jìn)行屬性完善處理后,就可以得到相對(duì)全面的特征屬性數(shù)據(jù), 可以大大提高后續(xù)的模型訓(xùn)練和效果數(shù)據(jù)的計(jì)算的精確性。
[0040] 當(dāng)然除了上述人群屬性數(shù)據(jù)和網(wǎng)絡(luò)媒介信息管理數(shù)據(jù),本發(fā)明還可以利用其它所 能獲得的相關(guān)數(shù)據(jù)對(duì)所述發(fā)布效果數(shù)據(jù)進(jìn)行相應(yīng)的屬性完善處理,所獲得的相關(guān)數(shù)據(jù)越豐 富,所述完善處理越好,后續(xù)的模型訓(xùn)練和效果數(shù)據(jù)的計(jì)算的精確性越高。
[0041] 步驟103、構(gòu)建所述特征屬性數(shù)據(jù)各屬性所對(duì)應(yīng)的效果參數(shù)預(yù)估模型,根據(jù)歷史數(shù) 據(jù)對(duì)該效果參數(shù)預(yù)估模型進(jìn)行訓(xùn)練,得到該效果參數(shù)預(yù)估模型中各個(gè)屬性的權(quán)重系數(shù)。 [0042] 具體的,本步驟具體包括:利用邏輯回歸方式,構(gòu)建特征屬性數(shù)據(jù)各屬性的邏輯回 歸模型,該邏輯回歸模型在本發(fā)明中被稱為效果參數(shù)預(yù)估模型,然后根據(jù)網(wǎng)絡(luò)媒介信息曝 光日志中的歷史發(fā)布效果數(shù)據(jù),對(duì)所述邏輯回歸模型進(jìn)行模型訓(xùn)練,從而計(jì)算出各屬性的 權(quán)重系數(shù)。
[0043] 所述邏輯回歸(Logistic Regression)是工業(yè)界常用的算法,很多互聯(lián)網(wǎng)公 司就是用它來解決上百億特征大規(guī)模機(jī)器學(xué)習(xí)的?;貧w就是對(duì)已知公式中的未知參 數(shù)進(jìn)行評(píng)估求解,回歸分為線性回歸和非線性回歸。首先,公式若是已知的,比如說 f(x, y, z)=a*x+b*y+c*z+d,其中的a, b, c, d就是待評(píng)估的參數(shù),這種是線性回歸問題, 例如N元一次方程就是線性回歸問題。對(duì)于多次方程的參數(shù)評(píng)估,就是非線性回歸問 題。邏輯回歸就是一個(gè)被logistic方程歸一化后的線性回歸,logistic方程的形式為:
【主權(quán)項(xiàng)】
1. 一種網(wǎng)絡(luò)媒介信息的處理方法,其特征在于,包括: 收集網(wǎng)絡(luò)媒介信息的歷史發(fā)布效果數(shù)據(jù); 獲取人群屬性數(shù)據(jù)、網(wǎng)絡(luò)媒介信息管理數(shù)據(jù);利用人群屬性數(shù)據(jù)、網(wǎng)絡(luò)媒介信息管理數(shù) 據(jù)對(duì)所述歷史發(fā)布效果數(shù)據(jù)進(jìn)行屬性完善處理,得到特征屬性數(shù)據(jù); 構(gòu)建所述特征屬性數(shù)據(jù)各屬性所對(duì)應(yīng)的效果參數(shù)預(yù)估模型,根據(jù)歷史數(shù)據(jù)對(duì)該效果參 數(shù)預(yù)估模型進(jìn)行訓(xùn)練; 按照所述效果參數(shù)預(yù)估模型,預(yù)估各受眾對(duì)目標(biāo)網(wǎng)絡(luò)媒介信息的效果參數(shù)值; 從所述受眾中,選擇預(yù)估效果參數(shù)值大于等于指定門限值的受眾,組成所要提取的受 眾人群包。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標(biāo)網(wǎng)絡(luò)媒介信息為根據(jù)接收的行 業(yè)分類標(biāo)簽所對(duì)應(yīng)分類的網(wǎng)絡(luò)媒介信息。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用人群屬性數(shù)據(jù)、網(wǎng)絡(luò)媒介信息管 理數(shù)據(jù)對(duì)所述歷史發(fā)布效果數(shù)據(jù)進(jìn)行屬性完善處理,得到特征屬性數(shù)據(jù),具體包括: 根據(jù)所述發(fā)布效果數(shù)據(jù)中的關(guān)鍵屬性字段查找所述人群屬性數(shù)據(jù)和網(wǎng)絡(luò)媒介信息管 理數(shù)據(jù),從中得到對(duì)應(yīng)的相關(guān)屬性字段,將該相關(guān)屬性字段加入到所述關(guān)鍵屬性字段對(duì)應(yīng) 的發(fā)布效果數(shù)據(jù)中,以所述關(guān)鍵屬性字段和相關(guān)屬性字段組成所述的特征屬性數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述構(gòu)建所述特征屬性數(shù)據(jù)各屬性所對(duì) 應(yīng)的效果參數(shù)預(yù)估模型,具體包括: 利用邏輯回歸方式,構(gòu)建所述特征屬性數(shù)據(jù)各屬性的邏輯回歸模型,以該邏輯回歸模 型作為所述效果參數(shù)預(yù)估模型;該邏輯回歸模型具體包括: 回歸部分遵循公式(1): f (X1, X2, X3J ... ? Xi) =a1*x1+a2*x2+a3*X3+···+a^Xj+d (I) 邏輯部分遵循公式O ·
其中:Z = Hx1, X2, X3, . . .,Xi) %,X2, X3, . . .,Xi為所述特征數(shù)據(jù)中的各個(gè)屬性,其中 Xi為第i個(gè)屬性;an a2, a3, . . .,ai分別為所述各個(gè)屬性對(duì)應(yīng)的權(quán)重系數(shù),ai為Xi對(duì)應(yīng)的權(quán) 重系數(shù);g(z)為對(duì)應(yīng)的效果參數(shù)。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)歷史數(shù)據(jù)對(duì)該效果參數(shù)預(yù)估模 型進(jìn)行訓(xùn)練,具體包括: 統(tǒng)計(jì)網(wǎng)絡(luò)媒介信息曝光數(shù)據(jù)所涉及的各屬性組合以及各種屬性的組合所對(duì)應(yīng)的效果 參數(shù); 針對(duì)其中的每一個(gè)屬性組合,將其中的屬性代入上述公式(1)的等號(hào)右側(cè),其中,如果 某屬性Xi在該屬性組合中出現(xiàn),則該Xi取值為1,如果沒有在該屬性組合中出現(xiàn)則取值為 〇,該屬性組合對(duì)應(yīng)的效果參數(shù)代入所述公式(2)中得到所述Z,該z=f (X1, x2, X3, ...,Xi), 將f (Xl,x2, x3, . . .,Xi)代入所述公式(1)中,得到該屬性組合與對(duì)應(yīng)效果參數(shù)的邏輯回歸訓(xùn) 練; 利用所述每一個(gè)屬性組合得到的邏輯回歸訓(xùn)練,求解所述公式(1)中的%,a2, a3,..., %,得到該效果參數(shù)預(yù)估模型中各個(gè)屬性的權(quán)重系數(shù)。
6. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述預(yù)估各受眾對(duì)目標(biāo)網(wǎng)絡(luò)媒介信息的 效果參數(shù)值,具體包括: 針對(duì)指定范圍中的每一個(gè)受眾,執(zhí)行如下操作: 將所述效果參數(shù)預(yù)估模型中各個(gè)屬性的權(quán)重系數(shù)代入上述公式(1),然后判斷所述屬 性X1, χ2, X3,…,Xi中的每一個(gè)屬性是否在本受眾的屬性、以及目標(biāo)網(wǎng)絡(luò)媒介信息的屬性中 出現(xiàn),如果出現(xiàn),則該