專利名稱:信息相關(guān)性分析方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信技術(shù)領(lǐng)域,特別涉及一種信息相關(guān)性分析方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)作為ー種新興媒體成為廣告發(fā)布的新平臺(tái)。與傳統(tǒng)媒體發(fā)布廣告相比,網(wǎng)絡(luò)廣告具有高針對(duì)性,傳播速度快等優(yōu)點(diǎn)。在搜索引擎廣告的投放過程中,可以根據(jù)來訪者的檢索意圖,具有針對(duì)性的進(jìn)行廣告投放,在一定程度上保證了廣告的到達(dá)率。為了使網(wǎng)絡(luò)廣告能夠按照來訪者的檢索意圖更加準(zhǔn)確的投放,各互聯(lián)網(wǎng)公司會(huì)對(duì)自有的搜索引擎廣告投放系統(tǒng)進(jìn)行廣告相關(guān)性分析。
現(xiàn)有技術(shù)中各互聯(lián)網(wǎng)公司對(duì)自有搜索引擎廣告投放系統(tǒng)的廣告相關(guān)性分析,一般采用的是從檢索日志中隨機(jī)抽取一部分用戶曾經(jīng)進(jìn)行檢索的檢索串,然后到自有的搜索引擎中檢索抽取的檢索串,查看所展示的廣告與用戶的檢索意圖是否相一致。最后根據(jù)這些抽樣的廣告相關(guān)性作為自有搜索引擎廣告投放系統(tǒng)的廣告相關(guān)性?,F(xiàn)有技術(shù)中在廣告相關(guān)性分析費(fèi)用有限制的情況下,采用隨機(jī)抽取用于檢驗(yàn)廣告相關(guān)性的樣本,這種方法抽取的樣本與總體分布有可能不一致,使得抽樣的誤差較大,因此増大了誤差的方差,最終得到的廣告相關(guān)性分析指標(biāo)也不一定能代表總體的相關(guān)性。若使隨機(jī)抽取的樣本盡可能的與總體分布一致,達(dá)到減少誤差的目的,則要增大樣本容量,因此會(huì)增加廣告相關(guān)性的分析費(fèi)用。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中用于分析的抽樣樣本誤差大,無法代表總體分布情況的問題,本發(fā)明實(shí)施例提供了一種信息相關(guān)性分析方法和裝置。所述技術(shù)方案如下本發(fā)明實(shí)施例提出了一種信息相關(guān)性分析方法,包括根據(jù)預(yù)設(shè)條件對(duì)檢索串進(jìn)行分層;根據(jù)分層后的檢索串獲取用于分析的抽樣檢索串;獲取所述用于分析的抽樣檢索串對(duì)應(yīng)的數(shù)據(jù);根據(jù)所述獲取的數(shù)據(jù)對(duì)信息相關(guān)性進(jìn)行分析。作為上述技術(shù)方案的優(yōu)選,所述根據(jù)預(yù)設(shè)條件對(duì)所有的檢索串進(jìn)行分層,具體包括
將檢索串的詞頻、串長(zhǎng)作為預(yù)設(shè)條件對(duì)檢索串進(jìn)行分層。作為上述技術(shù)方案的優(yōu)選,所述根據(jù)分層后的檢索串獲取用于分析的抽樣檢索串,具體包括根據(jù)歷史數(shù)據(jù)計(jì)算用于分析的抽樣檢索串總?cè)萘?;按照所述抽樣檢索串總?cè)萘?,采用奈曼分配分別計(jì)算每個(gè)分層的抽樣檢索串容量;按照所述每個(gè)分層的抽樣容量,隨機(jī)抽取抽樣檢索串。
作為上述技術(shù)方案的優(yōu)選,所述根據(jù)歷史數(shù)據(jù)計(jì)算用于分析的抽樣檢索串總?cè)萘?,具體包括根據(jù)分層后每層中包含傳統(tǒng)的隨機(jī)抽樣分析方式獲得的檢索串度量指標(biāo)來計(jì)算每層的方差;根據(jù)每層的方差計(jì)算用于分析的抽樣檢索串總?cè)萘?。本發(fā)明實(shí)施例還提出了一種信息相關(guān)性分析裝置,包括分層模塊,用于根據(jù)預(yù)設(shè)條件對(duì)所有的檢索串進(jìn)行分層;第一獲取模塊,用于根據(jù)分層后的檢索串獲取用于分析的抽樣檢索串;第二獲取模塊,用于獲取所述用于分析的抽樣檢索串對(duì)應(yīng)的數(shù)據(jù);分析模塊,用于根據(jù)所述獲取的數(shù)據(jù)對(duì)信息相關(guān)性進(jìn)行分析。作為上述技術(shù)方案的優(yōu)選,所述分層模塊具體包括按照檢索串的詞頻、串長(zhǎng)作為預(yù)設(shè)條件進(jìn)行分層。作為上述技術(shù)方案的優(yōu)選,所述第一獲取模塊包括第一計(jì)算單元,用于根據(jù)歷史數(shù)據(jù)計(jì)算用于分析的抽樣檢索串總?cè)萘?;第二?jì)算單元,用于按照所述抽樣檢索串總?cè)萘浚捎媚温峙浞謩e計(jì)算每個(gè)分層的抽樣檢索串容量;抽取單元,用于按照所述每個(gè)分層的抽樣容量,隨機(jī)抽取抽樣檢索串。作為上述技術(shù)方案的優(yōu)選,所述第一計(jì)算單元包括第一計(jì)算子単元,用于根據(jù)分層后每層中包含傳統(tǒng)的隨機(jī)抽樣分析方式獲得的檢索串度量指標(biāo)來計(jì)算每層的方差;第二計(jì)算子単元,用于根據(jù)每層的方差計(jì)算用于分析的抽樣檢索串總?cè)萘?。本發(fā)明實(shí)施例提供的技術(shù)方案的有益效果是通過根據(jù)預(yù)設(shè)條件對(duì)所有的檢索串進(jìn)行分層,根據(jù)分層后的檢索串獲取用于分析的抽樣檢索串,獲取所述用于分析的抽樣檢索串對(duì)應(yīng)的數(shù)據(jù),根據(jù)所述獲取的數(shù)據(jù)對(duì)信息相關(guān)性進(jìn)行分析。實(shí)現(xiàn)了通過分層抽樣増大層間方差,降低增內(nèi)方差的方式,降低了抽樣檢索串的誤差,使得抽取的檢索串可以與總體分布大致一致,最終得到的分析指標(biāo)也可以代表總體的相關(guān)性,達(dá)到了從抽樣看總體的目的。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I是為本發(fā)明實(shí)施例I提供的信息相關(guān)性分析方法流程示意圖;圖2是為本發(fā)明實(shí)施例2提供的信息相關(guān)性分析方法流程示意圖;圖3是為本發(fā)明實(shí)施例3提供的信息相關(guān)性分析裝置結(jié)構(gòu)示意圖;
圖4是為本發(fā)明實(shí)施例4提供的信息相關(guān)性分析裝置結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)ー步地詳細(xì)描述。實(shí)施例I本發(fā)明第一實(shí)施例提出了一種信息相關(guān)性分析方法,其流程如圖I所示,包括步驟101 :根據(jù)預(yù)設(shè)條件對(duì)檢索串進(jìn)行分層;步驟102 :根據(jù)分層后的檢索串獲取用于分析的抽樣檢索串;步驟103 :獲取所述用于分析的抽樣檢索串對(duì)應(yīng)的數(shù)據(jù);步驟104 :根據(jù)所述獲取的數(shù)據(jù)對(duì)信息相關(guān)性進(jìn)行分析。
本發(fā)明實(shí)施例提供的技術(shù)方案的有益效果是通過根據(jù)預(yù)設(shè)條件對(duì)所有的檢索串進(jìn)行分層,根據(jù)分層后的檢索串獲取用于分析的抽樣檢索串,獲取所述用于分析的抽樣檢索串對(duì)應(yīng)的數(shù)據(jù),根據(jù)所述獲取的數(shù)據(jù)對(duì)信息相關(guān)性進(jìn)行分析。實(shí)現(xiàn)了通過分層抽樣増大層間方差,降低增內(nèi)方差的方式,降低了抽樣檢索串的誤差,使得抽取的檢索串可以與總體分布大致一致,最終得到的分析指標(biāo)也可以代表總體的相關(guān)性,達(dá)到了從抽樣看總體的目的。實(shí)施例2本發(fā)明第二實(shí)施例是在第一實(shí)施例的基礎(chǔ)上改進(jìn)而來,其流程如圖2所示,包括步驟201 :預(yù)先制定對(duì)抽樣的信息進(jìn)行相關(guān)性分析的評(píng)分標(biāo)準(zhǔn)。具體的,按照抽樣檢索串與對(duì)應(yīng)檢索到的數(shù)據(jù)的一致性和信息滿足用戶需求的程度預(yù)先制定相關(guān)性分析的評(píng)分標(biāo)準(zhǔn),評(píng)分的梯度分別為很好(4分)、好(3分)、可接受(2分)、一般(I分)、不好(0分)。對(duì)每條數(shù)據(jù)的評(píng)分作為信息相關(guān)性的水準(zhǔn)。在對(duì)信息相關(guān)性進(jìn)行評(píng)分的時(shí)候,若遇到模棱兩可的情況,統(tǒng)ー采用就低原則進(jìn)行評(píng)分。步驟202 :預(yù)先制定用于信息相關(guān)度分析的度量指標(biāo)。具體的,根據(jù)評(píng)價(jià)信息相關(guān)性的目的,制定不同的信息相關(guān)性分析的度量指標(biāo)。在進(jìn)行信息相關(guān)性分析吋,可根據(jù)每次分析的目的,使用相應(yīng)的度量指標(biāo)作為本次分析使用何種標(biāo)志值的依據(jù)。一般有如下兩種分析目的a.用于分析衡量信息的相關(guān)性程度的目的,制定整體指標(biāo)為信息相關(guān)性的平均得分AVG,這個(gè)分?jǐn)?shù)是對(duì)每一條檢索串,和與其對(duì)應(yīng)的數(shù)據(jù)進(jìn)行評(píng)分后所計(jì)算到的ー個(gè)平均值,這個(gè)平均值就是進(jìn)行信息相關(guān)性程度分析的標(biāo)志值。算法為AVG =所有信息相關(guān)性評(píng)分之和/分析的信息個(gè)數(shù)b.用于分析衡量相關(guān)性不好的信息數(shù)量和占比統(tǒng)計(jì)的目的?!跋嚓P(guān)性不好”下文中統(tǒng)稱為“Badcase” (缺陷)。這個(gè)衡量Badcase的指標(biāo)如表I :
統(tǒng)計(jì)指標(biāo)指標(biāo)含乂
Badcase信息數(shù)人工評(píng)分為0的信息數(shù)
權(quán)利要求
1.一種信息相關(guān)性分析方法,其特征在于,所述方法包括 根據(jù)預(yù)設(shè)條件對(duì)檢索串進(jìn)行分層; 根據(jù)分層后的檢索串獲取用于分析的抽樣檢索串; 獲取所述用于分析的抽樣檢索串對(duì)應(yīng)的數(shù)據(jù); 根據(jù)所述獲取的數(shù)據(jù)對(duì)信息相關(guān)性進(jìn)行分析。
2.根據(jù)權(quán)利要求I所述的ー種信息相關(guān)性分析方法,其特征在于,所述根據(jù)預(yù)設(shè)條件對(duì)所有的檢索串進(jìn)行分層,具體包括 將檢索串的詞頻、串長(zhǎng)作為預(yù)設(shè)條件對(duì)檢索串進(jìn)行分層。
3.根據(jù)權(quán)利要求I所述的ー種信息相關(guān)性分析方法,其特征在于,所述根據(jù)分層后的檢索串獲取用于分析的抽樣檢索串,具體包括 根據(jù)歷史數(shù)據(jù)計(jì)算用于分析的抽樣檢索串總?cè)萘浚? 按照所述抽樣檢索串總?cè)萘?,采用奈曼分配分別計(jì)算每個(gè)分層的抽樣檢索串容量; 按照所述每個(gè)分層的抽樣容量,隨機(jī)抽取抽樣檢索串。
4.根據(jù)權(quán)利要求3所述的ー種信息相關(guān)性分析方法,其特征在于,所述根據(jù)歷史數(shù)據(jù)計(jì)算用于分析的抽樣檢索串總?cè)萘?,具體包括 根據(jù)分層后每層中包含傳統(tǒng)的隨機(jī)抽樣分析方式獲得的檢索串度量指標(biāo)來計(jì)算每層的方差; 根據(jù)每層的方差計(jì)算用于分析的抽樣檢索串總?cè)萘俊?br>
5.一種信息相關(guān)性分析裝置,其特征在于,所述裝置包括 分層模塊,用于根據(jù)預(yù)設(shè)條件對(duì)檢索串進(jìn)行分層; 第一獲取模塊,用于根據(jù)分層后的檢索串獲取用于分析的抽樣檢索串; 第二獲取模塊,用于獲取所述用于分析的抽樣檢索串對(duì)應(yīng)的數(shù)據(jù); 分析模塊,用于根據(jù)所述獲取的數(shù)據(jù)對(duì)信息相關(guān)性進(jìn)行分析。
6.根據(jù)權(quán)利要求5所述的ー種信息相關(guān)性分析裝置,其特征在干,所述分層模塊具體包括 將檢索串的詞頻、串長(zhǎng)作為預(yù)設(shè)條件對(duì)檢索串進(jìn)行分層。
7.根據(jù)權(quán)利要求5所述的ー種信息相關(guān)性分析裝置,其特征在干,所述第一獲取模塊包括 第一計(jì)算單元,用于根據(jù)歷史數(shù)據(jù)計(jì)算用于分析的抽樣檢索串總?cè)萘浚? 第二計(jì)算單元,用于按照所述抽樣檢索串總?cè)萘浚捎媚温峙浞謩e計(jì)算每個(gè)分層的抽樣檢索串容量; 抽取單元,用于按照所述每個(gè)分層的抽樣容量,隨機(jī)抽取抽樣檢索串。
8.根據(jù)權(quán)利要求7所述的ー種信息相關(guān)性分析裝置,其特征在干,所述第一計(jì)算單元包括 第一計(jì)算子単元,用于根據(jù)分層后每層中包含傳統(tǒng)的隨機(jī)抽樣分析方式獲得的檢索串度量指標(biāo)來計(jì)算每層的方差; 第二計(jì)算子単元,用于根據(jù)每層的方差計(jì)算用于分析的抽樣檢索串總?cè)萘俊?br>
全文摘要
本發(fā)明提出了一種信息相關(guān)性分析方法和裝置,屬于通信技術(shù)領(lǐng)域。本發(fā)明的方法包括根據(jù)預(yù)設(shè)條件對(duì)所有的檢索串進(jìn)行分層;根據(jù)分層后的檢索串獲取用于分析的抽樣檢索串;獲取所述用于分析的抽樣檢索串對(duì)應(yīng)的數(shù)據(jù);根據(jù)所述獲取的數(shù)據(jù)對(duì)信息相關(guān)性進(jìn)行分析。本發(fā)明的裝置包括分層模塊、第一獲取模塊、第二獲取模塊、分析模塊。本發(fā)明實(shí)施例通過上述方案實(shí)現(xiàn)了通過分層抽樣增大層間方差,降低增內(nèi)方差的方式,降低了抽樣檢索串的誤差,使得抽取的檢索串可以與總體分布大致一致,最終得到的分析指標(biāo)也可以代表總體的相關(guān)性,達(dá)到了從抽樣看總體的目的。
文檔編號(hào)G06F17/30GK102654862SQ201110049339
公開日2012年9月5日 申請(qǐng)日期2011年3月1日 優(yōu)先權(quán)日2011年3月1日
發(fā)明者朱建朋, 李佳 申請(qǐng)人:騰訊科技(深圳)有限公司