專利名稱:一種用于候選主題詞廣告投放的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)處理技術(shù)領(lǐng)域,更具體地說,涉及一種用于候選主題詞廣告投放的方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和普及,網(wǎng)絡(luò)逐漸成為傳播信息的重要媒介。其中,在線廣告是互聯(lián)網(wǎng)企業(yè)中最重要的盈利模式之一,怎樣在互聯(lián)網(wǎng)各網(wǎng)站或其他內(nèi)容之間以最佳的方式投放廣告是企業(yè)研究的重點(diǎn)。
目前,基于互聯(lián)網(wǎng)文本內(nèi)容的廣告推介的一般過程(如圖1所示),主題詞提取模塊對(duì)提取出的候選主題詞進(jìn)行權(quán)重計(jì)算及排序,得到每個(gè)候選主題
詞作為文本關(guān)鍵字的可行程度,該程度的主要參考技術(shù)(如圖2所示),其中
(1 ) TF-IDF (每個(gè)候選主題詞在文本中的重要程度)值,綜合考慮詞匯頻率和詞匯的逆文本頻率指數(shù)兩個(gè)因素,該值越高,則該詞的主題性越高;
(2) 詞匯本身特征根據(jù)需要加入規(guī)則性的約束;如詞性或詞匯長度,一般名詞的主題性要高一些;在一定限度內(nèi)詞匯長度越長認(rèn)為該詞越重要;
(3) 詞匯在文本中的結(jié)構(gòu)化信息如詞匯出現(xiàn)在文中的位置,通常出現(xiàn)在標(biāo)題上主題性高,或者第一句、第一段或末段等;詞匯在文中的分布信息,通常詞匯分布均勻,覆蓋段落廣的詞匯主題性越高。
由上所述,通過以TF-IDF為基礎(chǔ),結(jié)合詞匯本身特征和詞匯在文本中的結(jié)構(gòu)化信息來進(jìn)行量化計(jì)算,找到與文章意義最相關(guān)的一些詞匯,并可獲得每個(gè)詞匯的可行程度。
8但這種廣告推介系統(tǒng)存在 一些缺點(diǎn)
(a) —般主題詞是與文本描述信息最相關(guān)的詞匯,但不一定具有廣告價(jià) 值。當(dāng)文章中的主題詞個(gè)數(shù)被限定的很少時(shí),能匹配到相關(guān)廣告的詞匯就非 常有限;
(b) 權(quán)重值代表主題詞的優(yōu)先級(jí),但不代表廣告值的優(yōu)先級(jí)。當(dāng)一個(gè)廣 告意義非常輕的詞匯在主題性上略微超越了一個(gè)廣告意義強(qiáng)烈的詞匯時(shí),很 可能造成廣告投放的本末倒置。
目前,基于互聯(lián)網(wǎng)文本內(nèi)容的廣告推介還存在一種使用"廣告詞庫+主 題詞權(quán)重"的技術(shù)方案(如圖3所示),該解決方法是本質(zhì)上仍然是按照主題 性來進(jìn)行權(quán)重計(jì)算并最終排序的,但為了適應(yīng)廣告的需求,在候選主題詞產(chǎn) 生過程結(jié)束后,權(quán)重計(jì)算之前, -使用一個(gè)廣告詞庫,通過篩選使進(jìn)入主題計(jì) 算的詞匯都具有廣告性,保證最終入選詞匯都可以投放廣告。然后根據(jù)主題 相關(guān)性(即上面所述的普通權(quán)重計(jì)算的結(jié)果)進(jìn)行排序輸出。
主題相關(guān)性的計(jì)算主要以TF/IDF方式為主。TF (Term Frequency,單文 本詞匯頻率)是指詞匯在語義環(huán)境下的出現(xiàn)頻率;DF ( Document Frequency,文本頻率指數(shù))是指含有該詞匯的文檔的比例,這是一個(gè)先驗(yàn)的 知識(shí),通過訓(xùn)練得到,如10000篇文章有100篇含有某個(gè)詞,那么這個(gè)詞的DF ^f更是0.01; IDF (Inverse Document Frequency,逆文本步貞率指凄t)是DF的 倒數(shù),IDF越高,該詞越稀少,越能代表一個(gè)文章的特征。詞匯的權(quán)重的計(jì)算 公式為
= x log( /Z)F )
由以上所述的技術(shù)方案,再輔以如詞匯自身屬性或詞匯在文本中結(jié)構(gòu)信 息,得出最終的權(quán)重。這種方法雖然解決了主題詞是非廣告詞的問題,但為 使廣告詞庫能夠不斷補(bǔ)充新的詞匯,其維護(hù)的工作量4艮大;并且主題優(yōu)先級(jí) 與廣告優(yōu)先級(jí)的沖突關(guān)系仍舊沒有解決;由于主題排序的詞語都來自廣告詞庫,所以限制了主題詞的多樣性。
發(fā)明內(nèi)容
鑒于上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明所要解決的技術(shù)問題是提供一 種用于候選主題詞廣告投放的方法及裝置,能夠解決主題詞優(yōu)先級(jí)與廣告詞 優(yōu)先級(jí)之間的沖突問題。
本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的
本發(fā)明提供了 一種用于候選主題詞廣告投放的方法,技術(shù)方案包括 將提取到的至少一個(gè)候選主題詞,進(jìn)行廣告性及主題性計(jì)算; 根據(jù)計(jì)算獲得的所述廣告性及主題性的計(jì)算結(jié)果,通過計(jì)算確定所述候
選主題詞的廣告主題權(quán)重值,以選擇所述候選主題詞進(jìn)行廣告投放。 進(jìn)一步地,對(duì)所述候選主題詞進(jìn)行廣告性計(jì)算的具體過程為 所述候選主題詞在建立的廣告詞典中進(jìn)行匹配,所述廣告詞典中保存有 每個(gè)廣告詞的固定權(quán)重值,根據(jù)所述候選主題詞對(duì)應(yīng)的固定權(quán)重值,通過計(jì) 算確定該候選主題詞在所述廣告詞典中的精確廣告匹配度;以及根據(jù)所述候 選主題詞的上下文向量和通過所述廣告詞典中的廣告詞獲得的廣告上下文向 量,計(jì)算得到該候選主題詞與所述廣告上下文向量的相似度;
在所述精確廣告匹配度與所述相似度之間取最大值,得到該候選主題詞 的廣告性的計(jì)算結(jié)果。
進(jìn)一步地,所述方法還包括建立所述廣告詞典的過程,具體包括 將用戶關(guān)注的文本信息中的詞匯投入到搜索引擎中來搜索廣告詞,并記 錄搜索到的廣告詞及對(duì)應(yīng)的出現(xiàn)頻率和等級(jí),獲得所述廣告詞典中的廣告
詞;
根據(jù)所述廣告詞在搜索引擎中的廣告程度權(quán)重值以及該廣告詞在獲得的 所述廣告上下文向量之間的相似度,來確定該廣告詞在所述廣告詞典中對(duì)應(yīng) 的固定權(quán)重值,并保存;其中,所述廣告程度權(quán)重值用于表示該廣告詞在搜索引擎中被關(guān)注的程度;所述相似度用于表示該廣告詞的上下文向量與在存 儲(chǔ)有大量文章數(shù)據(jù)的資料庫中獲得所述廣告上下文向量之間的相似程度。
進(jìn)一步地,獲得所述廣告程度權(quán)重值的具體過程包括
將由計(jì)算確定的該廣告詞在搜索引擎中的廣告程度值與由計(jì)算確定的廣 告詞典的廣告詞中的最大廣告程度值之比,作為該廣告詞的廣告程度權(quán)重 值;
所述廣告程度值是根據(jù)該廣告詞在搜索引擎中所作廣告的頻率及等級(jí)通 過計(jì)算確定的。
進(jìn)一步地,所述確定該候選主題詞在廣告詞典中的精確廣告匹配度的過 程具體包括
根據(jù)所述候選主題詞在所述廣告詞典中對(duì)應(yīng)的固定權(quán)重值及該候選主題 詞的字符長度,計(jì)算確定所述該候選主題詞在廣告詞典中的精確廣告匹配
度;
或者,通過將所述候選主題詞拆分后獲得的成份詞匯在所述廣告詞典中 對(duì)應(yīng)的固定權(quán)重值及該成份詞匯的字符長度,計(jì)算確定該候選主題在廣告詞 典中的精確廣告匹配度。
進(jìn)一步地,所述獲得廣告上下文向量的具體過程包括 將廣告詞典中每個(gè)廣告詞在存儲(chǔ)有大量文章數(shù)據(jù)的資料庫中進(jìn)行匹配, 記錄離該廣告詞距離最近的具有實(shí)體意義的上下文詞匯及對(duì)應(yīng)的頻率信息; 每個(gè)廣告詞的上下文詞匯及對(duì)應(yīng)的頻率信息組成該廣告詞的上下文向量;廣 告詞典中所有廣告詞的上下文向量組合在一起獲得所述廣告上下文向量;所 述每個(gè)廣告詞的上下文向量在所述廣告上下文向量中都對(duì)應(yīng)一個(gè)數(shù)值。
進(jìn)一步地,所述相似度的計(jì)算過程包括
根據(jù)廣告詞典中每個(gè)廣告詞的上下文向量與所述廣告上下文向量之間的 余弦函數(shù)值,獲得所述每個(gè)廣告詞與所述廣告上下文向量之間的相似度,并
ii保存;
以及,通過計(jì)算所述候選主題詞的上下文向量與所述廣告上下文向量之 間的余弦函數(shù)值,確定該候選主題詞與所述廣告上下文向量之間的相似度。
進(jìn)一步地,所述對(duì)所述候選主題詞進(jìn)行主題性計(jì)算的具體過程包括 根據(jù)計(jì)算獲得的所述候選主題詞在文本中的重要程度值、該候選主題詞
本身的特性加權(quán)值及該候選主題詞在文本中結(jié)構(gòu)化信息的加權(quán)值,計(jì)算確定
該候選主題詞的主題性計(jì)算結(jié)果。
進(jìn)一步地,所述候選主題詞在文本中的重要程度值的計(jì)算過程包括 對(duì)于單詞,根據(jù)該候選主題詞的逆文本頻率指數(shù)和單文本詞匯頻率值,
計(jì)算確定該候選主題詞的所述重要程度值;
或者,對(duì)于復(fù)合詞,根據(jù)所述復(fù)合詞拆分后的成份詞匯的逆文本頻率指
數(shù)的總體估計(jì)以及該候選主題詞的單文本詞匯頻率值,計(jì)算確定該候選主題
詞的所述重要程度值;所述逆文本頻率指數(shù)的總體估計(jì),主要包括平均或加
權(quán)平均,用于近似表示所述復(fù)合詞的逆文本頻率指數(shù)。
進(jìn)一步地,獲得所述逆文本頻率指數(shù)值的過程具體包括 在逆文本頻率指數(shù)訓(xùn)練階段,將分詞系統(tǒng)分出的詞匯在保存有大量文章
數(shù)據(jù)的資料庫中,進(jìn)行出現(xiàn)頻率及文本頻率的提取,得到每個(gè)詞匯的逆文本
頻率指數(shù),通過計(jì)算,將分詞系統(tǒng)切分的詞匯的逆文本頻率指數(shù)組合成逆文
本指數(shù)詞典。
進(jìn)一步地,所述計(jì)算確定所述候選主題詞的廣告主題權(quán)重值的計(jì)算公式 包括
其中,」D『e/g/z"w)為所述候選主題詞的廣告性計(jì)算結(jié)果,rc^C'g/z,0) 為所述候選主題詞的主題性計(jì)算結(jié)果。
12本發(fā)明還提供了 一種用于候選主題詞廣告投放的裝置,包括 詞匯計(jì)算模塊,用于對(duì)提取的至少一個(gè)候選主題詞,進(jìn)行廣告性及主題
性的計(jì)算;
綜合處理模塊,用于將得到的所述廣告性及主題性的計(jì)算結(jié)果,通過計(jì) 算確定所述候選主題詞的廣告主題權(quán)重值,以選擇所述候選主題詞進(jìn)行廣告 投放
優(yōu)選地,所述詞匯計(jì)算模塊具體包括
廣告性計(jì)算單元,用于將所述候選主題詞在建立的廣告詞典中進(jìn)行匹 配,所述廣告詞典中保存有每個(gè)廣告詞的固定權(quán)重值,將匹配到的所述固定 權(quán)重值通過計(jì)算,確定該候選主題詞在所述廣告詞典中的精確廣告匹配度; 以及,根據(jù)所述候選主題詞的上下文向量和通過所述廣告詞典中的廣告詞獲 得的廣告上下文向量,計(jì)算得到該候選主題詞與所述廣告上下文向量的相似 度;通過在所述精確廣告匹配度與所述相似度之間取最大值,得到該候選主 題詞的廣告計(jì)算結(jié)果;
主題性計(jì)算單元,用于將所述候選主題詞根據(jù)計(jì)算出的該候選主題詞在 文本中的重要程度值,以及該候選主題詞本身的特性加權(quán)值和該主題詞在文 本中的結(jié)構(gòu)化信息加權(quán)值,通過計(jì)算確定該候選主題詞的主題性計(jì)算結(jié)果。
優(yōu)選地,所述廣告性計(jì)算單元具體包括
廣告詞典建立子單元,用于將用戶關(guān)注的文本信息中的詞匯投入到搜索 引擎中來搜索廣告詞,并記錄搜索到的廣告詞及對(duì)應(yīng)的出現(xiàn)頻率和等級(jí),獲 得所述廣告詞典中的廣告詞;且根據(jù)該廣告詞在搜索引擎中的廣告程度權(quán)重 值,及該廣告詞與獲得的所述廣告上下文向量之間的相似度,來確定所述廣 告詞在所述廣告詞典中對(duì)應(yīng)的固定權(quán)重值,并保存;
廣告上下文獲取子單元,用于將所述廣告詞典建立子單元獲得所述廣告 詞在保存有大量文章數(shù)據(jù)的資料庫中進(jìn)行匹配,記錄離該廣告詞距離最近的具有實(shí)體意義的上下文詞匯及對(duì)應(yīng)的頻率信息;將廣告詞典中每個(gè)廣告詞的 上下文詞匯及頻率信息組合成所述廣告上下文向量;所述每個(gè)廣告詞的上下 文向量在所述廣告上下文向量中都對(duì)應(yīng)一個(gè)數(shù)值。
優(yōu)選地,所述廣告性計(jì)算單元具體還包括
匹配計(jì)算子單元,用于將所述候選主題詞在所述廣告詞典中進(jìn)行匹配, 所述廣告詞典中保存有每個(gè)廣告詞的固定權(quán)重值,將匹配到的所述固定權(quán)重
值通過計(jì)算,確定該候選主題詞在所述廣告詞典中的精確廣告匹配度;
相似度計(jì)算子單元,用于根據(jù)獲得所述廣告上下文向量,通過計(jì)算得到
該候選主題詞在所述廣告上下文向量中的相似度;
廣告性綜合子單元,用于通過在所述匹配計(jì)算子單元計(jì)算得到的精確廣
告匹配度與所述相似度計(jì)算子單元計(jì)算出的相似度之間取最大值,得到該候
選主題詞的廣告性計(jì)算結(jié)果。
優(yōu)選地,所述廣告性計(jì)算單元具體還包括
固定權(quán)重值計(jì)算子單元,用于根據(jù)所述廣告詞在搜索引擎中的廣告程度 權(quán)重值,及該廣告詞與獲得的所述廣告上下文向量之間的相似度,來確定所 述廣告詞在所述廣告詞典中對(duì)應(yīng)的固定權(quán)重值,并保存。
優(yōu)選地,所述主題性計(jì)算單元具體包括
逆文本頻率指數(shù)獲取子單元,用于在逆文本頻率指數(shù)訓(xùn)練階段,將分詞 系統(tǒng)分出的詞匯在存儲(chǔ)有大量文章數(shù)據(jù)的資料庫中提取出所述詞匯的出現(xiàn)頻 率及文本頻率,通過計(jì)算獲得所述詞匯的逆文本頻率指數(shù),組合成逆文本頻 率指數(shù)詞典;
重要程度計(jì)算子單元,用于根據(jù)所述逆文本頻率指數(shù)獲取子單元獲得的 所述逆文本頻率指數(shù),計(jì)算所述候選主題詞在文本中的重要程度值;
主題性計(jì)算子單元,用于根據(jù)所述重要程度計(jì)算子單元計(jì)算出的所述候 選主題詞在文本中的重要程度值,及該主題詞本身的特性加權(quán)值及該主題詞在文本中結(jié)構(gòu)化信息加權(quán)值,通過計(jì)算確定所述候選主題詞的主題性計(jì)算結(jié)果。
優(yōu)選地,所述綜合處理模塊具體包括
綜合結(jié)果計(jì)算單元,用于將得到的所述廣告性及主題性的計(jì)算結(jié)果,計(jì)算所述候選主題詞的廣告主題權(quán)重值。
排序單元,根據(jù)所述綜合結(jié)果計(jì)算單元計(jì)算出的所述候選主題詞的廣告主題權(quán)重值,從大到小的進(jìn)行排序。
有益效果
本發(fā)明所述技術(shù)方案,通過權(quán)衡詞匯的廣告性和主題性兩方面,來甄別從文本文件中提取出的候選主題詞,是否具有廣告主題權(quán)重性,以針對(duì)不同的網(wǎng)頁內(nèi)容從中選取合適的候選主題詞,進(jìn)行廣告的投放;候選主題詞廣告主題權(quán)重性的判斷是基于內(nèi)容廣告系統(tǒng)中的基礎(chǔ)性工作。
本發(fā)明所述技術(shù)方案,通過對(duì)提取出的候選主題詞進(jìn)行廣告程度性的權(quán)重計(jì)算,來鑒別一個(gè)詞匯是否是廣告詞,克服了現(xiàn)有技術(shù)中主題詞并非廣告詞的問題,并且通過精確匹配和相似度計(jì)算,確保了候選主題詞的匹配結(jié)果,不會(huì)像現(xiàn)有技術(shù)中,直接在廣告詞庫中完全匹配到響應(yīng)的詞匯,得到單一機(jī)械化的結(jié)果,保留了廣告詞語的多樣性特征。
圖1為現(xiàn)有技術(shù)中互聯(lián)網(wǎng)文本內(nèi)容的廣告推介的 一般過程的示意圖;圖2為現(xiàn)有技術(shù)中候選主題詞能否作為文本關(guān)鍵字的可行程度的主要技術(shù)參數(shù)的示意圖3為現(xiàn)有技術(shù)中"廣告詞庫+主題詞權(quán)重"技術(shù)方案的示意圖;圖4為本發(fā)明實(shí)施例所述方法的流程圖;圖5為本發(fā)明實(shí)施例所述裝置的結(jié)構(gòu)示意圖;圖6為本發(fā)明實(shí)施例所述裝置中詞匯計(jì)算模塊的結(jié)構(gòu)圖;圖7為本發(fā)明實(shí)施例所述廣告性計(jì)算單元的結(jié)構(gòu)圖;圖8為本發(fā)明實(shí)施例所述主題性計(jì)算單元的結(jié)構(gòu)圖;圖9為本發(fā)明實(shí)施例所述綜合處理模塊的結(jié)構(gòu)圖。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明所述的技術(shù)方案作詳細(xì)說明。本發(fā)明所述技術(shù)方案,首先將提取出的候選主題詞,通過廣告詞典,計(jì)算出每一個(gè)候選主題詞的精確廣告匹配權(quán)重值,即由廣告詞典中所給出的精確廣告權(quán)重值來硬性衡量候選主題詞的精確廣告匹配權(quán)重值。然后,利用統(tǒng)計(jì)所得的廣告上下文詞匯及對(duì)應(yīng)的頻率信息組成的所述廣告上下文向量,計(jì)算出每個(gè)候選主題詞與所述廣告上下文向量之間的余弦函數(shù)值,作為該候選主題詞與所述廣告上下文向量之間的廣告相似度。對(duì)這兩個(gè)數(shù)值取最大值作為最終的該候選主題詞的廣告性計(jì)算結(jié)果;并通過對(duì)所有候選主題詞進(jìn)行主題性計(jì)算,得到該候選主題詞最終的廣告主題權(quán)重值;以廣告主題權(quán)重值來衡量一個(gè)候選廣告詞的廣告性,廣告主題權(quán)重值越高,該詞匯的廣告性越強(qiáng)。
如圖4所示,本發(fā)明實(shí)施例一種用于候選主題詞廣告投放的方法,技術(shù)方案包括
步驟S101:將提取到的至少一個(gè)候選主題詞,進(jìn)行廣告性及主題性計(jì)
算;
步驟S102:根據(jù)計(jì)算獲得的所述廣告性及主題性結(jié)果,通過計(jì)算確定所述候選主題詞的廣告主題權(quán)重值,以選沖奪所述候選主題詞進(jìn)行廣告才殳;故。
16說明對(duì)候選主題詞分別進(jìn)行廣告性及主題性的權(quán)重值計(jì)算,二者的計(jì)
算互不影響,沒有先后次序,通過最終綜合兩方面的數(shù)值計(jì)算出每個(gè)候選主題詞的廣告主題權(quán)重值,按照廣告主題權(quán)重值進(jìn)行排序后,根據(jù)需要取前幾個(gè)作為最終結(jié)果進(jìn)行廣告詞匯的投放。
具體地說,對(duì)于步驟S101中,本實(shí)施例中提取候選主題詞的過程可以包
括
根據(jù)分詞系統(tǒng)對(duì)原始文本進(jìn)行分詞后,對(duì)所述文本內(nèi)容進(jìn)行語義分析,
在文本中提取有具體意義的詞匯,作為候選主題詞;其中,提取詞匯的處理過程分為(1 )從分詞結(jié)果中選擇出符合要求的原始詞匯;(2 )對(duì)文本進(jìn)行新詞發(fā)現(xiàn),挖掘未登錄的實(shí)體詞。
所以,候選主題詞最終綜合了兩種結(jié)果 一個(gè)就是分詞系統(tǒng)可以分辨的、具有實(shí)體意義詞性(例如名詞、動(dòng)詞、形容詞等實(shí)體意義高的詞匯)的詞匯;另一個(gè)就是新詞發(fā)現(xiàn)的結(jié)果。將兩種結(jié)果進(jìn)行合并,并經(jīng)過垃圾過濾、冗余過濾處理后,將精選出來的詞匯作為候選主題詞的候選。具體地說,對(duì)所述候選主題詞進(jìn)行廣告性計(jì)算的具體過程為所述候選主題詞在建立的廣告詞典中進(jìn)行匹配,所述廣告詞典中保存有每個(gè)廣告詞的固定權(quán)重值,根據(jù)所述候選主題詞對(duì)應(yīng)的固定權(quán)重值,通過計(jì)算確定該候選主題詞在所述廣告詞典中的精確廣告匹配度;以及根據(jù)所述候
量,計(jì)算得到該候選主題詞與所述廣告上下文向量的相似度;
在所述精確廣告匹配度與所述相似度之間取最大值,得到該候選主題詞
的廣告性的計(jì)算結(jié)果。
具體地說,所述方法還包括建立所述廣告詞典的過程,具體過程可以包
括
17(1 )將用戶關(guān)注的文本信息中的詞匯投入到搜索引擎中來搜索廣告詞, 并對(duì)搜索到的廣告詞及對(duì)應(yīng)的出現(xiàn)頻率和等級(jí)進(jìn)行記錄,獲得所述廣告詞典 中的廣告詞;
本實(shí)施例中廣告詞典的建立主要通過分析用戶的關(guān)注信息和各大搜索引
擎的推廣來獲取,方法可以優(yōu)選為
在網(wǎng)絡(luò)中,提取一部分查詢?nèi)罩?Query Log),將日志中的詞匯才更入到 各大搜索引擎中進(jìn)行挖掘,將搜索到的帶有廣告的詞條進(jìn)行記錄,并記載該 廣告詞出現(xiàn)的頻率或者級(jí)別等數(shù)據(jù);本實(shí)施例的應(yīng)用過程中對(duì)記錄下的廣告 詞匯及對(duì)應(yīng)的出現(xiàn)頻率和級(jí)別進(jìn)行再次過濾,將單字、符號(hào)、垃圾詞、寬泛 意義詞刪除掉,獲得最終的廣告詞。只要query log足夠大,幾乎可以覆蓋所 有的熱門廣告詞。
(2 )根據(jù)所述廣告詞在搜索引擎中的廣告程度權(quán)重值以及該廣告詞在獲 得的所述廣告上下文向量之間的相似度,來確定該廣告詞在所述廣告詞典中 對(duì)應(yīng)的固定權(quán)重值,并保存;
其中,所述廣告程度權(quán)重值用于表示該廣告詞在搜索引擎中被關(guān)注的程 度;所述相似度用于表示該廣告詞的上下文向量與在存儲(chǔ)有大量文章數(shù)據(jù)的 資料庫中獲得所述廣告上下文向量之間的相似程度。
具體地說,獲得所述廣告程度權(quán)重值的具體過程可以包括 將由計(jì)算確定的該廣告詞在搜索引擎中的廣告程度值與由計(jì)算確定的廣 告詞典的廣告詞中的最大廣告程度值之比,作為該廣告詞的廣告程度權(quán)重 值;所述廣告程度值是根據(jù)該廣告詞在搜索引擎中所作廣告的頻率及等級(jí)通 過計(jì)算確定的。
本發(fā)明實(shí)施例中所述廣告詞的廣告程度值的計(jì)算公式可以為 設(shè)廣告詞為w, w 在搜索引擎中出現(xiàn)的廣告頻率是,等級(jí)是"(w):
O) = log(F(w) + 1) x O + 》其中,《, /7表示等級(jí)調(diào)整參數(shù),a用于調(diào)整最高和最低等級(jí)之間的差距, 〃用于調(diào)整等級(jí)數(shù)據(jù)對(duì)搜索引擎廣告程度值的影響;
例如廣告分7個(gè)等級(jí)(0-6),在頻率相等的條件下,如果《=0.6,"=0.1,那么最低等級(jí)和最高等級(jí)在等級(jí)這里的參數(shù)相差是兩倍(0.6,1.2),為了避免在等級(jí)是零的情況下,高、低等級(jí)的差異過大,所以就在公式中增加兩個(gè)參數(shù)"和〃,通過調(diào)節(jié)a和"的值從而降低高、低等級(jí)之間的差距,來滿足要求。
說明將廣告詞典中每個(gè)廣告詞的廣告程度值都分別計(jì)算出來,然后將每個(gè)廣告詞的廣告程度值與計(jì)算出的最大的廣告程度值之比,作為每個(gè)廣告詞的廣告程度權(quán)重值;所述廣告程度權(quán)重值是該廣告詞在搜索引擎數(shù)中廣告程度值進(jìn)行歸一后的數(shù)值,因?yàn)閺V告詞vv對(duì)應(yīng)的頻率值可能會(huì)非常大,這樣為了保證計(jì)算的方便,通過歸一化數(shù)值將廣告程度權(quán)重值都分布在
區(qū)間內(nèi),這個(gè)數(shù)值主要表述每個(gè)廣告詞在搜索引擎中的推廣力度和用戶關(guān)注度。
本發(fā)明實(shí)施例中,所述廣告詞在廣告詞典中的固定權(quán)重值可以通過以下公式計(jì)算
其中,m和w,分別代表所述廣告詞的廣告程度權(quán)重值和所述相似度所占的比例,滿足條4牛為w + " = 1 , 且附x J必五『e/g/^(w) = "x爿必z7m7anXy(w); ^必五『dg似(w)為所述廣告牙呈度沐又重^f直,爿必/附//"〃》—)為所述相似度。
其中,爿必五,/g/z"w)是經(jīng)過歸一化處理的凄史值,而J必/冊(cè)7anXy(w)則是余弦函數(shù)值,因此^",^,妙"w)的取值范圍在區(qū)間
中,便于計(jì)算處理。
具體地說,本發(fā)明實(shí)施例中所述確定該候選主題詞在廣告詞典中的精確根據(jù)所述候選主題詞在所述廣告詞典中對(duì)應(yīng)的固定權(quán)重值及該候選主題 詞的字符長度,計(jì)算確定所述該候選主題詞在廣告詞典中的精確廣告匹配 度;
對(duì)應(yīng)的固定權(quán)重值及該成份詞匯的字符長度,計(jì)算確定該候選主題在廣告詞 典中的精確廣告匹配度。
所述精確廣告匹配度的計(jì)算公式可以為
設(shè)候選主題詞w可分解為W'W2W3 w"時(shí),
其中,^Z)(w,)為所述候選主題詞在所述廣告詞典中對(duì)應(yīng)的固定權(quán)重 值,/e"g晰w,)為所述^美選主題詞拆分后,每個(gè)詞匯的字符長度;/e"g晰w)為該 主題詞的字符總長;當(dāng)所述候選主題詞直沖妄可以在廣告詞典中匹配到時(shí),同 樣適用于上述公式;當(dāng)所述候選主題詞或者由候選主題詞分解得到的成份詞 匯,在廣告詞典中匹配不到對(duì)應(yīng)的固定權(quán)重值時(shí),則該詞匯的固定權(quán)重值為
具體地說,所述獲得廣告詞典的廣告上下文向量的具體過程可以包括 將廣告詞典中每個(gè)廣告詞在存儲(chǔ)有大量文章數(shù)據(jù)的資料庫中進(jìn)行匹配, 記錄離該廣告詞距離最近的具有實(shí)體意義的上下文詞匯及對(duì)應(yīng)的頻率信息; 每個(gè)廣告詞的上下文詞匯及對(duì)應(yīng)的頻率信息組成該廣告詞的上下文向量;廣 告詞典中所有廣告詞的上下文向量組合在一起獲得所述廣告上下文向量;所 述每個(gè)廣告詞的上下文向量在所述廣告上下文向量中都對(duì)應(yīng)一個(gè)數(shù)值。
本發(fā)明實(shí)施例中可以通過如下公式計(jì)算廣告上下文向量中每個(gè)詞匯所對(duì)
20應(yīng)的數(shù)值:
設(shè)所述廣告上下文向量中包含M個(gè)詞匯(v"v2,……, ),詞匯頻率分別 是(尸i,巧, ,那么詞匯v'在所述廣告上下文向量中對(duì)應(yīng)的邀:值為
說明在本實(shí)施例中,為了計(jì)算方便,每個(gè)廣告上下文詞匯在所述廣告 上下文向量中對(duì)應(yīng)的數(shù)值是歸一化后的數(shù)值。所以,在所述廣告上下文向量 中每個(gè)廣告詞的廣告上下文詞匯都會(huì)對(duì)應(yīng)一個(gè)歸一化的l丈值。
本實(shí)施例中,獲得廣告上下文向量主要是通過將廣告詞典中的廣告詞在 存儲(chǔ)有大量文章數(shù)據(jù)的資料庫中訓(xùn)練所得。首先將廣告詞典中的廣告詞在保 存有大量文章數(shù)據(jù)的資料庫中進(jìn)行匹配,當(dāng)匹配到含有廣告詞典中廣告詞的 句子時(shí),將句子中離廣告詞最近的2N個(gè)有意義的詞匯(上文N個(gè),下文N個(gè)) 記錄下來。訓(xùn)練完成后,廣告詞典中每一個(gè)廣告詞都有很多的上下文詞匯, 選擇有意義的上下文詞匯并且記錄它們的頻率信息。將這些上下文詞匯及對(duì) 應(yīng)的頻率信息合并在一起,組合成一個(gè)大的向量,作為廣告上下文向量,它 代表了所有廣告詞的綜合特征。
具體地說,本發(fā)明實(shí)施例中,通過在所述精確廣告匹配度與所述廣告相 似度之間取最大值,得到該候選主題詞的廣告性計(jì)算結(jié)果,可以通過如下公 式計(jì)算
其中,廣告字典中每個(gè)廣告詞的廣告程度權(quán)重值的取值范圍是
,因 此所述候選主題詞根據(jù)在廣告詞典中匹配到的固定權(quán)重值,通過計(jì)算得到的 精確廣告匹配權(quán)重值的數(shù)值也在
之間;所以廣告性計(jì)算結(jié)果是一個(gè)取值
iVF ( v ,)=
log( 1 + F,)在
之間的,用來衡量詞匯廣告性強(qiáng)弱的指標(biāo)。
進(jìn)一步地,所述相似度的計(jì)算過程包括
根據(jù)廣告詞典中每個(gè)廣告詞的上下文向量與所述廣告上下文向量之間的 余弦函數(shù)值,獲得所述每個(gè)廣告詞與所述廣告上下文向量之間的相似度,并
保存;
本發(fā)明實(shí)施例中,計(jì)算所述廣告詞典中每個(gè)廣告詞的上下文向量與所述 廣告上下文向量之間的相似度,可以通過以下^^式計(jì)算出來
設(shè)廣告詞為w, w廣告上下文向量是(wi, W2,"" ws ),頻率信息為 F 尸
( w' ,w2 ,…,^ ):
t ) x log(l + Fw,)]
v4必/附z7an'(y(w) = ^^^^-^~~d-jj~
||^DFector||x w2,..., wj
其中,JZ) 「"紐K)表示廣告詞w的廣告上下文詞匯w'在所述廣告上下文
向量中所對(duì)應(yīng)的數(shù)值;
以及,通過計(jì)算所述候選主題詞的上下文向量與所述廣告上下文向量之 間的余弦函數(shù)值,確定該候選主題詞與所述廣告上下文向量之間的相似度。
說明在上述計(jì)算相似度的公式中,目的在于在廣告詞典的廣告程度權(quán) 重值上,加入廣告相似度計(jì)算的元素,使得最終MAX值的計(jì)算中,對(duì)精確廣 告匹配度以及廣告相似度兩者具有可比性。
具體地說,詞匯主題性主要是用來量化詞匯與本篇文章主題的相關(guān)程 度,具體計(jì)算方法在本發(fā)明實(shí)施例中,采用TF-IDF為主的算法,但進(jìn)行了一 些改進(jìn)。由于權(quán)重計(jì)算過程只接受文本分析候選出來的主題詞匯,因此所有 主題詞匯是通過垃圾過濾的,具有一定意義的詞匯,這類詞匯在文中的詞頻(TF)對(duì)于主題性計(jì)算往往比逆頻率指數(shù)(IDF)更為重要,因此本發(fā)明實(shí)施
例中對(duì)IDF的獲取做了一些改進(jìn),使其更加突出詞匯的重要度,然后再由詞頻
來決定該詞最終的TFI DF值。
所述對(duì)所述候選主題詞進(jìn)行主題性計(jì)算的具體過程可以包括 根據(jù)計(jì)算獲得的所述候選主題詞在文本中的重要程度值、該候選主題詞
本身的特性加權(quán)值及該候選主題詞在文本中結(jié)構(gòu)化信息的加權(quán)值,計(jì)算確定
該候選主題詞的主題性計(jì)算結(jié)果。
本發(fā)明實(shí)施例中所述主題性的計(jì)算公式可以為
其中,/"。fep,/g/^(w)表示該候選主題詞本身的特性加權(quán)值, 5Yra",/g^(w)表示該候選主題詞在文本中結(jié)構(gòu)化信息的加權(quán)值,7F/DF(w)表
示該候選主題詞在文本中的重要程度值。
其中,/""印,/gfe—)表示候選主題詞本身的特性加權(quán),例如如果是名
詞(復(fù)合詞可按照名詞數(shù)目的多少來確定),該權(quán)重就高,動(dòng)詞次之等等, 如果詞匯長度在一定范圍內(nèi),詞越長權(quán)重越高;浙"C"g^(w)表示候選主題
詞在文本中結(jié)構(gòu)化信息的加權(quán),例如是標(biāo)題詞,則該權(quán)重需要大幅提升,首 段詞次之,如果詞在文章中分布越均勻權(quán)重越高等等。
具體地說,所述候選主題詞包含多個(gè)分詞單元的詞匯,是新詞發(fā)現(xiàn)的結(jié)
果,即所述候選主題詞在文本中的重要程度值的計(jì)算過程可以包括
對(duì)于單詞,根據(jù)該候選主題詞的逆文本頻率指數(shù)和單文本詞匯頻率值,
計(jì)算確定該候選主題詞的所述重要程度值;
具體公式可以為(w) = ^ (w)x /DF (w)
或者,對(duì)于復(fù)合詞,根據(jù)所述復(fù)合詞拆分后的成份詞匯的逆文本頻率指 數(shù)的總體估計(jì)以及該候選主題詞的單文本詞匯頻率值,計(jì)算確定該候選主題
23詞的所述重要程度值;所述逆文本頻率指數(shù)的總體估計(jì),主要包括平均或加 權(quán)平均,用于近似表示所述復(fù)合詞的逆文本頻率指數(shù)。
只十于復(fù)合詞,^殳W = Vt^W2......W , rF/DF(w) = x j J^/AF(w , w',……,w ).
其中, ,w")是對(duì)w的所有成分詞逆文本頻率指數(shù)的總體估
計(jì),主要包括平均或加權(quán)平均,用于近似表示復(fù)合詞w的逆文本頻率指數(shù); /AP(w)值表示逆文本頻率指數(shù)值;rF(w)值表示單文本詞匯頻率值。 具體地說,獲得所述逆文本頻率指數(shù)值的過程具體可以包括 在逆文本頻率指數(shù)訓(xùn)練階段,將分詞系統(tǒng)分出的詞匯在保存有大量文章 數(shù)據(jù)的資料庫中,進(jìn)行出現(xiàn)頻率及文本頻率的提取,得到每個(gè)詞匯的逆文本 頻率指數(shù),通過計(jì)算,將分詞系統(tǒng)切分的詞匯的逆文本頻率指數(shù)組合成逆文 本指數(shù)詞典。
本發(fā)明實(shí)施例逆文本頻率指數(shù)計(jì)算公式包括
= 1og[7F(w)] x log[--]
通過計(jì)算,將分詞系統(tǒng)切分的詞匯的逆文本頻率指數(shù)組合成逆文本指數(shù)詞典。
具體地說,所述計(jì)算確定所述候選主題詞的廣告主題權(quán)重值的計(jì)算公式
包括
其中,^D,/g^(w)為所述候選主題詞的廣告性計(jì)算結(jié)果,7bp/C/g/^(w) 為所述候選主題詞的主題性計(jì)算結(jié)果。
將計(jì)算出來的所述候選主題詞中所有詞匯的綜合權(quán)重值進(jìn)行排序,具體 優(yōu)選方式可以按照該候選主題詞廣告主題權(quán)重值的大小來排,將最大的排列 到最上面,排列越靠前,該候選主題詞作為廣告投放的程度越高。
24如圖5所示,本發(fā)明還提供了一種用于候選主題詞廣告投放的裝置,包
括
詞匯計(jì)算模塊S11,用于對(duì)提取的至少一個(gè)候選主題詞,進(jìn)行廣告性及主 題性的計(jì)算;
綜合處理模塊S12,用于將得到的所述廣告性及主題性的計(jì)算結(jié)果,通過 計(jì)算確定所述候選主題詞的廣告主題權(quán)重值,以選擇所述候選主題詞進(jìn)行廣 告投放。
如圖6所示,本實(shí)施例優(yōu)選地,所述詞匯計(jì)算^^塊具體還可以包括 廣告性計(jì)算單元S111,用于將所述候選主題詞在建立的廣告詞典中進(jìn)行 匹配,所述廣告詞典中保存有每個(gè)廣告詞的固定 K重值,將匹配到的所述固 定權(quán)重值通過計(jì)算,確定該候選主題詞在所述廣告詞典中的精確廣告匹配 度;以及,根據(jù)獲得所述廣告上下文向量,通過計(jì)算得到該候選主題詞在所 述廣告上下文向量中的相似度;通過在所述精確廣告匹配度與所述相似度之 間取最大值,得到該候選主題詞的廣告性計(jì)算結(jié)果;
主題性計(jì)算單元S112,用于將所述候選主題詞根據(jù)計(jì)算出的該候選主題 詞在文本中的重要程度值,以及該候選主題詞本身的特性加權(quán)值和該主題詞 在文本中的結(jié)構(gòu)化信息加權(quán)值,通過計(jì)算確定該候選主題詞的主題性計(jì)算結(jié) 果。
如圖7所示,本實(shí)施例優(yōu)選地,所述廣告性計(jì)算單元具體可以包括 廣告詞典建立子單元S1111 ,用于將用戶關(guān)注的文本信息中的詞匯投入 到搜索引擎中來搜索廣告詞,并記錄搜索到的廣告詞及對(duì)應(yīng)的出現(xiàn)頻率和等 級(jí),獲得所述廣告詞典中的廣告詞;且根據(jù)該廣告詞在搜索引擎中的廣告程 度權(quán)重值,及該廣告詞與獲得的所述廣告上下文向量之間的相似度,來確定 所述廣告詞在所述廣告詞典中對(duì)應(yīng)的固定權(quán)重值,并保存;
廣告上下文獲取子單元S1113,用于將所述廣告詞典建立子單元獲得所述廣告詞在保存有大量文章數(shù)據(jù)的資料庫中進(jìn)行匹配,記錄離該廣告詞距離 最近的具有實(shí)體意義的上下文詞匯及對(duì)應(yīng)的頻率信息;將廣告詞典中所述廣
告詞的上下文詞匯及頻率信息組合成所述廣告上下文向量;所述每個(gè)廣告上
下文向量在所述廣告上下文向量中都對(duì)應(yīng)一個(gè)凄t值。
本實(shí)施例優(yōu)選地,所述廣告性計(jì)算單元具體還可以包括 匹配計(jì)算子單元S1112,用于將所述候選主題詞在所述廣告詞典中進(jìn)行
匹配,所述廣告詞典中保存有每個(gè)廣告詞的固定權(quán)重值,將匹配到的所述固
定權(quán)重值通過計(jì)算,確定該候選主題詞在所述廣告詞典中的精確廣告匹配
度;
相似度計(jì)算子單元S1114,用于根據(jù)獲得所述廣告上下文向量,通過計(jì) 算得到該候選主題詞在所述廣告上下文向量中的相似度;
廣告性綜合子單元S1115,用于通過在所述匹配計(jì)算子單元計(jì)算得到的 精確廣告匹配度與所述相似度計(jì)算子單元計(jì)算出的相似度之間取最大值,得 到該候選主題詞的廣告性計(jì)算結(jié)果。
本實(shí)施例優(yōu)選地,所述廣告性計(jì)算單元具體還可以包括
固定權(quán)重值計(jì)算子單元S1116,用于根據(jù)所述廣告詞在搜索引擎中的廣 告程度值,及該廣告詞在獲得所述廣告上下文向量中的相似度,來確定所述 廣告詞在所述廣告詞典中對(duì)應(yīng)的固定權(quán)重值,并保存。
如圖8所示,本實(shí)施例優(yōu)選地,所述主題性計(jì)算單元具體可以包括 逆文本頻率指數(shù)獲取子單元S1121,用于在逆頻率指數(shù)訓(xùn)練階段,將分
計(jì)算獲得所述詞匯的逆文本頻率指數(shù),組合成逆文本頻率指數(shù)詞典;
重要程度計(jì)算子單元S1122,用于根據(jù)所述逆文本頻率指數(shù)獲取子單元
獲得的所述逆文本頻率指數(shù),計(jì)算所述候選主題詞在文本中的重要程度值; 主題性計(jì)算子單元S1123,用于根據(jù)所述重要程度計(jì)算子單元計(jì)算出的所述候選主題詞在文本中的重要程度值,及該主題詞本身的特性加權(quán)值及該 主題詞在文本中結(jié)構(gòu)化信息加權(quán)值,通過計(jì)算確定所述候選主題詞的主題性 計(jì)算結(jié)果。
如圖9所示,本實(shí)施例優(yōu)選地,所述綜合處理才莫塊S12具體可以包括 綜合結(jié)果計(jì)算單元S121,用于將得到的所述廣告性及主題性的計(jì)算結(jié)
果,計(jì)算所述候選主題詞的廣告主題權(quán)重值。
排序單元S122,根據(jù)所述綜合結(jié)果計(jì)算單元計(jì)算出的所述候選主題詞的
廣告主題權(quán)重值,從大到小的進(jìn)行排序。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不 局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可 輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明 的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
2權(quán)利要求
1、一種用于候選主題詞廣告投放的方法,其特征在于,包括將提取到的至少一個(gè)候選主題詞,進(jìn)行廣告性及主題性計(jì)算;根據(jù)計(jì)算獲得的所述廣告性及主題性的計(jì)算結(jié)果,通過計(jì)算確定所述候選主題詞的廣告主題權(quán)重值,以選擇所述候選主題詞進(jìn)行廣告投放。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述候選主題詞進(jìn)行廣告性計(jì)算的具體過程包括所述候選主題詞在建立的廣告詞典中進(jìn)行匹配,所述廣告詞典中保存有每個(gè)廣告詞的固定權(quán)重值,根據(jù)所述候選主題詞對(duì)應(yīng)的固定權(quán)重值,通過計(jì)算確定該候選主題詞在所述廣告詞典中的精確廣告匹配度;以及根據(jù)所述候量,計(jì)算得到該候選主題詞與所述廣告上下文向量之間的相似度;在所述精確廣告匹配度與所述相似度之間取最大值,得到該候選主題詞的廣告性的計(jì)算結(jié)果。
3、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括建立所述廣告詞典的過程,具體包括將用戶關(guān)注的文本信息中的詞匯投入到搜索引擎中來搜索廣告詞,并記錄搜索到的廣告詞及對(duì)應(yīng)的出現(xiàn)頻率和等級(jí),獲得所述廣告詞典中的廣告詞;根據(jù)所述廣告詞在搜索引擎中的廣告程度權(quán)重值以及該廣告詞與獲得的所述廣告上下文向量之間的相似度,來確定該廣告詞在所述廣告詞典中對(duì)應(yīng)的固定權(quán)重值,并保存;其中,所述廣告程度權(quán)重值用于表示該廣告詞在搜索引擎中被關(guān)注的程度;所述相似度用于表示該廣告詞的上下文向量與通過在保存有大量文章數(shù)據(jù)的資料庫中獲得的所述廣告上下文向量之間的相似程度。
4、 根據(jù)權(quán)利要求3所述的方法,其特征在于,獲得所述廣告程度權(quán)重值的具體過程包括將由計(jì)算確定的該廣告詞在搜索引擎中的廣告程度值與由計(jì)算確定的廣告詞典的廣告詞中的最大廣告程度值之比,作為該廣告詞的廣告程度權(quán)重值;所述廣告程度值是根據(jù)該廣告詞在搜索引擎中所作廣告的頻率及等級(jí)通過計(jì)算確定的。
5、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述確定該候選主題詞在廣告詞典中的精確廣告匹配度的過程具體包括根據(jù)所述候選主題詞在所述廣告詞典中對(duì)應(yīng)的固定權(quán)重值及該候選主題詞的字符長度,計(jì)算確定所述該候選主題詞在廣告詞典中的精確廣告匹配度;或者,通過將所述候選主題詞拆分后獲得的成份詞匯在所述廣告詞典中對(duì)應(yīng)的固定權(quán)重值及該成份詞匯的字符長度,計(jì)算確定該候選主題在廣告詞典中的精確廣告匹配度。
6、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲得廣告上下文向量的具體過程包括將廣告詞典中每個(gè)廣告詞在存儲(chǔ)有大量文章數(shù)據(jù)的資料庫中進(jìn)行匹配,記錄離該廣告詞距離最近的具有實(shí)體意義的上下文詞匯及對(duì)應(yīng)的頻率信息;每個(gè)廣告詞的上下文詞匯及對(duì)應(yīng)的頻率信息組成該廣告詞的上下文向量;廣告詞典中所有廣告詞的上下文向量組合在一起獲得所述廣告上下文向量;所述每個(gè)廣告詞的上下文向量在所述廣告上下文向量中都對(duì)應(yīng)一個(gè)lt值。
7、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述相似度的計(jì)算過程包括根據(jù)廣告詞典中每個(gè)廣告詞的上下文向量與所述廣告上下文向量之間的 余弦函數(shù)值,獲得所述每個(gè)廣告詞與所述廣告上下文向量之間的相似度,并保存;以及,通過計(jì)算所述候選主題詞的上下文向量與所述廣告上下文向量之 間的余弦函數(shù)值,確定該候選主題詞與所述廣告上下文向量之間的相似度。
8、 根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述候選主題詞進(jìn)行主 題性計(jì)算的具體過程包括根據(jù)計(jì)算獲得的所述候選主題詞在文本中的重要程度值、該候選主題詞 本身的特性加權(quán)值及該候選主題詞在文本中結(jié)構(gòu)化信息的加權(quán)值,計(jì)算確定 該候選主題詞的主題性計(jì)算結(jié)果。
9、 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述候選主題詞在文本中的重要程度值的計(jì)算過程包括對(duì)于單詞,根據(jù)該候選主題詞的逆文本頻率指數(shù)和單文本詞匯頻率值,計(jì)算確定該候選主題詞的所述重要程度值;或者,對(duì)于復(fù)合詞,根據(jù)所述復(fù)合詞拆分后的成份詞匯的逆文本頻率指 數(shù)的總體估計(jì)以及該候選主題詞的單文本詞匯頻率值,計(jì)算確定該候選主題 詞的所述重要程度值;所述逆文本頻率指數(shù)的總體估計(jì),主要包括平均或加 權(quán)平均,用于近似表示所述復(fù)合詞的逆文本頻率指數(shù)。
10、 根據(jù)權(quán)利要求9所述的方法,其特征在于,獲得所述逆文本頻率指數(shù) 值的過程具體包括在逆文本頻率指數(shù)訓(xùn)練階段,將分詞系統(tǒng)分出的詞匯在保存有大量文章 數(shù)據(jù)的資料庫中,進(jìn)行出現(xiàn)頻率及文本頻率的提取,得到每個(gè)詞匯的逆文本 頻率指數(shù),通過計(jì)算,將分詞系統(tǒng)切分的詞匯的逆文本頻率指數(shù)組合成逆文本指數(shù)詞典。
11、 根據(jù)權(quán)利要求1所述的方法,其特征在于,計(jì)算確定所述候選主題詞的廣告主題權(quán)重值的計(jì)算公式包括其中,AD,/gM(w)為所述候選主題詞的廣告性計(jì)算結(jié)果,rop/C/g似(w) 為所述候選主題詞的主題性計(jì)算結(jié)果。
12、 一種用于候選主題詞廣告投放的裝置,其特征在于,包括 詞匯計(jì)算模塊,用于對(duì)提取的至少一個(gè)候選主題詞,進(jìn)行廣告性及主題性的計(jì)算;綜合處理模塊,用于將得到的所述廣告性及主題性的計(jì)算結(jié)果,通過計(jì) 算確定所述候選主題詞的廣告主題權(quán)重值,以選擇所述候選主題詞進(jìn)行廣告 投放。
13、 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述詞匯計(jì)算模塊具體 包括廣告性計(jì)算單元,用于將所述候選主題詞在建立的廣告詞典中進(jìn)行匹 配,所述廣告詞典中保存有每個(gè)廣告詞的固定權(quán)重值,將匹配到的所述固定 權(quán)重值通過計(jì)算,確定該候選主題詞在所述廣告詞典中的精確廣告匹配度; 以及,才艮據(jù)所述候選主題詞的上下文向量和通過所述廣告詞典中的廣告詞獲 得的廣告上下文向量,計(jì)算得到該候選主題詞與所述廣告上下文向量之間的 相似度;通過在所述精確廣告匹配度與所述相似度之間取最大值,得到該候 選主題詞的廣告性計(jì)算結(jié)果;主題性計(jì)算單元,用于將所述候選主題詞根據(jù)計(jì)算出的該候選主題詞在 文本中的重要程度值,以及該候選主題詞本身的特性加權(quán)值和該主題詞在文本中的結(jié)構(gòu)化信息加權(quán)值,通過計(jì)算確定該候選主題詞的主題性計(jì)算結(jié)果。
14、 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述廣告性計(jì)算單元具體包括廣告詞典建立子單元,用于將用戶關(guān)注的文本信息中的詞匯投入到搜索 引擎中來搜索廣告詞,并記錄搜索到的廣告詞及對(duì)應(yīng)的出現(xiàn)頻率和等級(jí),獲 得所述廣告詞典中的廣告詞;且根據(jù)該廣告詞在搜索引擎中的廣告程度權(quán)重 值,及該廣告詞與獲得的所述廣告上下文向量之間的相似度,來確定所述廣 告詞在所述廣告詞典中對(duì)應(yīng)的固定權(quán)重值,并保存;廣告上下文獲取子單元,用于將所述廣告詞典建立子單元獲得所述廣告 詞在保存有大量文章數(shù)據(jù)的資料庫中進(jìn)行匹配,記錄離該廣告詞距離最近的 具有實(shí)體意義的上下文詞匯及對(duì)應(yīng)的頻率信息;將廣告詞典中每個(gè)廣告詞的上下文詞匯及頻率信息組合成所述廣告上下文向量;所述每個(gè)廣告詞的上下 文向量在所述廣告上下文向量中都對(duì)應(yīng)一個(gè)數(shù)值。
15、 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述廣告性計(jì)算單元具 體還包括匹配計(jì)算子單元,用于將所述候選主題詞在所述廣告詞典中進(jìn)行匹配, 所述廣告詞典中保存有每個(gè)廣告詞的固定權(quán)重值,將匹配到的所述固定權(quán)重 值通過計(jì)算,確定該候選主題詞在所述廣告詞典中的精確廣告匹配度;相似度計(jì)算子單元,用于根據(jù)獲得的所述廣告上下文向量,通過計(jì)算得 到該候選主題詞與所述廣告上下文向量之間的相似度;廣告性綜合子單元,用于通過在所述匹配計(jì)算子單元計(jì)算得到的精確廣 告匹配度與所述相似度計(jì)算子單元計(jì)算出的相似度之間取最大值,得到該候 選主題詞的廣告性計(jì)算結(jié)果。
16、 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述廣告性計(jì)算單元具體還包括固定權(quán)重值計(jì)算子單元,用于根據(jù)所述廣告詞在搜索引擎中的廣告程度 值,及該廣告詞與獲得的所述廣告上下文向量之間的相似度,來確定所述廣 告詞在所述廣告詞典中對(duì)應(yīng)的固定權(quán)重值,并保存。
17、 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述主題性計(jì)算單元具 體包括逆文本頻率指數(shù)獲取子單元,用于在逆文本頻率指數(shù)訓(xùn)練階段,將分詞 系統(tǒng)分出的詞匯在保存有大量文章數(shù)據(jù)的資料庫中提取出所述詞匯的出現(xiàn)頻 率及文本頻率,通過計(jì)算獲得所述詞匯的逆文本頻率指數(shù),組合成逆文本頻 率指數(shù)詞典;重要程度計(jì)算子單元,用于根據(jù)所述逆文本頻率指數(shù)獲取子單元獲得的 所述逆文本頻率指數(shù),計(jì)算所述候選主題詞在文本中的重要程度值;主題性計(jì)算子單元,用于根據(jù)所述重要程度計(jì)算子單元計(jì)算出的所述候 選主題詞在文本中的重要程度值,及該主題詞本身的特性加權(quán)值及該主題詞 在文本中結(jié)構(gòu)化信息加權(quán)值,通過計(jì)算確定所述候選主題詞的主題性計(jì)算結(jié) 果。
18、 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述綜合處理模塊具體 包括綜合結(jié)果計(jì)算單元,用于將得到的所述廣告性及主題性的計(jì)算結(jié)果,計(jì) 算所述候選主題詞的廣告主題權(quán)重值。排序單元,根據(jù)所述綜合結(jié)果計(jì)算單元計(jì)算出的所述候選主題詞的廣告 主題權(quán)重值,從大到小的進(jìn)行排序。
全文摘要
本發(fā)明公開了一種用于候選主題詞廣告投放的方法,該方法包括將提取到的至少一個(gè)候選主題詞,進(jìn)行廣告性及主題性計(jì)算;根據(jù)計(jì)算獲得的廣告性及主題性的計(jì)算結(jié)果,通過計(jì)算確定所述候選主題詞的廣告主題權(quán)重值,以選擇所述候選主題詞進(jìn)行廣告投放。本發(fā)明還提供了一種用于候選主題詞廣告投放的裝置。采用本發(fā)明所述的技術(shù)方案,能夠解決主題詞優(yōu)先級(jí)與廣告詞優(yōu)先級(jí)之間的沖突問題,提高了廣告投放的準(zhǔn)確度。
文檔編號(hào)G06F17/30GK101477566SQ20091007718
公開日2009年7月8日 申請(qǐng)日期2009年1月19日 優(yōu)先權(quán)日2009年1月19日
發(fā)明者方高林, 震 王 申請(qǐng)人:騰訊科技(深圳)有限公司