基于文本分類的推廣觸發(fā)方法和裝置制造方法
【專利摘要】本發(fā)明實(shí)施方式提出了一種基于文本分類的推廣觸發(fā)方法和裝置。方法包括:接收網(wǎng)頁文本和推廣文本,分別對網(wǎng)頁文本和推廣文本進(jìn)行詞法分析;從詞法分析后的網(wǎng)頁文本和推廣文本中分別提取出包含流量特征的特征,并基于預(yù)先訓(xùn)練的層次分類模型分別對網(wǎng)頁文本和推廣文本中提取的特征進(jìn)行層次分類;根據(jù)網(wǎng)頁文本和推廣文本提取特征的層次分類結(jié)果,計(jì)算網(wǎng)頁文本和推廣文本的相似度,并基于該相似度計(jì)算結(jié)果觸發(fā)推廣操作。本發(fā)明實(shí)施方式可以對網(wǎng)頁文本、推廣文本或用戶文本進(jìn)行有效分類,在不同的流量上側(cè)重于不同的特征信息,能夠有效提高分類準(zhǔn)確度,并提高推廣準(zhǔn)確度。
【專利說明】基于文本分類的推廣觸發(fā)方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施方式涉及信息處理【技術(shù)領(lǐng)域】,更具體地,涉及一種基于文本分類的推 廣觸發(fā)方法和裝置。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)(Internet)和即時(shí)通信技術(shù)在人 們的日常生活、學(xué)習(xí)和工作中發(fā)揮的作用也越來越大。而且,隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,互聯(lián) 網(wǎng)也在向移動(dòng)化發(fā)展。在當(dāng)今的信息時(shí)代中,各種信息設(shè)備應(yīng)運(yùn)而生:有用于話音傳輸?shù)墓?定電話、移動(dòng)電話;有用于信息資源共享、處理的服務(wù)器和個(gè)人電腦;有用于視頻數(shù)據(jù)顯示 的各種電視機(jī)等等。這些設(shè)備都是在特定領(lǐng)域內(nèi)為解決實(shí)際的需求而產(chǎn)生的。隨著電子消 費(fèi)、計(jì)算機(jī)、通信(3C)融合的到來,人們越來越多地將注意力放到了對各個(gè)不同領(lǐng)域的信息 設(shè)備進(jìn)行綜合利用的研究上,以充分利用現(xiàn)有資源設(shè)備來為人們更好的服務(wù)。
[0003] 搜索引擎廣告就是一種針對信息綜合利用的示范性應(yīng)用。搜索引擎廣告也稱為關(guān) 鍵詞廣告,是指廣告主根據(jù)自己的產(chǎn)品或服務(wù)的內(nèi)容、特點(diǎn)等確定關(guān)鍵詞,撰寫廣告內(nèi)容并 自主定價(jià)投放在搜索引擎上的廣告。當(dāng)用戶搜索的內(nèi)容與廣告主的關(guān)鍵詞匹配時(shí),相應(yīng)的 廣告就可能會(huì)被展示,并在用戶點(diǎn)擊后按照廣告主對該關(guān)鍵詞的出價(jià)收費(fèi)。在廣告的展示 中,好的推廣語可以促進(jìn)廣告的曝光率以及點(diǎn)擊率。在基于效果為基礎(chǔ)的廣告系統(tǒng)中,廣告 主只需要為可衡量的結(jié)果付費(fèi)。
[0004] 在現(xiàn)有技術(shù)的效果廣告系統(tǒng)中,廣告觸發(fā)基本都是基于文本分類方法。具體包括: 分別首先通過規(guī)則或者機(jī)器學(xué)習(xí)的方法對廣告和網(wǎng)頁進(jìn)行分類,然后在分類維度上計(jì)算廣 告和頁面的相似度,最后根據(jù)相似度的排名進(jìn)行拉取初選廣告,再交由廣告點(diǎn)擊率預(yù)估系 統(tǒng)進(jìn)行最終排序。
[0005] 然而,在這種廣告文本分類技術(shù)中,一方面分類體系粒度不夠,難以適應(yīng)網(wǎng)頁信 息的1?速變化,另一方面僅考慮了來自頁面內(nèi)容的特征,如僅考慮標(biāo)記(token)和關(guān)鍵字 (keyword)等信息,缺乏對其他有效信息的利用。因此,現(xiàn)有技術(shù)中基于文本分類的推廣觸 發(fā)方法的分類準(zhǔn)確度不高,并導(dǎo)致推廣準(zhǔn)確度不高。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實(shí)施方式提出一種基于文本分類的推廣觸發(fā)方法,以提高推廣準(zhǔn)確度。
[0007] 本發(fā)明實(shí)施方式還提出了一種基于文本分類的推廣觸發(fā)裝置,以提高推廣準(zhǔn)確 度。
[0008] 本發(fā)明實(shí)施方式的具體方案如下:
[0009] -種基于文本分類的推廣觸發(fā)方法,該方法包括:
[0010] 接收網(wǎng)頁文本和推廣文本,分別對網(wǎng)頁文本和推廣文本進(jìn)行詞法分析;
[0011] 從詞法分析后的網(wǎng)頁文本和推廣文本中分別提取出包含流量特征的特征,并基于 預(yù)先訓(xùn)練的層次分類模型分別對網(wǎng)頁文本和推廣文本中提取的特征進(jìn)行層次分類;
[0012] 根據(jù)針對網(wǎng)頁文本和推廣文本提取特征的層次分類結(jié)果,計(jì)算網(wǎng)頁文本和推廣文 本的相似度,并基于該相似度計(jì)算結(jié)果觸發(fā)推廣操作。
[0013] 一種推廣觸發(fā)裝置,包括詞法分析單元、層次分類單元和推廣觸發(fā)單元,其中:
[0014] 詞法分析單元,用于接收網(wǎng)頁文本和推廣文本,分別對網(wǎng)頁文本和推廣文本進(jìn)行 詞法分析;
[0015] 層次分類單元,用于從詞法分析后的網(wǎng)頁文本和推廣文本中分別提取出包含流量 特征的特征,并基于預(yù)先訓(xùn)練的層次分類模型分別對網(wǎng)頁文本和推廣文本中提取的特征進(jìn) 行層次分類;
[0016] 推廣觸發(fā)單元,用于根據(jù)針對網(wǎng)頁文本和推廣文本提取特征的層次分類結(jié)果,計(jì) 算網(wǎng)頁文本和推廣文本的相似度,并基于該相似度計(jì)算結(jié)果觸發(fā)推廣操作。
[0017] 從上述技術(shù)方案可以看出,在本發(fā)明實(shí)施方式中,接收網(wǎng)頁文本和推廣文本,分別 對網(wǎng)頁文本和推廣文本進(jìn)行詞法分析;從詞法分析后的網(wǎng)頁文本和推廣文本中分別提取出 包含流量特征的特征,并基于預(yù)先訓(xùn)練的層次分類模型分別對網(wǎng)頁文本和推廣文本中提取 的特征進(jìn)行層次分類;根據(jù)網(wǎng)頁文本和推廣文本提取特征的層次分類結(jié)果,計(jì)算網(wǎng)頁文本 和推廣文本的相似度,并基于該相似度計(jì)算結(jié)果觸發(fā)推廣操作。由此可見,應(yīng)用本發(fā)明實(shí)施 方式之后,考慮到不同流量上不同的特征屬性,因此可以對網(wǎng)頁文本、推廣文本或用戶文本 進(jìn)行有效分類,在不同的流量上側(cè)重于不同的特征信息,因此能夠有效提高分類準(zhǔn)確度,并 提高推廣準(zhǔn)確度。
[0018] 另外,本發(fā)明實(shí)施方式將推廣文本、網(wǎng)頁文本和用戶文本三個(gè)維度的信息映射到 同一分類維度下,對于推廣文本觸發(fā)進(jìn)行了有效支持。
【專利附圖】
【附圖說明】
[0019] 圖1為根據(jù)本發(fā)明實(shí)施方式基于文本分類的推廣觸發(fā)方法流程圖;
[0020] 圖2為根據(jù)本發(fā)明實(shí)施方式的分類體系結(jié)構(gòu)圖;
[0021] 圖3為根據(jù)本發(fā)明實(shí)施方式基于文本分類的推廣觸發(fā)裝置結(jié)構(gòu)圖;
[0022] 圖4為根據(jù)本發(fā)明實(shí)施方式基于文本分類的推廣觸發(fā)過程示意圖。
【具體實(shí)施方式】
[0023] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對本發(fā)明作進(jìn)一步 的詳細(xì)描述。
[0024] 在現(xiàn)有技術(shù)中,沒有考慮到不同流量上不同的特征屬性,因此無法對網(wǎng)頁文本、廣 告文本或用戶文本進(jìn)行有效分類,只能在某個(gè)維度上效果不錯(cuò),而其他維度上效果一般。
[0025] 在本發(fā)明實(shí)施方式中,將流量也引入到層次分類體系下,流量名作為一個(gè)層次分 類的節(jié)點(diǎn)。在文本分類時(shí),對于網(wǎng)頁文本、推廣文本和用戶文本的頁面內(nèi)容,可以判斷其屬 于某個(gè)流量,再在該流量下進(jìn)行具體分類,因此這個(gè)層次分類體系很容易進(jìn)行擴(kuò)展。
[0026] 在本發(fā)明實(shí)施方式中,一方面針對不同流量建立分類體系,并將其融入到整個(gè)層 次分類體系,另一方面充分利用不同流量下的特征信息,為網(wǎng)頁文本、推廣文本(比如廣告 文本)及用戶文本的分類提供統(tǒng)一可靠的方法,保證其分類的整體效果。
[0027] 圖1為根據(jù)本發(fā)明實(shí)施方式基于文本分類的推廣觸發(fā)方法流程圖。
[0028] 如圖1所示,該方法包括:
[0029] 步驟101 :接收網(wǎng)頁文本和推廣文本,分別對網(wǎng)頁文本和推廣文本進(jìn)行詞法分析。
[0030] 在這里,推廣文本具體可以由推廣源(比如廣告商)所提供,用于對某項(xiàng)產(chǎn)品或業(yè) 務(wù)進(jìn)行推廣。比如,推廣文本可以是由廣告商所提供的廣告文本。
[0031] 分別對網(wǎng)頁文本和推廣文本進(jìn)行詞法分析(lexical analysis)。詞法分析是計(jì)算 機(jī)科學(xué)中將字符序列轉(zhuǎn)換為單詞(Token)序列的過程。進(jìn)行詞法分析的程序或者函數(shù)稱為 詞法分析器(Lexical analyzer,簡稱Lexer),也叫掃描器(Scanner)。
[0032] 詞法分析器一般以函數(shù)的形式存在,供語法分析器調(diào)用。在詞法分析階段,通常從 左到右逐個(gè)字符地讀入源程序,即對構(gòu)成源程序的字符流進(jìn)行掃描,然后根據(jù)構(gòu)詞規(guī)則識(shí) 別單詞(也稱單詞符號或符號)。詞法分析程序用于實(shí)現(xiàn)這個(gè)任務(wù),而且詞法分析程序可以 使用Lex等工具自動(dòng)生成。
[0033] 步驟102 :從詞法分析后的網(wǎng)頁文本和推廣文本中分別提取出包含流量特征的特 征,并基于預(yù)先訓(xùn)練的層次分類模型分別對網(wǎng)頁文本和推廣文本中提取的特征進(jìn)行層次分 類。
[0034] 在這里,從詞法分析后的網(wǎng)頁文本中提取出包含流量特征的特征,并且還從詞法 分析后的推廣文本中也提取出包含流量特征的特征。
[0035] 網(wǎng)頁文本流量特征用于標(biāo)識(shí)網(wǎng)頁文本的來源特征,推廣文本流量特征用于標(biāo)識(shí)推 廣文本的來源特征。
[0036] 如,對于網(wǎng)頁文本,可以用該網(wǎng)頁文本的域名(URL)或網(wǎng)站源來標(biāo)識(shí)流量特征。
[0037] 在一個(gè)實(shí)施方式中,可以首先解析該網(wǎng)頁文本的域名,再根據(jù)網(wǎng)頁文本的域名確 定網(wǎng)頁文本的流量特征。比如,根據(jù)網(wǎng)頁文本的域名中的預(yù)設(shè)關(guān)鍵字確定該網(wǎng)頁文本來源 自新聞?lì)愋途W(wǎng)站,則可以確定該網(wǎng)頁文本的流量特征為"新聞"。根據(jù)網(wǎng)頁文本的域名中 的預(yù)設(shè)關(guān)鍵字確定該網(wǎng)頁文本來源自財(cái)經(jīng)類型網(wǎng)站,則可以確定該網(wǎng)頁文本的流量特征為 "財(cái)經(jīng)"。根據(jù)網(wǎng)頁文本的域名中的預(yù)設(shè)關(guān)鍵字確定該網(wǎng)頁文本來源自某門戶網(wǎng)站,則可以 確定該網(wǎng)頁文本的流量特征為該門戶網(wǎng)站。
[0038] 對于推廣文本,可以用推廣文本的推廣來源種類來標(biāo)識(shí)流量特征。對于推廣來源 種類,可以利用流量特征進(jìn)行各種行業(yè)劃分。在行業(yè)劃分的過程中,可以按照多種劃分方式 進(jìn)行區(qū)分。
[0039] 比如,可以按照三次行業(yè)進(jìn)行劃分。第一產(chǎn)業(yè)是指農(nóng)、林、牧、漁業(yè);第二產(chǎn)業(yè)是指 采礦業(yè),制造業(yè),電力、燃?xì)饧八纳a(chǎn)和供應(yīng)業(yè),建筑業(yè);第三產(chǎn)業(yè)是指除第一、二產(chǎn)業(yè)以 外的其他行業(yè),具體包括:交通運(yùn)輸、倉儲(chǔ)和郵政業(yè),信息傳輸、計(jì)算機(jī)服務(wù)和軟件業(yè),批發(fā) 和零售業(yè),住宿和餐飲業(yè),金融業(yè),房地產(chǎn)業(yè),租賃和商務(wù)服務(wù)業(yè),科學(xué)研究、技術(shù)服務(wù)和地 質(zhì)勘查業(yè),水利、環(huán)境和公共設(shè)施管理業(yè),居民服務(wù)和其他服務(wù)業(yè),教育,衛(wèi)生、社會(huì)保障和 社會(huì)福利業(yè),文化、體育和娛樂業(yè),公共管理和社會(huì)組織,國際組織,等等。
[0040] 可選地,還可以根據(jù)國民經(jīng)濟(jì)行業(yè)類型進(jìn)行劃分。分為15大類,排列順序如 下:⑴農(nóng)、林、牧、漁業(yè);⑵采掘業(yè);⑶制造業(yè);⑷電力、煤氣及水的生產(chǎn)和供應(yīng)業(yè);(5)建筑 業(yè);(6)地質(zhì)勘查、水利管理業(yè);(7)交通運(yùn)輸、倉儲(chǔ)及郵電通信業(yè);(8)批發(fā)和零售貿(mào)易餐飲業(yè); ⑶金融、保險(xiǎn)業(yè);(1Φ房地產(chǎn)業(yè);(11)社會(huì)服務(wù)業(yè);(12)衛(wèi)生體育和社會(huì)福利業(yè);(13)教育、文化藝術(shù) 和廣播電影電視業(yè);(M)科學(xué)研究和綜合技術(shù)服務(wù)業(yè);(15)國家機(jī)關(guān)、政黨機(jī)關(guān)和社會(huì)團(tuán)體,等 等。
[0041] 以上詳細(xì)羅列出行業(yè)劃分的【具體實(shí)施方式】,本領(lǐng)域技術(shù)人員可以意識(shí)到,這種羅 列僅僅是闡述性的,并不用于對本發(fā)明實(shí)施方式的保護(hù)范圍進(jìn)行限定。
[0042] 在一個(gè)實(shí)施方式中,從詞法分析后的網(wǎng)頁文本和推廣文本中除了提取出流量特征 之外,還可以提取出標(biāo)記Token特征、關(guān)鍵字特征、主題特征、通用關(guān)鍵字特征、擴(kuò)展關(guān)鍵字 特征或命名實(shí)體NamedEntity特征,等等。
[0043] 在一個(gè)實(shí)施方式中,可以為每個(gè)分類文本訓(xùn)練一個(gè)最大熵模型。對于待分類文本, 優(yōu)選使用實(shí)數(shù)型的特征,既包含特征項(xiàng),也包含特征值,同時(shí)輸入到分類訓(xùn)練器中。
[0044] 比如:可以設(shè)計(jì)如下的分類器特征及模版,每個(gè)類別的特征以數(shù)字編號加開 頭:
[0045] 標(biāo)記(Token)特征:以"1_"開頭,后接 token name,如"1-iphone, 1-ipad";
[0046] 關(guān)鍵字(Keyword) 特征:以〃2_〃開頭,后接keyword name,如 〃2_iphone4s, 2_ipad2〃 ;
[0047] 主題(Topic)特征:以〃3_〃 開頭,后接 topic id,如〃3-1, 3-10〃 ;
[0048] 通用關(guān)鍵字(General Keyword)特征:以〃4_〃 開頭,后接general keyword name, 如"4-鮮花〃;
[0049] 命名實(shí)體(NamedEntity)特征:以〃5_〃 開頭,后接 NamedEntity type,如 "5-BRAND";
[0050] 擴(kuò)展 Keyword 特征:以〃6_〃 開頭,后接 expanded keyword name,如〃6_ 鮮花速 遞〃;
[0051] 對于每類特征,特征值需要?dú)w一化到[0, 1]區(qū)間,并且添加開關(guān)控制,方便線下實(shí) 驗(yàn)和評估每類特征對于分類器的貢獻(xiàn)。在特征抽取和驗(yàn)證完畢后,可以考慮采用基于統(tǒng)計(jì) 方法的特征選擇方法來過濾部分冗余特征,如利用卡方,信息增益等。
[0052] 步驟103 :根據(jù)網(wǎng)頁文本和推廣文本提取特征的層次分類結(jié)果,計(jì)算網(wǎng)頁文本和 推廣文本的相似度,并基于該相似度計(jì)算結(jié)果觸發(fā)推廣操作。
[0053] 在這里,根據(jù)網(wǎng)頁文本和推廣文本提取特征的層次分類結(jié)果,計(jì)算網(wǎng)頁文本和推 廣文本的相似度,并基于該相似度計(jì)算結(jié)果觸發(fā)推廣操作。具體地,可以采用多種文本相似 度算法來計(jì)算網(wǎng)頁文本和推廣文本的相似度。
[0054] 比如:在向量空間模型中,文本泛指各種機(jī)器可讀的記錄。用D (Document)表示, 特征項(xiàng)(Term,用t表示)是指出現(xiàn)在文檔D中且能夠代表該文檔內(nèi)容的基本語言單位,主 要是由詞或者短語構(gòu)成,文本可以用特征項(xiàng)集表示為D(T1,T2,…,化),其中Tk是特征項(xiàng), l〈=k〈=N。例如一篇文檔中有a、b、c、d四個(gè)特征項(xiàng),那么這篇文檔就可以表示為D(a,b,c, d)。對含有η個(gè)特征項(xiàng)的文本而言,通常會(huì)給每個(gè)特征項(xiàng)賦予一定的權(quán)重表示其重要程度。 即D = D(T1,W1 ;T2,W2 ; ...,Tn,Wn),簡記為 D = D(W1,W2,...,Wn),把它叫做文本 D 的向 量表示。其中Wk是Tk的權(quán)重,l〈=k〈=N。
[0055] 在上面那個(gè)例子中,假設(shè)a、b、c、d的權(quán)重分別為30, 20, 20,10,那么該文本的向量 表示為D (30, 20, 20,10)。在向量空間模型中,兩個(gè)文本D1和D2之間的內(nèi)容相關(guān)度Sim(D1, D2)常用向量之間夾角的余弦值表示。
[0056] 對于待分類文本,在線預(yù)測與離線訓(xùn)練共享特征抽取模塊進(jìn)行特征抽取,這樣能 保證線上線下特征的一致性。同時(shí)需要設(shè)計(jì)一個(gè)基于最大熵模型的層次分類器預(yù)測工具 (hierarchical_classif ier_predictor),該預(yù)測工具進(jìn)行分類的步驟如下:
[0057] 在每個(gè)節(jié)點(diǎn)加載已經(jīng)訓(xùn)練好的子分類模型;從根節(jié)點(diǎn)出發(fā),先按照第一級分類體 系的進(jìn)行分類,由于是最大熵分類器,每類的輸出值是一個(gè)概率值,其和為1 ;逐個(gè)遞歸的 對其下層的每個(gè)子分類節(jié)點(diǎn)進(jìn)行分類,在判斷是否繼續(xù)向下分類時(shí),會(huì)根據(jù)一個(gè)閾值進(jìn)行 控制,如果其上層的分類結(jié)果小于該閾值,就不需要向下繼續(xù)分類;每一層的子類的分類值 會(huì)乘上其父類的分類值,因此可以保證每一層分類值之和為1 ;遍歷完整個(gè)層次分類器后, 對于每一層的分類結(jié)果按從大到小的進(jìn)行排序,實(shí)際調(diào)用時(shí)會(huì)根據(jù)閾值或者topn順序輸 出分類結(jié)果。
[0058] 計(jì)算完網(wǎng)頁文本和各個(gè)候選推廣文本的相似度之后,可以根據(jù)相似度排名拉取初 選的推廣文本,然后再由推廣點(diǎn)擊率預(yù)估系統(tǒng)確定最終的排序結(jié)果,并且在網(wǎng)頁文本上向 用戶推送預(yù)定數(shù)目個(gè)排序靠前的推廣文本。
[0059] 在上述流程中,進(jìn)一步包括:接收用戶文本,對用戶文本進(jìn)行詞法分析,從詞法分 析后的用戶文本中提取出包含流量特征的特征,并基于該預(yù)先訓(xùn)練的層次分類模型對用戶 文本中提取的特征進(jìn)行層次分類;根據(jù)針對網(wǎng)頁文本和用戶文本提取特征的層次分類結(jié) 果,計(jì)算網(wǎng)頁文本和用戶文本的相似度。
[0060] 此時(shí),根據(jù)針對網(wǎng)頁文本和推廣文本提取特征的層次分類結(jié)果,計(jì)算網(wǎng)頁文本和 推廣文本的相似度,并基于該相似度計(jì)算結(jié)果觸發(fā)推廣操作具體包括:對網(wǎng)頁文本與用戶 文本的相似度以及網(wǎng)頁文本與推廣文本的相似度,進(jìn)行加權(quán)求和,并根據(jù)該加權(quán)求和結(jié)果 觸發(fā)推廣操作。
[0061] 類似地,用戶文本流量特征用于標(biāo)識(shí)用戶文本的來源特征。具體地,用戶文本可以 包括用戶的歷史搜索查詢請求項(xiàng)query、用戶的微薄標(biāo)簽或用戶所瀏覽的網(wǎng)頁標(biāo)題,等等。
[0062] 而且,用戶可以在各種終端上利用瀏覽器來瀏覽網(wǎng)頁文本和推廣文本,這些終端 可以包括但是不局限于:功能手機(jī)、智能手機(jī)、掌上電腦、個(gè)人電腦(PC)、平板電腦或個(gè)人 數(shù)字助理(PDA),等等。
[0063] 以上雖然詳細(xì)羅列了終端的具體實(shí)例,本領(lǐng)域人員可以意識(shí)到,這些羅列僅是闡 述目的,并不用于限定本發(fā)明實(shí)施方式的保護(hù)范圍。瀏覽器具體可以包括微軟的Internet Explorer、Mozilla 的 Firefox、Apple 的 Safari, Opera、Google Chrome、GreenBrowser 等 瀏覽器。
[0064] 以上雖然詳細(xì)列出了一些常用瀏覽器,本領(lǐng)域技術(shù)人員可以意識(shí)到,本發(fā)明實(shí)施 方式并不局限于這些瀏覽器,而是可以適用于任意可用于顯示網(wǎng)頁服務(wù)器或檔案系統(tǒng)內(nèi)的 文件、并讓用戶與文件互動(dòng)的應(yīng)用(App),這些應(yīng)用可以是目前常見的各種瀏覽器,也可以 是其他的任意具有網(wǎng)頁瀏覽功能的應(yīng)用程序。
[0065] 在本發(fā)明實(shí)施方式中,建立一套能夠分類推廣文本(標(biāo)題和關(guān)鍵詞等信息)、用戶 文本(瀏覽歷史和搜索歷史等信息)和網(wǎng)頁文本(網(wǎng)頁標(biāo)題和文本內(nèi)容等信息)的文本分類 器。目標(biāo)是建立面向情境廣告系統(tǒng)的層次分類體系,依據(jù)分類體系構(gòu)建兼容網(wǎng)頁、用戶自生 成內(nèi)容(UGC)及廣告庫的標(biāo)注語料庫,以及一個(gè)健壯可靠的高性能分類器。
[0066] 在本發(fā)明實(shí)施方式中,建立有面向推廣文本,網(wǎng)頁文本和用戶信息的統(tǒng)一的層次 分類體系。首先,需要把推廣文本、用戶文本和網(wǎng)頁文本投影到同一個(gè)分類體系,所以需要 建立一個(gè)覆蓋推廣文本、用戶文本和網(wǎng)頁文本中商業(yè)概念的分類體系。由于商業(yè)概念具有 天然的層次體系,并且層次體系允許分類器在信息不足的情況下定位到較淺的類別,而在 信息充分的情況下定位到較深的類別,所以需要層次(hierarchical)分類器;在層次分類 體系中考慮流量信息,作為一個(gè)節(jié)點(diǎn)加入到分類體系下。
[0067] 圖2為根據(jù)本發(fā)明實(shí)施方式的分類體系結(jié)構(gòu)圖。如圖2所示,本發(fā)明實(shí)施方式中 建立有面向推廣文本,網(wǎng)頁文本和用戶信息的統(tǒng)一的層次分類體系。
[0068] 基于上述詳細(xì)分析,本發(fā)明實(shí)施方式還提出了一種基于文本分類的推廣觸發(fā)裝 置。
[0069] 圖3為根據(jù)本發(fā)明實(shí)施方式基于文本分類的推廣觸發(fā)裝置結(jié)構(gòu)圖。如圖3所示, 該裝置包括詞法分析單元301、層次分類單元302和推廣觸發(fā)單元303,其中:
[0070] 詞法分析單元301,用于接收網(wǎng)頁文本和推廣文本,分別對網(wǎng)頁文本和推廣文本進(jìn) 行詞法分析;
[0071] 層次分類單元302,用于從詞法分析后的網(wǎng)頁文本和推廣文本中分別提取出包含 流量特征的特征,并基于預(yù)先訓(xùn)練的層次分類模型分別對網(wǎng)頁文本和推廣文本中提取的特 征進(jìn)行層次分類;
[0072] 推廣觸發(fā)單元303,用于根據(jù)網(wǎng)頁文本和推廣文本提取特征的層次分類結(jié)果,計(jì)算 網(wǎng)頁文本和推廣文本的相似度,并基于該相似度計(jì)算結(jié)果觸發(fā)推廣操作。
[0073] 在一個(gè)實(shí)施方式中,詞法分析單元301,進(jìn)一步用于接收用戶文本,對用戶文本進(jìn) 行詞法分析,從詞法分析后的用戶文本中提取出包含流量特征的特征,并基于該預(yù)先訓(xùn)練 的層次分類模型對用戶文本中提取的特征進(jìn)行層次分類;
[0074] 層次分類單元302,進(jìn)一步用于根據(jù)針對網(wǎng)頁文本和用戶文本提取特征的層次分 類結(jié)果,計(jì)算網(wǎng)頁文本和用戶文本的相似度;
[0075] 推廣觸發(fā)單元303,用于對網(wǎng)頁文本與用戶文本的相似度以及網(wǎng)頁文本與推廣文 本的相似度,進(jìn)行加權(quán)求和,并根據(jù)該加權(quán)求和結(jié)果觸發(fā)推廣操作。
[0076] 在一個(gè)實(shí)施方式中,層次分類單元302,用于解析該網(wǎng)頁文本的域名;根據(jù)網(wǎng)頁文 本的域名確定網(wǎng)頁文本的流量特征。
[0077] 在一個(gè)實(shí)施方式中,詞法分析單元301,用于接收該用戶的歷史搜索查詢請求項(xiàng) query、該用戶的微薄標(biāo)簽或該用戶所瀏覽的網(wǎng)頁標(biāo)題。
[0078] 在一個(gè)實(shí)施方式中,層次分類單元302,用于從詞法分析后的網(wǎng)頁文本和推廣文本 中分別提取出流量特征、標(biāo)記Token特征、關(guān)鍵字特征、主題特征、通用關(guān)鍵字特征、擴(kuò)展關(guān) 鍵字特征或命名實(shí)體(NamedEntity)特征。
[0079] 圖4為根據(jù)本發(fā)明實(shí)施方式基于文本分類的推廣觸發(fā)過程示意圖。
[0080] 如圖4所示,可以對訓(xùn)練樣本(包括預(yù)先設(shè)置的分類標(biāo)簽和源文件)中的源文件進(jìn) 行詞匯分析,并提取源文件特征,再基于預(yù)先設(shè)立的層級體系和分類標(biāo)簽進(jìn)行層次分類訓(xùn) 練,以得到層次分類模型。然后,可以利用該層次分類模型分別對分類文本(包括網(wǎng)頁文本、 推廣文本或用戶文本)中提取的特征進(jìn)行層次分類。最后,可以根據(jù)網(wǎng)頁文本和推廣文本提 取特征的層次分類結(jié)果,計(jì)算網(wǎng)頁文本和推廣文本的相似度,并基于該相似度計(jì)算結(jié)果觸 發(fā)推廣操作。
[0081] 實(shí)際上,可以通過多種形式來具體實(shí)施本發(fā)明實(shí)施方式所提出的基于文本分類的 推廣觸發(fā)方法和裝置。
[0082] 比如,可以遵循一定規(guī)范的應(yīng)用程序接口,將基于文本分類的推廣觸發(fā)方法編寫 為安裝到個(gè)人電腦、移動(dòng)終端等中的插件程序,也可以將其封裝為應(yīng)用程序以供用戶自行 下載使用。當(dāng)編寫為插件程序時(shí),可以將其實(shí)施為OCX、dll、cab等多種插件形式。也可以 通過Flash插件、RealPlayer插件、MMS插件、MIDI五線譜插件、ActiveX插件等具體技術(shù) 來實(shí)施本發(fā)明實(shí)施方式所提出的基于文本分類的推廣觸發(fā)方法。
[0083] 可以通過指令或指令集存儲(chǔ)的儲(chǔ)存方式將本發(fā)明實(shí)施方式所提出的基于文本分 類的推廣觸發(fā)方法存儲(chǔ)在各種存儲(chǔ)介質(zhì)上。這些存儲(chǔ)介質(zhì)包括但是不局限于:軟盤、光盤、 DVD、硬盤、閃存、U盤、CF卡、SD卡、MMC卡、SM卡、記憶棒(Memory Stick)、xD卡等。
[0084] 另外,還可以將本發(fā)明實(shí)施方式所提出的基于文本分類的推廣觸發(fā)方法應(yīng)用到基 于閃存(Nand flash)的存儲(chǔ)介質(zhì)中,比如U盤、CF卡、SD卡、SDHC卡、MMC卡、SM卡、記憶 棒、xD卡等。
[0085] 綜上所述,在本發(fā)明實(shí)施方式中,接收網(wǎng)頁文本和推廣文本,分別對網(wǎng)頁文本和推 廣文本進(jìn)行詞法分析;從詞法分析后的網(wǎng)頁文本和推廣文本中分別提取出包含流量特征的 特征,并基于預(yù)先訓(xùn)練的層次分類模型分別對網(wǎng)頁文本和推廣文本中提取的特征進(jìn)行層次 分類;根據(jù)網(wǎng)頁文本和推廣文本提取特征的層次分類結(jié)果,計(jì)算網(wǎng)頁文本和推廣文本的相 似度,并基于該相似度計(jì)算結(jié)果觸發(fā)推廣操作。由此可見,應(yīng)用本發(fā)明實(shí)施方式之后,考慮 到不同流量上不同的特征屬性,因此可以對網(wǎng)頁文本、推廣文本或用戶文本進(jìn)行有效分類, 在不同的流量上側(cè)重于不同的特征信息,因此能夠有效提高分類準(zhǔn)確度,并提高推廣準(zhǔn)確 度。
[0086] 另外,本發(fā)明實(shí)施方式將推廣文本、網(wǎng)頁文本和用戶文本三個(gè)維度的信息映射到 同一分類維度下,對于推廣文本觸發(fā)進(jìn)行了有效支持。
[〇〇87] 以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在 本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù) 范圍之內(nèi)。
【權(quán)利要求】
1. 一種基于文本分類的推廣觸發(fā)方法,其特征在于,該方法包括: 接收網(wǎng)頁文本和推廣文本,分別對網(wǎng)頁文本和推廣文本進(jìn)行詞法分析; 從詞法分析后的網(wǎng)頁文本和推廣文本中分別提取出包含流量特征的特征,并基于預(yù)先 訓(xùn)練的層次分類模型分別對網(wǎng)頁文本和推廣文本中提取的特征進(jìn)行層次分類; 根據(jù)網(wǎng)頁文本和推廣文本提取特征的層次分類結(jié)果,計(jì)算網(wǎng)頁文本和推廣文本的相似 度,并基于該相似度計(jì)算結(jié)果觸發(fā)推廣操作。
2. 根據(jù)權(quán)利要求1所述的基于文本分類的推廣觸發(fā)方法,其特征在于,該方法進(jìn)一步 包括: 接收用戶文本,對用戶文本進(jìn)行詞法分析,從詞法分析后的用戶文本中提取出包含流 量特征的特征,并基于該預(yù)先訓(xùn)練的層次分類模型對用戶文本中提取的特征進(jìn)行層次分 類; 根據(jù)針對網(wǎng)頁文本和用戶文本提取特征的層次分類結(jié)果,計(jì)算網(wǎng)頁文本和用戶文本的 相似度; 所述根據(jù)針對網(wǎng)頁文本和推廣文本提取特征的層次分類結(jié)果,計(jì)算網(wǎng)頁文本和推廣文 本的相似度,并基于該相似度計(jì)算結(jié)果觸發(fā)推廣操作包括: 對網(wǎng)頁文本與用戶文本的相似度以及網(wǎng)頁文本與推廣文本的相似度,進(jìn)行加權(quán)求和, 并根據(jù)該加權(quán)求和結(jié)果觸發(fā)推廣操作。
3. 根據(jù)權(quán)利要求1所述的基于文本分類的推廣觸發(fā)方法,其特征在于,所述從詞法分 析后的網(wǎng)頁文本中分別提取出包含流量特征的特征包括: 解析該網(wǎng)頁文本的域名; 根據(jù)網(wǎng)頁文本的域名確定網(wǎng)頁文本的流量特征。
4. 根據(jù)權(quán)利要求2所述的基于文本分類的推廣觸發(fā)方法,其特征在于,所述接收用戶 文本包括: 接收該用戶的歷史搜索查詢請求項(xiàng)query、該用戶的微薄標(biāo)簽或該用戶所瀏覽的網(wǎng)頁 標(biāo)題。
5. 根據(jù)權(quán)利要求2所述的基于文本分類的推廣觸發(fā)方法,其特征在于,所述從詞法分 析后的網(wǎng)頁文本和推廣文本中分別提取出包含流量特征的特征包括: 從詞法分析后的網(wǎng)頁文本和推廣文本中分別提取出流量特征、標(biāo)記Token特征、關(guān)鍵 字特征、主題特征、通用關(guān)鍵字特征、擴(kuò)展關(guān)鍵字特征或命名實(shí)體NamedEntity特征。
6. -種基于文本分類的推廣觸發(fā)裝置,其特征在于,包括詞法分析單元、層次分類單元 和推廣觸發(fā)單元,其中: 詞法分析單元,用于接收網(wǎng)頁文本和推廣文本,分別對網(wǎng)頁文本和推廣文本進(jìn)行詞法 分析; 層次分類單元,用于從詞法分析后的網(wǎng)頁文本和推廣文本中分別提取出包含流量特征 的特征,并基于預(yù)先訓(xùn)練的層次分類模型分別對網(wǎng)頁文本和推廣文本中提取的特征進(jìn)行層 次分類; 推廣觸發(fā)單元,用于根據(jù)網(wǎng)頁文本和推廣文本提取特征的層次分類結(jié)果,計(jì)算網(wǎng)頁文 本和推廣文本的相似度,并基于該相似度計(jì)算結(jié)果觸發(fā)推廣操作。
7. 根據(jù)權(quán)利要求6所述的基于文本分類的推廣觸發(fā)裝置,其特征在于, 詞法分析單元,進(jìn)一步用于接收用戶文本,對用戶文本進(jìn)行詞法分析,從詞法分析后的 用戶文本中提取出包含流量特征的特征,并基于該預(yù)先訓(xùn)練的層次分類模型對用戶文本中 提取的特征進(jìn)行層次分類; 層次分類單元,進(jìn)一步用于根據(jù)針對網(wǎng)頁文本和用戶文本提取特征的層次分類結(jié)果, 計(jì)算網(wǎng)頁文本和用戶文本的相似度; 推廣觸發(fā)單元,用于對網(wǎng)頁文本與用戶文本的相似度以及網(wǎng)頁文本與推廣文本的相似 度,進(jìn)行加權(quán)求和,并根據(jù)該加權(quán)求和結(jié)果觸發(fā)推廣操作。
8. 根據(jù)權(quán)利要求6所述的基于文本分類的推廣觸發(fā)裝置,其特征在于, 層次分類單元,用于解析該網(wǎng)頁文本的域名;根據(jù)網(wǎng)頁文本的域名確定網(wǎng)頁文本的流 量特征。
9. 根據(jù)權(quán)利要求6所述的基于文本分類的推廣觸發(fā)裝置,其特征在于, 詞法分析單元,用于接收該用戶的歷史搜索查詢請求項(xiàng)query、該用戶的微薄標(biāo)簽或該 用戶所瀏覽的網(wǎng)頁標(biāo)題。
10. 根據(jù)權(quán)利要求6所述的基于文本分類的推廣觸發(fā)裝置,其特征在于, 層次分類單元,用于從詞法分析后的網(wǎng)頁文本和推廣文本中分別提取出流量特征、 標(biāo)記Token特征、關(guān)鍵字特征、主題特征、通用關(guān)鍵字特征、擴(kuò)展關(guān)鍵字特征或命名實(shí)體 NamedEntity 特征。
【文檔編號】G06F17/30GK104102639SQ201310113608
【公開日】2014年10月15日 申請日期:2013年4月2日 優(yōu)先權(quán)日:2013年4月2日
【發(fā)明者】楊攀 申請人:騰訊科技(深圳)有限公司