亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種標(biāo)的詞分類(lèi)分級(jí)方法及系統(tǒng)的制作方法

文檔序號(hào):6335792閱讀:141來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種標(biāo)的詞分類(lèi)分級(jí)方法及系統(tǒng)的制作方法
一種標(biāo)的詞分類(lèi)分級(jí)方法及系統(tǒng)
技術(shù)領(lǐng)域
本發(fā)明涉及一種標(biāo)的詞分類(lèi)分級(jí)方法及系統(tǒng),特別涉及一種諸如關(guān)鍵詞和/或廣 告詞的分類(lèi)分級(jí)方法及系統(tǒng)。
背景技術(shù)
在網(wǎng)絡(luò)世界和現(xiàn)實(shí)社會(huì)的各個(gè)角落,廣告的普及率和重要性與日俱增。由此產(chǎn)生 了許多的廣告詞,在網(wǎng)絡(luò)上也同時(shí)出現(xiàn)有檢索詞、關(guān)鍵詞或拍賣(mài)詞等類(lèi)似的標(biāo)的詞。然而, 對(duì)于新出現(xiàn)的廣告詞,一般只能憑借人力進(jìn)行主觀的判斷其是否有正面效果、能達(dá)到哪個(gè) 層次的效果。但對(duì)于一些經(jīng)驗(yàn)不足的人來(lái)說(shuō),很容易做出錯(cuò)誤的判斷。而且人工的方式很 難做到大規(guī)模判斷,同時(shí),主觀判斷的一致性也難以得到保證。如何通過(guò)計(jì)算機(jī)系統(tǒng)對(duì)檢索 詞和廣告詞進(jìn)行自動(dòng)化的分類(lèi)分級(jí)是信息社會(huì)需要解決的一個(gè)技術(shù)問(wèn)題。

發(fā)明內(nèi)容本發(fā)明實(shí)施例提供了一種標(biāo)的詞分類(lèi)分級(jí)方法及系統(tǒng),能夠使用此方法及系統(tǒng)對(duì) 新的標(biāo)的詞進(jìn)行分類(lèi)分級(jí),進(jìn)一步能夠?qū)崿F(xiàn)對(duì)標(biāo)的詞價(jià)值的預(yù)估。本發(fā)明實(shí)施例提供了一種標(biāo)的詞分類(lèi)分級(jí)方法,該方法包括步驟a.獲取含標(biāo)的 詞分類(lèi)分級(jí)的機(jī)器模型;b.對(duì)新標(biāo)的詞進(jìn)行特征提?。灰约癈.根據(jù)所提取的新標(biāo)的詞的特 征,應(yīng)用機(jī)器模型進(jìn)行計(jì)算,確定新標(biāo)的詞的分類(lèi)分級(jí)。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,計(jì)算的方法為將新標(biāo)的詞的特征根據(jù)機(jī)器模型訓(xùn)練好 的特征參數(shù)進(jìn)行正負(fù)類(lèi)置信度得分計(jì)算。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,步驟a進(jìn)一步包括步驟al.獲取在先標(biāo)的詞的樣本 庫(kù);a2.對(duì)在先標(biāo)的詞進(jìn)行正負(fù)樣本分類(lèi),將在先標(biāo)的詞分為至少一個(gè)正樣本和一個(gè)負(fù)樣 本;a3.對(duì)正樣本和負(fù)樣本進(jìn)行特征提??;a4.根據(jù)所提取的正樣本和負(fù)樣本的特征形成機(jī) 器模型。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,正樣本包括廣告點(diǎn)擊率高或/和廣告價(jià)格高的標(biāo)的 詞;負(fù)樣本包括廣告點(diǎn)擊率低的標(biāo)的詞、廣告價(jià)格低的標(biāo)的詞或無(wú)廣告展現(xiàn)的標(biāo)的詞中的 一種或幾種的組合。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,在步驟a2中,進(jìn)一步包括對(duì)正樣本進(jìn)行分級(jí),將在先 標(biāo)的詞分為多個(gè)不同等級(jí)的正樣本和負(fù)樣本。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,在步驟a2中,通過(guò)讀取預(yù)設(shè)的樣本數(shù)據(jù)庫(kù)對(duì)至少部分 的在先標(biāo)的詞進(jìn)行正負(fù)樣本的分類(lèi)以及正樣本的分級(jí)。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,在步驟a4中,對(duì)正樣本和負(fù)樣本的特征進(jìn)行機(jī)器建 模,從而形成機(jī)器模型。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,正樣本進(jìn)一步根據(jù)分級(jí)等級(jí)的不同分為至少兩個(gè)等級(jí) 樣本。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,等級(jí)樣本包括A等樣本、B等樣本和C等樣本,或包括A等樣本、B等樣本、C等樣本和D等樣本,或包括A等樣本、B等樣本、C等樣本、D等樣本和E 等樣本;其中,A等樣本的分級(jí)等級(jí)最高,其他等級(jí)樣本的分級(jí)等級(jí)依次遞減。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,分級(jí)等級(jí)高低根據(jù)標(biāo)的詞的廣告點(diǎn)擊率或/和廣告價(jià) 格的高低來(lái)判定。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,步驟a進(jìn)一步包括a5.對(duì)未在步驟a2中進(jìn)行樣本分 類(lèi)分級(jí)的在先標(biāo)的詞進(jìn)行特征提?。籥6.根據(jù)機(jī)器模型對(duì)所獲取的剩余標(biāo)的詞的特征進(jìn)行 計(jì)算,進(jìn)而進(jìn)行分類(lèi)分級(jí),并將分類(lèi)分級(jí)后的剩余標(biāo)的詞樣本特征添加到機(jī)器模型。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,在步驟a6中,對(duì)剩余標(biāo)的詞的特征進(jìn)行計(jì)算的方法為 將剩余標(biāo)的詞的特征根據(jù)機(jī)器模型訓(xùn)練好的特征參數(shù)進(jìn)行正負(fù)類(lèi)置信度得分計(jì)算。
跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,其特征在于,在進(jìn)行特征提取時(shí),先進(jìn)行分詞。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,分詞的方法包括正向匹配分詞、反向匹配分詞、正向 反向匹配分詞、基于全切分詞圖的分詞、最大熵馬爾科夫模型分詞、最大熵分詞或條件隨機(jī) 場(chǎng)分詞。本發(fā)明實(shí)施例進(jìn)一步提供了一種標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),該系統(tǒng)包括含標(biāo)的詞分 類(lèi)分級(jí)的機(jī)器模型;用于對(duì)新標(biāo)的詞進(jìn)行特征提取的特征提取模塊;用于根據(jù)所提取的新 標(biāo)的詞的特征,應(yīng)用機(jī)器模型進(jìn)行計(jì)算,確定新標(biāo)的詞的分類(lèi)分級(jí)的計(jì)算模塊。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,在計(jì)算模塊中,計(jì)算的方法為將新標(biāo)的詞的特征根據(jù) 機(jī)器模型訓(xùn)練好的特征參數(shù)進(jìn)行正負(fù)類(lèi)置信度得分計(jì)算。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,機(jī)器模型包括用于獲取在先標(biāo)的詞的樣本庫(kù)的樣本 庫(kù)獲取模塊;用于對(duì)在先標(biāo)的詞進(jìn)行正負(fù)樣本分類(lèi),將在先標(biāo)的詞分為至少一個(gè)正樣本及 一個(gè)負(fù)樣本的樣本分類(lèi)分級(jí)模塊;對(duì)正樣本和負(fù)樣本進(jìn)行特征提取的第一樣本特征提取模 塊;根據(jù)所提取的正樣本和負(fù)樣本的特征形成機(jī)器模型的機(jī)器模型形成模塊。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,正樣本包括廣告點(diǎn)擊率高或/和廣告價(jià)格高的標(biāo)的 詞;負(fù)樣本包括廣告點(diǎn)擊率低的標(biāo)的詞、廣告價(jià)格低的標(biāo)的詞或無(wú)廣告展現(xiàn)的標(biāo)的詞中的 一種或幾種的組合。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,樣本分類(lèi)分級(jí)模塊進(jìn)一步對(duì)正樣本進(jìn)行分級(jí),將在先 標(biāo)的詞分為多個(gè)不同等級(jí)的正樣本和負(fù)樣本。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,在樣本分類(lèi)分級(jí)模塊中,通過(guò)讀取預(yù)設(shè)的樣本數(shù)據(jù)庫(kù) 對(duì)至少部分的在先標(biāo)的詞進(jìn)行正負(fù)樣本的分類(lèi)以及正樣本的分級(jí)。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,在機(jī)器模型形成模塊中,對(duì)正樣本和負(fù)樣本的特征進(jìn) 行機(jī)器建模,從而形成機(jī)器模型。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,在樣本分類(lèi)分級(jí)模塊中,正樣本進(jìn)一步根據(jù)分級(jí)等級(jí) 的不同分為至少兩個(gè)等級(jí)樣本。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,等級(jí)樣本包括A等樣本、B等樣本和C等樣本,或包括A 等樣本、B等樣本、C等樣本和D等樣本,或包括A等樣本、B等樣本、C等樣本、D等樣本和E 等樣本;其中,A等樣本的分級(jí)等級(jí)最高,其他等級(jí)樣本的分級(jí)等級(jí)依次遞減。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,分級(jí)等級(jí)高低根據(jù)標(biāo)的詞的廣告點(diǎn)擊率或/和廣告價(jià) 格的高低來(lái)判定。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,機(jī)器模型進(jìn)一步包括用于對(duì)未在樣本分類(lèi)分級(jí)模塊中進(jìn)行樣本分類(lèi)分級(jí)的在先標(biāo)的詞中的剩余標(biāo)的詞進(jìn)行特征提取的第二樣本特征提取模 塊;用于根據(jù)機(jī)器模型對(duì)所獲取的剩余標(biāo)的詞的特征進(jìn)行計(jì)算,進(jìn)而進(jìn)行分類(lèi)分級(jí),并將分 類(lèi)分級(jí)后的剩余標(biāo)的詞樣本特征添加到機(jī)器模型的樣本計(jì)算模塊。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,在樣本計(jì)算模塊中,對(duì)剩余標(biāo)的詞的特征進(jìn)行計(jì)算的 方法為將剩余標(biāo)的詞的特征根據(jù)機(jī)器模型訓(xùn)練好的特征參數(shù)進(jìn)行正負(fù)類(lèi)置信度得分計(jì)算。
跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,進(jìn)行特征提取時(shí),先進(jìn)行分詞。跟據(jù)本發(fā)明一優(yōu)選實(shí)施例,分詞的方法包括正向匹配分詞、反向匹配分詞、正向 反向匹配分詞、基于全切分詞圖的分詞、最大熵馬爾科夫模型分詞、最大熵分詞或條件隨機(jī) 場(chǎng)分詞。本發(fā)明實(shí)施例通過(guò)對(duì)已有的檢索關(guān)鍵詞和廣告拍賣(mài)詞進(jìn)行分類(lèi)分級(jí)統(tǒng)計(jì),建立機(jī) 器模型,從而對(duì)新的關(guān)鍵詞或拍賣(mài)詞進(jìn)行機(jī)器自動(dòng)識(shí)別、分析與評(píng)價(jià),實(shí)現(xiàn)了一套標(biāo)的詞分 類(lèi)分級(jí)方法及系統(tǒng)。

為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于 本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。此外,附圖未按照比例繪制。其中圖1是根據(jù)本發(fā)明一實(shí)施例的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng)的結(jié)構(gòu)示意框圖。圖2是圖1所示的機(jī)器模型的結(jié)構(gòu)示意框圖。圖3是根據(jù)本發(fā)明一實(shí)施例的標(biāo)的詞分類(lèi)分級(jí)方法的示意流程圖。圖4是圖3所示的機(jī)器模型建立方法的示意流程圖。圖5是根據(jù)本發(fā)明另一實(shí)施例的機(jī)器模型的示意流程圖。
具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅是本發(fā)明的一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。如圖1所示,圖1是根據(jù)本發(fā)明一實(shí)施例的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng)的結(jié)構(gòu)示意框圖。 為了敘述方便,本文中將檢索詞、關(guān)鍵詞和/或拍賣(mài)詞統(tǒng)稱(chēng)為“標(biāo)的詞”。本發(fā)明實(shí)施例的標(biāo) 的詞分類(lèi)分級(jí)系統(tǒng)包括機(jī)器模型11、特征提取模塊12與計(jì)算模塊13。機(jī)器模型11為含標(biāo) 的詞分類(lèi)分級(jí)的機(jī)器模型。特征提取模塊12用于對(duì)新標(biāo)的詞進(jìn)行提取。此處所述的“新標(biāo) 的詞”是指需要進(jìn)行分類(lèi)分級(jí)的標(biāo)的詞。計(jì)算模塊13用于根據(jù)特征提取模塊12所提取的 新標(biāo)的詞的特征,應(yīng)用機(jī)器模型11進(jìn)行計(jì)算,進(jìn)而確定新標(biāo)的詞的分類(lèi)分級(jí)。在其他實(shí)施 例中,也可應(yīng)用機(jī)器模型11進(jìn)行模型匹配,進(jìn)而確定新標(biāo)的詞的分類(lèi)分級(jí)。如圖2所示,圖2是圖1所示的機(jī)器模型的結(jié)構(gòu)示意框圖。參見(jiàn)圖1,機(jī)器模型11 包括樣本庫(kù)獲取模塊21、樣本分類(lèi)分級(jí)模塊22、第一樣本特征提取模塊23以及機(jī)器模型形 成模塊24。樣本庫(kù)獲取模塊21用于獲取在先標(biāo)的詞的樣本庫(kù)。樣本分類(lèi)分級(jí)模塊22用于將樣本庫(kù)獲取模塊21所獲取在先的標(biāo)的詞進(jìn)行正負(fù)樣本分類(lèi),分為正樣本和負(fù)樣本,并對(duì)正樣本進(jìn)行分級(jí)。樣本分類(lèi)分級(jí)模塊22中至少一部分對(duì)在先的標(biāo)的詞進(jìn)行正負(fù)樣本的分 類(lèi)分級(jí)是通過(guò)讀取預(yù)設(shè)的樣本數(shù)據(jù)庫(kù)完成的。樣本數(shù)據(jù)庫(kù)中包括通過(guò)計(jì)算機(jī)對(duì)現(xiàn)有的標(biāo)的 詞依據(jù)廣告點(diǎn)擊率、廣告額、廣告排名等統(tǒng)計(jì)標(biāo)準(zhǔn)進(jìn)行分類(lèi)統(tǒng)計(jì)而生成的正樣本數(shù)據(jù)和負(fù) 樣本數(shù)據(jù),另外還可以通過(guò)人工操作方式對(duì)樣本數(shù)據(jù)庫(kù)中的正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)進(jìn)行 調(diào)整。第一樣本特征提取模塊23用于對(duì)正樣本和負(fù)樣本進(jìn)行特征提取。機(jī)器模型形成模 塊24用于根據(jù)第一樣本特征提取模塊23所提取的正樣本和負(fù)樣本的特征進(jìn)行機(jī)器建模, 進(jìn)一步形成機(jī)器模型。如圖2所示,本發(fā)明實(shí)施例的機(jī)器模型建立系統(tǒng)進(jìn)一步包括第二樣本特征提取模 塊25以及樣本計(jì)算模塊26。第二樣本特征提取模塊25用于對(duì)未在樣本分類(lèi)分級(jí)模塊22 中進(jìn)行樣本分類(lèi)分級(jí)的在先標(biāo)的詞的剩余標(biāo)的詞進(jìn)行特征提取。樣本計(jì)算模塊26用于根 據(jù)機(jī)器模型對(duì)第二樣本特征提取模塊25所獲取的剩余標(biāo)的詞的特征進(jìn)行計(jì)算,進(jìn)而進(jìn)行 分類(lèi)分級(jí)。在其他實(shí)施例中,樣本計(jì)算模塊26也可根據(jù)機(jī)器模型對(duì)第二樣本特征提起模塊 25所獲取的剩余標(biāo)的詞的特征進(jìn)行模型匹配,進(jìn)而進(jìn)行分類(lèi)分級(jí)。樣本計(jì)算模塊26進(jìn)一步 將分類(lèi)分級(jí)后的剩余標(biāo)的詞的特征添加到機(jī)器模型,使機(jī)器模型進(jìn)一步得到完善。下面結(jié)合圖3與圖4對(duì)標(biāo)的詞分類(lèi)分級(jí)系統(tǒng)以及機(jī)器模型建立系統(tǒng)的各模塊的具 體功能進(jìn)行描述。如圖3所示,圖3是根據(jù)本發(fā)明一實(shí)施例的標(biāo)的詞分類(lèi)分級(jí)方法的示意流程圖。在步驟31中,獲取含標(biāo)的詞分類(lèi)分級(jí)的機(jī)器模型11。在步驟32中,由特征提取模塊12獲取新標(biāo)的詞。新標(biāo)的詞可由用戶(hù)進(jìn)行輸入,也 可由其他方法獲得。在步驟33中,由特征提取模塊12對(duì)新標(biāo)的詞進(jìn)行特征提取。在對(duì)新標(biāo)的詞進(jìn)行 特征提取的時(shí)候,需要先對(duì)新標(biāo)的詞進(jìn)行分詞。分詞的方法包括正向匹配分詞、反向匹配 分詞、正向反向匹配分詞、基于全切分詞圖的分詞,最大熵馬爾科夫模型分詞、最大熵分詞 或條件隨機(jī)場(chǎng)分詞。下面以正向最大匹配分詞和反向最大匹配分詞為例進(jìn)行詳細(xì)說(shuō)明。例如“今天來(lái) 了許多新同事”,使用正向最大匹配方式,最大長(zhǎng)度為5,那么便從句首開(kāi)始數(shù)5個(gè)字今天 來(lái)了許。而這5個(gè)字并不是一個(gè)詞語(yǔ),于是去掉最后一個(gè)字,便成為了 今天來(lái)了。仍舊不 是一個(gè)詞,繼續(xù)去掉最后一個(gè)字,依次類(lèi)推今天來(lái);今天;得到一個(gè)詞今天。來(lái)了許多新; 來(lái)了許多;來(lái)了許;來(lái)了 ;來(lái);得到一個(gè)詞來(lái)。了許多新同;了許多新;了許多;了許;了 ; 得到一個(gè)詞了。許多新同事;許多新同;許多新;許多;得到一個(gè)詞許多。新同事;新同; 新;得到一個(gè)詞新。同事;得到一個(gè)詞同事。最后正向最大匹配的結(jié)果是/今天/來(lái)/ 了 /許多/新/同事八而反向最大匹配方式,最大長(zhǎng)度設(shè)定同樣為5,那么則是許多新同 事;多新同事;新同事;同事;得到一個(gè)詞同事。依此類(lèi)推,最后反向最大匹配的結(jié)果是/ 今天/來(lái)/ 了 /許多/新/同事八但要注意的是,正向最大匹配和反向最大匹配的結(jié)果并 不一定相同。例如“我一個(gè)人吃飯”,最大長(zhǎng)度設(shè)定為5,正向最大匹配方式得到的結(jié)果是 /我/ 一個(gè)/人/吃飯/,而反向最大匹配方式得到的結(jié)果則是/我/ 一 /個(gè)人/吃飯八 由此可見(jiàn),不同的分詞方法可能導(dǎo)致標(biāo)的詞的特征提取結(jié)果的不同。在步驟34中,獲取在步驟33中所提取出的新標(biāo)的詞特征。
在步驟35中,應(yīng)用在步驟31中獲得的機(jī)器模型對(duì)步驟34中所獲取的新標(biāo)的詞的 特征進(jìn)行計(jì)算(計(jì)算的細(xì)節(jié)將在下文中進(jìn)行介紹)。在其他實(shí)施例中,可應(yīng)用在步驟31中 獲得的機(jī)器模型對(duì)步驟34中所獲取的新標(biāo)的詞的特征進(jìn)行模型匹配。在步驟36中,由計(jì)算模塊13根據(jù)步驟34中新標(biāo)的詞的特征進(jìn)行計(jì)算的置信得分 確定新標(biāo)的詞的分類(lèi)分級(jí)。如圖4所示 ,圖4是圖3所示的機(jī)器模型建立方法的示意流程圖。此機(jī)器模型即 為步驟31中所建立的機(jī)器模型。在步驟41中,由樣本庫(kù)獲取模塊21獲取在先標(biāo)的詞的樣本庫(kù)。該在先標(biāo)的詞同時(shí) 帶有該標(biāo)的詞的廣告點(diǎn)擊率等信息。該廣告點(diǎn)擊率例如可以是過(guò)去一段時(shí)間的統(tǒng)計(jì)結(jié)果。在步驟42中,由樣本分類(lèi)分級(jí)模塊22將在先標(biāo)的詞進(jìn)行正負(fù)樣本分類(lèi),分為至少 一個(gè)正樣本和一個(gè)負(fù)樣本,并對(duì)正樣本進(jìn)行分級(jí)。正樣本挑選實(shí)施方式主要包括選擇廣告 點(diǎn)擊率高的標(biāo)的詞、選擇廣告價(jià)格高的標(biāo)的詞、綜合考慮前兩個(gè)條件進(jìn)行選擇。負(fù)樣本挑選 實(shí)施方式主要包括廣告點(diǎn)擊率低的標(biāo)的詞、廣告價(jià)格低的標(biāo)的詞、無(wú)廣告展現(xiàn)的標(biāo)的詞、 綜合前三個(gè)條件新型選擇。也可以理解為,正樣本中的標(biāo)的詞是直接或間接創(chuàng)造了高價(jià)值 的標(biāo)的詞,而負(fù)樣本中的標(biāo)的詞則是未直接或間接創(chuàng)造價(jià)值或創(chuàng)造價(jià)值低的標(biāo)的詞。為了 便于說(shuō)明,下面簡(jiǎn)單列舉一組正負(fù)樣本的例子。例如,現(xiàn)有“盼盼到家,安居樂(lè)業(yè)”、“用步陽(yáng),我放心”、“美心門(mén),美滿(mǎn)心意”與“流行
防盜小竅門(mén)”四組關(guān)鍵詞。很明顯,前三個(gè)關(guān)鍵詞都是品牌防盜門(mén)的廣告語(yǔ),都具有一定的 價(jià)值,尤其是商業(yè)價(jià)值。因此“盼盼到家,安居樂(lè)業(yè)”、“用步陽(yáng),我放心”、“美心門(mén),美滿(mǎn)心意” 被分為正樣本。而“流行防盜小竅門(mén)”的價(jià)值便很低,尤其是并無(wú)商業(yè)價(jià)值。因此,“流行防 盜小竅門(mén)”便被劃分至負(fù)樣本。確切的說(shuō),在步驟42中,通過(guò)讀取預(yù)設(shè)的樣本數(shù)據(jù)庫(kù)對(duì)至少部分的在先標(biāo)的詞進(jìn) 行正負(fù)樣本的分類(lèi)以及正樣本的分級(jí)。當(dāng)然,這其中包括由計(jì)算機(jī)根據(jù)標(biāo)的詞的廣告點(diǎn)擊 率、廣告額、廣告排名等統(tǒng)計(jì)標(biāo)準(zhǔn)進(jìn)行正負(fù)樣本分類(lèi),以及由人工操作對(duì)在先標(biāo)的詞進(jìn)行正 負(fù)樣本的分類(lèi)以及正樣本的分級(jí)。由于廣告點(diǎn)擊率與廣告系統(tǒng)的廣告展現(xiàn)策略高度相關(guān), 一些明顯具有價(jià)值但暫時(shí)未得到有效廣告展現(xiàn)的標(biāo)的詞被認(rèn)為是負(fù)樣本是不合理的,而采 用人工分類(lèi)分級(jí)進(jìn)行輔助則可以很好的解決這類(lèi)問(wèn)題。在這里詳細(xì)解說(shuō)一下在步驟42中所提到過(guò)的對(duì)正樣本進(jìn)行分級(jí),根據(jù)分級(jí)等級(jí) 的不同分為至少兩個(gè)等級(jí)樣本。分級(jí)等級(jí)高低根據(jù)標(biāo)的詞的廣告點(diǎn)擊率或/和廣告價(jià)格 的高低來(lái)判定。一般的,等級(jí)樣本包括A等樣本、B等樣本和C等樣本;或包括A等樣本、B 等樣本、C等樣本和D等樣本;或包括A等樣本、B等樣本、C等樣本、D等樣本和E等樣本。 其中,A等樣本中的標(biāo)的詞是廣告點(diǎn)擊率或/和廣告價(jià)格最高的,因此A等樣本分級(jí)等級(jí)最 高,其他等級(jí)樣本的分級(jí)等級(jí)依次遞減。這三種等級(jí)樣本在進(jìn)行分級(jí)的時(shí)候可以保證準(zhǔn)確 度,并且不會(huì)耗費(fèi)太大的計(jì)算量。若所分等級(jí)過(guò)多,則增加計(jì)算量,并且導(dǎo)致各等級(jí)之間界 限模糊。如對(duì)上文所提到示例樣本組進(jìn)行分級(jí),“盼盼到家,安居樂(lè)業(yè)”的價(jià)值很高,因此被 分為A等樣本?!坝貌疥?yáng),我放心”的價(jià)值中等,因此被分為B等樣本。而由于“美心門(mén),美 滿(mǎn)心意”的價(jià)值較低,因此被分為C等樣本。在對(duì)正樣本進(jìn)行分級(jí)時(shí),可由人工操作來(lái)對(duì)正樣本的分級(jí)產(chǎn)生一定的影響。比如 某個(gè)標(biāo)的詞價(jià)值很高,但廣告點(diǎn)擊等數(shù)據(jù)卻并非很高,則人為的將其分至A等樣本。但同一個(gè)標(biāo)的詞,在不同人操作的時(shí)候,很可能被分配到不同的等級(jí)樣本中,導(dǎo)致在等級(jí)樣本分類(lèi) 分級(jí)的過(guò)程中人工操作的錯(cuò)誤率會(huì)比較大,因此人工操作配合計(jì)算機(jī)識(shí)別對(duì)各種數(shù)據(jù)(比 如已有廣告點(diǎn)擊率、廣告額、廣告排名等)進(jìn)行分級(jí)是比較穩(wěn)妥的方法。在步驟43中,由第一樣本特征提取模塊23對(duì)正樣本和負(fù)樣本進(jìn)行特征提取。同 樣的,類(lèi)似步驟33,在步驟43中的特征提取亦會(huì)先進(jìn)行分詞。由于不同的分詞方法可能導(dǎo) 致標(biāo)的詞的特征提取結(jié)果的不同,因此步驟43中的分詞方法優(yōu)選與步驟33所使用的分詞 方法相同。比如對(duì)上文所提到示例樣本組進(jìn)行特征提取,可對(duì)應(yīng)的特征 /盼盼/到家/安 居樂(lè)業(yè)/、/用/步陽(yáng)/我/放心/、/美心/門(mén)/美滿(mǎn)/心意八在步驟44中,由機(jī)器模型形成模塊24根據(jù)第一樣本特征提取模塊23所提取的正 樣本和負(fù)樣本的特征進(jìn)行機(jī)器建模,進(jìn)一步形成機(jī)器模型。機(jī)器建模過(guò)程可以采用機(jī)器學(xué) 習(xí)的方式,也可以采用數(shù)學(xué)歸納、概率統(tǒng)計(jì)等多種方式實(shí)現(xiàn)。下面以機(jī)器學(xué)習(xí)為例進(jìn)行詳細(xì) 說(shuō)明。機(jī)器學(xué)習(xí)(Machine Learning)是研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以 獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。機(jī)器學(xué)習(xí)系統(tǒng) 獲取的知識(shí)可能有行為規(guī)則、物理對(duì)象的描述、問(wèn)題求解策略、各種分類(lèi)分級(jí)及其它用于 任務(wù)實(shí)現(xiàn)的知識(shí)類(lèi)型。下面以機(jī)器學(xué)習(xí)的幾大類(lèi)別中的歸納學(xué)習(xí)來(lái)舉例。歸納學(xué)習(xí)是由教 師或環(huán)境提供某概念的一些實(shí)例或反例,讓學(xué)生通過(guò)歸納推理得出該概念的一般描述。比 如,我們提供正樣本特征與負(fù)樣本特征,由機(jī)器來(lái)歸納推理,得出正樣本概念的一般描述與 負(fù)樣本概念的一般描述,進(jìn)一步使其具有分析其他樣本特征是否為正樣本或負(fù)樣本。在建 立機(jī)器模型時(shí),可使用最大熵模型分類(lèi)器。除此之外,SVM(support vector machine,支持 向量機(jī))、Boosting等分類(lèi)器可用達(dá)到近似效果。在步驟45中,由第二樣本特征提取模塊25將未在步驟42中進(jìn)行正負(fù)樣本的分類(lèi) 分級(jí)的在先標(biāo)的詞的樣本庫(kù)的部分進(jìn)行特征提取,獲取剩余標(biāo)的詞樣本特征。此步驟與步 驟43類(lèi)似,區(qū)別點(diǎn)是此步驟45對(duì)步驟41中所獲取的在先標(biāo)的詞的樣本庫(kù)中未在步驟42 中進(jìn)行正負(fù)樣本的分類(lèi)分級(jí)的剩余標(biāo)的詞進(jìn)行特征提取。雖然人工操作進(jìn)行正負(fù)樣本的分 類(lèi)分級(jí)能夠增加一定的分類(lèi)分級(jí)準(zhǔn)確度,但若步驟41中所獲取的在先標(biāo)的詞的數(shù)量過(guò)多, 則完全由人工進(jìn)行正負(fù)樣本分類(lèi)的話(huà)會(huì)有很大的工作量,并且可能會(huì)造成工作時(shí)間過(guò)長(zhǎng), 成本過(guò)高等問(wèn)題。因此,先由人來(lái)進(jìn)行一部分標(biāo)的詞的分類(lèi)分級(jí),其余的標(biāo)的詞交由機(jī)器分 類(lèi)分級(jí),是一個(gè)省時(shí)省力而又不失準(zhǔn)確性的方法。在步驟46中,由樣本計(jì)算模塊26根據(jù)機(jī)器模型對(duì)剩余標(biāo)的詞樣本特征進(jìn)行計(jì)算, 進(jìn)而進(jìn)行分類(lèi)分級(jí)。在其他實(shí)施例中,可由樣本計(jì)算模塊26根據(jù)機(jī)器模型對(duì)剩余標(biāo)的詞樣 本特征進(jìn)行模型匹配,進(jìn)而進(jìn)行分類(lèi)分級(jí)。此步驟進(jìn)行的便是將剩余標(biāo)的詞交由機(jī)器分類(lèi) 分級(jí),節(jié)省大量的人力,卻依舊能保證一定的準(zhǔn)確度。并且,將分類(lèi)分級(jí)后的剩余標(biāo)的詞樣 本特征添加到機(jī)器模型,使其進(jìn)一步完善。如圖3和圖4所示,在步驟35中,對(duì)新標(biāo)的詞的特征進(jìn)行計(jì)算時(shí),即將標(biāo)的詞的特 征根據(jù)機(jī)器模型訓(xùn)練好的特征參數(shù)進(jìn)行正負(fù)類(lèi)置信度得分計(jì)算。若標(biāo)的詞的特征基于機(jī)器 模型參數(shù)計(jì)算得到的正樣本類(lèi)的置信得分高于負(fù)樣本類(lèi)的置信得分,則在步驟36中將此 標(biāo)的詞分為有價(jià)值的一類(lèi);若標(biāo)的詞的特征基于機(jī)器模型參數(shù)計(jì)算得到的負(fù)樣本類(lèi)的置信 得分高于正樣本類(lèi)的置信得分,,則在步驟36中將其分為無(wú)價(jià)值或低價(jià)值的一類(lèi)。類(lèi)似的,在步驟46中,對(duì)剩余標(biāo)的詞樣本特征進(jìn)行計(jì)算,方法為將剩余標(biāo)的詞的特征根據(jù)機(jī)器模型訓(xùn)練好的特征參數(shù)進(jìn)行正負(fù)類(lèi)置信度得分計(jì)算。例如,“使用XX,包您安心”與“預(yù)防流感小 竅門(mén)”?!笆褂肵X,包您安心”的正樣本類(lèi)置信得分很高,因此被劃為有價(jià)值的標(biāo)的詞。而“預(yù) 防流感小竅門(mén)”的負(fù)樣本類(lèi)的置信得分高,因此被劃分為無(wú)價(jià)值或低價(jià)值的一類(lèi)。若在步驟 42的分類(lèi)分級(jí)中,只將在先標(biāo)的詞分為正負(fù)樣本,而不對(duì)正樣本進(jìn)行等級(jí)分類(lèi)分級(jí),則在步 驟36中則為粗略評(píng)估,若將正樣本進(jìn)行等級(jí)分類(lèi)分級(jí),則在步驟36中則為詳細(xì)評(píng)估。下面以正樣本的等級(jí)樣本包括A等樣本、B等樣本和C等樣本的情況來(lái)對(duì)詳細(xì)評(píng) 估進(jìn)行講解。正樣本劃分出三個(gè)等級(jí)樣本后,在機(jī)器模型中也會(huì)包括4種模型參數(shù),A等樣 本特征模型參數(shù)、B等樣本特征模型參數(shù)、C等樣本特征模型參數(shù)與負(fù)樣本特征模型參數(shù)。 在步驟36中,一種分類(lèi)分級(jí)方式是,根據(jù)標(biāo)的詞樣本特征分別基于各類(lèi)模型參數(shù)計(jì)算相應(yīng) 類(lèi)別的置信得分。哪類(lèi)的置信得分高,則將其分配至哪個(gè)等級(jí)。例如一個(gè)標(biāo)的詞的特征在 A類(lèi)的置信得分為0. 12,在B類(lèi)的置信得分為0. 63,在C類(lèi)的置信得分為0. 17。由于該標(biāo) 的詞對(duì)應(yīng)B樣本特征模型的打分最高,為0. 63分,則將此標(biāo)的詞分為B等。除上述分類(lèi)分 級(jí)方式之外,還可使用其他常用的復(fù)雜的分類(lèi)分級(jí)方式。如圖5所示,圖5是根據(jù)本發(fā)明另一實(shí)施例的機(jī)器模型的示意流程圖。在步驟51中,獲取在先標(biāo)的詞的樣本庫(kù)。該在先標(biāo)的詞同時(shí)帶有該標(biāo)的詞的廣告 點(diǎn)擊率等信息。該點(diǎn)擊率例如可以是過(guò)去一段時(shí)間的統(tǒng)計(jì)結(jié)果。在步驟52中,對(duì)正負(fù)樣本進(jìn)行分類(lèi),將在先標(biāo)的詞根據(jù)分級(jí)等級(jí)的不同分成多個(gè) 不同等級(jí)的正樣本與負(fù)樣本。分級(jí)等級(jí)高低根據(jù)標(biāo)的詞的廣告點(diǎn)擊率或/和廣告價(jià)格的高 低來(lái)判定。在步驟53中,獲取多個(gè)不同等級(jí)的正樣本。對(duì)多個(gè)不同等級(jí)的正樣本的描述詳見(jiàn) 上文中步驟42中所描述的對(duì)正樣本進(jìn)行分級(jí)的部分。在步驟54中,獲取負(fù)樣本。當(dāng)然,有時(shí)會(huì)存在某些在先標(biāo)的詞即未被劃分為正樣 本又未被劃分為負(fù)樣本。在步驟55中,對(duì)正樣本與負(fù)樣本進(jìn)行特征提取。同樣的,類(lèi)似步驟33,在步驟55 中的特征提取亦會(huì)先進(jìn)行分詞。在步驟56中,獲取多個(gè)正樣本特征。每一個(gè)不同級(jí)別的正樣本都會(huì)獲得相應(yīng)的正 樣本特征。在步驟57中,獲取負(fù)樣本特征。在步驟58中,對(duì)多個(gè)正樣本特征與負(fù)樣本特征進(jìn)行機(jī)器建模。在步驟59中,形成機(jī)器模型。需要說(shuō)明的是,上述步驟在實(shí)務(wù)操作中可以適當(dāng)變形,比如,在步驟52中,對(duì)正負(fù) 樣本分類(lèi)也可以采用先確定多個(gè)正樣本,然后再在整個(gè)樣本庫(kù)中減去多個(gè)正樣本進(jìn)而得出 負(fù)樣本。通過(guò)上述方式,可對(duì)已有的檢索關(guān)鍵詞和廣告拍賣(mài)詞進(jìn)行分類(lèi)分級(jí)統(tǒng)計(jì),建立機(jī) 器模型,從而對(duì)新的關(guān)鍵詞或拍賣(mài)詞,進(jìn)行機(jī)器自動(dòng)識(shí)別、分析與評(píng)價(jià),實(shí)現(xiàn)了一套標(biāo)的詞 分類(lèi)分級(jí)方法及系統(tǒng)。采用該機(jī)器模型的分類(lèi)分級(jí)方法,不但可以對(duì)標(biāo)的詞進(jìn)行價(jià)值(比 如廣告點(diǎn)擊率)有無(wú)的判斷,還可以對(duì)價(jià)值的高低的進(jìn)行分級(jí)預(yù)估。在上述實(shí)施例中,僅對(duì)本發(fā)明實(shí)施例進(jìn)行了示范性描述,但是本領(lǐng)域技術(shù)人員在閱讀本專(zhuān)利申請(qǐng)后可以在不脫離本發(fā)明的精神和范圍的 情況下對(duì)本發(fā)明進(jìn)行各種修改。
權(quán)利要求
一種標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,所述標(biāo)的詞分類(lèi)分級(jí)方法包括步驟a.獲取含標(biāo)的詞分類(lèi)分級(jí)的機(jī)器模型;b.對(duì)新標(biāo)的詞進(jìn)行特征提??;以及c.根據(jù)所提取的所述新標(biāo)的詞的特征,應(yīng)用所述機(jī)器模型進(jìn)行計(jì)算,確定所述新標(biāo)的詞的分類(lèi)分級(jí)。
2.根據(jù)權(quán)利要求1所述的標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,所述計(jì)算的方法為將所 述新標(biāo)的詞的特征根據(jù)機(jī)器模型訓(xùn)練好的特征參數(shù)進(jìn)行正負(fù)類(lèi)置信度得分計(jì)算。
3.根據(jù)權(quán)利要求1所述的標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,步驟a進(jìn)一步包括步驟 al.獲取在先標(biāo)的詞的樣本庫(kù);a2.對(duì)所述在先標(biāo)的詞進(jìn)行正負(fù)樣本分類(lèi),將所述在先標(biāo)的詞分為至少一個(gè)正樣本和 一個(gè)負(fù)樣本;a3.對(duì)所述正樣本和所述負(fù)樣本進(jìn)行特征提取;a4.根據(jù)所提取的所述正樣本和所述負(fù)樣本的特征形成所述機(jī)器模型。
4.根據(jù)權(quán)利要求3所述的標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,所述正樣本包括廣告點(diǎn) 擊率高或/和廣告價(jià)格高的標(biāo)的詞;所述負(fù)樣本包括廣告點(diǎn)擊率低的標(biāo)的詞、廣告價(jià)格低 的標(biāo)的詞或無(wú)廣告展現(xiàn)的標(biāo)的詞中的一種或幾種的組合。
5.根據(jù)權(quán)利要求3所述的標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,在所述步驟a2中,進(jìn)一步 包括對(duì)所述正樣本進(jìn)行分級(jí),將所述在先標(biāo)的詞分為多個(gè)不同等級(jí)的正樣本和負(fù)樣本。
6.根據(jù)權(quán)利要求5所述的標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,在所述步驟a2中,通過(guò)讀 取預(yù)設(shè)的樣本數(shù)據(jù)庫(kù)對(duì)至少部分的所述在先標(biāo)的詞進(jìn)行正負(fù)樣本的分類(lèi)以及正樣本的分 級(jí)。
7.根據(jù)權(quán)利要求6所述的標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,在步驟a4中,對(duì)所述正樣 本和所述負(fù)樣本的特征進(jìn)行機(jī)器建模,從而形成所述機(jī)器模型。
8.根據(jù)權(quán)利要求6所述的標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,所述正樣本進(jìn)一步根據(jù) 分級(jí)等級(jí)的不同分為至少兩個(gè)等級(jí)樣本。
9.根據(jù)權(quán)利要求8所述的標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,所述等級(jí)樣本包括A等 樣本、B等樣本和C等樣本,或包括A等樣本、B等樣本、C等樣本和D等樣本,或包括A等樣 本、B等樣本、C等樣本、D等樣本和E等樣本;其中,A等樣本的分級(jí)等級(jí)最高,其他所述等 級(jí)樣本的分級(jí)等級(jí)依次遞減。
10.根據(jù)權(quán)利要求9所述的標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,所述分級(jí)等級(jí)高低根據(jù) 所述標(biāo)的詞的廣告點(diǎn)擊率或/和廣告價(jià)格的高低來(lái)判定。
11.根據(jù)權(quán)利要求8所述的標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,所述步驟a進(jìn)一步包括a5.對(duì)未在所述步驟a2中進(jìn)行樣本分類(lèi)分級(jí)的所述在先標(biāo)的詞進(jìn)行特征提??; a6.根據(jù)所述機(jī)器模型對(duì)所獲取的所述剩余標(biāo)的詞的特征進(jìn)行計(jì)算,進(jìn)而進(jìn)行分類(lèi)分 級(jí),并將分類(lèi)分級(jí)后的所述剩余標(biāo)的詞樣本特征添加到所述機(jī)器模型。
12.根據(jù)權(quán)利要求11所述的標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,在步驟a6中,對(duì)所述剩 余標(biāo)的詞的特征進(jìn)行計(jì)算的方法為將所述剩余標(biāo)的詞的特征根據(jù)所述機(jī)器模型訓(xùn)練好的 特征參數(shù)進(jìn)行正負(fù)類(lèi)置信度得分計(jì)算。
13.根據(jù)權(quán)利要求1、3或11中任意一項(xiàng)所述的標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,在進(jìn) 行所述特征提取時(shí),先進(jìn)行分詞。
14.根據(jù)權(quán)利要求13所述的標(biāo)的詞分類(lèi)分級(jí)方法,其特征在于,所述分詞的方法包括 正向匹配分詞、反向匹配分詞、正向反向匹配分詞、基于全切分詞圖的分詞、最大熵馬爾科 夫模型分詞、最大熵分詞或條件隨機(jī)場(chǎng)分詞。
15.一種標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,所述標(biāo)的詞分類(lèi)分級(jí)系統(tǒng)包括機(jī)器模型,所述機(jī)器模型為含標(biāo)的詞分類(lèi)分級(jí)的機(jī)器模型;特征提取模塊,用于對(duì)新標(biāo)的詞進(jìn)行特征提取;計(jì)算模塊,用于根據(jù)所提取的所述新標(biāo)的詞的特征,應(yīng)用所述機(jī)器模型進(jìn)行計(jì)算,確定 所述新標(biāo)的詞的分類(lèi)分級(jí)。
16.根據(jù)權(quán)利要求15所述的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,在所述計(jì)算模塊中,所 述計(jì)算的方法為將所述新標(biāo)的詞的特征根據(jù)機(jī)器模型訓(xùn)練好的特征參數(shù)進(jìn)行正負(fù)類(lèi)置信 度得分計(jì)算。
17.根據(jù)權(quán)利要求15所述的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,所述機(jī)器模型包括樣本庫(kù)獲取模塊,用于獲取在先標(biāo)的詞的樣本庫(kù);樣本分類(lèi)分級(jí)模塊,用于對(duì)所述在先標(biāo)的詞進(jìn)行正負(fù)樣本分類(lèi),將所述在先標(biāo)的詞分 為至少一個(gè)正樣本及一個(gè)負(fù)樣本;第一樣本特征提取模塊,對(duì)所述正樣本和所述負(fù)樣本進(jìn)行特征提??;機(jī)器模型形成模塊,根據(jù)所提取的所述正樣本和所述負(fù)樣本的特征形成所述機(jī)器模型。
18.根據(jù)權(quán)利要求17所述的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,所述正樣本包括廣告 點(diǎn)擊率高或/和廣告價(jià)格高的標(biāo)的詞;所述負(fù)樣本包括廣告點(diǎn)擊率低的標(biāo)的詞、廣告價(jià)格 低的標(biāo)的詞或無(wú)廣告展現(xiàn)的標(biāo)的詞中的一種或幾種的組合。
19.根據(jù)權(quán)利要求17所述的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,所述樣本分類(lèi)分級(jí)模 塊進(jìn)一步對(duì)所述正樣本進(jìn)行分級(jí),將所述在先標(biāo)的詞分為多個(gè)不同等級(jí)的正樣本和負(fù)樣 本。
20.根據(jù)權(quán)利要求19所述的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,在所述樣本分類(lèi)分級(jí) 模塊中,通過(guò)讀取預(yù)設(shè)的樣本數(shù)據(jù)庫(kù)對(duì)至少部分的所述在先標(biāo)的詞進(jìn)行正負(fù)樣本的分類(lèi)以 及正樣本的分級(jí)。
21.根據(jù)權(quán)利要求20所述的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,在所述機(jī)器模型形成 模塊中,對(duì)所述正樣本和所述負(fù)樣本的特征進(jìn)行機(jī)器建模,從而形成所述機(jī)器模型。
22.根據(jù)權(quán)利要求21所述的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,在所述樣本分類(lèi)分級(jí) 模塊中,所述正樣本進(jìn)一步根據(jù)分級(jí)等級(jí)的不同分為至少兩個(gè)等級(jí)樣本。
23.根據(jù)權(quán)利要求22所述的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,所述等級(jí)樣本包括A等 樣本、B等樣本和C等樣本,或包括A等樣本、B等樣本、C等樣本和D等樣本,或包括A等樣 本、B等樣本、C等樣本、D等樣本和E等樣本;其中,A等樣本的分級(jí)等級(jí)最高,其他所述等 級(jí)樣本的分級(jí)等級(jí)依次遞減。
24.根據(jù)權(quán)利要求22所述的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,所述分級(jí)等級(jí)高低根 據(jù)所述標(biāo)的詞的廣告點(diǎn)擊率或/和廣告價(jià)格的高低來(lái)判定。
25.根據(jù)權(quán)利要求22所述的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,所述機(jī)器模型進(jìn)一步 包括第二樣本特征提取模塊,用于對(duì)未在所述樣本分類(lèi)分級(jí)模塊中進(jìn)行樣本分類(lèi)分級(jí)的所 述在先標(biāo)的詞中的剩余標(biāo)的詞進(jìn)行特征提??;樣本計(jì)算模塊,用于根據(jù)所述機(jī)器模型對(duì)所獲取的所述剩余標(biāo)的詞的特征進(jìn)行計(jì)算, 進(jìn)而進(jìn)行分類(lèi)分級(jí),并將分類(lèi)分級(jí)后的所述剩余標(biāo)的詞樣本特征添加到所述機(jī)器模型。
26.根據(jù)權(quán)利要求25所述的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,在所述樣本計(jì)算模塊 中,對(duì)所述剩余標(biāo)的詞的特征進(jìn)行計(jì)算的方法為將所述剩余標(biāo)的詞的特征根據(jù)所述機(jī)器模 型訓(xùn)練好的特征參數(shù)進(jìn)行正負(fù)類(lèi)置信度得分計(jì)算。
27.根據(jù)權(quán)利要求14、16或25所述的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,進(jìn)行特征提取 時(shí),先進(jìn)行分詞。
28.根據(jù)權(quán)利要求27所述的標(biāo)的詞分類(lèi)分級(jí)系統(tǒng),其特征在于,所述分詞的方法包括 正向匹配分詞、反向匹配分詞、正向反向匹配分詞、基于全切分詞圖的分詞、最大熵馬爾科 夫模型分詞、最大熵分詞或條件隨機(jī)場(chǎng)分詞。
全文摘要
本發(fā)明實(shí)施例提供了一種標(biāo)的詞分類(lèi)分級(jí)方法及系統(tǒng)。該方法包括步驟a.獲取含標(biāo)的詞分類(lèi)分級(jí)的機(jī)器模型;b.對(duì)新標(biāo)的詞進(jìn)行特征提??;以及c.根據(jù)所提取的新標(biāo)的詞的特征,應(yīng)用機(jī)器模型進(jìn)行計(jì)算,確定新標(biāo)的詞的分類(lèi)分級(jí)。本發(fā)明實(shí)施例通過(guò)對(duì)已有的檢索關(guān)鍵詞和廣告拍賣(mài)詞進(jìn)行分類(lèi)分級(jí)統(tǒng)計(jì),建立機(jī)器模型,從而對(duì)新的關(guān)鍵詞或拍賣(mài)詞進(jìn)行機(jī)器自動(dòng)識(shí)別、分析與評(píng)價(jià),實(shí)現(xiàn)了一套標(biāo)的詞分類(lèi)分級(jí)方法及系統(tǒng)。
文檔編號(hào)G06F17/30GK101980210SQ20101054237
公開(kāi)日2011年2月23日 申請(qǐng)日期2010年11月12日 優(yōu)先權(quán)日2010年11月12日
發(fā)明者萬(wàn)偉, 田 浩 申請(qǐng)人:百度在線(xiàn)網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1