選擇待測(cè)描述文本,通過(guò)使用訓(xùn)練得到的屬性詞識(shí)別模型,可W計(jì)算出待 測(cè)描述文本屬于不同的屬性詞集合W及各屬性詞的類型的概率,選擇概率最大值所對(duì)應(yīng)的 屬性詞集合W及各屬性詞的類型作為該待測(cè)描述文本的屬性詞集合W及各屬性詞的類型。
[0070] 通過(guò)步驟201至步驟203,可W有效挖掘得到數(shù)據(jù)對(duì)象的描述文本的屬性詞的文 本結(jié)果W及與各屬性詞相對(duì)應(yīng)的類型。但是,通過(guò)通用CRF模型訓(xùn)練得到的屬性詞識(shí)別模 型無(wú)法處理屬性詞固有的歧義性問(wèn)題。例如,在電子產(chǎn)品的上下文中,"蘋果"該個(gè)文本是一 個(gè)品牌詞;但在水果的上下文中,"蘋果"該個(gè)文本是一個(gè)產(chǎn)品詞。又例如,"皿"在化妝品 的上下文中,是一個(gè)品牌詞(的縮寫);但在教育的上下文中,"HR"該個(gè)文本又是一個(gè)普通 詞。因此,通過(guò)下面的步驟204和步驟205,可W解決屬性詞識(shí)別模型無(wú)法處理的屬性詞固 有的歧義性問(wèn)題。
[0071] 在步驟204,根據(jù)所述屬性詞和與所述屬性詞相對(duì)應(yīng)的類型,計(jì)算有共性關(guān)系的屬 性詞之間的條件概率。
[0072] 將步驟203得到的結(jié)果,即描述文本的切分后的屬性詞和與所述屬性詞相對(duì)應(yīng)的 類型,組織成異構(gòu)網(wǎng)絡(luò)圖模型的形式。具體來(lái)說(shuō),將其中的每一個(gè)類型映射為一個(gè)節(jié)點(diǎn),將 屬性詞在各類型之間的共現(xiàn)關(guān)系映射為節(jié)點(diǎn)之間的邊。例如,圖6是根據(jù)本申請(qǐng)一個(gè)實(shí)施 例的異構(gòu)網(wǎng)絡(luò)圖的示意圖。如圖6所示,將屬性詞分為H個(gè)類型,品牌,產(chǎn)品,型號(hào)。不同的 類型用不同的節(jié)點(diǎn)來(lái)表示。邊的權(quán)重為兩個(gè)屬性詞之間的條件概率。例如,在圖6中,bi= "蘋果(品牌)"到dj.="手機(jī)(產(chǎn)品)"的邊的權(quán)重為:
[0073]
[0074] 即出現(xiàn)bi的前提下,dj發(fā)生的概率。同理,可W計(jì)算出dj="手機(jī)(產(chǎn)品)"到bi =''蘋果(品牌)"的邊的權(quán)重P也咕),即dj出現(xiàn)的前提下,bi發(fā)生的概率。
[0075]在步驟205,根據(jù)屬性詞識(shí)別模型,結(jié)合有共性關(guān)系的屬性詞之間的條件概率,進(jìn) 行優(yōu)化的屬性詞識(shí)別模型的訓(xùn)練,W得到優(yōu)化的屬性詞識(shí)別模型。
[0076]將上述異構(gòu)網(wǎng)絡(luò)和CRF進(jìn)行集成,得到如下優(yōu)化后的CRF網(wǎng)絡(luò)圖模型:
[0077]
[0078] 其中,G為步驟204生成的異構(gòu)網(wǎng)絡(luò)圖的子圖,如圖7所示,其由當(dāng)前觀測(cè)序列 X二口1, X2, , XtI在步驟203中得到的所有可能的類型節(jié)點(diǎn)組成。例如,圖8為根據(jù)本 申請(qǐng)一個(gè)實(shí)施例的商品標(biāo)題為"包郵送豪禮Apple/蘋果手機(jī)iphoneSs國(guó)行現(xiàn)貨,超值電 信"對(duì)應(yīng)的子圖。Yk是待學(xué)習(xí)的參數(shù),gk(Xi,Yi,G)是當(dāng)前類型節(jié)點(diǎn)y,在異構(gòu)網(wǎng)絡(luò)圖G中 的特征,該特征可W提取的特征包括:
[0079]Dy;在G中的入度
[0080] 例如,在圖8所示的例子中,該特征的定義和相對(duì)應(yīng)的特征取值可W為:
[0081]
[0082] 2)y;在G中入邊上的最大權(quán)重值
[008引例如,在圖表8所示的例子中,該特征的定義和相對(duì)應(yīng)的特征取值可W為:
[0084]
[0085] 3) y;在G中入邊上的平均權(quán)重值
[0086]例如,在圖表8所示的例子中,該特征的定義和相對(duì)應(yīng)的特征取值可W為:
[0087]
[008引 4)在G中,y;類型相同的節(jié)點(diǎn)個(gè)數(shù)
[0089] 例如,在圖表8所示的例子中,該特征的定義和相對(duì)應(yīng)的特征取值可W為:
[0090]
[0091] 在得到屬性詞識(shí)別模型的基礎(chǔ)上,從樣本描述文本的子圖中提取上述特征作為樣 本特征,利用上述優(yōu)化后的CRF模型進(jìn)行訓(xùn)練,可W得到待學(xué)習(xí)的參數(shù)Yk,從而得到優(yōu)化的 屬性詞識(shí)別模型。
[0092] 在步驟206,使用優(yōu)化的屬性詞識(shí)別模型,獲取待測(cè)描述文本的屬性詞和與屬性詞 相對(duì)應(yīng)的類型。
[0093] 在該個(gè)步驟中,所輸入的特征與步驟205中的模型訓(xùn)練的特征相同,可W從數(shù)據(jù) 庫(kù)中或用戶日志中搜索詞中選擇待測(cè)描述文本,可W計(jì)算出待測(cè)描述文本屬于不同的屬性 詞集合W及各屬性詞的類型的概率,選擇概率最大值所對(duì)應(yīng)的屬性詞集合W及各屬性詞的 類型作為該待測(cè)描述文本的屬性詞集合W及各屬性詞的類型。與未優(yōu)化的屬性詞識(shí)別模型 相比,優(yōu)化的屬性詞識(shí)別模型可W解決屬性詞中存在的歧義性問(wèn)題。通過(guò)使用優(yōu)化的屬性 詞識(shí)別模型,可W更準(zhǔn)確地確定每一個(gè)描述文本中各屬性詞所對(duì)應(yīng)的類型。
[0094] 至此,描述了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的優(yōu)化的屬性詞識(shí)別模型的訓(xùn)練方法200的 流程圖。本方法200根據(jù)描述文本和切分并標(biāo)注過(guò)的屬性詞的集合,用CRF模型進(jìn)行機(jī)器 學(xué)習(xí)的訓(xùn)練,得到屬性詞識(shí)別模型。并且,在屬性詞識(shí)別模型的基礎(chǔ)上,通過(guò)優(yōu)化CRF模型, 得到優(yōu)化的屬性詞識(shí)別模型,從而有效解決了屬性詞識(shí)別模型無(wú)法處理的屬性詞固有的歧 義性問(wèn)題。通過(guò)使用優(yōu)化的屬性詞識(shí)別模型,可W得到更加準(zhǔn)確的屬性詞切分和類型標(biāo)注 結(jié)果。
[0095] 圖3是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的同義詞識(shí)別模型訓(xùn)練方法300的流程圖。如圖3 所示,方法300開(kāi)始于步驟301。
[0096] 在步驟301,根據(jù)描述文本的屬性詞和與所述屬性詞相對(duì)應(yīng)的類型,獲取各描述文 本中同一類型的屬性詞。
[0097] 基于上述步驟,可W獲取數(shù)據(jù)庫(kù)和用戶行為日志中的每一個(gè)數(shù)據(jù)對(duì)象的描述文本 的屬性詞及其類型。例如,對(duì)電子商務(wù)系統(tǒng)中的商品標(biāo)題和檢索詞進(jìn)行屬性詞識(shí)別。每 一個(gè)商品可W用該商品標(biāo)題中包含的屬性詞及其類型的集合來(lái)表示;商品a=(ei;ti,62: t2, . . .,6a,其中,6i~6a分別表示商品a包含的屬性詞,ti~tA分別表示與每個(gè)屬性 詞相對(duì)應(yīng)的類型。同樣地,每一個(gè)檢索詞也可W用該檢索詞中包含的屬性詞及其類型的集 合來(lái)表示,例如;檢索詞q={ei;ti,62 . ..,eg;tg},其中,~eg分別表示檢索詞q包 含的屬性詞,ti~分別表示與每個(gè)屬性詞相對(duì)應(yīng)的類型。
[0098] 可W對(duì)每一個(gè)數(shù)據(jù)對(duì)象的描述文本的屬性詞及其類型的集合進(jìn)行掃描,W發(fā)現(xiàn)各 描述文本中存在的一個(gè)W上的同一類型的屬性詞。在步驟302,結(jié)合用戶行為日志,計(jì)算所 述同一類型的屬性詞之間的條件概率。
[0099] 在電子商務(wù)領(lǐng)域中,用戶行為分為兩種,買家行為和賣家行為。賣家行為是指,為 了讓出售的商品被更多的買家檢索到,賣家傾向于將與所出售商品相關(guān)的各種同義詞羅列 在商品的標(biāo)題和商品的屬性值中。例如,為了讓買家能方便的檢索到自己的商品,一個(gè)賣家 會(huì)該樣書寫一個(gè)商品的標(biāo)題;"英國(guó)代購(gòu)化anel香奈兒女包雙C康鵬長(zhǎng)款對(duì)折皮夾羊皮錢 包黑色現(xiàn)貨"。其中"化anel","香奈兒","雙C"是同義詞。買家的行為是指,當(dāng)買家用某個(gè) 屬性詞進(jìn)行搜索時(shí),買家傾向于在搜索結(jié)果中點(diǎn)擊包含與該屬性詞具有相同語(yǔ)義的商品。 例如,當(dāng)買家搜索了 "化anel"時(shí),他傾向于點(diǎn)擊包含與"化anel"具有相同語(yǔ)義的商品,例 女口"香奈兒","雙C"。
[0100] 在該里,關(guān)聯(lián)性有兩種不同類型的定義,一種是由賣家行為定義的關(guān)聯(lián)性,一種是 由買家行為定義的關(guān)聯(lián)性。該兩種關(guān)聯(lián)性可W統(tǒng)一表示為如下的結(jié)構(gòu):
[0101]
[0102] 該里type有兩種可能的取值;seller(賣家)和buyer(買家)。
[010引當(dāng)type為seller(賣家)時(shí),PseiierkiI6j)衡量的是賣家行為中,e;和6j之間的 關(guān)聯(lián)性。目P,ei和ej共同出現(xiàn)在商品標(biāo)題中的條件概率。seller類型的SuppodO函數(shù)的 定義如下:
[0104]Suppo;rtseiier(ei,6j)=同時(shí)出現(xiàn)e;和6j的商品的數(shù)量 [010引 Supportseiier(ej)=出現(xiàn)6j的商品的數(shù)量
[010引當(dāng)type為buyer(買家)時(shí),Pbuyetkilej)衡量買家行為中,e;和ej之間的關(guān)聯(lián) 性。即,搜索了屬性詞的用戶中,有多大比例的用戶點(diǎn)擊了包含的商品。buyer類型 的Support0函數(shù)的定義如下:
[0107]Suppcxrtbuyer(6i,6j)=買家搜索詞中出現(xiàn)6j,且點(diǎn)擊商品中出現(xiàn)e;的點(diǎn)擊日志的數(shù) 量
[010引 Suppcxrtbuyerkj)=買家搜索詞中出現(xiàn)6j的點(diǎn)擊日志的數(shù)量
[0109] 根據(jù)上述公式,可W分別計(jì)算賣家行為和買家行為中,任意兩個(gè)屬性詞和ej之 間的條件概率Pbuyer(eJeP,Pbuyer(ejei),Pseller(ejej.),Pseller咕k),可W將其作為屬性詞 兩兩之間的關(guān)聯(lián)性特征。
[0110] 例如,假設(shè)ej=夏奈爾,e;=香奈兒,則;