亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種同義詞的識(shí)別方法及裝置的制造方法_2

文檔序號(hào):9261390閱讀:來源:國知局
貝詩正品珍珠潤白保濕營養(yǎng)水 lOOg美白補(bǔ)水柔潤保濕",其中"RIBECS"和"伊貝詩"是品牌屬性詞,"保濕營養(yǎng)水"是產(chǎn)品 屬性詞,"珍珠潤白"是材質(zhì)屬性詞,剩余的是普通屬性詞。
[0030] 根據(jù)本申請的一個(gè)實(shí)施例,數(shù)據(jù)對(duì)象的文本描述可W包括數(shù)據(jù)對(duì)象的標(biāo)題和用戶 的檢索詞。
[0031] 本申請通過從數(shù)據(jù)對(duì)象數(shù)據(jù)庫和用戶行為日志中收集數(shù)據(jù)對(duì)象的描述文本作為 樣本,使用例如通用的CRF模型進(jìn)行屬性詞識(shí)別模型的訓(xùn)練,從而得到屬性詞識(shí)別模型。然 后利用訓(xùn)練得到的屬性詞識(shí)別模型,可W獲取數(shù)據(jù)庫和用戶行為日志中的待測描述文本的 屬性詞及其類型。
[0032] 在步驟102,根據(jù)所述屬性詞和與屬性詞相對(duì)應(yīng)的類型,結(jié)合用戶行為日志,計(jì)算 屬性詞之間的關(guān)聯(lián)性。
[0033] 具體而言,基于步驟101,可W獲取數(shù)據(jù)庫和用戶行為日志中的每一個(gè)數(shù)據(jù)對(duì)象的 描述文本的屬性詞及其類型。例如,對(duì)電子商務(wù)系統(tǒng)中的商品標(biāo)題和檢索詞進(jìn)行屬性詞識(shí) 另IJ。每一個(gè)商品可W用該商品標(biāo)題中包含的屬性詞及其類型的集合來表示;商品a= {ei; ti,62韋,...,6a,其中,~6a分別表不商品a包含的屬性詞,ti~tA分別表不與每 個(gè)屬性詞相對(duì)應(yīng)的類型。同樣地,每一個(gè)檢索詞也可W用該檢索詞中包含的屬性詞及其類 型的集合來表示,例如;檢索詞q= {曰1;ti,62 . ..,eg;tg},其中,~eg分別表示檢索 詞q包含的屬性詞,ti~分別表示與每個(gè)屬性詞相對(duì)應(yīng)的類型。
[0034] 在電子商務(wù)領(lǐng)域中,用戶行為通常分為兩種,買家行為和賣家行為。賣家行為是 指,為了讓出售的商品被更多的買家檢索到,賣家傾向于將與所出售商品相關(guān)的各種同義 詞羅列在商品的標(biāo)題和商品的屬性值中。例如,為了讓買家能方便的檢索到自己的商品,一 個(gè)賣家會(huì)該樣書寫一個(gè)商品的標(biāo)題;"英國代購化anel香奈兒女包雙C康鵬長款對(duì)折皮夾 羊皮錢包黑色現(xiàn)貨"。其中"化anel","香奈兒","雙C"是同義詞。買家的行為是指,當(dāng)買 家用某個(gè)屬性詞進(jìn)行搜索時(shí),買家傾向于在搜索結(jié)果中點(diǎn)擊包含與該屬性詞具有相同語義 的商品。例如,當(dāng)買家搜索了"化anel"時(shí),傾向于點(diǎn)擊包含與"化anel"具有相同語義的商 品,例如"香奈兒","雙C"。
[0035] 在該里,關(guān)聯(lián)性有兩種不同類型的定義,一種是由賣家行為定義的關(guān)聯(lián)性,一種是 由買家行為定義的關(guān)聯(lián)性。通過分別計(jì)算買家行為中兩個(gè)屬性詞e;和相互之間的條件 概率Pbuyer(ejej)和Pbuyer(ejk),和賣家行為中兩個(gè)屬性詞和ej相互之間的條件概率 P曰eiier(eJej)和Pseller(ejk),可W得到屬性詞兩兩之間的關(guān)聯(lián)性。
[0036] 需要指出的是,在計(jì)算屬性詞之間的關(guān)聯(lián)性時(shí),要求屬性詞的類型相同。該是因?yàn)?即使兩個(gè)屬性詞之間有很強(qiáng)的關(guān)聯(lián)性,但如果類型不同,則它們之間不能成為同義詞的關(guān) 系。例如,屬性詞"手機(jī)"和屬性詞"蘋果"之間有很強(qiáng)的關(guān)聯(lián)性,但如果他們的類型不同, 則不能成為同義詞。
[0037] 在步驟103,根據(jù)從屬性詞中選擇的樣本屬性詞之間的關(guān)聯(lián)性特征和樣本屬性詞 之間的文本特征,進(jìn)行同義詞識(shí)別模型的訓(xùn)練,W得到同義詞識(shí)別模型。
[0038] 具體而言,對(duì)于任意兩個(gè)屬性詞61,和e^,可W將其作為一個(gè)屬性詞二元組 <Gi,>?;诓襟E102,可W得到買家行為中兩個(gè)屬性詞e;和相互之間的條件概 率Pbuyet咕Iep和Pbuyet(ejk),和賣家行為中兩個(gè)屬性詞和ej.相互之間的條件概率 Pseiierkilej)和Pseuer(ejk)。同時(shí),通過計(jì)算,還可W得到屬性詞的文本特征,例如Cosine 距離,編輯距離等。人工從所有屬性詞中采集一批樣本屬性詞,將上述樣本屬性詞之間的關(guān) 聯(lián)性特征和文本特征作為樣本特征,對(duì)樣本屬性詞二元組打上同義與非同義的標(biāo)簽,作為 訓(xùn)練目標(biāo),使用例如邏輯回歸模型進(jìn)行訓(xùn)練,從而將訓(xùn)練后得到的模型作為同義詞識(shí)別模 型。
[0039] 在步驟104,根據(jù)待測屬性詞之間的關(guān)聯(lián)性特征和待測屬性詞之間的文本特征,使 用所述同義詞識(shí)別模型,識(shí)別數(shù)據(jù)庫中各待測屬性詞之間是否是同義詞,W進(jìn)行后續(xù)處理。
[0040]具體而言,在得到同義詞識(shí)別模型后,可W將數(shù)據(jù)庫中任意兩個(gè)同一類型的屬性 詞作為待測屬性詞,提取該兩個(gè)待測屬性詞之間的關(guān)聯(lián)性特征和文本特征,并使用同義詞 識(shí)別模型,確定該兩個(gè)屬性詞是同義詞的概率。當(dāng)?shù)玫降母怕蚀笥诨虻扔陬A(yù)設(shè)值時(shí),則認(rèn)為 該兩個(gè)屬性詞是同義詞,當(dāng)?shù)玫降母怕市∮陬A(yù)設(shè)值時(shí),則認(rèn)為該兩個(gè)屬性詞不是同義詞。在 確定待測屬性詞之間是否是同義詞后,可W利用該結(jié)果進(jìn)行所需要的后續(xù)處理。例如,在向 用戶提供搜索處理結(jié)果時(shí),利用用戶輸入的檢索關(guān)鍵詞找到該關(guān)鍵詞的同義詞,并調(diào)整含 有該同義詞的數(shù)據(jù)對(duì)象的排序因子的大小。
[0041] 本申請實(shí)施例通過獲取數(shù)據(jù)對(duì)象的描述文本的屬性詞和與屬性詞相對(duì)應(yīng)的類型, 并且結(jié)合用戶行為日志和文本特征,可W得到同義詞識(shí)別模型,根據(jù)該模型可W確定同一 類型的任意兩個(gè)屬性詞是否是同義詞。并且,依據(jù)用戶行為日志識(shí)別同義詞,從而有效識(shí)別 在文本上差異較大的同義詞。并且,通過將各描述文本劃分為不同類型的屬性詞,基于不同 的屬性詞的類型進(jìn)行同義詞的判斷,能更好的提升判斷結(jié)果的準(zhǔn)確率。與現(xiàn)有技術(shù)相比,本 申請的方案不依賴知識(shí)庫和編輯距離,具有較好的泛化能力,能夠識(shí)別出沒有出現(xiàn)在知識(shí) 庫中的詞,從而提高同義詞識(shí)別的全面性和準(zhǔn)確性,更好地滿足實(shí)際應(yīng)用的需要。
[0042] 圖2是根據(jù)本申請一個(gè)實(shí)施例的優(yōu)化的屬性詞識(shí)別模型的訓(xùn)練方法200的流程 圖。如圖2所示,方法200開始于步驟201。
[0043] 在步驟201,將樣本描述文本切分為屬性詞的集合,并且對(duì)所述屬性詞的集合中的 屬性詞標(biāo)注類型。
[0044] 具體地,可W從數(shù)據(jù)庫中選取部分?jǐn)?shù)據(jù)對(duì)象的描述文本作為樣本描述文本,并且 將每一個(gè)描述文本人工切分為屬性詞的集合,同時(shí),對(duì)所切分出的屬性詞進(jìn)行屬性詞類型 的標(biāo)注。
[0045] 在步驟202,根據(jù)樣本描述文本和切分并標(biāo)注過的屬性詞的集合,利用判別模型進(jìn) 行機(jī)器學(xué)習(xí)的訓(xùn)練,W得到屬性詞識(shí)別模型。
[0046] 在該個(gè)過程中,可W采用CRF(Conditional Random Field,條件隨機(jī)域)模型進(jìn)行 屬性詞識(shí)別模型的訓(xùn)練。CRF模型是一種用來標(biāo)記和切分序列化數(shù)據(jù)的統(tǒng)計(jì)模型,該模型在 給定觀測序列的條件下,計(jì)算對(duì)觀測序列進(jìn)行切分和標(biāo)記后的序列的聯(lián)合后驗(yàn)概率。
[0047] CRF模型定義切分序列的聯(lián)合后驗(yàn)概率為:
[0048]
[0049] 交=揮i,X2,…,Xt}為觀測序列,專二{Yi,Y2,...,Yt}為切分序列,Z尚為歸 一化因子,//0^1,玄0為第j個(gè)特征,AJ為待學(xué)習(xí)的參數(shù)。
[0050] 在本申請中,例如,可W將每一個(gè)數(shù)據(jù)對(duì)象的描述文本單字切分為字的集合,將其 作為觀測序列X二{;X.1,X2, 可W將每一個(gè)單字所對(duì)應(yīng)的屬性詞的類型標(biāo)記作為 切分序列Y二(Yi,Y2,,Yt};對(duì)/y(於-1,於,玄0的特征提取可W包括如下特征:
[00川 1)位置信息
[0052] 例如,一個(gè)可能的位置信息特征定義和相對(duì)應(yīng)的特征值如下:
[0053]
[0054]。上下文信息
[0055] 例如,一個(gè)可能的上下文信息特征定義和相對(duì)應(yīng)的特征值如下:
[0056]
[0057] 如詞性信息
[005引例如,一個(gè)可能的詞性信息定義和相對(duì)應(yīng)的特征值如下:
[0059]
[0060] 4)語言類型信息
[0061] 例如,一個(gè)可能的語言類型信息特征定義和相對(duì)應(yīng)的特征值如下:
[0062]
[0063] 5)特殊詞匯信息
[0064] 例如,一個(gè)可能的特殊詞匯信息定義和相對(duì)應(yīng)的特征值如下:
[0065]
[006引其中,C可W是任意一種屬性詞類型,例如"品牌屬性詞"。
[0067] 在數(shù)據(jù)庫中人工選取樣本描述文本,對(duì)該些樣本描述文本進(jìn)行屬性詞的切分和標(biāo) 記,并且提取上述特征后,利用CRF模型進(jìn)行訓(xùn)練,可W得到待學(xué)習(xí)的參數(shù)入J,從而得到可 W用于切分屬性詞和標(biāo)記屬性詞類型的屬性詞識(shí)別模型。
[0068] 在步驟203,根據(jù)待測描述文本,使用屬性詞識(shí)別模型,獲取待測描述文本的屬性 詞和與屬性詞相對(duì)應(yīng)的類型。
[0069] 在該個(gè)步驟中,所輸入的特征與步驟202中的特征相同??蒞從數(shù)據(jù)庫中或用戶 日志中搜索詞中
當(dāng)前第2頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1