亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種同義詞的識(shí)別方法及裝置的制造方法_4

文檔序號(hào):9261390閱讀:來(lái)源:國(guó)知局
[01川 511卵0的,。11。,咕,6^=同時(shí)出現(xiàn)"香奈兒"和"夏奈爾"的商品的數(shù)量 [Om]Supportseiierkj.)=出現(xiàn)"夏奈爾"的商品的數(shù)量 [011引Su卵ortbuyerki,6j)=買(mǎi)家輸入包含夏奈爾的搜索詞后,
[0114] 在搜索結(jié)果中點(diǎn)擊包含"香奈兒"的商品的數(shù)量
[01巧]SuppodbuyetkP=買(mǎi)家輸入包含"夏奈爾"的搜索詞后,在搜索結(jié)果中的總點(diǎn)擊 數(shù)量
[0116] 在步驟303,計(jì)算樣本屬性詞之間的編輯距離、Cosine距離和化ccard距離,W得 到樣本屬性詞之間的文本特征。
[0117] 對(duì)于樣本屬性詞中的任意兩個(gè)屬性詞e;,和6j.,可W將其作為一個(gè)屬性詞二元 組<e;,6j. >?;诓襟E208,可W得到屬性詞之間的關(guān)聯(lián)性的四個(gè)特征;Pbuyetkilej),Pbuyer(ejk),PseUer(eJej),Pseiierkj'k)。同時(shí),通過(guò)計(jì)算,還可W得到屬性詞的文本特征, 該文本特征可W包括;Cosine距離,編輯距離、Jaccard距離。
[0118] 在步驟304,根據(jù)樣本屬性詞之間的關(guān)聯(lián)性特征和樣本屬性詞之間的文本特征,進(jìn) 行同義詞識(shí)別模型的訓(xùn)練,W得到同義詞識(shí)別模型。
[0119] 人工從數(shù)據(jù)庫(kù)中采集一批樣本屬性詞,將該些樣本屬性詞之間的關(guān)聯(lián)性特征 化町erkilSj),Pbuyer(ej'lei),Psellerkilej),Pseiierkj'lei))和文本特征(Cosine距離,編輯距 離、化ccard距離)作為樣本特征輸入,同時(shí),對(duì)其中的所有屬性詞二元組打上同義與非同 義的標(biāo)簽,作為訓(xùn)練目標(biāo)。在該里,可W將屬性詞二元組<61,6j.>表示為特征向量的形式, (p(< 6i,ej>)二<X1,X2, ...,x〇 >。針對(duì)每一條訓(xùn)練數(shù)據(jù)< 6i,>,都有一個(gè)標(biāo)注結(jié) 果f(cp(< 6i,ej>;))巨{0,1}。逝過(guò)擬合回歸模型,f(cp(< 6i,ej>);0),使得該回歸模 型的預(yù)測(cè)結(jié)果與標(biāo)注結(jié)果的誤差最小。
[0120] 在本申請(qǐng)的一個(gè)實(shí)施例中,采用邏輯回歸(LogisticRegression)進(jìn)行模型訓(xùn) 練:
[0121]
[0122] 其中,cp(< 6i,ej>)是給定的特征向量,0T是待擬合的參數(shù), f((p(< 6i,ej>);目)是分類(lèi)結(jié)果。訓(xùn)練過(guò)程通過(guò)標(biāo)注數(shù)據(jù),W極大似然估計(jì)的方式確定0T的取值,從而得到訓(xùn)練后的模型,即同義詞識(shí)別模型。
[0123] 至此,描述了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的同義詞識(shí)別模型訓(xùn)練方法300的流程圖。 該方法300通過(guò)獲取屬性詞的關(guān)聯(lián)性特征和文本特征,使用邏輯回歸模型進(jìn)行機(jī)器學(xué)習(xí)訓(xùn) 練,從而得到同義詞識(shí)別模型。該同義詞識(shí)別模型可W對(duì)同一類(lèi)型的屬性詞之間是否是同 義詞進(jìn)行識(shí)別。
[0124] 圖4是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的使用圖3得到的同義詞識(shí)別模型識(shí)別同義詞的方 法400的流程圖。
[0125] 在步驟401,根據(jù)待測(cè)屬性詞之間的關(guān)聯(lián)性和待測(cè)屬性詞之間的文本特征,使用同 義詞識(shí)別模型,計(jì)算各待測(cè)屬性詞之間是同義詞的概率。
[0126] 在該個(gè)步驟中,使用同義詞識(shí)別模型,輸入同一類(lèi)型的任意兩個(gè)屬性詞和ej作 為待測(cè)屬性詞,將與該兩個(gè)屬性詞相對(duì)應(yīng)的特征(屬性詞關(guān)聯(lián)性和屬性詞文本特征)作為 特征,針對(duì)每一條數(shù)據(jù)<ei,ej>,都有一個(gè)標(biāo)注結(jié)果(目標(biāo))如氣>))G{0,1}, 該標(biāo)注結(jié)果即為屬性詞之間是同義詞的概率。
[0127]在步驟402,判斷待測(cè)屬性詞之間是同義詞的概率是否大于等于預(yù)設(shè)值。
[012引當(dāng)待測(cè)屬性詞之間是同義詞的概率大于或等于預(yù)設(shè)值時(shí),進(jìn)入步驟403,識(shí)別待測(cè) 屬性詞之間是同義詞。
[0129] 當(dāng)待測(cè)屬性詞之間是同義詞的概率小于預(yù)設(shè)值時(shí),進(jìn)入步驟404,識(shí)別待測(cè)屬性詞 之間不是同義詞。
[0130] 根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,預(yù)設(shè)值為0到1之間的任意取值。
[0131] 至此,描述了根據(jù)本申請(qǐng)一個(gè)實(shí)施例的使用圖3得到的同義詞識(shí)別模型識(shí)別同義 詞的方法400的流程圖。該方法400根據(jù)待測(cè)屬性詞之間的關(guān)聯(lián)性特征和待測(cè)屬性詞之間 的文本特征,使用預(yù)先訓(xùn)練得到的同義詞識(shí)別模型,可W識(shí)別出待測(cè)屬性詞之間是否是同 義詞,從而可W根據(jù)識(shí)別結(jié)果進(jìn)行后續(xù)處理。
[0132] 圖5是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的同義詞的識(shí)別裝置500的框圖。
[0133] 如圖5所示,裝置500可W包括;屬性詞獲取模塊510,用于根據(jù)待測(cè)描述文本,使 用屬性詞識(shí)別模型,獲取待測(cè)描述文本的屬性詞和與屬性詞相對(duì)應(yīng)的類(lèi)型;關(guān)聯(lián)性計(jì)算模 塊520,用于根據(jù)屬性詞和與屬性詞相對(duì)應(yīng)的類(lèi)型,結(jié)合用戶(hù)行為日志,計(jì)算描述文本中同 一類(lèi)型的屬性詞之間的關(guān)聯(lián)性特征;同義詞識(shí)別模型得到模塊530,用于根據(jù)從屬性詞中 選擇的樣本屬性詞的屬性詞之間的關(guān)聯(lián)性特征和樣本屬性詞之間的文本特征,進(jìn)行同義詞 識(shí)別模型的訓(xùn)練,W得到同義詞識(shí)別模型;W及同義詞識(shí)別模塊540,用于根據(jù)待測(cè)屬性詞 之間的關(guān)聯(lián)性特征和待測(cè)屬性詞之間的文本特征,使用同義詞識(shí)別模型,識(shí)別各待測(cè)屬性 詞之間是否是同義詞,W進(jìn)行后續(xù)處理。
[0134] 根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,屬性詞識(shí)別模型510可W通過(guò)如下模塊建立;切分和 標(biāo)注子模塊,用于將樣本描述文本切分為屬性詞的集合,并且對(duì)屬性詞的集合中的屬性詞 標(biāo)注類(lèi)型;W及屬性詞識(shí)別模型得到子模塊,用于根據(jù)樣本描述文本和切分并標(biāo)注過(guò)的屬 性詞的集合,利用判別模型進(jìn)行機(jī)器學(xué)習(xí)的訓(xùn)練,W得到屬性詞識(shí)別模型。
[01巧]根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,裝置500還可W包括;條件概率計(jì)算模塊,根據(jù)屬性詞 和與屬性詞相對(duì)應(yīng)的類(lèi)型,計(jì)算有共性關(guān)系的屬性詞之間的條件概率;模型優(yōu)化模塊,用于 根據(jù)屬性詞識(shí)別模型,結(jié)合有共性關(guān)系的屬性詞之間的條件概率,進(jìn)行優(yōu)化的屬性詞識(shí)別 模型的訓(xùn)練,W得到優(yōu)化的屬性詞識(shí)別模型;W及第二獲取模塊,用于使用優(yōu)化的屬性詞識(shí) 別模型,獲取待測(cè)描述文本的屬性詞和與屬性詞相對(duì)應(yīng)的類(lèi)型。
[0136] 根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,關(guān)聯(lián)性計(jì)算模塊520可W進(jìn)一步包括:同類(lèi)屬性詞獲 取子模塊,用于根據(jù)描述文本的屬性詞和與屬性詞相對(duì)應(yīng)的類(lèi)型,獲取各描述文本中同一 類(lèi)型的屬性詞;W及條件概率計(jì)算子模塊,用于結(jié)合用戶(hù)行為日志,計(jì)算同一類(lèi)型的屬性詞 之間的條件概率。
[0137] 根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,同義詞識(shí)別模型得到模塊530可W進(jìn)一步包括;文本 特征計(jì)算子模塊,用于計(jì)算樣本屬性詞之間的編輯距離、Cosine距離和化ccard距離,W得 到樣本屬性詞之間的文本特征;W及同義詞識(shí)別模型得到子模塊,用于根據(jù)樣本屬性詞之 間的關(guān)聯(lián)性特征和樣本屬性詞之間的文本特征,進(jìn)行同義詞識(shí)別模型的訓(xùn)練,W得到同義 詞識(shí)別模型。
[013引根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,同義詞識(shí)別模塊540可W進(jìn)一步包括;同義詞概率計(jì) 算子模塊,用于根據(jù)待測(cè)屬性詞之間的關(guān)聯(lián)性和待測(cè)屬性詞之間的文本特征,使用同義詞 識(shí)別模型,計(jì)算各待測(cè)屬性詞之間是同義詞的概率;第一識(shí)別模塊,用于當(dāng)待測(cè)屬性詞之間 是同義詞的概率大于或等于預(yù)設(shè)值時(shí),識(shí)別待測(cè)屬性詞之間是同義詞;W及第二識(shí)別模塊, 用于當(dāng)待測(cè)屬性詞之間是同義詞的概率小于預(yù)設(shè)值時(shí),識(shí)別待測(cè)屬性詞之間不是同義詞。
[0139] 根據(jù)本申請(qǐng)的一個(gè)實(shí)施例,描述文本可W包括數(shù)據(jù)對(duì)象的標(biāo)題和用戶(hù)的檢索詞。
[0140] 由于本實(shí)施例的裝置所實(shí)現(xiàn)的功能基本相應(yīng)于前述圖1所示的方法實(shí)施例,故本 實(shí)施例的描述中未詳盡之處,可W參見(jiàn)前述實(shí)施例中的相關(guān)說(shuō)明,在此不做費(fèi)述。
[0141] 在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、 網(wǎng)絡(luò)接口和內(nèi)存。
[0142] 內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/ 或非易失性?xún)?nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flashRAM)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì) 的示例。
[0143] 計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可W由任何方法 或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可W是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。 計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)、 動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器值RAM)、其他類(lèi)型的隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電 可擦除可編程只讀存儲(chǔ)器巧EPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀
當(dāng)前第4頁(yè)1 2 3 4 5 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1