一種同義詞的識(shí)別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及互聯(lián)網(wǎng)領(lǐng)域,更具體地涉及一種同義詞的識(shí)別方法及裝置。
【背景技術(shù)】
[0002] 在電子商務(wù)領(lǐng)域,對(duì)商品的描述可W使用不同種類的屬性描述詞,即屬性詞。例 如,"香奈兒"是商品的品牌屬性詞,"全棉"是商品的材質(zhì)屬性詞,"錢包"是產(chǎn)品屬性詞, "Galaxy"是型號(hào)屬性詞。由于自然語(yǔ)言的豐富性,在使用屬性詞的過(guò)程中,存在大量同義 的非規(guī)范的使用情況。例如,品牌屬性詞"香奈兒"可能的同義詞有"夏奈兒","香耐爾", "化anel","雙C","小香"等;材質(zhì)屬性詞"全棉"的同義詞可W有"純棉","100%棉","百 分百棉"等。在電子商務(wù)領(lǐng)域的商品管理中,為了讓出售的商品被更多的買家檢索到,也為 了讓買家能方便地檢索到需要的商品,對(duì)屬性詞的同義詞識(shí)別是需要解決的核也問(wèn)題。
[0003] 2010年10月27日公開了名稱為"識(shí)別同義詞的方法、裝置及利用其進(jìn)行搜索的 方法和裝置"的(申請(qǐng)?zhí)枺?00910137633)專利申請(qǐng)。該申請(qǐng)公開了一種識(shí)別中文同義詞的 方法和裝置W及利用其進(jìn)行搜索的方法和裝置,所述方法通過(guò)確定需要識(shí)別的兩個(gè)中文詞 之間的最小編輯距離,并且通過(guò)判斷該兩個(gè)中文詞是否都存在于預(yù)設(shè)的知識(shí)庫(kù)中,來(lái)判定 所述兩個(gè)中文詞是否為同義詞。該種方法存在W下缺陷:
[0004] 首先,其同義詞的識(shí)別基于編輯距離,但是,若實(shí)質(zhì)上為同義詞的兩個(gè)詞的在文本 上不是非常接近,即編輯距離很遠(yuǎn),則無(wú)法識(shí)別出同義詞。例如,在電子商務(wù)領(lǐng)域中,編輯距 離遠(yuǎn)的同義詞有很多,例如"香奈兒"和"雙C"的編輯距離很遠(yuǎn),但它們卻是同義詞;
[0005] 其次,其同義詞的識(shí)別依賴于知識(shí)庫(kù)的內(nèi)容,若非知識(shí)庫(kù)中的內(nèi)容則無(wú)法識(shí)別出 同義詞。例如,在電子商務(wù)系統(tǒng)中,文本內(nèi)容非常豐富,知識(shí)庫(kù)中能涵蓋到的內(nèi)容往往很有 限,通常只涵蓋某個(gè)概念的規(guī)范表達(dá)。例如"香奈兒"可能是知識(shí)庫(kù)中收錄的規(guī)范表達(dá),但 "夏奈爾","雙C","小香"該樣的別稱無(wú)法保證收錄在知識(shí)庫(kù)中。
[0006] 因此,通過(guò)上述方法能識(shí)別出的同義詞覆蓋范圍非常有限,很多屬于同義詞的屬 性詞無(wú)法被識(shí)別出來(lái),該影響了同義詞識(shí)別的全面性和準(zhǔn)確性,從而影響了檢索結(jié)果的準(zhǔn) 確性和效率。
【發(fā)明內(nèi)容】
[0007] 本申請(qǐng)的主要目的在于,針對(duì)上述缺陷,提供一種同義詞的識(shí)別技術(shù),W解決現(xiàn)有 技術(shù)依賴編輯距離和知識(shí)庫(kù)識(shí)別同義詞的問(wèn)題,提高同義詞識(shí)別的全面性和準(zhǔn)確性,從而 提高檢索結(jié)果的準(zhǔn)確性和效率。
[0008] 根據(jù)本申請(qǐng)的第一方面,提供一種同義詞的識(shí)別方法,其特征在于,包括;根據(jù)待 測(cè)描述文本,使用屬性詞識(shí)別模型,獲取待測(cè)描述文本的屬性詞和與屬性詞相對(duì)應(yīng)的類型; 根據(jù)屬性詞和與屬性詞相對(duì)應(yīng)的類型,結(jié)合用戶行為日志,計(jì)算屬性詞之間的關(guān)聯(lián)性特征; 根據(jù)從屬性詞中選擇的樣本屬性詞之間的關(guān)聯(lián)性特征和樣本屬性詞之間的文本特征,進(jìn)行 同義詞識(shí)別模型的訓(xùn)練,W得到同義詞識(shí)別模型;W及根據(jù)待測(cè)屬性詞之間的關(guān)聯(lián)性特征 和待測(cè)屬性詞之間的文本特征,使用同義詞識(shí)別模型,識(shí)別各待測(cè)屬性詞之間是否是同義 詞,W進(jìn)行后續(xù)處理。
[0009] 根據(jù)本申請(qǐng)的第二方面,提供一種同義詞的識(shí)別裝置,其特征在于,包括;屬性詞 獲取模塊,用于根據(jù)待測(cè)描述文本,使用屬性詞識(shí)別模型,獲取待測(cè)描述文本的屬性詞和與 屬性詞相對(duì)應(yīng)的類型;關(guān)聯(lián)性計(jì)算模塊,用于根據(jù)屬性詞和與屬性詞相對(duì)應(yīng)的類型,結(jié)合用 戶行為日志,計(jì)算描述文本中同一類型的屬性詞之間的關(guān)聯(lián)性特征;同義詞識(shí)別模型得到 模塊,用于根據(jù)從屬性詞中選擇的樣本屬性詞的屬性詞之間的關(guān)聯(lián)性特征和樣本屬性詞之 間的文本特征,進(jìn)行同義詞識(shí)別模型的訓(xùn)練,W得到同義詞識(shí)別模型;W及同義詞識(shí)別模 塊,用于根據(jù)待測(cè)屬性詞之間的關(guān)聯(lián)性特征和待測(cè)屬性詞之間的文本特征,使用同義詞識(shí) 別模型,識(shí)別各待測(cè)屬性詞之間是否是同義詞,W進(jìn)行后續(xù)處理。
[0010] 與現(xiàn)有技術(shù)相比,根據(jù)本申請(qǐng)的技術(shù)方案,能夠依據(jù)用戶行為識(shí)別同義詞,從而有 效識(shí)別在文本上差異較大的同義詞。并且,將各文本確定為不同類型的屬性詞,基于不同的 屬性詞類型的對(duì)屬性詞進(jìn)行同義詞的判斷,能更好的提升判斷結(jié)果的準(zhǔn)確率。本申請(qǐng)的方 案不依賴知識(shí)庫(kù)和編輯距離,具有較好的泛化能力,能夠識(shí)別出沒(méi)有出現(xiàn)在知識(shí)庫(kù)中的詞, 從而提高同義詞識(shí)別的全面性和準(zhǔn)確性,近而提高檢索結(jié)果的準(zhǔn)確性和效率,更好地滿足 實(shí)際應(yīng)用的需要。
【附圖說(shuō)明】
[0011] 此處所說(shuō)明的附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申 請(qǐng)的示意性實(shí)施例及其說(shuō)明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:
[0012] 圖1是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的同義詞的識(shí)別方法的流程圖;
[0013] 圖2是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的優(yōu)化的屬性詞識(shí)別模型的訓(xùn)練方法的流程圖;
[0014]圖3是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的同義詞識(shí)別模型訓(xùn)練方法的流程圖;
[0015]圖4是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的使用圖3得到的同義詞識(shí)別模型識(shí)別同義詞的方 法的流程圖;
[0016] 圖5是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的同義詞的識(shí)別裝置的框圖;
[0017] 圖6是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的異構(gòu)網(wǎng)絡(luò)圖的示意圖;
[0018] 圖7是圖6中的異構(gòu)網(wǎng)絡(luò)圖的子圖;W及
[0019] 圖8是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的異構(gòu)網(wǎng)絡(luò)圖的子圖。
【具體實(shí)施方式】
[0020] 本申請(qǐng)的主要思想在于,通過(guò)獲取數(shù)據(jù)對(duì)象的描述文本的屬性詞和與所述屬性詞 相對(duì)應(yīng)的類型,并且結(jié)合用戶行為日志和文本特征,可W得到同義詞識(shí)別模型,根據(jù)該模型 可W確定同一類型的任意兩個(gè)屬性詞是否是同義詞。本方案能夠依據(jù)用戶行為日志識(shí)別同 義詞,從而有效識(shí)別在文本上差異較大的同義詞。并且,將各描述文本劃分為不同類型的屬 性詞,基于不同的屬性詞的類型進(jìn)行同義詞的判斷,能更好的提升判斷結(jié)果的準(zhǔn)確率。本申 請(qǐng)的方案不依賴知識(shí)庫(kù)和編輯距離,具有較好的泛化能力,能夠識(shí)別出沒(méi)有出現(xiàn)在知識(shí)庫(kù) 中的詞是否是同義詞,從而提高同義詞識(shí)別的全面性和準(zhǔn)確性,更好地滿足實(shí)際應(yīng)用的需 要。
[0021] 為使本申請(qǐng)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請(qǐng)具體實(shí)施例及 相應(yīng)的附圖對(duì)本申請(qǐng)技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅是本申請(qǐng)一 部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做 出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
[0022] 為描述本申請(qǐng)的方案,下面將W數(shù)據(jù)搜索處理量巨大且易理解的電子商務(wù)平臺(tái)為 例,進(jìn)行具體說(shuō)明。
[0023] 為了方便下文描述,先介紹部分術(shù)語(yǔ)解釋。
[0024] 行為日志;用戶在網(wǎng)站上的各種操作都會(huì)被記錄下來(lái)作為用戶的行為日志,比如: 搜索、點(diǎn)擊、瀏覽品類下的對(duì)象、查看搜索結(jié)果、在數(shù)據(jù)對(duì)象的詳情頁(yè)上的操作W及該些行 為的發(fā)生時(shí)間,等等。
[0025] 賣家行為;為了讓出售的商品被更多的買家檢索到,賣家傾向于將與所出售商品 相關(guān)的各種同義詞羅列在商品的標(biāo)題和商品的屬性值中。例如,為了讓買家能方便的檢索 到自己的商品,一個(gè)賣家可W該樣的標(biāo)題描述一個(gè)商品;"英國(guó)代購(gòu)化anel香奈兒女包雙C 康鵬長(zhǎng)款對(duì)折皮夾羊皮錢包黑色現(xiàn)貨"。其中,"化anel"、"香奈兒"和"雙C",兩兩之間是 同義詞。
[0026] 買家的行為;當(dāng)買家用某個(gè)屬性詞進(jìn)行搜索時(shí),買家傾向于在搜索結(jié)果中點(diǎn)擊包 含與該屬性詞具有相同語(yǔ)義的商品。例如,當(dāng)買家搜索了 "化anel"時(shí),買家傾向于點(diǎn)擊包 含與"化anel"具有相同語(yǔ)義例如"香奈兒","雙C"的商品。
[0027] 參考圖1,圖1是根據(jù)本申請(qǐng)一個(gè)實(shí)施例的同義詞的識(shí)別方法100的流程圖。如圖 1所示,方法100開始于步驟101。
[0028] 在步驟101,根據(jù)待測(cè)描述文本,使用屬性詞識(shí)別模型,獲取待測(cè)描述文本的屬性 詞和與所述屬性詞相對(duì)應(yīng)的類型。
[0029] 具體而言,對(duì)一個(gè)數(shù)據(jù)對(duì)象的文本描述,可W由不同屬性的詞組成,該些用于描述 一個(gè)數(shù)據(jù)對(duì)象的詞的集合即為對(duì)一個(gè)對(duì)象的描述文本。例如,在電子商務(wù)領(lǐng)域中,通??蒞 將在一件商品的描述文本中所有可能出現(xiàn)的詞分為五種類型:品牌屬性詞,產(chǎn)品屬性詞,材 質(zhì)屬性詞,型號(hào)屬性詞,普通屬性詞。采用該五種不同種類屬性詞的分類方式的原因在于, 在電子商務(wù)的應(yīng)用中,除普通屬性詞之外的四種屬性詞在絕大部分情況下,已經(jīng)足夠描述 一個(gè)具體的商品。例如,一個(gè)商品的描述文本為"RIBECS伊