亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

商品屬性特征詞聚類方法

文檔序號(hào):9489491閱讀:1125來(lái)源:國(guó)知局
商品屬性特征詞聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)處理和數(shù)據(jù)挖掘領(lǐng)域,尤其是一種商品屬性特征詞聚類方 法。
【背景技術(shù)】
[0002] 商品評(píng)論數(shù)據(jù)的挖掘?qū)儆谟?jì)算機(jī)文本處理與挖掘領(lǐng)域,對(duì)于分析目標(biāo)商品的特 征、分析市場(chǎng)對(duì)目標(biāo)商品的需求、獲取用戶的個(gè)性化偏好、對(duì)用戶進(jìn)行商品推薦等方面有著 很直接的應(yīng)用。用戶對(duì)商品的評(píng)價(jià)文本蘊(yùn)涵著豐富的信息,現(xiàn)在很多研究人員也開(kāi)始著眼 于利用評(píng)論文本來(lái)提升商品推薦系統(tǒng)的性能。用戶評(píng)論文本中最重要的兩個(gè)信息就是:用 戶所關(guān)注的商品屬性,以及用戶對(duì)于目標(biāo)商品在自己所關(guān)注屬性上的表現(xiàn)評(píng)價(jià)。因此對(duì)于 商品屬性特征詞的獲取與處理,是對(duì)商品評(píng)論數(shù)據(jù)進(jìn)行挖掘和利用的關(guān)鍵步驟。
[0003] 對(duì)于商品屬性特征詞的獲取當(dāng)前已經(jīng)有很多方法,如基于語(yǔ)法規(guī)則擴(kuò)展的詞性模 板匹配法、基于詞語(yǔ)序列標(biāo)注的隱馬爾科夫以及條件隨機(jī)場(chǎng)。這些方法可以初步獲取評(píng)論 文本中的商品屬性特征詞。
[0004] 但是,在商品評(píng)論文本中我們會(huì)發(fā)現(xiàn),同一種商品的同一種屬性,會(huì)被具有不同教 育程度、文化背景、風(fēng)俗習(xí)慣的用戶采取不同的表述方式。同一種屬性的不同表達(dá)方式,一 方面增加了商品屬性特征的維度,同時(shí)也就是增加了數(shù)據(jù)特征的稀疏程度,增加了問(wèn)題的 求解復(fù)雜度;另一方面也不利于刻畫(huà)商品的屬性,從而不利于刻畫(huà)用戶對(duì)商品屬性偏好和 評(píng)價(jià)。
[0005] 采用聚類方法,將實(shí)際表達(dá)商品同一屬性的特征詞聚類在一起,可以有效解決上 面提出的問(wèn)題。但是目前對(duì)于商品屬性特征詞聚類,還很少有人提出有效方法。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明所要解決的技術(shù)問(wèn)題是:彌補(bǔ)上述現(xiàn)有技術(shù)的不足,提出一種商品屬性特 征詞聚類方法,以減少商品屬性特征詞數(shù)目,降低特征維度以及特征稀疏性,使所設(shè)計(jì)的推 薦系統(tǒng)具有更加快速和準(zhǔn)確的性能。
[0007] 為此,本發(fā)明提出的商品屬性特征詞聚類方法包括如下步驟:。
[0008] 優(yōu)選地,本發(fā)明還包括如下特征:
[0009] 本發(fā)明與現(xiàn)有技術(shù)對(duì)比的有益效果是:本發(fā)明提出了一種基于詞語(yǔ)向量表示的商 品屬性特征詞聚類方法,研究表明,將詞語(yǔ)表示成較低維度的連續(xù)值向量的形式,通過(guò)大量 的數(shù)據(jù)進(jìn)行訓(xùn)練,可以得到具有很強(qiáng)表示能力的詞語(yǔ)向量。這種詞語(yǔ)向量具有很強(qiáng)的語(yǔ)義 表示能力,語(yǔ)義上相近的詞語(yǔ),在映射后的向量空間中的距離也會(huì)很相近。本發(fā)明基于詞語(yǔ) 向量表示這一方法,進(jìn)一步改進(jìn)使得利用本發(fā)明可以得到自動(dòng)匹配評(píng)論文本中商品屬性特 征詞的詞性模板,進(jìn)而獲取指定商品的屬性特征詞;可以通過(guò)訓(xùn)練語(yǔ)言模型得到低維度、具 有豐富語(yǔ)義信息的詞語(yǔ)向量;可以根據(jù)實(shí)際需要進(jìn)行屬性特征詞的聚類,從而減少商品屬 性特征詞數(shù)目,降低特征維度以及特征稀疏性,使所設(shè)計(jì)的推薦系統(tǒng)具有更加快速和準(zhǔn)確 的性能。
【附圖說(shuō)明】
[0010] 圖1是本發(fā)明【具體實(shí)施方式】中的商品屬性特征詞聚類方法的流程示意圖。
【具體實(shí)施方式】
[0011] 下面結(jié)合【具體實(shí)施方式】并對(duì)照附圖對(duì)本發(fā)明做進(jìn)一步詳細(xì)說(shuō)明。
[0012] 如圖1所示,為本【具體實(shí)施方式】中的商品屬性特征詞聚類方法的流程圖。
[0013] 本發(fā)明實(shí)施例針對(duì)商品評(píng)論文本,提出了一種基于詞語(yǔ)向量表示的商品屬性特征 詞聚類方法。首先確定需要研究和分析的目標(biāo)商品,進(jìn)行數(shù)據(jù)的準(zhǔn)備:從相關(guān)電商網(wǎng)站獲取 目標(biāo)商品的評(píng)論文本,進(jìn)行數(shù)據(jù)預(yù)處理,主要包括詞語(yǔ)切分、詞性標(biāo)注、詞頻統(tǒng)計(jì)、停用詞過(guò) 濾以及低頻詞語(yǔ)過(guò)濾;在獲取的商品評(píng)論文本中選取若干含有商品屬性特征詞語(yǔ)的評(píng)論文 本,對(duì)商品屬性特征詞進(jìn)行人工標(biāo)注,作為獲取詞性模板的訓(xùn)練數(shù)據(jù)。然后進(jìn)一步的加工數(shù) 據(jù):根據(jù)人工標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行詞性模板訓(xùn)練,得到可以自動(dòng)匹配商品屬性特征詞語(yǔ)的 詞性模板,然后在全部數(shù)據(jù)上進(jìn)行匹配,獲取商品屬性特征詞語(yǔ)的候選集合,并設(shè)定規(guī)則對(duì) 候選集合進(jìn)行過(guò)濾;使用現(xiàn)有工具W〇rd2VeC或者自己設(shè)定模型進(jìn)行訓(xùn)練,獲得詞語(yǔ)的向量 表示。最后使用候選集合中屬性特征詞的向量表示作為輸入,進(jìn)行商品屬性特征詞聚類,得 到目標(biāo)商品的最終屬性特征詞集合。使用詞語(yǔ)的向量表示,可以使在語(yǔ)義上接近的詞語(yǔ),在 向量空間上的分布也很接近,也就是描述同一個(gè)屬性的特征詞語(yǔ)可以分布在一起,這樣聚 類得到的類比較符合真實(shí)的特征詞聚集情況。此外,詞語(yǔ)的向量表示維度較低,在進(jìn)行聚類 時(shí)的計(jì)算復(fù)雜度很低。
[0014] 本實(shí)施例提出的一種基于詞語(yǔ)向量表示的商品屬性特征詞聚類方法包括如下步 驟:
[0015] A1 :從相關(guān)電商網(wǎng)站獲取目標(biāo)商品的評(píng)論文本,進(jìn)行數(shù)據(jù)預(yù)處理,主要包括詞語(yǔ)切 分、詞性標(biāo)注、詞頻統(tǒng)計(jì)、停用詞過(guò)濾以及低頻詞語(yǔ)過(guò)濾;
[0016] A2 :選取含有商品屬性特征詞語(yǔ)的評(píng)論文本,對(duì)商品屬性特征詞進(jìn)行人工標(biāo)注,作 為獲取詞性模板的訓(xùn)練樣本;
[0017] A3 :根據(jù)A2中人工標(biāo)注的數(shù)據(jù)進(jìn)行詞性模板訓(xùn)練,得到可以自動(dòng)匹配商品屬性特 征詞語(yǔ)的詞性模板,然后在全部數(shù)據(jù)上進(jìn)行匹配,獲取商品屬性特征詞語(yǔ)的候選集合,并對(duì) 候選集合按照設(shè)定規(guī)則進(jìn)行過(guò)濾;
[0018] A4 :利用A1中得到的數(shù)據(jù)訓(xùn)練語(yǔ)言模型,獲得詞語(yǔ)的向量表示;
[0019] A5 :利用A4中得到的詞語(yǔ)向量,對(duì)A3中得到的商品屬性特征詞進(jìn)行聚類,得到目 標(biāo)商品的最終屬性特征詞集合。
[0020] 本實(shí)施例的最終重點(diǎn)環(huán)節(jié)是步驟A5,而步驟A1中文本的獲取與預(yù)處理為A2中的 屬性特征詞標(biāo)注以及A4中詞語(yǔ)向量的學(xué)習(xí)提供了數(shù)據(jù)準(zhǔn)備和基礎(chǔ),A3中根據(jù)模板進(jìn)行特 征詞的匹配和過(guò)濾以及A4中詞語(yǔ)向量的學(xué)習(xí)是獲取最終商品屬性特征詞的關(guān)鍵環(huán)節(jié)。
[0021] 在具體的實(shí)施方案中,可按下面方式操作(在下面的操作表述中,我們將以對(duì)淘 寶網(wǎng)站中某件服裝商品的特征屬性詞的抽取與聚類為例,在每個(gè)操作步驟后,給出具體示 例):
[0022] A1 :對(duì)于數(shù)據(jù)的獲取,由于本步驟中預(yù)處理后的數(shù)據(jù)將用于A4步驟中的語(yǔ)言模 型訓(xùn)練,而訓(xùn)練語(yǔ)言模型需要大量的數(shù)據(jù),因此可以獲取目標(biāo)商品的評(píng)論文本越多越好,為 了較好的效果,文本的大小大于10MB(也即將所有評(píng)論文本放在一個(gè)文件中,該文件大小 大于10MB)為宜。對(duì)于數(shù)據(jù)準(zhǔn)備階段的數(shù)據(jù)預(yù)處理,主要包括詞語(yǔ)切分、詞性標(biāo)注、詞頻統(tǒng) 計(jì)、停用詞過(guò)濾以及低頻詞語(yǔ)過(guò)濾等步驟。具體可以如下進(jìn)行:a)詞語(yǔ)切分與詞性標(biāo)注:對(duì) 于中文文本,由于詞語(yǔ)之間沒(méi)有形式的分界,在進(jìn)行相關(guān)問(wèn)題處理時(shí),需要首先對(duì)文本進(jìn)行 詞語(yǔ)切分,也即找出詞語(yǔ)之間的界限,將文本表示成詞語(yǔ)序列;而詞性標(biāo)注則指,對(duì)于上述 切分出來(lái)的每一個(gè)獨(dú)立的詞語(yǔ),給予它們?cè)~性標(biāo)簽(主要的詞性有名詞、動(dòng)詞、形容詞、副 詞、標(biāo)點(diǎn)符號(hào),其他具體可以參見(jiàn)http://blog.sina.com.cn/s/blog_4a95553b0100068w. html)。我們使用"結(jié)巴"中文分詞工具(工具網(wǎng)站:http://www.oschina.net/p/iieba)進(jìn) 行詞語(yǔ)切分和詞性標(biāo)注的舉例,此外中科院的ICTCLAS系統(tǒng)(官方網(wǎng)站:http://ictclas. nlpir.org/)也是一款優(yōu)秀的中文分詞與詞性標(biāo)注工具,具體用法請(qǐng)參見(jiàn)其網(wǎng)站;b)詞頻 統(tǒng)計(jì)可以很方便的進(jìn)行,這里建議先對(duì)所得文本進(jìn)行切分后的詞語(yǔ)進(jìn)行哈希編碼,我們可 以根據(jù)詞語(yǔ)的Unicode值,利用哈希函數(shù)將詞語(yǔ)重新編碼,這樣每次訪問(wèn)該詞語(yǔ)時(shí)可以做 到瞬時(shí)訪問(wèn),然后就可以快速的進(jìn)行詞頻統(tǒng)計(jì);c)有很多詞
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1