一種適用于電子商務(wù)中文網(wǎng)站商品標(biāo)簽化的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)互聯(lián)網(wǎng)領(lǐng)域,特別是涉及一種適用于電子商務(wù)中文網(wǎng)站商品標(biāo) 簽化的方法。
【背景技術(shù)】
[0002] 在電子商務(wù)中文網(wǎng)站中,用戶利用關(guān)鍵詞檢索商品時(shí),通常是直接檢索商品的基 本信息,然而由于網(wǎng)站內(nèi)的商品信息多是由商家自己填寫(xiě)和維護(hù),商家雖會(huì)按照網(wǎng)站的商 品規(guī)則維護(hù)商品信息,但仍不能避免兩類(lèi)問(wèn)題的出現(xiàn):其一是商品信息作弊的問(wèn)題,商家為 了提供自家商品在商品搜索過(guò)程中的曝光率和出現(xiàn)頻率,使發(fā)布的商品引人注目,使商品 購(gòu)買(mǎi)者能更多地搜索到發(fā)布的商品,他們?cè)趯?duì)商品描述時(shí)濫用品牌名稱(chēng)或與本商品不存在 關(guān)聯(lián)的關(guān)鍵詞,從而導(dǎo)致商品購(gòu)買(mǎi)者無(wú)法準(zhǔn)確地找到需要的商品;其二是商品信息不全面 的問(wèn)題,商家在描述商品時(shí)遺漏商品描述的關(guān)鍵信息,包括商品標(biāo)題、圖片、描述等重要信 息缺失,而信息缺失將導(dǎo)致用戶做商品檢索時(shí),網(wǎng)站無(wú)法返回更多相關(guān)的商品檢索結(jié)果。
[0003] 針對(duì)商家作弊商品信息的問(wèn)題,電子商務(wù)網(wǎng)站通常設(shè)定規(guī)則來(lái)解決,對(duì)那些不符 合規(guī)則的作弊商品進(jìn)行降權(quán),然而規(guī)則存在一定程度的缺陷,嚴(yán)格的規(guī)則可能導(dǎo)致未作弊 的商品降權(quán);寬松的規(guī)則可能會(huì)使防作弊的效果不夠明顯;在解決商家填寫(xiě)信息不全的問(wèn) 題上,為保證盡可能多地召回相關(guān)產(chǎn)品,電子商務(wù)網(wǎng)站不惜犧牲檢索質(zhì)量而選擇擴(kuò)大檢索 商品信息的檢索范圍,即在多個(gè)商品信息字段上做匹配,有時(shí)甚至連"商品描述"這類(lèi)數(shù)據(jù) 量龐大但質(zhì)量較差的字段都被選用,這種方式雖然能召回更多的商品,但召回的商品并不 能令用戶滿意,進(jìn)而導(dǎo)致流量大量流失。
【發(fā)明內(nèi)容】
[0004] 針對(duì)現(xiàn)有技術(shù)的不完善,本發(fā)明目的是,提供一種適用于電子商務(wù)中文網(wǎng)站商品 標(biāo)簽化的方法,通過(guò)綜合分析商品名稱(chēng)和商品屬性的信息,提供與商品相關(guān)的標(biāo)簽對(duì)其標(biāo) 示,以完善電子商務(wù)中文網(wǎng)站中的商品信息。這些用以標(biāo)示商品的標(biāo)簽數(shù)據(jù)將會(huì)在商品搜 索過(guò)程中作為重要的檢索字段參與檢索,以保證在召回更多相關(guān)商品的同時(shí),也能提升商 品檢索的準(zhǔn)確率。
[0005] 本發(fā)明的技術(shù)方案如下,一種適用于電子商務(wù)中文網(wǎng)站產(chǎn)品標(biāo)簽化的方法,其特 征在于,具體步驟包括分詞詞庫(kù)的構(gòu)建方法、標(biāo)簽采集的方法及標(biāo)簽標(biāo)示商品的方法;
[0006] 所謂分詞詞庫(kù)的構(gòu)建方法,指基于對(duì)電子商務(wù)中文網(wǎng)站內(nèi)各商品關(guān)鍵詞在不同商 品描述中的頻次統(tǒng)計(jì),保留頻次大于3的商品關(guān)鍵詞,并從中篩選出商品關(guān)鍵詞字?jǐn)?shù)小于 等于5的關(guān)鍵詞作為詞庫(kù)數(shù)據(jù),當(dāng)長(zhǎng)度比較長(zhǎng)的商品關(guān)鍵詞包含多個(gè)短的關(guān)鍵詞的時(shí),這 些長(zhǎng)的詞將不會(huì)入庫(kù);
[0007] 所謂商品關(guān)鍵詞,是指由商家通過(guò)網(wǎng)站后臺(tái)系統(tǒng)自由添加的詞語(yǔ),是商家對(duì)商品 關(guān)鍵特征的描述;
[0008] 特別地,考慮到電子商務(wù)中文網(wǎng)站內(nèi)商品關(guān)鍵詞通常由商品賣(mài)家添加,因而從這 些關(guān)鍵詞中選取簡(jiǎn)短精煉且高頻出現(xiàn)的詞列入分詞詞庫(kù)中,能最大程度保證分詞的準(zhǔn)確 性;
[0009] 所謂標(biāo)簽采集方法,指基于已構(gòu)建的分詞詞庫(kù),通過(guò)逆向最大匹配分詞算法對(duì)電 子商務(wù)中文網(wǎng)站內(nèi)所有商品名稱(chēng)進(jìn)行分詞處理;經(jīng)最大逆向匹配算法的分詞處理后,按照 漢語(yǔ)語(yǔ)法特點(diǎn),即在"形容詞+名詞"的語(yǔ)句形式中,名詞位于句末,進(jìn)而選取商品經(jīng)分詞處 理后形成的最后一個(gè)詞作為該商品的商品標(biāo)簽;最終,這些所有標(biāo)簽組成標(biāo)簽數(shù)據(jù)集合;
[0010] 所謂商品名稱(chēng),是指由商家自行添加的一段對(duì)商品的簡(jiǎn)短文字描述;
[0011] 所謂標(biāo)簽標(biāo)示商品的方法,指通過(guò)利用文本挖掘算法,尋找商品屬性和標(biāo)簽之間 的關(guān)系。特別地,利用文本挖掘算法的前提是商品屬性和標(biāo)簽都具備能體現(xiàn)兩者關(guān)系且有 代表性的內(nèi)容作為判斷依據(jù)。商品屬性能多方位表明商品特征,如果標(biāo)簽也有自己的特征 數(shù)據(jù),通過(guò)比較兩者在特征的相似性,即可確定商品屬性和標(biāo)簽之間的相似關(guān)系。
[0012] 進(jìn)一步的,標(biāo)簽標(biāo)不商品的方法具體包括的步驟有:
[0013] 步驟1 :標(biāo)簽特征的獲取
[0014] 在標(biāo)簽集合的基礎(chǔ)上確定隸屬每一個(gè)標(biāo)簽的特征信息。如果某個(gè)商品的標(biāo)簽出現(xiàn) 在某個(gè)商品的商品名稱(chēng)中,則默認(rèn)這個(gè)標(biāo)簽與該商品存在相關(guān)關(guān)系。
[0015] 按照上述思路,首先篩選出包含某一特定標(biāo)簽詞的商品名稱(chēng),然后根據(jù)商品名稱(chēng) 找到該商品的商品特征信息數(shù)據(jù),統(tǒng)計(jì)出所有商品特征信息數(shù)據(jù)作為該標(biāo)簽的特征信息數(shù) 據(jù);特別地,商品特征信息數(shù)據(jù)來(lái)自于商品屬性信息;
[0016] 步驟2 :判斷商品和標(biāo)簽間的相似關(guān)系
[0017] 基于某一標(biāo)簽的所有標(biāo)簽特征,分析每個(gè)標(biāo)簽特征的權(quán)重,評(píng)估每一個(gè)標(biāo)簽特征 在所有標(biāo)簽的特征中的代表性,具體包括:
[0018] 步驟2-1 :分析每一個(gè)標(biāo)簽特征在標(biāo)簽集合的分布情況:如果一個(gè)標(biāo)簽特征集中 于一個(gè)標(biāo)簽中,則默認(rèn)該標(biāo)簽特征的代表性強(qiáng);如果一個(gè)標(biāo)簽特征分布在多個(gè)標(biāo)簽中,則默 認(rèn)該標(biāo)簽特征的代表性不強(qiáng);
[0019] 步驟2-2 :參照TF*IDF權(quán)重計(jì)算方法,針對(duì)代表性強(qiáng)的標(biāo)簽特征,做加權(quán),權(quán)重為 標(biāo)簽特征在該標(biāo)簽中出現(xiàn)的頻次乘以初始權(quán)重;針對(duì)代表性弱的標(biāo)簽特征,做降權(quán),權(quán)重為 初始權(quán)重除以該標(biāo)簽在不同標(biāo)簽中出現(xiàn)的頻次;標(biāo)簽特征在標(biāo)簽中的權(quán)重Boost p可參照如 下公式:
[0021] 其中,count (p, t)表示標(biāo)簽特征p在標(biāo)簽t中出現(xiàn)的次數(shù),size (t)表示標(biāo)簽t所 包含的標(biāo)簽特征的個(gè)數(shù),N表示標(biāo)簽集合中的標(biāo)簽總數(shù),tags (p, t)表示包含標(biāo)簽特征p的 標(biāo)簽t的個(gè)數(shù)。
[0022] 步驟2-3 :將標(biāo)簽的特征信息集合和商品的特征信息集合分別抽象成一個(gè)多維的 空間向量,利用空間向量余弦相似性原理,通過(guò)計(jì)算兩個(gè)空間向量間的相似度,判定商品和 標(biāo)簽之間的相關(guān)關(guān)系;
[0023]
[0024] 步驟3 :確定商品的相關(guān)標(biāo)簽
[0025] 由于商品和標(biāo)簽之間的相關(guān)程度有高低好壞之分,因而標(biāo)簽和商品的相關(guān)程度系 數(shù)值還不足直接將標(biāo)簽賦予商品,需通過(guò)設(shè)定合理閥值,篩選出兩個(gè)空間向量間的相似度 即商品和標(biāo)簽之間相關(guān)關(guān)系系數(shù)在閥值之上的標(biāo)簽作為商品的標(biāo)簽,閥值范圍在〇~1之 間;閥值的設(shè)定可根據(jù)數(shù)據(jù)質(zhì)量要求給出嚴(yán)格或?qū)捤傻闹?,若希望商品搜索過(guò)程更嚴(yán)格,閥 值越接近1。此外,也可以取所有相關(guān)程度系數(shù)值的平均值作為閥值;
[0026] 特別地,為更準(zhǔn)確地選取商品的標(biāo)簽,可視情況控制每個(gè)商品的標(biāo)簽個(gè)數(shù),并選擇 限定個(gè)數(shù)以內(nèi)的最相關(guān)的標(biāo)簽作為商品標(biāo)簽。
[0027] 商品屬性信息代表了商品的若干特征,如果標(biāo)簽也有自己的特征數(shù)據(jù),那么我們 挖掘出兩者在特征數(shù)據(jù)之間的關(guān)系就能知道商品和標(biāo)簽的關(guān)系。
[0028] 本發(fā)明與現(xiàn)有技術(shù)相比,其有益效果:
[0029] (1)本發(fā)明利用商品關(guān)鍵詞構(gòu)建分詞詞庫(kù),實(shí)現(xiàn)基于網(wǎng)站內(nèi)現(xiàn)有商品的關(guān)鍵特 征對(duì)商品描述做分詞處理,從而保證分詞準(zhǔn)確性,有利于在商品描述中精確地鎖定商品名 稱(chēng);
[0030] (2)本發(fā)明通過(guò)辨識(shí)和確定標(biāo)簽的特征,將標(biāo)簽特征與商品特征進(jìn)行相似度比較, 從而確認(rèn)商品名稱(chēng)的相似名稱(chēng),為商品標(biāo)示更豐富的標(biāo)簽,完善商品信息,有助于在搜索過(guò) 程中提升搜索的召回率和準(zhǔn)確率;
[0031] (3)本發(fā)明通過(guò)為電子商務(wù)網(wǎng)站內(nèi)的商品找到實(shí)體標(biāo)簽和相關(guān)標(biāo)簽,在保證商品 標(biāo)簽更具
[0032] 客觀性的同時(shí),也能提尚商品彳目息的可靠性;
【附圖說(shuō)明】
[0033] 圖1本發(fā)明實(shí)施例中一種適用于電子商務(wù)中文網(wǎng)站商品標(biāo)簽化方法的結(jié)構(gòu)圖;
[0034] 圖2本發(fā)明實(shí)施例中標(biāo)簽標(biāo)示商品方法實(shí)現(xiàn)的流程圖;
[0035] 圖3本發(fā)明實(shí)施例中判定商品和標(biāo)簽間相似關(guān)系方法實(shí)現(xiàn)的流程圖。
【具體實(shí)施方式】
[0036] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照 附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
當(dāng)前第1頁(yè)
1 
2 
3