本申請(qǐng)涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種商品聚類方法、裝置及電子設(shè)備。本申請(qǐng)同時(shí)涉及一種文本摘要的生成方法、裝置及電子設(shè)備,一種圖片摘要的生成方法、裝置及電子設(shè)備,一種圖片質(zhì)量的評(píng)測(cè)方法、裝置及電子設(shè)備,以及一種商品標(biāo)簽名重要度的生成方法、裝置及電子設(shè)備。
背景技術(shù):
在傳統(tǒng)的購物網(wǎng)站中,對(duì)于用戶而言,商品標(biāo)簽的作用包括:1)幫助用戶篩選符合購買意圖的商品,即:通過標(biāo)簽導(dǎo)購的方式,幫助用戶進(jìn)行商品的篩選;2)幫助用戶進(jìn)行意圖商品的對(duì)比。當(dāng)前,主流的標(biāo)簽系統(tǒng)主要用于篩選商品,而不會(huì)用于商品的聚類。
用戶在購物網(wǎng)站中搜索某個(gè)商品或者某類商品時(shí),搜索結(jié)果大都會(huì)有若干重復(fù)或者相似的商品。由于商品的聚類概念不突出,因而導(dǎo)致對(duì)于具有同樣標(biāo)簽的商品,不能以商品聚類的形式將商品展現(xiàn)給用戶,即:商品同質(zhì)化。商品同質(zhì)化現(xiàn)象會(huì)帶來兩方面問題,一方面會(huì)使得用戶迷失在不是其購買意圖的商品中,難以準(zhǔn)確的直達(dá)其最想購買的商品,從而失去購物的興趣;另一方面,如果搜索結(jié)果列表頁面存在著多個(gè)購買意圖商品,由于這些商品是分散在眾多商品之中的,因此,用戶將很難對(duì)比這些商品,找到最符合其意圖的商品。
為了解決商品同質(zhì)化的問題,現(xiàn)有的購物網(wǎng)站主要通過人工運(yùn)營的方式,對(duì)商品進(jìn)行聚類,或是網(wǎng)站運(yùn)營人員,或是網(wǎng)站賣家。然而,人工運(yùn)營聚類方式存在兩個(gè)問題:1)人力成本巨大;2)能夠通過人工聚類的商品主要局限于標(biāo)準(zhǔn)商品,而對(duì)于非標(biāo)準(zhǔn)商品,人工標(biāo)注很難保證準(zhǔn)確。更嚴(yán)重問題的是,如果網(wǎng)站改變了商品聚類的規(guī)則,則需要人工重新對(duì)商品進(jìn)行聚類,從而導(dǎo)致極高的運(yùn)營成本。
綜上所述,現(xiàn)有技術(shù)存在無法自動(dòng)對(duì)商品進(jìn)行聚類的問題。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)?zhí)峁┮环N商品聚類方法、裝置及電子設(shè)備,以解決現(xiàn)有技術(shù)存在無法自動(dòng)對(duì)商品進(jìn)行聚類的問題。本申請(qǐng)另外提供一種文本摘要的生成方法、裝置及電子設(shè)備,一種圖片摘要的生成方法、裝置及電子設(shè)備,一種圖片質(zhì)量的評(píng)測(cè)方法、裝置及電子設(shè)備,以及一種商品標(biāo)簽名重要度的生成方法、裝置及電子設(shè)備。
本申請(qǐng)?zhí)峁┮环N商品聚類方法,包括:
獲取待聚類的商品集;
針對(duì)所述待聚類的商品集中各個(gè)待聚類商品,根據(jù)所述待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,生成所述待聚類商品的商品標(biāo)簽集;
根據(jù)所述各個(gè)待聚類商品的商品標(biāo)簽集,通過預(yù)設(shè)的聚類算法,對(duì)所述商品集中的商品進(jìn)行聚類。
可選的,所述根據(jù)所述待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,生成所述待聚類商品的商品標(biāo)簽集,包括:
根據(jù)所述待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,獲取所述待聚類商品所屬的商品類目的商品標(biāo)簽集;
將所述待聚類商品的屬性與所述待聚類商品所屬的商品類目的商品標(biāo)簽集中各個(gè)商品標(biāo)簽分別進(jìn)行文本匹配,將匹配成功的商品標(biāo)簽作為所述待聚類商品的商品標(biāo)簽。
可選的,所述商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,采用如下方式生成:
根據(jù)所述商品類目包括的商品屬性,生成所述商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系。
可選的,所述根據(jù)所述商品類目包括的商品屬性,生成所述商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,包括:
獲取所述商品類目包括的所述商品屬性;
通過預(yù)設(shè)的標(biāo)簽選取算法,從所述商品類目包括的所述商品屬性中選取具有商品區(qū)分意義的屬性組成所述商品類目的商品標(biāo)簽集。
可選的,所述預(yù)設(shè)的標(biāo)簽選取算法包括:基于規(guī)則的標(biāo)簽選取算法和基于信息熵的標(biāo)簽選取算法的至少一者。
可選的,所述基于規(guī)則的標(biāo)簽選取算法所基于的選取規(guī)則包括以下規(guī)則的至少一者:
去除不具有商品區(qū)分意義的商品屬性名所對(duì)應(yīng)的商品屬性;所述不具有商品區(qū)分意義的商品屬性名包括:商品產(chǎn)地或商品新舊程度;
去除不具有商品區(qū)分意義的商品屬性值所對(duì)應(yīng)的商品屬性;所述不具有商品區(qū)分意義的商品屬性值包括:日期或運(yùn)營性質(zhì)。
可選的,所述預(yù)設(shè)的標(biāo)簽選取算法采用所述基于信息熵的標(biāo)簽選取算法;
所述通過預(yù)設(shè)的標(biāo)簽選取算法,從所述商品類目包括的所述商品屬性中選取具有商品區(qū)分意義的屬性組成所述商品類目的商品標(biāo)簽集,包括:
獲取所述商品類目中商品的屬性名;
針對(duì)各個(gè)所述屬性名,根據(jù)所述屬性名對(duì)應(yīng)的屬性值,計(jì)算所述屬性名的信息熵;
將所述屬性名的信息熵小于等于最大信息熵閾值的屬性名作為具有商品區(qū)分意義的屬性名;
將所述具有商品區(qū)分意義的屬性名對(duì)應(yīng)的商品屬性作為所述具有商品區(qū)分意義的屬性,生成所述商品類目的商品標(biāo)簽集。
可選的,所述屬性名的信息熵,采用如下公式計(jì)算:
其中,pi為所述屬性名的第i個(gè)屬性值的出現(xiàn)頻率。
可選的,所述屬性值包括系統(tǒng)屬性值或自定義屬性值。
可選的,所述預(yù)設(shè)的聚類算法包括k-means聚類算法或密度聚類算法。
可選的,所述預(yù)設(shè)的聚類算法包括基于頻繁項(xiàng)集挖掘和累積權(quán)重匹配的聚類算法;
所述根據(jù)所述各個(gè)待聚類商品的商品標(biāo)簽集,通過預(yù)設(shè)的聚類算法,對(duì)所述商品集中的商品進(jìn)行聚類,包括:
根據(jù)所述各個(gè)待聚類商品的商品標(biāo)簽集,通過頻繁項(xiàng)集挖掘算法,生成多個(gè)頻繁商品標(biāo)簽集;
針對(duì)各個(gè)所述待聚類商品,根據(jù)預(yù)先生成的標(biāo)簽名的權(quán)重,計(jì)算所述待聚類商品的商品標(biāo)簽集分別與各個(gè)所述頻繁商品標(biāo)簽集的相似度;并選取所述相似度排在高位的所述頻繁商品標(biāo)簽集,作為與所述待聚類商品對(duì)應(yīng)的頻繁商品標(biāo)簽集;
將與同一所述頻繁商品標(biāo)簽集對(duì)應(yīng)的多個(gè)所述待聚類商品聚為一類。
可選的,所述頻繁商品標(biāo)簽集與所述商品類目相對(duì)應(yīng);所述通過頻繁項(xiàng)集挖掘算法,生成多個(gè)頻繁商品標(biāo)簽集,包括:
根據(jù)所述待聚類商品所屬的商品類目,獲取所述商品集與所述商品類目的對(duì)應(yīng)關(guān)系;
針對(duì)所述對(duì)應(yīng)關(guān)系中的各個(gè)商品類目,將屬于所述商品類目的所述待聚類商品的商品標(biāo)簽集作為與所述商品類目對(duì)應(yīng)的候選頻繁商品標(biāo)簽集;
針對(duì)與所述商品類目對(duì)應(yīng)的各個(gè)所述候選頻繁商品標(biāo)簽集,根據(jù)屬于所述商品類目的各個(gè)所述待聚類商品的預(yù)設(shè)事務(wù)屬性的屬性值,計(jì)算各個(gè)所述候選頻繁商品標(biāo)簽集的出現(xiàn)頻率;所述出現(xiàn)頻率是指,包括所述候選頻繁商品標(biāo)簽集的所述預(yù)設(shè)事務(wù)屬性的屬性值的種類數(shù);
針對(duì)所述各個(gè)商品類目,選取所述出現(xiàn)頻率大于預(yù)設(shè)的最小支持度閾值的所述候選頻繁商品標(biāo)簽集,作為屬于所述商品類目的所述頻繁商品標(biāo)簽集。
可選的,所述預(yù)設(shè)事務(wù)屬性包含商品標(biāo)識(shí)或公司標(biāo)識(shí)。
可選的,所述根據(jù)預(yù)先生成的標(biāo)簽名的權(quán)重,計(jì)算所述待聚類商品的商品標(biāo)簽集分別與各個(gè)所述頻繁商品標(biāo)簽集的相似度,包括:
針對(duì)各個(gè)所述頻繁商品標(biāo)簽集,判斷所述頻繁商品標(biāo)簽集中的各個(gè)商品標(biāo)簽是否均存在于所述待聚類商品的商品標(biāo)簽集中;
若上述判斷結(jié)果為是,則所述相關(guān)度為所述頻繁商品標(biāo)簽集中各個(gè)所述標(biāo)簽名的權(quán)重之和;
若上述判斷結(jié)果為否,則所述相關(guān)度為0。
可選的,所述標(biāo)簽名的權(quán)重,采用如下步驟生成:
獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果;
針對(duì)各個(gè)歷史查詢?cè)~,根據(jù)與所述歷史查詢?cè)~對(duì)應(yīng)的所述與用戶行為相關(guān)的商品搜索結(jié)果,獲取與所述歷史查詢?cè)~對(duì)應(yīng)的商品類目,生成歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系;
針對(duì)所述歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系中各個(gè)商品類目,根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);并根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的權(quán)重。
可選的,所述根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),包括:
針對(duì)與所述商品類目對(duì)應(yīng)的各個(gè)所述歷史查詢?cè)~,將所述歷史查詢?cè)~與所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽的標(biāo)簽值進(jìn)行文本匹配;若匹配成功,則將匹配成功的標(biāo)簽值的出現(xiàn)次數(shù)加一;
根據(jù)各個(gè)商品標(biāo)簽的標(biāo)簽值的出現(xiàn)次數(shù),計(jì)算所述各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)。
可選的,所述根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的重要度,包括:
根據(jù)所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算標(biāo)簽名的出現(xiàn)總次數(shù);
將所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)、與所述出現(xiàn)總次數(shù)的比值,作為各個(gè)標(biāo)簽名的重要度。
可選的,所述與用戶行為相關(guān)的商品搜索結(jié)果包括被用戶點(diǎn)擊的商品搜索結(jié)果或成交的商品搜索結(jié)果。
可選的,還包括:
針對(duì)各個(gè)商品聚類,為所述商品聚類生成文本摘要。
可選的,所述為所述商品聚類生成文本摘要,包括:
將所述商品聚類的商品標(biāo)簽集包括的商品標(biāo)簽與所述商品聚類所屬商品類目的名稱進(jìn)行文字拼接,生成所述商品聚類的多個(gè)候選文本摘要;
根據(jù)預(yù)先生成的語言模型,計(jì)算各個(gè)所述候選文本摘要的語言得分;
選取所述語言得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定候選文本摘要,作為所述商品聚類的文本摘要。
可選的,所述語言模型,采用如下方式生成:
根據(jù)預(yù)先存儲(chǔ)的語料庫,生成所述語言模型。
可選的,所述語言模型包括n-gram語言模型。
可選的,所述根據(jù)所述預(yù)先生成的語言模型,計(jì)算所述候選文本摘要的語言得分,采用如下公式計(jì)算:
其中,w為所述候選文本摘要,p(w)為所述候選文本摘要的似然概率值,s為所述候選文本摘要的起始符,n為所述候選文本摘要包括的詞數(shù)量,i為詞位置。
可選的,在所述將所述商品聚類的商品標(biāo)簽集包括的商品標(biāo)簽與所述商品聚類所屬商品類目的名稱進(jìn)行文字拼接之前,還包括:
根據(jù)預(yù)設(shè)的無效詞詞典,從所述商品標(biāo)簽集和所述商品聚類所屬商品類目的名稱中去除無效詞。
可選的,在所述將所述商品聚類的商品標(biāo)簽集包括的商品標(biāo)簽與所述商品聚類所屬商品類目的名稱進(jìn)行文字拼接之前,還包括:
從所述商品標(biāo)簽集和所述商品聚類所屬商品類目的名稱中去除重復(fù)詞。
可選的,所述將所述商品聚類的商品標(biāo)簽集包括的商品標(biāo)簽與所述商品聚類所屬商品類目的名稱進(jìn)行文字拼接,生成所述商品聚類的候選文本摘要,采用如下方式:
通過預(yù)設(shè)的剪枝算法,將所述商品聚類的商品標(biāo)簽集包括的商品標(biāo)簽與所述商品聚類所屬商品類目的名稱進(jìn)行文字拼接,生成所述候選文本摘要。
可選的,所述預(yù)設(shè)的剪枝算法包括:定向搜索剪枝算法或柱搜索剪枝算法。
可選的,還包括:
針對(duì)各個(gè)商品聚類,為所述商品聚類生成圖片摘要。
可選的,所述為所述商品聚類生成圖片摘要,包括:
獲取所述商品聚類中各個(gè)所述待聚類商品的商品圖片的質(zhì)量得分;以及獲取各個(gè)所述待聚類商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù);
根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算各個(gè)所述商品圖片作為圖片摘要的得分;
選取所述作為圖片摘要的得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定商品圖片,作為所述商品聚類的圖片摘要。
可選的,所述商品圖片的質(zhì)量得分,采用如下步驟計(jì)算:
獲取所述商品圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征;
根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述商品圖片的質(zhì)量得分。
可選的,所述圖片特征包括:圖片高度、圖片寬度、圖片寬高比、圖片邊框面積的占比、圖片的子圖數(shù)量、圖片中干擾部分的占比、圖片背景的復(fù)雜度、圖片前景的醒目度和圖片白背景率的至少一者。
可選的,所述圖片質(zhì)量預(yù)測(cè)模型,采用如下方式生成:
通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注圖片質(zhì)量的歷史圖片特征集中學(xué)習(xí)獲得所述圖片質(zhì)量預(yù)測(cè)模型。
可選的,所述機(jī)器學(xué)習(xí)算法包括回歸算法;所述回歸算法包括線性回歸算法、邏輯回歸算法或gbdt回歸決策樹算法。
可選的,所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)包括:商品轉(zhuǎn)換率得分、商品交易數(shù)或商品點(diǎn)擊數(shù)。
可選的,所述商品轉(zhuǎn)換率得分,采用如下公式計(jì)算:
cvr_score=∑e-λδt(w1*click_cnt+w2*trade_cnt)
其中,crv_score為商品轉(zhuǎn)換率得分,
可選的,所述根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算所述商品圖片作為圖片摘要的得分,采用如下方式:
根據(jù)為所述商品圖片的質(zhì)量預(yù)設(shè)的權(quán)重、及為各個(gè)所述用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)分別預(yù)設(shè)的權(quán)重,對(duì)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)進(jìn)行線性加權(quán)組合,將加權(quán)組合值作為所述商品圖片作為圖片摘要的得分。
可選的,各個(gè)所述預(yù)設(shè)的權(quán)重包括經(jīng)驗(yàn)值;所述用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)采用商品轉(zhuǎn)換率得分;所述根據(jù)所述商品圖片的質(zhì)量得分和所述用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算所述商品圖片作為圖片摘要的得分,采用如下公式計(jì)算:
abs_scoreoffer=w3*cvr_scoreoffer+w4*pic_scorreoffer
其中,abs_scoreoffer為所述商品圖片作為圖片摘要的得分,crv_scoreoffer為所述商品轉(zhuǎn)換率得分,w3為所述商品轉(zhuǎn)換率得分的權(quán)重,pic_scoreoffer為所述商品圖片的質(zhì)量得分,w4為所述商品圖片的質(zhì)量得分的權(quán)重。
可選的,所述根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算所述商品圖片作為圖片摘要的得分,采用如下方式:
根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),通過預(yù)先生成的圖片摘要得分預(yù)測(cè)模型,計(jì)算所述商品圖片作為圖片摘要的得分。
可選的,通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注商品圖片作為圖片摘要的得分的歷史圖片摘要特征集中學(xué)習(xí)獲得所述圖片摘要得分預(yù)測(cè)模型;所述圖片摘要特征包括:歷史商品的商品圖片的質(zhì)量、及歷史商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)。
可選的,還包括:
根據(jù)所述待聚類商品所屬的商品聚類,分類顯示所述待聚類商品。
可選的,在所述獲取待聚類的商品集之后,還包括:
對(duì)所述待聚類商品進(jìn)行篩選,去除無效商品。
可選的,所述無效商品包括:曝光次數(shù)低于預(yù)設(shè)的最小曝光次數(shù)閾值的商品、信息質(zhì)量低于預(yù)設(shè)的最小信息質(zhì)量閾值的商品或被評(píng)測(cè)為欺詐的商品。
相應(yīng)的,本申請(qǐng)還提供一種商品聚類裝置,包括:
獲取單元,用于獲取待聚類的商品集;
生成標(biāo)簽單元,用于針對(duì)所述待聚類的商品集中各個(gè)待聚類商品,根據(jù)所述待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,生成所述待聚類商品的商品標(biāo)簽集;
聚類單元,用于根據(jù)所述各個(gè)待聚類商品的商品標(biāo)簽集,通過預(yù)設(shè)的聚類算法,對(duì)所述商品集中的商品進(jìn)行聚類。
可選的,所述生成標(biāo)簽單元包括:
獲取子單元,用于根據(jù)所述待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,獲取所述待聚類商品所屬的商品類目的商品標(biāo)簽集;
匹配子單元,用于將所述待聚類商品的屬性與所述待聚類商品所屬的商品類目的商品標(biāo)簽集中各個(gè)商品標(biāo)簽分別進(jìn)行文本匹配,將匹配成功的商品標(biāo)簽作為所述待聚類商品的商品標(biāo)簽。
可選的,還包括:
生成對(duì)應(yīng)關(guān)系單元,用于生成所述商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系。
可選的,所述生成對(duì)應(yīng)關(guān)系單元包括:
獲取子單元,用于獲取所述商品類目包括的所述商品屬性;
選取子單元,用于通過預(yù)設(shè)的標(biāo)簽選取算法,從所述商品類目包括的所述商品屬性中選取具有商品區(qū)分意義的屬性組成所述商品類目的商品標(biāo)簽集。
可選的,所述預(yù)設(shè)的標(biāo)簽選取算法采用基于信息熵的標(biāo)簽選取算法;
所述選取子單元包括:
獲取子單元,用于獲取所述商品類目中商品的屬性名;
計(jì)算子單元,用于針對(duì)各個(gè)所述屬性名,根據(jù)所述屬性名對(duì)應(yīng)的屬性值,計(jì)算所述屬性名的信息熵;
選取子單元,用于將所述屬性名的信息熵小于等于最大信息熵閾值的屬性名作為具有商品區(qū)分意義的屬性名;
生成子單元,用于將所述具有商品區(qū)分意義的屬性名對(duì)應(yīng)的商品屬性作為所述具有商品區(qū)分意義的屬性,生成所述商品類目的商品標(biāo)簽集。
可選的,所述預(yù)設(shè)的聚類算法包括基于頻繁項(xiàng)集挖掘和累積權(quán)重匹配的聚類算法;
所述聚類單元包括:
生成子單元,用于根據(jù)所述各個(gè)待聚類商品的商品標(biāo)簽集,通過頻繁項(xiàng)集挖掘算法,生成多個(gè)頻繁商品標(biāo)簽集;
匹配子單元,用于針對(duì)各個(gè)所述待聚類商品,根據(jù)預(yù)先生成的標(biāo)簽名的權(quán)重,計(jì)算所述待聚類商品的商品標(biāo)簽集分別與各個(gè)所述頻繁商品標(biāo)簽集的相似度;并選取所述相似度排在高位的所述頻繁商品標(biāo)簽集,作為與所述待聚類商品對(duì)應(yīng)的頻繁商品標(biāo)簽集;
聚類子單元,用于將與同一所述頻繁商品標(biāo)簽集對(duì)應(yīng)的多個(gè)所述待聚類商品聚為一類。
可選的,所述頻繁商品標(biāo)簽集與所述商品類目相對(duì)應(yīng);所述生成子單元包括:
獲取子單元,用于根據(jù)所述待聚類商品所屬的商品類目,獲取所述商品集與所述商品類目的對(duì)應(yīng)關(guān)系;
生成候選子單元,用于針對(duì)所述對(duì)應(yīng)關(guān)系中的各個(gè)商品類目,將屬于所述商品類目的所述待聚類商品的商品標(biāo)簽集作為與所述商品類目對(duì)應(yīng)的候選頻繁商品標(biāo)簽集;
計(jì)算子單元,用于針對(duì)與所述商品類目對(duì)應(yīng)的各個(gè)所述候選頻繁商品標(biāo)簽集,根據(jù)屬于所述商品類目的各個(gè)所述待聚類商品的預(yù)設(shè)事務(wù)屬性的屬性值,計(jì)算各個(gè)所述候選頻繁商品標(biāo)簽集的出現(xiàn)頻率;所述出現(xiàn)頻率是指,包括所述候選頻繁商品標(biāo)簽集的所述預(yù)設(shè)事務(wù)屬性的屬性值的種類數(shù);
選取子單元,用于針對(duì)所述各個(gè)商品類目,選取所述出現(xiàn)頻率大于預(yù)設(shè)的最小支持度閾值的所述候選頻繁商品標(biāo)簽集,作為屬于所述商品類目的所述頻繁商品標(biāo)簽集。
可選的,所述匹配子單元包括:
計(jì)算子單元,用于根據(jù)預(yù)先生成的標(biāo)簽名的權(quán)重,計(jì)算所述待聚類商品的商品標(biāo)簽集分別與各個(gè)所述頻繁商品標(biāo)簽集的相似度;
所述計(jì)算子單元包括:
判斷子單元,用于針對(duì)各個(gè)所述頻繁商品標(biāo)簽集,判斷所述頻繁商品標(biāo)簽集中的各個(gè)商品標(biāo)簽是否均存在于所述待聚類商品的商品標(biāo)簽集中;
判斷是子單元,用于若上述判斷結(jié)果為是,則所述相關(guān)度為所述頻繁商品標(biāo)簽集中各個(gè)所述標(biāo)簽名的權(quán)重之和;
判斷否子單元,用于若上述判斷結(jié)果為否,則所述相關(guān)度為0。
可選的,還包括:
生成權(quán)重單元,用于生成所述標(biāo)簽名的權(quán)重。
可選的,所述生成權(quán)重單元包括:
獲取子單元,用于獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果;
生成子單元,用于針對(duì)各個(gè)歷史查詢?cè)~,根據(jù)與所述歷史查詢?cè)~對(duì)應(yīng)的所述與用戶行為相關(guān)的商品搜索結(jié)果,獲取與所述歷史查詢?cè)~對(duì)應(yīng)的商品類目,生成歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系;
計(jì)算子單元,用于針對(duì)所述歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系中各個(gè)商品類目,根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);并根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的權(quán)重。
可選的,所述計(jì)算子單元包括:
第一計(jì)算子單元,用于根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);
所述第一計(jì)算子單元包括:
匹配子單元,用于針對(duì)與所述商品類目對(duì)應(yīng)的各個(gè)所述歷史查詢?cè)~,將所述歷史查詢?cè)~與所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽的標(biāo)簽值進(jìn)行文本匹配;若匹配成功,則將匹配成功的標(biāo)簽值的出現(xiàn)次數(shù)加一;
計(jì)算頻度子單元,用于根據(jù)各個(gè)商品標(biāo)簽的標(biāo)簽值的出現(xiàn)次數(shù),計(jì)算所述各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)。
可選的,所述計(jì)算子單元包括:
第二計(jì)算子單元,用于根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的重要度;
所述第二計(jì)算子單元包括:
計(jì)算總頻度子單元,用于根據(jù)所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算標(biāo)簽名的出現(xiàn)總次數(shù);
計(jì)算權(quán)重子單元,用于將所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)、與所述出現(xiàn)總次數(shù)的比值,作為各個(gè)標(biāo)簽名的重要度。
可選的,還包括:
生成文本摘要單元,用于針對(duì)各個(gè)商品聚類,為所述商品聚類生成文本摘要。
可選的,所述生成文本摘要單元包括:
生成候選摘要子單元,用于將所述商品聚類的商品標(biāo)簽集包括的商品標(biāo)簽與所述商品聚類所屬商品類目的名稱進(jìn)行文字拼接,生成所述商品聚類的多個(gè)候選文本摘要;
計(jì)算子單元,用于根據(jù)預(yù)先生成的語言模型,計(jì)算各個(gè)所述候選文本摘要的語言得分;
選取子單元,用于選取所述語言得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定候選文本摘要,作為所述商品聚類的文本摘要。
可選的,所述生成文本摘要單元還包括:
生成語言模型子單元,用于生成所述語言模型。
可選的,所述生成文本摘要單元還包括:
第一過濾子單元,用于根據(jù)預(yù)設(shè)的無效詞詞典,從所述商品標(biāo)簽集和所述商品聚類所屬商品類目的名稱中去除無效詞。
可選的,所述生成文本摘要單元還包括:
第二過濾子單元,用于從所述商品標(biāo)簽集和所述商品聚類所屬商品類目的名稱中去除重復(fù)詞。
可選的,還包括:
生成圖片摘要單元,用于針對(duì)各個(gè)商品聚類,為所述商品聚類生成圖片摘要。
可選的,所述生成圖片摘要單元包括:
獲取子單元,用于獲取所述商品聚類中各個(gè)所述待聚類商品的商品圖片的質(zhì)量得分;以及獲取各個(gè)所述待聚類商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù);
計(jì)算子單元,用于根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算各個(gè)所述商品圖片作為圖片摘要的得分;
選取子單元,用于選取所述作為圖片摘要的得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定商品圖片,作為所述商品聚類的圖片摘要。
可選的,所述生成圖片摘要單元還包括:
生成圖片質(zhì)量子單元,用于計(jì)算所述商品圖片的質(zhì)量得分。
可選的,所述生成圖片質(zhì)量子單元包括:
獲取子單元,用于獲取所述商品圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征;
計(jì)算子單元,用于根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述商品圖片的質(zhì)量得分。
可選的,所述生成圖片摘要單元還包括:
生成模型子單元,用于生成所述圖片質(zhì)量預(yù)測(cè)模型。
可選的,還包括:
顯示單元,用于根據(jù)所述待聚類商品所屬的商品聚類,分類顯示所述待聚類商品。
可選的,還包括:
篩選單元,用于對(duì)所述待聚類商品進(jìn)行篩選,去除無效商品。
相應(yīng)的,本申請(qǐng)還提供一種電子設(shè)備,包括:
顯示器;
處理器;以及
存儲(chǔ)器,所述存儲(chǔ)器被配置成存儲(chǔ)商品聚類裝置,所述商品聚類裝置被所述處理器執(zhí)行時(shí),包括如下步驟:獲取待聚類的商品集;針對(duì)所述待聚類的商品集中各個(gè)待聚類商品,根據(jù)所述待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,生成所述待聚類商品的商品標(biāo)簽集;根據(jù)所述各個(gè)待聚類商品的商品標(biāo)簽集,通過預(yù)設(shè)的聚類算法,對(duì)所述商品集中的商品進(jìn)行聚類。
此外,本申請(qǐng)還提供一種文本摘要的生成方法,用于對(duì)象聚類,包括:
獲取待處理的對(duì)象聚類及其標(biāo)簽集;所述對(duì)象聚類包括的對(duì)象屬于同一對(duì)象類目;
將所述標(biāo)簽集包括的標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接,生成所述對(duì)象聚類的多個(gè)候選文本摘要;
通過預(yù)先生成的語言模型,計(jì)算各個(gè)所述候選文本摘要的語言得分;
選取所述語言得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定候選文本摘要,作為所述對(duì)象聚類的文本摘要。
可選的,所述語言模型,采用如下方式生成:
根據(jù)預(yù)先存儲(chǔ)的語料庫,生成所述語言模型。
可選的,所述語言模型包括n-gram語言模型。
可選的,所述根據(jù)所述預(yù)先生成的語言模型,計(jì)算所述候選文本摘要的語言得分,采用如下公式計(jì)算:
其中,w為所述候選文本摘要,p(w)為所述候選文本摘要的似然概率值,s為所述候選文本摘要的起始符,n為所述候選文本摘要包括的詞數(shù)量,i為詞位置。
可選的,在所述將所述標(biāo)簽集包括的標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接之前,還包括:
根據(jù)預(yù)設(shè)的無效詞詞典,從所述標(biāo)簽集和所述對(duì)象類目的名稱中去除無效詞。
可選的,在所述將所述標(biāo)簽集包括的標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接之前,還包括:
從所述標(biāo)簽集和所述對(duì)象類目的名稱中去除重復(fù)詞。
可選的,所述將所述標(biāo)簽集包括的標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接,生成所述對(duì)象聚類的多個(gè)候選文本摘要,采用如下方式:
通過預(yù)設(shè)的剪枝算法,將所述標(biāo)簽集中的各個(gè)標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接,生成所述候選文本摘要。
可選的,所述預(yù)設(shè)的剪枝算法包括:定向搜索剪枝算法或柱搜索剪枝算法。
可選的,所述對(duì)象包括商品對(duì)象。
相應(yīng)的,本申請(qǐng)還提供一種文本摘要的生成裝置,用于對(duì)象聚類,包括:
獲取單元,用于獲取待處理的對(duì)象聚類及其標(biāo)簽集;所述對(duì)象聚類包括的對(duì)象屬于同一對(duì)象類目;
生成候選單元,用于將所述標(biāo)簽集包括的標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接,生成所述對(duì)象聚類的多個(gè)候選文本摘要;
計(jì)算單元,用于通過預(yù)先生成的語言模型,計(jì)算各個(gè)所述候選文本摘要的語言得分;
選取單元,用于選取所述語言得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定候選文本摘要,作為所述對(duì)象聚類的文本摘要。
可選的,還包括:
生成模型單元,用于根據(jù)預(yù)先存儲(chǔ)的語料庫,生成所述語言模型。
可選的,還包括:
第一過濾單元,用于根據(jù)預(yù)設(shè)的無效詞詞典,從所述標(biāo)簽集和所述對(duì)象類目的名稱中去除無效詞。
可選的,還包括:
第二過濾單元,用于從所述標(biāo)簽集和所述對(duì)象類目的名稱中去除重復(fù)詞。
相應(yīng)的,本申請(qǐng)還提供一種電子設(shè)備,包括:
顯示器;
處理器;以及
存儲(chǔ)器,所述存儲(chǔ)器被配置成存儲(chǔ)文本摘要的生成裝置,所述文本摘要的生成裝置被所述處理器執(zhí)行時(shí),包括如下步驟:獲取待處理的對(duì)象聚類及其標(biāo)簽集;所述對(duì)象聚類包括的對(duì)象屬于同一對(duì)象類目;將所述標(biāo)簽集包括的標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接,生成所述對(duì)象聚類的多個(gè)候選文本摘要;通過預(yù)先生成的語言模型,計(jì)算各個(gè)所述候選文本摘要的語言得分;選取所述語言得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定候選文本摘要,作為所述對(duì)象聚類的文本摘要。
此外,本申請(qǐng)還提供一種圖片摘要的生成方法,包括:
獲取待處理的商品集中各個(gè)商品的商品圖片的質(zhì)量得分;以及獲取各個(gè)所述商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù);
根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算各個(gè)所述商品圖片作為圖片摘要的得分;
選取所述作為圖片摘要的得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定商品圖片,作為所述商品集的圖片摘要。
可選的,所述商品圖片的質(zhì)量得分,采用如下步驟計(jì)算:
獲取所述商品圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征;
根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述商品圖片的質(zhì)量得分。
可選的,所述圖片特征包括:圖片高度、圖片寬度、圖片寬高比、圖片邊框面積的占比、圖片的子圖數(shù)量、圖片中干擾部分的占比、圖片背景的復(fù)雜度、圖片前景的醒目度和圖片白背景率的至少一者。
可選的,所述圖片質(zhì)量預(yù)測(cè)模型,采用如下方式生成:
通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注圖片質(zhì)量的歷史圖片特征集中學(xué)習(xí)獲得所述圖片質(zhì)量預(yù)測(cè)模型。
可選的,所述機(jī)器學(xué)習(xí)算法包括回歸算法;所述回歸算法包括線性回歸算法、邏輯回歸算法或gbdt回歸決策樹算法。
可選的,所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)包括:商品轉(zhuǎn)換率得分、商品交易數(shù)或商品點(diǎn)擊數(shù)。
可選的,所述商品轉(zhuǎn)換率得分,采用如下公式計(jì)算:
cvr_score=∑e-λδt(w1*click_cnt+w2*trade_cnt)
其中,crv_score為商品轉(zhuǎn)換率得分,
可選的,所述根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算所述商品圖片作為圖片摘要的得分,采用如下方式:
根據(jù)為所述商品圖片的質(zhì)量預(yù)設(shè)的權(quán)重、及為各個(gè)所述用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)分別預(yù)設(shè)的權(quán)重,對(duì)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)進(jìn)行線性加權(quán)組合,將加權(quán)組合值作為所述商品圖片作為圖片摘要的得分。
可選的,各個(gè)所述預(yù)設(shè)的權(quán)重包括經(jīng)驗(yàn)值;所述用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)采用商品轉(zhuǎn)換率得分;所述根據(jù)所述商品圖片的質(zhì)量得分和所述用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算所述商品圖片作為圖片摘要的得分,采用如下公式計(jì)算:
abs_scoreoffer=w3*cvr_scoreoffer+w4*pic_scoreoffer
其中,abs_scoreoffer為所述商品圖片作為圖片摘要的得分,crv_scoreoffer為所述商品轉(zhuǎn)換率得分,w3為所述商品轉(zhuǎn)換率得分的權(quán)重,pic_scoreoffer為所述商品圖片的質(zhì)量得分,w4為所述商品圖片的質(zhì)量得分的權(quán)重。
可選的,所述根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算所述商品圖片作為圖片摘要的得分,采用如下方式:
根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),通過預(yù)先生成的圖片摘要得分預(yù)測(cè)模型,計(jì)算所述商品圖片作為圖片摘要的得分。
可選的,通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注商品圖片作為圖片摘要的得分的歷史圖片摘要特征集中學(xué)習(xí)獲得所述圖片摘要得分預(yù)測(cè)模型;所述圖片摘要特征包括:歷史商品的商品圖片的質(zhì)量、及歷史商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)。
相應(yīng)的,本申請(qǐng)還提供一種圖片摘要的生成的裝置,包括:
獲取單元,用于獲取待處理的商品集中各個(gè)商品的商品圖片的質(zhì)量得分;以及獲取各個(gè)所述商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù);
計(jì)算單元,用于根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算各個(gè)所述商品圖片作為圖片摘要的得分;
選取單元,用于選取所述作為圖片摘要的得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定商品圖片,作為所述商品集的圖片摘要。
可選的,還包括:
生成圖片質(zhì)量單元,用于計(jì)算所述商品圖片的質(zhì)量得分。
可選的,所述生成圖片質(zhì)量單元包括:
獲取子單元,用于獲取所述商品圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征;
計(jì)算子單元,用于根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述商品圖片的質(zhì)量得分。
可選的,還包括:
生成模型子單元,用于通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注圖片質(zhì)量的歷史圖片特征集中學(xué)習(xí)獲得所述圖片質(zhì)量預(yù)測(cè)模型。
相應(yīng)的,本申請(qǐng)還提供一種電子設(shè)備,包括:
顯示器;
處理器;以及
存儲(chǔ)器,所述存儲(chǔ)器被配置成存儲(chǔ)圖片摘要的生成裝置,所述圖片摘要的生成裝置被所述處理器執(zhí)行時(shí),包括如下步驟:獲取待處理的商品集中各個(gè)商品的商品圖片的質(zhì)量得分;以及獲取各個(gè)所述商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù);根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算各個(gè)所述商品圖片作為圖片摘要的得分;選取所述作為圖片摘要的得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定商品圖片,作為所述商品集的圖片摘要。
此外,本申請(qǐng)還提供一種圖片質(zhì)量的評(píng)測(cè)方法,包括:
獲取待計(jì)算圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征;
根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述待計(jì)算圖片的質(zhì)量得分。
可選的,所述圖片特征包括:圖片高度、圖片寬度、圖片寬高比、圖片邊框面積的占比、圖片的子圖數(shù)量、圖片中干擾部分的占比、圖片背景的復(fù)雜度、圖片前景的醒目度和圖片白背景率的至少一者。
可選的,所述圖片質(zhì)量預(yù)測(cè)模型,采用如下方式生成:
通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注圖片質(zhì)量的歷史圖片特征集中學(xué)習(xí)獲得所述圖片質(zhì)量預(yù)測(cè)模型。
可選的,所述機(jī)器學(xué)習(xí)算法包括回歸算法;所述回歸算法包括線性回歸算法、邏輯回歸算法或gbdt回歸決策樹算法。
相應(yīng)的,本申請(qǐng)還提供一種圖片質(zhì)量的評(píng)測(cè)裝置,包括:
獲取單元,用于獲取待計(jì)算圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征;
計(jì)算單元,用于根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述待計(jì)算圖片的質(zhì)量得分。
可選的,還包括:
生成單元,用于通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注圖片質(zhì)量的歷史圖片特征集中學(xué)習(xí)獲得所述圖片質(zhì)量預(yù)測(cè)模型。
相應(yīng)的,本申請(qǐng)還提供一種電子設(shè)備,包括:
顯示器;
處理器;以及
存儲(chǔ)器,所述存儲(chǔ)器被配置成存儲(chǔ)圖片質(zhì)量的評(píng)測(cè)裝置,所述圖片質(zhì)量的評(píng)測(cè)裝置被所述處理器執(zhí)行時(shí),包括如下步驟:獲取待計(jì)算圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征;根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述待計(jì)算圖片的質(zhì)量得分。
此外,本申請(qǐng)還提供一種商品標(biāo)簽名重要度的生成方法,包括:
獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果;
針對(duì)各個(gè)歷史查詢?cè)~,根據(jù)與所述歷史查詢?cè)~對(duì)應(yīng)的所述與用戶行為相關(guān)的商品搜索結(jié)果,獲取與所述歷史查詢?cè)~對(duì)應(yīng)的商品類目,生成歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系;
針對(duì)所述歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系中各個(gè)商品類目,根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);并根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的權(quán)重。
可選的,所述根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),包括:
針對(duì)與所述商品類目對(duì)應(yīng)的各個(gè)所述歷史查詢?cè)~,將所述歷史查詢?cè)~與所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽的標(biāo)簽值進(jìn)行文本匹配;若匹配成功,則將匹配成功的標(biāo)簽值的出現(xiàn)次數(shù)加一;
根據(jù)各個(gè)商品標(biāo)簽的標(biāo)簽值的出現(xiàn)次數(shù),計(jì)算所述各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)。
可選的,所述根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的重要度,包括:
根據(jù)所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算標(biāo)簽名的出現(xiàn)總次數(shù);
將所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)、與所述出現(xiàn)總次數(shù)的比值,作為各個(gè)標(biāo)簽名的重要度。
可選的,所述與用戶行為相關(guān)的商品搜索結(jié)果包括被用戶點(diǎn)擊的商品搜索結(jié)果或成交的商品搜索結(jié)果。
可選的,所述商品類目的商品標(biāo)簽集,采用如下方式生成:
根據(jù)所述商品類目包括的商品屬性,生成所述商品類目的商品標(biāo)簽集。
可選的,所述根據(jù)所述商品類目包括的商品屬性,生成所述商品類目的商品標(biāo)簽集,包括:
獲取所述商品類目包括的所述商品屬性;
通過預(yù)設(shè)的標(biāo)簽選取算法,從所述商品類目包括的所述商品屬性中選取具有商品區(qū)分意義的屬性組成所述商品類目的商品標(biāo)簽集。
可選的,所述預(yù)設(shè)的標(biāo)簽選取算法包括:基于規(guī)則的標(biāo)簽選取算法或基于信息熵的標(biāo)簽選取算法的至少一者。
可選的,所述基于規(guī)則的標(biāo)簽選取算法所基于的選取規(guī)則包括以下規(guī)則的至少一者:
去除不具有商品區(qū)分意義的商品屬性名所對(duì)應(yīng)的商品屬性;所述不具有商品區(qū)分意義的商品屬性名包括:商品產(chǎn)地或商品新舊程度;
去除不具有商品區(qū)分意義的商品屬性值所對(duì)應(yīng)的商品屬性;所述不具有商品區(qū)分意義的商品屬性值包括:日期或運(yùn)營性質(zhì)。
可選的,所述預(yù)設(shè)的標(biāo)簽選取算法采用所述基于信息熵的標(biāo)簽選取算法;
所述通過預(yù)設(shè)的標(biāo)簽選取算法,從所述商品類目包括的所述商品屬性中選取具有商品區(qū)分意義的屬性組成所述商品類目的商品標(biāo)簽集,包括:
獲取所述商品類目中商品的屬性名;
針對(duì)各個(gè)所述屬性名,根據(jù)所述屬性名對(duì)應(yīng)的屬性值,計(jì)算所述屬性名的信息熵;
將所述屬性名的信息熵小于等于最大信息熵閾值的屬性名作為具有商品區(qū)分意義的屬性名;
將所述具有商品區(qū)分意義的屬性名對(duì)應(yīng)的商品屬性作為所述具有商品區(qū)分意義的屬性,生成所述商品類目的商品標(biāo)簽集。
可選的,所述屬性名的信息熵,采用如下公式計(jì)算:
其中,pi為所述屬性名的第i個(gè)屬性值的出現(xiàn)頻率。
可選的,所述屬性值包括系統(tǒng)屬性值或自定義屬性值。
相應(yīng)的,本申請(qǐng)還提供一種商品標(biāo)簽名重要度的生成裝置,包括:
獲取單元,用于獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果;
生成單元,用于針對(duì)各個(gè)歷史查詢?cè)~,根據(jù)與所述歷史查詢?cè)~對(duì)應(yīng)的所述與用戶行為相關(guān)的商品搜索結(jié)果,獲取與所述歷史查詢?cè)~對(duì)應(yīng)的商品類目,生成歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系;
計(jì)算單元,用于針對(duì)所述歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系中各個(gè)商品類目,根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);并根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的權(quán)重。
可選的,所述計(jì)算單元包括:
第一計(jì)算子單元,用于根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);
所述第一計(jì)算子單元包括:
匹配子單元,用于針對(duì)與所述商品類目對(duì)應(yīng)的各個(gè)所述歷史查詢?cè)~,將所述歷史查詢?cè)~與所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽的標(biāo)簽值進(jìn)行文本匹配;若匹配成功,則將匹配成功的標(biāo)簽值的出現(xiàn)次數(shù)加一;
計(jì)算頻度子單元,用于根據(jù)各個(gè)商品標(biāo)簽的標(biāo)簽值的出現(xiàn)次數(shù),計(jì)算所述各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)。
可選的,所述計(jì)算單元包括:
第二計(jì)算子單元,用于根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的重要度;
所述第二計(jì)算子單元包括:
計(jì)算總頻度子單元,用于根據(jù)所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算標(biāo)簽名的出現(xiàn)總次數(shù);
計(jì)算權(quán)重子單元,用于將所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)、與所述出現(xiàn)總次數(shù)的比值,作為各個(gè)標(biāo)簽名的重要度。
可選的,還包括:
生成單元,用于根據(jù)所述商品類目包括的商品屬性,生成所述商品類目的商品標(biāo)簽集。
可選的,所述生成單元包括:
獲取子單元,用于獲取所述商品類目包括的所述商品屬性;
選取子單元,用于通過預(yù)設(shè)的標(biāo)簽選取算法,從所述商品類目包括的所述商品屬性中選取具有商品區(qū)分意義的屬性組成所述商品類目的商品標(biāo)簽集。
可選的,所述預(yù)設(shè)的標(biāo)簽選取算法采用所述基于信息熵的標(biāo)簽選取算法;
所述選取子單元包括:
獲取子單元,用于獲取所述商品類目中商品的屬性名;
計(jì)算子單元,用于針對(duì)各個(gè)所述屬性名,根據(jù)所述屬性名對(duì)應(yīng)的屬性值,計(jì)算所述屬性名的信息熵;
選取子單元,用于將所述屬性名的信息熵小于等于最大信息熵閾值的屬性名作為具有商品區(qū)分意義的屬性名;
生成子單元,用于將所述具有商品區(qū)分意義的屬性名對(duì)應(yīng)的商品屬性作為所述具有商品區(qū)分意義的屬性,生成所述商品類目的商品標(biāo)簽集。
相應(yīng)的,本申請(qǐng)還提供一種電子設(shè)備,包括:
顯示器;
處理器;以及
存儲(chǔ)器,所述存儲(chǔ)器被配置成存儲(chǔ)商品標(biāo)簽名重要度的生成裝置,所述商品標(biāo)簽名重要度的生成裝置被所述處理器執(zhí)行時(shí),包括如下步驟:獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果;針對(duì)各個(gè)歷史查詢?cè)~,根據(jù)與所述歷史查詢?cè)~對(duì)應(yīng)的所述與用戶行為相關(guān)的商品搜索結(jié)果,獲取與所述歷史查詢?cè)~對(duì)應(yīng)的商品類目,生成歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系;針對(duì)所述歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系中各個(gè)商品類目,根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);并根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的權(quán)重。
與現(xiàn)有技術(shù)相比,本申請(qǐng)具有以下優(yōu)點(diǎn):
本申請(qǐng)?zhí)峁┑纳唐肪垲惙椒?、裝置及電子設(shè)備,通過獲取待分類的商品集;根據(jù)各個(gè)待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,生成各個(gè)待聚類商品的商品標(biāo)簽集;根據(jù)各個(gè)待聚類商品的商品標(biāo)簽集,通過預(yù)設(shè)的聚類算法,將商品集中的相似商品自動(dòng)聚合于同一類別,進(jìn)而能夠以聚類列表的方式將商品展現(xiàn)給用戶,而非以商品列表的方式將商品展現(xiàn)給用戶,避免商品同質(zhì)化現(xiàn)象的發(fā)生,從而達(dá)到提高用戶體驗(yàn)的效果。
附圖說明
圖1是本申請(qǐng)的商品聚類方法實(shí)施例的流程圖;
圖2是本申請(qǐng)的商品聚類方法實(shí)施例生成商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系的具體流程圖;
圖3是本申請(qǐng)的商品聚類方法實(shí)施例步驟s203的具體流程圖;
圖4是本申請(qǐng)的商品聚類方法實(shí)施例生成待聚類商品的商品標(biāo)簽集的具體流程圖;
圖5是本申請(qǐng)的商品聚類方法實(shí)施例步驟s105的具體流程圖;
圖6是本申請(qǐng)的商品聚類方法實(shí)施例步驟s1051的具體流程圖;
圖7是本申請(qǐng)的商品聚類方法實(shí)施例生成標(biāo)簽名權(quán)重的具體流程圖;
圖8是本申請(qǐng)的商品聚類方法實(shí)施例生成文本摘要的具體流程圖;
圖9是本申請(qǐng)的商品聚類方法實(shí)施例生成圖片摘要的具體流程圖;
圖10是本申請(qǐng)的商品聚類裝置實(shí)施例的示意圖;
圖11是本申請(qǐng)的商品聚類裝置實(shí)施例生成標(biāo)簽單元103的具體示意圖;
圖12是本申請(qǐng)的商品聚類裝置實(shí)施例的具體示意圖;
圖13是本申請(qǐng)的商品聚類裝置實(shí)施例生成對(duì)應(yīng)關(guān)系單元201的具體示意圖;
圖14是本申請(qǐng)的商品聚類裝置實(shí)施例聚類單元105的具體示意圖;
圖15是本申請(qǐng)的商品聚類裝置實(shí)施例生成權(quán)重單元203的具體示意圖;
圖16是本申請(qǐng)的商品聚類裝置實(shí)施例生成文本摘要單元205的具體示意圖;
圖17是本申請(qǐng)的商品聚類裝置實(shí)施例生成圖片摘要單元207的具體示意圖;
圖18是本申請(qǐng)的電子設(shè)備實(shí)施例的示意圖;
圖19是本申請(qǐng)的文本摘要的生成方法實(shí)施例的流程圖;
圖20是本申請(qǐng)的文本摘要的生成裝置實(shí)施例的示意圖;
圖21是本申請(qǐng)的又一電子設(shè)備實(shí)施例的示意圖;
圖22是本申請(qǐng)的圖片摘要的生成方法實(shí)施例的流程圖;
圖23是本申請(qǐng)的圖片摘要的生成裝置實(shí)施例的示意圖;
圖24是本申請(qǐng)的又一電子設(shè)備實(shí)施例的示意圖;
圖25是本申請(qǐng)的圖片質(zhì)量的評(píng)測(cè)方法實(shí)施例的流程圖;
圖26是本申請(qǐng)的圖片質(zhì)量的評(píng)測(cè)裝置實(shí)施例的示意圖;
圖27是本申請(qǐng)的又一電子設(shè)備實(shí)施例的示意圖;
圖28是本申請(qǐng)的商品標(biāo)簽名重要度的生成方法實(shí)施例的流程圖;
圖29是本申請(qǐng)的商品標(biāo)簽名重要度的生成方法實(shí)施例生成商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系的具體流程圖;
圖30是本申請(qǐng)的商品標(biāo)簽名重要度的生成裝置實(shí)施例的示意圖;
圖31是本申請(qǐng)的又一電子設(shè)備實(shí)施例的示意圖。
具體實(shí)施方式
在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本申請(qǐng)。但是本申請(qǐng)能夠以很多不同于在此描述的其它方式來實(shí)施,本領(lǐng)域技術(shù)人員可以在不違背本申請(qǐng)內(nèi)涵的情況下做類似推廣,因此本申請(qǐng)不受下面公開的具體實(shí)施的限制。
在本申請(qǐng)中,提供了一種商品聚類方法、裝置及電子設(shè)備,一種商品標(biāo)簽名重要度的生成方法、裝置及電子設(shè)備,一種文本摘要的生成方法、裝置及電子設(shè)備,一種圖片摘要的生成方法、裝置及電子設(shè)備,一種圖片質(zhì)量的評(píng)測(cè)方法、裝置及電子設(shè)備,以及一種商品標(biāo)簽名重要度的生成方法、裝置及電子設(shè)備。在下面的實(shí)施例中逐一進(jìn)行詳細(xì)說明。
本申請(qǐng)實(shí)施例提供的商品聚類方法,其核心的基本思想是:基于待聚類商品的商品標(biāo)簽集,通過預(yù)設(shè)的聚類算法,對(duì)商品進(jìn)行聚類。由于本申請(qǐng)?zhí)峁┑姆椒ɑ谏唐返臉?biāo)簽對(duì)商品進(jìn)行聚類,使得相似的商品能夠自動(dòng)聚于同一類別,避免商品同質(zhì)化現(xiàn)象的發(fā)生。
請(qǐng)參考圖1,其為本申請(qǐng)的商品聚類方法實(shí)施例的流程圖。所述方法包括如下步驟:
步驟s101:獲取待聚類的商品集。
本申請(qǐng)實(shí)施例所述的待聚類的商品集包括多個(gè)待聚類商品。所述的待聚類商品是指,具有多個(gè)屬性的用于交換的產(chǎn)品。在實(shí)際應(yīng)用中,待聚類商品,既可以是有形的商品,例如,電視、服裝等;還可以是無形的服務(wù),例如,保險(xiǎn)產(chǎn)品、金融產(chǎn)品等。
所述的待聚類商品的屬性是指,商品本身所固有的性質(zhì),是商品在不同領(lǐng)域差異性(不同于其他商品的性質(zhì))的集合。也就是說,商品屬性是商品性質(zhì)的集合,是商品差異性的集合。商品在每個(gè)屬性領(lǐng)域所體現(xiàn)出來的性質(zhì)在商品運(yùn)作的過程中所起的作用不同、地位不同、權(quán)重不同。呈現(xiàn)在消費(fèi)者眼前的商品就是這些不同屬性交互作用的結(jié)果。例如,一個(gè)名為“蘋果5s”的手機(jī)商品,該商品的屬性包括:“iphone型號(hào):5s”、“品牌:蘋果”、“類目:手機(jī)”等屬性,其中,iphone型號(hào)、品牌及類目為屬性名,與這些屬性名分別對(duì)應(yīng)的屬性值為5s、蘋果及手機(jī)。
需要說明的是,在實(shí)際應(yīng)用中,商品的屬性可以分為兩種類型:系統(tǒng)屬性和自定義屬性。其中,系統(tǒng)屬性是系統(tǒng)設(shè)置的,自定義屬性是用戶自定義的。以電商平臺(tái)為例,平臺(tái)商品的系統(tǒng)屬性由網(wǎng)站運(yùn)營人員進(jìn)行運(yùn)營,往往簡短而且有較強(qiáng)的區(qū)分性,而自定義屬性往往由買家填寫,填寫方式更多元凌亂。例如,運(yùn)營人員為手表類商品設(shè)置的系統(tǒng)屬性包括:“操作方式:全自動(dòng)機(jī)械表”、“操作方式:半自動(dòng)機(jī)械表”、“操作方式:機(jī)械表”、“操作方式:電子表”和“操作方式:智能手表”等;而用戶為手表類商品添加的自定義屬性為“操作方式:智能手表”。自定義屬性的產(chǎn)生原因主要在于:用戶對(duì)業(yè)務(wù)領(lǐng)域的知識(shí)更新超過系統(tǒng)屬性設(shè)置人員的知識(shí)更新。相對(duì)于自定義屬性,系統(tǒng)屬性往往屬于為大眾所認(rèn)知的商品屬性。
步驟s103:針對(duì)所述待聚類的商品集中各個(gè)待聚類商品,根據(jù)所述待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,生成所述待聚類商品的商品標(biāo)簽集。
本申請(qǐng)實(shí)施例提供的商品聚類方法,基于各個(gè)待聚類商品的商品標(biāo)簽,通過預(yù)設(shè)的聚類算法,獲取各個(gè)待聚類商品所屬的商品聚類。因此,要實(shí)施本申請(qǐng)?zhí)峁┑姆椒?,首先需要根?jù)各個(gè)待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,生成各個(gè)待聚類商品的商品標(biāo)簽集。
標(biāo)簽(tag)是一種分類系統(tǒng),它不同于一般的目錄結(jié)構(gòu)的分類方法。相對(duì)目錄結(jié)構(gòu)的分類方法,tag可以自由地不考慮目錄結(jié)構(gòu)的給對(duì)象進(jìn)行分類,各個(gè)tag之間的關(guān)系是一種平行的關(guān)系,但是又可以根據(jù)其作相關(guān)性分析,將經(jīng)常一起出現(xiàn)的tag關(guān)聯(lián)起來,而產(chǎn)生一種相關(guān)性的分類。總之,tag能以較少的代價(jià)細(xì)化分類,更加利于對(duì)象的查找。
本申請(qǐng)實(shí)施例所述的商品類目是指,用于商品分類的目錄結(jié)構(gòu)。例如,商品一級(jí)類目包括大家電行業(yè)、服裝行業(yè)等,大家電行業(yè)的商品二級(jí)類目包括電視、冰箱、洗衣機(jī)等,更進(jìn)一步的,商品類目還可以包括商品三級(jí)類目等更細(xì)分的商品類目。
本申請(qǐng)實(shí)施例所述的商品標(biāo)簽集是指多個(gè)商品標(biāo)簽組成的集合。商品標(biāo)簽集可以是一個(gè)商品對(duì)應(yīng)的標(biāo)簽集,用于表征商品的特性;可以是一個(gè)商品類目對(duì)應(yīng)的標(biāo)簽集(即:所述的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系),用于表征商品類別的特性;還可以是一個(gè)商品聚類對(duì)應(yīng)的標(biāo)簽集,用于表征商品聚類的特性。與商品對(duì)應(yīng)的標(biāo)簽集中的各個(gè)標(biāo)簽屬于該商品,與商品類目對(duì)應(yīng)的標(biāo)簽集中的各個(gè)標(biāo)簽屬于該商品類目,與商品聚類對(duì)應(yīng)的標(biāo)簽集中的各個(gè)標(biāo)簽屬于該商品聚類。
本申請(qǐng)實(shí)施例所述的待聚類商品的商品標(biāo)簽集是指,屬于一個(gè)待聚類商品的商品標(biāo)簽集,例如,一個(gè)名為“蘋果5s”的手機(jī)商品,該商品的商品標(biāo)簽集包括:“iphone型號(hào):5s”、“品牌:蘋果”、“類目:手機(jī)”等標(biāo)簽,其中,iphone型號(hào)、品牌及類目為標(biāo)簽名,與這些標(biāo)簽名分別對(duì)應(yīng)的標(biāo)簽值為5s、蘋果及手機(jī)。
本申請(qǐng)實(shí)施例提供的商品聚類方法,根據(jù)待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,生成待聚類商品的商品標(biāo)簽集。其中,所述的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,采用如下方式生成:根據(jù)所述商品類目包括的商品屬性,生成所述商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系。
本申請(qǐng)實(shí)施例所述的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系中的商品標(biāo)簽來源于商品類目包括的商品屬性。一個(gè)商品類目下的各個(gè)商品所具有的商品屬性構(gòu)成該商品類目的商品標(biāo)簽集,即:商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系。
請(qǐng)參考圖2,其為本申請(qǐng)的商品聚類方法實(shí)施例生成商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系的具體流程圖。在本實(shí)施例中,生成商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,包括如下步驟:
步驟s201:獲取所述商品類目包括的所述商品屬性。
本申請(qǐng)實(shí)施例所述的商品屬性包括系統(tǒng)屬性和自定義屬性。其中,系統(tǒng)屬性通常預(yù)先存儲(chǔ)在系統(tǒng)屬性表中,可以直接獲??;對(duì)于自定義屬性,可能需要在商品信息中進(jìn)行提取,通常不同于系統(tǒng)屬性的屬性即可以被視為自定義屬性。
步驟s203:通過預(yù)設(shè)的屬性選取算法,從所述商品類目包括的所述商品屬性中選取具有商品區(qū)分意義的屬性組成所述商品類目的商品標(biāo)簽集。
一個(gè)商品通常具有多個(gè)屬性,其中只有部分屬性屬于具有商品區(qū)分意義的屬性,例如,型號(hào)、品牌等屬性名對(duì)應(yīng)的屬性具有商品區(qū)分意義,而產(chǎn)地、新舊程度等屬性名對(duì)應(yīng)的屬性不具有商品區(qū)分意義;或者,年份、運(yùn)營性質(zhì)等屬性值對(duì)應(yīng)的屬性不具有商品區(qū)分意義??梢?,具有商品區(qū)分意義的屬性是指,屬性名及屬性值均具有商品區(qū)分意義的屬性。以“蘋果5s”的手機(jī)為例,該商品的屬性包括:“iphone型號(hào):5s”、“品牌:蘋果”、“類目:手機(jī)”、“產(chǎn)地:中國”等屬性,其中,“產(chǎn)地:中國”這個(gè)屬性對(duì)商品并沒有實(shí)際區(qū)分意義。
本申請(qǐng)實(shí)施例所述的預(yù)設(shè)的標(biāo)簽選取算法,包括:基于規(guī)則的標(biāo)簽選取算法和基于信息熵的標(biāo)簽選取算法的至少一者。下面分別對(duì)上述兩種算法進(jìn)行說明。
1)基于規(guī)則的標(biāo)簽選取算法
本申請(qǐng)實(shí)施例所述的基于規(guī)則的標(biāo)簽選取算法,根據(jù)預(yù)先設(shè)定的選取規(guī)則對(duì)商品屬性進(jìn)行選取。所述的選取規(guī)則包括但不限于:1)去除不具有商品區(qū)分意義的屬性名所對(duì)應(yīng)的商品屬性;所述不具有商品區(qū)分意義的屬性名包括:商品產(chǎn)地、商品新舊程度;2)去除不具有商品區(qū)分意義的屬性值所對(duì)應(yīng)的商品屬性;所述不具有商品區(qū)分意義的屬性值包括:日期或運(yùn)營性質(zhì)。在實(shí)際應(yīng)用中,還可以根據(jù)具體業(yè)務(wù)情況,設(shè)置其它選取規(guī)則,只要能夠去除不具有商品區(qū)分意義的屬性即可,同樣可以實(shí)現(xiàn)本申請(qǐng)的技術(shù)方案,因此也在本申請(qǐng)的保護(hù)范圍之內(nèi)。
2)基于信息熵的標(biāo)簽選取算法。
本申請(qǐng)實(shí)施例提供的基于信息熵的標(biāo)簽選取算法,能夠過濾掉商品屬性中不具有商品區(qū)分意義的屬性名所對(duì)應(yīng)的屬性。
請(qǐng)參考圖3,其為本申請(qǐng)的商品聚類方法實(shí)施例步驟s203的具體流程圖。在本實(shí)施例中,采用基于信息熵的標(biāo)簽選取算法實(shí)現(xiàn)步驟s203,包括如下步驟:
步驟s301:獲取所述商品類目中商品的屬性名。
本申請(qǐng)實(shí)施例提供的基于信息熵的標(biāo)簽選取算法,基于商品類目中商品的屬性名的信息熵,對(duì)商品類目包括的商品屬性進(jìn)行過濾。因此,首先需要獲取商品類目中商品的屬性名。商品信息通常存儲(chǔ)在數(shù)據(jù)庫中,商品的屬性名即描述商品實(shí)體的字段名,可以直接獲取。
步驟s303:針對(duì)各個(gè)所述屬性名,根據(jù)所述屬性名對(duì)應(yīng)的屬性值,計(jì)算所述屬性名的信息熵。
要基于屬性名的信息熵對(duì)商品屬性進(jìn)行過濾,還需要計(jì)算各個(gè)屬性名的信息熵。本申請(qǐng)實(shí)施例提供的基于信息熵的標(biāo)簽選取算法,根據(jù)屬性名對(duì)應(yīng)的屬性值,計(jì)算屬性名的信息熵。其中,屬性名對(duì)應(yīng)的屬性值包括系統(tǒng)屬性值或自定義屬性值。
信息熵描述信源的不確定度,信息熵越大,不確定性越大。本申請(qǐng)實(shí)施例所述的屬性名的信息熵,用于表示屬性名區(qū)分商品的價(jià)值,屬性名的信息熵越大,則屬性名越不具有商品區(qū)分意義。計(jì)算一個(gè)屬性名的信息熵的采用如下公式:
步驟s305:將所述屬性名的信息熵小于等于最大信息熵閾值的屬性名作為具有商品區(qū)分意義的屬性名。
獲取到各個(gè)屬性名的信息熵后,將其中信息熵小于等于最大信息熵閾值的屬性名作為具有商品區(qū)分意義的屬性名。最大信息熵閾值可以根據(jù)經(jīng)驗(yàn)獲取。
步驟s307:將所述具有商品區(qū)分意義的屬性名對(duì)應(yīng)的商品屬性作為所述具有商品區(qū)分意義的屬性,生成所述商品類目的商品標(biāo)簽集。
最后,從商品類目包括的多個(gè)商品屬性中選取具有商品區(qū)分意義的屬性組成商品類目的商品標(biāo)簽集,其中,具有商品區(qū)分意義的屬性即為:具有商品區(qū)分意義的屬性名對(duì)應(yīng)的商品屬性。
以上對(duì)步驟s203可應(yīng)用的兩種標(biāo)簽選取算法進(jìn)行了說明。需要說明的是,在實(shí)際應(yīng)用中,還可以根據(jù)具體業(yè)務(wù)情況,采用其它標(biāo)簽選取算法,只要能夠選取出具有商品區(qū)分意義的屬性即可,同樣可以實(shí)現(xiàn)本申請(qǐng)的技術(shù)方案,因此也在本申請(qǐng)的保護(hù)范圍之內(nèi)。此外,在實(shí)際應(yīng)用中,可以采用上述其中一種或多種標(biāo)簽選取算法的組合,從所述商品類目包括的商品屬性中選取具有商品區(qū)分意義的屬性。
生成商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系后,就可以根據(jù)待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,生成待聚類商品的商品標(biāo)簽集。下面對(duì)生成待聚類商品的商品標(biāo)簽集的步驟進(jìn)行說明。
請(qǐng)參考圖4,其為本申請(qǐng)的方法實(shí)施例生成待聚類商品的商品標(biāo)簽集的具體流程圖。在本實(shí)施例中,生成待聚類商品的商品標(biāo)簽集,包括如下步驟:
步驟s401:根據(jù)所述待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,獲取所述待聚類商品所屬的商品類目的商品標(biāo)簽集。
本申請(qǐng)實(shí)施例所述的待聚類商品的商品標(biāo)簽集是指,待聚類商品所屬的商品類目的商品標(biāo)簽子集,即:待聚類商品的商品標(biāo)簽集中的各個(gè)商品標(biāo)簽均包含在待聚類商品所屬的商品類目的商品標(biāo)簽集中。因此,要生成待聚類商品的商品標(biāo)簽集,首先需要獲取所述待聚類商品所屬的商品類目的商品標(biāo)簽集。
在本實(shí)施例中,以所述待聚類商品所屬的商品類目為查詢條件,在預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系中進(jìn)行檢索,以獲取待聚類商品所屬的商品類目的商品標(biāo)簽集。
步驟s403:將所述待聚類商品的屬性與所述待聚類商品所屬的商品類目的商品標(biāo)簽集中各個(gè)商品標(biāo)簽分別進(jìn)行文本匹配,將匹配成功的商品標(biāo)簽作為所述待聚類商品的商品標(biāo)簽。
獲取到待聚類商品所屬的商品類目的商品標(biāo)簽集后,將待聚類商品的各個(gè)屬性分別與所述待聚類商品所屬的商品類目的商品標(biāo)簽集中各個(gè)商品標(biāo)簽進(jìn)行文本匹配,將匹配成功的標(biāo)簽作為待聚類商品的商品標(biāo)簽,從而形成待聚類商品的商品標(biāo)簽集。
例如,一個(gè)名為“蘋果5s”的手機(jī)商品,該商品的屬性包括:“iphone型號(hào):5s”、“品牌:蘋果”、“類目:手機(jī)”等;該商品所屬的手機(jī)類目的商品標(biāo)簽集包括:“iphone型號(hào):4s”、“iphone型號(hào):5s”、“iphone型號(hào):6s”、“品牌:蘋果”、“品牌:三星”、“品牌:華為”等商品標(biāo)簽;通過文本匹配,商品標(biāo)簽“iphone型號(hào):5s”與該商品的屬性“iphone型號(hào):5s”相匹配,商品標(biāo)簽“品牌:蘋果”與該商品的屬性“品牌:蘋果”相匹配,因此,該商品的商品標(biāo)簽集包括:“iphone型號(hào):5s”和“品牌:蘋果”兩個(gè)商品標(biāo)簽。
獲取到各個(gè)待聚類商品的商品標(biāo)簽集后,就可以進(jìn)入步驟s105,根據(jù)各個(gè)待聚類商品的商品標(biāo)簽集,通過預(yù)設(shè)的聚類算法,對(duì)商品集中的商品進(jìn)行聚類。
步驟s105:根據(jù)所述各個(gè)待聚類商品的商品標(biāo)簽集,通過預(yù)設(shè)的聚類算法,對(duì)所述商品集中的商品進(jìn)行聚類。
本申請(qǐng)實(shí)施例提供的商品聚類方法,將待聚類商品的商品標(biāo)簽集中的各個(gè)商品標(biāo)簽作為待聚類商品的商品特征,并根據(jù)商品特征,通過預(yù)設(shè)的聚類算法,對(duì)待聚類商品進(jìn)行商品聚類。
本申請(qǐng)實(shí)施例所述的預(yù)設(shè)的聚類算法,用于對(duì)待聚類商品進(jìn)行聚類分析。聚類就是按照某個(gè)特定標(biāo)準(zhǔn)(如距離準(zhǔn)則)把一個(gè)數(shù)據(jù)集分割成不同的類或簇,使得同一個(gè)簇內(nèi)的數(shù)據(jù)對(duì)象的相似性盡可能大,同時(shí)不在同一個(gè)簇中的數(shù)據(jù)對(duì)象的差異性也盡可能地大,即:聚類后同一類的數(shù)據(jù)盡可能聚集到一起,不同數(shù)據(jù)盡量分離。
目前,主要的聚類算法可以劃分為如下幾種類型:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法以及基于模型的方法。每一類中都存在著得到廣泛應(yīng)用的算法,例如:劃分方法中的k-means聚類算法、層次方法中的凝聚型層次聚類算法、基于模型方法中的神經(jīng)網(wǎng)絡(luò)聚類算法等。
聚類問題的研究不僅僅局限于上述的硬聚類,即每一個(gè)數(shù)據(jù)只能被歸為一類,模糊聚類也是聚類分析中研究較為廣泛的一個(gè)分支。模糊聚類通過隸屬函數(shù)來確定每個(gè)數(shù)據(jù)隸屬于各個(gè)簇的程度,而不是將一個(gè)數(shù)據(jù)對(duì)象硬性地歸類到某一簇中。目前,已有很多關(guān)于模糊聚類的算法被提出,例如,著名的fcm算法等。
本申請(qǐng)實(shí)施例提供的商品聚類方法,可以應(yīng)用上述已有的聚類算法之一,根據(jù)各個(gè)待聚類商品的商品標(biāo)簽集,對(duì)待聚類商品進(jìn)行聚類。例如,采用k-means聚類算法對(duì)待聚類商品進(jìn)行聚類,其過程如下:1)隨機(jī)的選取任意k個(gè)待聚類商品作為初始聚類的質(zhì)心,初始地代表一個(gè)商品聚類;2)對(duì)剩余的每個(gè)待聚類商品測(cè)量其到每個(gè)質(zhì)心的距離,并把它歸到最近的質(zhì)心的類;3)重新計(jì)算已經(jīng)得到的各個(gè)聚類的質(zhì)心;4)迭代2~3步直至新的質(zhì)心與原質(zhì)心相等或小于指定閾值,算法結(jié)束。
在上述第2步計(jì)算距離時(shí),需要綜合考慮各個(gè)標(biāo)簽名的權(quán)重。例如,商品a為“夏普黑色顯示器”、商品b為“明基黑色顯示器”及商品c為“夏普紅色顯示器”,如果標(biāo)簽名“品牌”的權(quán)重大于標(biāo)簽名“顏色”的權(quán)重,則商品a與商品c之間距離小于商品a與商品b之間距離;如果標(biāo)簽名“品牌”的權(quán)重小于標(biāo)簽名“顏色”的權(quán)重,則商品a與商品b之間距離小于商品a與商品c之間距離??梢姡襟Es103生成的待聚類商品的商品標(biāo)簽集表示了待聚類商品的各種特征。
然而,k-means算法包括如下缺點(diǎn):1)在k-means算法中k是事先給定的,這個(gè)k值的選定是非常難以估計(jì)的,很多時(shí)候,事先并不知道給定的商品集應(yīng)該分成多少個(gè)類別才最合適;2)在k-means算法中,首先需要根據(jù)初始聚類中心來確定一個(gè)初始劃分,然后對(duì)初始劃分進(jìn)行優(yōu)化。這個(gè)初始聚類中心的選擇對(duì)聚類結(jié)果有較大的影響,一旦初始值選擇的不好,可能無法得到有效的聚類結(jié)果;3)該算法需要不斷地進(jìn)行樣本分類調(diào)整,不斷地計(jì)算調(diào)整后的新的聚類中心,因此當(dāng)數(shù)據(jù)量非常大時(shí),算法的時(shí)間開銷是非常大的。
為了得到更好的聚類效果,本申請(qǐng)實(shí)施例提出一種基于頻繁項(xiàng)集挖掘和累積權(quán)重匹配的聚類算法。請(qǐng)參考圖5,其為本申請(qǐng)的方法實(shí)施例步驟s105的具體流程圖。在本實(shí)施例中,步驟s105包括如下步驟:
步驟s1051:根據(jù)所述各個(gè)待聚類商品的商品標(biāo)簽集,通過頻繁項(xiàng)集挖掘算法,生成多個(gè)頻繁商品標(biāo)簽集。
本申請(qǐng)實(shí)施例提供的基于頻繁項(xiàng)集挖掘和累積權(quán)重匹配的聚類算法,在對(duì)待聚類商品進(jìn)行聚類之前,首先需要根據(jù)各個(gè)待聚類商品的商品標(biāo)簽集,通過頻繁項(xiàng)集挖掘算法,生成多個(gè)頻繁商品標(biāo)簽集。一個(gè)頻繁商品標(biāo)簽集與一個(gè)商品聚類相對(duì)應(yīng)。
項(xiàng)的集合稱為項(xiàng)集。包含k個(gè)項(xiàng)的項(xiàng)集稱為k-項(xiàng)集,例如,集合{“iphone型號(hào):5s”,“品牌:蘋果”}是一個(gè)二項(xiàng)集。項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),簡稱為項(xiàng)集的頻率、支持度計(jì)數(shù)或計(jì)數(shù)。如果一個(gè)項(xiàng)集的頻率滿足預(yù)定義的最小頻率閾值,則該項(xiàng)集是頻繁項(xiàng)集。在本實(shí)施例中,被挖掘的項(xiàng)集中的項(xiàng)為商品標(biāo)簽,因此,被挖掘的項(xiàng)集為各個(gè)待聚類商品的商品標(biāo)簽集,而生成的頻繁項(xiàng)集為頻繁商品標(biāo)簽集。
目前,頻繁項(xiàng)集挖掘已經(jīng)有很多比較成熟的算法,在網(wǎng)上也可以找到相關(guān)的優(yōu)秀論文或源代碼。算法中最經(jīng)典的莫過于apriori算法,它可以算得上是頻繁項(xiàng)集挖掘算法的鼻祖,后續(xù)很多的改進(jìn)算法也是基于apriori算法的。在實(shí)際應(yīng)用中,可以選取任意一種頻繁項(xiàng)集挖掘算法實(shí)現(xiàn)步驟s1051,此處不再贅述。
需要注意的是,本申請(qǐng)實(shí)施例所述的商品集中的各個(gè)待聚類商品,既可能屬于同一商品類目,也可能屬于不同的商品類目。所述的頻繁商品標(biāo)簽集,既可以是與商品類目對(duì)應(yīng)的頻繁商品標(biāo)簽集,還可以是不與商品類目對(duì)應(yīng)的頻繁商品標(biāo)簽集。
在實(shí)際應(yīng)用中,通常認(rèn)為屬于同一商品類目的商品才具有可比性,即:可聚類。為了滿足這個(gè)實(shí)際需求,需要按商品類目對(duì)待聚類商品進(jìn)行聚類,即:一個(gè)商品聚類中的商品屬于同一商品類目。因此,需要按商品類目生成頻繁商品標(biāo)簽集,即:頻繁商品標(biāo)簽集與商品類目相對(duì)應(yīng)。
請(qǐng)參考圖6,其為本申請(qǐng)的方法實(shí)施例步驟s1051的具體流程圖。在本實(shí)施例中,生成的頻繁商品標(biāo)簽集與商品類目相對(duì)應(yīng),步驟s1051包括如下步驟:
步驟s601:根據(jù)各個(gè)所述待聚類商品所屬的商品類目,獲取所述商品集與所述商品類目的對(duì)應(yīng)關(guān)系。
要按照商品類目生成與商品類目相對(duì)應(yīng)的頻繁商品標(biāo)簽集,首先需要獲取商品集對(duì)應(yīng)的多個(gè)商品類目,即:商品集與商品類目的對(duì)應(yīng)關(guān)系。根據(jù)各個(gè)待聚類商品所屬的商品類目,可以形成所述商品集與所述商品類目的對(duì)應(yīng)關(guān)系。
步驟s603:針對(duì)所述對(duì)應(yīng)關(guān)系中的各個(gè)商品類目,將屬于所述商品類目的所述待聚類商品的商品標(biāo)簽集作為與所述商品類目對(duì)應(yīng)的候選頻繁商品標(biāo)簽集。
針對(duì)多個(gè)商品類目中的任意一個(gè)商品類目,屬于該商品類目的各個(gè)待聚類商品的商品標(biāo)簽集均可以作為候選頻繁商品標(biāo)簽集。最終,候選頻繁商品標(biāo)簽集中滿足支持度條件的候選頻繁商品標(biāo)簽集將被保留,不滿足條件的將被舍棄。
步驟s605:針對(duì)與所述商品類目對(duì)應(yīng)的各個(gè)所述候選頻繁商品標(biāo)簽集,根據(jù)屬于所述商品類目的各個(gè)所述待聚類商品的預(yù)設(shè)事務(wù)屬性的屬性值,計(jì)算各個(gè)所述候選頻繁商品標(biāo)簽集的出現(xiàn)頻率。
針對(duì)各個(gè)候選頻繁商品標(biāo)簽集,根據(jù)與候選頻繁商品標(biāo)簽集對(duì)應(yīng)的商品類目,能夠獲取屬于該商品類目的各個(gè)待聚類商品;然后,再根據(jù)屬于該商品類目的各個(gè)待聚類商品的預(yù)設(shè)事務(wù)屬性的屬性值,計(jì)算該候選頻繁商品標(biāo)簽集的出現(xiàn)頻率。所述的出現(xiàn)頻率是指,包括候選頻繁商品標(biāo)簽集的預(yù)設(shè)事務(wù)屬性的屬性值的種類數(shù),即:候選頻繁商品標(biāo)簽集的事務(wù)數(shù)。
頻繁項(xiàng)集挖掘算法將頻繁出現(xiàn)的商品標(biāo)簽集歸結(jié)為一個(gè)商品聚類。頻繁出現(xiàn)的衡量依賴于預(yù)設(shè)事務(wù)屬性的事務(wù)數(shù)。對(duì)于商品聚類而言,可應(yīng)用的預(yù)設(shè)事務(wù)屬性包括但不限于:商品標(biāo)識(shí)或公司標(biāo)識(shí),即:頻繁出現(xiàn)是指頻繁出現(xiàn)的商品數(shù)或頻繁出現(xiàn)的公司數(shù)等。
在本實(shí)施例中,采用公司標(biāo)識(shí)作為預(yù)設(shè)事務(wù)屬性,而非商品標(biāo)識(shí)。主要原因在于:對(duì)于各個(gè)待聚類商品,將不同公司的相似商品聚為一類供用戶比較更有價(jià)值。如果選用商品標(biāo)識(shí)作為預(yù)設(shè)事務(wù)屬性,那么,當(dāng)商品數(shù)據(jù)存在噪音數(shù)據(jù)時(shí),則可能將同一公司的相似商品聚為一類供用戶比較,可見,這樣的商品聚類對(duì)用戶而言價(jià)值較低,用戶更希望對(duì)不同公司的相似商品進(jìn)行比較。噪音數(shù)據(jù)包括:同一公司以不同商品名發(fā)布的多個(gè)同一商品,該數(shù)據(jù)的產(chǎn)生原因在于:公司為提高其商品被用戶搜索到的概率,對(duì)同一商品采用不同的商品名進(jìn)行發(fā)布。
步驟s607:針對(duì)所述各個(gè)商品類目,選取所述出現(xiàn)頻率大于預(yù)設(shè)的最小支持度閾值的所述候選頻繁商品標(biāo)簽集,作為屬于所述商品類目的所述頻繁商品標(biāo)簽集。
獲取到各個(gè)候選頻繁商品標(biāo)簽集的出現(xiàn)頻率后,針對(duì)各個(gè)商品類目,從與商品類目對(duì)應(yīng)的多個(gè)候選頻繁商品標(biāo)簽集中,選取出現(xiàn)頻率大于預(yù)設(shè)的最小支持度閾值的多個(gè)候選頻繁商品標(biāo)簽集,作為屬于商品類目的頻繁商品標(biāo)簽集,即生成了與商品類目對(duì)應(yīng)的多個(gè)頻繁商品標(biāo)簽集。其中最小支持度閾值可以根據(jù)經(jīng)驗(yàn)設(shè)定。
為了能夠直觀地說明本申請(qǐng)實(shí)施例通過頻繁項(xiàng)集挖掘算法實(shí)現(xiàn)步驟s1051的過程,下面采用形式化的方法對(duì)此過程進(jìn)行說明。在本實(shí)施例中,通過頻繁項(xiàng)集挖掘算法,生成與一個(gè)商品類目對(duì)應(yīng)的多個(gè)頻繁商品標(biāo)簽集的過程,主要包含如下步驟:
1)每個(gè)待聚類商品可以表示為三元組:[offer_id,tag_set,company_id],其中,offer_id為商品標(biāo)識(shí),tag_set為商品標(biāo)簽集,company_id為發(fā)布該商品的公司標(biāo)識(shí)。
2)對(duì)于每個(gè)商品類目,統(tǒng)計(jì)該類目下待聚類商品的商品標(biāo)簽集以及商品標(biāo)簽集對(duì)應(yīng)的公司數(shù):[tag_set1,companycnt1],…,[tag_setn,companycntn],其中,companycnt為公司數(shù)。
3)對(duì)于每個(gè)商品類目,從中選出companycnt大于最小支持度閾值的商品標(biāo)簽集作為該商品類目下的所有商品聚類,標(biāo)記為[cluster1,tag_set1],…,[clustern,tag_setn]。其中,每個(gè)tag_set表示為標(biāo)簽值和標(biāo)簽值對(duì)應(yīng)的標(biāo)簽名的權(quán)重,即:tag_setj={tagj,1,weightj,1;…;tagj,t,weightj,t},tagj,1…tagj,t均為標(biāo)簽值,weightj,1…weightj,t為標(biāo)簽名的權(quán)重。
在生成多個(gè)頻繁商品標(biāo)簽集后,就可以進(jìn)入步驟s1053,為各個(gè)待聚類商品選取最合適的商品聚類。
步驟s1053:針對(duì)各個(gè)所述待聚類商品,根據(jù)預(yù)先生成的標(biāo)簽名的權(quán)重,計(jì)算所述待聚類商品的商品標(biāo)簽集分別與各個(gè)所述頻繁商品標(biāo)簽集的相似度;并選取所述相似度排在高位的所述頻繁商品標(biāo)簽集,作為與所述待聚類商品對(duì)應(yīng)的頻繁商品標(biāo)簽集。
通過步驟s1051生成的多個(gè)頻繁商品標(biāo)簽集,也就是各個(gè)待聚類商品可能屬于的商品聚類,一個(gè)頻繁商品標(biāo)簽集對(duì)應(yīng)一個(gè)商品聚類。針對(duì)每一個(gè)待聚類商品,需要計(jì)算該待聚類商品的商品標(biāo)簽集分別與各個(gè)頻繁商品標(biāo)簽集的相似度;然后,選取相似度排在高位的頻繁商品標(biāo)簽集,作為與該待聚類商品對(duì)應(yīng)的頻繁商品標(biāo)簽集,即:獲取到該待聚類商品所屬的商品聚類。
需要注意的是,如果生成的頻繁商品標(biāo)簽集與商品類目相對(duì)應(yīng),那么,針對(duì)各個(gè)待聚類商品,首先需要獲取與待聚類商品所屬的商品類目相對(duì)應(yīng)的多個(gè)頻繁商品標(biāo)簽集;然后,僅需計(jì)算待聚類商品的商品標(biāo)簽集分別與該商品類目對(duì)應(yīng)的各個(gè)頻繁商品標(biāo)簽集之間的相似度;最后,從中選取相似度排在高位的頻繁商品標(biāo)簽集,作為與待聚類商品對(duì)應(yīng)的頻繁商品標(biāo)簽集,以避免屬于不同商品類目的多個(gè)待聚類商品聚為一類。
在本實(shí)施例中,根據(jù)預(yù)先生成的標(biāo)簽名的權(quán)重,計(jì)算待聚類商品的商品標(biāo)簽集與頻繁商品標(biāo)簽集的相似度,即:累計(jì)權(quán)重匹配值,包括如下步驟:判斷頻繁商品標(biāo)簽集中的各個(gè)商品標(biāo)簽是否均存在于待聚類商品的商品標(biāo)簽集中;若上述判斷結(jié)果為是,則二者間的相關(guān)度為頻繁商品標(biāo)簽集中各個(gè)標(biāo)簽名的權(quán)重之和;若頻繁商品標(biāo)簽集中存在某些標(biāo)簽不在待聚類商品的商品標(biāo)簽集中,則二者間的相關(guān)度為0。
例如,一個(gè)名為“蘋果5s”的手機(jī)商品,該商品的商品標(biāo)簽集包括:“iphone型號(hào):5s”、“品牌:蘋果”、“顏色:白”等標(biāo)簽,該商品所屬的“手機(jī)”類目對(duì)應(yīng)多個(gè)頻繁商品標(biāo)簽集,其中一個(gè)頻繁商品標(biāo)簽集包括兩個(gè)商品標(biāo)簽:“iphone型號(hào):5s”和“品牌:蘋果”,可見,由于該頻繁商品標(biāo)簽集中的商品標(biāo)簽均存在于“蘋果5s”的商品標(biāo)簽集中,因此,“名為“蘋果5s”的手機(jī)商品的商品標(biāo)簽集與該頻繁商品標(biāo)簽集之間的相似度為“iphone型號(hào)”的權(quán)重與“品牌”的權(quán)重之和。上述判斷過程的形式化表示如下:
需要注意的是,在實(shí)際應(yīng)用中,本步驟所述的選取相似度排在高位的頻繁商品標(biāo)簽集作為與待聚類商品對(duì)應(yīng)的頻繁商品標(biāo)簽集,其常見的選取方式為:選取相似度最大的頻繁商品標(biāo)簽集,即:
要基于累積權(quán)重匹配的方法實(shí)現(xiàn)對(duì)商品的聚類,還需要預(yù)先生成各個(gè)標(biāo)簽名的權(quán)重。本申請(qǐng)實(shí)施例所述的標(biāo)簽名的權(quán)重是指,在商品類目的商品標(biāo)簽集中,商品標(biāo)簽集所包括的各個(gè)標(biāo)簽名在該商品類目的所有標(biāo)簽名中所占的比重。例如,手機(jī)類目中的標(biāo)簽名包括:型號(hào)、品牌等,對(duì)于商品聚類而言,型號(hào)的權(quán)重可能高于品牌的權(quán)重。在本實(shí)施例中,標(biāo)簽名的權(quán)重用于計(jì)算待聚類商品的商品標(biāo)簽集與頻繁商品標(biāo)簽集的相似度。
請(qǐng)參考圖7,其為本申請(qǐng)的方法實(shí)施例生成標(biāo)簽名權(quán)重的具體流程圖。在本實(shí)施例中,在所述商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系(即:標(biāo)簽字典)基礎(chǔ)上生成各個(gè)標(biāo)簽名的權(quán)重,包括如下步驟:
步驟s701:獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果。
在實(shí)際應(yīng)用中,標(biāo)簽名的權(quán)重與歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶對(duì)搜索結(jié)果的操作有關(guān),例如,用戶瀏覽網(wǎng)站時(shí)輸入的查詢?cè)~中包含了商品標(biāo)簽,說明用戶更關(guān)注此類標(biāo)簽,則對(duì)應(yīng)標(biāo)簽名的權(quán)重應(yīng)該增加;被用戶點(diǎn)擊過的商品搜索結(jié)果表示用戶對(duì)該商品的感興趣度更高,感興趣度取決于該商品的各種屬性,不同屬性對(duì)感興趣度的影響程度不同,對(duì)感興趣度的影響程度越深的屬性,其權(quán)重值也越大。因此,本申請(qǐng)實(shí)施例提供的商品聚類方法,根據(jù)歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果,計(jì)算各個(gè)標(biāo)簽名的權(quán)重。
本申請(qǐng)實(shí)施例所述的歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果,通常存儲(chǔ)在以商品維度構(gòu)建的搜索日志中,即:信息點(diǎn)擊曝光日志。通過讀取搜索日志,能夠獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果。
本申請(qǐng)實(shí)施例所述的與用戶行為相關(guān)的商品搜索結(jié)果包括但不限于:被用戶點(diǎn)擊的商品搜索結(jié)果或成交的商品搜索結(jié)果,還可以是其它與用戶行為相關(guān)的商品搜索結(jié)果。由于成交的商品搜索結(jié)果過于限制了可依據(jù)的已有搜索結(jié)果,可能降低依據(jù)其計(jì)算獲取的標(biāo)簽名權(quán)重的準(zhǔn)確度。在實(shí)際應(yīng)用中,通常選用被用戶點(diǎn)擊的商品搜索結(jié)果計(jì)算標(biāo)簽名的權(quán)重,由此計(jì)算獲取的標(biāo)簽名權(quán)重的準(zhǔn)確度較高。
步驟s703:針對(duì)各個(gè)歷史查詢?cè)~,根據(jù)與所述歷史查詢?cè)~對(duì)應(yīng)的所述與用戶行為相關(guān)的商品搜索結(jié)果,獲取與所述歷史查詢?cè)~對(duì)應(yīng)的商品類目,生成歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系。
獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果之后,就可以分別針對(duì)各個(gè)歷史查詢?cè)~,根據(jù)與歷史查詢?cè)~對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果,獲取與歷史查詢?cè)~對(duì)應(yīng)的商品類目,生成歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系。與歷史查詢?cè)~對(duì)應(yīng)的各個(gè)商品類目、均存在于商品搜索結(jié)果涉及到的商品類目中。
步驟s705:針對(duì)所述歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系中各個(gè)商品類目,根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);并根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的權(quán)重。
對(duì)于歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系中的各個(gè)商品類目,首先需要根據(jù)與商品類目對(duì)應(yīng)的歷史查詢?cè)~,計(jì)算商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);然后,再根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名在商品類目的所有標(biāo)簽名中所占的比重,作為標(biāo)簽名的權(quán)重。
在本實(shí)施例中,所述根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),包括如下步驟:1)針對(duì)與所述商品類目對(duì)應(yīng)的各個(gè)所述歷史查詢?cè)~,將所述歷史查詢?cè)~與所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽的標(biāo)簽值進(jìn)行文本匹配;若匹配成功,則將匹配成功的標(biāo)簽值的出現(xiàn)次數(shù)加一;2)根據(jù)各個(gè)商品標(biāo)簽的標(biāo)簽值的出現(xiàn)次數(shù),計(jì)算所述各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)。
在本實(shí)施例中,針對(duì)各個(gè)所述商品類目,所述根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的重要度,包括如下步驟:1)根據(jù)所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算標(biāo)簽名的出現(xiàn)總次數(shù);2)將所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)、與所述出現(xiàn)總次數(shù)的比值,作為各個(gè)標(biāo)簽名的重要度。
綜上所述,標(biāo)簽名的權(quán)重計(jì)算,主要是通過對(duì)用戶查詢?cè)~和被用戶點(diǎn)擊的商品搜索結(jié)果的商品類目中的商品標(biāo)簽的標(biāo)簽值進(jìn)行匹配,對(duì)于匹配成功的標(biāo)簽值所對(duì)應(yīng)的標(biāo)簽名,則增加該標(biāo)簽名的匹配頻次及權(quán)重。
為了能夠直觀地說明步驟s705的過程,下面采用形式化的方法對(duì)此過程進(jìn)行說明,其中,與用戶行為相關(guān)的商品搜索結(jié)果采用被用戶點(diǎn)擊的商品搜索結(jié)果。在本實(shí)施例中,步驟s705主要包含如下步驟:
1)初始輸入數(shù)據(jù)為用戶查詢?cè)~及被用戶點(diǎn)擊的商品組成的數(shù)據(jù)對(duì)<query,offer_id>,其中offer_id為商品標(biāo)識(shí);
2)通過offer_id找到商品對(duì)應(yīng)的商品類目,形成查詢?cè)~與商品類目組成的數(shù)據(jù)對(duì)<query,cate_id>,其中cate_id為商品類目標(biāo)識(shí);
3)找到商品類目對(duì)應(yīng)的標(biāo)簽字典(即:商品標(biāo)簽集),將查詢?cè)~和標(biāo)簽字典中的每個(gè)標(biāo)簽值進(jìn)行匹配,如果匹配成功,則對(duì)應(yīng)的標(biāo)簽值的頻率ftag_value自增;
4)通過標(biāo)簽值的頻率,計(jì)算標(biāo)簽名的出現(xiàn)頻率,計(jì)算公式為:
其中,ftag_name為標(biāo)簽名tag_name的出現(xiàn)頻率,ftag_value為標(biāo)簽值tag_value的出現(xiàn)頻率。
5)計(jì)算標(biāo)簽名的權(quán)重,計(jì)算公式為:
該公式中的weighttag_name為標(biāo)簽名tag_name的權(quán)重,ftag_name為標(biāo)簽名tag_name的出現(xiàn)頻率,cate_id為商品類目。
獲取到與各個(gè)待聚類商品分別對(duì)應(yīng)的頻繁商品標(biāo)簽集之后,就可以進(jìn)入步驟s1055,對(duì)待聚類商品進(jìn)行聚類。
步驟s1055:將與同一所述頻繁商品標(biāo)簽集對(duì)應(yīng)的多個(gè)所述待聚類商品聚為一類。
根據(jù)與各個(gè)待聚類商品分別對(duì)應(yīng)的頻繁商品標(biāo)簽集,將與同一頻繁商品標(biāo)簽集對(duì)應(yīng)的多個(gè)待聚類商品聚為一類,從而完成對(duì)待聚類商品進(jìn)行商品聚類的處理。在本實(shí)施例中,頻繁商品標(biāo)簽集與商品類目相對(duì)應(yīng),不同商品類目的商品不會(huì)聚為一類。
本申請(qǐng)實(shí)施例提供的商品聚類方法,將所有相似的待聚類商品都聚合于同一類別。在展現(xiàn)給用戶的時(shí)候,可以不再是以商品列表的方式展現(xiàn)給用戶,而是以商品聚類列表的方式展現(xiàn)給用戶。如果用戶對(duì)某個(gè)特定聚類有興趣,通過點(diǎn)擊該聚類,進(jìn)入聚類展示頁查看相似商品。在聚類展示頁中,該類所有商品會(huì)展現(xiàn)給用戶,以方便用戶進(jìn)行對(duì)比。同時(shí),用戶可以對(duì)商品的標(biāo)簽進(jìn)行增、刪等導(dǎo)購操作,以快速選擇到最感興趣的商品。
此外,出于用戶友好性的考慮,對(duì)于已經(jīng)聚成一類的商品,在展現(xiàn)給用戶的時(shí)候,需要告訴用戶這類商品共有的特性。因此,需要為該類商品生成圖文摘要,以描述該商品聚類。
在本實(shí)施例中,在對(duì)各個(gè)待聚類商品進(jìn)行聚類后,還包括:針對(duì)各個(gè)商品聚類,為所述商品聚類生成文本摘要及圖片摘要。
要實(shí)現(xiàn)為商品聚類生成圖文摘要,可以采用各種現(xiàn)有的圖文摘要系統(tǒng)。然而,現(xiàn)有的圖文摘要系統(tǒng),主要通過人工運(yùn)營的方式進(jìn)行標(biāo)注,分別為每個(gè)商品聚類選取圖片和文字標(biāo)題。這種通過人工進(jìn)行圖文標(biāo)注的方式,至少存在兩個(gè)缺點(diǎn):1)運(yùn)營成本巨大,特別是面對(duì)海量商品數(shù)據(jù)的聚類;2)對(duì)于一類商品的文本摘要,很多時(shí)候都只能描述成一個(gè)品牌或者材料等,或者簡單的將某個(gè)商品的標(biāo)題作為文本摘要,并沒有一個(gè)完整的句子描述商品類別各方面的性質(zhì),即:無法對(duì)一類商品進(jìn)行完整描述;對(duì)于一類商品的圖片摘要,往往隨機(jī)選用其中一個(gè)商品的圖片作為圖片摘要,因而不具有代表性。
綜上所述,生成文字摘要的現(xiàn)有技術(shù)存在文字摘要準(zhǔn)確性低的問題,生成圖片摘要的現(xiàn)有技術(shù)存在圖片摘要準(zhǔn)確性低的問題。
本申請(qǐng)實(shí)施例提供的商品聚類方法,提出一種新的文本摘要的生成方法及一種新的圖片摘要的生成方法,以解決文字摘要效果差及圖片摘要準(zhǔn)確性低的問題。在下面的實(shí)施例中逐一進(jìn)行詳細(xì)說明。
本申請(qǐng)實(shí)施例提供的文本摘要的生成方法,其核心的基本思想是:對(duì)商品聚類所屬的商品類目名以及商品聚類的商品標(biāo)簽等進(jìn)行文字組合,選擇語言模型得分最高的文字組合作為商品聚類的文本摘要。由于該方法綜合考慮商品聚類所在的類目名以及商品聚類的商品標(biāo)簽,因此,生成的文本摘要的概括性更強(qiáng)且準(zhǔn)確性更高;由于根據(jù)語言模型得分對(duì)各種組合進(jìn)行選擇,因此,文本摘要的語句更為通順,從而達(dá)到提高用戶體驗(yàn)的效果。
請(qǐng)參考圖8,其為本申請(qǐng)的方法實(shí)施例生成文本摘要的具體流程圖。在本實(shí)施例中,為所述商品聚類生成文本摘要,包括如下步驟:
步驟s801:將所述商品聚類的商品標(biāo)簽集包括的商品標(biāo)簽與所述商品聚類所屬商品類目的名稱進(jìn)行文字拼接,生成所述商品聚類的多個(gè)候選文本摘要。
對(duì)于聚合成一類的商品,在展現(xiàn)的時(shí)候,不能簡單的將某個(gè)商品的標(biāo)題進(jìn)行展現(xiàn),而需要綜合考慮商品聚類中所有商品的標(biāo)題。本申請(qǐng)實(shí)施例提供的商品聚類方法,已經(jīng)對(duì)商品聚類的共性作了抽取,即:商品聚類對(duì)應(yīng)的商品標(biāo)簽集。商品標(biāo)簽集中的各個(gè)商品標(biāo)簽可以被視為構(gòu)成文本摘要的摘要短語。要形成商品聚類的文本摘要,需要將這些摘要短語和商品聚類所屬商品類目的名稱組合成一段完整的語句。
根據(jù)摘要短語和類目名稱,能夠產(chǎn)生大量的文本組合,從理論上講,各種組合均可能成為文本摘要。然而,由于組合的數(shù)量較多,并且部分組合明顯不適于作為文本摘要,因此,本實(shí)施例通過預(yù)設(shè)的剪枝算法,將摘要短語與商品類目的名稱進(jìn)行文字拼接,生成候選文本摘要。
在實(shí)際應(yīng)用中,可以采用各種現(xiàn)有的剪枝算法,例如,定向搜索(beam-search)剪枝算法或柱搜索剪枝算法。不同算法生成的候選文本摘要的準(zhǔn)確度不同,不同算法的計(jì)算復(fù)雜度也不相同,在實(shí)際應(yīng)用中,根據(jù)具體應(yīng)用需求,可以選擇任意一種剪枝算法生成候選文本摘要。上述各種不同的剪枝算法都只是具體實(shí)施方式的變更,都不偏離本申請(qǐng)的核心,因此都在本申請(qǐng)的保護(hù)范圍之內(nèi)。
在本實(shí)施例中,采用定向搜索剪枝算法生成商品聚類的多個(gè)候選文本摘要。定向搜索剪枝算法的描述為:對(duì)于前k個(gè)單詞的組合,均保留概率最高的n個(gè)結(jié)果,作為第k個(gè)位置上的結(jié)果,最終保留概率最高的n個(gè)所有單詞的組合作為候選文本摘要。剪枝過程中應(yīng)用的概率計(jì)算公式為:
該計(jì)算公式中的w為k個(gè)單詞的文本組合,p(w)為所述k個(gè)單詞的文本組合的似然概率值,s為所述k個(gè)單詞的文本組合的起始符,i為詞位置。
獲取到各個(gè)候選文本摘要后,就可以進(jìn)入到步驟s803,計(jì)算各個(gè)候選文本摘要的語言得分。
步驟s803:根據(jù)預(yù)先生成的語言模型,計(jì)算各個(gè)所述候選文本摘要的語言得分。
語言模型(languagemodel,簡寫為lm)是自然語言處理領(lǐng)域的基礎(chǔ)問題,其在詞性標(biāo)注、句法分析、機(jī)器翻譯、信息檢索等任務(wù)中起到了重要作用。簡而言之,統(tǒng)計(jì)語言模型表示為:在詞序列中,給定一個(gè)詞和上下文中所有詞,這個(gè)序列出現(xiàn)的概率。借助語言模型能夠保證句子的流暢度。
本申請(qǐng)實(shí)施例所述的預(yù)先生成的語言模型是根據(jù)語言客觀事實(shí)而進(jìn)行的語言抽象數(shù)學(xué)建模,是一種對(duì)應(yīng)關(guān)系,體現(xiàn)了一種語言本身的性質(zhì)。在語言模型中,候選文本摘要的語言得分是指文本摘要的句子概率。
要計(jì)算候選文本摘要的語言得分,首先需要生成語言模型。本申請(qǐng)實(shí)施例根據(jù)預(yù)先存儲(chǔ)的語料庫生成語言模型,生成的語言模型包括n-gram語言模型。n值越大,則對(duì)下一個(gè)詞出現(xiàn)的約束信息越多,具有更大的辨別力;n值越小,則在語料中出現(xiàn)的次數(shù)越多,具有更可靠的統(tǒng)計(jì)信息,即具有更高的可靠性。理論上,n值越大越好,然而在實(shí)際應(yīng)用中,n的值不能太大,否則計(jì)算量太大,常用的是二元語言模型(即:bi-gram語言模型)和三元語言模型(即:tri-gram語言模型)。原則上,能用二元語言模型解決,絕不使用三元語言模型。本申請(qǐng)實(shí)施例構(gòu)建的語言模型為二元語言模型。
獲取到語言模型后,就可以根據(jù)語言模型,計(jì)算各個(gè)候選文本摘要的語言得分。計(jì)算候選文本摘要的語言得分所應(yīng)用的公式如下:
該公式中的w為候選文本摘要,p(w)為候選文本摘要的似然概率值,s為候選文本摘要的起始符,n為候選文本摘要包括的詞數(shù)量,i為詞位置。通過該公式計(jì)算獲取各個(gè)候選文本摘要的語言得分。
步驟s805:選取所述語言得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定候選文本摘要,作為所述商品聚類的文本摘要。
最后,根據(jù)各個(gè)候選文本摘要的語言得分,從中選取語言得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定候選文本摘要,作為商品聚類的文本摘要。在實(shí)際應(yīng)用中,通常選用語言得分最高的候選文本摘要作為商品聚類的文本摘要。
需要注意的是,在商品聚類的商品標(biāo)簽集所包括的商品標(biāo)簽、及商品類目的名稱中,可能存在無效詞和重復(fù)詞。為了提高文本摘要的準(zhǔn)確度,在執(zhí)行步驟s801之前,通常還包括如下處理:1)根據(jù)預(yù)設(shè)的無效詞詞典,從商品標(biāo)簽集和商品聚類所屬商品類目的名稱中去除無效詞;2)從商品標(biāo)簽集和商品聚類所屬商品類目的名稱中去除重復(fù)詞。其中,無效詞包括停用詞等。
本申請(qǐng)實(shí)施例提供的圖片摘要的生成方法,其核心的基本思想是:綜合考慮商品的圖片質(zhì)量及商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),選擇綜合得分最高的商品圖片作為商品聚類的代表圖片。由于該方法綜合考慮圖片質(zhì)量及與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),因此,圖片摘要的圖片質(zhì)量及準(zhǔn)確性更高,從而達(dá)到提高用戶體驗(yàn)的效果。
請(qǐng)參考圖9,其為本申請(qǐng)的方法實(shí)施例生成圖片摘要的具體流程圖。在本實(shí)施例中,為所述商品聚類生成圖片摘要,包括如下步驟:
步驟s901:獲取所述商品聚類中各個(gè)所述待聚類商品的商品圖片的質(zhì)量得分;以及獲取各個(gè)所述待聚類商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)。
對(duì)于聚合成一類的商品,在展現(xiàn)的時(shí)候,不能簡單的將某個(gè)商品的圖片進(jìn)行展現(xiàn),而需要綜合考慮商品聚類中所有商品的圖片,選擇圖片質(zhì)量較高及商品轉(zhuǎn)化率等與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)較高的圖片作為代表圖片。因此,首先需要獲取各個(gè)商品的圖片質(zhì)量的得分、及與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)兩方面數(shù)據(jù)。
在本實(shí)施例中,商品圖片的質(zhì)量得分,采用如下步驟計(jì)算:1)獲取所述商品圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征;2)根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述商品圖片的質(zhì)量得分。
1)獲取所述商品圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征。
本申請(qǐng)實(shí)施例所述的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征是指,能夠從各種角度描述圖片質(zhì)量的特征,包括但不限于:圖片高度、圖片寬度、圖片寬高比、圖片邊框面積的占比、圖片包括的子圖數(shù)量、圖片中干擾部分的占比、圖片背景的復(fù)雜度、圖片前景的醒目度和圖片白背景率的至少一者。其中,圖片中的干擾部分包括牛皮癬,例如,文字、商標(biāo)等干擾部分。
2)根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述商品圖片的質(zhì)量得分。
本申請(qǐng)實(shí)施例所述的商品圖片的質(zhì)量得分,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型計(jì)算獲取,模型的輸入為各個(gè)圖片特征,模型的輸出即為商品圖片的質(zhì)量得分。
要計(jì)算商品圖片的質(zhì)量得分,首先需要生成圖片質(zhì)量預(yù)測(cè)模型。在本實(shí)施例中,通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注圖片質(zhì)量的歷史圖片特征集中學(xué)習(xí)獲得圖片質(zhì)量預(yù)測(cè)模型。在實(shí)際應(yīng)用中,可以采用的機(jī)器學(xué)習(xí)算法包括回歸算法。具體的,可以采用線性回歸算法、邏輯回歸算法或gbdt回歸決策樹算法。
需要注意的是,不同算法生成的圖片質(zhì)量預(yù)測(cè)模型的質(zhì)量不同,不同算法的計(jì)算復(fù)雜度也不相同。在實(shí)際應(yīng)用中,根據(jù)具體應(yīng)用需求,可以選擇任意一種機(jī)器學(xué)習(xí)算法生成圖片質(zhì)量預(yù)測(cè)模型。上述各種不同的機(jī)器學(xué)習(xí)算法都只是具體實(shí)施方式的變更,都不偏離本申請(qǐng)的核心,因此都在本申請(qǐng)的保護(hù)范圍之內(nèi)。
在本實(shí)施例中,采用邏輯回歸算法生成圖片質(zhì)量預(yù)測(cè)模型,商品圖片的質(zhì)量得分的計(jì)算公式如下:
該公式中的pic_score為商品圖片的質(zhì)量得分,xi為第i個(gè)圖片特征,wi為第i個(gè)圖片特征的權(quán)重。
本申請(qǐng)實(shí)施例所述的商品圖片作為圖片摘要的得分,還依賴于商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)。所述的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),包括但不限于:商品轉(zhuǎn)換率得分、商品交易數(shù)或商品點(diǎn)擊數(shù)。所述的商品交易數(shù)是指,一個(gè)商品被實(shí)際購買的次數(shù)。所述的商品點(diǎn)擊數(shù)是指,用戶對(duì)一個(gè)商品詳情頁的瀏覽次數(shù)。所述的商品轉(zhuǎn)換率得分是指,商品交易數(shù)和商品點(diǎn)擊數(shù)的組合得分。在本實(shí)施例中,采用如下公式計(jì)算商品轉(zhuǎn)換率得分:
cvr_score=∑e-λδt(w1*click_cnt+w2*trade_cnt)
該公式中的crv_score為商品轉(zhuǎn)換率得分,
步驟s903:根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算各個(gè)所述商品圖片作為圖片摘要的得分。
對(duì)于一個(gè)商品,需要綜合考慮商品的圖片質(zhì)量及商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算該商品的商品圖片作為圖片摘要的得分。在實(shí)際應(yīng)用中,步驟s903可以有很多種具體的實(shí)施方式,下面列舉兩種可選的具體實(shí)施方式。
方式一、根據(jù)為所述商品圖片的質(zhì)量預(yù)設(shè)的權(quán)重、及為各個(gè)所述用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)分別預(yù)設(shè)的權(quán)重,對(duì)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)進(jìn)行線性加權(quán)組合,將加權(quán)組合值作為所述商品圖片作為圖片摘要的得分。
方式一中的各個(gè)所述預(yù)設(shè)的權(quán)重可以依據(jù)經(jīng)驗(yàn)而定。在本實(shí)施例中,所述用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)采用商品轉(zhuǎn)換率得分;所述根據(jù)所述商品圖片的質(zhì)量得分和所述用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算所述商品圖片作為圖片摘要的得分,采用如下公式計(jì)算:
abs_scoreoffer=w3*cvr_scoreoffer+w4*pic_scoreoffer
該公式中的abs_scoreoffer為商品圖片作為圖片摘要的得分,crv_scoreoffer為商品轉(zhuǎn)換率得分,w3為商品轉(zhuǎn)換率得分的權(quán)重,pic_scoreoffer為商品圖片的質(zhì)量得分,w4為商品圖片的質(zhì)量得分的權(quán)重。
方式二、根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),通過預(yù)先生成的圖片摘要得分預(yù)測(cè)模型,計(jì)算所述商品圖片作為圖片摘要的得分。
方式二中的圖片摘要得分預(yù)測(cè)模型是指,通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注商品圖片作為圖片摘要的得分的歷史圖片摘要特征集中學(xué)習(xí)獲得的圖片摘要得分預(yù)測(cè)模型。所述的圖片摘要特征包括:歷史商品的商品圖片的質(zhì)量、及歷史商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)。
步驟s905:選取所述作為圖片摘要的得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定商品圖片,作為所述商品聚類的圖片摘要。
最后,根據(jù)各個(gè)商品的商品圖片作為圖片摘要的得分,選取大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定商品圖片,作為商品聚類的圖片摘要。所述的分?jǐn)?shù)閾值可以依據(jù)經(jīng)驗(yàn)而定。通常,選取最高值得分的商品圖片作為商品聚類的圖片摘要,其形式化表示如下:
在上述的實(shí)施例中,提供了一種商品聚類方法,與之相對(duì)應(yīng)的,本申請(qǐng)還提供一種商品聚類裝置。該裝置是與上述方法的實(shí)施例相對(duì)應(yīng)。
請(qǐng)參看圖10,其為本申請(qǐng)的商品聚類裝置實(shí)施例的示意圖。由于裝置實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的商品聚類裝置實(shí)施例僅僅是示意性的。
本實(shí)施例的一種商品聚類裝置,包括:
獲取單元101,用于獲取待聚類的商品集;
生成標(biāo)簽單元103,用于針對(duì)所述待聚類的商品集中各個(gè)待聚類商品,根據(jù)所述待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,生成所述待聚類商品的商品標(biāo)簽集;
聚類單元105,用于根據(jù)所述各個(gè)待聚類商品的商品標(biāo)簽集,通過預(yù)設(shè)的聚類算法,對(duì)所述商品集中的商品進(jìn)行聚類。
請(qǐng)參看圖11,其為本申請(qǐng)的商品聚類裝置實(shí)施例生成標(biāo)簽單元103的具體示意圖。可選的,所述生成標(biāo)簽單元103包括:
獲取子單元1031,用于根據(jù)所述待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,獲取所述待聚類商品所屬的商品類目的商品標(biāo)簽集;
匹配子單元1033,用于將所述待聚類商品的屬性與所述待聚類商品所屬的商品類目的商品標(biāo)簽集中各個(gè)商品標(biāo)簽分別進(jìn)行文本匹配,將匹配成功的商品標(biāo)簽作為所述待聚類商品的商品標(biāo)簽。
請(qǐng)參看圖12,其為本申請(qǐng)的商品聚類裝置實(shí)施例的具體示意圖??蛇x的,還包括:
生成對(duì)應(yīng)關(guān)系單元201,用于生成所述商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系。
請(qǐng)參看圖13,其為本申請(qǐng)的商品聚類裝置實(shí)施例生成對(duì)應(yīng)關(guān)系單元201的具體示意圖。可選的,所述生成對(duì)應(yīng)關(guān)系單元包括:
獲取子單元2011,用于獲取所述商品類目包括的所述商品屬性;
選取子單元2013,用于通過預(yù)設(shè)的標(biāo)簽選取算法,從所述商品類目包括的所述商品屬性中選取具有商品區(qū)分意義的屬性組成所述商品類目的商品標(biāo)簽集。
可選的,所述預(yù)設(shè)的標(biāo)簽選取算法采用基于信息熵的標(biāo)簽選取算法;
所述選取子單元2013包括:
獲取子單元,用于獲取所述商品類目中商品的屬性名;
計(jì)算子單元,用于針對(duì)各個(gè)所述屬性名,根據(jù)所述屬性名對(duì)應(yīng)的屬性值,計(jì)算所述屬性名的信息熵;
選取子單元,用于將所述屬性名的信息熵小于等于最大信息熵閾值的屬性名作為具有商品區(qū)分意義的屬性名;
生成子單元,用于將所述具有商品區(qū)分意義的屬性名對(duì)應(yīng)的商品屬性作為所述具有商品區(qū)分意義的屬性,生成所述商品類目的商品標(biāo)簽集。
可選的,所述預(yù)設(shè)的聚類算法包括基于頻繁項(xiàng)集挖掘和累積權(quán)重匹配的聚類算法;
請(qǐng)參看圖14,其為本申請(qǐng)的商品聚類裝置實(shí)施例聚類單元105的具體示意圖??蛇x的,所述聚類單元105包括:
生成子單元1051,用于根據(jù)所述各個(gè)待聚類商品的商品標(biāo)簽集,通過頻繁項(xiàng)集挖掘算法,生成多個(gè)頻繁商品標(biāo)簽集;
匹配子單元1053,用于針對(duì)各個(gè)所述待聚類商品,根據(jù)預(yù)先生成的標(biāo)簽名的權(quán)重,計(jì)算所述待聚類商品的商品標(biāo)簽集分別與各個(gè)所述頻繁商品標(biāo)簽集的相似度;并選取所述相似度排在高位的所述頻繁商品標(biāo)簽集,作為與所述待聚類商品對(duì)應(yīng)的頻繁商品標(biāo)簽集;
聚類子單元1055,用于將與同一所述頻繁商品標(biāo)簽集對(duì)應(yīng)的多個(gè)所述待聚類商品聚為一類。
可選的,所述頻繁商品標(biāo)簽集與所述商品類目相對(duì)應(yīng);所述生成子單元1051包括:
獲取子單元,用于根據(jù)所述待聚類商品所屬的商品類目,獲取所述商品集與所述商品類目的對(duì)應(yīng)關(guān)系;
生成候選子單元,用于針對(duì)所述對(duì)應(yīng)關(guān)系中的各個(gè)商品類目,將屬于所述商品類目的所述待聚類商品的商品標(biāo)簽集作為與所述商品類目對(duì)應(yīng)的候選頻繁商品標(biāo)簽集;
計(jì)算子單元,用于針對(duì)與所述商品類目對(duì)應(yīng)的各個(gè)所述候選頻繁商品標(biāo)簽集,根據(jù)屬于所述商品類目的各個(gè)所述待聚類商品的預(yù)設(shè)事務(wù)屬性的屬性值,計(jì)算各個(gè)所述候選頻繁商品標(biāo)簽集的出現(xiàn)頻率;所述出現(xiàn)頻率是指,包括所述候選頻繁商品標(biāo)簽集的所述預(yù)設(shè)事務(wù)屬性的屬性值的種類數(shù);
選取子單元,用于針對(duì)所述各個(gè)商品類目,選取所述出現(xiàn)頻率大于預(yù)設(shè)的最小支持度閾值的所述候選頻繁商品標(biāo)簽集,作為屬于所述商品類目的所述頻繁商品標(biāo)簽集。
可選的,所述匹配子單元1053包括:
計(jì)算子單元,用于根據(jù)預(yù)先生成的標(biāo)簽名的權(quán)重,計(jì)算所述待聚類商品的商品標(biāo)簽集分別與各個(gè)所述頻繁商品標(biāo)簽集的相似度;
所述計(jì)算子單元包括:
判斷子單元,用于針對(duì)各個(gè)所述頻繁商品標(biāo)簽集,判斷所述頻繁商品標(biāo)簽集中的各個(gè)商品標(biāo)簽是否均存在于所述待聚類商品的商品標(biāo)簽集中;
判斷是子單元,用于若上述判斷結(jié)果為是,則所述相關(guān)度為所述頻繁商品標(biāo)簽集中各個(gè)所述標(biāo)簽名的權(quán)重之和;
判斷否子單元,用于若上述判斷結(jié)果為否,則所述相關(guān)度為0。
可選的,所述裝置還包括:
生成權(quán)重單元203,用于生成所述標(biāo)簽名的權(quán)重。
請(qǐng)參看圖15,其為本申請(qǐng)的商品聚類裝置實(shí)施例生成權(quán)重單元203的具體示意圖??蛇x的,所述生成權(quán)重單元203包括:
獲取子單元2031,用于獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果;
生成子單元2033,用于針對(duì)各個(gè)歷史查詢?cè)~,根據(jù)與所述歷史查詢?cè)~對(duì)應(yīng)的所述與用戶行為相關(guān)的商品搜索結(jié)果,獲取與所述歷史查詢?cè)~對(duì)應(yīng)的商品類目,生成歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系;
計(jì)算子單元2035,用于針對(duì)所述歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系中各個(gè)商品類目,根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);并根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的權(quán)重。
可選的,所述計(jì)算子單元2035包括:
第一計(jì)算子單元,用于根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);
所述第一計(jì)算子單元包括:
匹配子單元,用于針對(duì)與所述商品類目對(duì)應(yīng)的各個(gè)所述歷史查詢?cè)~,將所述歷史查詢?cè)~與所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽的標(biāo)簽值進(jìn)行文本匹配;若匹配成功,則將匹配成功的標(biāo)簽值的出現(xiàn)次數(shù)加一;
計(jì)算頻度子單元,用于根據(jù)各個(gè)商品標(biāo)簽的標(biāo)簽值的出現(xiàn)次數(shù),計(jì)算所述各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)。
可選的,所述計(jì)算子單元2035包括:
第二計(jì)算子單元,用于根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的重要度;
所述第二計(jì)算子單元包括:
計(jì)算總頻度子單元,用于根據(jù)所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算標(biāo)簽名的出現(xiàn)總次數(shù);
計(jì)算權(quán)重子單元,用于將所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)、與所述出現(xiàn)總次數(shù)的比值,作為各個(gè)標(biāo)簽名的重要度。
可選的,所述裝置還包括:
生成文本摘要單元205,用于針對(duì)各個(gè)商品聚類,為所述商品聚類生成文本摘要。
請(qǐng)參看圖16,其為本申請(qǐng)的商品聚類裝置實(shí)施例生成文本摘要單元205的具體示意圖??蛇x的,所述生成文本摘要單元205包括:
生成候選摘要子單元2051,用于將所述商品聚類的商品標(biāo)簽集包括的商品標(biāo)簽與所述商品聚類所屬商品類目的名稱進(jìn)行文字拼接,生成所述商品聚類的多個(gè)候選文本摘要;
計(jì)算子單元2053,用于根據(jù)預(yù)先生成的語言模型,計(jì)算各個(gè)所述候選文本摘要的語言得分;
選取子單元2055,用于選取所述語言得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定候選文本摘要,作為所述商品聚類的文本摘要。
可選的,所述生成文本摘要單元205還包括:
生成語言模型子單元,用于生成所述語言模型。
可選的,所述生成文本摘要單元205還包括:
第一過濾子單元,用于根據(jù)預(yù)設(shè)的無效詞詞典,從所述商品標(biāo)簽集和所述商品聚類所屬商品類目的名稱中去除無效詞。
可選的,所述生成文本摘要單元205還包括:
第二過濾子單元,用于從所述商品標(biāo)簽集和所述商品聚類所屬商品類目的名稱中去除重復(fù)詞。
可選的,所述裝置還包括:
生成圖片摘要單元207,用于針對(duì)各個(gè)商品聚類,為所述商品聚類生成圖片摘要。
請(qǐng)參看圖17,其為本申請(qǐng)的商品聚類裝置實(shí)施例生成圖片摘要單元207的具體示意圖??蛇x的,所述生成圖片摘要單元207包括:
獲取子單元2071,用于獲取所述商品聚類中各個(gè)所述待聚類商品的商品圖片的質(zhì)量得分;以及獲取各個(gè)所述待聚類商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù);
計(jì)算子單元2073,用于根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算各個(gè)所述商品圖片作為圖片摘要的得分;
選取子單元2075,用于選取所述作為圖片摘要的得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定商品圖片,作為所述商品聚類的圖片摘要。
可選的,所述生成圖片摘要單元207還包括:
生成圖片質(zhì)量子單元,用于計(jì)算所述商品圖片的質(zhì)量得分。
可選的,所述生成圖片質(zhì)量子單元包括:
獲取子單元,用于獲取所述商品圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征;
計(jì)算子單元,用于根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述商品圖片的質(zhì)量得分。
可選的,所述生成圖片摘要單元207還包括:
生成模型子單元,用于生成所述圖片質(zhì)量預(yù)測(cè)模型。
可選的,所述裝置還包括:
顯示單元209,用于根據(jù)所述待聚類商品所屬的商品聚類,分類顯示所述待聚類商品。
可選的,所述裝置還包括:
篩選單元211,用于對(duì)所述待聚類商品進(jìn)行篩選,去除無效商品。
請(qǐng)參考圖18,其為本申請(qǐng)的電子設(shè)備實(shí)施例的示意圖。由于設(shè)備實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的設(shè)備實(shí)施例僅僅是示意性的。
本實(shí)施例的一種電子設(shè)備,該電子設(shè)備包括:顯示器1801;處理器1802;以及存儲(chǔ)器1803,所述存儲(chǔ)器1803被配置成存儲(chǔ)商品聚類裝置,所述商品聚類裝置被所述處理器1802執(zhí)行時(shí),包括如下步驟:獲取待聚類的商品集;針對(duì)所述待聚類的商品集中各個(gè)待聚類商品,根據(jù)所述待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,生成所述待聚類商品的商品標(biāo)簽集;根據(jù)所述各個(gè)待聚類商品的商品標(biāo)簽集,通過預(yù)設(shè)的聚類算法,對(duì)所述商品集中的商品進(jìn)行聚類。
本申請(qǐng)實(shí)施例提供的商品聚類方法、裝置及電子設(shè)備,通過獲取待分類的商品集;根據(jù)各個(gè)待聚類商品所屬的商品類目、及預(yù)先生成的商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系,生成各個(gè)待聚類商品的商品標(biāo)簽集;根據(jù)各個(gè)待聚類商品的商品標(biāo)簽集,通過預(yù)設(shè)的聚類算法,將商品集中的相似商品自動(dòng)聚合于同一類別,進(jìn)而能夠以聚類列表的方式將商品展現(xiàn)給用戶,而非以商品列表的方式將商品展現(xiàn)給用戶,避免商品同質(zhì)化現(xiàn)象的發(fā)生,從而達(dá)到提高用戶體驗(yàn)的效果。
與上述的商品聚類方法相對(duì)應(yīng),本申請(qǐng)還提供一種文字摘要的生成方法?,F(xiàn)有技術(shù)存在文字摘要準(zhǔn)確性低的問題。本申請(qǐng)?zhí)峁┮环N文字摘要的生成方法、裝置及電子設(shè)備,以解決現(xiàn)有技術(shù)存在文字摘要準(zhǔn)確性低的問題。
本申請(qǐng)實(shí)施例提供的文本摘要的生成方法,其核心的基本思想是:將對(duì)象聚類所屬的對(duì)象類目名以及對(duì)象聚類的標(biāo)簽進(jìn)行文字組合,選擇語言模型得分最高的文字組合作為對(duì)象聚類的文本摘要。由于該方法綜合考慮對(duì)象聚類所在的類目名以及對(duì)象聚類的標(biāo)簽,因此,生成的文本摘要的概括性更強(qiáng)且準(zhǔn)確性更高;由于根據(jù)語言模型得分對(duì)各種組合進(jìn)行選擇,因此,文本摘要的語句更為通順,從而達(dá)到提高用戶體驗(yàn)的效果。
請(qǐng)參考圖19,其為本申請(qǐng)的文字摘要的生成方法實(shí)施例的流程圖,本實(shí)施例與第一實(shí)施例內(nèi)容相同的部分不再贅述,請(qǐng)參見實(shí)施例一中的相應(yīng)部分。本申請(qǐng)?zhí)峁┑囊环N文字摘要的生成方法,用于對(duì)象聚類,包括如下步驟:
步驟s1901:獲取待處理的對(duì)象聚類及其標(biāo)簽集。
本申請(qǐng)實(shí)施例所述的對(duì)象聚類是指,屬于同一對(duì)象類目的對(duì)象集。所述的對(duì)象類目是指,用于對(duì)象分類的目錄結(jié)構(gòu)。以商品對(duì)象為例,商品一級(jí)類目包括大家電行業(yè)、服裝行業(yè)等,大家電行業(yè)的商品二級(jí)類目包括電視、冰箱、洗衣機(jī)等,更進(jìn)一步的,商品類目還可以包括商品三級(jí)類目等更細(xì)分的商品類目。所述的對(duì)象是指對(duì)客觀事物的抽象,例如,商品對(duì)象等。所述的對(duì)象具有屬性,屬性用于描述對(duì)象的性質(zhì),是一個(gè)對(duì)象區(qū)別于其他對(duì)象的特征。
例如,一個(gè)名為“蘋果5s”的手機(jī)商品對(duì)象,該商品對(duì)象的屬性包括:“iphone型號(hào):5s”、“品牌:蘋果”、“類目:手機(jī)”等屬性,其中,iphone型號(hào)、品牌及類目為屬性名,與這些屬性名分別對(duì)應(yīng)的屬性值為5s、蘋果及手機(jī)。進(jìn)一步的,例如,“手機(jī)”商品類目包括的多個(gè)手機(jī)商品對(duì)象構(gòu)成一個(gè)手機(jī)商品聚類。
本申請(qǐng)實(shí)施例所述的標(biāo)簽集是指多個(gè)標(biāo)簽組成的集合。對(duì)象聚類的標(biāo)簽集,用于表征對(duì)象聚類的特性。例如,“手機(jī)”商品類目的標(biāo)簽集包括:“iphone型號(hào):4s”、“iphone型號(hào):5s”、“iphone型號(hào):6s”、“品牌:蘋果”、“品牌:三星”、“品牌:華為”等商品標(biāo)簽。
獲取到待處理的對(duì)象聚類及其標(biāo)簽集之后,就可以進(jìn)入步驟s1903,生成對(duì)象聚類的多個(gè)候選文本摘要。
步驟s1903:將所述標(biāo)簽集包括的標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接,生成所述對(duì)象聚類的多個(gè)候選文本摘要。
步驟s1903與上述步驟s801相對(duì)應(yīng),不同之處僅在于:步驟s801的處理對(duì)象為商品聚類,而步驟s1903為對(duì)象聚類,商品是一種典型的對(duì)象,相應(yīng)的商品聚類是一種典型的對(duì)象聚類。兩個(gè)步驟相同之處此處不再贅述,相關(guān)說明詳見步驟s801部分。
優(yōu)選的,所述將所述標(biāo)簽集包括的標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接,生成所述對(duì)象聚類的多個(gè)候選文本摘要,采用如下方式:
通過預(yù)設(shè)的剪枝算法,將所述標(biāo)簽集中的各個(gè)標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接,生成所述候選文本摘要。
可選的,所述預(yù)設(shè)的剪枝算法包括:定向搜索剪枝算法或柱搜索剪枝算法。
生成各個(gè)候選文本摘要后,就可以進(jìn)入到步驟s1905,計(jì)算各個(gè)候選文本摘要的語言得分。
步驟s1905:通過預(yù)先生成的語言模型,計(jì)算各個(gè)所述候選文本摘要的語言得分。
步驟s1905與上述步驟s803相對(duì)應(yīng),兩個(gè)步驟相同之處此處不再贅述,相關(guān)說明詳見步驟s803部分。
在本實(shí)施例中,所述預(yù)先生成的語言模型,采用如下方式生成:根據(jù)預(yù)先存儲(chǔ)的語料庫,生成所述語言模型。
優(yōu)選的,所述語言模型采用n-gram語言模型。
在本實(shí)施例中,所述根據(jù)所述預(yù)先生成的語言模型,計(jì)算所述候選文本摘要的語言得分,采用如下公式計(jì)算:
其中,w為所述候選文本摘要,p(w)為所述候選文本摘要的似然概率值,s為所述候選文本摘要的起始符,n為所述候選文本摘要包括的詞數(shù)量,i為詞位置。
步驟s1907:選取所述語言得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定候選文本摘要,作為所述對(duì)象聚類的文本摘要。
步驟s1907與上述步驟s805相對(duì)應(yīng),兩個(gè)步驟相同之處此處不再贅述,相關(guān)說明詳見步驟s805部分。
優(yōu)選的,在所述將所述標(biāo)簽集包括的標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接之前,還包括:根據(jù)預(yù)設(shè)的無效詞詞典,從所述標(biāo)簽集和所述對(duì)象類目的名稱中去除無效詞。
優(yōu)選的,在所述將所述標(biāo)簽集包括的標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接之前,還包括:從所述標(biāo)簽集和所述對(duì)象類目的名稱中去除重復(fù)詞。
在上述的實(shí)施例中,提供了一種文字摘要的生成方法,與之相對(duì)應(yīng)的,本申請(qǐng)還提供一種文字摘要的生成裝置。該裝置是與上述方法的實(shí)施例相對(duì)應(yīng)。
請(qǐng)參看圖20,其為本申請(qǐng)的文字摘要的生成裝置實(shí)施例的示意圖。由于裝置實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的裝置實(shí)施例僅僅是示意性的。
本實(shí)施例的一種文字摘要的生成裝置,用于對(duì)象聚類,包括:
獲取單元2001,用于獲取待處理的對(duì)象聚類及其標(biāo)簽集;所述對(duì)象聚類包括的對(duì)象屬于同一對(duì)象類目;
生成候選單元2003,用于將所述標(biāo)簽集包括的標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接,生成所述對(duì)象聚類的多個(gè)候選文本摘要;
計(jì)算單元2005,用于通過預(yù)先生成的語言模型,計(jì)算各個(gè)所述候選文本摘要的語言得分;
選取單元2007,用于選取所述語言得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定候選文本摘要,作為所述對(duì)象聚類的文本摘要。
可選的,還包括:
生成模型單元,用于根據(jù)預(yù)先存儲(chǔ)的語料庫,生成所述語言模型。
可選的,還包括:
第一過濾單元,用于根據(jù)預(yù)設(shè)的無效詞詞典,從所述標(biāo)簽集和所述對(duì)象類目的名稱中去除無效詞。
可選的,還包括:
第二過濾單元,用于從所述標(biāo)簽集和所述對(duì)象類目的名稱中去除重復(fù)詞。
請(qǐng)參考圖21,其為本申請(qǐng)的電子設(shè)備實(shí)施例的示意圖。由于設(shè)備實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的設(shè)備實(shí)施例僅僅是示意性的。
本實(shí)施例的一種電子設(shè)備,該電子設(shè)備包括:顯示器2101;處理器2102;以及存儲(chǔ)器2103,所述存儲(chǔ)器被配置成存儲(chǔ)文本摘要的生成裝置,所述文本摘要的生成裝置被所述處理器執(zhí)行時(shí),包括如下步驟:獲取待處理的對(duì)象聚類及其標(biāo)簽集;所述對(duì)象聚類包括的對(duì)象屬于同一對(duì)象類目;將所述標(biāo)簽集包括的標(biāo)簽與所述對(duì)象類目的名稱進(jìn)行文字拼接,生成所述對(duì)象聚類的多個(gè)候選文本摘要;通過預(yù)先生成的語言模型,計(jì)算各個(gè)所述候選文本摘要的語言得分;選取所述語言得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定候選文本摘要,作為所述對(duì)象聚類的文本摘要。
本申請(qǐng)實(shí)施例提供的文本摘要的生成方法、裝置及電子設(shè)備,用于對(duì)象聚類,通過獲取待處理的對(duì)象聚類及其標(biāo)簽集,其中對(duì)象聚類包括的對(duì)象屬于同一對(duì)象類目,并將標(biāo)簽集包括的標(biāo)簽與對(duì)象類目的名稱進(jìn)行文字拼接,生成對(duì)象聚類的多個(gè)候選文本摘要,然后,再通過預(yù)先生成的語言模型,計(jì)算各個(gè)候選文本摘要的語言得分,并選取語言得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定候選文本摘要,作為對(duì)象聚類的文本摘要。采用本申請(qǐng)?zhí)峁┑姆椒?,能夠生成概括性更?qiáng)、準(zhǔn)確性更高且語句更為通順的文本摘要,從而達(dá)到提高用戶體驗(yàn)的效果。
與上述的商品聚類方法相對(duì)應(yīng),本申請(qǐng)還提供一種圖片摘要的生成方法。現(xiàn)有技術(shù)存在圖片摘要準(zhǔn)確性低的問題。本申請(qǐng)?zhí)峁┮环N圖片摘要的生成方法、裝置及電子設(shè)備,以解決現(xiàn)有技術(shù)存在圖片摘要準(zhǔn)確性低的問題。
本申請(qǐng)實(shí)施例提供的文本摘要的生成方法,其核心的基本思想是:綜合考慮商品的圖片質(zhì)量及商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),選擇綜合得分最高的商品圖片作為商品集的代表圖片。由于該方法綜合考慮圖片質(zhì)量及與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),因此,圖片摘要的圖片質(zhì)量及準(zhǔn)確性更高,從而達(dá)到提高用戶體驗(yàn)的效果。
請(qǐng)參考圖22,其為本申請(qǐng)的圖片摘要的生成方法實(shí)施例的流程圖,本實(shí)施例與第一實(shí)施例內(nèi)容相同的部分不再贅述,請(qǐng)參見實(shí)施例一中的相應(yīng)部分。本申請(qǐng)?zhí)峁┑囊环N圖片摘要的生成方法包括:
步驟s2201:獲取待處理的商品集中各個(gè)商品的商品圖片的質(zhì)量得分;以及獲取各個(gè)所述商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)。
本申請(qǐng)實(shí)施例所述的商品是指,具有多個(gè)屬性的用于交換的產(chǎn)品。在實(shí)際應(yīng)用中,商品既可以是有形的商品,例如,電視、服裝等;還可以是無形的服務(wù),例如,保險(xiǎn)產(chǎn)品、金融產(chǎn)品等。
在本實(shí)施例中,所述商品圖片的質(zhì)量得分,采用如下步驟計(jì)算:1)獲取所述商品圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征;2)根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述商品圖片的質(zhì)量得分。
本申請(qǐng)實(shí)施例所述的圖片特征包括:圖片高度、圖片寬度、圖片寬高比、圖片邊框面積的占比、圖片的子圖數(shù)量、圖片中干擾部分的占比、圖片背景的復(fù)雜度、圖片前景的醒目度和圖片白背景率的至少一者。
本申請(qǐng)實(shí)施例所述的圖片質(zhì)量預(yù)測(cè)模型,采用如下方式生成:通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注圖片質(zhì)量的歷史圖片特征集中學(xué)習(xí)獲得所述圖片質(zhì)量預(yù)測(cè)模型。所述的機(jī)器學(xué)習(xí)算法包括回歸算法;所述回歸算法包括線性回歸算法、邏輯回歸算法或gbdt回歸決策樹算法。
本申請(qǐng)實(shí)施例所述的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)包括:商品轉(zhuǎn)換率得分、商品交易數(shù)或商品點(diǎn)擊數(shù)。在本實(shí)施例中,所述商品轉(zhuǎn)換率得分,采用如下公式計(jì)算:cvr_score=∑e-λδt(w1*click_cnt+w2*trade_cnt),其中,crv_score為商品轉(zhuǎn)換率得分,
獲取到商品圖片的質(zhì)量得分、及與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)之后,就可以進(jìn)入步驟s2203,計(jì)算各個(gè)商品圖片作為圖片摘要的得分。
步驟s2203:根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算各個(gè)所述商品圖片作為圖片摘要的得分。
步驟s2203與上述步驟s903相對(duì)應(yīng),兩個(gè)步驟相同之處此處不再贅述,相關(guān)說明詳見步驟s903部分。
步驟s2203可以采用如下方式實(shí)現(xiàn):根據(jù)為所述商品圖片的質(zhì)量預(yù)設(shè)的權(quán)重、及為各個(gè)所述用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)分別預(yù)設(shè)的權(quán)重,對(duì)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)進(jìn)行線性加權(quán)組合,將加權(quán)組合值作為所述商品圖片作為圖片摘要的得分。
本申請(qǐng)實(shí)施例所述的各個(gè)所述預(yù)設(shè)的權(quán)重包括經(jīng)驗(yàn)值;所述用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)采用商品轉(zhuǎn)換率得分;所述根據(jù)所述商品圖片的質(zhì)量得分和所述用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算所述商品圖片作為圖片摘要的得分,采用如下公式計(jì)算:abs_scoreoffer=w3*cvr_scoreoffer+w4*pic_scoreoffer,其中,abs_scoreoffer為所述商品圖片作為圖片摘要的得分,crv_scoreoffer為所述商品轉(zhuǎn)換率得分,w3為所述商品轉(zhuǎn)換率得分的權(quán)重,pic_scoreoffer為所述商品圖片的質(zhì)量得分,w4為所述商品圖片的質(zhì)量得分的權(quán)重。
步驟s2203還可以采用如下方式實(shí)現(xiàn):根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),通過預(yù)先生成的圖片摘要得分預(yù)測(cè)模型,計(jì)算所述商品圖片作為圖片摘要的得分。
在本實(shí)施例中,通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注商品圖片作為圖片摘要的得分的歷史圖片摘要特征集中學(xué)習(xí)獲得所述圖片摘要得分預(yù)測(cè)模型;所述圖片摘要特征包括:歷史商品的商品圖片的質(zhì)量、及歷史商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù)。
步驟s2205:選取所述作為圖片摘要的得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定商品圖片,作為所述商品集的圖片摘要。
步驟s2205與上述步驟s905相對(duì)應(yīng),兩個(gè)步驟相同之處此處不再贅述,相關(guān)說明詳見步驟s905部分。
在上述的實(shí)施例中,提供了一種圖片摘要的生成方法,與之相對(duì)應(yīng)的,本申請(qǐng)還提供一種圖片摘要的生成裝置。該裝置是與上述方法的實(shí)施例相對(duì)應(yīng)。
請(qǐng)參看圖23,其為本申請(qǐng)的圖片摘要的生成裝置實(shí)施例的示意圖。由于裝置實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的裝置實(shí)施例僅僅是示意性的。
本實(shí)施例的一種圖片摘要的生成裝置,包括:
獲取單元2301,用于獲取待處理的商品集中各個(gè)商品的商品圖片的質(zhì)量得分;以及獲取各個(gè)所述商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù);
計(jì)算單元2303,用于根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算各個(gè)所述商品圖片作為圖片摘要的得分;
選取單元2305,用于選取所述作為圖片摘要的得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定商品圖片,作為所述商品集的圖片摘要。
可選的,還包括:
生成圖片質(zhì)量單元,用于計(jì)算所述商品圖片的質(zhì)量得分。
可選的,所述生成圖片質(zhì)量單元包括:
獲取子單元,用于獲取所述商品圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征;
計(jì)算子單元,用于根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述商品圖片的質(zhì)量得分。
可選的,還包括:
生成模型子單元,用于通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注圖片質(zhì)量的歷史圖片特征集中學(xué)習(xí)獲得所述圖片質(zhì)量預(yù)測(cè)模型。
請(qǐng)參考圖24,其為本申請(qǐng)的電子設(shè)備實(shí)施例的示意圖。由于設(shè)備實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的設(shè)備實(shí)施例僅僅是示意性的。
本實(shí)施例的一種電子設(shè)備,該電子設(shè)備包括:顯示器2401;處理器2402;以及存儲(chǔ)器2403,所述存儲(chǔ)器被配置成存儲(chǔ)圖片摘要的生成裝置,所述圖片摘要的生成裝置被所述處理器執(zhí)行時(shí),包括如下步驟:獲取待處理的商品集中各個(gè)商品的商品圖片的質(zhì)量得分;以及獲取各個(gè)所述商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù);根據(jù)所述商品圖片的質(zhì)量得分和所述與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算各個(gè)所述商品圖片作為圖片摘要的得分;選取所述作為圖片摘要的得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定商品圖片,作為所述商品集的圖片摘要。
本申請(qǐng)實(shí)施例提供的圖片摘要的生成方法、裝置及電子設(shè)備,通過獲取待處理的商品集中各個(gè)商品的商品圖片的質(zhì)量得分、以及獲取各個(gè)所述商品的與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù);并根據(jù)商品圖片的質(zhì)量得分和與用戶行為相關(guān)的歷史統(tǒng)計(jì)數(shù)據(jù),計(jì)算各個(gè)商品圖片作為圖片摘要的得分;選取作為圖片摘要的得分大于預(yù)設(shè)的分?jǐn)?shù)閾值的特定商品圖片,作為商品集的圖片摘要。采用本申請(qǐng)?zhí)峁┑姆椒ǎ軌蛏蓤D片質(zhì)量及準(zhǔn)確性更高的圖片摘要,從而達(dá)到提高用戶體驗(yàn)的效果。
與上述的商品聚類方法相對(duì)應(yīng),本申請(qǐng)還提供一種圖片質(zhì)量的評(píng)測(cè)方法。現(xiàn)有技術(shù)存在無法自動(dòng)評(píng)測(cè)圖片質(zhì)量的問題。本申請(qǐng)?zhí)峁┮环N圖片質(zhì)量的評(píng)測(cè)方法、裝置及電子設(shè)備,以解決現(xiàn)有技術(shù)存在無法自動(dòng)評(píng)測(cè)圖片質(zhì)量的問題。
本申請(qǐng)實(shí)施例提供的圖片質(zhì)量的評(píng)測(cè)方法,其核心的基本思想是:綜合考慮圖片的各方面特征對(duì)圖片質(zhì)量進(jìn)行評(píng)測(cè)。由于該方法綜合考慮圖片的各方面特征,因此,提高了圖片質(zhì)量的評(píng)測(cè)準(zhǔn)確度。
請(qǐng)參考圖25,其為本申請(qǐng)的圖片質(zhì)量的評(píng)測(cè)方法實(shí)施例的流程圖,本實(shí)施例與第一實(shí)施例內(nèi)容相同的部分不再贅述,請(qǐng)參見實(shí)施例一中的相應(yīng)部分。本申請(qǐng)?zhí)峁┑囊环N圖片質(zhì)量的評(píng)測(cè)方法,包括如下步驟:
步驟s2501:獲取待計(jì)算圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征。
本申請(qǐng)實(shí)施例所述的圖片特征包括:圖片高度、圖片寬度、圖片寬高比、圖片邊框面積的占比、圖片的子圖數(shù)量、圖片中干擾部分的占比、圖片背景的復(fù)雜度、圖片前景的醒目度和圖片白背景率的至少一者。
步驟s2503:根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述待計(jì)算圖片的質(zhì)量得分。
要實(shí)施本申請(qǐng)?zhí)峁┑膱D片質(zhì)量的評(píng)測(cè)方法,首先需要生成所述圖片質(zhì)量預(yù)測(cè)模型。在本實(shí)施例中,通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注圖片質(zhì)量的歷史圖片特征集中學(xué)習(xí)獲得所述圖片質(zhì)量預(yù)測(cè)模型。
本申請(qǐng)實(shí)施例所述的機(jī)器學(xué)習(xí)算法包括回歸算法。在實(shí)際應(yīng)用中,可以選用各種現(xiàn)有的回歸算法,包括:線性回歸算法、邏輯回歸算法或gbdt回歸決策樹算法等。
生成圖片質(zhì)量預(yù)測(cè)模型之后,就可以將步驟s2501獲取到的各個(gè)圖片特征作為圖片質(zhì)量預(yù)測(cè)模型的輸入,通過圖片質(zhì)量預(yù)測(cè)模型,計(jì)算待計(jì)算圖片的質(zhì)量得分。
在上述的實(shí)施例中,提供了一種圖片質(zhì)量的評(píng)測(cè)方法,與之相對(duì)應(yīng)的,本申請(qǐng)還提供一種圖片質(zhì)量的評(píng)測(cè)裝置。該裝置是與上述方法的實(shí)施例相對(duì)應(yīng)。
請(qǐng)參看圖26,其為本申請(qǐng)的圖片質(zhì)量的評(píng)測(cè)裝置實(shí)施例的示意圖。由于裝置實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的裝置實(shí)施例僅僅是示意性的。
本實(shí)施例的一種圖片質(zhì)量的評(píng)測(cè)裝置,包括:
獲取單元2601,用于獲取待計(jì)算圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征;
計(jì)算單元2603,用于根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述待計(jì)算圖片的質(zhì)量得分。
可選的,還包括:
生成單元,用于通過機(jī)器學(xué)習(xí)算法,從已標(biāo)注圖片質(zhì)量的歷史圖片特征集中學(xué)習(xí)獲得所述圖片質(zhì)量預(yù)測(cè)模型。
請(qǐng)參考圖27,其為本申請(qǐng)的又一電子設(shè)備實(shí)施例的示意圖。由于設(shè)備實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的設(shè)備實(shí)施例僅僅是示意性的。
本實(shí)施例的又一種電子設(shè)備,該電子設(shè)備包括:顯示器2701;處理器2702;以及存儲(chǔ)器2703,所述存儲(chǔ)器被配置成存儲(chǔ)圖片質(zhì)量的評(píng)測(cè)裝置,所述圖片質(zhì)量的評(píng)測(cè)裝置被所述處理器執(zhí)行時(shí),包括如下步驟:獲取待計(jì)算圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征;根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算所述待計(jì)算圖片的質(zhì)量得分。
本申請(qǐng)實(shí)施例提供的圖片質(zhì)量的評(píng)測(cè)方法、裝置及電子設(shè)備,通過獲取待計(jì)算圖片的對(duì)圖片質(zhì)量產(chǎn)生影響的圖片特征,并根據(jù)獲取的所述圖片特征,通過預(yù)先生成的圖片質(zhì)量預(yù)測(cè)模型,計(jì)算待計(jì)算圖片的質(zhì)量得分,能夠提高圖片質(zhì)量的評(píng)測(cè)準(zhǔn)確度。
與上述的商品聚類方法相對(duì)應(yīng),本申請(qǐng)還提供一種商品標(biāo)簽名重要度的生成方法?,F(xiàn)有技術(shù)存在無法自動(dòng)生成商品標(biāo)簽名重要度的問題。本申請(qǐng)?zhí)峁┮环N商品標(biāo)簽名重要度的生成方法、裝置及電子設(shè)備,以解決現(xiàn)有技術(shù)存在無法自動(dòng)生成商品標(biāo)簽名重要度的問題。
本申請(qǐng)實(shí)施例提供的商品標(biāo)簽名重要度的生成方法,其核心的基本思想是:根據(jù)歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果,對(duì)各個(gè)商品類目中的標(biāo)簽名的權(quán)重進(jìn)行評(píng)測(cè)。由于該方法以歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果為依據(jù),計(jì)算標(biāo)簽名的權(quán)重,因此,提高了標(biāo)簽名的權(quán)重的準(zhǔn)確度。
請(qǐng)參考圖28,其為本申請(qǐng)的商品標(biāo)簽名重要度的生成方法實(shí)施例的流程圖,本實(shí)施例與第一實(shí)施例內(nèi)容相同的部分不再贅述,請(qǐng)參見實(shí)施例一中的相應(yīng)部分。本申請(qǐng)?zhí)峁┑囊环N商品標(biāo)簽名重要度的生成方法,包括如下步驟:
步驟s2801:獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果。
步驟s2801與上述步驟s701相對(duì)應(yīng),兩個(gè)步驟相同之處此處不再贅述,相關(guān)說明詳見步驟s701部分。
本申請(qǐng)實(shí)施例所述的與用戶行為相關(guān)的商品搜索結(jié)果包括但不限于:被用戶點(diǎn)擊的商品搜索結(jié)果或成交的商品搜索結(jié)果。
步驟s2803:針對(duì)各個(gè)歷史查詢?cè)~,根據(jù)與所述歷史查詢?cè)~對(duì)應(yīng)的所述與用戶行為相關(guān)的商品搜索結(jié)果,獲取與所述歷史查詢?cè)~對(duì)應(yīng)的商品類目,生成歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系。
步驟s2803與上述步驟s703相對(duì)應(yīng),兩個(gè)步驟相同之處此處不再贅述,相關(guān)說明詳見步驟s703部分。
步驟s2805:針對(duì)所述歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系中各個(gè)商品類目,根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);并根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的權(quán)重。
步驟s2805與上述步驟s705相對(duì)應(yīng),兩個(gè)步驟相同之處此處不再贅述,相關(guān)說明詳見步驟s705部分。
在本實(shí)施例中,所述根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),包括如下步驟:1)針對(duì)與所述商品類目對(duì)應(yīng)的各個(gè)所述歷史查詢?cè)~,將所述歷史查詢?cè)~與所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽的標(biāo)簽值進(jìn)行文本匹配;若匹配成功,則將匹配成功的標(biāo)簽值的出現(xiàn)次數(shù)加一;2)根據(jù)各個(gè)商品標(biāo)簽的標(biāo)簽值的出現(xiàn)次數(shù),計(jì)算所述各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)。
在本實(shí)施例中,所述根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的重要度,包括如下步驟:1)根據(jù)所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算標(biāo)簽名的出現(xiàn)總次數(shù);2)將所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)、與所述出現(xiàn)總次數(shù)的比值,作為各個(gè)標(biāo)簽名的重要度。
本申請(qǐng)實(shí)施例所述的商品類目的商品標(biāo)簽集,可以采用如下方式生成:根據(jù)所述商品類目包括的商品屬性,生成所述商品類目的商品標(biāo)簽集。
請(qǐng)參考圖29,其為本申請(qǐng)的商品標(biāo)簽名重要度的生成方法實(shí)施例生成商品類目與商品標(biāo)簽集的對(duì)應(yīng)關(guān)系的具體流程圖。在本實(shí)施例中,所述根據(jù)所述商品類目包括的商品屬性,生成所述商品類目的商品標(biāo)簽集,包括:
步驟s2901:獲取所述商品類目包括的所述商品屬性。
步驟s2901與上述步驟s201相對(duì)應(yīng),兩個(gè)步驟相同之處此處不再贅述,相關(guān)說明詳見步驟s201部分。
步驟s2903:通過預(yù)設(shè)的標(biāo)簽選取算法,從所述商品類目包括的所述商品屬性中選取具有商品區(qū)分意義的屬性組成所述商品類目的商品標(biāo)簽集。
步驟s2903與上述步驟s203相對(duì)應(yīng),兩個(gè)步驟相同之處此處不再贅述,相關(guān)說明詳見步驟s203部分。
本申請(qǐng)實(shí)施例所述的預(yù)設(shè)的標(biāo)簽選取算法,包括但不限于:基于規(guī)則的標(biāo)簽選取算法或基于信息熵的標(biāo)簽選取算法的至少一者。其中,所述基于規(guī)則的標(biāo)簽選取算法所基于的選取規(guī)則包括以下規(guī)則的至少一者:1)去除不具有商品區(qū)分意義的商品屬性名所對(duì)應(yīng)的商品屬性;所述不具有商品區(qū)分意義的商品屬性名包括:商品產(chǎn)地或商品新舊程度;2)去除不具有商品區(qū)分意義的商品屬性值所對(duì)應(yīng)的商品屬性;所述不具有商品區(qū)分意義的商品屬性值包括:日期或運(yùn)營性質(zhì)。
在本實(shí)施例中,采用所述基于信息熵的標(biāo)簽選取算法,從所述商品類目包括的所述商品屬性中選取具有商品區(qū)分意義的屬性組成所述商品類目的商品標(biāo)簽集,包括如下步驟:1)獲取所述商品類目中商品的屬性名;2)針對(duì)各個(gè)所述屬性名,根據(jù)所述屬性名對(duì)應(yīng)的屬性值,計(jì)算所述屬性名的信息熵;3)將所述屬性名的信息熵小于等于最大信息熵閾值的屬性名作為具有商品區(qū)分意義的屬性名;4)將所述具有商品區(qū)分意義的屬性名對(duì)應(yīng)的商品屬性作為所述具有商品區(qū)分意義的屬性,生成所述商品類目的商品標(biāo)簽集。
上述步驟中,計(jì)算信息熵所依據(jù)的屬性值包括系統(tǒng)屬性值或自定義屬性值。所述屬性名的信息熵,采用如下公式計(jì)算:
需要說明的是,在實(shí)際應(yīng)用中,還可以根據(jù)具體業(yè)務(wù)情況,采用其它標(biāo)簽選取算法,只要能夠選取出具有商品區(qū)分意義的屬性即可,同樣可以實(shí)現(xiàn)本申請(qǐng)的技術(shù)方案,因此也在本申請(qǐng)的保護(hù)范圍之內(nèi)。此外,在實(shí)際應(yīng)用中,可以采用上述其中一種或多種標(biāo)簽選取算法的組合,從所述商品類目包括的商品屬性中選取具有商品區(qū)分意義的屬性。
在上述的實(shí)施例中,提供了一種商品標(biāo)簽名重要度的生成方法,與之相對(duì)應(yīng)的,本申請(qǐng)還提供一種商品標(biāo)簽名重要度的生成裝置。該裝置是與上述方法的實(shí)施例相對(duì)應(yīng)。
請(qǐng)參看圖30,其為本申請(qǐng)的商品標(biāo)簽名重要度的生成裝置實(shí)施例的示意圖。由于裝置實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的裝置實(shí)施例僅僅是示意性的。
本實(shí)施例的一種商品標(biāo)簽名重要度的生成裝置,包括:
獲取單元3001,用于獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果;
生成單元3003,用于針對(duì)各個(gè)歷史查詢?cè)~,根據(jù)與所述歷史查詢?cè)~對(duì)應(yīng)的所述與用戶行為相關(guān)的商品搜索結(jié)果,獲取與所述歷史查詢?cè)~對(duì)應(yīng)的商品類目,生成歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系;
計(jì)算單元3005,用于針對(duì)所述歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系中各個(gè)商品類目,根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);并根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的權(quán)重。
可選的,其特征在于,所述計(jì)算單元3005包括:
第一計(jì)算子單元,用于根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);
所述第一計(jì)算子單元包括:
匹配子單元,用于針對(duì)與所述商品類目對(duì)應(yīng)的各個(gè)所述歷史查詢?cè)~,將所述歷史查詢?cè)~與所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽的標(biāo)簽值進(jìn)行文本匹配;若匹配成功,則將匹配成功的標(biāo)簽值的出現(xiàn)次數(shù)加一;
計(jì)算頻度子單元,用于根據(jù)各個(gè)商品標(biāo)簽的標(biāo)簽值的出現(xiàn)次數(shù),計(jì)算所述各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)。
獲取單元,用于獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果;
生成單元,用于針對(duì)各個(gè)歷史查詢?cè)~,根據(jù)與所述歷史查詢?cè)~對(duì)應(yīng)的所述與用戶行為相關(guān)的商品搜索結(jié)果,獲取與所述歷史查詢?cè)~對(duì)應(yīng)的商品類目,生成歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系;
計(jì)算單元,用于針對(duì)所述歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系中各個(gè)商品類目,根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);并根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的權(quán)重。
可選的,所述計(jì)算單元3005包括:
第二計(jì)算子單元,用于根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的重要度;
所述第二計(jì)算子單元包括:
計(jì)算總頻度子單元,用于根據(jù)所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算標(biāo)簽名的出現(xiàn)總次數(shù);
計(jì)算權(quán)重子單元,用于將所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù)、與所述出現(xiàn)總次數(shù)的比值,作為各個(gè)標(biāo)簽名的重要度。
可選的,其特征在于,還包括:
生成單元,用于根據(jù)所述商品類目包括的商品屬性,生成所述商品類目的商品標(biāo)簽集。
可選的,所述生成單元包括:
獲取子單元,用于獲取所述商品類目包括的所述商品屬性;
選取子單元,用于通過預(yù)設(shè)的標(biāo)簽選取算法,從所述商品類目包括的所述商品屬性中選取具有商品區(qū)分意義的屬性組成所述商品類目的商品標(biāo)簽集。
可選的,所述預(yù)設(shè)的標(biāo)簽選取算法采用所述基于信息熵的標(biāo)簽選取算法;
所述選取子單元包括:
獲取子單元,用于獲取所述商品類目中商品的屬性名;
計(jì)算子單元,用于針對(duì)各個(gè)所述屬性名,根據(jù)所述屬性名對(duì)應(yīng)的屬性值,計(jì)算所述屬性名的信息熵;
選取子單元,用于將所述屬性名的信息熵小于等于最大信息熵閾值的屬性名作為具有商品區(qū)分意義的屬性名;
生成子單元,用于將所述具有商品區(qū)分意義的屬性名對(duì)應(yīng)的商品屬性作為所述具有商品區(qū)分意義的屬性,生成所述商品類目的商品標(biāo)簽集。
請(qǐng)參考圖31,其為本申請(qǐng)的又一電子設(shè)備實(shí)施例的示意圖。由于設(shè)備實(shí)施例基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。下述描述的設(shè)備實(shí)施例僅僅是示意性的。
本實(shí)施例的又一種電子設(shè)備,該電子設(shè)備包括:顯示器3101;處理器3102;以及存儲(chǔ)器3103,所述存儲(chǔ)器被配置成存儲(chǔ)商品標(biāo)簽名重要度的生成裝置,所述商品標(biāo)簽名重要度的生成裝置被所述處理器執(zhí)行時(shí),包括如下步驟:獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果;針對(duì)各個(gè)歷史查詢?cè)~,根據(jù)與所述歷史查詢?cè)~對(duì)應(yīng)的所述與用戶行為相關(guān)的商品搜索結(jié)果,獲取與所述歷史查詢?cè)~對(duì)應(yīng)的商品類目,生成歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系;針對(duì)所述歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系中各個(gè)商品類目,根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);并根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的權(quán)重。
本申請(qǐng)實(shí)施例提供的商品標(biāo)簽名重要度的生成方法、裝置及電子設(shè)備,通過獲取歷史查詢?cè)~及與其對(duì)應(yīng)的與用戶行為相關(guān)的商品搜索結(jié)果;針對(duì)各個(gè)歷史查詢?cè)~,根據(jù)與所述歷史查詢?cè)~對(duì)應(yīng)的所述與用戶行為相關(guān)的商品搜索結(jié)果,獲取與所述歷史查詢?cè)~對(duì)應(yīng)的商品類目,生成歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系;針對(duì)所述歷史查詢?cè)~與商品類目的對(duì)應(yīng)關(guān)系中各個(gè)商品類目,根據(jù)與所述商品類目對(duì)應(yīng)的所述歷史查詢?cè)~,計(jì)算所述商品類目的商品標(biāo)簽集中各個(gè)標(biāo)簽名的出現(xiàn)次數(shù);并根據(jù)各個(gè)標(biāo)簽名的出現(xiàn)次數(shù),計(jì)算各個(gè)標(biāo)簽名的權(quán)重。采用本申請(qǐng)?zhí)峁┑纳唐窐?biāo)簽名重要度的生成方法,能夠自動(dòng)獲取標(biāo)簽名的權(quán)重,且標(biāo)簽名的權(quán)重的準(zhǔn)確度較高。
本申請(qǐng)雖然以較佳實(shí)施例公開如上,但其并不是用來限定本申請(qǐng),任何本領(lǐng)域技術(shù)人員在不脫離本申請(qǐng)的精神和范圍內(nèi),都可以做出可能的變動(dòng)和修改,因此本申請(qǐng)的保護(hù)范圍應(yīng)當(dāng)以本申請(qǐng)權(quán)利要求所界定的范圍為準(zhǔn)。
在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。
1、計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram)、其他類型的隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、電可擦除可編程只讀存儲(chǔ)器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括非暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號(hào)和載波。
2、本領(lǐng)域技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。