一種適用于b2b電子商務(wù)平臺的商品信息自動分類推薦方法
【專利摘要】本發(fā)明公開了一種適用于B2B電子商務(wù)平臺的商品信息自動分類推薦方法,用于輔助B2B電子商務(wù)平臺賣家發(fā)布準確的商品分類信息。該方法為:獲取電子商務(wù)平臺商品信息數(shù)據(jù)庫中已處理的商品信息形成商品分類知識庫;抽取賣家新提交商品的標題和描述信息并進行表征;將表征結(jié)果與商品分類知識庫中的信息進行相似度計算;將最相關(guān)的分類結(jié)果推薦給該新商品。本發(fā)明提出一種基于已有商品分類實例構(gòu)建分類知識庫來實現(xiàn)商品自動分類的方法,充分利用已有商品分類信息,采用實例匹配算法快速準確地實現(xiàn)商品分類,為B2B電子商務(wù)平臺賣家提交商品時推薦分類,降低賣家提交商品信息時的分類負擔。
【專利說明】—種適用于B2B電子商務(wù)平臺的商品信息自動分類推薦方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,特別涉及一種數(shù)據(jù)分類的方法。
【背景技術(shù)】
[0002]商品分類目錄是電子商務(wù)平臺組織、管理和展示商品信息的一種主要方式。在B2B電子商務(wù)平臺,為了生成商品目錄,需要賣家在提交商品信息時為其商品從網(wǎng)站已有的商品分類表中選擇一個或多個分類目錄。由于賣家對網(wǎng)站的分類目錄整體設(shè)置并不熟悉,往往難以準確地為所提交的商品選擇分類。因此,從服務(wù)賣家、提高分類精度的角度出發(fā),電子商務(wù)平臺應(yīng)該提供一個自動推薦商品分類目錄的功能。
[0003]目前B2B電子商務(wù)平臺商品信息往往先由賣家根據(jù)模板進行提交,再由B2B電子中介服務(wù)商的信息編輯人員進行審核校正。由于商品分類目錄體系龐雜,無論是對賣家還是電子商務(wù)平臺信息編輯人員而言,對商品進行分類都是一件有難度的工作。因此,高效精準的商品自動分類方法對電子商務(wù)平臺商品信息管理至關(guān)重要。
【發(fā)明內(nèi)容】
[0004]針對當前B2B電子商務(wù)平臺賣家提交商品分類信息時存在的問題和困難,本發(fā)明提供了一種適用于B2B電子商務(wù)平臺的商品信息自動分類推薦方法。通過對B2B電子商務(wù)平臺中已有的商品分類信息進行處理,生成商品分類知識庫,將賣家新提交的商品標題和描述信息進行抽取和表征,將表征結(jié)果與商品分類知識庫中的記錄進行相似度計算,找出最相似的記錄,將其對應(yīng)的分類信息推薦給賣家。本發(fā)明通過利用已有商品分類信息來實現(xiàn)新提交商品的自動分類,降低賣家提交商品信息時的分類負擔,提高商品分類的準確性。
[0005]本發(fā)明提供一種適用于B2B電子商務(wù)平臺的商品信息自動分類推薦方法,具體包括:
[0006]收集B2B電子商務(wù)平臺上已處理的商品信息,基于已分類商品信息(分類實例)構(gòu)建商品分類知識庫;
[0007]對賣家新提交的商品標題和描述信息進行分詞、抽詞、頻次統(tǒng)計和位置加權(quán),形成商品特征詞串;
[0008]將新提交商品的特征詞串與分類知識庫中每一條記錄中的類目特征詞串進行相似度計算,將相似度最高的記錄中的分類代碼推薦給新提交的商品。
[0009]優(yōu)選地,基于已處理的商品信息構(gòu)建商品分類知識庫,包括:
[0010]收集B2B電子商務(wù)平臺中已處理過的商品數(shù)據(jù),形成初始的商品實例數(shù)據(jù)庫,該數(shù)據(jù)庫中每一條記錄應(yīng)包括基本的商品編號、商品標題、商品描述信息、商品分類代碼;
[0011]對商品實例數(shù)據(jù)庫中存在的一個商品對應(yīng)多個分類代碼的情況進行處理,對應(yīng)幾個分類代碼就拆分成幾條記錄,使每一條記錄中每個商品只對應(yīng)一個分類代碼;
[0012]對商品實例數(shù)據(jù)庫中的商品標題和描述信息進行分詞、抽詞、頻次統(tǒng)計和位置加權(quán)處理,形成類目特征詞串;
[0013]采用支持度、置信度來衡量類目特征詞串與分類代碼之間的對應(yīng)關(guān)系;
[0014]將支持度、置信度達到一定閾值的記錄保留,生成商品分類知識庫。
【專利附圖】
【附圖說明】
[0015]包含在本文中并成為本說明書一部分的附圖以及說明,示出了本發(fā)明,并進一步用于解釋本發(fā)明的原理并使相關(guān)領(lǐng)域技術(shù)人員能夠進行和使用本發(fā)明。
[0016]圖1示出根據(jù)本發(fā)明實施例的B2B電子商務(wù)平臺商品信息自動分類推薦方法的流程圖。
[0017]圖2示出根據(jù)本發(fā)明實施例的商品分類知識庫的構(gòu)建流程圖。
【具體實施方式】
[0018]為使本發(fā)明的實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和【具體實施方式】對本發(fā)明做進一步闡述。
[0019]本實施例的適用于B2B電子商務(wù)平臺的商品信息自動分類推薦方法,基于已分類商品信息進行采集,獲取商品標題、描述信息和對應(yīng)分類代碼,形成包含商品編號、商品標題、描述信息、分類代碼的商品分類實例庫;如果某一商品對應(yīng)多個分類代碼,則將其拆分成多條分類實例;對商品實例中的商品信息標題和描述信息進行分詞、抽詞、頻次統(tǒng)計和位置加權(quán),形成基于關(guān)鍵詞串的特征表示,提煉商品名和其他相關(guān)特征作為類目特征詞串;統(tǒng)計整個實例庫中類目出現(xiàn)頻次、特征詞串頻次、類目-詞串同現(xiàn)頻次;采用數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則建立的度量方法,使用支持度和置信度來刪除不準確的類目-詞串對應(yīng)關(guān)系,衡量類目與類目特征詞串之間的關(guān)聯(lián)程度;
`[0020]& Suppoort {keywords class ) = P (class , keywords ) = freq _ gx
[0021]所謂支持度表示類目和特征詞串在整個商品數(shù)據(jù)庫中同時出現(xiàn)的頻度,即共現(xiàn)頻次。共現(xiàn)頻次越大,表示該類目與特征詞串之間的對應(yīng)關(guān)系越成立。
[0022]置信度Conf (keywords =i>class )=P{class,keyword )1 P(kevwords )=Freq _gx! freq_keywords
[0023]置信度揭示了當特征詞串出現(xiàn)時,對應(yīng)類目出現(xiàn)的概率。置信度越大表示該類目和特征詞串的同現(xiàn)概率越大。在本實施例中將支持度和置信度達到特定閾值的記錄保留,生成商品分類知識庫。
[0024]抽取賣家新提交商品的標題和描述信息;將新提交的商品信息進行商品特征表示,并將其與分類知識庫中每一條記錄中的類目特征詞串進行相似度計算;
[0025]將新商品的特征詞串(T)與分類知識庫中每條記錄中的類目特征詞串(S)進行相似度計算。相似度計算的公式如下:
【權(quán)利要求】
1.一種適用于B2B電子商務(wù)平臺的商品信息自動分類推薦方法,其特征在于:通過對B2B電子商務(wù)平臺中已有的商品分類信息進行處理,生成商品分類知識庫,將賣家新提交的商品標題和描述信息進行抽取和表征,將表征結(jié)果與商品分類知識庫中的記錄進行相似度計算,找出最相似的記錄,將其對應(yīng)的分類信息推薦給賣家。
2.根據(jù)權(quán)利要求1所述的商品信息自動分類推薦方法,其特征在于,具體步驟包括: 步驟一、收集B2B電子商務(wù)平臺上已處理的商品信息,基于已分類商品信息構(gòu)建商品分類知識庫; 步驟二、對賣家新提交的商品標題和描述信息進行分詞、抽詞、頻次統(tǒng)計和位置加權(quán),形成商品特征詞串; 步驟三、將新提交商品的特征詞串與分類知識庫中每一條記錄中的類目特征詞串進行相似度計算,將相似度最高的記錄中的分類代碼推薦給新提交的商品。
3.根據(jù)權(quán)利要求1所述的商品信息自動分類推薦方法,其特征在于,具體步驟包括: 步驟一、收集B2B電子商務(wù)平臺中已處理過的商品數(shù)據(jù),形成初始的商品實例數(shù)據(jù)庫,該數(shù)據(jù)庫中每一條記錄應(yīng)包括基本的商品編號、商品標題、商品描述信息、商品分類代碼;步驟二、對商品實例數(shù)據(jù)庫中存在的一個商品對應(yīng)多個分類代碼的情況進行處理,對應(yīng)幾個分類代碼就拆分成幾條記錄,使每一條記錄中每個商品只對應(yīng)一個分類代碼; 步驟三、對商品實例數(shù)據(jù)庫中的商品標題和描述信息進行分詞、抽詞、頻次統(tǒng)計和位置加權(quán)處理,形成類目特征詞串; 步驟四、采用支持度、置信度來衡量類目特征詞串與分類代碼之間的對應(yīng)關(guān)系; 步驟五、將支持度、置信度達到一定閾值的記錄保留,生成商品分類知識庫。`
4.根據(jù)權(quán)利要求3所述的商品信息自動分類推薦方法,其特征在于: 對初始的商品實例數(shù)據(jù)庫中的每條數(shù)據(jù)進行處理,以通用的分詞軟件對標題和商品描述信息進行分詞、詞頻統(tǒng)計,構(gòu)建一個基本的商品品名表,用來對商品標題和描述信息進行抽詞,以便更準確地抽取商品品名; 將過濾后的結(jié)果按照分類代碼序化生成分類知識庫,包括分類代碼和類目特征詞串兩個字段;同時,將所有類別特征詞串中的分詞進行收集、去重,形成一個商品信息分詞詞表用于對新商品的分詞、抽詞處理;分類知識庫構(gòu)建完成后,當有新提交的商品,通過對賣家提供的商品標題和描述信息處理,形成商品特征詞串,將商品特征詞串與分類知識庫中所有記錄中的類別特征詞串計算相似度來找對最合適的分類代碼。
5.根據(jù)權(quán)利要求4所述的商品信息自動分類推薦方法,其特征在于:依據(jù)相似度計算公式,將新商品的特征詞串與商品分類知識庫中每一條記錄的類目特征詞串進行相似度計算和語義相似度計算;當相似度最大值有多條記錄時,將相似度最大的記錄集中同一類目出現(xiàn)次數(shù)最多的類目信息進行推薦,或者推薦多個分類。
6.—種適用于B2B電子商務(wù)平臺的商品信息自動分類推薦方法,其特征在于,包括: 基于已分類商品信息構(gòu)建商品分類知識庫; 抽取賣家新提交商品的標題和描述信息; 對新提交商品信息標題和描述信息進行分詞、抽詞、頻次統(tǒng)計、加權(quán),形成基于關(guān)鍵詞串的特征表示; 將新提交商品特征詞串與商品分類知識庫中的分類實例通過相似度計算進行實例匹配; 將最相似的實例所對應(yīng)的分類信息推薦給用戶。
7.根據(jù)權(quán)利要求6所述的商品信息自動分類推薦方法,其特征在于,基于已分類的商品實例建立商品分類知識庫,包括: 對已分類商品信息進行采集,獲取商品標題、描述信息和對應(yīng)分類代碼,形成包含商品編號、商品標題、描述信息、分類代碼的商品分類實例庫; 如果某一商品對應(yīng)多個分類代碼,則將其拆分成多條分類實例; 對商品實例中的商品標題和描述進行分詞、抽詞、頻次統(tǒng)計和位置加權(quán),提煉商品名和其他相關(guān)特征作為類目特征詞串; 統(tǒng)計整個實例庫中類目出現(xiàn)頻次、特征詞串頻次、類目-詞串同現(xiàn)頻次; 采用數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則建立的度量方法,使用支持度和置信度來刪除不準確的類目-詞串對應(yīng)關(guān)系,衡量類目與類目特征詞串之間的關(guān)聯(lián)程度; 支持度表示類目和特征詞串在整個商品數(shù)據(jù)庫中同時出現(xiàn)的頻度,即共現(xiàn)頻次;共現(xiàn)頻次越大,表示該類目與特征詞串之間的對應(yīng)關(guān)系越成立; 置信度揭示當特征詞串出現(xiàn)時,對應(yīng)類目出現(xiàn)的概率;置信度越大表示該類目和特征詞串的同現(xiàn)概率越大; 將支持度和置信度達到特定閾值的記錄保留,生成商品分類知識庫。
8.根據(jù)權(quán)利要求6述的商品信息自動分類推薦方法,其特征在于,將新提交的商品信息進行商品特征表示,并將其與分類知識庫中每一條記錄中的類目特征詞串進行相似度計笪
ο
9.根據(jù)權(quán)利要求6、7或8所述的商品信息自動分類推薦方法,其特征在于:支持度 Suppoort {keywords => class ) = P (class 'keywords ): freq _ gx.置信度Cbp,(keywords ^>c\as^)=P(clas^,keyword)/P{keyword^)=Freq _gx/ freq_keywords.將新商品的特征詞串(τ)與分類知識庫中每條記錄中的類目特征詞串(S)進行相似度計算,相似度計算的公式如下:
10.根據(jù)權(quán)利要求9所述商品信息自動分類推薦方法,其特征在于,將匹配到的相似度最大的記錄所對應(yīng)的分類 信息推薦給該新商品。
【文檔編號】G06Q30/02GK103605815SQ201310674950
【公開日】2014年2月26日 申請日期:2013年12月11日 優(yōu)先權(quán)日:2013年12月11日
【發(fā)明者】薛春香, 王美瑄, 鄒葦, 李莉 申請人:焦點科技股份有限公司, 南京理工大學(xué)