一種基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法
【專利摘要】本發(fā)明提供了一種基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法,該方法包括以下步驟:建立標(biāo)準(zhǔn)庫(kù);根據(jù)商品頁(yè)信息和所述標(biāo)準(zhǔn)庫(kù)對(duì)所述商品進(jìn)行屬性整理;輸出標(biāo)準(zhǔn)商品信息;根據(jù)所述標(biāo)準(zhǔn)商品信息和所述標(biāo)準(zhǔn)庫(kù)對(duì)所述商品的屬性聚類;獲得產(chǎn)品id的標(biāo)準(zhǔn)商品信息。該方法能夠?qū)崿F(xiàn)高效的獲得用戶想要的商品信息。
【專利說(shuō)明】 —種基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種計(jì)算機(jī)中信息檢索領(lǐng)域的方法,具體講涉及一種基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法。
【背景技術(shù)】
[0002]隨著電子商務(wù)網(wǎng)站的成功發(fā)展,在線購(gòu)物已經(jīng)成為一種方便、快捷、廉價(jià)的購(gòu)物方式,隨之而來(lái)的是商品信息和購(gòu)物網(wǎng)站數(shù)量急劇增加,然而眾多的購(gòu)物信息讓消費(fèi)者迷失了方向,如何快速而全面得到想要的商品信息,是互聯(lián)網(wǎng)搜索技術(shù)面臨的一個(gè)新挑戰(zhàn)。
[0003]互聯(lián)網(wǎng)搜索引擎技術(shù)為用戶提供了便捷、快速的通道,幫助用戶更快、更準(zhǔn)、更全面的獲取商品及商城信息,借助搜索引擎技術(shù),購(gòu)物搜索應(yīng)運(yùn)而生,當(dāng)用戶檢索某個(gè)商品時(shí),查詢返回的信息如果以商品維度呈現(xiàn)給用戶,會(huì)使得用戶淹沒(méi)在大量的數(shù)據(jù)中,對(duì)此人們提出了多種方法對(duì)查詢結(jié)果的展示進(jìn)行改進(jìn),其中把返回的結(jié)果從商品維度向上歸約到產(chǎn)品維度來(lái)進(jìn)行展現(xiàn)是一種比較好的辦法。產(chǎn)品是商品的泛化概念,用戶搜索可以先定位到產(chǎn)品后再對(duì)產(chǎn)品下的商品進(jìn)行比較和選擇,其中識(shí)別產(chǎn)品是關(guān)鍵。識(shí)別產(chǎn)品的正確率直接影響購(gòu)物搜索的質(zhì)量和用戶體驗(yàn)。
[0004]目前,識(shí)別產(chǎn)品是將商品通過(guò)聚類有效的組織起來(lái),個(gè)性化的呈現(xiàn)給用戶。傳統(tǒng)的面向購(gòu)物搜索聚類方法,即根據(jù)商品的屬性信息,如:標(biāo)題、品牌、型號(hào)、價(jià)格等信息,將其屬性知識(shí)作為引入少量的先驗(yàn)知識(shí)指導(dǎo)聚類,輔助商品劃分,基于商品屬性信息排序、計(jì)算相似性、通過(guò)一定規(guī)則比對(duì),實(shí)現(xiàn)商品聚類。
[0005]現(xiàn)有面向購(gòu)物搜索產(chǎn)品識(shí)別技術(shù),缺點(diǎn)是算法復(fù)雜,結(jié)果集不穩(wěn)定。隨著Internet發(fā)展,網(wǎng)站也越來(lái)越多,獲取到的商品屬性信息質(zhì)量難以保證,假如商品屬性信息過(guò)少,或者其中重要的屬性信息沒(méi)有或不準(zhǔn)確,都會(huì)造成聚類的不準(zhǔn)確,識(shí)別產(chǎn)品效果不佳。另外無(wú)論是計(jì)算相識(shí)性還是通過(guò)一定的規(guī)則比對(duì),其算法實(shí)現(xiàn)起來(lái)都比較繁瑣且都有著不穩(wěn)定性。如何快速高效的獲得用戶想要的商品信息是需要解決的技術(shù)問(wèn)題。
【發(fā)明內(nèi)容】
[0006]為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于產(chǎn)品屬性歸一和聚類,將人工智慧與機(jī)器相結(jié)合針對(duì)購(gòu)物搜索的產(chǎn)品識(shí)別方法。該方法針對(duì)屬性排序、計(jì)算相似性等半監(jiān)督聚類方法的不足,設(shè)計(jì)基于商品屬性歸一、聚類來(lái)實(shí)現(xiàn)識(shí)別產(chǎn)品,避免原有商品聚類方法的弊端。
[0007]實(shí)現(xiàn)上述目的所采用的解決方案為:
[0008]一種基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法,其改進(jìn)之處在于:所述方法包括以下步驟:
[0009]1、建立標(biāo)準(zhǔn)庫(kù);
[0010]I1、根據(jù)商品頁(yè)信息和所述標(biāo)準(zhǔn)庫(kù)對(duì)所述商品進(jìn)行屬性整理;
[0011]II1、輸出標(biāo)準(zhǔn)商品信息;[0012]IV、根據(jù)所述標(biāo)準(zhǔn)商品信息和所述標(biāo)準(zhǔn)庫(kù)對(duì)所述商品的屬性聚類;
[0013]V、標(biāo)準(zhǔn)商品f目息獲得廣品ID。
[0014]進(jìn)一步的,所述步驟I的標(biāo)準(zhǔn)庫(kù)包括商品品類信息,所述商品品類信息包括:品類ID、品類對(duì)應(yīng)的關(guān)鍵屬性表。
[0015]進(jìn)一步的,所述步驟II包括以下步驟:
[0016]S201、根據(jù)商品頁(yè)信息獲得商品信息,將商品的屬性及其對(duì)應(yīng)的屬性值生成md5 ;
[0017]S202、對(duì)商品的屬性和對(duì)應(yīng)屬性值進(jìn)行權(quán)重排序;
[0018]S203、將商品的屬性名加上所述商品的品類ID并生成md5 ;
[0019]S204、在標(biāo)準(zhǔn)庫(kù)中查找所述品類ID的屬性表,查找成功則進(jìn)入S205,否則進(jìn)入步驟 S208 ;
[0020]S205、獲得所述屬性的信息,所述信息包括屬性ID、屬性關(guān)鍵性類型;
[0021]S206、對(duì)所述屬性的信息標(biāo)注并歸一,處理所述屬性的屬性值串并生成md5 ;
[0022]S 2 O 7、查詢標(biāo)準(zhǔn)庫(kù)對(duì)屬性值歸一處理,若成功則屬性歸一成功,否則屬性歸一失敗,標(biāo)注為普通屬性;
[0023]S208、查詢失敗,將所述屬性標(biāo)注為噪音屬性。
[0024]進(jìn)一步的,根據(jù)所述步驟II獲得所述商品的品類ID,并對(duì)所述商品的屬性進(jìn)行歸一處理,獲得所述步驟III的標(biāo)準(zhǔn)商品信息。
[0025]進(jìn)一步的,所述步驟IV包括以下步驟:
[0026]S401、輸入標(biāo)準(zhǔn)商品信息;
[0027]S402、判斷所述商品的數(shù)據(jù)中是否有唯一屬性,是則進(jìn)入S403,否則進(jìn)入S404 ;
[0028]S403、將所述唯一屬性的屬性值生產(chǎn)md5設(shè)為聚類后的產(chǎn)品ID,識(shí)別完成;
[0029]S404、根據(jù)標(biāo)準(zhǔn)庫(kù)中的產(chǎn)品辨別屬性信息識(shí)別所述商品的所屬于的標(biāo)準(zhǔn)產(chǎn)品;
[0030]S405、判斷是否識(shí)別成功,成功則返回所述標(biāo)準(zhǔn)庫(kù)中標(biāo)準(zhǔn)產(chǎn)品ID,否則返回商品頁(yè)ID作為產(chǎn)品ID ;
[0031]S406、通過(guò)商品價(jià)格和參考價(jià)格區(qū)間進(jìn)行價(jià)格過(guò)濾,成功則獲得彼岸準(zhǔn)快中的產(chǎn)品ID,否則返回商品頁(yè)DOCID作為產(chǎn)品ID ;
[0032]S407、獲得并返回廣品ID的標(biāo)準(zhǔn)商品彳目息。
[0033]進(jìn)一步的,根據(jù)所述步驟IV獲得標(biāo)準(zhǔn)商品信息的產(chǎn)品ID,輸出所述步驟V中具有產(chǎn)品ID的標(biāo)準(zhǔn)商品信息。
[0034]進(jìn)一步的,所述步驟S406包括以下步驟:
[0035]S4061、查找所述商品對(duì)應(yīng)的品類ID的品牌表,將所述品類ID的品牌表中每一個(gè)品牌在所述商品標(biāo)題中查找;以標(biāo)題中第一個(gè)出現(xiàn)的品牌為準(zhǔn),查找并記錄品牌在商品標(biāo)題中出現(xiàn)的位置;
[0036]S4062、以所述S4061中記錄的品牌在標(biāo)題中出現(xiàn)的位置為起始點(diǎn)A,依次查找所述品牌下的標(biāo)準(zhǔn)產(chǎn)品的其他關(guān)鍵屬性在標(biāo)題中的位置,獲得其他關(guān)鍵屬性均在所述標(biāo)題中出現(xiàn)的標(biāo)準(zhǔn)產(chǎn)品,記錄其他關(guān)鍵屬性在標(biāo)題中出現(xiàn)的位置L,計(jì)算出現(xiàn)位置L距離起點(diǎn)A的平均規(guī)則距離值Ln ;
[0037]S4063、命中多個(gè)標(biāo)準(zhǔn)產(chǎn)品,輸出最小平均規(guī)則距離值Ln值對(duì)應(yīng)的標(biāo)準(zhǔn)產(chǎn)品信息,所述標(biāo)準(zhǔn)產(chǎn)品信息包括標(biāo)準(zhǔn)屬性、價(jià)格參考區(qū)間。[0038]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
[0039]1、本發(fā)明的方法基于商品屬性歸一、聚類方式識(shí)別產(chǎn)品,運(yùn)用的算法簡(jiǎn)單,實(shí)現(xiàn)產(chǎn)品識(shí)別的效果顯著。
[0040]2、本發(fā)明的方法從不同的網(wǎng)站獲取信息,統(tǒng)一處理獲取到的商品屬性信息更精確,商品屬性信息更明確,保證重要的屬性信息的準(zhǔn)確度,從而保證了聚類的準(zhǔn)確性和識(shí)別產(chǎn)品效果高效性。
[0041]3、本發(fā)明的方法針對(duì)購(gòu)物搜索的產(chǎn)品識(shí)別使用人工智慧與機(jī)器相結(jié)合,避免了半監(jiān)控的商品信息屬性排序、相似性計(jì)算等方法的商品聚類識(shí)別產(chǎn)品的不足,結(jié)果更精準(zhǔn)、穩(wěn)定。
[0042]4、本發(fā)明的方法根據(jù)中立的網(wǎng)站獲取商品的相關(guān)信息,提高產(chǎn)品可信度,運(yùn)用本發(fā)明的方法并通過(guò)簡(jiǎn)單的算法對(duì)商品信息進(jìn)行處理,提高工作效率,提高搜索精確度,解決搜索不穩(wěn)定的問(wèn)題。
【專利附圖】
【附圖說(shuō)明】
[0043]圖1為基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法的流程圖;
[0044]圖2為屬性整理歸一的流程圖;
[0045]圖3為屬性聚類及識(shí)別產(chǎn)品的流程圖;
[0046]圖4為無(wú)唯一屬性的商品的識(shí)別的流程圖。
【具體實(shí)施方式】
[0047]下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】做進(jìn)一步的詳細(xì)說(shuō)明。
[0048]搜索購(gòu)物信息時(shí),區(qū)分商品所屬的產(chǎn)品,主要體現(xiàn)在其某一個(gè)或幾個(gè)關(guān)鍵屬性-值對(duì),例如圖書(shū)、音像類特征為一個(gè)唯一屬性,圖書(shū)具有ISBN (國(guó)際標(biāo)準(zhǔn)書(shū)號(hào)),是國(guó)際通用的圖書(shū)或獨(dú)立的出版物(除定期出版的期刊)代碼。音像類具有ISRC (音像制品國(guó)際標(biāo)準(zhǔn)編碼),是由國(guó)家碼、出版者碼、錄制年碼、記錄碼和記錄項(xiàng)碼組成的5個(gè)數(shù)據(jù)段。
[0049]3C類產(chǎn)品特征為幾個(gè)關(guān)鍵屬性,如:品牌、型號(hào)、內(nèi)存容量等。在搜索商品時(shí),商品信息中,標(biāo)題所含有的特征屬性信息最全面。如具體的一款手機(jī)、一款相機(jī),搜索購(gòu)物信息包括了品牌、型號(hào)。
[0050]對(duì)于非圖書(shū)、音像的商品,即無(wú)唯一屬性的商品識(shí)別產(chǎn)品時(shí)則是以該商品信息中標(biāo)題信息為依據(jù),和標(biāo)準(zhǔn)庫(kù)中標(biāo)準(zhǔn)屬性比對(duì)。
[0051]如圖1所示,圖1為基于商品屬性歸一和聚類的產(chǎn)品識(shí)別方法的流程圖;一種基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法,根據(jù)獲得的商品信息,結(jié)合標(biāo)準(zhǔn)庫(kù)對(duì)商品信息進(jìn)行屬性整理、歸一,輸出標(biāo)準(zhǔn)商品信息;結(jié)合標(biāo)準(zhǔn)商品信息和標(biāo)準(zhǔn)庫(kù)對(duì)商品屬性聚類,識(shí)別產(chǎn)品,輸出具有產(chǎn)品ID的標(biāo)準(zhǔn)商品信息。該方法包括以下:
[0052]步驟一、建立存儲(chǔ)商品品類信息的標(biāo)準(zhǔn)庫(kù)。
[0053]輸入產(chǎn)品信息作為標(biāo)準(zhǔn)庫(kù)的標(biāo)準(zhǔn)產(chǎn)品信息。利用人工智慧對(duì)商品信息進(jìn)行人為的劃分并對(duì)信息進(jìn)行標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)庫(kù)包括商品品類信息表、標(biāo)準(zhǔn)產(chǎn)品信息表、全局關(guān)鍵屬性表等。
[0054]商品品類信息包括:品類ID、品類對(duì)應(yīng)有關(guān)鍵屬性表。[0055]每級(jí)分類對(duì)應(yīng)的標(biāo)準(zhǔn)產(chǎn)品信息包括:標(biāo)準(zhǔn)產(chǎn)品id、標(biāo)準(zhǔn)屬性-值對(duì)、屬性關(guān)鍵類型、參考價(jià)格區(qū)間。
[0056]全局關(guān)鍵屬性表包括:產(chǎn)品品牌、全局標(biāo)準(zhǔn)單位信息表。
[0057]舉例說(shuō)明:商品信息:三星手機(jī)19300,品類為“3C數(shù)碼”,品牌為“三星”,品類ID為建立該標(biāo)準(zhǔn)品類時(shí)標(biāo)準(zhǔn)庫(kù)自動(dòng)賦予的數(shù)值,同理,標(biāo)準(zhǔn)產(chǎn)品ID為由標(biāo)準(zhǔn)庫(kù)自動(dòng)賦予數(shù)值。
[0058]步驟二、根據(jù)商品頁(yè)信息和所述標(biāo)準(zhǔn)庫(kù)對(duì)所述商品進(jìn)行屬性整理。通過(guò)采集器采集不同商品頁(yè)息的息,獲取商品息,所述商品息包括商品標(biāo)題。如圖2所不,圖2為屬性歸一的流程圖,根據(jù)商品頁(yè)信息和標(biāo)準(zhǔn)庫(kù)對(duì)商品進(jìn)行屬性整理歸一具體包括以下步驟:
[0059]S201、根據(jù)商品頁(yè)信息將商品的屬性和對(duì)應(yīng)屬性值生成md5。
[0060]S202、對(duì)商品的屬性和對(duì)應(yīng)屬性值進(jìn)行排重。
[0061]S203、將商品的屬性名加上商品品類ID并生成md5。
[0062]S204、在標(biāo)準(zhǔn)庫(kù)中查找商品品類ID的屬性表,查找成功則進(jìn)入S205,否則進(jìn)入步驟 S208。
[0063]S205、獲得屬性表中的屬性的信息,所述信息包括屬性ID、屬性關(guān)鍵性類型。
[0064]S206、對(duì)屬性的信息標(biāo)注并歸一,處理所述屬性的屬性值串并生成md5。
[0065]S207、查詢標(biāo)準(zhǔn)庫(kù)對(duì)屬性值歸一處理,即將S206中屬性值串生成的md5去標(biāo)準(zhǔn)庫(kù)查詢,查詢成功則將標(biāo)準(zhǔn)庫(kù)中的標(biāo)準(zhǔn)屬性值信息作為所述屬性的屬性值信息,則屬性歸一成功,否則屬性歸一失敗,標(biāo)注為普通屬性。
[0066]S208、查詢失敗,將所述屬性標(biāo)注為噪音屬性。
[0067]步驟三、通過(guò)步驟二中獲得商品的品類ID,并對(duì)該商品的屬性進(jìn)行歸一處理,步驟三輸出標(biāo)準(zhǔn)商品信息
[0068]步驟四、根據(jù)所述標(biāo)準(zhǔn)商品信息和所述標(biāo)準(zhǔn)庫(kù)對(duì)所述商品的屬性聚類。
[0069]屬性聚類方法,即根據(jù)商品的屬性信息,如:標(biāo)題、品牌、型號(hào)、價(jià)格等信息,將其屬性知識(shí)作為引入少量的先驗(yàn)知識(shí)指導(dǎo)聚類,輔助商品劃分,基于商品屬性信息排序、計(jì)算相似性、通過(guò)一定規(guī)則比對(duì),實(shí)現(xiàn)商品聚類。
[0070]如圖3所示,圖3為性聚類及識(shí)別產(chǎn)品的流程圖;根據(jù)標(biāo)準(zhǔn)商品信息和標(biāo)準(zhǔn)庫(kù)對(duì)商品的屬性聚類具體包括以下步驟:
[0071]S401、輸入標(biāo)準(zhǔn)商品信息。
[0072]S402、判斷所述商品的數(shù)據(jù)中是否有唯一屬性,是則進(jìn)入S403,否則進(jìn)入S404。
[0073]S403、商品中有唯一屬性,將所述唯一屬性的屬性值生產(chǎn)md5設(shè)為聚類后的產(chǎn)品ID0
[0074]S404、商品中無(wú)唯一屬性,根據(jù)標(biāo)準(zhǔn)庫(kù)中指定的產(chǎn)品辨別屬性信息識(shí)別該商品的所屬產(chǎn)品。依賴標(biāo)準(zhǔn)庫(kù)中標(biāo)準(zhǔn)產(chǎn)品辨別屬性信息與商品標(biāo)題通過(guò)一定規(guī)則比對(duì),從而識(shí)別
女口
廣叩ο
[0075]所述規(guī)則為通過(guò)對(duì)商品信息的觀察和測(cè)試總結(jié)制定的方法。即商品標(biāo)題中基本包含了商品的主要特性信息,且越靠近標(biāo)題左邊信息越有價(jià)值。具體方法如圖4無(wú)唯一屬性的商品的識(shí)別的流程圖所示。[0076]S405、判斷是否識(shí)別成功,成功則返回所述標(biāo)準(zhǔn)庫(kù)中標(biāo)準(zhǔn)產(chǎn)品ID,進(jìn)入S406,否則返回商品頁(yè)ID作為產(chǎn)品ID,識(shí)別結(jié)束。
[0077]S406、如S405成功,即返回的是標(biāo)準(zhǔn)產(chǎn)品ID,則通過(guò)商信息中價(jià)格信息和標(biāo)準(zhǔn)產(chǎn)品信息中參考價(jià)格區(qū)間進(jìn)行價(jià)格過(guò)濾,成功則獲得標(biāo)準(zhǔn)庫(kù)中的產(chǎn)品ID,否則返回商品頁(yè)信息的商品DOCID作為產(chǎn)品ID。
[0078]步驟五、根據(jù)步驟四獲得標(biāo)準(zhǔn)商品信息的產(chǎn)品ID,輸出具有產(chǎn)品ID的標(biāo)準(zhǔn)商品信
肩、O
[0079]如圖4所示,圖4為無(wú)唯一屬性的商品的識(shí)別的流程圖;無(wú)唯一屬性的商品的識(shí)別具體包括以下步驟:
[0080]A、查找所述商品對(duì)應(yīng)的品類ID下標(biāo)準(zhǔn)庫(kù)中的品牌表,將所述品類ID下品牌表中每一個(gè)品牌在商品標(biāo)題中查找;以標(biāo)題中第一個(gè)出現(xiàn)的品牌為準(zhǔn),找到后記錄品牌在商品標(biāo)題中出現(xiàn)的位置。以記錄的品牌在標(biāo)題中出現(xiàn)的位置為起始點(diǎn)A,將標(biāo)準(zhǔn)庫(kù)中所述品牌下相應(yīng)的產(chǎn)品的其他關(guān)鍵屬性。
[0081]B、依次查找將所述品牌下的標(biāo)準(zhǔn)產(chǎn)品的其他關(guān)鍵屬性在標(biāo)題中的位置,若某一標(biāo)準(zhǔn)產(chǎn)品的所有其他關(guān)鍵屬性均在標(biāo)題中出現(xiàn),則記錄下該標(biāo)準(zhǔn)產(chǎn)品及該標(biāo)準(zhǔn)產(chǎn)品所有的其他關(guān)鍵屬性在標(biāo)題中出現(xiàn)的位置L,獲得所有其他關(guān)鍵屬性均在商品標(biāo)題中出現(xiàn)的標(biāo)準(zhǔn)產(chǎn)品及其關(guān)鍵屬性在標(biāo)題中出現(xiàn)的位置L,通過(guò)經(jīng)驗(yàn)規(guī)則計(jì)算出現(xiàn)位置L距離起點(diǎn)A的平均規(guī)則距離值Ln ;
[0082]C、命中多個(gè)標(biāo)準(zhǔn)產(chǎn)品,平均規(guī)則距離值Ln值最小的標(biāo)準(zhǔn)產(chǎn)品為正確,輸出平均規(guī)則距離值Ln值對(duì)應(yīng)的標(biāo)準(zhǔn)產(chǎn)品信息,該標(biāo)準(zhǔn)產(chǎn)品信息包括標(biāo)準(zhǔn)屬性、價(jià)格參考區(qū)間。
[0083]最后應(yīng)當(dāng)說(shuō)明的是:以上實(shí)施例僅用于說(shuō)明本申請(qǐng)的技術(shù)方案而非對(duì)其保護(hù)范圍的限制,盡管參照上述實(shí)施例對(duì)本申請(qǐng)進(jìn)行了詳細(xì)的說(shuō)明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:本領(lǐng)域技術(shù)人員閱讀本申請(qǐng)后依然可對(duì)申請(qǐng)的【具體實(shí)施方式】進(jìn)行種種變更、修改或者等同替換,但這些變更、修改或者等同替換,均在申請(qǐng)待批的權(quán)利要求保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法,其特征在于:所述方法包括以下步驟: I.建立標(biāo)準(zhǔn)庫(kù); II、根據(jù)商品頁(yè)信息和所述標(biāo)準(zhǔn)庫(kù)對(duì)所述商品進(jìn)行屬性整理; III、輸出標(biāo)準(zhǔn)商品信息; IV、根據(jù)所述標(biāo)準(zhǔn)商品信息和所述標(biāo)準(zhǔn)庫(kù)對(duì)所述商品的屬性聚類; V、標(biāo)準(zhǔn)商品信息獲得產(chǎn)品ID。
2.如權(quán)利要求1所述的一種基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法,其特征在于:所述步驟I的標(biāo)準(zhǔn)庫(kù)包括商品品類信息,所述商品品類信息包括:品類ID、品類對(duì)應(yīng)的關(guān)鍵屬性表。
3.如權(quán)利要求1所述的一種基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法,其特征在于:所述步驟II包括以下步驟: 5201、根據(jù)商品頁(yè)信息獲得商品信息,將商品的屬性及其對(duì)應(yīng)的屬性值生成md5; 5202、對(duì)商品的屬性和對(duì)應(yīng)屬性值進(jìn)行權(quán)重排序; 5203、將商品的屬性名加上所述商品的品類ID并生成md5; 5204、在標(biāo)準(zhǔn)庫(kù)中查找所述品類ID的屬性表,查找成功則進(jìn)入S205,否則進(jìn)入步驟S208 ; 5205、獲得所述屬性的信息,所述信息包括屬性ID、屬性關(guān)鍵性類型; 5206、對(duì)所述屬性的信息標(biāo)注并歸一,處理所述屬性的屬性值串并生成md5; 5207、查詢標(biāo)準(zhǔn)庫(kù)對(duì)屬性值歸一處理,若成功則屬性歸一成功,否則屬性歸一失敗,標(biāo)注為普通屬性; 5208、查詢失敗,將所述屬性標(biāo)注為噪音屬性。
4.如權(quán)利要求1所述的一種基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法,其特征在于:根據(jù)所述步驟II獲得所述商品的品類ID,并對(duì)所述商品的屬性進(jìn)行歸一處理,獲得所述步驟III的標(biāo)準(zhǔn)商品信息。
5.如權(quán)利要求1所述的一種基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法,其特征在于:所述步驟IV包括以下步驟: 5401、輸入標(biāo)準(zhǔn)商品信息; 5402、判斷所述商品的數(shù)據(jù)中是否有唯一屬性,是則進(jìn)入S403,否則進(jìn)入S404; 5403、將所述唯一屬性的屬性值生產(chǎn)md5設(shè)為聚類后的產(chǎn)品ID,識(shí)別完成; 5404、根據(jù)標(biāo)準(zhǔn)庫(kù)中的產(chǎn)品辨別屬性信息識(shí)別所述商品的所屬于的標(biāo)準(zhǔn)產(chǎn)品; 5405、判斷是否識(shí)別成功,成功則返回所述標(biāo)準(zhǔn)庫(kù)中標(biāo)準(zhǔn)產(chǎn)品ID,否則返回商品頁(yè)ID作為產(chǎn)品ID ; 5406、通過(guò)商品價(jià)格和參考價(jià)格區(qū)間進(jìn)行價(jià)格過(guò)濾,成功則獲得彼岸準(zhǔn)快中的產(chǎn)品ID,否則返回商品頁(yè)DOCID作為產(chǎn)品ID ; 5407、獲得并返回產(chǎn)品ID的標(biāo)準(zhǔn)商品信息。
6.如權(quán)利要求1所述的一種基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法,其特征在于:根據(jù)所述步驟IV獲得標(biāo)準(zhǔn)商品信息的產(chǎn)品ID,輸出所述步驟V中具有產(chǎn)品ID的標(biāo)準(zhǔn)商品信息。
7.如權(quán)利要求5所述的一種基于商品屬性歸一和聚類識(shí)別產(chǎn)品的方法,其特征在于:所述步驟S406包括以下步驟: S4061、查找所述商品對(duì)應(yīng)的品類ID的品牌表,將所述品類ID的品牌表中每一個(gè)品牌在所述商品標(biāo)題中查找;以標(biāo)題中弟Iv出現(xiàn)的品牌為準(zhǔn),查找并記錄品牌在商品標(biāo)題中出現(xiàn)的位置; S4062、以所述S4061中記錄的品牌在標(biāo)題中出現(xiàn)的位置為起始點(diǎn)A,依次查找所述品牌下的標(biāo)準(zhǔn)產(chǎn)品的其他關(guān)鍵屬性在標(biāo)題中的位置,獲得其他關(guān)鍵屬性均在所述標(biāo)題中出現(xiàn)的標(biāo)準(zhǔn)產(chǎn)品,記錄其 他關(guān)鍵屬性在標(biāo)題中出現(xiàn)的位置L,計(jì)算出現(xiàn)位置L距離起點(diǎn)A的平均規(guī)則距離值Ln ; S4063、命中多個(gè)標(biāo)準(zhǔn)產(chǎn)品,輸出最小平均規(guī)則距離值Ln值對(duì)應(yīng)的標(biāo)準(zhǔn)產(chǎn)品信息。
【文檔編號(hào)】G06F17/30GK103559267SQ201310538245
【公開(kāi)日】2014年2月5日 申請(qǐng)日期:2013年11月4日 優(yōu)先權(quán)日:2013年11月4日
【發(fā)明者】趙金杰, 吳尉林, 王放 申請(qǐng)人:北京中搜網(wǎng)絡(luò)技術(shù)股份有限公司