一種淘寶網(wǎng)店屬于某地的自動(dòng)化判別方法
【專利摘要】一種淘寶網(wǎng)店屬于某地的自動(dòng)化判別方法,通過設(shè)立模型,并利用該模型對(duì)淘寶店鋪的屬地進(jìn)行判別,從而得到該店鋪是否屬于某個(gè)地區(qū);本發(fā)明有益效果:利用本發(fā)明所提供的方法對(duì)淘寶店鋪的歸屬地進(jìn)行判別,從而得到其是否屬于某個(gè)地區(qū),方便有效且準(zhǔn)確率高,具備通用性和可推廣型。
【專利說明】
一種淘寶網(wǎng)店屬于某地的自動(dòng)化判別方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及淘寶網(wǎng)店屬地判別,具體地說是一種淘寶網(wǎng)店屬于某地的自動(dòng)化判別方法。
【背景技術(shù)】
[0002]淘寶網(wǎng)的交易量與日倶增,但各種投訴并不能得到合理的解決,鑒于工商屬地管理的責(zé)任,各地工商系統(tǒng)有責(zé)任監(jiān)管經(jīng)營(yíng)人為本地的淘寶網(wǎng)商,但淘寶網(wǎng)商并不在本地工商系統(tǒng)注冊(cè)登記,因此屬地工商比較難于管理。
[0003]目前部分地市工商管理部門采用人工篩選、逐個(gè)核實(shí)的方式查找本地的淘寶電商,這種方式雖然準(zhǔn)確但太耗時(shí)費(fèi)力。
[0004]鑒于此,提出一種自動(dòng)化的查找方法,這種方法可以通過對(duì)淘寶店鋪網(wǎng)頁進(jìn)行分析,通過有監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),自動(dòng)找出屬于本地的淘寶電商,而且準(zhǔn)確率較高。目前自動(dòng)化判別淘寶經(jīng)營(yíng)人屬地的方法本發(fā)明尚屬首次。
【發(fā)明內(nèi)容】
[0005]本發(fā)明所要解決的技術(shù)問題是提供一種淘寶網(wǎng)店屬于某地的自動(dòng)化判別方法,該方法通過對(duì)樣本的學(xué)習(xí),得到感知機(jī)模型,然后利用該模型對(duì)淘寶店鋪進(jìn)行判別,從而得到其是否屬于某個(gè)地區(qū),解決了目前淘寶店鋪屬地判別困難的問題。
[0006]本發(fā)明為解決上述技術(shù)問題所采用的技術(shù)方案是:一種淘寶網(wǎng)店屬于某地的自動(dòng)化判別方法,包括以下步驟:
步驟一、對(duì)淘寶店鋪頁面標(biāo)題中的地域信息進(jìn)行標(biāo)記取值,取值原則為:如果標(biāo)題中明確含有“某地”則取I,明確標(biāo)注為除“某地”之外的其它地區(qū)則取0,不含地域信息的情況取
0.5;
步驟二、對(duì)店鋪頁面中的其他屬地相關(guān)信息進(jìn)行取值,取值原則為:對(duì)出現(xiàn)“某地”的次數(shù)進(jìn)行求和,如果和小于10,則取值O ;和大于10且小于30則取值0.5 ;和大于30則取I ;
步驟三、對(duì)淘寶店鋪的物流頁面的所屬地信息進(jìn)行取值,取值原則為:明確標(biāo)注含有“某地”則取I;明確標(biāo)注不含“某地”則取O;標(biāo)注為某地所在省的情況取值0.6;為空的情況取值0.5;
步驟四、對(duì)于淘寶店鋪商品詳情頁面中的配送信息進(jìn)行取值,取值原則為:如果配送信息的始發(fā)地明確標(biāo)注含有“某地”則取I;明確標(biāo)注不含“某地”則取O;始發(fā)地為空的情況則取 0.5;
步驟五、根據(jù)步驟一至步驟四得到每一個(gè)淘寶店鋪的4個(gè)特征,第i個(gè)淘寶店鋪表示為一個(gè)4維特征向量di=(dii,di2,di3,di4),其中dn、di2、di3和di4分別為第i個(gè)淘寶店中每個(gè)特征的取值;
步驟六、將步驟五得到的特征向量代入以下符號(hào)函數(shù)模型:f(cU)=Sign(0.15 dn+0.7di2+l.03 di3+l.65 di4 -1.7),通過計(jì)算該模型得出該店鋪所在地是否屬于“某地”,如f(Cl1)=I則屬于“某地” J(Cl1)=-1則不屬于“某地”。
[0007]本發(fā)明的有益效果是:利用本發(fā)明所提供的方法對(duì)淘寶店鋪的歸屬地進(jìn)行判別,從而得到其是否屬于某個(gè)地區(qū),方便有效且準(zhǔn)確率高,具備通用性和可推廣型,解決了目前淘寶店鋪屬地判別困難的問題。
【具體實(shí)施方式】
[0008]一種淘寶網(wǎng)店屬于某地的自動(dòng)化判別方法,包括以下步驟:
步驟一、對(duì)淘寶店鋪頁面標(biāo)題中的地域信息進(jìn)行標(biāo)記取值,取值原則為:如果標(biāo)題中明確含有“某地”則取I,明確標(biāo)注為除“某地”之外的其它地區(qū)則取0,不含地域信息的情況取
0.5;
步驟二、對(duì)店鋪頁面中的其他屬地相關(guān)信息進(jìn)行取值,取值原則為:對(duì)出現(xiàn)“某地”的次數(shù)進(jìn)行求和,如果和小于10,則取值O ;和大于10且小于30則取值0.5 ;和大于30則取I ;
步驟三、對(duì)淘寶店鋪的物流頁面的所屬地信息進(jìn)行取值,取值原則為:明確標(biāo)注含有“某地”則取I;明確標(biāo)注不含“某地”則取O;標(biāo)注為某地所在省的情況取值0.6;為空的情況取值0.5;
步驟四、對(duì)于淘寶店鋪商品詳情頁面中的配送信息進(jìn)行取值,取值原則為:如果配送信息的始發(fā)地明確標(biāo)注含有“某地”則取I;明確標(biāo)注不含“某地”則取O;始發(fā)地為空的情況則取 0.5;
步驟五、根據(jù)步驟一至步驟四得到每一個(gè)淘寶店鋪的4個(gè)特征,第i個(gè)淘寶店鋪表示為一個(gè)4維特征向量6=((^1,(^2,山3,(^4),其中(^1、(^2、(^3和山4分別為第:[個(gè)淘寶店中每個(gè)特征的取值;
步驟六、將步驟五得到的特征向量代入以下符號(hào)函數(shù)模型:f(cU)=Sign(0.15 dn+0.7di2+l.03 di3+l.65 di4 _1.7),通過計(jì)算該模型得出該店鋪所在地是否屬于“某地”,如f(Cl1)=I則屬于“某地” J(Cl1)=-1則不屬于“某地”。
[0009]下面結(jié)合實(shí)施例對(duì)本發(fā)明做進(jìn)一步闡述:
對(duì)淘寶店鋪,進(jìn)行了大量分析,能夠反映其屬地特征的主要有以下幾個(gè)地方:
(I)頁面標(biāo)題中的地域信息,以“南陽”為例,比如“南陽百草堂”和“南陽艾柱批發(fā)”,事實(shí)證明“南陽百草堂”屬地確實(shí)為南陽,但“南陽艾柱批發(fā)”的屬地卻不一定為南陽。取值原則為:如果標(biāo)題信息中明確標(biāo)注含有“南陽”則取1,明確標(biāo)注為其他地區(qū)時(shí)則取0,對(duì)于不含地域信息的情況則取0.5(對(duì)地域只精確到省、市)。
[0010](2)店鋪頁面中的其他屬地相關(guān)的信息,比如商品名和商品描述:“韓國(guó)進(jìn)口南陽咖啡”、“南陽金艾條”,“天然南陽獨(dú)山玉”,這些信息,由于存在同名的地名或者經(jīng)營(yíng)外地特產(chǎn),地域?qū)傩钥尚哦容^低。目前的取值方式如下:對(duì)出現(xiàn)南陽的次數(shù)求和,如果小于10,則為O;大于10且小于30則取0.5,對(duì)于大于30則取I;對(duì)于取30的選擇,則因?yàn)槎鄶?shù)淘寶店鋪主頁顯示的商品數(shù)為30?60件;
(3)在淘寶店鋪的物流頁面,有所屬地信息,但多數(shù)店鋪為空或者所填地域偏大甚至為假,比如:南陽的店鋪,可能被商家標(biāo)注為“河南”;對(duì)該特征的取值原則為:明確標(biāo)注中含有“南陽”則取I,明確標(biāo)注不含“南陽”則取O,對(duì)于標(biāo)注為河南的情況取值0.6,對(duì)于為空的情況則取0.5。[0011 ] (4)商品的詳情頁面中的配送信息:該信息準(zhǔn)確度較高,但也存在店鋪的經(jīng)營(yíng)者與發(fā)貨不同地的情況。取值原則為:如果配送信息的始發(fā)地明確標(biāo)注中含有“南陽”則取I,明確標(biāo)注不含“南陽”則取O,對(duì)于為空的情況則取0.5。
[0012]根據(jù)上述特征的選擇方式,淘寶店鋪的總特征數(shù)為4,因?yàn)樘詫毜赇來撁娼Y(jié)構(gòu)類似性,對(duì)頁面的處理則較為簡(jiǎn)單,這樣第i個(gè)淘寶店鋪可以可以表示為一個(gè)4維特征向di =(dil,di2,d3,di4);則淘寶店鋪集合可以表示為:
Am 氺 η=
本發(fā)明采用感知機(jī)二類分類模型,通過細(xì)微地調(diào)節(jié)權(quán)重值來減少感知機(jī)的期望輸出和實(shí)際輸出之間的差別。找到能夠?qū)⒂?xùn)練數(shù)據(jù)進(jìn)行線性劃分的分類超平面,該方法采用基于誤分類的損失函數(shù)對(duì)分類進(jìn)行評(píng)估,然后利用梯度下降法對(duì)損失函數(shù)進(jìn)行極小值運(yùn)算,從而得到感知機(jī)模型。
[0013]為了求得感知機(jī)的分類模型,通過人工查找,電話確認(rèn)的方法,找到了屬于南陽地區(qū)的店鋪120家,確定不屬于南陽的420個(gè),然后又隨機(jī)加上了 60個(gè)未確認(rèn)的店鋪到不屬于南陽的集合中,共600個(gè)樣本。
[0014]在試驗(yàn)中對(duì)樣本數(shù)據(jù)采用店鋪〈URL,分類標(biāo)貼〉對(duì)的形式表示,即一個(gè)店鋪可以表示為:Di=IURLi,Yi},比如
Di={https://zhat.taoba0.com, I}表示該店鋪屬于某地南陽,
D2={https: //sulbin.taoba0.com,-1}不屬于某地南陽,將類似的{URL,值}存入數(shù)據(jù)表中,然后通過采集程序訪問指定頁面,將店鋪向量化,步驟如下:
取店鋪首頁面title值按照上述規(guī)則轉(zhuǎn)化為實(shí)數(shù),存為d1;
計(jì)算頁面中“南陽”關(guān)鍵字的個(gè)數(shù),然后按照上述規(guī)則取存為d2;
進(jìn)入物流頁面,查找“所在地”信息,標(biāo)注為“河南南陽”或“南陽”取值為I,為空取值
0.5,為“河南”時(shí)取值0.6,明確為其他地區(qū)時(shí)取值為O,存入d3 ;
通過店鋪地址訪問其中任一個(gè)商品詳情頁面,取配送信息,發(fā)貨地為“河南南陽”則取值I,否則取值O,為空取0.5,存為d4;
經(jīng)過上述4步,每個(gè)店鋪成功向量化。
[0015]對(duì)向量化之后的數(shù)據(jù)進(jìn)行檢查,發(fā)現(xiàn)部分?jǐn)?shù)據(jù)店鋪向量相同,分類標(biāo)貼也相同,程序首先剔除這部分重復(fù)數(shù)據(jù),剩余數(shù)據(jù)稱為原始樣本;原始樣本中還有一部分?jǐn)?shù)據(jù)為店鋪向量相同,但分類標(biāo)貼卻不同,即同一個(gè)點(diǎn)卻屬于不同的類別,對(duì)該類數(shù)據(jù)采取的策略是先從樣本中剔除。剔除重復(fù)和互相矛盾的數(shù)據(jù)后,樣本數(shù)據(jù)剩余97組。采取交叉留存驗(yàn)證,計(jì)算分類的準(zhǔn)確率和召回率。
[0016]實(shí)驗(yàn)進(jìn)行60次,每次隨機(jī)選取10個(gè)作為驗(yàn)證數(shù)據(jù),剩余數(shù)據(jù)作為訓(xùn)練數(shù)據(jù);取60次試驗(yàn)中錯(cuò)誤率為O時(shí)的 w={0.15,0.7,1.03,1.65},b=-1.7
這樣用來分類的感知機(jī)模型為: f(x)=sign(w.x+b)=sign(0.15χι+0.7χ2+1.03x3 +1.65x4 -1.7)
使用爬蟲程序自動(dòng)抓取每個(gè)淘寶店鋪,首先向量化,然后通過上述模型計(jì)算出該店鋪的地域是否屬于某個(gè)特定地區(qū),即為I即屬于,-1則不屬于。
【主權(quán)項(xiàng)】
1.一種淘寶網(wǎng)店屬于某地的自動(dòng)化判別方法,其特征在于:包括以下步驟: 步驟一、對(duì)淘寶店鋪頁面標(biāo)題中的地域信息進(jìn)行標(biāo)記取值,取值原則為:如果標(biāo)題中明確含有“某地”則取I,明確標(biāo)注為除“某地”之外的其它地區(qū)則取O,不含地域信息的情況取.0.5; 步驟二、對(duì)店鋪頁面中的其他屬地相關(guān)信息進(jìn)行取值,取值原則為:對(duì)出現(xiàn)“某地”的次數(shù)進(jìn)行求和,如果和小于10,則取值O ;和大于10且小于30則取值0.5 ;和大于30則取I ; 步驟三、對(duì)淘寶店鋪的物流頁面的所屬地信息進(jìn)行取值,取值原則為:明確標(biāo)注含有“某地”則取I;明確標(biāo)注不含“某地”則取O;標(biāo)注為某地所在省的情況取值0.6;為空的情況取值0.5; 步驟四、對(duì)于淘寶店鋪商品詳情頁面中的配送信息進(jìn)行取值,取值原則為:如果配送信息的始發(fā)地明確標(biāo)注含有“某地”則取I;明確標(biāo)注不含“某地”則取O;始發(fā)地為空的情況則取 0.5; 步驟五、根據(jù)步驟一至步驟四得到每一個(gè)淘寶店鋪的4個(gè)特征,第i個(gè)淘寶店鋪表示為一個(gè)4維特征向量6=((^1,(^2,山3,(^4),其中(^1、(^2、(^3和山4分別為第:[個(gè)淘寶店中每個(gè)特征的取值; 步驟六、將步驟五得到的特征向量代入以下符號(hào)函數(shù)模型:f(cU)=Sign(0.15 dn+0.7di2+l.03 di3+l.65 di4 _1.7),通過計(jì)算該模型得出該店鋪所在地是否屬于“某地”,如f(Cl1)=I則屬于“某地” J(Cl1)=-1則不屬于“某地”。
【文檔編號(hào)】G06F17/30GK106021448SQ201610324376
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月17日
【發(fā)明人】程新黨, 張新剛, 于波
【申請(qǐng)人】南陽師范學(xué)院