基于奇異值分解的商鋪受歡迎度預(yù)測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種商鋪受歡迎度預(yù)測(cè)方法,特別是涉及一種基于奇異值分解的商鋪 受歡迎度預(yù)測(cè)方法。
【背景技術(shù)】
[0002] 文獻(xiàn)"門店選址系統(tǒng)及方法"公開了一種門店選址系統(tǒng)及方法。該方法通過(guò)新開 店的業(yè)態(tài)確定商圈范圍,進(jìn)而確定已有門店和居住小區(qū),并找出這些門店的吸引力影響因 素信息,利用回歸分析,分析銷售額和各影響因素的關(guān)系,確定各影響因素對(duì)吸引力的影響 程度,進(jìn)一步通過(guò)獲得的影響因素和其相應(yīng)的調(diào)節(jié)指數(shù)利用多因素吸引力模型計(jì)算出新開 店的吸引力。文獻(xiàn)所述方法雖然從商業(yè)智能的角度出發(fā),解決之前需要通過(guò)調(diào)查問(wèn)卷和專 家系統(tǒng)的傳統(tǒng)性問(wèn)題,但是影響門店吸引力的因素錯(cuò)綜復(fù)雜,從吸引力的角度出發(fā),涉及到 的很多因素都難以獲取。如,銷售額、營(yíng)業(yè)面積、銷售品類、停車場(chǎng)臺(tái)數(shù)等。文獻(xiàn)所述方法中 很多因素需要實(shí)地取值,適應(yīng)性不強(qiáng);當(dāng)周圍環(huán)境變化時(shí),不能動(dòng)態(tài)獲取和調(diào)整相關(guān)因素的 值,而是需要人工獲取,重新進(jìn)行評(píng)估,工程量巨大且效率不高。
【發(fā)明內(nèi)容】
[0003] 為了克服現(xiàn)有門店選址系統(tǒng)及方法效率低的不足,本發(fā)明提供一種基于奇異值分 解的商鋪受歡迎度預(yù)測(cè)方法。該方法以用戶偏好為中介,在奇異值分解的基礎(chǔ)上,加入商鋪 特征融合和商鋪偏好學(xué)習(xí),利用社交媒體和基于位置的服務(wù),獲取有效的信息,包括商鋪周 圍商圈的信息,商鋪周圍的交通信息,商鋪周圍人流量的信息等。采用這種方式,當(dāng)商鋪周 圍的環(huán)境信息等發(fā)生變化時(shí),不需要通過(guò)人工實(shí)地調(diào)研更新信息,采用發(fā)明方法能夠較快 地預(yù)測(cè)商鋪受歡迎度。由于采用奇異值分解的方法進(jìn)行歡迎度預(yù)測(cè),不僅考慮了隱性特征, 同時(shí)包含了提取出的顯性特征。在矩陣分解的過(guò)程中,迭代計(jì)算左奇異向量、右奇異向量和 商鋪特征向量。同時(shí)利用商鋪計(jì)算新開商鋪的鄰居商鋪,擬合得到新開商鋪的向量參數(shù)值, 解決了由于矩陣稀疏帶來(lái)的新開商鋪參數(shù)不準(zhǔn)確的問(wèn)題,提高了商鋪受歡迎度預(yù)測(cè)方法的 效率。
[0004] 本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:一種基于奇異值分解的商鋪受歡迎 度預(yù)測(cè)方法,其特點(diǎn)是采用以下步驟:
[0005] S1、利用網(wǎng)絡(luò)爬蟲抓取商鋪數(shù)據(jù),結(jié)合基于位置的服務(wù)上提供的地點(diǎn)經(jīng)煒度和交 通信息,補(bǔ)全商鋪信息。將商鋪數(shù)據(jù)整理成<s,t,P>的三元組格式,并將全部數(shù)據(jù)按8:2的 比例劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。
[0006] 其中,S代表商鋪,t代表類型,P代表歡迎度。
[0007] S2、從商鋪信息中提取的特征如下:
[0008] 距所在商業(yè)區(qū)中心的距離,定義Fs=logDs,其中Ds為商鋪S到所在商業(yè)區(qū)中心的 距離,F(xiàn)s表示商鋪距商業(yè)區(qū)的遠(yuǎn)近程度。
[0009] 交通便利性,定義T。表示商鋪交通便利程度??紤]公交車和地鐵兩種常用的交通 工具,并從兩個(gè)角度分別對(duì)商鋪S所在地的交通便利性進(jìn)行刻畫:距離和多樣性。
[0011] 其中,Nbus(s,r)和Nsub(s,r)分別表示商鋪s所在區(qū)域中公交車、地鐵的種類,Dbus 和Dsub分別表示商鋪s到公交站和地鐵站的最近距離。
[0012] 競(jìng)爭(zhēng)性,表示同類型商鋪之間的關(guān)系。
其中,cs為商鋪競(jìng)爭(zhēng)力大小,t表 示商鋪S所屬類型,Nts (s,r)為商鋪S所在區(qū)域內(nèi)同類型商鋪個(gè)數(shù)。N(s,r)為商鋪S所在 區(qū)域內(nèi)所有商鋪個(gè)數(shù)。
[0013] 多樣性,描述了新開商鋪所在區(qū)域的商業(yè)格局。
其 中,NdivOT表示多樣性值,T表示所有商鋪類型,Nt (s,r)表示商鋪s周圍類型為t的商鋪數(shù),N(s,r)表示商鋪s周圍的所有商鋪數(shù)。
[0014] 互補(bǔ)性,表示不同類型商鋪之間的關(guān)系。引入商鋪吸引因子Pt_>t,來(lái)刻畫商鋪類 型t和t'間的耦合度。
其中Nsrt(t,t')為集合(t,t')出現(xiàn)的次數(shù);NT表示 商鋪類型數(shù),NTX(NT-1)/2*NT種商鋪的所有組合數(shù),因此Pt_t,反映了集合出現(xiàn) 的概率。
[0015] 對(duì)特征進(jìn)行量化后,量化后的特征取值構(gòu)成向量F。
[0016] S3、以<s,t,p>和F為輸入,構(gòu)建奇異值分解矩陣p=STT+AF,通過(guò)迭代學(xué)習(xí)過(guò)程, 得到參數(shù)S、T、A。
[0017] 其中,原始矩陣中行代表商鋪,列代表類型,矩陣內(nèi)的值代表商鋪和類型對(duì)應(yīng)的受 歡迎度。獲得的分解向量S,T,A,分別代表奇異值分解的左奇異向量、右奇異向量和商鋪 特征向量。
[0018] S4、根據(jù)商鋪特征計(jì)算新開商鋪和訓(xùn)練數(shù)據(jù)中的同類型商鋪集合中所有商鋪之間 的相似度,從訓(xùn)練數(shù)據(jù)中找出與目標(biāo)商鋪相似的鄰居商鋪集合neighbor。
[0019] 采用歐式距離計(jì)算商鋪之間的相似度。
[0021] 其中,diSij表示新開商鋪i與商鋪j之間的距離,dis值越大,代表商鋪i與商 鋪j之間的相似度越低。<fsl-fsk>和〈fy-fjk>分別為商鋪i和商鋪j的顯性特征向量F 中的對(duì)應(yīng)值。
[0022] S5、根據(jù)商鋪特征F計(jì)算新開商鋪和訓(xùn)練數(shù)據(jù)中的同類型商鋪集合中所有商鋪之 間的相似度,從訓(xùn)練數(shù)據(jù)中找出與目標(biāo)商鋪相似的鄰居商鋪集合neighbor,擬合鄰居商鋪 的訓(xùn)練參數(shù)得到新開商鋪的參數(shù)八。
[0023] S6、按照公式p=StT+AF,計(jì)算新開商鋪的受歡迎度,完成受歡迎度預(yù)測(cè)。
[0024] 本發(fā)明的有益效果是:該方法以用戶偏好為中介,在奇異值分解的基礎(chǔ)上,加入商 鋪特征融合和商鋪偏好學(xué)習(xí),利用社交媒體和基于位置的服務(wù),獲取有效的信息,包括商鋪 周圍商圈的信息,商鋪周圍的交通信息,商鋪周圍人流量的信息等。采用這種方式,當(dāng)商鋪 周圍的環(huán)境信息等發(fā)生變化時(shí),不需要通過(guò)人工實(shí)地調(diào)研更新信息,采用發(fā)明方法能夠較 快地預(yù)測(cè)商鋪受歡迎度。由于采用奇異值分解的方法進(jìn)行歡迎度預(yù)測(cè),不僅考慮了隱性特 征,同時(shí)包含了提取出的顯性特征。在矩陣分解的過(guò)程中,迭代計(jì)算左奇異向量、右奇異向 量和商鋪特征向量。同時(shí)利用商鋪計(jì)算新開商鋪的鄰居商鋪,擬合得到新開商鋪的向量參 數(shù)值,解決了由于矩陣稀疏帶來(lái)的新開商鋪參數(shù)不準(zhǔn)確的問(wèn)題,提高了商鋪受歡迎度預(yù)測(cè) 方法的效率。
[0025] 下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作詳細(xì)說(shuō)明。
【附圖說(shuō)明】
[0026] 圖1是本發(fā)明基于奇異值分解的商鋪受歡迎度預(yù)測(cè)方法的流程圖。
【具體實(shí)施方式】
[0027] 參照?qǐng)D1。本發(fā)明基于奇異值分解的商鋪受歡迎度預(yù)測(cè)方法具體步驟如下:
[0028] 1、商鋪數(shù)據(jù)抓取。
[0029] 利用網(wǎng)絡(luò)爬蟲抓取上海市的所有商鋪數(shù)據(jù),結(jié)合基于位置的服務(wù)上提供的信息 (地點(diǎn)的經(jīng)煒度、交通信息),補(bǔ)全商鋪信息。將商鋪數(shù)據(jù)整理成〈商鋪,類型,歡迎度〉的 三元組格式,并將全部數(shù)據(jù)按8:2的比例劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。
[0030] 2、商鋪特征提取及量化。
[