本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種網(wǎng)站提供對(duì)象的推薦系統(tǒng)和推薦方法。
背景技術(shù):
在信息過(guò)剩的互聯(lián)網(wǎng)時(shí)代,信息推薦技術(shù)對(duì)于互聯(lián)網(wǎng)公司運(yùn)營(yíng)的重要性是不言而喻的,目前各種各樣的網(wǎng)站都會(huì)在后臺(tái)使用推薦系統(tǒng),上線(xiàn)了“今日推薦”和“猜你喜歡”兩項(xiàng)功能,比如各類(lèi)購(gòu)物網(wǎng)站、付費(fèi)下載的音樂(lè)網(wǎng)站、視頻網(wǎng)站及各類(lèi)服務(wù)網(wǎng)站等,他們都是根據(jù)用戶(hù)的訪(fǎng)問(wèn)特點(diǎn),計(jì)算出最適合推薦給該用戶(hù)的候選產(chǎn)品,然后把這些產(chǎn)品展現(xiàn)給用戶(hù),供其選擇。由于產(chǎn)品數(shù)量和用戶(hù)數(shù)量非常龐大,推薦系統(tǒng)大量使用到基于云計(jì)算的數(shù)據(jù)挖掘,通過(guò)挖掘用戶(hù)行為和商品信息,使用各種推薦算法來(lái)計(jì)算推薦列表,實(shí)現(xiàn)向不同用戶(hù)展示不同內(nèi)容的效果,提高頁(yè)面的轉(zhuǎn)化率。
現(xiàn)有的推薦系統(tǒng)中,最具有代表性的一種是同類(lèi)產(chǎn)品推薦,根據(jù)用戶(hù)的瀏覽記錄和訂單記錄,向用戶(hù)推薦記錄中的同類(lèi)型產(chǎn)品或相同產(chǎn)品。這種推薦個(gè)性化不足,推薦產(chǎn)品的多樣性不夠,不能發(fā)現(xiàn)用戶(hù)對(duì)其他產(chǎn)品的潛在需求,因?yàn)橛脩?hù)往往對(duì)已購(gòu)買(mǎi)過(guò)的產(chǎn)品興趣會(huì)下降。另外,互聯(lián)網(wǎng)中大部分網(wǎng)站的推薦系統(tǒng)都是以百度插件為主,不能真正達(dá)到將推薦轉(zhuǎn)向運(yùn)營(yíng)的目的。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問(wèn)題,提出了本發(fā)明,以便提供一種克服上述問(wèn)題或至少部分地解決上述問(wèn)題的一種信息推薦系統(tǒng)及其推薦方法。
依據(jù)本發(fā)明的一個(gè)方面,提供了一種信息推薦系統(tǒng),該系統(tǒng)包括:
數(shù)據(jù)模塊,用于收集并存儲(chǔ)用戶(hù)的屬性數(shù)據(jù),對(duì)訂單的關(guān)鍵詞提取和分析;
觸發(fā)模塊,用于利用觸發(fā)策略產(chǎn)生推薦的候選集;
篩選模塊,用于融合推薦的侯選集,并過(guò)濾掉不符合推薦條件的商品;
排序模塊,用于對(duì)擬向用戶(hù)推薦的商品進(jìn)行優(yōu)先級(jí)重新排序;
推薦模塊,用于對(duì)排序后的商品向用戶(hù)進(jìn)行推薦。
進(jìn)一步的,所述數(shù)據(jù)模塊包括數(shù)據(jù)生成單元和數(shù)據(jù)存儲(chǔ)單元,其中:
所述數(shù)據(jù)生成單元,是利用各種數(shù)據(jù)處理工具,對(duì)原始日志進(jìn)行清洗、去除噪聲數(shù)據(jù),處理成格式化的數(shù)據(jù);
所述數(shù)據(jù)存儲(chǔ)單元,是對(duì)格式化的數(shù)據(jù),分成不同的類(lèi)型進(jìn)行存儲(chǔ)。
進(jìn)一步的,所述侯選集可從基于用戶(hù)的歷史行為、基于用戶(hù)的偏好以及基于用戶(hù)所處的地域三個(gè)維度獲取,還可以從在線(xiàn)相關(guān),在線(xiàn)相似,離線(xiàn)相關(guān),離線(xiàn)相似,近期熱銷(xiāo)品牌品類(lèi)的各個(gè)維度獲取。
進(jìn)一步的,所述用戶(hù)的歷史行為維度,可根據(jù)用戶(hù)之前的購(gòu)買(mǎi)行為或?yàn)g覽行為推薦相關(guān)或相似的商品。
進(jìn)一步的,所述用戶(hù)的偏好維度,可包括用戶(hù)畫(huà)像和多屏互通,其中:所述用戶(hù)畫(huà)像是指結(jié)合商品品牌、適用人群、價(jià)格指數(shù)以及用戶(hù)對(duì)商品的點(diǎn)擊、購(gòu)買(mǎi)、關(guān)注和收藏等行為,確定用戶(hù)的屬性;所述多屏互通是指在各種智能終端上可實(shí)現(xiàn)推薦的同步。
進(jìn)一步的,所述用戶(hù)所處的地域維度,是把整個(gè)地圖劃分成多個(gè)網(wǎng)格,運(yùn)用數(shù)據(jù)統(tǒng)計(jì)的結(jié)果實(shí)現(xiàn)對(duì)處于某一地域的用戶(hù)進(jìn)行推薦。
進(jìn)一步的,對(duì)于沒(méi)有之前的用戶(hù)行為或之前的用戶(hù)行為比較少的新用戶(hù),采用所述的用戶(hù)所處的地域維度進(jìn)行觸發(fā)。
進(jìn)一步的,所述觸發(fā)算法包括協(xié)同過(guò)濾、基于位置、基于查詢(xún)、基于圖例、實(shí)時(shí)用戶(hù)行為及替補(bǔ)策略。
進(jìn)一步的,所述排序模塊,可從用戶(hù)的交互日志中,通過(guò)訓(xùn)練特征權(quán)重,再通過(guò)排序?qū)W習(xí)(Learning to Rank,L2R)算法改進(jìn)實(shí)現(xiàn)。
根據(jù)本發(fā)明的另一方面,本發(fā)明還提供一種信息推薦方法,包括:
收集并存儲(chǔ)用戶(hù)的屬性數(shù)據(jù),對(duì)訂單的關(guān)鍵詞提取和分析;
利用觸發(fā)策略產(chǎn)生推薦的候選集;
過(guò)濾掉不符合推薦條件的商品;
對(duì)擬向用戶(hù)推薦的商品進(jìn)行優(yōu)先級(jí)重新排序;
對(duì)排序后的商品向用戶(hù)進(jìn)行推薦。
本發(fā)明可以向用戶(hù)推薦與其瀏覽過(guò)或購(gòu)買(mǎi)過(guò)的商品相關(guān)的商品,大大增強(qiáng)了推薦的多樣性,并且,不會(huì)對(duì)客戶(hù)已經(jīng)購(gòu)買(mǎi)過(guò)的商品進(jìn)行重復(fù)推薦,優(yōu)化了推薦功能,促進(jìn)了推薦向銷(xiāo)售的轉(zhuǎn)化,提高了銷(xiāo)售的轉(zhuǎn)化率及用戶(hù)的使用率。
【附圖說(shuō)明】
圖1為本發(fā)明一個(gè)實(shí)施例的信息推薦系統(tǒng)示意圖。
圖2為本發(fā)明的信息推薦方法示意圖。
【具體實(shí)施方式】
下面將參照附圖更詳細(xì)的描述本發(fā)明的示例性實(shí)施例。雖然附圖中顯示了本發(fā)明的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本發(fā)明,而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能更透徹的理解本發(fā)明,并且能夠?qū)⒈景l(fā)明的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種信息推薦系統(tǒng)。如圖1所示,該系統(tǒng)包括:
數(shù)據(jù)模塊100,用于收集并存儲(chǔ)用戶(hù)的屬性數(shù)據(jù),對(duì)訂單的關(guān)鍵詞提取和分析。數(shù)據(jù)是后續(xù)各個(gè)模塊的根本。作為一個(gè)交易平臺(tái),同時(shí)具有快速增長(zhǎng)的用戶(hù)量,因此產(chǎn)生了海量豐富的用戶(hù)行為數(shù)據(jù),不同類(lèi)型的數(shù)據(jù),其價(jià)值和反映用戶(hù)意圖的強(qiáng)弱也有所不同,因此,需要對(duì)數(shù)據(jù)進(jìn)行不同的提取和分析,以方便后續(xù)模塊的調(diào)用。
數(shù)據(jù)模塊100包括數(shù)據(jù)生成單元和數(shù)據(jù)存儲(chǔ)單元,其中:
數(shù)據(jù)生成單元主要是利用各種數(shù)據(jù)處理工具,對(duì)原始日志進(jìn)行清洗,處理成格式化的數(shù)據(jù),比如對(duì)于作弊、刷單、代購(gòu)等嚴(yán)重影響后續(xù)模塊算法效果的噪聲數(shù)據(jù),首先要在數(shù)據(jù)清洗中剔除。數(shù)據(jù)生成單元包括對(duì)數(shù)據(jù)的提取和分析。對(duì)于注冊(cè)用戶(hù)而言,可提取到注冊(cè)用戶(hù)的屬性信息,比如性別、年齡、學(xué)歷等等;對(duì)于注冊(cè)或非注冊(cè)用戶(hù)而言,根據(jù)用戶(hù)所處的地理位置和用戶(hù)近期的電腦緩存,通過(guò)對(duì)UGC(User Generated Content,用戶(hù)原創(chuàng)內(nèi)容)數(shù)據(jù)的挖掘,可以提取出一些關(guān)鍵詞,然后進(jìn)行關(guān)鍵詞分析,使用分析后的關(guān)鍵詞給訂單(deal)打標(biāo)簽,生成格式化的數(shù)據(jù),展示個(gè)性化的訂單。
數(shù)據(jù)存儲(chǔ)單元是對(duì)格式化的數(shù)據(jù),分成不同的類(lèi)型進(jìn)行存儲(chǔ),比如hive數(shù)據(jù)庫(kù)、hbase數(shù)據(jù)庫(kù)、mysql數(shù)據(jù)庫(kù)、redis數(shù)據(jù)庫(kù)等等,以供觸發(fā)模塊200使用。
觸發(fā)模塊200,利用觸發(fā)策略產(chǎn)生推薦的候選集。候選集的獲取,可以主要從三個(gè)維度來(lái)實(shí)現(xiàn):分別是基于用戶(hù)的歷史行為、基于用戶(hù)的偏好以及基于用戶(hù)所處的地域。當(dāng)然,侯選集的獲取也可以從其他維度考慮,比如在線(xiàn)相關(guān),在線(xiàn)相似,離線(xiàn)相關(guān),離線(xiàn)相似,近期熱銷(xiāo)品牌品類(lèi)等,都可以加入到侯選集獲取的維度當(dāng)中。評(píng)價(jià)某個(gè)維度從推薦到購(gòu)買(mǎi)轉(zhuǎn)化效率的高低,主要看該維度下用戶(hù)的點(diǎn)擊率、轉(zhuǎn)化率及年度成交總額。侯選集獲取后,對(duì)侯選集進(jìn)行效率分析,根據(jù)不同的維度采用不同的觸發(fā)策略產(chǎn)生推薦的侯選集。
對(duì)于基于用戶(hù)的歷史行為維度而言,可根據(jù)用戶(hù)之前的購(gòu)買(mǎi)行為或?yàn)g覽行為推薦相關(guān)或相似的商品。更進(jìn)一步的,可以把用戶(hù)之前的購(gòu)買(mǎi)行為視為一個(gè)重要的分界線(xiàn),當(dāng)用戶(hù)已購(gòu)買(mǎi)某個(gè)商品,根據(jù)商品種類(lèi)和用途選擇推薦與其相關(guān)或相似的商品,而不是地重復(fù)推薦,比如為iphone6 plus買(mǎi)家推薦iphone6 plus保護(hù)套而不是iphone6 plus。為了提高推薦到購(gòu)買(mǎi)的轉(zhuǎn)化效率,可以將用戶(hù)最近瀏覽或關(guān)注的商品推薦到首頁(yè),或者將放入購(gòu)物車(chē)但未購(gòu)買(mǎi)的商品推薦給用戶(hù),尤其是在商家對(duì)這些商品做活動(dòng)的時(shí)候,推薦給相關(guān)用戶(hù)。
對(duì)于基于用戶(hù)的偏好維度而言,推薦可包括用戶(hù)畫(huà)像和多屏互通。其中,用戶(hù)畫(huà)像是指結(jié)合商品品牌、適用人群、價(jià)格指數(shù)以及用戶(hù)對(duì)商品的點(diǎn)擊、購(gòu)買(mǎi)、關(guān)注和收藏等行為,對(duì)用戶(hù)進(jìn)行畫(huà)像,確定用戶(hù)的屬性,從而確定可以長(zhǎng)期推薦的品類(lèi)。比如,根據(jù)關(guān)注上述條件下的用戶(hù)行為,對(duì)于一個(gè)經(jīng)常購(gòu)買(mǎi)進(jìn)口名牌嬰幼兒產(chǎn)品的用戶(hù),可以大體確定出用戶(hù)的性別為女性、購(gòu)買(mǎi)能力很強(qiáng)、商品的消費(fèi)檔次較高、關(guān)注的商品類(lèi)別為嬰幼兒產(chǎn)品,進(jìn)而根據(jù)嬰幼兒成長(zhǎng)的時(shí)間軌跡,可確定出后續(xù)長(zhǎng)期向其推薦的商品,如依次年齡段的衣服、玩具、早教書(shū)籍等等。多屏互通是指推薦應(yīng)適用于不同的客戶(hù)端,在各種智能終端(比如筆記本、手機(jī)、平板電腦等)上可實(shí)現(xiàn)推薦的同步。
對(duì)于基于用戶(hù)所處的地域維度而言,是把整個(gè)地圖劃分成多個(gè)網(wǎng)格,運(yùn)用數(shù)據(jù)統(tǒng)計(jì)的結(jié)果實(shí)現(xiàn)對(duì)處于某一地域的用戶(hù)進(jìn)行推薦。以北京為例,東三環(huán)CBD地區(qū)的用戶(hù)更感興趣的商品是手機(jī)、時(shí)裝、化妝品。房山長(zhǎng)陽(yáng)地區(qū)(該區(qū)為新城,大部分為新建小區(qū))可以根據(jù)年輕人裝修、結(jié)婚、生子,主要集中在推薦結(jié)婚攝影、裝修、母嬰用品等等?;诘赜虻耐扑]主要用于沒(méi)有之前的用戶(hù)行為或之前的用戶(hù)行為比較少的新用戶(hù)。
對(duì)于上述三個(gè)維度,涉及到的觸發(fā)算法包括:
(1)協(xié)同過(guò)濾
協(xié)同過(guò)濾幾乎在每一個(gè)推薦系統(tǒng)中都會(huì)用到?;镜乃惴ǚ浅:?jiǎn)單,但是要獲得更好的效果,往往需要根據(jù)具體的業(yè)務(wù)做一些差異化的處理,比如清除作弊、刷單、代購(gòu)等噪聲數(shù)據(jù);合理選取訓(xùn)練數(shù)據(jù),選取的訓(xùn)練數(shù)據(jù)的時(shí)間窗口不宜過(guò)長(zhǎng),當(dāng)然也不能過(guò)短,具體的窗口期數(shù)值需要根據(jù)實(shí)驗(yàn)來(lái)確定;還可以考慮引入時(shí)間衰減,因?yàn)榻诘挠脩?hù)行為更能反映用戶(hù)接下來(lái)的行為動(dòng)作。
在數(shù)據(jù)分析中,有些算法需要利用現(xiàn)有的數(shù)據(jù)構(gòu)建模型,比如貝葉斯分類(lèi)器,決策樹(shù),線(xiàn)性回歸等,這類(lèi)算法統(tǒng)稱(chēng)為監(jiān)督學(xué)習(xí)(Supervisied Learning)算法。一般做預(yù)測(cè)分析時(shí),會(huì)將數(shù)據(jù)分為兩大部分:
一部分是訓(xùn)練數(shù)據(jù)(Train Data),用于構(gòu)建模型。但是,有時(shí)候模型的構(gòu)建過(guò)程中也需要檢驗(yàn)?zāi)P?,輔助模型構(gòu)建,所以會(huì)將訓(xùn)練數(shù)據(jù)再分為兩個(gè)部分:1)訓(xùn)練數(shù)據(jù);2)驗(yàn)證數(shù)據(jù)(Validation Data),可選,用于輔助模型構(gòu)建,可以重復(fù)使用。典型的例子是用K-Fold Cross Validation裁剪決策樹(shù),求出最優(yōu)葉節(jié)點(diǎn)數(shù),防止過(guò)渡擬合(Overfitting)。
另一部分是測(cè)試數(shù)據(jù)(Test Data),用于檢驗(yàn)?zāi)P偷臉?gòu)建。此數(shù)據(jù)只在模型檢驗(yàn)時(shí)使用,用于評(píng)估模型的準(zhǔn)確率。絕對(duì)不允許用于模型構(gòu)建過(guò)程,否則會(huì)導(dǎo)致過(guò)渡擬合。
(2)location-based(基于位置)
對(duì)于移動(dòng)設(shè)備而言,與PC端最大的區(qū)別之一是移動(dòng)設(shè)備的位置是經(jīng)常發(fā)生變化的。不同的地理位置反映了不同的用戶(hù)場(chǎng)景,在具體的業(yè)務(wù)中可以充分利用用戶(hù)所處的地理位置。在推薦的候選集觸發(fā)中,也會(huì)根據(jù)用戶(hù)的實(shí)時(shí)地理位置、工作地、居住地等地理位置觸發(fā)相應(yīng)的策略。比如根據(jù)用戶(hù)的歷史消費(fèi)、歷史瀏覽等,挖掘出某一粒度的區(qū)域(比如商圈)內(nèi)的區(qū)域消費(fèi)熱單和區(qū)域購(gòu)買(mǎi)熱單,當(dāng)新的線(xiàn)上用戶(hù)請(qǐng)求到達(dá)時(shí),根據(jù)用戶(hù)的幾個(gè)地理位置對(duì)相應(yīng)地理位置的區(qū)域消費(fèi)熱單和區(qū)域購(gòu)買(mǎi)熱單進(jìn)行加權(quán),最終得到一個(gè)推薦列表。
此外,還可以根據(jù)用戶(hù)出現(xiàn)的地理位置,同時(shí)采用協(xié)同過(guò)濾的方式計(jì)算用戶(hù)的相似度。
(3)query-based(基于查詢(xún))
搜索是一種強(qiáng)用戶(hù)意圖,比較明確的反應(yīng)了用戶(hù)的意愿,但是在很多情況下,因?yàn)楦鞣N各樣的原因,沒(méi)有形成最終的轉(zhuǎn)換。盡管如此,這種情景還是代表了一定的用戶(hù)意愿,可以加以利用。具體做法如下:對(duì)用戶(hù)過(guò)去一段時(shí)間的搜索無(wú)轉(zhuǎn)換行為進(jìn)行挖掘,計(jì)算每一個(gè)用戶(hù)對(duì)不同查詢(xún)的權(quán)重。
(4)graph-based(基于圖例)
對(duì)于協(xié)同過(guò)濾而言,用戶(hù)(user)之間或者訂單(deal)之間的圖距離是兩跳,對(duì)于更遠(yuǎn)距離的關(guān)系則不能考慮在內(nèi)。而圖算法可以打破這一限制,將用戶(hù)與訂單的關(guān)系視作一個(gè)二部圖,相互間的關(guān)系可以在圖上傳播。Simrank[2]是一種衡量對(duì)等實(shí)體相似度的圖算法。它的基本思想是,如果兩個(gè)實(shí)體與另外的相似實(shí)體有相關(guān)關(guān)系,那它們也是相似的,即相似性是可以傳播的。
(5)實(shí)時(shí)用戶(hù)行為
目前互聯(lián)網(wǎng)上的業(yè)務(wù)會(huì)產(chǎn)生包括搜索、篩選、收藏、瀏覽、下單等豐富的用戶(hù)行為,是可以進(jìn)行效果優(yōu)化的重要基礎(chǔ)。當(dāng)然希望每一個(gè)用戶(hù)行為流都能到達(dá)轉(zhuǎn)化的環(huán)節(jié),但是事實(shí)上遠(yuǎn)非這樣。當(dāng)用戶(hù)產(chǎn)生了下單行為上游的某些行為時(shí),會(huì)有相當(dāng)一部分因?yàn)楦鞣N原因使行為流沒(méi)有形成轉(zhuǎn)化。但是,用戶(hù)的這些上游行為是非常重要的先驗(yàn)知識(shí)。很多情況下,用戶(hù)當(dāng)時(shí)沒(méi)有轉(zhuǎn)化并不代表用戶(hù)對(duì)當(dāng)前的項(xiàng)目不感興趣。當(dāng)用戶(hù)再次到達(dá)推薦展位時(shí),根據(jù)用戶(hù)之前產(chǎn)生的先驗(yàn)行為理解用戶(hù)的真正意圖,將符合用戶(hù)意圖的相關(guān)訂單再次展現(xiàn)給用戶(hù),引導(dǎo)用戶(hù)沿著行為流向下游行進(jìn),最終達(dá)到下單這個(gè)終極目標(biāo)。實(shí)時(shí)用戶(hù)行為可包括:實(shí)時(shí)瀏覽、實(shí)時(shí)收藏。
(6)替補(bǔ)策略
雖然有一系列基于用戶(hù)歷史行為的候選集觸發(fā)算法,但對(duì)于部分新用戶(hù)或者歷史行為不太豐富的用戶(hù),上述算法觸發(fā)的候選集太小,因此需要使用一些替補(bǔ)策略進(jìn)行填充。包括:
熱銷(xiāo)單:在一定時(shí)間內(nèi)銷(xiāo)量最多的權(quán)重,可以考慮時(shí)間衰減的影響等。
好評(píng)單:用戶(hù)產(chǎn)生的評(píng)價(jià)中,評(píng)分較高的權(quán)重。
城市單:滿(mǎn)足基本的限定條件,在用戶(hù)的請(qǐng)求城市內(nèi)的。
子策略融合:為了結(jié)合不同觸發(fā)算法的優(yōu)點(diǎn),同時(shí)提高候選集的多樣性和覆蓋率,需要將不同的觸發(fā)算法融合在一起。可采用的融合方法有以下幾種:
加權(quán)型:最簡(jiǎn)單的融合方法就是根據(jù)經(jīng)驗(yàn)值對(duì)不同算法賦給不同的權(quán)重,對(duì)各個(gè)算法產(chǎn)生的候選集按照給定的權(quán)重進(jìn)行加權(quán),然后再按照權(quán)重排序。
分級(jí)型:優(yōu)先采用效果好的算法,當(dāng)產(chǎn)生的候選集大小不足以滿(mǎn)足目標(biāo)值時(shí),再使用效果次好的算法,依此類(lèi)推。
調(diào)制型:不同的算法按照不同的比例產(chǎn)生一定量的候選集,然后疊加產(chǎn)生最終總的候選集。
過(guò)濾型:當(dāng)前的算法對(duì)前一級(jí)算法產(chǎn)生的候選集進(jìn)行過(guò)濾,依此類(lèi)推,候選集被逐級(jí)過(guò)濾,最終產(chǎn)生一個(gè)小而精的候選集合。
篩選模塊300,用于融合推薦的侯選集,并過(guò)濾掉不符合推薦條件的商品。篩選模塊300包括融合單元和過(guò)濾單元,融合單元是對(duì)觸發(fā)模塊200產(chǎn)生的不同候選集進(jìn)行融合,以提高推薦策略的覆蓋度和精度;過(guò)濾單元承擔(dān)一定的過(guò)濾職責(zé),從產(chǎn)品、運(yùn)營(yíng)的角度確定一些人工規(guī)則,過(guò)濾掉不符合條件的項(xiàng)目條款,比如,通過(guò)建立的關(guān)鍵詞體系將國(guó)家明文禁止的產(chǎn)品及詞語(yǔ)有效的過(guò)濾,對(duì)于沒(méi)有合作的商品及相同的商品進(jìn)行篩選或人工干預(yù),不推薦給用戶(hù)。
排序模塊400,對(duì)擬向用戶(hù)推薦的商品進(jìn)行優(yōu)先級(jí)重新排序。由于觸發(fā)模塊根據(jù)不同算法觸發(fā)出來(lái)的候選集,只是根據(jù)算法的歷史效果決定算法產(chǎn)生的權(quán)重的位置顯得有些簡(jiǎn)單粗暴,同時(shí),在每個(gè)算法的內(nèi)部,不同權(quán)重的順序也只是簡(jiǎn)單的由一個(gè)或者幾個(gè)因素決定,這些排序的方法只能用于第一步的初選過(guò)程,最終的排序結(jié)果需要借助機(jī)器學(xué)習(xí)的方法,使用相關(guān)的排序模型,綜合多方面的因素來(lái)確定。本發(fā)明中,推薦排序的問(wèn)題轉(zhuǎn)化為分類(lèi)的問(wèn)題實(shí)現(xiàn),主要是利用機(jī)器學(xué)習(xí)的模型對(duì)篩選模塊300篩選出來(lái)的候選集進(jìn)行重排序。
現(xiàn)有的排序模塊使用的是相關(guān)度排序或重要性排序,相關(guān)度排序是根據(jù)查詢(xún)和文檔之間的相似度來(lái)對(duì)文檔進(jìn)行排序;重要性排序不考慮查詢(xún),而僅僅根據(jù)網(wǎng)頁(yè)之間的圖結(jié)構(gòu)來(lái)判斷文檔的權(quán)威程度。由于現(xiàn)有的排序模塊往往只考慮某一個(gè)方面(相關(guān)度或者重要性),所以其轉(zhuǎn)化率并不高。為了使轉(zhuǎn)化率再一次獲得提升,并發(fā)明從用戶(hù)的交互日志中,通過(guò)訓(xùn)練特征權(quán)重,再通過(guò)排序?qū)W習(xí)(Learning to Rank,L2R)算法改進(jìn)實(shí)現(xiàn)。具體的,本發(fā)明使用的L2R算法與文本分類(lèi)不同,考慮的是給定查詢(xún)的文檔集合的排序,因此,L2R算法用到的特征不僅僅包含文檔本身的一些特征等,也包括文檔和給定查詢(xún)之間的相關(guān)度,以及文檔在整個(gè)網(wǎng)絡(luò)上的重要性(比如PageRank值等),因此,本發(fā)明使用相關(guān)性排序和重要性排序的輸出來(lái)作為L(zhǎng)2R算法的特征權(quán)重。
L2R算法的訓(xùn)練數(shù)據(jù)可通過(guò)兩種方法獲得:人工標(biāo)注和從日志文件中挖掘。
人工標(biāo)注:首先從搜索引擎的搜索記錄中隨機(jī)抽取一些查詢(xún),將這些查詢(xún)提交給多個(gè)不同的搜索引擎,然后選取各個(gè)搜索引擎返回結(jié)果的前幾個(gè),最后由專(zhuān)業(yè)人員來(lái)對(duì)這些文檔按照和查詢(xún)的相關(guān)度進(jìn)行標(biāo)注。
從日志中挖掘:搜索引擎都有大量的日志記錄用戶(hù)的行為,可以從中提取出L2R的訓(xùn)練數(shù)據(jù)。給定一個(gè)查詢(xún),搜索引擎返回的結(jié)果列表為L(zhǎng),用戶(hù)點(diǎn)擊的文檔的集合為C,如果一個(gè)文檔“di”被點(diǎn)擊過(guò),另外一個(gè)文檔“dj”沒(méi)有被點(diǎn)擊過(guò),并且“dj”在結(jié)果列表中排在di之前,則di>dj就是一條訓(xùn)練記錄。
本發(fā)明具體的L2R算法使用PointWise、PairWise和ListWise三類(lèi),其中:
1). PointWise L2R
PointWise方法只考慮給定查詢(xún)下,單個(gè)文檔的絕對(duì)相關(guān)度,而不考慮其他文檔和給定查詢(xún)的相關(guān)度。亦即給定查詢(xún)q的一個(gè)真實(shí)文檔序列,只需要考慮單個(gè)文檔di和該查詢(xún)的相關(guān)程度ci,
2). Pairwise L2R
Pairwise方法考慮給定查詢(xún)下,兩個(gè)文檔之間的相對(duì)相關(guān)度。亦即給定查詢(xún)q的一個(gè)真實(shí)文檔序列,只需要考慮任意兩個(gè)相關(guān)度不同的文檔之間的相對(duì)相關(guān)度:di>dj,或者di<dj。
3). Listwise L2R
與Pointwise和Pairwise方法不同,Listwise方法直接考慮給定查詢(xún)下的文檔集合的整體序列,直接優(yōu)化模型輸出的文檔序列,使得其盡可能接近真實(shí)文檔序列。
推薦模塊500,對(duì)排序后的商品向用戶(hù)進(jìn)行推薦。
舉例來(lái)說(shuō),對(duì)于數(shù)據(jù)模塊中用戶(hù)主動(dòng)行為的數(shù)據(jù),記錄了用戶(hù)在網(wǎng)站平臺(tái)上不同的環(huán)節(jié)的各種行為,比如在網(wǎng)站上進(jìn)行的搜索,咨詢(xún)和瀏覽的記錄,針對(duì)這些內(nèi)容結(jié)合周邊的產(chǎn)品進(jìn)行數(shù)據(jù)的分析,這些行為一方面可用于觸發(fā)模塊算法中的離線(xiàn)計(jì)算,另外一方面,這些行為代表的意圖的強(qiáng)弱不同,因此在排序模塊中可以針對(duì)不同的行為設(shè)定不同的回歸目標(biāo)值,以更細(xì)地刻畫(huà)用戶(hù)的行為強(qiáng)弱程度。此外,用戶(hù)對(duì)交易的這些行為還可以作為排序模塊的交叉特征,用于離線(xiàn)訓(xùn)練和在線(xiàn)預(yù)測(cè)。
數(shù)據(jù)模塊中的負(fù)反饋數(shù)據(jù),反映了當(dāng)前的結(jié)果可能在某些方面不能滿(mǎn)足用戶(hù)的需求,因此在后續(xù)的候選集觸發(fā)過(guò)程中需要考慮對(duì)特定的因素進(jìn)行過(guò)濾或者降權(quán),降低負(fù)面因素再次出現(xiàn)的幾率,提高用戶(hù)體驗(yàn);同時(shí)在排序模塊的模型訓(xùn)練中,負(fù)反饋數(shù)據(jù)可以作為不可多得的負(fù)例參與模型訓(xùn)練,這些負(fù)例要比那些展示后未點(diǎn)擊、未下單的樣本顯著的多。
用戶(hù)畫(huà)像是刻畫(huà)用戶(hù)屬性的基礎(chǔ)數(shù)據(jù),其中有些是直接獲取的原始數(shù)據(jù),有些是經(jīng)過(guò)挖掘的二次加工數(shù)據(jù),這些屬性一方面可以用于候選集觸發(fā)過(guò)程中對(duì)訂單進(jìn)行加權(quán)或降權(quán),另外一方面可以作為排序模塊中的用戶(hù)維度特征。
本發(fā)明的上述方案具有如下優(yōu)點(diǎn):
1、本發(fā)明可以向用戶(hù)推薦與其瀏覽過(guò)或購(gòu)買(mǎi)過(guò)的商品相關(guān)的商品,大大增強(qiáng)了推薦商品的多樣性,并且,不會(huì)對(duì)客戶(hù)已經(jīng)購(gòu)買(mǎi)過(guò)的商品進(jìn)行重復(fù)推薦,優(yōu)化了推薦功能。
2、本發(fā)明促進(jìn)了推薦向銷(xiāo)售的轉(zhuǎn)化,提高了銷(xiāo)售的轉(zhuǎn)化率及用戶(hù)的使用率,可為網(wǎng)絡(luò)銷(xiāo)售提供更加準(zhǔn)確的營(yíng)銷(xiāo)平臺(tái),提高網(wǎng)站運(yùn)營(yíng)方的收入。
圖2示出了與圖1推薦系統(tǒng)相對(duì)應(yīng)的推薦方法,由于其原理與圖1對(duì)應(yīng)的系統(tǒng)一致,因此不再過(guò)多的贅述。一種信息推薦方法,包括:
收集并存儲(chǔ)用戶(hù)的屬性數(shù)據(jù),對(duì)訂單的關(guān)鍵詞提取和分析。具體的,可利用各種數(shù)據(jù)處理工具,對(duì)原始日志進(jìn)行清洗,剔除噪聲數(shù)據(jù),處理成格式化的數(shù)據(jù);對(duì)格式化數(shù)據(jù)進(jìn)行不同類(lèi)型的存儲(chǔ)。
利用觸發(fā)策略產(chǎn)生推薦的候選集??梢詮幕谟脩?hù)的歷史行為、基于用戶(hù)的偏好、基于用戶(hù)所處的地域以及在線(xiàn)相關(guān),在線(xiàn)相似,離線(xiàn)相關(guān),離線(xiàn)相似,近期熱銷(xiāo)品牌品類(lèi)等獲取侯選集??筛鶕?jù)用戶(hù)之前的購(gòu)買(mǎi)行為或?yàn)g覽行為推薦相關(guān)或相似的商品。更進(jìn)一步的,可以把用戶(hù)之前的購(gòu)買(mǎi)行為視為一個(gè)重要的分界線(xiàn),當(dāng)用戶(hù)已購(gòu)買(mǎi)某個(gè)商品,根據(jù)商品種類(lèi)和用途選擇推薦與其相關(guān)或相似的商品,而不是地重復(fù)推薦。可對(duì)用戶(hù)進(jìn)行畫(huà)像,確定用戶(hù)的屬性,從而確定可以長(zhǎng)期推薦的品類(lèi)。可整個(gè)地圖劃分成多個(gè)網(wǎng)格,運(yùn)用數(shù)據(jù)統(tǒng)計(jì)的結(jié)果實(shí)現(xiàn)對(duì)處于某一地域的用戶(hù)進(jìn)行推薦。
對(duì)侯選集進(jìn)行融合,以及過(guò)濾掉不符合推薦條件的商品。對(duì)不同候選集進(jìn)行融合,以提高推薦策略的覆蓋度和精度;從產(chǎn)品、運(yùn)營(yíng)的角度確定一些人工規(guī)則,過(guò)濾掉不符合條件的項(xiàng)目條款。
對(duì)擬向用戶(hù)推薦的商品進(jìn)行優(yōu)先級(jí)重新排序。利用機(jī)器學(xué)習(xí)的模型對(duì)篩選出來(lái)的候選集進(jìn)行重排序。
對(duì)排序后的商品向用戶(hù)進(jìn)行推薦。
需要說(shuō)明的是:
在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類(lèi)系統(tǒng)所要求的結(jié)構(gòu)是顯而易見(jiàn)的。此外,本發(fā)明也不針對(duì)任何特定的編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明內(nèi)容。
本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中各模塊進(jìn)行自適應(yīng)性的改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。除非另有明確陳述,本說(shuō)明書(shū)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。
以上所述僅為本發(fā)明之較佳實(shí)施例,并非用以限定本發(fā)明的權(quán)利要求保護(hù)范圍。同時(shí)以上說(shuō)明,對(duì)于相關(guān)技術(shù)領(lǐng)域的技術(shù)人員應(yīng)可以理解及實(shí)施,因此其他基于本發(fā)明所揭示內(nèi)容所完成的等同改變,均應(yīng)包含在本權(quán)利要求書(shū)的涵蓋范圍內(nèi)。