一種信息推薦系統(tǒng)及信息推薦方法與流程

文檔序號(hào)：12602910閱讀：420來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域，具體涉及一種網(wǎng)站提供對(duì)象的推薦系統(tǒng)和推薦方法。

背景技術(shù)：

在信息過(guò)剩的互聯(lián)網(wǎng)時(shí)代，信息推薦技術(shù)對(duì)于互聯(lián)網(wǎng)公司運(yùn)營(yíng)的重要性是不言而喻的，目前各種各樣的網(wǎng)站都會(huì)在后臺(tái)使用推薦系統(tǒng)，上線(xiàn)了“今日推薦”和“猜你喜歡”兩項(xiàng)功能，比如各類(lèi)購(gòu)物網(wǎng)站、付費(fèi)下載的音樂(lè)網(wǎng)站、視頻網(wǎng)站及各類(lèi)服務(wù)網(wǎng)站等，他們都是根據(jù)用戶(hù)的訪(fǎng)問(wèn)特點(diǎn)，計(jì)算出最適合推薦給該用戶(hù)的候選產(chǎn)品，然后把這些產(chǎn)品展現(xiàn)給用戶(hù)，供其選擇。由于產(chǎn)品數(shù)量和用戶(hù)數(shù)量非常龐大，推薦系統(tǒng)大量使用到基于云計(jì)算的數(shù)據(jù)挖掘，通過(guò)挖掘用戶(hù)行為和商品信息，使用各種推薦算法來(lái)計(jì)算推薦列表，實(shí)現(xiàn)向不同用戶(hù)展示不同內(nèi)容的效果，提高頁(yè)面的轉(zhuǎn)化率。

現(xiàn)有的推薦系統(tǒng)中，最具有代表性的一種是同類(lèi)產(chǎn)品推薦，根據(jù)用戶(hù)的瀏覽記錄和訂單記錄，向用戶(hù)推薦記錄中的同類(lèi)型產(chǎn)品或相同產(chǎn)品。這種推薦個(gè)性化不足，推薦產(chǎn)品的多樣性不夠，不能發(fā)現(xiàn)用戶(hù)對(duì)其他產(chǎn)品的潛在需求，因?yàn)橛脩?hù)往往對(duì)已購(gòu)買(mǎi)過(guò)的產(chǎn)品興趣會(huì)下降。另外，互聯(lián)網(wǎng)中大部分網(wǎng)站的推薦系統(tǒng)都是以百度插件為主，不能真正達(dá)到將推薦轉(zhuǎn)向運(yùn)營(yíng)的目的。

技術(shù)實(shí)現(xiàn)要素：

鑒于上述問(wèn)題，提出了本發(fā)明，以便提供一種克服上述問(wèn)題或至少部分地解決上述問(wèn)題的一種信息推薦系統(tǒng)及其推薦方法。

依據(jù)本發(fā)明的一個(gè)方面，提供了一種信息推薦系統(tǒng)，該系統(tǒng)包括：

數(shù)據(jù)模塊，用于收集并存儲(chǔ)用戶(hù)的屬性數(shù)據(jù)，對(duì)訂單的關(guān)鍵詞提取和分析；

觸發(fā)模塊，用于利用觸發(fā)策略產(chǎn)生推薦的候選集；

篩選模塊，用于融合推薦的侯選集，并過(guò)濾掉不符合推薦條件的商品；

排序模塊，用于對(duì)擬向用戶(hù)推薦的商品進(jìn)行優(yōu)先級(jí)重新排序；

推薦模塊，用于對(duì)排序后的商品向用戶(hù)進(jìn)行推薦。

進(jìn)一步的，所述數(shù)據(jù)模塊包括數(shù)據(jù)生成單元和數(shù)據(jù)存儲(chǔ)單元，其中：

所述數(shù)據(jù)生成單元，是利用各種數(shù)據(jù)處理工具，對(duì)原始日志進(jìn)行清洗、去除噪聲數(shù)據(jù)，處理成格式化的數(shù)據(jù)；

所述數(shù)據(jù)存儲(chǔ)單元，是對(duì)格式化的數(shù)據(jù)，分成不同的類(lèi)型進(jìn)行存儲(chǔ)。

進(jìn)一步的，所述侯選集可從基于用戶(hù)的歷史行為、基于用戶(hù)的偏好以及基于用戶(hù)所處的地域三個(gè)維度獲取，還可以從在線(xiàn)相關(guān)，在線(xiàn)相似，離線(xiàn)相關(guān)，離線(xiàn)相似，近期熱銷(xiāo)品牌品類(lèi)的各個(gè)維度獲取。

進(jìn)一步的，所述用戶(hù)的歷史行為維度，可根據(jù)用戶(hù)之前的購(gòu)買(mǎi)行為或?yàn)g覽行為推薦相關(guān)或相似的商品。

進(jìn)一步的，所述用戶(hù)的偏好維度，可包括用戶(hù)畫(huà)像和多屏互通，其中：所述用戶(hù)畫(huà)像是指結(jié)合商品品牌、適用人群、價(jià)格指數(shù)以及用戶(hù)對(duì)商品的點(diǎn)擊、購(gòu)買(mǎi)、關(guān)注和收藏等行為，確定用戶(hù)的屬性；所述多屏互通是指在各種智能終端上可實(shí)現(xiàn)推薦的同步。

進(jìn)一步的，所述用戶(hù)所處的地域維度，是把整個(gè)地圖劃分成多個(gè)網(wǎng)格，運(yùn)用數(shù)據(jù)統(tǒng)計(jì)的結(jié)果實(shí)現(xiàn)對(duì)處于某一地域的用戶(hù)進(jìn)行推薦。

進(jìn)一步的，對(duì)于沒(méi)有之前的用戶(hù)行為或之前的用戶(hù)行為比較少的新用戶(hù)，采用所述的用戶(hù)所處的地域維度進(jìn)行觸發(fā)。

進(jìn)一步的，所述觸發(fā)算法包括協(xié)同過(guò)濾、基于位置、基于查詢(xún)、基于圖例、實(shí)時(shí)用戶(hù)行為及替補(bǔ)策略。

進(jìn)一步的，所述排序模塊，可從用戶(hù)的交互日志中，通過(guò)訓(xùn)練特征權(quán)重，再通過(guò)排序?qū)W習(xí)（Learning to Rank，L2R）算法改進(jìn)實(shí)現(xiàn)。

根據(jù)本發(fā)明的另一方面，本發(fā)明還提供一種信息推薦方法，包括：

收集并存儲(chǔ)用戶(hù)的屬性數(shù)據(jù)，對(duì)訂單的關(guān)鍵詞提取和分析；

利用觸發(fā)策略產(chǎn)生推薦的候選集；

過(guò)濾掉不符合推薦條件的商品；

對(duì)擬向用戶(hù)推薦的商品進(jìn)行優(yōu)先級(jí)重新排序；

對(duì)排序后的商品向用戶(hù)進(jìn)行推薦。

本發(fā)明可以向用戶(hù)推薦與其瀏覽過(guò)或購(gòu)買(mǎi)過(guò)的商品相關(guān)的商品，大大增強(qiáng)了推薦的多樣性，并且，不會(huì)對(duì)客戶(hù)已經(jīng)購(gòu)買(mǎi)過(guò)的商品進(jìn)行重復(fù)推薦，優(yōu)化了推薦功能，促進(jìn)了推薦向銷(xiāo)售的轉(zhuǎn)化，提高了銷(xiāo)售的轉(zhuǎn)化率及用戶(hù)的使用率。

【附圖說(shuō)明】

圖1為本發(fā)明一個(gè)實(shí)施例的信息推薦系統(tǒng)示意圖。

圖2為本發(fā)明的信息推薦方法示意圖。

【具體實(shí)施方式】

下面將參照附圖更詳細(xì)的描述本發(fā)明的示例性實(shí)施例。雖然附圖中顯示了本發(fā)明的示例性實(shí)施例，然而應(yīng)當(dāng)理解，可以以各種形式實(shí)現(xiàn)本發(fā)明，而不應(yīng)被這里闡述的實(shí)施例所限制。相反，提供這些實(shí)施例是為了能更透徹的理解本發(fā)明，并且能夠?qū)⒈景l(fā)明的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。

圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種信息推薦系統(tǒng)。如圖1所示，該系統(tǒng)包括：

數(shù)據(jù)模塊100，用于收集并存儲(chǔ)用戶(hù)的屬性數(shù)據(jù)，對(duì)訂單的關(guān)鍵詞提取和分析。數(shù)據(jù)是后續(xù)各個(gè)模塊的根本。作為一個(gè)交易平臺(tái)，同時(shí)具有快速增長(zhǎng)的用戶(hù)量，因此產(chǎn)生了海量豐富的用戶(hù)行為數(shù)據(jù)，不同類(lèi)型的數(shù)據(jù)，其價(jià)值和反映用戶(hù)意圖的強(qiáng)弱也有所不同，因此，需要對(duì)數(shù)據(jù)進(jìn)行不同的提取和分析，以方便后續(xù)模塊的調(diào)用。

數(shù)據(jù)模塊100包括數(shù)據(jù)生成單元和數(shù)據(jù)存儲(chǔ)單元，其中：

數(shù)據(jù)生成單元主要是利用各種數(shù)據(jù)處理工具，對(duì)原始日志進(jìn)行清洗，處理成格式化的數(shù)據(jù)，比如對(duì)于作弊、刷單、代購(gòu)等嚴(yán)重影響后續(xù)模塊算法效果的噪聲數(shù)據(jù)，首先要在數(shù)據(jù)清洗中剔除。數(shù)據(jù)生成單元包括對(duì)數(shù)據(jù)的提取和分析。對(duì)于注冊(cè)用戶(hù)而言，可提取到注冊(cè)用戶(hù)的屬性信息，比如性別、年齡、學(xué)歷等等；對(duì)于注冊(cè)或非注冊(cè)用戶(hù)而言，根據(jù)用戶(hù)所處的地理位置和用戶(hù)近期的電腦緩存，通過(guò)對(duì)UGC（User Generated Content，用戶(hù)原創(chuàng)內(nèi)容）數(shù)據(jù)的挖掘，可以提取出一些關(guān)鍵詞，然后進(jìn)行關(guān)鍵詞分析，使用分析后的關(guān)鍵詞給訂單（deal）打標(biāo)簽，生成格式化的數(shù)據(jù)，展示個(gè)性化的訂單。

數(shù)據(jù)存儲(chǔ)單元是對(duì)格式化的數(shù)據(jù)，分成不同的類(lèi)型進(jìn)行存儲(chǔ)，比如hive數(shù)據(jù)庫(kù)、hbase數(shù)據(jù)庫(kù)、mysql數(shù)據(jù)庫(kù)、redis數(shù)據(jù)庫(kù)等等，以供觸發(fā)模塊200使用。

觸發(fā)模塊200，利用觸發(fā)策略產(chǎn)生推薦的候選集。候選集的獲取，可以主要從三個(gè)維度來(lái)實(shí)現(xiàn)：分別是基于用戶(hù)的歷史行為、基于用戶(hù)的偏好以及基于用戶(hù)所處的地域。當(dāng)然，侯選集的獲取也可以從其他維度考慮，比如在線(xiàn)相關(guān)，在線(xiàn)相似，離線(xiàn)相關(guān)，離線(xiàn)相似，近期熱銷(xiāo)品牌品類(lèi)等，都可以加入到侯選集獲取的維度當(dāng)中。評(píng)價(jià)某個(gè)維度從推薦到購(gòu)買(mǎi)轉(zhuǎn)化效率的高低，主要看該維度下用戶(hù)的點(diǎn)擊率、轉(zhuǎn)化率及年度成交總額。侯選集獲取后，對(duì)侯選集進(jìn)行效率分析，根據(jù)不同的維度采用不同的觸發(fā)策略產(chǎn)生推薦的侯選集。

對(duì)于基于用戶(hù)的歷史行為維度而言，可根據(jù)用戶(hù)之前的購(gòu)買(mǎi)行為或?yàn)g覽行為推薦相關(guān)或相似的商品。更進(jìn)一步的，可以把用戶(hù)之前的購(gòu)買(mǎi)行為視為一個(gè)重要的分界線(xiàn)，當(dāng)用戶(hù)已購(gòu)買(mǎi)某個(gè)商品，根據(jù)商品種類(lèi)和用途選擇推薦與其相關(guān)或相似的商品，而不是地重復(fù)推薦，比如為iphone6 plus買(mǎi)家推薦iphone6 plus保護(hù)套而不是iphone6 plus。為了提高推薦到購(gòu)買(mǎi)的轉(zhuǎn)化效率，可以將用戶(hù)最近瀏覽或關(guān)注的商品推薦到首頁(yè)，或者將放入購(gòu)物車(chē)但未購(gòu)買(mǎi)的商品推薦給用戶(hù)，尤其是在商家對(duì)這些商品做活動(dòng)的時(shí)候，推薦給相關(guān)用戶(hù)。

對(duì)于基于用戶(hù)的偏好維度而言，推薦可包括用戶(hù)畫(huà)像和多屏互通。其中，用戶(hù)畫(huà)像是指結(jié)合商品品牌、適用人群、價(jià)格指數(shù)以及用戶(hù)對(duì)商品的點(diǎn)擊、購(gòu)買(mǎi)、關(guān)注和收藏等行為，對(duì)用戶(hù)進(jìn)行畫(huà)像，確定用戶(hù)的屬性，從而確定可以長(zhǎng)期推薦的品類(lèi)。比如，根據(jù)關(guān)注上述條件下的用戶(hù)行為，對(duì)于一個(gè)經(jīng)常購(gòu)買(mǎi)進(jìn)口名牌嬰幼兒產(chǎn)品的用戶(hù)，可以大體確定出用戶(hù)的性別為女性、購(gòu)買(mǎi)能力很強(qiáng)、商品的消費(fèi)檔次較高、關(guān)注的商品類(lèi)別為嬰幼兒產(chǎn)品，進(jìn)而根據(jù)嬰幼兒成長(zhǎng)的時(shí)間軌跡，可確定出后續(xù)長(zhǎng)期向其推薦的商品，如依次年齡段的衣服、玩具、早教書(shū)籍等等。多屏互通是指推薦應(yīng)適用于不同的客戶(hù)端，在各種智能終端（比如筆記本、手機(jī)、平板電腦等）上可實(shí)現(xiàn)推薦的同步。

對(duì)于基于用戶(hù)所處的地域維度而言，是把整個(gè)地圖劃分成多個(gè)網(wǎng)格，運(yùn)用數(shù)據(jù)統(tǒng)計(jì)的結(jié)果實(shí)現(xiàn)對(duì)處于某一地域的用戶(hù)進(jìn)行推薦。以北京為例，東三環(huán)CBD地區(qū)的用戶(hù)更感興趣的商品是手機(jī)、時(shí)裝、化妝品。房山長(zhǎng)陽(yáng)地區(qū)（該區(qū)為新城，大部分為新建小區(qū)）可以根據(jù)年輕人裝修、結(jié)婚、生子，主要集中在推薦結(jié)婚攝影、裝修、母嬰用品等等?；诘赜虻耐扑]主要用于沒(méi)有之前的用戶(hù)行為或之前的用戶(hù)行為比較少的新用戶(hù)。

對(duì)于上述三個(gè)維度，涉及到的觸發(fā)算法包括：

（1）協(xié)同過(guò)濾

協(xié)同過(guò)濾幾乎在每一個(gè)推薦系統(tǒng)中都會(huì)用到?；镜乃惴ǚ浅：?jiǎn)單，但是要獲得更好的效果，往往需要根據(jù)具體的業(yè)務(wù)做一些差異化的處理，比如清除作弊、刷單、代購(gòu)等噪聲數(shù)據(jù)；合理選取訓(xùn)練數(shù)據(jù)，選取的訓(xùn)練數(shù)據(jù)的時(shí)間窗口不宜過(guò)長(zhǎng)，當(dāng)然也不能過(guò)短，具體的窗口期數(shù)值需要根據(jù)實(shí)驗(yàn)來(lái)確定；還可以考慮引入時(shí)間衰減，因?yàn)榻诘挠脩?hù)行為更能反映用戶(hù)接下來(lái)的行為動(dòng)作。

在數(shù)據(jù)分析中，有些算法需要利用現(xiàn)有的數(shù)據(jù)構(gòu)建模型，比如貝葉斯分類(lèi)器，決策樹(shù)，線(xiàn)性回歸等，這類(lèi)算法統(tǒng)稱(chēng)為監(jiān)督學(xué)習(xí)（Supervisied Learning）算法。一般做預(yù)測(cè)分析時(shí)，會(huì)將數(shù)據(jù)分為兩大部分：

一部分是訓(xùn)練數(shù)據(jù)（Train Data），用于構(gòu)建模型。但是，有時(shí)候模型的構(gòu)建過(guò)程中也需要檢驗(yàn)?zāi)Ｐ?，輔助模型構(gòu)建，所以會(huì)將訓(xùn)練數(shù)據(jù)再分為兩個(gè)部分：1）訓(xùn)練數(shù)據(jù)；2）驗(yàn)證數(shù)據(jù)（Validation Data），可選，用于輔助模型構(gòu)建，可以重復(fù)使用。典型的例子是用K-Fold Cross Validation裁剪決策樹(shù)，求出最優(yōu)葉節(jié)點(diǎn)數(shù)，防止過(guò)渡擬合（Overfitting）。

另一部分是測(cè)試數(shù)據(jù)（Test Data），用于檢驗(yàn)?zāi)Ｐ偷臉?gòu)建。此數(shù)據(jù)只在模型檢驗(yàn)時(shí)使用，用于評(píng)估模型的準(zhǔn)確率。絕對(duì)不允許用于模型構(gòu)建過(guò)程，否則會(huì)導(dǎo)致過(guò)渡擬合。

（2）location-based(基于位置)

對(duì)于移動(dòng)設(shè)備而言，與PC端最大的區(qū)別之一是移動(dòng)設(shè)備的位置是經(jīng)常發(fā)生變化的。不同的地理位置反映了不同的用戶(hù)場(chǎng)景，在具體的業(yè)務(wù)中可以充分利用用戶(hù)所處的地理位置。在推薦的候選集觸發(fā)中，也會(huì)根據(jù)用戶(hù)的實(shí)時(shí)地理位置、工作地、居住地等地理位置觸發(fā)相應(yīng)的策略。比如根據(jù)用戶(hù)的歷史消費(fèi)、歷史瀏覽等，挖掘出某一粒度的區(qū)域（比如商圈）內(nèi)的區(qū)域消費(fèi)熱單和區(qū)域購(gòu)買(mǎi)熱單，當(dāng)新的線(xiàn)上用戶(hù)請(qǐng)求到達(dá)時(shí)，根據(jù)用戶(hù)的幾個(gè)地理位置對(duì)相應(yīng)地理位置的區(qū)域消費(fèi)熱單和區(qū)域購(gòu)買(mǎi)熱單進(jìn)行加權(quán)，最終得到一個(gè)推薦列表。

此外，還可以根據(jù)用戶(hù)出現(xiàn)的地理位置，同時(shí)采用協(xié)同過(guò)濾的方式計(jì)算用戶(hù)的相似度。

（3）query-based（基于查詢(xún)）

搜索是一種強(qiáng)用戶(hù)意圖，比較明確的反應(yīng)了用戶(hù)的意愿，但是在很多情況下，因?yàn)楦鞣N各樣的原因，沒(méi)有形成最終的轉(zhuǎn)換。盡管如此，這種情景還是代表了一定的用戶(hù)意愿，可以加以利用。具體做法如下：對(duì)用戶(hù)過(guò)去一段時(shí)間的搜索無(wú)轉(zhuǎn)換行為進(jìn)行挖掘，計(jì)算每一個(gè)用戶(hù)對(duì)不同查詢(xún)的權(quán)重。

（4）graph-based（基于圖例）

對(duì)于協(xié)同過(guò)濾而言，用戶(hù)（user）之間或者訂單（deal）之間的圖距離是兩跳，對(duì)于更遠(yuǎn)距離的關(guān)系則不能考慮在內(nèi)。而圖算法可以打破這一限制，將用戶(hù)與訂單的關(guān)系視作一個(gè)二部圖，相互間的關(guān)系可以在圖上傳播。Simrank[2]是一種衡量對(duì)等實(shí)體相似度的圖算法。它的基本思想是，如果兩個(gè)實(shí)體與另外的相似實(shí)體有相關(guān)關(guān)系，那它們也是相似的，即相似性是可以傳播的。

（5）實(shí)時(shí)用戶(hù)行為

目前互聯(lián)網(wǎng)上的業(yè)務(wù)會(huì)產(chǎn)生包括搜索、篩選、收藏、瀏覽、下單等豐富的用戶(hù)行為，是可以進(jìn)行效果優(yōu)化的重要基礎(chǔ)。當(dāng)然希望每一個(gè)用戶(hù)行為流都能到達(dá)轉(zhuǎn)化的環(huán)節(jié)，但是事實(shí)上遠(yuǎn)非這樣。當(dāng)用戶(hù)產(chǎn)生了下單行為上游的某些行為時(shí)，會(huì)有相當(dāng)一部分因?yàn)楦鞣N原因使行為流沒(méi)有形成轉(zhuǎn)化。但是，用戶(hù)的這些上游行為是非常重要的先驗(yàn)知識(shí)。很多情況下，用戶(hù)當(dāng)時(shí)沒(méi)有轉(zhuǎn)化并不代表用戶(hù)對(duì)當(dāng)前的項(xiàng)目不感興趣。當(dāng)用戶(hù)再次到達(dá)推薦展位時(shí)，根據(jù)用戶(hù)之前產(chǎn)生的先驗(yàn)行為理解用戶(hù)的真正意圖，將符合用戶(hù)意圖的相關(guān)訂單再次展現(xiàn)給用戶(hù)，引導(dǎo)用戶(hù)沿著行為流向下游行進(jìn)，最終達(dá)到下單這個(gè)終極目標(biāo)。實(shí)時(shí)用戶(hù)行為可包括：實(shí)時(shí)瀏覽、實(shí)時(shí)收藏。

（6）替補(bǔ)策略

雖然有一系列基于用戶(hù)歷史行為的候選集觸發(fā)算法，但對(duì)于部分新用戶(hù)或者歷史行為不太豐富的用戶(hù)，上述算法觸發(fā)的候選集太小，因此需要使用一些替補(bǔ)策略進(jìn)行填充。包括：

熱銷(xiāo)單：在一定時(shí)間內(nèi)銷(xiāo)量最多的權(quán)重，可以考慮時(shí)間衰減的影響等。

好評(píng)單：用戶(hù)產(chǎn)生的評(píng)價(jià)中，評(píng)分較高的權(quán)重。

城市單：滿(mǎn)足基本的限定條件，在用戶(hù)的請(qǐng)求城市內(nèi)的。

子策略融合：為了結(jié)合不同觸發(fā)算法的優(yōu)點(diǎn)，同時(shí)提高候選集的多樣性和覆蓋率，需要將不同的觸發(fā)算法融合在一起。可采用的融合方法有以下幾種：

加權(quán)型：最簡(jiǎn)單的融合方法就是根據(jù)經(jīng)驗(yàn)值對(duì)不同算法賦給不同的權(quán)重，對(duì)各個(gè)算法產(chǎn)生的候選集按照給定的權(quán)重進(jìn)行加權(quán)，然后再按照權(quán)重排序。

分級(jí)型：優(yōu)先采用效果好的算法，當(dāng)產(chǎn)生的候選集大小不足以滿(mǎn)足目標(biāo)值時(shí)，再使用效果次好的算法，依此類(lèi)推。

調(diào)制型：不同的算法按照不同的比例產(chǎn)生一定量的候選集，然后疊加產(chǎn)生最終總的候選集。

過(guò)濾型：當(dāng)前的算法對(duì)前一級(jí)算法產(chǎn)生的候選集進(jìn)行過(guò)濾，依此類(lèi)推，候選集被逐級(jí)過(guò)濾，最終產(chǎn)生一個(gè)小而精的候選集合。

篩選模塊300，用于融合推薦的侯選集，并過(guò)濾掉不符合推薦條件的商品。篩選模塊300包括融合單元和過(guò)濾單元，融合單元是對(duì)觸發(fā)模塊200產(chǎn)生的不同候選集進(jìn)行融合，以提高推薦策略的覆蓋度和精度；過(guò)濾單元承擔(dān)一定的過(guò)濾職責(zé)，從產(chǎn)品、運(yùn)營(yíng)的角度確定一些人工規(guī)則，過(guò)濾掉不符合條件的項(xiàng)目條款，比如，通過(guò)建立的關(guān)鍵詞體系將國(guó)家明文禁止的產(chǎn)品及詞語(yǔ)有效的過(guò)濾，對(duì)于沒(méi)有合作的商品及相同的商品進(jìn)行篩選或人工干預(yù)，不推薦給用戶(hù)。

排序模塊400，對(duì)擬向用戶(hù)推薦的商品進(jìn)行優(yōu)先級(jí)重新排序。由于觸發(fā)模塊根據(jù)不同算法觸發(fā)出來(lái)的候選集，只是根據(jù)算法的歷史效果決定算法產(chǎn)生的權(quán)重的位置顯得有些簡(jiǎn)單粗暴，同時(shí)，在每個(gè)算法的內(nèi)部，不同權(quán)重的順序也只是簡(jiǎn)單的由一個(gè)或者幾個(gè)因素決定，這些排序的方法只能用于第一步的初選過(guò)程，最終的排序結(jié)果需要借助機(jī)器學(xué)習(xí)的方法，使用相關(guān)的排序模型，綜合多方面的因素來(lái)確定。本發(fā)明中，推薦排序的問(wèn)題轉(zhuǎn)化為分類(lèi)的問(wèn)題實(shí)現(xiàn)，主要是利用機(jī)器學(xué)習(xí)的模型對(duì)篩選模塊300篩選出來(lái)的候選集進(jìn)行重排序。

現(xiàn)有的排序模塊使用的是相關(guān)度排序或重要性排序，相關(guān)度排序是根據(jù)查詢(xún)和文檔之間的相似度來(lái)對(duì)文檔進(jìn)行排序；重要性排序不考慮查詢(xún)，而僅僅根據(jù)網(wǎng)頁(yè)之間的圖結(jié)構(gòu)來(lái)判斷文檔的權(quán)威程度。由于現(xiàn)有的排序模塊往往只考慮某一個(gè)方面(相關(guān)度或者重要性)，所以其轉(zhuǎn)化率并不高。為了使轉(zhuǎn)化率再一次獲得提升，并發(fā)明從用戶(hù)的交互日志中，通過(guò)訓(xùn)練特征權(quán)重，再通過(guò)排序?qū)W習(xí)（Learning to Rank，L2R）算法改進(jìn)實(shí)現(xiàn)。具體的，本發(fā)明使用的L2R算法與文本分類(lèi)不同，考慮的是給定查詢(xún)的文檔集合的排序，因此，L2R算法用到的特征不僅僅包含文檔本身的一些特征等，也包括文檔和給定查詢(xún)之間的相關(guān)度，以及文檔在整個(gè)網(wǎng)絡(luò)上的重要性(比如PageRank值等)，因此，本發(fā)明使用相關(guān)性排序和重要性排序的輸出來(lái)作為L(zhǎng)2R算法的特征權(quán)重。

L2R算法的訓(xùn)練數(shù)據(jù)可通過(guò)兩種方法獲得：人工標(biāo)注和從日志文件中挖掘。

人工標(biāo)注：首先從搜索引擎的搜索記錄中隨機(jī)抽取一些查詢(xún)，將這些查詢(xún)提交給多個(gè)不同的搜索引擎，然后選取各個(gè)搜索引擎返回結(jié)果的前幾個(gè)，最后由專(zhuān)業(yè)人員來(lái)對(duì)這些文檔按照和查詢(xún)的相關(guān)度進(jìn)行標(biāo)注。

從日志中挖掘：搜索引擎都有大量的日志記錄用戶(hù)的行為，可以從中提取出L2R的訓(xùn)練數(shù)據(jù)。給定一個(gè)查詢(xún)，搜索引擎返回的結(jié)果列表為L(zhǎng)，用戶(hù)點(diǎn)擊的文檔的集合為C，如果一個(gè)文檔“di”被點(diǎn)擊過(guò)，另外一個(gè)文檔“dj”沒(méi)有被點(diǎn)擊過(guò)，并且“dj”在結(jié)果列表中排在di之前，則di>dj就是一條訓(xùn)練記錄。

本發(fā)明具體的L2R算法使用PointWise、PairWise和ListWise三類(lèi)，其中：

1). PointWise L2R

PointWise方法只考慮給定查詢(xún)下，單個(gè)文檔的絕對(duì)相關(guān)度，而不考慮其他文檔和給定查詢(xún)的相關(guān)度。亦即給定查詢(xún)q的一個(gè)真實(shí)文檔序列，只需要考慮單個(gè)文檔di和該查詢(xún)的相關(guān)程度ci，

2). Pairwise L2R

Pairwise方法考慮給定查詢(xún)下，兩個(gè)文檔之間的相對(duì)相關(guān)度。亦即給定查詢(xún)q的一個(gè)真實(shí)文檔序列，只需要考慮任意兩個(gè)相關(guān)度不同的文檔之間的相對(duì)相關(guān)度：di>dj，或者di<dj。

3). Listwise L2R

與Pointwise和Pairwise方法不同，Listwise方法直接考慮給定查詢(xún)下的文檔集合的整體序列，直接優(yōu)化模型輸出的文檔序列，使得其盡可能接近真實(shí)文檔序列。

推薦模塊500，對(duì)排序后的商品向用戶(hù)進(jìn)行推薦。

舉例來(lái)說(shuō)，對(duì)于數(shù)據(jù)模塊中用戶(hù)主動(dòng)行為的數(shù)據(jù)，記錄了用戶(hù)在網(wǎng)站平臺(tái)上不同的環(huán)節(jié)的各種行為，比如在網(wǎng)站上進(jìn)行的搜索，咨詢(xún)和瀏覽的記錄，針對(duì)這些內(nèi)容結(jié)合周邊的產(chǎn)品進(jìn)行數(shù)據(jù)的分析，這些行為一方面可用于觸發(fā)模塊算法中的離線(xiàn)計(jì)算，另外一方面，這些行為代表的意圖的強(qiáng)弱不同，因此在排序模塊中可以針對(duì)不同的行為設(shè)定不同的回歸目標(biāo)值，以更細(xì)地刻畫(huà)用戶(hù)的行為強(qiáng)弱程度。此外，用戶(hù)對(duì)交易的這些行為還可以作為排序模塊的交叉特征，用于離線(xiàn)訓(xùn)練和在線(xiàn)預(yù)測(cè)。

數(shù)據(jù)模塊中的負(fù)反饋數(shù)據(jù)，反映了當(dāng)前的結(jié)果可能在某些方面不能滿(mǎn)足用戶(hù)的需求，因此在后續(xù)的候選集觸發(fā)過(guò)程中需要考慮對(duì)特定的因素進(jìn)行過(guò)濾或者降權(quán)，降低負(fù)面因素再次出現(xiàn)的幾率，提高用戶(hù)體驗(yàn)；同時(shí)在排序模塊的模型訓(xùn)練中，負(fù)反饋數(shù)據(jù)可以作為不可多得的負(fù)例參與模型訓(xùn)練，這些負(fù)例要比那些展示后未點(diǎn)擊、未下單的樣本顯著的多。

用戶(hù)畫(huà)像是刻畫(huà)用戶(hù)屬性的基礎(chǔ)數(shù)據(jù)，其中有些是直接獲取的原始數(shù)據(jù)，有些是經(jīng)過(guò)挖掘的二次加工數(shù)據(jù)，這些屬性一方面可以用于候選集觸發(fā)過(guò)程中對(duì)訂單進(jìn)行加權(quán)或降權(quán)，另外一方面可以作為排序模塊中的用戶(hù)維度特征。

本發(fā)明的上述方案具有如下優(yōu)點(diǎn)：

1、本發(fā)明可以向用戶(hù)推薦與其瀏覽過(guò)或購(gòu)買(mǎi)過(guò)的商品相關(guān)的商品，大大增強(qiáng)了推薦商品的多樣性，并且，不會(huì)對(duì)客戶(hù)已經(jīng)購(gòu)買(mǎi)過(guò)的商品進(jìn)行重復(fù)推薦，優(yōu)化了推薦功能。

2、本發(fā)明促進(jìn)了推薦向銷(xiāo)售的轉(zhuǎn)化，提高了銷(xiāo)售的轉(zhuǎn)化率及用戶(hù)的使用率，可為網(wǎng)絡(luò)銷(xiāo)售提供更加準(zhǔn)確的營(yíng)銷(xiāo)平臺(tái)，提高網(wǎng)站運(yùn)營(yíng)方的收入。

圖2示出了與圖1推薦系統(tǒng)相對(duì)應(yīng)的推薦方法，由于其原理與圖1對(duì)應(yīng)的系統(tǒng)一致，因此不再過(guò)多的贅述。一種信息推薦方法，包括：

收集并存儲(chǔ)用戶(hù)的屬性數(shù)據(jù)，對(duì)訂單的關(guān)鍵詞提取和分析。具體的，可利用各種數(shù)據(jù)處理工具，對(duì)原始日志進(jìn)行清洗，剔除噪聲數(shù)據(jù)，處理成格式化的數(shù)據(jù)；對(duì)格式化數(shù)據(jù)進(jìn)行不同類(lèi)型的存儲(chǔ)。

利用觸發(fā)策略產(chǎn)生推薦的候選集?？梢詮幕谟脩?hù)的歷史行為、基于用戶(hù)的偏好、基于用戶(hù)所處的地域以及在線(xiàn)相關(guān)，在線(xiàn)相似，離線(xiàn)相關(guān)，離線(xiàn)相似，近期熱銷(xiāo)品牌品類(lèi)等獲取侯選集?？筛鶕?jù)用戶(hù)之前的購(gòu)買(mǎi)行為或?yàn)g覽行為推薦相關(guān)或相似的商品。更進(jìn)一步的，可以把用戶(hù)之前的購(gòu)買(mǎi)行為視為一個(gè)重要的分界線(xiàn)，當(dāng)用戶(hù)已購(gòu)買(mǎi)某個(gè)商品，根據(jù)商品種類(lèi)和用途選擇推薦與其相關(guān)或相似的商品，而不是地重復(fù)推薦。可對(duì)用戶(hù)進(jìn)行畫(huà)像，確定用戶(hù)的屬性，從而確定可以長(zhǎng)期推薦的品類(lèi)。可整個(gè)地圖劃分成多個(gè)網(wǎng)格，運(yùn)用數(shù)據(jù)統(tǒng)計(jì)的結(jié)果實(shí)現(xiàn)對(duì)處于某一地域的用戶(hù)進(jìn)行推薦。

對(duì)侯選集進(jìn)行融合，以及過(guò)濾掉不符合推薦條件的商品。對(duì)不同候選集進(jìn)行融合，以提高推薦策略的覆蓋度和精度；從產(chǎn)品、運(yùn)營(yíng)的角度確定一些人工規(guī)則，過(guò)濾掉不符合條件的項(xiàng)目條款。

對(duì)擬向用戶(hù)推薦的商品進(jìn)行優(yōu)先級(jí)重新排序。利用機(jī)器學(xué)習(xí)的模型對(duì)篩選出來(lái)的候選集進(jìn)行重排序。

對(duì)排序后的商品向用戶(hù)進(jìn)行推薦。

需要說(shuō)明的是：

在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述，構(gòu)造這類(lèi)系統(tǒng)所要求的結(jié)構(gòu)是顯而易見(jiàn)的。此外，本發(fā)明也不針對(duì)任何特定的編程語(yǔ)言。應(yīng)當(dāng)明白，可以利用各種編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明內(nèi)容。

本領(lǐng)域那些技術(shù)人員可以理解，可以對(duì)實(shí)施例中各模塊進(jìn)行自適應(yīng)性的改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。除非另有明確陳述，本說(shuō)明書(shū)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。

本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn)，或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn)，或者以它們的組合實(shí)現(xiàn)。

以上所述僅為本發(fā)明之較佳實(shí)施例，并非用以限定本發(fā)明的權(quán)利要求保護(hù)范圍。同時(shí)以上說(shuō)明，對(duì)于相關(guān)技術(shù)領(lǐng)域的技術(shù)人員應(yīng)可以理解及實(shí)施，因此其他基于本發(fā)明所揭示內(nèi)容所完成的等同改變，均應(yīng)包含在本權(quán)利要求書(shū)的涵蓋范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉彧;
技術(shù)所有人：北京航天在線(xiàn)網(wǎng)絡(luò)科技有限公司;
我是此專(zhuān)利的發(fā)明人

上一篇：一種電力設(shè)備室的防鼠安全擋板的制作方法與工藝
上一篇：一種農(nóng)副產(chǎn)品殺菌裝置的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

短信管理平臺(tái)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種信息推薦系統(tǒng)及信息推薦方法與流程