信息推薦方法及裝置制造方法
【專利摘要】本申請公開了信息推薦方法及裝置,所述方法包括:根據(jù)系統(tǒng)中記錄的各個第一用戶的操作行為信息,獲得由符合第一預置條件的至少一個特定第一用戶組成的特定第一用戶集合;在所述特定第一用戶集合中,查找與當前用戶的相似度符合第二預置條件的目標特定第一用戶;根據(jù)所述目標特定第一用戶的操作行為信息記錄,向當前用戶提供推薦信息。通過本申請,可以使得推薦結果的有效性得到提高。
【專利說明】信息推薦方法及裝置
【技術領域】
[0001] 本申請涉及交易平臺中的信息推薦【技術領域】,特別是涉及信息推薦方法及裝置。
【背景技術】
[0002] 目前,在很多領域都存在為用戶提供推薦信息的需求。例如,在第三方電子商務交 易平臺中(簡稱"交易平臺"),為了進一步為買賣雙方用戶提供更為優(yōu)質(zhì)的服務,交易平臺 在實現(xiàn)基本功能的基礎上也在不斷地完善其自身的功能。例如,考慮到交易平臺中的賣方 用戶數(shù)量眾多,發(fā)布的商品信息數(shù)量更是巨大,此時,如何能夠幫助買方用戶更加方便快捷 的找到自己所需的商品信息,是交易平臺在提升自身功能方面需要考慮的問題。在現(xiàn)有技 術中,一般可以通過為買方用戶推薦與其正在瀏覽商品相似的其他商品信息(也即,用戶 在瀏覽某商品時,如果對當前商品不滿意,則可能會需要瀏覽其它與其類似的商品),或者 推薦與其正在購買的商品相關的其他商品信息(也即,如果用戶購買了某商品,如手機,則 可能還需要購買需要與該商品配套使用的其他商品,如充電器等手機配件)。通過這種推 薦,可以縮短用戶的查找路徑,如果推薦的結果足夠準確,則用戶可以直接點擊鏈接進行購 買等操作,提高買賣雙方用戶的效率。
[0003] 但是,這種基于商品之間的關聯(lián)性(包括相似性或者相關度等)來進行推薦的方 式,無法體現(xiàn)出用戶之間在需求或者喜好上的個性化差異。也即,所有用戶在瀏覽某商品A 時,交易平臺給出的推薦結果可能都是商品B,這也就導致了推薦結果真正能夠符合用戶需 求的概率并不高,多數(shù)的推薦結果可能都會被買方用戶忽略。另外,被推薦的商品信息的質(zhì) 量也無法保證,即使當前買方用戶確實對推薦的結果感興趣,但如果最終購買到的商品有 質(zhì)量差等問題,可能還會進入退換貨等流程,相當于交易平臺所做的推薦其實是無效的,這 不但浪費了網(wǎng)絡資源,同時也會降低買方用戶對交易平臺的信任度,影響用戶體驗。
[0004] 可見,迫切需要本領域技術人員解決的技術問題就在于:如何在進行信息推薦時, 進一步提高推薦結果的有效性,以節(jié)約利用網(wǎng)絡資源,提高用戶體驗。
【發(fā)明內(nèi)容】
[0005] 本申請?zhí)峁┝诵畔⑼扑]方法及裝置,可以使得推薦結果的有效性得到提高,節(jié)約 網(wǎng)絡資源,提高用戶體驗。
[0006] 本申請?zhí)峁┝巳缦路桨福?br>
[0007] -種信息推薦方法,包括:
[0008] 根據(jù)系統(tǒng)中記錄的各個第一用戶的操作行為信息,獲得由符合第一預置條件的至 少一個特定第一用戶組成的特定第一用戶集合;
[0009] 在所述特定第一用戶集合中,查找與當前用戶的相似度符合第二預置條件的目標 特定第一用戶;
[0010] 根據(jù)所述目標特定第一用戶的操作行為信息記錄,向當前用戶提供推薦信息。
[0011] 一種信息推薦裝置,包括:
[0012] 用戶集合建立單元,用于根據(jù)系統(tǒng)中記錄的各個第一用戶的操作行為信息,獲得 由符合第一預置條件的至少一個特定第一用戶組成的特定第一用戶集合;
[0013] 相似優(yōu)質(zhì)買方對象查找單元,用于在所述特定第一用戶集合中,查找與當前用戶 的相似度符合第二預置條件的目標特定第一用戶;
[0014] 信息推薦單元,用于根據(jù)所述目標特定第一用戶的操作行為信息記錄,向當前用 戶提供推薦信息。
[0015] 根據(jù)本申請?zhí)峁┑木唧w實施例,本申請公開了以下技術效果:
[0016] 通過本申請實施例,能夠從由特定第一用戶組成的集合中,選擇與當前用戶相似 度符合預置條件的目標用戶,進而可以根據(jù)目標用戶的歷史操作行為信息記錄,向當前用 戶進行信息的推薦。由于特定第一用戶是從所有第一用戶中篩選出的一部分,因此,在進行 相似性比對時,計算量被大大降低;并且,這種特定第一用戶可以是第一用戶中的"精華", 例如,他們善于發(fā)現(xiàn)優(yōu)質(zhì)賣方的優(yōu)質(zhì)店鋪,他們購買過的店鋪一般都能提供優(yōu)質(zhì)的服務,等 等,因此,基于這些特定第一用戶購買過的店鋪得到的推薦信息的質(zhì)量也能得到一定的保 障,進而可以使得推薦結果的有效性得到提高。
[0017] 當然,實施本申請的任一產(chǎn)品并不一定需要同時達到以上所述的所有優(yōu)點。
【專利附圖】
【附圖說明】
[0018] 為了更清楚地說明本申請實施例或現(xiàn)有技術中的技術方案,下面將對實施例中所 需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施 例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲 得其他的附圖。
[0019] 圖1是本申請實施例提供的方法的流程圖;
[0020] 圖2是本申請實施例提供的裝置的示意圖。
【具體實施方式】
[0021] 下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基于 本申請中的實施例,本領域普通技術人員所獲得的所有其他實施例,都屬于本申請保護的 范圍。
[0022] 首先需要說明的是,在本申請實施例中,交易平臺系統(tǒng)中的買方用戶稱為"第一用 戶",賣方用戶稱為"第二用戶"。可以理解的是,"第一用戶"與"第二用戶"之間的關系也限 于買賣關系,也可以是其他系統(tǒng)中的某種操作行為的發(fā)起方與接受方之間的關系。
[0023] 為了能夠提高推薦信息的有效性,可以針對不同的被推薦用戶進行個性化推薦。 為此,就可以基于當前用戶與系統(tǒng)中各個第一用戶之間的相似度來進行推薦。也即,針對當 前用戶A,從系統(tǒng)的其他第一用戶中找到與該用戶在購物喜好等方面最相似的N個第一用 戶,然后將這N個第一用戶在系統(tǒng)中的歷史操作行為記錄,向用戶A提供推薦信息。例如, 第一用戶如果是指買方用戶,則可以根據(jù)與當前買方用戶最相似的其他買方用戶的歷史購 買記錄,來為當前買方用戶推薦其可能感興趣的商品信息或者店鋪信息等等。也就是說,如 果兩個用戶在操作行為等方式具有相似性,則其中一個用戶的操作對象,另一個用戶也很 可能會喜歡,這種推薦方式利用了該原理,因此,能夠提高推薦結果的有效性。
[0024] 當然,在上述基于用戶之間的相似性進行信息推薦的方式中,需要從系統(tǒng)的所有 第一用戶中查找與當前用戶最相似的N個第一用戶,而系統(tǒng)中第一用戶的數(shù)量可能非常 多,因此,計算量會非常巨大,嚴重耗費系統(tǒng)資源;另一方面,最終推薦給當前用戶的信息的 質(zhì)量是不可知的。這樣,即使當前用戶確實對推薦的結果感興趣,但如果最終購買到的商品 有質(zhì)量差等問題,可能還會進入退貨流程等等,這也相當于系統(tǒng)所做的推薦其實是無效的, 同時也會降低戶對系統(tǒng)推薦的信任度。
[0025] 為此,在本申請實施例中,采用了如下方案:在基于用戶之間的相似度進行信息 推薦時,僅從一些特定的第一用戶集合中查找與當前用戶在操作行為等方面相似的第一用 戶,其中,特定的第一用戶集合相當于是系統(tǒng)中所有第一用戶組成的集合的子集,對于第一 用戶而言,雖然在系統(tǒng)中都是作為操作行為的發(fā)起方,但是,不同的第一用戶的"質(zhì)量"會有 所不同,這種"質(zhì)量"可以通過對歷史操作行為信息的記錄進行統(tǒng)計而得出。例如,如果對 于電子商務交易平臺中的買方用戶而言,這種"質(zhì)量"可能體現(xiàn)在買方用戶的好評率、退換 貨次數(shù)與購買次數(shù)之間的比例,等等。這樣最終在根據(jù)與當前用戶最相似的第一用戶的歷 史操作行為進行信息推薦時,就相當于是根據(jù)一些特定的第一用戶的操作行為信息進行推 薦。這樣,一方面,由于特定的第一用戶僅僅是所有第一用戶中的一部分,因此,在計算相似 度時,大大減小了計算量;另一方面,特定的第一用戶往往可以是質(zhì)量較高的第一用戶,因 此,推薦的信息質(zhì)量也因此得到一定的保障,最終推薦的有效性也大大提高。
[0026] 其中,在從所有的第一用戶中提取特定的第一用戶集合時,可以首先計算各個第 一用戶的質(zhì)量(例如,可以由某種得分來表示),將得分較高的部分第一用戶作為特定的第 一用戶。在本申請實施例中,在計算各個第一用戶的質(zhì)量得分時,不僅可以考慮各個第一用 戶自身的屬性信息,還可以考慮第一用戶關聯(lián)的第二用戶的"質(zhì)量"(所謂的"關聯(lián)",是指 兩個用戶之間產(chǎn)生過操作行為,例如,某買方用戶購買過某賣方用戶的某商品,則這兩個用 戶之間相互關聯(lián))。也就是說,在系統(tǒng)中,第一用戶產(chǎn)生的操作行為,其操作對象一般是第二 用戶提供的某些業(yè)務對象(例如商品、服務等等),而第二用戶同樣數(shù)量眾多,并且其中存 在一些質(zhì)量較高的第二用戶,另外一些可能質(zhì)量較差,如果某第一用戶關聯(lián)的第二用戶總 是具有較高的質(zhì)量,則該第一用戶的歷史操作行為中對應的業(yè)務對象一般也會具有較高的 質(zhì)量,利用這樣的信息向當前用戶的質(zhì)量進行推薦時,推薦的有效性也會大大提高,因此, 相應的,這樣的第一用戶的質(zhì)量也會比較高。而對于第二用戶而言,其質(zhì)量的高低可以根據(jù) 系統(tǒng)中記錄的一些屬性信息進行統(tǒng)計計算得到,例如,在電子商品交易平臺中,其中一些賣 方用戶從商品質(zhì)量、發(fā)貨速度等等多方面來評判都能夠提供優(yōu)質(zhì)的商品和/或服務,這樣 的賣方用戶質(zhì)量就會比較高,還有一些賣方用戶則相反,其提供的商品和/或服務的質(zhì)量 可能比較差,這種賣方用戶的質(zhì)量就比較低。
[0027] 也就是說,在評判第一用戶的質(zhì)量時,其關聯(lián)到的第二用戶的質(zhì)量也可以作為其 中的一種評判標準。例如,如果一個買方用戶能夠從大量的賣方用戶中區(qū)分出哪些是質(zhì)量 較高的賣方用戶哪些是質(zhì)量較低的賣方用戶,則證明該買方用戶具有發(fā)現(xiàn)優(yōu)質(zhì)的賣方用戶 的能力,其購買過的商品對象屬于優(yōu)質(zhì)商品、其關聯(lián)賣方用戶的店鋪屬于優(yōu)質(zhì)店鋪的概率 也就比較大,因此,可以在對該買方用戶的質(zhì)量評價時也會有加分。
[0028] 可見,要想從第一用戶中提取出特定的第一用戶,可以首先統(tǒng)計出各個第二用戶 的質(zhì)量得分。但同時,第二用戶的質(zhì)量其實與其關聯(lián)的第一用戶的質(zhì)量也是有關的。例如, 如果一個賣方用戶的店鋪經(jīng)常吸引優(yōu)質(zhì)的買方用戶,則證明該賣方用戶能夠提供優(yōu)質(zhì)商品 或服務的概率也比較大,在評判其優(yōu)質(zhì)的程度時,應該也有相應的加分。因此,在實際應用 中,第一用戶與第二用戶的優(yōu)質(zhì)程度之間可以是相互影響,互相促進的。
[0029] 為了便于描述,在本申請實施例中,將符合前述條件的優(yōu)質(zhì)的第一用戶稱為"特定 第一用戶",優(yōu)質(zhì)的第二用戶稱為"特定第二用戶"。
[0030] 總之,在本申請實施例中,為了更有效的進行信息推薦,首先需要建立特定第一用 戶集合,也就是說,首先需要從第一用戶中挑選出一些特殊的第一用戶,例如,在電子商務 交易平臺中,這些特定第一用戶就可以是指:很熟悉互聯(lián)網(wǎng)購物流程,與電子商務交易平臺 之間有深度關系,并且善于發(fā)現(xiàn)優(yōu)質(zhì)賣方用戶或者店鋪的買方用戶。也就是說,所謂的特定 第一用戶是第一用戶中的精華,他們深入了解系統(tǒng)中某一領域的信息,并善于采集、挑選并 最終達成交易等操作。因此,這種特定第一用戶的操作行為對應的操作對象(例如某賣方 用戶提供的某商品等)一般也較為優(yōu)質(zhì),同時,又由于在操作行為上與當前用戶具有相似 性,因此,基于與特定第一用戶之間的相似度向當前用戶進行信息推薦時,符合當前用戶需 求的概率會得到很大的提高,并且被推薦的信息也比較優(yōu)質(zhì),使得推薦結果的有效性得到 保證。
[0031] 在實際應用中,可以采用數(shù)據(jù)挖掘的方式來發(fā)現(xiàn)特定第一用戶。例如,在電子商務 交易平臺中,系統(tǒng)會在數(shù)據(jù)庫中保存有各個買方用戶以及賣方用戶的相關數(shù)據(jù)。這些數(shù)據(jù) 包括各個買方用戶的歷史購買行為信息,包括各個買方用戶過去達成的各項交易中,關聯(lián) 的賣方用戶的信息、商品信息等等;另外,系統(tǒng)中還會保存各個賣方用戶的數(shù)據(jù)統(tǒng)計信息, 這種數(shù)據(jù)統(tǒng)計信息通??梢酝ㄟ^多個變量(包括好評率、熟客交易占比、拍發(fā)時間差等等) 上的取值來體現(xiàn)賣方用戶的情況。因此,可以通過對這些數(shù)據(jù)進行有效的分析挖掘,從中發(fā) 現(xiàn)優(yōu)質(zhì)買方對象,也即特定第一用戶。這樣可以避免人工指定時的主觀性及局限性,可以客 觀、全面地發(fā)現(xiàn)特定第一用戶。
[0032] 具體在采用數(shù)據(jù)挖掘的方式來發(fā)現(xiàn)特定第一用戶時,可以采用建模的方式來建立 其評價第一用戶得分的算法,然后利用具體的模型來計算各個第一用戶的得分,進而判斷 其是否為特定第一用戶。也就是說,可以根據(jù)系統(tǒng)中記錄的各個第一用戶的操作行為信息, 計算各個第一用戶的得分,將得分大于某閾值的第一用戶確定為符合預置條件的特定第一 用戶。具體實現(xiàn)時,在建立特定第一用戶的計算模型時,可以僅考慮第一用戶的一些操作行 為信息,例如,對于買方用戶這種第一用戶,可以包括其購買次數(shù)、退貨次數(shù)、賣方對象對買 方對象的好評率,等等。但是,如前文所述,特定第一用戶與特定第二用戶之間一般是相互 影響的,因此,在建立特定第一用戶的計算模型時,還可以考慮第一用戶關聯(lián)的第二用戶的 優(yōu)質(zhì)情況,也就是說,在獲取第一用戶的操作行為信息時,可以包括以下信息:在每次操作 行為中,第一用戶關聯(lián)的第二用戶是否為特定第二用戶。例如,如果很多優(yōu)質(zhì)買方用戶到一 個賣方用戶的店鋪購買,則這個賣方用戶的質(zhì)量一般不會差;如果一個買方用戶購買行為 對應的店鋪很多都是優(yōu)質(zhì)賣方用戶的店鋪,則該買方用戶的"品位"也比較好,比較善于發(fā) 現(xiàn)優(yōu)質(zhì)賣方用戶的店鋪,這是一個循環(huán)的過程。因此,為了使得建立的計算模型更能符合實 際的情況,可以在模型中體現(xiàn)出這種關聯(lián)性,也即,在評判第一用戶是否優(yōu)質(zhì)時,是與其關 聯(lián)的第二用戶是否優(yōu)質(zhì)相關的,同時,一個第二用戶是否優(yōu)質(zhì)又是可能會隨著與其關聯(lián)的 第一用戶而發(fā)生變化。
[0033] 為此,在本申請實施例中,可以采用如下方式來實現(xiàn):由于系統(tǒng)中對于作為操作行 為接受方的第二用戶記錄的信息一般相對全面,相當于系統(tǒng)對第二用戶更為"了解",因此, 可以首先計算出第二用戶的質(zhì)量得分基礎值,并據(jù)此先確定出一些特定第二用戶,然后再 根據(jù)第一用戶關聯(lián)的第二用戶是否為特定第二用戶,統(tǒng)計出第一用戶關聯(lián)的特定第二用戶 所占的比例等信息,然后對第一用戶是否為特定第一用戶做出判斷。也就是說,最初建立特 定第二用戶集合時,可以先不考慮其關聯(lián)的第一用戶的情況,而是僅根據(jù)在各個變量上的 取值來進行選擇,這相當于可以得到第一批特定第二用戶,接下來,就可以結合第二用戶的 操作行為信息以及該特定第二用戶的情況,來確定第一用戶是否為特定第一用戶,這樣,根 據(jù)第一批特定第二用戶可以得到第一批特定第一用戶。之后,就可以根據(jù)新獲取到的操作 行為信息,對第一用戶是否為特定第一用戶、第二用戶是否為特定第二用戶進行重新評估, 進而實現(xiàn)對特定第一用戶集合及特定第二用戶集合的更新。當然,在更新的過程中,無論 對于第一用戶還是第二用戶,都會考慮其關聯(lián)的第二用戶/第一用戶是否為特定第二用戶 /特定第一用戶這些信息,也即,體現(xiàn)出特定第一用戶與特定第二用戶之間的相互促進。其 中,系統(tǒng)中一般都記錄有各個第二用戶的統(tǒng)計數(shù)據(jù),所述統(tǒng)計數(shù)據(jù)包括第二用戶在預置的 多個變量上的取值;這樣,具體在獲取特定第一用戶集合及特定第二用戶集合時,可以按照 以下方式進行:
[0034] 首先,根據(jù)第二用戶在各個變量上的取值確定各個第二用戶的得分,將得分大于 預置閾值的第二用戶確定為第一批特定第二用戶;然后,根據(jù)第一用戶的操作行為信息以 及已經(jīng)獲取到的第一批特定第二用戶集合,確定在第一用戶的每次操作行為中,第一用戶 關聯(lián)的第二用戶是否為特定第二用戶,進一步計算出各個第一用戶的得分,這樣,就可以將 得分大于預置閾值的第一用戶確定為第一批特定第一用戶。
[0035] 然后通過以下各步驟對特定第一用戶集合及特定第二用戶集合進行循環(huán)更新:根 據(jù)第一用戶在指定時間段內(nèi)產(chǎn)生的新的操作行為信息,以及每次操作行為中關聯(lián)的第二用 戶是否為特定第二用戶,重新確定各個第一用戶是否為特定第一用戶,并根據(jù)重新確定的 結果更新所述特定第一用戶集合;根據(jù)第二用戶在指定時間段內(nèi)產(chǎn)生的新的操作信息,以 及新的操作信息中關聯(lián)的第一用戶是否為特定第一用戶,重新確定各個第二用戶是否為特 定第二用戶,并根據(jù)重新確定的結果更新所述特定第二用戶集合。
[0036] 也就是說,在更新過程中,上一步中各個第一用戶、第二用戶的得分相當于作為一 種基礎值,之后就可以在上一步得分的基礎上,對第一用戶及第二用戶的得分進行更新。
[0037] 下面就以電子商務平臺中的買方用戶(對應第一用戶)、賣方用戶(對應第二用 戶)以及平臺中為各種用戶記錄的統(tǒng)計信息為例,對上述過程進行詳細的介紹。
[0038] 首先,由于交易平臺系統(tǒng)中記錄的賣方用戶的信息更為全面,相當于系統(tǒng)對賣方 用戶的"了解"更多,因此,可以首先從賣方用戶的相關統(tǒng)計數(shù)據(jù)開始進行挖掘,之后再在此 基礎上發(fā)現(xiàn)特定買方用戶。其中,在根據(jù)賣方用戶的相關統(tǒng)計數(shù)據(jù)進行挖掘時,也就是要首 先根據(jù)這些統(tǒng)計數(shù)據(jù)對賣方用戶進行打分(可以將其得分稱為"優(yōu)質(zhì)指數(shù)"),從中發(fā)現(xiàn)可 能優(yōu)質(zhì)的賣方用戶,當然,由于此過程中還沒有考慮優(yōu)質(zhì)買方用戶對賣方用戶是否優(yōu)質(zhì)的 影響,因此,這種打分得到的優(yōu)質(zhì)指數(shù)可以稱為"單邊優(yōu)質(zhì)指數(shù)"(后續(xù)當該優(yōu)質(zhì)指數(shù)根據(jù)優(yōu) 質(zhì)買方用戶信息進行更新之后,就成為"雙邊優(yōu)質(zhì)指數(shù)")。在得到各個賣方用戶的單邊優(yōu) 質(zhì)指數(shù)之后,就可以將其作為賣方用戶優(yōu)質(zhì)指數(shù)的基礎值,將基礎值滿足一定條件的賣方 用戶作為優(yōu)質(zhì)賣方用戶(也即對應特定第二用戶)。這樣,相當于已經(jīng)了得到了一些關于賣 方用戶是否優(yōu)質(zhì)的基礎信息,之后就可以以這些信息為基礎開始對買方用戶是否優(yōu)質(zhì)進行 評判。
[0039] 下面首先介紹如何從系統(tǒng)的統(tǒng)計數(shù)據(jù)中得到賣方用戶的單邊優(yōu)質(zhì)指數(shù)。
[0040] 在本申請實施例中,賣方用戶的單邊優(yōu)質(zhì)指數(shù)用于表示一個賣方用戶是否是優(yōu)質(zhì) 的賣方用戶,因此,在計算賣方用戶的優(yōu)質(zhì)指數(shù)時,可以基于某個或者某幾個變量上的取值 來進行表示。例如,基于好評率、之前購買過的買方對象再次購買的比例,等等。而一個賣方 用戶是否優(yōu)質(zhì)時,如果使用的評判標準不同,則可能會得到不同的結果。例如,從"好評率" 角度來進行評判,賣方用戶A對應的取值比較高,則該賣方用戶A是優(yōu)質(zhì)的,但如果從"熟 客交易占比"角度來評判,賣方用戶A對應的取值比較低,則該賣方用戶A就不能看作是優(yōu) 質(zhì)的。但是,總會存在一些賣方用戶對象,從多個變量對應的不同角度來評判,可能都是優(yōu) 質(zhì)的,因此,就可以將這些賣方用戶看作是優(yōu)質(zhì)的;另外也會存在一些賣方用戶從多個變量 對應的不同角度來評判都不是優(yōu)質(zhì)的,則就可以將這些賣方用戶對象看作是非優(yōu)質(zhì)的。當 然,系統(tǒng)中為賣方用戶記錄的變量數(shù)目非常多,一般可能會有一百多個,如果要求賣方用戶 在所有這些變量上的取值都比較高,是不太現(xiàn)實的,并且即使有可能也是極少數(shù),會造成數(shù) 據(jù)稀疏的結果,無法用于后續(xù)對買方用戶是否優(yōu)質(zhì)的評判。
[0041] 因此,在實際應用中,為了盡可能全面地評價第二用戶的優(yōu)質(zhì)指數(shù),可以首先挑選 出一些特定變量,這些特定變量就是那些能夠在不同特定類別的第二用戶之間體現(xiàn)出一定 的區(qū)分度的變量。例如,假設就是要簡單的將第二用戶劃分為優(yōu)質(zhì)第二用戶及非優(yōu)質(zhì)第二 用戶這兩類,則就可以分別基于各個變量對第二用戶進行聚類,看哪些變量能夠將第二用 戶明確地劃分為優(yōu)質(zhì)與非優(yōu)質(zhì)這兩類,并且界限明顯,則這些變量就可以作為特定變量被 提取出來。進而,可以利用這些特定變量對第二用戶進行打分,得分最高的N個第二用戶就 可以作為特定第二用戶的極端樣本,也就是說,這些第二用戶具有非常明顯的優(yōu)質(zhì)特征,因 此,作為極端樣本被標注出來。當然,同樣的道理,還可以標注出非優(yōu)質(zhì)類別下的極端樣本。 也即,可以分別基于各個變量對第二用戶進行多次聚類,將能夠將第二用戶聚類為預置類 別并且能夠在各個類別之間體現(xiàn)出預置的區(qū)分度的變量確定為特定變量。
[0042] 需要說明的是,在第二用戶對應交易平臺中的賣方用戶的情況下,在基于各個變 量對賣方用戶進行聚類的過程中,一些賣方用戶可能是由于其店鋪的規(guī)模比較大,使得其 在一些變量上獲得高的取值的機會可能相對較高;而另一些賣方用戶,雖然在一些變量上 的取值并沒有那么高,但一方面的原因可能是其店鋪規(guī)模比較小,相應的,其商品被買方用 戶發(fā)現(xiàn)的概率可能要相對較小,但并不代表這些賣方用戶不能提供優(yōu)質(zhì)的商品或服務,相 反的,這種小規(guī)模的賣方用戶經(jīng)常是那些能夠提供一些極具特點或者個性化商品或服務的 賣方用戶。因此,如果簡單的利用能夠將賣方用戶聚類為優(yōu)質(zhì)與非優(yōu)質(zhì)這兩類的變量對賣 方用戶進行打分,則可能會使得一些規(guī)模小但實際很優(yōu)質(zhì)的賣方用戶無法得到較高的分 數(shù),錯誤地將其作為非優(yōu)質(zhì)賣方對象來看待,最終也使得這種賣方用戶的店鋪或者商品無 法被推薦給買方對象。
[0043] 因此,為了使得賣方用戶的單邊優(yōu)質(zhì)指數(shù)更真實地反映實際情況,在挑選特定變 量時,可以考慮到店鋪規(guī)模的因素。其中,在各個變量中,店鋪的GMV(GrossMerchandise Volume,網(wǎng)站成交金額)一般能夠反映一個店鋪的規(guī)模,因此,可以將該變量單獨提取出 來,在每次聚類時,都進行二維的聚類,也即,其中一個維度是銷售額,另一個維度是其他各 個變量中的一個。這樣,在選擇特定變量時,就要看哪些變量的聚類結果能夠把賣方用戶聚 類為"小而美"(也即店鋪規(guī)模小并且優(yōu)質(zhì))、"小而丑"(也即店鋪規(guī)模小并且非優(yōu)質(zhì))、"大 而美"(也即規(guī)模大并且優(yōu)質(zhì))、"大而丑"(也即店鋪規(guī)模大并且非優(yōu)質(zhì))這樣四個類別,并 且四個類別之間的界限清晰的變量,確定為特定變量。也就是說,這些變量能夠將具有大規(guī) 模店鋪以及小規(guī)模店鋪的賣方用戶區(qū)分開,并且既能夠從大規(guī)模店鋪中區(qū)分出優(yōu)質(zhì)及非優(yōu) 質(zhì)的店鋪,也能夠從小規(guī)模店鋪中區(qū)分出優(yōu)質(zhì)及非優(yōu)質(zhì)的店鋪。
[0044] 例如,在某交易平臺中,符合上述條件的特定變量可能包括以下變量之一或組 合:
[0045] 好評率、熟客交易占比、寶貝在線成交率、寶貝收藏率、發(fā)貨DSR(DetailSeller Rating,賣方服務評級系統(tǒng))高于行業(yè)的百分比、品質(zhì)DSR高于行業(yè)的百分比、服務DSR高 于行業(yè)的百分比、物流DSR高于行業(yè)的百分比、IPV轉化率(其中,PV是指PageViews,也 即頁面瀏覽次數(shù),IPV是指商品詳情頁面的PV)、熟客單價/普通客單價、站內(nèi)搜索帶來IPV 占比、相關即時通信產(chǎn)品中的響應率、拍發(fā)時間差。
[0046] 也就是說,上述變量能夠讓"小而美"與"大而美"、"小而美"與"小而丑"、"小而美" 與"大而丑"的賣方對象有顯著區(qū)別。
[0047] 在得到上述特定變量之后,可以直接分別將各個第二用戶在這些特定變量上的取 值進行相加,將得到的結果作為第二用戶的優(yōu)質(zhì)指數(shù)。但是,實際上,雖然這些變量都是優(yōu) 質(zhì)的,但是各自在體現(xiàn)各類別之間區(qū)分度時的重要性可能又是不同的,因此,如果不能體現(xiàn) 出這種區(qū)別,則計算出的第二用戶的優(yōu)質(zhì)指數(shù)也是無法準確體現(xiàn)實際情況的。因此,在本申 請實施例中,還可以通過繼續(xù)的數(shù)據(jù)挖掘獲取到各個特定變量的權重,用以表示各自在體 現(xiàn)類別之間區(qū)分度時的重要性,進而根據(jù)特定變量及各自的權重建立第二用戶的得分計算 公式,將各個第二用戶在各個特定變量上的取值代入到計算公式中,計算出各個第二用戶 的優(yōu)質(zhì)指數(shù)基礎值。
[0048] 為了獲取各個特定變量的權重,具體實現(xiàn)時,可以基于特定變量,采用半監(jiān)督分類 及回歸的方式對各個第二用戶進行類別標注及打分,并在此過程中,計算出各個特定變量 的權重。具體的,可以通過以下步驟來實現(xiàn):
[0049] 步驟一:首先可以假設之前得到的特定變量的權重都是相等的,例如,可以將各自 的權重初始值設為1,然后利用特定變量以及各個特定變量的初始權重為各個第二用戶打 分,將各個類別中得分最高的預置數(shù)目的第二用戶標注為對應類別中的極端樣本。例如,結 合前述例子,該步驟相當于基于這些特定變量分別計算各個賣方對象的得分,將各個類別 中得分最高的N個賣方對象標注為對應類別的極端樣本。也即,"小而美"、"大而美"、"小而 丑"、"大而丑"這幾個類別下都可的得到一些極端樣本,這些樣本相當于具有屬于某類別的 非常明顯的特征,無論各個特定變量的權重是按照相等的初始值來計算,還是按照更接近 于實際情況的值的計算,這些變量計算出的得分應該都是在所屬類別中最高的,因此,可以 作為對應類別中的極端樣本。
[0050] 然后,基于極端樣本,利用半監(jiān)督分類算法進行預置次數(shù)的循環(huán)學習,逐步更新各 個特定變量的權重,其中,每次學習時進行以下操作:
[0051] 步驟二:基于各個類別中的已標注樣本集合,更新各個特定變量的權重;其中,在 首次學習時,已標注樣本集合由極端樣本組成;
[0052] 步驟三:計算其他第二用戶與各已標注樣本之間的相似度,對置信度滿足預置條 件的第二用戶進行類別標注,以便將新標注的第二用戶加入到對應類別的已標注樣本集合 中,供下一次半監(jiān)督分類學習使用。例如,某賣方用戶A與某極端樣本B的相似度高于某一 閾值,并且極端樣本B屬于"小而美"類,則將賣方用戶A也可以標注為"小而美"類,以此類 推??傊?,可以分別計算各個未標注賣方用戶與各個極端樣本之間的相似度,對置信度(半 監(jiān)督分類中的概念)最高的n%賣方用戶標注為對應的類別,對各個類別中包含的樣本進 行更新,并返回到步驟二更新特定變量的權重,循環(huán)學習數(shù)次之后,得到各個特定變量的權 重。
[0053] 以上通過半監(jiān)督分類算法標注了第二用戶所屬的類別,并對各個特定變量的權重 進行了計算及更新,在每一次更新之后都相當于學習到了更多的知識,都使得各個特定變 量的權重更接近于實際情況。當然,由于在半監(jiān)督分類過程中,是基于對各個第二用戶的 標注結果對特定變量的權重進行計算及更新的,標注結果是一個離散的信息,也即,只能標 注出各個第二用戶屬于哪個類別,相當于同一類別中的各個第二用戶之間不區(qū)分"優(yōu)質(zhì)"程 度。但實際情況是,同一類別中的各個第二用戶可能也具有不同的"優(yōu)質(zhì)"程度,如果不在 這方面進行區(qū)分,則計算并更新得到的特定變量的權重仍然無法進一步接近真實情況。也 就是說,通過半監(jiān)督分類的方式,計算并更新得到的各個特定變量的權重仍然不夠精確,因 此,在本申請實施例中,還需要再通過半監(jiān)督回歸的方式,最終確定出各個特定變量的權 重。具體的步驟如下:
[0054] 步驟一:利用所述半監(jiān)督學習得到的各個特定變量的權重對已標注樣本集合中的 各個樣本進行打分;其中,在首次學習時,已標注樣本集合由極端樣本組成;
[0055] 步驟二:基于已打分樣本集合中的樣本,更新各個特定變量的權重;
[0056] 步驟三:計算其他第二用戶與各已打分樣本之間的相似度,對置信度滿足預置條 件的第二用戶進行打分,以便將新打分的第二用戶加入到對應類別的已打分樣本集合中, 供下一次半監(jiān)督回歸學習使用。也就是說,可以計算其他未標注第二用戶與極端樣本之間 的相似度,找到置信度最高的n%賣方對象,并利用特定變量及當前的權重進行打分,然后 回到步驟二,重新更新特定變量的權重,以此循環(huán)學習數(shù)次之后,得到各個特定變量最終的 權重。
[0057] 也就是說,在半監(jiān)督回歸的過程中,是基于各個第二用戶的得分來對特定變量的 權重進行更新,相當于在獲取到各個第二用戶所屬類別的基礎上獲取了更詳細的分數(shù)信 息,因此基于這種更詳細的信息更新得到的特定變量的權重也更接近與真實情況。
[0058] 總之,通過半監(jiān)督分類以及回歸過程中的多次循環(huán)更新,能夠為之前得到的各個 特定變量確定出各自的權重,以此來表達各個特定變量在體現(xiàn)各個類別之間區(qū)分度方面的 重要性。
[0059] 在得到各個特定變量的權重之后,就可以生成用于計算第二用戶單邊優(yōu)質(zhì)指數(shù)的 公式,在實際應用中,該公式可以形象地稱為"優(yōu)質(zhì)指數(shù)打分卡"。例如,最終得到的各個特 定變量對應的權重如表1所示:
[0060] 表 1
【權利要求】
1. 一種信息推薦方法,其特征在于,包括: 根據(jù)系統(tǒng)中記錄的各個第一用戶的操作行為信息,獲得由符合第一預置條件的至少一 個特定第一用戶組成的特定第一用戶集合; 在所述特定第一用戶集合中,查找與當前用戶的相似度符合第二預置條件的目標特定 第一用戶; 根據(jù)所述目標特定第一用戶的操作行為信息記錄,向當前用戶提供推薦信息。
2. 根據(jù)權利要求1所述的方法,其特征在于,所述在所述特定第一用戶集合中,查找與 當前用戶的相似度符合第二預置條件的目標特定第一用戶,包括: 根據(jù)當前用戶以及所述特定第一用戶的歷史操作行為信息,計算當前用戶與各個特定 第一用戶在操作行為上的相似度; 將相似度符合第二預置條件的特定第一用戶確定為所述目標特定第一用戶。
3. 根據(jù)權利要求2所述的方法,其特征在于,所述根據(jù)當前用戶以及所述特定第一 用戶的歷史操作行為信息,計算當前用戶與各個特定第一用戶在操作行為上的相似度,包 括: 確定當前用戶與特定第一用戶的共同關聯(lián)第二用戶;其中,某第一用戶關聯(lián)的第二用 戶是指該第一用戶的操作對象對應的第二用戶; 根據(jù)所述共同關聯(lián)的第二用戶的數(shù)量、當前用戶及特定第一用戶分別在共同關聯(lián)的第 二用戶中的操作次數(shù)、以及當前用戶及特定第一用戶各自的關聯(lián)的第二用戶的總數(shù),計算 當前用戶與特定第一用戶在操作行為上的相似度。
4. 根據(jù)權利要求1所述的方法,其特征在于,預先根據(jù)第一用戶的基本屬性將所有 第一用戶劃分為至少兩個類別,每個類別中具有各自的特定第一用戶集合;所述在所述特 定第一用戶集合中,查找與當前用戶的相似度符合第二預置條件的目標特定第一用戶,包 括: 確定當前用戶所屬的類別; 從該類別的特定第一用戶集合中查找與當前用戶的相似度符合預置條件的目標特定 第一用戶。
5. 根據(jù)權利要求4所述的方法,其特征在于,所述根據(jù)所述目標特定第一用戶的操作 行為信息記錄,向當前用戶提供推薦信息,包括: 如果該類別的特定第一用戶集合中,與當前用戶的相似度符合第二預置條件的目標 特定第一用戶的數(shù)目大于第一預置閾值,則根據(jù)所述目標特定第一用戶的操作行為信息記 錄,向當前用戶提供推薦信息。
6. 根據(jù)權利要求5所述的方法,其特征在于,還包括: 如果該類別的特定第一用戶集合中,與當前用戶的相似度符合第二預置條件的目標特 定第一用戶的數(shù)目小于所述第一預置閾值,則從該類別的所有第一用戶中,查找與當前用 戶的相似度符合第二預置條件的目標第一用戶; 根據(jù)所述目標第一用戶的歷史操作行為記錄向當前用戶提供推薦信息。
7. 根據(jù)權利要求1至6任一項所述的方法,其特征在于,通過以下方式確定符合第一預 置條件的至少一個特定第一用戶: 根據(jù)系統(tǒng)中記錄的各個第一用戶的操作行為信息,確定所述符合第一預置條件的至少 一個特定第一用戶,其中,所述第一用戶的操作行為信息至少包括:在每次操作行為中,第 一用戶關聯(lián)的第二用戶是否為特定第二用戶。
8. 根據(jù)權利要求7所述的方法,其特征在于,所述根據(jù)系統(tǒng)中記錄的各個第一用戶的 操作行為信息,確定所述符合第一預置條件的特定第一用戶,包括: 獲取系統(tǒng)中記錄的各個第一用戶的操作行為信息; 獲取系統(tǒng)中記錄的各個第二用戶的統(tǒng)計數(shù)據(jù),所述統(tǒng)計數(shù)據(jù)包括第二用戶在預置的多 個變量上的取值; 根據(jù)第二用戶在各個變量上的取值建立特定第二用戶集合; 根據(jù)所述第一用戶的操作行為信息以及所述特定第二用戶集合信息,判斷在第一用戶 的每次操作行為中,第一用戶關聯(lián)的第二用戶是否為特定第二用戶; 根據(jù)判斷結果以及所述第一用戶的操作行為信息,確定各個第一用戶是否為特定第一 用戶,并建立特定第一用戶集合。
9. 根據(jù)權利要求8所述的方法,其特征在于,還包括: 通過以下各步驟對特定第一用戶集合及特定第二用戶集合進行循環(huán)更新: 根據(jù)第一用戶在指定時間段內(nèi)產(chǎn)生的新的操作行為信息,以及每次操作行為中關聯(lián)的 第二用戶是否為特定第二用戶,重新確定各個第一用戶是否為特定第一用戶,并根據(jù)重新 確定的結果更新所述特定第一用戶集合; 根據(jù)第二用戶在指定時間段內(nèi)產(chǎn)生的新的操作信息,以及新的操作信息中關聯(lián)的第一 用戶是否為特定第一用戶,重新確定各個第二用戶是否為特定第二用戶,并根據(jù)重新確定 的結果更新所述特定第二用戶集合。
10. 根據(jù)權利要求9所述的方法,其特征在于,在重新確定各個第一用戶是否為特定第 一用戶時,與以下信息相關: 新的操作行為信息中該第一用戶總的操作次數(shù)、該第一用戶的各次操作行為中關聯(lián)的 第二用戶為特定第二用戶的數(shù)目、該第一用戶分別在各個第二用戶中的操作次數(shù)以及各個 第二用戶上一步的計算結果。
11. 根據(jù)權利要求9所述的方法,其特征在于,在重新確定各個第二用戶是否為特定第 一用戶時,與以下信息相關: 新的操作信息中該第二用戶關聯(lián)的特定第一用戶的數(shù)目、該第二用戶被特定第一用戶 操作的總次數(shù)、該第二用戶分別被各特定第一用戶操作的總次數(shù)以及各個特定第一用戶上 一步的計算結果。
12. 根據(jù)權利要求9所述的方法,其特征在于,所述根據(jù)第二用戶在各個變量上的取值 建立特定第二用戶集合,包括: 分別基于各個變量對第二用戶進行多次聚類,將能夠將第二用戶聚類為預置類別并且 能夠在各個類別之間體現(xiàn)出預置的區(qū)分度的變量確定為特定變量; 獲取各個特定變量的權重,所述權重用于表明各個特定變量在體現(xiàn)所述區(qū)分度時的重 要性; 根據(jù)所述特定變量及各自的權重建立第二用戶的得分計算公式; 將各個第二用戶在各個特定變量上的取值代入到所述計算公式中,計算出各個第二用 戶的得分; 將得分滿足第一預置條件的第二用戶確定為特定第二用戶。
13. 根據(jù)權利要求12所述的方法,其特征在于,所述獲取各個特定變量的權重包括: 利用所述特定變量以及各個特定變量的初始權重為各個第二用戶打分,將各個類別中 得分最高的預置數(shù)目的第二用戶標注為對應類別中的極端樣本;其中,各個特定變量的初 始權重相等; 基于所述極端樣本,利用半監(jiān)督分類算法進行預置次數(shù)的循環(huán)學習,逐步更新各個特 定變量的權重,其中,每次學習時進行以下操作: 基于各個類別中的已標注樣本集合,更新各個特定變量的權重;其中,在首次學習時, 所述已標注樣本集合由所述極端樣本組成; 計算其他第二用戶與各已標注樣本之間的相似度,對置信度滿足預置條件的第二用戶 進行類別標注,以便將新標注的第二用戶加入到對應類別的已標注樣本集合中,供下一次 半監(jiān)督分類學習使用。
14. 根據(jù)權利要求13所述的方法,其特征在于,還包括: 利用半監(jiān)督回歸算法進行預置次數(shù)的循環(huán)學習,逐步更新各個特定變量的權重,其中, 每次學習時進行以下操作: 利用所述半監(jiān)督學習得到的各個特定變量的權重對已標注樣本集合中的各個樣本進 行打分;其中,在首次學習時,所述已標注樣本集合由所述極端樣本組成; 基于已打分樣本集合中的樣本,更新各個特定變量的權重; 計算其他第二用戶與各已打分樣本之間的相似度,對置信度滿足預置條件的第二用戶 進行打分,以便將新打分的第二用戶加入到對應類別的已打分樣本集合中,供下一次半監(jiān) 督回歸學習使用。
15. 根據(jù)權利要求12至14任一項所述的方法,其特征在于,其中,所述系統(tǒng)包括電子商 務交易平臺,所述特定變量包括以下各變量中的一個或多個:好評率、再次發(fā)生相關行為信 息的比率、商品對象在線成交率、商品對象的收藏率、服務評級系統(tǒng)中的得分高于平均值的 比例、商品對象詳情頁面帶來頁面瀏覽次數(shù)的轉化率、站內(nèi)搜索帶來頁面瀏覽次數(shù)的比例、 相關即時通信系統(tǒng)中的響應率、從用戶確認訂單到貨品發(fā)出之間的時間差。
16. 根據(jù)權利要求12至14任一項所述的方法,其特征在于,其中,所述系統(tǒng)包括電子商 務交易平臺,在分別基于各個變量對第二用戶進行多次聚類時,每次聚類均為二維聚類,以 第二用戶的銷售額信息為一個維度,以其他各個變量中一個變量為另一個維度。
17. -種信息推薦裝置,其特征在于,包括: 用戶集合建立單元,用于根據(jù)系統(tǒng)中記錄的各個第一用戶的操作行為信息,獲得由符 合第一預置條件的至少一個特定第一用戶組成的特定第一用戶集合; 相似優(yōu)質(zhì)買方對象查找單元,用于在所述特定第一用戶集合中,查找與當前用戶的相 似度符合第二預置條件的目標特定第一用戶; 信息推薦單元,用于根據(jù)所述目標特定第一用戶的操作行為信息記錄,向當前用戶提 供推薦信息。
【文檔編號】G06F17/30GK104239338SQ201310244580
【公開日】2014年12月24日 申請日期:2013年6月19日 優(yōu)先權日:2013年6月19日
【發(fā)明者】楊滔, 黃健敏, 汪秦宇, 車品覺 申請人:阿里巴巴集團控股有限公司