個(gè)性化的移動(dòng)應(yīng)用app推薦方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明提出了一種移動(dòng)應(yīng)用推薦方法,特別涉及個(gè)性化的移動(dòng)應(yīng)用APP推薦方 法。
【背景技術(shù)】
[0002] 手機(jī)APP的發(fā)展給予了用戶更多的便利,方便了用戶的生活。但是,APP的不計(jì)其 數(shù)和品種繁多也給用戶造成了一些問(wèn)題。研究發(fā)現(xiàn)僅僅通過(guò)瀏覽和簡(jiǎn)單的查詢來(lái)尋找有用 且用戶偏好的APP變得相當(dāng)困難,在某種程度上過(guò)量的信息意味著信息缺乏,因此就需要 某種工具來(lái)迅速找到用戶所需要的并且偏好的信息來(lái)輔助決策,防止用戶迷失。于是,出現(xiàn) 了許多APP推薦方法。
[0003] 在本發(fā)明作出之前,傳統(tǒng)的推薦方法如協(xié)同過(guò)濾技術(shù)(CF)致力于通過(guò)在用戶群 中找到與指定用戶有相似興趣的用戶,綜合這些相似用戶對(duì)某一信息的評(píng)價(jià),形成系統(tǒng)對(duì) 該指定用戶對(duì)此信息的喜好程度預(yù)測(cè)來(lái)推薦APP。然而,隨著個(gè)性化的商業(yè)應(yīng)用延展到用戶 生活信息流的方方面面,個(gè)性化推薦技術(shù)也在日新月異不斷發(fā)展,類似于協(xié)同過(guò)濾這樣的 早期技術(shù)已經(jīng)不能滿足新環(huán)境下的要求,例如在用戶和商品愈見(jiàn)增多的情況下,系統(tǒng)的性 能會(huì)越來(lái)越低亦或是當(dāng)用戶對(duì)商品的評(píng)價(jià)非常稀疏時(shí),這樣基于用戶的評(píng)價(jià)所得到的用戶 間的相似性可能不準(zhǔn)確甚至導(dǎo)致商品不被推薦。除此以外,當(dāng)前大多數(shù)技術(shù)只考慮單個(gè)元 素,然而在用戶對(duì)商品有更高需求的同時(shí),對(duì)于APP推薦來(lái)說(shuō),除了功能,還應(yīng)該考慮到其 APP屬性、種類、地理位置及用戶情感的影響,比如在地理位置方面,諸如美團(tuán)、大眾點(diǎn)評(píng)、谷 歌地圖這樣基于地理位置的軟件,他們所涉及的區(qū)域大小會(huì)影響到是否該推薦這個(gè)APP。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是克服上述缺陷,開(kāi)發(fā)一種個(gè)性化的APP推薦方法。
[0005] 本發(fā)明的技術(shù)方案是:
[0006] 個(gè)性化的移動(dòng)應(yīng)用APP推薦方法,其特征在于步驟如下:
[0007] 步驟1).數(shù)據(jù)收集:從應(yīng)用市場(chǎng)獲取用戶及移動(dòng)應(yīng)用即APP的信息,包括功能描述 及評(píng)論信息;
[0008] 步驟2).對(duì)獲取的原始APP數(shù)據(jù)進(jìn)行預(yù)處理來(lái)避免出現(xiàn)冷啟動(dòng)問(wèn)題;
[0009] 步驟3).利用情感-方面-地區(qū)即SAR模型,將APP的評(píng)論信息作為輸入文檔,分 別得到用戶對(duì)于APP的情感、APP的方面以及APP的使用地區(qū),由此得到用戶對(duì)APP不同屬 性的潛在偏好并預(yù)測(cè)用戶選擇APP的概率值;
[0010] 步驟4).對(duì)步驟2)得到的數(shù)據(jù)作進(jìn)一步處理,分別轉(zhuǎn)換為APP索引文件和用戶索 引文件;
[0011] 步驟5).利用協(xié)相關(guān)主題即CTM模型,輸入前述步驟4)的兩份文件,得到 User-App的推薦分?jǐn)?shù)矩陣;
[0012] 步驟6).將SAR模型與CTM模型分別得到的概率值與推薦分?jǐn)?shù)線性結(jié)合,然后用 Top-N在線推薦算法進(jìn)行排序,將預(yù)測(cè)評(píng)分較高的APP推薦給相應(yīng)的用戶。
[0013] 所述步驟1)中,在應(yīng)用商店GooglePlay里,用戶對(duì)他所使用過(guò)的APP的評(píng)級(jí)是 公開(kāi)可見(jiàn)的,一旦獲得用戶的ID就能看到用戶所評(píng)論過(guò)的所有APP,由此通過(guò)爬數(shù)據(jù)工具 將所有原始數(shù)據(jù)檢索出來(lái)。
[0014] 所述步驟2)中原始數(shù)據(jù)的預(yù)處理過(guò)程包括:
[0015] a)清除寫少于2條評(píng)論的用戶以及過(guò)濾用戶后沒(méi)有任何評(píng)論的APP;
[0016] b)托肯化:去除標(biāo)點(diǎn)符號(hào),去除數(shù)字;
[0017]c)去除停用詞:去除英文停用詞,包括介詞、代詞、冠詞;
[0018] d)詞干化:將每個(gè)單詞轉(zhuǎn)化為它的原型,過(guò)去時(shí)轉(zhuǎn)化為原型,現(xiàn)在進(jìn)行時(shí)轉(zhuǎn)化為 原型。
[0019] 所述步驟3)中計(jì)算推薦概率的計(jì)算公式:
[0020]
ra
[0021] 即表示用戶u喜歡APPt并且給其評(píng)級(jí)的概率,其中,t,s+,u,r,a,(^分別代表 APP,正面情感,用戶,地區(qū),APP的方面以及APP的種類。
[0022] 所述步驟4)中的數(shù)據(jù)處理,其分為以下幾個(gè)步驟:
[0023] a)對(duì)步驟2)中所獲得的所有APP進(jìn)行編號(hào),依次為0,1,2, 3,4,…,n,每一個(gè)編 號(hào)對(duì)應(yīng)其APP信息,即為步驟3)中SAR模型所過(guò)濾得到的信息;
[0024] b)對(duì)步驟2)中所獲得的所有用戶進(jìn)行編號(hào),依次為0,1,2,3,4,...,11,每一個(gè)編 號(hào)對(duì)應(yīng)其用戶信息,即為步驟3)中SAR模型所過(guò)濾得到的信息;
[0025] c)將所收集的數(shù)據(jù)整理成一份用戶索引輸入文件,格式要求:一行為一個(gè)用戶的 信息,行首即為用戶的編碼+1,第二列為用戶所評(píng)級(jí)過(guò)的APP數(shù)量,余下列為用戶評(píng)級(jí)過(guò)的 所有APP編號(hào);
[0026] d)將所收集的數(shù)據(jù)整理成一份APP索引輸入文件,格式要求:一行為一個(gè)APP的 信息,行首即為APP的編碼+1,第二列為給此APP進(jìn)行評(píng)級(jí)的用戶數(shù)量,余下列為所有給 APP評(píng)級(jí)的用戶編號(hào);
[0027]e)將以上兩份文件輸入CTM模型,得到一個(gè)User-App推薦分?jǐn)?shù)矩陣,推薦值為正 則表示可推薦,值越大越值得推薦,反之,推薦值為負(fù)則表示此APP對(duì)該用戶是沒(méi)有推薦價(jià) 值的,矩陣行為APP,列為用戶。
[0028] 7.根據(jù)權(quán)利要求1所述的APP多屬性推薦方法,其特征在于步驟6)中將SAR模型 得到的概率p(t,S+|u)及GTM模型得到的推薦值rut的線性結(jié)合計(jì)算公式,如下:設(shè)定兩個(gè) 參數(shù)α,β,則合并推薦分?jǐn)?shù)Score為:
[0029] Score=ap(t,s+1u) +βrut
[0030] 其中,α,β是輸入?yún)?shù)權(quán)重。
[0031] 本發(fā)明的優(yōu)點(diǎn)和效果在于綜合考慮評(píng)論里的方面、情感、種類及地區(qū)達(dá)到個(gè)性化 推薦的目的。主要有以下一些優(yōu)點(diǎn):
[0032] 1.此推薦方法綜合考慮評(píng)論里的方面、情感、種類及地區(qū)來(lái)發(fā)現(xiàn)用戶的潛在偏好, 更符合用戶的實(shí)際需求。
[0033] 2.此推薦方法能解決傳統(tǒng)協(xié)同過(guò)濾技術(shù)即CF無(wú)法解決的冷啟動(dòng)問(wèn)題。
[0034] 3.傳統(tǒng)推薦方法如CF不使用APP的內(nèi)容,它是基于所選的APP有相似模式的用戶 而推薦的,而此推薦方法是同時(shí)基于內(nèi)容和用戶評(píng)級(jí)的,結(jié)果預(yù)測(cè)是基于內(nèi)容還是用戶評(píng) 級(jí)取決于多少用戶對(duì)APP進(jìn)行評(píng)級(jí)。
[0035] 4.此推薦方法是一種個(gè)性化推薦,所推薦的應(yīng)用會(huì)考慮用戶的興趣、所處地區(qū)等。
[0036] 5.此推薦方法提出了對(duì)APP屬性的全新分類方法,將APP的屬性劃分得更詳細(xì),由 此探索用戶對(duì)APP各屬性的偏好程度,更好地了解用戶需求與APP特征。
【附圖說(shuō)明】
[0037] 圖1--本發(fā)明的總體流程不意圖。
[0038] 圖2--本發(fā)明GoogleMaps的功能描述信息示意圖。
[0039] 圖3--本發(fā)明用戶Sarah對(duì)YellowPages的評(píng)論信息示意圖。
[0040] 圖4--本發(fā)明用戶Sarah對(duì)CommanderCompassLite的評(píng)論信息不意圖。
[0041] 圖5--本發(fā)明預(yù)處理過(guò)后的GoogleMaps的功能描述信息示意圖。
[0042] 圖6--本發(fā)明預(yù)處理過(guò)后的用戶Sarah對(duì)YellowPages的評(píng)論信息示意圖。
[0043] 圖7--本發(fā)明預(yù)處理過(guò)后的用戶Sarah對(duì)CommanderCompassLite的評(píng)論信息 示意圖。
[0044] 圖8-一本發(fā)明情感-方面-地區(qū)模型的初步輸出結(jié)果示意圖。
[0045] 圖9一一本發(fā)明協(xié)相關(guān)模型的用戶索引輸入文件的格式要求示意圖。
[0046] 圖10--本發(fā)明協(xié)相關(guān)模型的APP索引輸入文件的格式要求示意圖。
[0047] 圖11--本發(fā)明協(xié)相關(guān)模型User-App推薦分?jǐn)?shù)矩陣的輸出格式不意圖。
【具體實(shí)施方式】
[0048] 本發(fā)明的技術(shù)思路是:
[0049] 本發(fā)明考慮結(jié)合方面、情感、種類以及地區(qū)對(duì)推薦技術(shù)的影響,對(duì)APP屬性進(jìn)行了 比較詳盡的分類,比如界面、地理位置、功能菜單、卸載量與激活量之比、設(shè)置,以此更加詳 細(xì)地了解用戶對(duì)APP不同屬性的要求及偏好,從而使推薦效果更好。還利用協(xié)相關(guān)主題模 型這種個(gè)性化推薦,以保證這種推薦方法能夠得到廣泛應(yīng)用。
[0050] 本發(fā)明結(jié)合CTM模型和SAR模型對(duì)用戶評(píng)論信息進(jìn)行建模,以此發(fā)現(xiàn)用戶的潛在 偏好并進(jìn)行詳盡的推薦。
[0051] 下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說(shuō)明:
[0052] 步驟 1).
[0053] 數(shù)據(jù)收集:在應(yīng)用商店如GooglePlay里,用戶對(duì)他所使用過(guò)的APP的評(píng)級(jí)是公開(kāi) 可見(jiàn)的,一旦獲得用戶的ID就能看到用戶所評(píng)論過(guò)的所有APP。由此可以通過(guò)爬數(shù)據(jù)工具 將所有原始數(shù)據(jù)如用戶評(píng)論及功能描述檢索出來(lái)。舉例如下:假設(shè)用戶Sarah想要找一款 導(dǎo)航APP,在此之前用戶使用過(guò)YellowPages與CommanderCompassLite兩款導(dǎo)航APP, 圖2為GoogleMaps的功能描述信息,此APP是用戶Sarah未使用過(guò)的,圖3為Sarah對(duì) YellowPages的用戶評(píng)論信息,圖4為Sarah對(duì)CommanderCompassLite的用戶評(píng)論信 息。
[0054] 步驟 2) ·
[0055] 對(duì)獲取的原始APP數(shù)據(jù)進(jìn)行預(yù)處理來(lái)避免出現(xiàn)冷啟動(dòng)問(wèn)題。首先,清除寫少于2 條評(píng)論的用戶以及過(guò)濾用戶后沒(méi)有任何評(píng)論的APP。其次,進(jìn)行托肯化即tokenization,分 另IJ去除標(biāo)點(diǎn)符