一種基于圖像內(nèi)容的用戶興趣細(xì)分方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,特別是涉及一種基于圖像內(nèi)容的用戶興趣細(xì)分方法及系統(tǒng)。
【背景技術(shù)】
[0002]數(shù)據(jù)挖掘可以提供客戶洞察力,這對(duì)建立有效的市場(chǎng)營(yíng)銷、銷售以及個(gè)性化策略是至關(guān)重要的。它會(huì)導(dǎo)致客戶之間的個(gè)性化交流,因此通過(guò)數(shù)據(jù)分析來(lái)提升滿意度以及有益的客戶關(guān)系。通過(guò)客戶生活周期的各個(gè)階段,即從獲取和建立一種強(qiáng)大的關(guān)系到預(yù)防摩擦和贏回失去的客戶,它可支持一種“個(gè)性化”且優(yōu)化的客戶管理。營(yíng)銷人員努力獲得更大的市場(chǎng)份額以及更大比例的客戶。簡(jiǎn)單來(lái)講,他們負(fù)責(zé)獲取、開發(fā)并維持顧客。
[0003]為了能夠提供個(gè)性化的市場(chǎng)營(yíng)銷戰(zhàn)略,用戶細(xì)分的主要流程是根據(jù)用戶的一些特征,把用戶群劃分為不同的群體?;跀?shù)據(jù)挖掘的方法可以創(chuàng)建數(shù)據(jù)驅(qū)動(dòng)的行為細(xì)分。細(xì)分算法可以分析行為數(shù)據(jù),確認(rèn)不同群組的客戶并且提出基于數(shù)據(jù)格式的方法。在手動(dòng)或者傳統(tǒng)用戶細(xì)分中,客戶們按行為和使用特點(diǎn)進(jìn)行細(xì)分。盡管行為分類可以由業(yè)務(wù)規(guī)則創(chuàng)建,這項(xiàng)方法擁有很多基礎(chǔ)性的缺點(diǎn)。它只能有效地處理少數(shù)分類領(lǐng)域,而且其客觀性是受到質(zhì)疑的,因?yàn)樗腔跇I(yè)務(wù)專家的個(gè)人感知。
[0004]提取照片的標(biāo)簽信息,不像文檔中的信息以相對(duì)標(biāo)準(zhǔn)的詞和句子傳輸,圖像在另一方面可通過(guò)極具表現(xiàn)性的二維像素點(diǎn)傳達(dá)信息。形象地說(shuō),一個(gè)圖像堪比一千個(gè)文字。在大數(shù)據(jù)和大信息量的當(dāng)代,文檔相對(duì)而言更易識(shí)別、分類和檢索。然而,盡管圖像數(shù)量不斷增長(zhǎng),因圖像數(shù)據(jù)復(fù)雜的圖像表現(xiàn)結(jié)構(gòu),仍不得不說(shuō)破譯圖像信息依舊是人類的一大任務(wù)。
[0005]Latent Dirichlet Allocat1n(潛在主題抽取)或者LDA算法,是一種被應(yīng)用在文本挖掘方面的機(jī)器學(xué)習(xí)方法,通常目的在于從一個(gè)文檔集合中自動(dòng)發(fā)現(xiàn)專題論題。簡(jiǎn)而言之,LDA模型從一大堆文檔集合中抽取一個(gè)預(yù)先確定數(shù)量的主題,而且該訓(xùn)練模式可以被用來(lái)推斷其后任何文檔的主題。
【發(fā)明內(nèi)容】
[0006]為了解決上述問(wèn)題,本發(fā)明提出了一種基于圖像內(nèi)容的用戶興趣細(xì)分方法及系統(tǒng),將用戶貼上富有實(shí)際性的標(biāo)簽,并且用戶不但可以繼承多個(gè)標(biāo)簽,而且用戶的興趣會(huì)隨著照片內(nèi)容的更改而改變;不再將客戶看成簡(jiǎn)單的數(shù)字,而是有不同偏好的個(gè)體,是提供個(gè)性化服務(wù)的基礎(chǔ)。
[0007]為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是:
[0008]—種基于圖像內(nèi)容的用戶興趣細(xì)分方法,包括訓(xùn)練用戶標(biāo)簽?zāi)P秃皖A(yù)測(cè)細(xì)分用戶群組;
[0009]所述訓(xùn)練用戶標(biāo)簽?zāi)P?,基于大量用戶照片集的?biāo)簽信息,利用LDA算法對(duì)用戶的標(biāo)簽信息進(jìn)行訓(xùn)練獲得用戶標(biāo)簽?zāi)P停?br>[0010]所述預(yù)測(cè)細(xì)分新用戶群組,運(yùn)用所述用戶標(biāo)簽?zāi)P皖A(yù)測(cè)并且細(xì)分新用戶的個(gè)性化群組。
[0011]進(jìn)一步的是,所述訓(xùn)練用戶標(biāo)簽?zāi)P桶ú襟E:
[0012](1.1)收集大量的用戶和每個(gè)用戶的用戶照片集;
[0013](1.2)對(duì)所述用戶照片集進(jìn)行標(biāo)簽處理,獲取用戶照片集的標(biāo)簽信息;
[0014](1.3)將所述用戶的標(biāo)簽信息轉(zhuǎn)換成文本模式,形成文本文檔;
[0015](1.4)利用LDA算法訓(xùn)練所述文本文檔,形成用戶標(biāo)簽?zāi)P汀?br>[0016]進(jìn)一步的是,所述步驟(1.3)中,用戶的標(biāo)簽信息將記錄入文本文檔,而他們的去向通過(guò)他們的POI信息反應(yīng)出來(lái),形成文本文檔的內(nèi)容。
[0017]進(jìn)一步的是,利用用戶經(jīng)常入出的場(chǎng)所信息預(yù)測(cè)用戶特征或行為習(xí)慣作為標(biāo)簽信息。
[0018]進(jìn)一步的是,所述步驟(1.4)中,利用LDA算法進(jìn)行模型訓(xùn)練生成預(yù)定數(shù)量的主要興趣話題。
[0019]進(jìn)一步的是,所述用戶標(biāo)簽?zāi)P椭兴袠?biāo)簽信息的主要興趣話題將劃分為N個(gè)相關(guān)主題性的話題。
[0020]進(jìn)一步的是,所述步驟(1.4)包括步驟:
[0021](1.4.1)構(gòu)建用戶屬性字典:結(jié)合所有訓(xùn)練用戶文本文檔形成字典,而且所述字典記錄每一個(gè)標(biāo)簽出現(xiàn)的次數(shù);移除文本文檔中標(biāo)簽屬性發(fā)生數(shù)少于5次的標(biāo)簽信息,因?yàn)槌霈F(xiàn)頻率太低的標(biāo)簽屬性對(duì)降低模型的準(zhǔn)確度;移除在文本文檔中出現(xiàn)超過(guò)90%的標(biāo)簽信息,因?yàn)槌霈F(xiàn)頻率太高的標(biāo)簽屬性會(huì)降低模型的準(zhǔn)確度;在剩下的標(biāo)簽信息中,保留最前列的200個(gè)標(biāo)簽信息,200個(gè)標(biāo)簽信息是足夠能滿足用戶偏好的維度,太多的標(biāo)簽信息會(huì)影響計(jì)算速度;
[0022](1.4.2)用戶標(biāo)簽?zāi)P?基于用戶屬性字典,創(chuàng)建代表整個(gè)訓(xùn)練數(shù)據(jù)集的詞袋;利用所述詞袋,把所有訓(xùn)練用戶的標(biāo)簽信息從文本格式轉(zhuǎn)換成BOW數(shù)據(jù);利用BOW數(shù)據(jù)和相關(guān)參數(shù)訓(xùn)練用戶標(biāo)簽?zāi)P汀?br>[0023]進(jìn)一步的是,預(yù)測(cè)細(xì)分新用戶群組包括步驟:
[0024](2.1)收集新用戶照片集;
[0025](2.2)對(duì)所述新用戶照片集進(jìn)行標(biāo)簽處理,獲取新用戶照片集的標(biāo)簽信息;
[0026](2.3)將所述新用戶的標(biāo)簽信息轉(zhuǎn)換成文本模式,形成新用戶的文本文檔;
[0027](2.4)把新用戶的文本文檔填充到已經(jīng)訓(xùn)練好的用戶標(biāo)簽?zāi)P椭校?br>[0028](2.5)所述用戶標(biāo)簽?zāi)P洼敵鲂掠脩舻母鱾€(gè)主題可能性并與所有可能主題相對(duì)立,從而預(yù)測(cè)并且細(xì)分出新用戶的個(gè)性化群組。
[0029]進(jìn)一步的是,所述預(yù)測(cè)細(xì)分新用戶群組,包括步驟:基于所述字典,構(gòu)建新用戶標(biāo)簽信息的BOW數(shù)據(jù);將新用戶的BOW數(shù)據(jù)填入所述用戶標(biāo)簽?zāi)P?;用戶?biāo)簽?zāi)P蛯⑤敵鲂掠脩艨赡苄灾黝},從而預(yù)測(cè)并且細(xì)分出新用戶的個(gè)性化群組。
[0030]另一方面,本發(fā)明還提供了一種基于圖像內(nèi)容的用戶興趣細(xì)分系統(tǒng),包括訓(xùn)練用戶標(biāo)簽?zāi)P湍K和預(yù)測(cè)細(xì)分用戶群組模塊,所述訓(xùn)練用戶標(biāo)簽?zāi)P湍K和預(yù)測(cè)細(xì)分用戶群組模塊設(shè)置在服務(wù)器中,所述訓(xùn)練用戶標(biāo)簽?zāi)P湍K連接所述預(yù)測(cè)細(xì)分用戶群組模塊,所述預(yù)測(cè)細(xì)分用戶群組模塊與客戶端相互通信;
[0031]所述訓(xùn)練用戶標(biāo)簽?zāi)P湍K,基于大量用戶照片集的標(biāo)簽信息,利用LDA算法對(duì)用戶的標(biāo)簽信息進(jìn)行訓(xùn)練獲得用戶標(biāo)簽?zāi)P停?br>[0032]所述預(yù)測(cè)細(xì)分新用戶群組模塊,運(yùn)用所述用戶標(biāo)簽?zāi)P皖A(yù)測(cè)并且細(xì)分新用戶的個(gè)性化群組。
[0033]采用本技術(shù)方案的有益效果:通過(guò)建立在偏好屬性的基礎(chǔ)上對(duì)用戶細(xì)分為個(gè)性化的群組;利用LDA算法,群組主題上類似的數(shù)據(jù)一起構(gòu)成用戶的個(gè)性化的群組;利用LDA算法能夠預(yù)測(cè)或者細(xì)分新的或者未預(yù)見的用戶為各種主題;將用戶貼上富有實(shí)際性的標(biāo)簽,并且用戶不但可以繼承多個(gè)標(biāo)簽,而且用戶的興趣會(huì)隨著照片內(nèi)容的更改而改變;不再將客戶看成簡(jiǎn)單的數(shù)字,而是有不同偏好的個(gè)體,是提供個(gè)性化服務(wù)的基礎(chǔ)。
【附圖說(shuō)明】
[0034]圖1為本發(fā)明的一種基于圖像內(nèi)容的用戶興趣細(xì)分方法流程示意圖;
[0035]圖2為本發(fā)明實(shí)施例中訓(xùn)練用戶標(biāo)簽?zāi)P头椒鞒虉D;
[0036]圖3為本發(fā)明實(shí)施例中訓(xùn)練用戶標(biāo)簽?zāi)P头椒鞒淌疽鈭D;
[0037]圖4為本發(fā)明實(shí)施例中BOW數(shù)據(jù)轉(zhuǎn)換示意圖;
[0038]圖5為本發(fā)明實(shí)施例中預(yù)測(cè)細(xì)分新用戶群組方法的流程圖;
[0039]圖6為本發(fā)明實(shí)施例中新用戶文本文檔的示意圖;
[0040]圖7為本發(fā)明實(shí)施例中一種基于圖像內(nèi)容的用戶興趣細(xì)分系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0041]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步闡述。
[0042]在實(shí)施例一中,參見圖1所示,本發(fā)明提出了一種基于圖像內(nèi)容的用戶興趣細(xì)分方法,一種基于圖像內(nèi)容的用戶興趣細(xì)分方法,包括訓(xùn)練用戶標(biāo)簽?zāi)P秃皖A(yù)測(cè)細(xì)分用戶群組;
[0043]所述訓(xùn)練用戶標(biāo)簽?zāi)P?,基于大量用戶照片集的?biāo)簽信息,利用LDA算法對(duì)用戶的標(biāo)簽信息進(jìn)行訓(xùn)練獲得用戶標(biāo)簽?zāi)P停?br>[0044]所述預(yù)測(cè)細(xì)分新用戶群組,運(yùn)用所述用戶標(biāo)簽?zāi)P皖A(yù)測(cè)并且細(xì)分新用戶的個(gè)性化群組。
[0045]在實(shí)施例二中,在實(shí)施例一的基礎(chǔ)上,如圖2和圖3所示,所述訓(xùn)練用戶標(biāo)簽?zāi)P桶ú襟E:
[0046](1.1)收集大量的用戶和每個(gè)用戶的用戶照片集;
[0047](1.2)對(duì)所述用戶照片集進(jìn)行標(biāo)簽處理,獲取用戶照片集的標(biāo)簽信息;
[0048](1.3)將所述用戶的標(biāo)簽信息轉(zhuǎn)換成文本模式,形成文本文檔;
[0049](1.4)利用LDA算法訓(xùn)練所述文本文檔,形成用戶標(biāo)簽?zāi)P汀?br>[0050]其中,所述步驟(1.3)中,用戶的標(biāo)簽信息將記錄入文本文檔,而他們的去向通過(guò)他們的POI信息反應(yīng)出來(lái),形成文本文檔的內(nèi)容。
[0051]其中,利用用戶經(jīng)常入出的場(chǎng)所信息預(yù)測(cè)用戶特征或行為習(xí)慣作為標(biāo)簽信息。
[0052]其中,所述步驟(1.4)中,利用LDA算法進(jìn)行模型訓(xùn)練生成預(yù)定數(shù)量的主要興趣話題,例如:
[0053]風(fēng)景/美景旅游溫泉有人/群照熱帶雨林寺廟熱帶雨林有人/群照天空天空廣場(chǎng)熱帶雨林飲品/甜點(diǎn)飲品/甜點(diǎn)寺廟熱帶雨林廣場(chǎng)溫泉溫泉寺廟表演/舞臺(tái)表演/舞臺(tái)表演/舞臺(tái)咖啡店咖啡店咖啡店飲品/甜點(diǎn)廣場(chǎng)游樂(lè)場(chǎng)游樂(lè)場(chǎng)游樂(lè)場(chǎng)游樂(lè)場(chǎng)天空塔/佛塔...。
[0054]
[0055]其中,所述用戶標(biāo)簽?zāi)P椭兴袠?biāo)簽信息的主要興趣話題將劃分為N個(gè)相關(guān)主題性的話題;以下是用戶標(biāo)簽?zāi)P蜕傻囊徊糠值脑掝}的名稱和主要內(nèi)容,分別是花園相關(guān),美食相關(guān),夜生活相關(guān)和旅游主題:
[0056]花園相關(guān)主題:花;花園/園林;花園;植物/盆景;果園;野外;風(fēng)景/美景;菜園;熱帶雨林;森林
[0057]美食主題:美食/小吃;餐廳;美食廣