本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種基于標簽的熱點推薦方法及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,交互變的越來越重要。在線的交互,已經(jīng)成為日益重要的溝通模式。為了滿足廣大用戶信息交互的需要,各種交互軟件或者溝通軟件應(yīng)運而生。
微信是騰訊公司推出的一個為智能終端提供即時通訊服務(wù)的免費應(yīng)用程序,微信支持跨通信運營商、跨操作系統(tǒng)平臺通過網(wǎng)絡(luò)快速發(fā)送免費(需消耗少量網(wǎng)絡(luò)流量)語音短信、視頻、圖片和文字,同時,也可以使用通過共享流媒體內(nèi)容的資料和基于位置的社交插件等服務(wù)插件。微信提供公眾平臺、朋友圈、消息推送等功能,用戶可以通過“搖一搖”、“搜索號碼”、“附近的人”、掃二維碼方式添加好友和關(guān)注公眾平臺,同時微信將內(nèi)容分享給好友以及將用戶看到的精彩內(nèi)容分享到微信朋友圈。
微信公眾賬號是開發(fā)者或商家在微信公眾平臺上申請的應(yīng)用賬號,該帳號與QQ賬號互通,通過公眾賬號,商家可在微信平臺上實現(xiàn)和特定群體的文字、圖片、語音、視頻的全方位溝通、互動。形成了一種主流的線上線下微信互動營銷方式。正如線上線下微信互動營銷的代表微部落,率先提出標準的行業(yè)通用模板和深定制的微信平臺開發(fā)理念相結(jié)合。形成了線上線下微信互動營銷的開放應(yīng)用平臺。
用戶可以通過自身設(shè)備與公眾賬號進行互動。通過手機向公眾賬號發(fā)送消息,一般需要如下步驟:
首先用你的手機微信關(guān)注自己的微信公眾賬號。然后登陸自己的微信公眾平臺點擊公眾賬號助手。在公眾賬號助手設(shè)置的第二步選擇輸入你要綁定的微信號碼。然后點擊發(fā)送微信驗證碼。你的手機微信會收到一條信息,然后將數(shù)字輸入到驗證碼輸入框完成驗證就完成了綁定了。然后進入通訊錄,搜索公眾賬號助手。然后找到公眾賬號助手這個聯(lián)系人這個號碼是騰訊官方的賬號mphelper(騰訊公眾平臺的助手賬號需要通過它進行消息群發(fā))。關(guān)注該賬號就可以通過向它發(fā)送群發(fā)消息了。點擊進入聊天界面,然后向其發(fā)送消息,然后看你的公眾賬號的關(guān)注用戶是否會接受到這條消息。
應(yīng)用系統(tǒng)支撐平臺(Application SupportingPlatform)是一個信息的集成環(huán)境,是將分散、異構(gòu)的應(yīng)用和信息資源進行聚合,通過統(tǒng)一的訪問入口,實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)資源、非結(jié)構(gòu)化文檔和互聯(lián)網(wǎng)資源、各種應(yīng)用系統(tǒng)跨數(shù)據(jù)庫、跨系統(tǒng)平臺的無縫接入和集成,提供一個支持信息訪問、傳遞、以及協(xié)作的集成化環(huán)境,實現(xiàn)個性化業(yè)務(wù)應(yīng)用的高效開發(fā)、集成、部署與管理;并根據(jù)每個用戶的特點、喜好和角色的不同,為特定用戶提供量身定做的訪問關(guān)鍵業(yè)務(wù)信息的安全通道和個性化應(yīng)用界面,使師生員工可以瀏覽到相互關(guān)聯(lián)的數(shù)據(jù),進行相關(guān)的事務(wù)處理。
現(xiàn)有技術(shù)中,通常用戶在進入微信公眾號頁面后,在提供的頁面獲取相關(guān)的應(yīng)用內(nèi)容。對于用戶常用的應(yīng)用程序或者用戶感興趣的應(yīng)用程序,通常系統(tǒng)會有推薦和排序。但是,現(xiàn)有的結(jié)果推薦并不十分智能,推薦結(jié)果往往與用戶的實際需求相差甚遠。因而,亟需要一種新的應(yīng)用推薦方案,以向用戶提供更為準確的熱點信息推薦,提高用戶體驗度。
技術(shù)實現(xiàn)要素:
本發(fā)明提供一種基于標簽的熱點推薦方法及系統(tǒng),用以解決現(xiàn)有技術(shù)中用戶感興趣的應(yīng)用推薦內(nèi)容不準確的問題。
本發(fā)明提供一種基于標簽的熱點推薦方法,包括:
為每個應(yīng)用內(nèi)容設(shè)置若干標簽;
記錄用戶訪問所述應(yīng)用內(nèi)容的標簽;
統(tǒng)計用戶在設(shè)定時間內(nèi)訪問應(yīng)用內(nèi)容標簽的標簽熱點,并將標簽熱點排序;
將符合標簽熱點的應(yīng)用內(nèi)容推送給用戶瀏覽。
所述方法還包括:
所述為每個應(yīng)用內(nèi)容設(shè)置的若干標簽?zāi)軌蚍从乘鰬?yīng)用內(nèi)容的屬性;
根據(jù)所述屬性將所述應(yīng)用內(nèi)容分類。
所述方法還包括:
根據(jù)所述用戶訪問所述應(yīng)用內(nèi)容的標簽,采用聚類分析,將所述應(yīng)用內(nèi)容分為若干小組。
所述方法還包括:
每個所述小組對應(yīng)若干應(yīng)用內(nèi)容;同一所述應(yīng)用內(nèi)容能夠?qū)儆谌舾蓚€所述小組。
所述方法還包括:
將所述推薦的應(yīng)用內(nèi)容以圖文列表形式展示給所述用戶;
所述用戶通過所述圖文列表的鏈接瀏覽具體展示信息。
所述方法還包括:
根據(jù)所述用戶訪問的應(yīng)用內(nèi)容的標簽出現(xiàn)的頻度設(shè)定所述標簽熱點;
根據(jù)所述標簽熱點獲取具備對應(yīng)標簽的應(yīng)用內(nèi)容,推薦給用戶。
一種基于標簽的熱點推薦系統(tǒng),包括:
標簽設(shè)定單元,用于為每個應(yīng)用內(nèi)容設(shè)置若干標簽;
標簽記錄單元,用于記錄用戶訪問所述應(yīng)用內(nèi)容的標簽;
訪問統(tǒng)計單元,用于統(tǒng)計用戶在設(shè)定時間內(nèi)訪問應(yīng)用內(nèi)容標簽的標簽熱點,并將標簽熱點排序;
應(yīng)用推薦單元,用于將符合標簽熱點的應(yīng)用內(nèi)容推送給用戶瀏覽。
所述應(yīng)用推薦單元,還包括:
分類子單元,用于根據(jù)所述推薦應(yīng)用內(nèi)容的標簽,將所述應(yīng)用內(nèi)容分類;
推薦子單元,用于根據(jù)所述分類,將所述應(yīng)用內(nèi)容推薦給相應(yīng)的用戶。
所述訪問統(tǒng)計單元,還包括:
聚類子單元,用于根據(jù)所述標簽,采用聚類分析獲取應(yīng)用內(nèi)容的標簽熱點;
分組子單元,用于根據(jù)所述應(yīng)用內(nèi)容的標簽熱點,將所述應(yīng)用內(nèi)容分為若干小組。
所述應(yīng)用推薦單元,還包括:
圖文展示子單元,用于將所述應(yīng)用內(nèi)容以圖文列表形式展示給所述用戶;
鏈接子單元,用于設(shè)置所述圖文列表的鏈接,所述用戶通過所述圖文列表的鏈接瀏覽具體展示信息。
本發(fā)明實施例中,通過為每個應(yīng)用內(nèi)容設(shè)置若干標簽;記錄用戶訪問所述應(yīng)用內(nèi)容的標簽;統(tǒng)計用戶在設(shè)定時間內(nèi)訪問應(yīng)用內(nèi)容標簽的標簽熱點,并將標簽熱點排序;將符合標簽熱點的應(yīng)用內(nèi)容推送給用戶瀏覽。本發(fā)明實施例的方案,能夠根據(jù)用戶對應(yīng)用內(nèi)容的瀏覽習(xí)慣,為用戶推薦相關(guān)的熱點應(yīng)用內(nèi)容,準確獲取用戶的瀏覽需求從而準確的推薦應(yīng)用內(nèi)容推薦信息,極大的提高了用戶體驗度。
本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
附圖說明
附圖用來提供對本發(fā)明的進一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
圖1為本發(fā)明實施例1提供的一種基于標簽的熱點推薦方法原理流程圖;
圖2為本發(fā)明實施例2提供的一種基于標簽的熱點推薦系統(tǒng)結(jié)構(gòu)示意圖;
圖3為本發(fā)明實施例2提供的應(yīng)用推薦單元24結(jié)構(gòu)示意圖;
圖4為本發(fā)明實施例2提供的訪問統(tǒng)計單元23結(jié)構(gòu)示意圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行說明,應(yīng)當理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,為本發(fā)明實施例1提供的一種基于標簽的熱點推薦方法原理流程圖,其中,
步驟11,為每個應(yīng)用內(nèi)容設(shè)置若干標簽。
應(yīng)用內(nèi)容,即為應(yīng)用程序的具體內(nèi)容,可以包括應(yīng)用程序的顯示內(nèi)容或者應(yīng)用程序本身。為應(yīng)用內(nèi)容設(shè)置標簽,實際上就是為應(yīng)用內(nèi)容給出與其屬性相關(guān)的幾個關(guān)鍵詞,這些關(guān)鍵詞可以從某一方面描述該應(yīng)用內(nèi)容的關(guān)鍵屬性,這些關(guān)鍵詞即為標簽。這些標簽可以從一方面反映該應(yīng)用內(nèi)容的屬性。
例如,如果應(yīng)用是一款足球體驗類的游戲,則標簽可以設(shè)置為:體育、足球、游戲等,這些標簽可以反映該應(yīng)用的一部分屬性,通過這些標簽可以了解到該應(yīng)用的基本屬性。
為每個應(yīng)用內(nèi)容設(shè)置的若干標簽?zāi)軌蚍从乘鰬?yīng)用內(nèi)容的屬性;
根據(jù)所述屬性將所述應(yīng)用內(nèi)容分類。
實際上,在設(shè)置了標簽之后,由于不同的應(yīng)用內(nèi)容可能存在相同的標簽,因而,可以給應(yīng)用內(nèi)容分類,以方便后續(xù)的操作。分類的依據(jù),就是標簽。具有相同標簽的應(yīng)用內(nèi)容可以分為一類,一個應(yīng)用內(nèi)容可以屬于多個分類。
步驟12,記錄用戶訪問所述應(yīng)用內(nèi)容的標簽。
用戶登錄系統(tǒng),目的在于獲取相關(guān)的應(yīng)用內(nèi)容。例如,應(yīng)用支撐平臺上展示有多個應(yīng)用內(nèi)容,用戶登錄平臺后,可以隨意瀏覽獲取應(yīng)用內(nèi)容。此時,系統(tǒng)需要記錄用戶訪問應(yīng)用內(nèi)容的標簽。也就是記錄用戶的行為,然后根據(jù)用戶的行為來分析可能的興趣點。
本實施例中,采用的方法是記錄用戶訪問應(yīng)用內(nèi)容的標簽。當然,這里不是針對一個用戶進行的,可以是針對大量用戶的記錄和統(tǒng)計。
如果基于用戶行為的日志數(shù)據(jù)進行文本提取的話,就要用到文本特征提取。文本挖掘是一門交叉性學(xué)科,涉及數(shù)據(jù)挖掘、機器學(xué)習(xí)、模式識別、人工智能、統(tǒng)計學(xué)、計算機語言學(xué)、計算機網(wǎng)絡(luò)技術(shù)、信息學(xué)等多個領(lǐng)域。文本挖掘就是從大量的文檔中發(fā)現(xiàn)隱含知識和模式的一種方法和工具,它從數(shù)據(jù)挖掘發(fā)展而來,但與傳統(tǒng)的數(shù)據(jù)挖掘又有許多不同。文本挖掘的對象是海量、異構(gòu)、分布的文檔(web);文檔內(nèi)容是人類所使用的自然語言,缺乏計算機可理解的語義。傳統(tǒng)數(shù)據(jù)挖掘所處理的數(shù)據(jù)是結(jié)構(gòu)化的,而文檔(web)都是半結(jié)構(gòu)或無結(jié)構(gòu)的。所以,文本挖掘面臨的首要問題是如何在計算機中合理地表示文本,使之既要包含足夠的信息以反映文本的特征,又不至于過于復(fù)雜使學(xué)習(xí)算法無法處理。在浩如煙海的網(wǎng)絡(luò)信息中,80%的信息是以文本的形式存放的,WEB文本挖掘是WEB內(nèi)容挖掘的一種重要形式。
文本的表示及其特征項的選取是文本挖掘、信息檢索的一個基本問題,它把從文本中抽取出的特征詞進行量化來表示文本信息。將它們從一個無結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計算機可以識別處理的信息,即對文本進行科學(xué)的抽象,建立它的數(shù)學(xué)模型,用以描述和代替文本。使計算機能夠通過對這種模型的計算和操作來實現(xiàn)對文本的識別。由于文本是非結(jié)構(gòu)化的數(shù)據(jù),要想從大量的文本中挖掘有用的信息就必須首先將文本轉(zhuǎn)化為可處理的結(jié)構(gòu)化形式。目前人們通常采用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統(tǒng)計方法得到的特征項來表示文本向量中的各個維,那么這個向量的維度將是非常的大。這種未經(jīng)處理的文本矢量不僅給后續(xù)工作帶來巨大的計算開銷,使整個 處理過程的效率非常低下,而且會損害分類、聚類算法的精確性,從而使所得到的結(jié)果很難令人滿意。因此,必須對文本向量做進一步凈化處理,在保證原文含義的基礎(chǔ)上,找出對文本特征類別最具代表性的文本特征。為了解決這個問題,最有效的辦法就是通過特征選擇來降維。
目前有關(guān)文本表示的研究主要集中于文本表示模型的選擇和特征詞選擇算法的選取上。用于表示文本的基本單位通常稱為文本的特征或特征項。特征項必須具備一定的特性:1)特征項要能夠確實標識文本內(nèi)容;2)特征項具有將目標文本與其他文本相區(qū)分的能力;3)特征項的個數(shù)不能太多;4)特征項分離要比較容易實現(xiàn)。在中文文本中可以采用字、詞或短語作為表示文本的特征項。相比較而言,詞比字具有更強的表達能力,而詞和短語相比,詞的切分難度比短語的切分難度小得多。因此,目前大多數(shù)中文文本分類系統(tǒng)都采用詞作為特征項,稱作特征詞。這些特征詞作為文檔的中間表示形式,用來實現(xiàn)文檔與文檔、文檔與用戶目標之間的相似度計算。如果把所有的詞都作為特征項,那么特征向量的維數(shù)將過于巨大,從而導(dǎo)致計算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特征抽取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數(shù),以此來降低向量空間維數(shù),從而簡化計算,提高文本處理的速度和效率。文本特征選擇對文本內(nèi)容的過濾和分類、聚類處理、自動摘要以及用戶興趣模式發(fā)現(xiàn)、知識發(fā)現(xiàn)等有關(guān)方面的研究都有非常重要的影響。通常根據(jù)某個特征評估函數(shù)計算各個特征的評分值,然后按評分值對這些特征進行排序,選取若干個評分值最高的作為特征詞,這就是特征抽取(Feature Selection)。
特征選取的方式有4種:(I)用映射或變換的方法把原始特征變換為較少的新特征;(2)從原始特征中挑選出一些最具代表性的特征;(3)根據(jù)專家的知識挑選最有影響的特征;(4)用數(shù)學(xué)的方法進行選取,找出最具分類信息的特征,這種方法是一種比較精確的方法,人為因素的干擾較少,尤其適合于文本自動分類挖掘系統(tǒng)的應(yīng)用。
實際上,在提取用戶行為特征的過程中,需要對用戶信息以及行為信息全面分析,并設(shè)定合理的提取特征數(shù)量和具體內(nèi)容,以更全面的反應(yīng)用戶實際的行為特征,從而為后續(xù)的分類處理奠定基礎(chǔ)。
步驟13,統(tǒng)計用戶在設(shè)定時間內(nèi)訪問應(yīng)用內(nèi)容標簽的標簽熱點,并將標簽熱點排序。
實際上,用戶在設(shè)定時間內(nèi)對應(yīng)用內(nèi)容的訪問行為,就是統(tǒng)計用戶的行為習(xí)慣。這里的設(shè)定時間是為了統(tǒng)計需要,并不是一定需要設(shè)定時間長度。本實施例中,通過對用戶訪問應(yīng)用內(nèi)容對應(yīng)的標簽的記錄和統(tǒng)計,可以獲取實際用戶訪問應(yīng)用內(nèi)容對應(yīng)標簽出現(xiàn)的頻度,頻度越高,說明該標簽熱度越好,因而可以認為該標簽的熱度較高,該標簽對應(yīng)的應(yīng)用內(nèi)容可以作為熱點。這一類的標簽,即為標簽熱點。
通常來說,根據(jù)所述用戶訪問所述應(yīng)用內(nèi)容的標簽,采用聚類分析,將所述應(yīng)用內(nèi)容分為若干小組。每個所述小組對應(yīng)若干應(yīng)用內(nèi)容;同一所述應(yīng)用內(nèi)容能夠?qū)儆谌舾蓚€所述小組。
根據(jù)所述用戶訪問的應(yīng)用內(nèi)容的標簽出現(xiàn)的頻度設(shè)定所述標簽熱點;
根據(jù)所述標簽熱點獲取具備對應(yīng)標簽的應(yīng)用內(nèi)容,推薦給用戶。
聚類分析屬于探索性的數(shù)據(jù)分析方法。通常,我們利用聚類分析將看似無序的對象進行分組、歸類,以達到更好地理解研究對象的目的。聚類結(jié)果要求組內(nèi)對象相似性較高,組間對象相似性較低。在用戶研究中,很多問題可以借助聚類分析來解決,比如,網(wǎng)站的信息分類問題、網(wǎng)頁的點擊行為關(guān)聯(lián)性問題以及用戶分類問題等。
聚類分析計算方法主要有如下幾種:
1、劃分方法(partitioning methods)
給定一個有N個元組或者紀錄的數(shù)據(jù)集,分裂法將構(gòu)造K個分組,每一個分組就代表一個聚類,K<N。而且這K個分組滿足下列條件:(1)每一個分組至少包含一個數(shù)據(jù)紀錄;(2)每一個數(shù)據(jù)紀錄屬于且僅屬于一個分組(注 意:這個要求在某些模糊聚類算法中可以放寬);對于給定的K,算法首先給出一個初始的分組方法,以后通過反復(fù)迭代的方法改變分組,使得每一次改進之后的分組方案都較前一次好,而所謂好的標準就是:同一分組中的記錄越近越好,而不同分組中的紀錄越遠越好。使用這個基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;
大部分劃分方法是基于距離的。給定要構(gòu)建的分區(qū)數(shù)k,劃分方法首先創(chuàng)建一個初始化劃分。然后,它采用一種迭代的重定位技術(shù),通過把對象從一個組移動到另一個組來進行劃分。一個好的劃分的一般準備是:同一個簇中的對象盡可能相互接近或相關(guān),而不同的簇中的對象盡可能遠離或不同。還有許多評判劃分質(zhì)量的其他準則。傳統(tǒng)的劃分方法可以擴展到子空間聚類,而不是搜索整個數(shù)據(jù)空間。當存在很多屬性并且數(shù)據(jù)稀疏時,這是有用的。為了達到全局最優(yōu),基于劃分的聚類可能需要窮舉所有可能的劃分,計算量極大。實際上,大多數(shù)應(yīng)用都采用了流行的啟發(fā)式方法,如k-均值和k-中心算法,漸近的提高聚類質(zhì)量,逼近局部最優(yōu)解。這些啟發(fā)式聚類方法很適合發(fā)現(xiàn)中小規(guī)模的數(shù)據(jù)庫中小規(guī)模的數(shù)據(jù)庫中的球狀簇。為了發(fā)現(xiàn)具有復(fù)雜形狀的簇和對超大型數(shù)據(jù)集進行聚類,需要進一步擴展基于劃分的方法。
2、層次方法(hierarchical methods)
這種方法對給定的數(shù)據(jù)集進行層次似的分解,直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。例如在“自底向上”方案中,初始時每一個數(shù)據(jù)紀錄都組成一個單獨的組,在接下來的迭代中,它把那些相互鄰近的組合并成一個組,直到所有的記錄組成一個分組或者某個條件滿足為止。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。
層次聚類方法可以是基于距離的或基于密度或連通性的。層次聚類方法的一些擴展也考慮了子空間聚類。層次方法的缺陷在于,一旦一個步驟(合并或分裂)完成,它就不能被撤銷。這個嚴格規(guī)定是有用的,因為不用擔心不同選擇的組合數(shù)目,它將產(chǎn)生較小的計算開銷。然而這種技術(shù)不能更正錯誤的決定。 已經(jīng)提出了一些提高層次聚類質(zhì)量的方法。
3、基于密度的方法(density-based methods)
基于密度的方法與其它方法的一個根本區(qū)別是:它不是基于各種各樣的距離的,而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點。這個方法的指導(dǎo)思想就是,只要一個區(qū)域中的點的密度大過某個閥值,就把它加到與之相近的聚類中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。
4、基于網(wǎng)格的方法(grid-based methods)
這種方法首先將數(shù)據(jù)空間劃分成為有限個單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個的單元為對象的。這么處理的一個突出的優(yōu)點就是處理速度很快,通常這是與目標數(shù)據(jù)庫中記錄的個數(shù)無關(guān)的,它只與把數(shù)據(jù)空間分為多少個單元有關(guān)。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法。
很多空間數(shù)據(jù)挖掘問題,使用網(wǎng)格通常都是一種有效的方法。因此,基于網(wǎng)格的方法可以和其他聚類方法集成。
5、基于模型的方法(model-based methods)
基于模型的方法給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數(shù)據(jù)集。這樣一個模型可能是數(shù)據(jù)點在空間中的密度分布函數(shù)或者其它。它的一個潛在的假定就是:目標數(shù)據(jù)集是由一系列的概率分布所決定的。通常有兩種嘗試方向:統(tǒng)計的方案和神經(jīng)網(wǎng)絡(luò)的方案。
當然聚類方法還有:傳遞閉包法,布爾矩陣法,直接聚類法,相關(guān)性分析聚類,基于統(tǒng)計的聚類方法等。
現(xiàn)有的聚類已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類問題。但是由于實際應(yīng)用中數(shù)據(jù)的復(fù)雜性,在處理許多問題時,現(xiàn)有的算法經(jīng)常失效,特別是對于高維數(shù)據(jù)和大型數(shù)據(jù)的情況。因為傳統(tǒng)聚類方法在高維數(shù)據(jù)集中進行聚類時,主要遇到兩個問題。一個是高維數(shù)據(jù)集中存在大量無關(guān)的屬性使得在所有維中存 在簇的可能性幾乎為零;另一個是高維空間中數(shù)據(jù)較低維空間中數(shù)據(jù)分布要稀疏,其中數(shù)據(jù)間距離幾乎相等是普遍現(xiàn)象,而傳統(tǒng)聚類方法是基于距離進行聚類的,因此在高維空間中無法基于距離來構(gòu)建簇。
高維聚類分析已成為聚類分析的一個重要研究方向。同時高維數(shù)據(jù)聚類也是聚類技術(shù)的難點。隨著技術(shù)的進步使得數(shù)據(jù)收集變得越來越容易,導(dǎo)致數(shù)據(jù)庫規(guī)模越來越大、復(fù)雜性越來越高,如各種類型的貿(mào)易交易數(shù)據(jù)、Web文檔、基因表達數(shù)據(jù)等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。但是,受“維度效應(yīng)”的影響,許多在低維數(shù)據(jù)空間表現(xiàn)良好的聚類方法運用在高維空間上往往無法獲得好的聚類效果。高維數(shù)據(jù)聚類分析是聚類分析中一個非?;钴S的領(lǐng)域,同時它也是一個具有挑戰(zhàn)性的工作。高維數(shù)據(jù)聚類分析在市場分析、信息安全、金融、娛樂、反恐等方面都有很廣泛的應(yīng)用。
本實施例中,對于聚類方法沒有具體的限定,只要可以將標簽根據(jù)必要的條件分類,并根據(jù)分類的結(jié)果對應(yīng)用內(nèi)容進行分組即可。
步驟14,將符合標簽熱點的應(yīng)用內(nèi)容推送給用戶瀏覽。
完成標簽的分組后,就需要將標簽對應(yīng)的應(yīng)用內(nèi)容推薦給用戶瀏覽。顯然,不是所有標簽對應(yīng)的應(yīng)用均推薦給用戶,而是選擇標簽熱點對應(yīng)的應(yīng)用內(nèi)容推薦給用戶。這里,標簽熱點的排序可以通過標簽出現(xiàn)的頻度來進行,當然也可以增加其他的排序權(quán)重。
本實施例中,將所述推薦的應(yīng)用內(nèi)容以圖文列表形式展示給所述用戶;
所述用戶通過所述圖文列表的鏈接瀏覽具體展示信息。
通常,所述用戶通過關(guān)注相應(yīng)的微信公眾號,并在所述微信公眾號提供的頁面瀏覽相應(yīng)應(yīng)用內(nèi)容;所述微信公眾號獲取用戶的瀏覽習(xí)慣,并在微信公眾號頁面為用戶推薦所述應(yīng)用內(nèi)容。
實際上,本實施例的方案并不僅限于對用戶瀏覽應(yīng)用內(nèi)容的分析,推而廣之,本實施例可以理解為推薦引擎,主動發(fā)現(xiàn)用戶當前或潛在需求,并主動推送信息給用戶的信息網(wǎng)絡(luò)。挖掘用戶的喜好和需求,主動向用戶推薦其感興趣 或者需要的對象。不是被動查找,而是主動推送;不是獨立媒體,而是媒體網(wǎng)絡(luò);不是檢索機制,而是主動學(xué)習(xí)。
本實施例利用基于內(nèi)容、基于用戶行為、基于社交關(guān)系網(wǎng)絡(luò)等多種方法,為用戶推薦其喜歡的商品或內(nèi)容。
基于內(nèi)容的推薦是分析用戶正在瀏覽的內(nèi)容的"基因",選擇與當前內(nèi)容有相似"基因"的對象推薦給用戶。同時也分析用戶過去瀏覽過的內(nèi)容的"基因",從而獲取其偏好,然后將與用戶偏好的對象推薦給用戶。例如,用戶在瀏覽一款包的時候,為其推薦其他外形相似的包。
基于用戶行為的推薦則是利用群體智慧算法,分析用戶的群體行為,綜合分析用戶與用戶之間的相似度、用戶對小眾商品的個性化需求,從而同時提高推薦的精準性、多樣性與新穎性。
基于社交關(guān)系網(wǎng)絡(luò)的推薦是通過分析用戶所在的社交關(guān)系網(wǎng)絡(luò),找到其最能夠影響到的用戶,或者最能夠影響到該用戶的用戶,再綜合每位用戶的個性化偏好進行推薦。
本實施例中,通過為每個應(yīng)用內(nèi)容設(shè)置若干標簽;記錄用戶訪問所述應(yīng)用內(nèi)容的標簽;統(tǒng)計用戶在設(shè)定時間內(nèi)訪問應(yīng)用內(nèi)容標簽的標簽熱點,并將標簽熱點排序;將符合標簽熱點的應(yīng)用內(nèi)容推送給用戶瀏覽。本發(fā)明實施例的方案,能夠根據(jù)用戶對應(yīng)用內(nèi)容的瀏覽習(xí)慣,為用戶推薦相關(guān)的熱點應(yīng)用內(nèi)容,準確獲取用戶的瀏覽需求從而準確的推薦應(yīng)用內(nèi)容推薦信息,極大的提高了用戶體驗度。
如圖2所示,為本發(fā)明實施例2提供的一種基于標簽的熱點推薦系統(tǒng)結(jié)構(gòu)示意圖,其中,
標簽設(shè)定單元21,用于為每個應(yīng)用內(nèi)容設(shè)置若干標簽;
標簽記錄單元22,用于記錄用戶訪問所述應(yīng)用內(nèi)容的標簽;
訪問統(tǒng)計單元23,用于統(tǒng)計用戶在設(shè)定時間內(nèi)訪問應(yīng)用內(nèi)容標簽的標簽熱 點,并將標簽熱點排序;
應(yīng)用推薦單元24,用于將符合標簽熱點的應(yīng)用內(nèi)容推送給用戶瀏覽。
進一步的,如圖3所示,所述應(yīng)用推薦單元24,還包括:
分類子單元241,用于根據(jù)所述推薦應(yīng)用內(nèi)容的標簽,將所述應(yīng)用內(nèi)容分類;
推薦子單元242,用于根據(jù)所述分類,將所述應(yīng)用內(nèi)容推薦給相應(yīng)的用戶。
圖文展示子單元243,用于將所述應(yīng)用內(nèi)容以圖文列表形式展示給所述用戶;
鏈接子單元244,用于設(shè)置所述圖文列表的鏈接,所述用戶通過所述圖文列表的鏈接瀏覽具體展示信息。
進一步的,如圖4所示,所述訪問統(tǒng)計單元23,還包括:
聚類子單元231,用于根據(jù)所述標簽,采用聚類分析獲取應(yīng)用內(nèi)容的標簽熱點;
分組子單元232,用于根據(jù)所述應(yīng)用內(nèi)容的標簽熱點,將所述應(yīng)用內(nèi)容分為若干小組。
綜上所述,本發(fā)明實施例中,通過為每個應(yīng)用內(nèi)容設(shè)置若干標簽;記錄用戶訪問所述應(yīng)用內(nèi)容的標簽;統(tǒng)計用戶在設(shè)定時間內(nèi)訪問應(yīng)用內(nèi)容標簽的標簽熱點,并將標簽熱點排序;將符合標簽熱點的應(yīng)用內(nèi)容推送給用戶瀏覽。本發(fā)明實施例的方案,能夠根據(jù)用戶對應(yīng)用內(nèi)容的瀏覽習(xí)慣,為用戶推薦相關(guān)的熱點應(yīng)用內(nèi)容,準確獲取用戶的瀏覽需求從而準確的推薦應(yīng)用內(nèi)容推薦信息,極大的提高了用戶體驗度。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器和 光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。