亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于遠(yuǎn)程對話的用戶特征挖掘方法

文檔序號:9597980閱讀:480來源:國知局
基于遠(yuǎn)程對話的用戶特征挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及大數(shù)據(jù),特別涉及一種基于遠(yuǎn)程對話的用戶特征挖掘方法。
【背景技術(shù)】
[0002] 近年來,社交網(wǎng)絡(luò)迅速發(fā)展,用戶人數(shù)呈爆炸式增長。通過社交網(wǎng)絡(luò)服務(wù),人們除 了進(jìn)行社交行為,則更多的是將社交網(wǎng)絡(luò)當(dāng)成公共的媒體平臺,滿足社交需求和特定興趣 獲取需求。對于用戶的專業(yè)信息及特定興趣獲取需求,而當(dāng)前社交網(wǎng)絡(luò)產(chǎn)品則不能很好的 滿足該需求,各類用戶發(fā)表的信息混雜在一起,用戶需要自己去甄別其中自己感興趣的信 息。如果對社交網(wǎng)絡(luò)特定領(lǐng)域中信息走向及分布特點進(jìn)行準(zhǔn)確的研究,需要對其中的影響 力用戶進(jìn)行深度的分析挖掘,而短文本無法蘊含豐富的語義特征,這就使得很多在處理文 本有較好性能的算法直接用于社交網(wǎng)絡(luò)數(shù)據(jù)的處理并不能得到很好的效果。

【發(fā)明內(nèi)容】

[0003] 為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種基于遠(yuǎn)程對話的用戶特征 挖掘方法,包括:
[0004] 構(gòu)建分布式主題挖掘體系結(jié)構(gòu),利用社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行主題監(jiān)測模型訓(xùn)練,獲取 不同領(lǐng)域社區(qū)中的用戶主題分布。
[0005] 優(yōu)選地,所述分布式主題挖掘體系結(jié)構(gòu)包括數(shù)據(jù)采集模塊、數(shù)據(jù)運算存儲模塊、算 法分析模塊、任務(wù)管理模塊、前端顯示模塊,數(shù)據(jù)采集模塊通過調(diào)用開放平臺API和抓取 網(wǎng)站網(wǎng)頁兩種方式,采集系統(tǒng)需要的用戶相關(guān)數(shù)據(jù),并對數(shù)據(jù)進(jìn)行解析、處理,最終將數(shù)據(jù) 導(dǎo)入到數(shù)據(jù)存儲模塊;數(shù)據(jù)運算存儲模塊為下層的數(shù)據(jù)采集模塊提供原始數(shù)據(jù)存儲服務(wù), 為上層的算法分析模塊提供算法計算結(jié)果數(shù)據(jù)存儲服務(wù),同時為前端顯示模塊提供顯示 數(shù)據(jù)存儲服務(wù),其中分布式文件系統(tǒng)部分負(fù)責(zé)用戶相關(guān)原始數(shù)據(jù)及算法中間結(jié)果的存儲, MapReduce部分負(fù)責(zé)數(shù)據(jù)的處理及算法運算,數(shù)據(jù)庫用于存儲算法的計算結(jié)果及前端顯示 模塊所需數(shù)據(jù);算法分析模塊實現(xiàn)并運行社交網(wǎng)絡(luò)各領(lǐng)域社區(qū)發(fā)現(xiàn)和用戶社區(qū)主題挖掘方 法,計算用戶相關(guān)數(shù)據(jù),得到數(shù)據(jù)挖掘結(jié)果;任務(wù)管理模塊負(fù)責(zé)其他各模塊任務(wù)的分發(fā)和調(diào) 度,前端顯示模塊顯示算法的計算結(jié)果,將特定領(lǐng)域用戶的社區(qū)劃分結(jié)果以及對各個社區(qū) 主題挖掘的結(jié)果進(jìn)行顯示;所述分布式文件系統(tǒng),還用于存儲在社交內(nèi)容采集的用戶原始 數(shù)據(jù)、模型訓(xùn)練的中間數(shù)據(jù)以及部分算法的結(jié)果數(shù)據(jù);存儲用戶信息及算法的計算結(jié)果, 為前端顯示模塊提供數(shù)據(jù)庫功能支撐,該分布式文件系統(tǒng)是在Linux文件系統(tǒng)基礎(chǔ)上實現(xiàn) 的,存儲其中的數(shù)據(jù)都是以純文本形式存儲;使用tab鍵作為各個字段的分割符,對于模型 訓(xùn)練的結(jié)果在分布式文件系統(tǒng)中也是以文本文件方式存儲,數(shù)據(jù)庫中存儲用戶信息、用戶 連接關(guān)系、社交網(wǎng)絡(luò)各領(lǐng)域社區(qū)發(fā)現(xiàn)模型對影響力用戶的社區(qū)劃分結(jié)果及特定領(lǐng)域用戶社 區(qū)主題挖掘方法對影響力用戶群主題挖掘的結(jié)果,為前端顯示模塊提供數(shù)據(jù)庫功能支撐;
[0006] 在模型訓(xùn)練過程中,記錄模型主題分布的狀態(tài)以及主題下關(guān)鍵詞的分布狀態(tài),使 用兩個矩陣來完成中間狀態(tài)的記錄:nw矩陣,記錄每個詞語在各個主題上的分布情況;nd 矩陣,記錄每個文檔在各個主題上的分布情況,通過不斷更新上述兩個矩陣的狀態(tài)信息,最 終使模型達(dá)到收斂,模型訓(xùn)練的過程為:
[0007] 1)將主題個數(shù)記為T,則初始化階段對原始數(shù)據(jù)中的所有詞語隨機分配一個主題 t,其中t e {0···τ-1},得到模型訓(xùn)練的原始數(shù)據(jù);
[0008] 2)按照數(shù)據(jù)分片的大小將原始數(shù)據(jù)切分成Ν等份,并將數(shù)據(jù)分片分發(fā)到集群中不 同的節(jié)點上;
[0009] 3)針對每一個數(shù)據(jù)分片,在相應(yīng)的節(jié)點上啟動一個映射器任務(wù);該映射器任務(wù)首 先本地加載一份全局的nw\nd矩陣,得到前一次迭代完成后模型的狀態(tài)信息;
[0010] 4)在本地nw\nd狀態(tài)矩陣的基礎(chǔ)上計算本映射器任務(wù)數(shù)據(jù)塊中所有詞語新的主 題分布,并將對全局nw\nd矩陣的更新迀移到一個固定的規(guī)約任務(wù)中,然后詞語及其更新 的主題分布迀移到另外的一個或多個規(guī)約任務(wù)中;
[0011] 5)啟動一個專門用于接收nw\nd矩陣更新信息的規(guī)約任務(wù),用來集中處理來自各 個映射器任務(wù)的狀態(tài)更新信息,然后對全局的nw\nd進(jìn)行更新;另外的規(guī)約任務(wù)則將詞語 及其更新的主題分布數(shù)據(jù)寫入分布式文件系統(tǒng)中,為下一次迭代做好準(zhǔn)備;
[0012] 6)重復(fù)上述2-5的過程,直到收斂。
[0013] 本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點:
[0014] 本發(fā)明提出了一種基于遠(yuǎn)程對話的用戶特征挖掘方法,通過分析特定領(lǐng)域下用戶 主題的特征,幫助用戶從海量數(shù)據(jù)中高效獲取信息。
【附圖說明】
[0015] 圖1是根據(jù)本發(fā)明實施例的基于遠(yuǎn)程對話的用戶特征挖掘方法的流程圖。
【具體實施方式】
[0016] 下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細(xì)描 述。結(jié)合這樣的實施例描述本發(fā)明,但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權(quán) 利要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié) 以便提供對本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié),并且無這些具體細(xì)節(jié)中 的一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書實現(xiàn)本發(fā)明。
[0017] 本發(fā)明的一方面提供了一種基于遠(yuǎn)程對話的用戶特征挖掘方法。圖1是根據(jù)本發(fā) 明實施例的基于遠(yuǎn)程對話的用戶特征挖掘方法流程圖。
[0018] 針對用戶在社交網(wǎng)絡(luò)上對特定領(lǐng)域信息的需求,本發(fā)明利用社交網(wǎng)絡(luò)數(shù)據(jù),準(zhǔn)確 識別特定領(lǐng)域影響力用戶;在識別出的影響力用戶群基礎(chǔ)上,完成影響力用戶社交網(wǎng)絡(luò)的 構(gòu)建及關(guān)聯(lián)強度的估計,并基于用戶關(guān)聯(lián)強度進(jìn)行社區(qū)劃分,為接下來挖掘影響力用戶群 內(nèi)的主題分布做準(zhǔn)備;本發(fā)明進(jìn)一步利用特定領(lǐng)域用戶社區(qū)主題挖掘方法,分析社交網(wǎng)絡(luò) 數(shù)據(jù)特征及主題分布特征的基礎(chǔ)上,高效挖掘不同領(lǐng)域社區(qū)中熱門主題;達(dá)到幫助用戶從 海量數(shù)據(jù)中高效獲取信息的目的。
[0019] 為了能盡量完整的識別目標(biāo)用戶群體,本發(fā)明同時采用基于拓?fù)浣Y(jié)構(gòu)和基于用戶 行為內(nèi)容的算法,根據(jù)每個領(lǐng)域的相關(guān)先驗信息,選擇出部分種子用戶作為拓?fù)湎蛲馔卣?的起點,然后根據(jù)種子用戶,結(jié)合領(lǐng)域相關(guān)先驗信息,得到一個領(lǐng)域關(guān)鍵詞列表;根據(jù)關(guān)鍵 詞列表搜索相關(guān)的用戶狀態(tài),通過解析返回內(nèi)容,得到發(fā)表這些狀態(tài)的用戶,作為候選用 戶。根據(jù)候選用戶獲得這些用戶的社交網(wǎng)絡(luò)數(shù)據(jù),作為識別算法的數(shù)據(jù)源,來分析特定領(lǐng)域 用戶的特征。
[0020] 其中數(shù)據(jù)獲取方式有兩種:一是對指定的頁面進(jìn)行抓取,這種方法直接訪問Web 頁面,得到原始數(shù)據(jù),然后通過頁面解析等方式對信息進(jìn)行提取,獲取所需數(shù)據(jù)。另一種方 式是通過開放平臺提供的API獲取數(shù)據(jù)。
[0021] 本發(fā)明同時考慮用戶的社交網(wǎng)絡(luò)有向圖結(jié)構(gòu)關(guān)系和用戶發(fā)表的內(nèi)容信息,將判別 用戶是否是該影響力用戶的問題映射為一個分類的問題。以下是提取用戶特征的方法以及 基于提取的用戶特征構(gòu)建分類器的過程。
[0022] 本發(fā)明將特征分為三大類:用戶屬性特征、用戶社交習(xí)慣特征、用戶社交內(nèi)容語言 特征。用戶填寫個人相關(guān)的一些信息過程中,系統(tǒng)會維持這些信息的動態(tài)更新。可以通過 開放API服務(wù)得到。影響力用戶往往因其作為信息提供者身份而在被關(guān)注人數(shù)、發(fā)布主題 數(shù)量上有較高值。使用個性描述、標(biāo)簽兩個特征來分別反映用戶個性描述部分和標(biāo)簽部分 的情況。首先將訓(xùn)練集中正向樣本用戶的所有個性描述及標(biāo)簽部分進(jìn)行詞頻統(tǒng)計,得到詞 頻高于預(yù)定閾值的的詞語集合D和T。然后,通過如下的計算公式;來得到個性描述和標(biāo)簽 的記分值。
[0023] 個性描述記分值=| Di n D I / ID
[0024] 其中,Di指當(dāng)前用戶i的個性描述中出現(xiàn)的詞。
[0025] 標(biāo)簽記分值=1η T I / I T
[0026] 其中,?\指當(dāng)前用戶i的個人標(biāo)簽列表。
[0027] 影響力用戶發(fā)表的內(nèi)容往往具有較高的價值,這樣會引來別人的大量評論和轉(zhuǎn) 發(fā)。因此進(jìn)一步統(tǒng)計每個主題的平均評論數(shù)和平均轉(zhuǎn)發(fā)數(shù)的值,則來分析影響力用戶特征。
[0028] 本發(fā)明綜合考慮了轉(zhuǎn)發(fā)內(nèi)容和會話內(nèi)容跟原
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1