一種興趣識別方法、設(shè)備以及數(shù)據(jù)分析方法

文檔序號：9810523閱讀：838來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種興趣識別方法、設(shè)備以及數(shù)據(jù)分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機領(lǐng)域，并具體涉及一種興趣識別方法、設(shè)備以及數(shù)據(jù)分析方法。
【背景技術(shù)】
[0002] 隨著電子商務(wù)規(guī)模的不斷擴大，商品的種類和數(shù)量快速增長，客戶或潛在客戶的群體規(guī)模龐大?？蛻粜枰ㄙM大量的時間才能選購到心意商品，而企業(yè)傳統(tǒng)識別潛在客戶的方法能力有限。因此，對用戶進行興趣分析是管理復(fù)雜的客戶關(guān)系、改善用戶購物體驗的一項重要工作。
[0003] 用戶興趣是進行網(wǎng)絡(luò)營銷、電子商務(wù)推薦和個性化信息檢索等個性化信息服務(wù)的關(guān)鍵，它反映了用戶的個人特征和興趣偏好，是進行個性化信息服務(wù)的重要依據(jù)。
[0004] 由于用戶的即時興趣受到生活習(xí)慣、時間、地點、天氣、工作計劃及其他周圍環(huán)境因素的影響，其預(yù)測工作也變得非常復(fù)雜。并且，導(dǎo)致預(yù)測工作更為困難的是，針對某一用戶的即時興趣是完全個性化的，無法以其他個體的交易數(shù)據(jù)作為經(jīng)驗歷史數(shù)據(jù)來借鑒。

【發(fā)明內(nèi)容】

[0005] 社交網(wǎng)絡(luò)近年來蓬勃發(fā)展，已成為人們信息發(fā)表和關(guān)注的一個重要線上媒體。而用戶發(fā)表和關(guān)注信息直接或間接顯示其興趣和關(guān)注點等特征。因此，作為一種新興的外部數(shù)據(jù)參考，基于社交網(wǎng)絡(luò)的數(shù)據(jù)分析是獲取用戶興趣愛好的一個重要突破點。
[0006] 根據(jù)本申請的一個方面，提供了一種基于社交網(wǎng)絡(luò)的興趣識別方法，包括：接收關(guān) 于一用戶的興趣的查詢請求；從社交網(wǎng)絡(luò)收集與該用戶相關(guān)的數(shù)據(jù)，所述數(shù)據(jù)包括該用戶發(fā)表的消息以及該用戶在所述社交網(wǎng)絡(luò)中所關(guān)注的對象發(fā)表的消息；根據(jù)預(yù)先確定且定期更新的興趣分類模型，計算所收集的數(shù)據(jù)中的每一消息屬于某一主題分類的概率；根據(jù)所述消息的發(fā)送時間來計算所述消息的第一權(quán)重；通過將所述屬于某一主題分類的概率與包括所述第一權(quán)重的權(quán)重值進行相乘，并進行累加，從而得出所述用戶對于某一主題分類的興趣指數(shù)值；以及根據(jù)所述興趣指數(shù)值，分析該用戶的興趣分布；其中，所述對于某一主題分類的興趣指數(shù)值與用戶對該主題分類的興趣度成正比。
[0007] 在上述興趣識別方法中，所述第一權(quán)重設(shè)置為當(dāng)前日期與所述發(fā)送時間的天數(shù)差的自然對數(shù)的指數(shù)與時間調(diào)劑因子兩者的乘積，所述時間調(diào)劑因子可被調(diào)節(jié)，其取值范圍為大于0小于1。
[0008] 在上述興趣識別方法中，所述權(quán)重值還包括與消息的發(fā)送方相關(guān)的第二權(quán)重。
[0009] 在上述興趣識別方法中，所述興趣分類模型根據(jù)如下的步驟來預(yù)先確定：(a)獲取訓(xùn)練數(shù)據(jù)并對所述訓(xùn)練數(shù)據(jù)進行標(biāo)注；(b)將所述訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為特征向量集合；以及 (c)識別所述特征向量集合中的特征并量化該特征對主題分類的貢獻度，從而生成基于文本的興趣分類模型。
[0010] 在上述興趣識別方法中，步驟（a)包括：使用網(wǎng)絡(luò)爬蟲從數(shù)據(jù)源處收集頁面數(shù)據(jù)；對所收集的頁面數(shù)據(jù)進行文本數(shù)據(jù)的抽??；設(shè)置若干個興趣類別；以及為所抽取的每一份文本數(shù)據(jù)標(biāo)注一標(biāo)簽，所述標(biāo)簽的內(nèi)容為所述若干個興趣類別中的至少一個類別。
[0011] 在上述興趣識別方法中，步驟（b)包括：將所述文本數(shù)據(jù)按照一定規(guī)范切分成詞序列；對所述詞序列標(biāo)注詞性，并去除與興趣識別無關(guān)的一些詞；為所述詞序列進行編碼，并轉(zhuǎn)換空間向量模型；以及根據(jù)所述空間向量模型，進行特征的選擇，從而得到特征向量的集合。
[0012] 在上述興趣識別方法中，所述社交網(wǎng)絡(luò)為微博。
[0013] 在上述興趣識別方法中，所述數(shù)據(jù)源為門戶網(wǎng)站、論壇以及微博，并且其中，對于門戶網(wǎng)站和論壇，所抽取的文本為標(biāo)題、正文、發(fā)表時間和文檔標(biāo)簽，而對于微博，所抽取的文本為正文和發(fā)表時間。
[0014] 在上述興趣識別方法中，去除與興趣識別無關(guān)的一些詞包括：去除介詞、代詞、副詞以及連詞；以及去除停用詞，所述停用詞為實際含義較少、對判斷文章內(nèi)容作用不大的詞語。
[0015] 根據(jù)本申請的另一個方面，提供了一種基于社交網(wǎng)絡(luò)的興趣識別設(shè)備，包括：接收裝置，用于接收關(guān)于一用戶的興趣的查詢請求；收集裝置，用于從社交網(wǎng)絡(luò)收集與該用戶相關(guān)的數(shù)據(jù)，所述數(shù)據(jù)包括該用戶發(fā)表的消息以及該用戶在所述社交網(wǎng)絡(luò)中所關(guān)注的對象發(fā) 表的消息；第一計算裝置，用于根據(jù)預(yù)先確定且定期更新的興趣分類模型，計算所收集的數(shù) 據(jù)中的每一消息屬于某一主題分類的概率；第二計算裝置，用于根據(jù)所述消息的發(fā)送時間來計算所述消息的第一權(quán)重；第三計算裝置，用于通過將所述屬于某一主題分類的概率與包括所述第一權(quán)重的權(quán)重值進行相乘，并進行累加，從而得出所述用戶對于某一主題分類的興趣指數(shù)值；以及分析裝置，用于根據(jù)所述興趣指數(shù)值，分析該用戶的興趣分布；其中，所述對于某一主題分類的興趣指數(shù)值與用戶對該主題分類的興趣度成正比。
[0016] 在上述興趣識別設(shè)備中，所述第二計算裝置配置成計算當(dāng)前日期與所述發(fā)送時間的天數(shù)之間差的自然對數(shù)的指數(shù)，并將其與時間調(diào)劑因子相乘，其中，所述時間調(diào)劑因子可被調(diào)節(jié)，取值范圍為大于〇小于1。
[0017] 在上述興趣識別設(shè)備中，所述權(quán)重值還包括與消息的發(fā)送方相關(guān)的第二權(quán)重。
[0018] 上述興趣識別設(shè)備還可包括：獲取裝置，用于獲取訓(xùn)練數(shù)據(jù)并對所述訓(xùn)練數(shù)據(jù)進行標(biāo)注；轉(zhuǎn)換裝置，用于將所述訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為特征向量集合；以及識別裝置，用于識別所述特征向量集合中的特征并量化該特征對主題分類的貢獻度，從而生成基于文本的興趣分類模型。
[0019] 在上述興趣識別設(shè)備中，所述獲取裝置包括：第一單元，用于使用網(wǎng)絡(luò)爬蟲從數(shù)據(jù) 源處收集頁面數(shù)據(jù)；第二單元，用于對所收集的頁面數(shù)據(jù)進行文本數(shù)據(jù)的抽??；第三單元，用于設(shè)置若干個興趣類別；以及第四單元，用于為所抽取的每一份文本數(shù)據(jù)標(biāo)注一標(biāo)簽，所述標(biāo)簽的內(nèi)容為所述若干個興趣類別中的至少一個類別。
[0020] 在上述興趣識別設(shè)備中，所述轉(zhuǎn)換裝置包括：第五單元，用于將所述文本數(shù)據(jù)按照一定規(guī)范切分成詞序列；第六單元，用于對所述詞序列標(biāo)注詞性，并去除與興趣識別無關(guān)的一些詞；第七單元，用于為所述詞序列進行編碼，并轉(zhuǎn)換空間向量模型；以及第八單元，用于根據(jù)所述空間向量模型，進行特征的選擇，從而得到特征向量的集合。
[0021] 在上述興趣識別設(shè)備中，所述社交網(wǎng)絡(luò)為微博。
[0022] 在上述興趣識別設(shè)備中，所述第二單元配置為當(dāng)數(shù)據(jù)源為門戶網(wǎng)站和論壇時，抽取其標(biāo)題、正文、發(fā)表時間和文檔標(biāo)簽，而當(dāng)數(shù)據(jù)源為微博時，抽取其正文和發(fā)表時間。
[0023] 在上述興趣識別設(shè)備中，第六單元配置為去除介詞、代詞、副詞以及連詞；以及去除停用詞，所述停用詞代表實際含義較少、對判斷文章內(nèi)容作用不大的詞語。
[0024] 根據(jù)本申請的又一方面，提供了一種數(shù)據(jù)分析方法，包括：在接收關(guān)于一用戶的興趣的查詢請求后，從社交網(wǎng)絡(luò)收集與該用戶相關(guān)的數(shù)據(jù)，所述數(shù)據(jù)包括該用戶發(fā)表的消息以及該用戶在所述社交網(wǎng)絡(luò)中所關(guān)注的對象發(fā)表的消息；根據(jù)預(yù)先確定且定期更新的興趣分類模型，計算所收集的數(shù)據(jù)中的每一消息屬于某一主題分類的概率；根據(jù)所述消息的發(fā) 送時間來計算所述消息的第一權(quán)重；根據(jù)所述消息的發(fā)送者來計算所述消息的第二權(quán)重；通過將所述屬于某一主題分類的概率與包括所述第一權(quán)重和所述第二權(quán)重的權(quán)重值進行相乘，并進行累加，從而得出所述用戶對于某一主題分類的興趣指數(shù)值；以及根據(jù)所述興趣指數(shù)值，分析該用戶的興趣分布；其中，所述對于某一主題分類的興趣指數(shù)值與用戶對該主題分類的興趣度成正比。
[0025] 在上述數(shù)據(jù)分析方法中，所述第一權(quán)重設(shè)置為當(dāng)前日期與所述發(fā)送時間的天數(shù)差的自然對數(shù)的指數(shù)與時間調(diào)劑因子兩者的乘積，所述時間調(diào)劑因子可被調(diào)節(jié)，其取值范圍為大于0小于1。
[0026] 在上述數(shù)據(jù)分析方法中，所述興趣分類模型根據(jù)如下的步驟來預(yù)先確定：(a)獲取訓(xùn)練數(shù)據(jù)并對所述訓(xùn)練數(shù)據(jù)進行標(biāo)注；(b)將所述訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為特征向量集合；以及 (c)識別所述特征向量集合中的特征并量化該特征對主題分類的貢獻度，從而生成基于文本的興趣分類模型。
[0027] 在上述數(shù)據(jù)分析方法中，步驟（a)包括：使用網(wǎng)絡(luò)爬蟲從數(shù)據(jù)源處收集頁面數(shù)據(jù)；對所收集的頁面數(shù)據(jù)進行文本數(shù)據(jù)的抽??；設(shè)置若干個興趣類別；以及為所抽取的每一份文本數(shù)據(jù)標(biāo)注一標(biāo)簽，所述標(biāo)簽的內(nèi)容為所述若干個興趣類別中的至少一個類別。
[0028] 在上述數(shù)據(jù)分析方法中，步驟（b)包括：將所述文本數(shù)據(jù)按照一定規(guī)范切分成詞序列；對所述詞序列標(biāo)注詞性，并去除與興趣識別無關(guān)的一些詞；為所述詞序列進行編碼，并轉(zhuǎn)換空間向量模型；以及根據(jù)所述空間向量模型，進行特征的選擇，從而得到特征向量的集合。
[0029] 在上述數(shù)據(jù)分析方法中，所述社交網(wǎng)絡(luò)為微博。
[0030] 在上述數(shù)據(jù)分析方法中，所述數(shù)據(jù)源

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮亮;尹亞偉;張上譽;
技術(shù)所有人：中國銀聯(lián)股份有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

重要特種設(shè)備識別方法相關(guān)技術(shù)

設(shè)備故障分析方法相關(guān)技術(shù)

設(shè)備可靠性分析方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種興趣識別方法、設(shè)備以及數(shù)據(jù)分析方法