基于文本挖掘的互聯(lián)網(wǎng)媒體用戶(hù)屬性分析方法

文檔序號(hào)：9274730閱讀：677來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于文本挖掘的互聯(lián)網(wǎng)媒體用戶(hù)屬性分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種互聯(lián)網(wǎng)媒體用戶(hù)屬性分析方法，尤其涉及一種基于文本挖掘的互聯(lián)網(wǎng)媒體用戶(hù)屬性分析方法。
【背景技術(shù)】
[0002] 目前，全世界互聯(lián)網(wǎng)已經(jīng)形成規(guī)模，互聯(lián)網(wǎng)應(yīng)用走向多元化，互聯(lián)網(wǎng)越來(lái)越深刻地改變著人們的學(xué)習(xí)、工作以及生活方式。在網(wǎng)絡(luò)數(shù)據(jù)分析中，能準(zhǔn)確知道互聯(lián)網(wǎng)用戶(hù)的習(xí) 慣、需求等屬性是精確內(nèi)容推廣或者廣告投放的重要前提。目前，在互聯(lián)網(wǎng)中識(shí)別媒體用戶(hù) 屬性的現(xiàn)有技術(shù)方案都是基于用戶(hù)文章樣本的，需要首先收集用戶(hù)全量歷史樣本，整理樣本用戶(hù)的數(shù)據(jù)，整理樣本庫(kù)，對(duì)樣本庫(kù)進(jìn)行標(biāo)簽語(yǔ)料庫(kù)分類(lèi)，比如，某個(gè)語(yǔ)料庫(kù)代表"購(gòu)物"、 "時(shí)尚"、"服飾"等內(nèi)容；然后再根據(jù)樣本庫(kù)和互聯(lián)網(wǎng)用戶(hù)的樣本庫(kù)進(jìn)行匹配，來(lái)識(shí)別用戶(hù)屬性。比如：如果一個(gè)男性用戶(hù)喜歡訪(fǎng)問(wèn)"軍事"、"理財(cái)"內(nèi)容的樣本文章，那么所有訪(fǎng)問(wèn)"軍事"，"理財(cái)"類(lèi)樣本的用戶(hù)都是男性的概率較大。即，在互聯(lián)網(wǎng)中識(shí)別用戶(hù)屬性的傳統(tǒng)方法基于樣本數(shù)據(jù)，通過(guò)機(jī)器學(xué)習(xí)，再配以數(shù)據(jù)模型進(jìn)行訓(xùn)練，進(jìn)行互聯(lián)網(wǎng)用戶(hù)屬性的判斷。
[0003] 上述傳統(tǒng)方法存在以下缺陷：都需要有一個(gè)已知的用戶(hù)樣本，然后通過(guò)用戶(hù)樣本的行為偏好進(jìn)行機(jī)器學(xué)習(xí)，再分析未知用戶(hù)的用戶(hù)屬性，所以只能分析樣本用戶(hù)屬性中的已知屬性，對(duì)未知的屬性無(wú)法識(shí)別和挖掘，而且對(duì)已知屬性進(jìn)行分析也不夠精確。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的就在于為了解決上述問(wèn)題而提供一種能對(duì)互聯(lián)網(wǎng)用戶(hù)的屬性進(jìn)行全方位分析的基于文本挖掘的互聯(lián)網(wǎng)媒體用戶(hù)屬性分析方法。
[0005] 本發(fā)明通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)上述目的：
[0006] 一種基于文本挖掘的互聯(lián)網(wǎng)媒體用戶(hù)屬性分析方法，包括以下步驟：
[0007] (1)文本挖掘：
[0008] 1. 1 :創(chuàng)建標(biāo)簽主語(yǔ)料庫(kù)：
[0009] 1. 1. 1 :抽取文章樣本，對(duì)樣本進(jìn)行清洗，清洗掉音頻、視頻、圖片和殘缺文章、亂碼、非法字符；
[0010] 1. 1. 2 :根據(jù)標(biāo)簽類(lèi)庫(kù)人工分類(lèi)；
[0011] 1. 1. 3 :對(duì)樣本同時(shí)進(jìn)行動(dòng)態(tài)聚類(lèi)和模糊聚類(lèi)，設(shè)置簇參數(shù)；
[0012] 1. 1. 4 :依次進(jìn)行語(yǔ)義分析、簇特征分析、修正簇參數(shù)和密度降噪處理，得出噪音值 M ；
[0013] 1. 1. 5 :將噪音值M與閾值a作比較，如果噪音值M小于閾值a，則跳轉(zhuǎn)至步驟 1. 1. 6,如果噪音值M大于或等于閾值a，則跳轉(zhuǎn)至步驟1. 1. 3 ;
[0014] 1. 1. 6 :再依次進(jìn)行模型聚類(lèi)、語(yǔ)義分析、類(lèi)特征分析、修正類(lèi)參數(shù)和密度降噪處理，得出噪音值N;
[0015] 1. 1. 7 :將噪音值N與閾值a作比較，如果噪音值N小于閾值a，則跳轉(zhuǎn)至步驟 1. 1. 8,如果噪音值N大于或等于閾值a，則進(jìn)行修正標(biāo)簽類(lèi)庫(kù)后跳轉(zhuǎn)至步驟1. 1. 6;
[0016] 1. 1. 8 :進(jìn)行模型分類(lèi)形成標(biāo)簽主語(yǔ)料庫(kù)；
[0017] 1. 2 :創(chuàng)建特征語(yǔ)料庫(kù)：
[0018] 1. 2. 1 :對(duì)標(biāo)簽主語(yǔ)料庫(kù)依次進(jìn)行樣本詞頻分析、語(yǔ)義分析；
[0019] 1. 2. 2 :進(jìn)行高詞頻分類(lèi)；
[0020] 1. 2. 3:創(chuàng)建特征詞與標(biāo)簽類(lèi)庫(kù)的映射模型，形成特征語(yǔ)料庫(kù)；
[0021] 1.3:語(yǔ)料庫(kù)更新維護(hù)：
[0022] 1. 3. 1 :抽取全量已分類(lèi)文章樣本；
[0023] 1. 3. 2:依次進(jìn)行詞頻分析、語(yǔ)義分析、密度降噪處理和清洗噪音數(shù)據(jù)，樣本分類(lèi)，更新標(biāo)簽主語(yǔ)料庫(kù)或者特征語(yǔ)料庫(kù)；
[0024] 1. 3. 3 :搜集新增標(biāo)簽，抽取帶新增標(biāo)簽文章樣本，進(jìn)入步驟1. 1，清洗噪音數(shù)據(jù)，樣本分類(lèi)，更新標(biāo)簽主語(yǔ)料庫(kù)；
[0025] (2)獲取互聯(lián)網(wǎng)媒體用戶(hù)屬性集合：
[0026]2. 1 :抽取互聯(lián)網(wǎng)媒體用戶(hù)全量歷史文章樣本，對(duì)樣本進(jìn)行清洗，清洗掉視頻、音頻和圖片；
[0027] 2. 2:對(duì)樣本進(jìn)行動(dòng)態(tài)聚類(lèi)和模糊聚類(lèi)同步處理，再依次進(jìn)行詞頻分析、語(yǔ)義分析、類(lèi)特征分析、修正類(lèi)參數(shù)和密度降噪處理，得出噪音值A(chǔ);
[0028] 2. 3 :將噪音值A(chǔ)與閾值a作比較，如果噪音值A(chǔ)小于閾值a，則跳轉(zhuǎn)至步驟2. 4,如果噪音值A(chǔ)大于或等于閾值a，則跳轉(zhuǎn)至步驟2. 2;
[0029] 2. 4:再依次進(jìn)行模型聚類(lèi)、語(yǔ)義分析、類(lèi)特征分析和密度降噪處理，得出噪音值 B ；
[0030] 2. 5 :將噪音值B與閾值a作比較，如果噪音值B小于閾值a，則跳轉(zhuǎn)至步驟2. 6,如果噪音值B大于或等于閾值a，則進(jìn)行修正類(lèi)參數(shù)處理后跳轉(zhuǎn)至步驟2. 4;
[0031] 2. 6 :進(jìn)行模型分類(lèi)形成互聯(lián)網(wǎng)媒體用戶(hù)屬性集合；
[0032] 上述步驟中，閾值a根據(jù)業(yè)務(wù)需要進(jìn)行調(diào)整，一般選擇0. 01 ;上述步驟中涉及下述詞語(yǔ)的定義如下：
[0033] 標(biāo)簽類(lèi)庫(kù)：由一類(lèi)自定義標(biāo)簽形成的類(lèi)庫(kù)，每一個(gè)標(biāo)簽均指向同一類(lèi)屬性的事物，不同類(lèi)標(biāo)簽之間有明顯特征區(qū)別，遵循高聚類(lèi)、低耦合的原則；
[0034] 簇參數(shù)：用聚類(lèi)算法進(jìn)行聚類(lèi)時(shí)，根據(jù)標(biāo)簽類(lèi)庫(kù)的標(biāo)簽種類(lèi)數(shù)量及文章的相似度人為設(shè)定的一個(gè)組類(lèi)數(shù)量，同組類(lèi)的樣本相似度較高，異組類(lèi)的樣本相似度較低，聚類(lèi)時(shí)以此參數(shù)作為分組的依據(jù)，并通過(guò)人工監(jiān)督的方式不斷調(diào)整該參數(shù)，以達(dá)到與標(biāo)簽類(lèi)庫(kù)最佳匹配的目的；
[0035] 語(yǔ)義分析：第一，人工分析：對(duì)樣本進(jìn)行聚類(lèi)后，通過(guò)人工抽樣的方式，對(duì)樣本進(jìn) 行人工理解，判斷樣本之間的相似度的過(guò)程，同時(shí)作為簇參數(shù)的修改依據(jù)；第二，機(jī)器分析：對(duì)樣本進(jìn)行分類(lèi)時(shí)，通過(guò)與語(yǔ)料庫(kù)的匹配算法，對(duì)樣本進(jìn)行分類(lèi)的過(guò)程，同時(shí)作為語(yǔ)料庫(kù)修正的依據(jù)；
[0036] 簇特征分析：通過(guò)語(yǔ)義分析，利用提取主特征的算法，對(duì)已聚類(lèi)的簇進(jìn)行特征提取和標(biāo)識(shí)的過(guò)程；
[0037] 修正簇參數(shù)：在構(gòu)建語(yǔ)料庫(kù)時(shí)，對(duì)樣本進(jìn)行第一次聚類(lèi)后，通過(guò)人工監(jiān)督學(xué)習(xí)的方式，利用簇特征分析，調(diào)整聚類(lèi)的組類(lèi)數(shù)量以達(dá)到與標(biāo)簽類(lèi)庫(kù)的最佳匹配，這個(gè)調(diào)整組類(lèi)數(shù) 量的過(guò)程即為修正簇參數(shù)；
[0038] 密度降噪處理：在簇特征分析過(guò)程中，需要對(duì)數(shù)據(jù)進(jìn)行噪音處理，將主特征散點(diǎn)分布圖中距離較遠(yuǎn)的點(diǎn)去掉，以形成可反應(yīng)主特征的類(lèi)別集合，這個(gè)去除噪音點(diǎn)的過(guò)程，即為密度降噪處理；
[0039] 類(lèi)特征分析：經(jīng)過(guò)第一次簇降噪，對(duì)降噪后的類(lèi)別集合進(jìn)行特征提取和標(biāo)識(shí)的過(guò) 程；
[0040] 修正類(lèi)參數(shù)：在構(gòu)建語(yǔ)料庫(kù)時(shí)，對(duì)樣本進(jìn)行第二次聚類(lèi)后，通過(guò)人工監(jiān)督學(xué)習(xí)的方式，利用類(lèi)特征分析，調(diào)整聚類(lèi)的組類(lèi)數(shù)量以達(dá)到與標(biāo)簽類(lèi)庫(kù)的最佳匹配，這個(gè)調(diào)整組類(lèi)數(shù) 量的過(guò)程即為修正簇參數(shù)；
[0041] 修正標(biāo)簽類(lèi)庫(kù)：在第二次聚類(lèi)的過(guò)程中，由于已經(jīng)進(jìn)行過(guò)一次降噪處理，樣本分類(lèi) 模型已初步滿(mǎn)足高聚類(lèi)、低耦合的原則，再基于此模型進(jìn)行第二次降噪處理后，基本可以達(dá) 到業(yè)務(wù)要求，此時(shí)的分類(lèi)模型已經(jīng)確定，需要通過(guò)調(diào)整標(biāo)簽類(lèi)庫(kù)來(lái)達(dá)到與分類(lèi)的最佳匹配，此調(diào)整過(guò)程即為修正標(biāo)簽類(lèi)庫(kù)；
[0042] 基于模型分類(lèi)：經(jīng)過(guò)兩次降噪處理后，形成一個(gè)基于樣本的分類(lèi)模型，作為冷啟動(dòng) 的修正算法，再對(duì)需要分類(lèi)的樣本基于該模型進(jìn)行分類(lèi)的過(guò)程；
[0043] 動(dòng)態(tài)聚類(lèi)：按照限定類(lèi)別去發(fā)現(xiàn)符合類(lèi)別的樣本詞匯；
[0044] 模糊聚類(lèi)：按照樣本詞匯語(yǔ)義模糊歸屬類(lèi)別；
[0045] 模型聚類(lèi)：先假設(shè)一個(gè)類(lèi)別，再去發(fā)現(xiàn)符合類(lèi)別的樣本詞匯，將給定類(lèi)別和樣本詞匯達(dá)到最佳擬合。
[0046] 作為優(yōu)選，所述步驟1. 1. 4中，M值算法如下：
[0047] 考慮給定對(duì)象集D，對(duì)象〇的k_距離記為disk k(o)，是〇與另一個(gè)對(duì)象p G D之間的距離dist(o，p)，使得：
[0048] 至少有 K 個(gè)對(duì)象 o' G D，使得 disk(o, o'）< dist(o, p)，
[0049] 至少有 K-1 個(gè)對(duì)象 o' G D，使得 disk(o, o'）< dist(o, p)，
[0050] 記：
[0051] Nk (o) = {〇' | o' G D，dist (〇, o'）< distk (o)}，
[0052] 對(duì)于兩個(gè)對(duì)象〇，〇'，如果dist(o, o'）>d

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王飛;張國(guó)鴻;張何君;
技術(shù)所有人：成都云堆移動(dòng)信息技術(shù)有限公司;
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本內(nèi)容安全分析方法相關(guān)技術(shù)

數(shù)據(jù)挖掘分析方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于文本挖掘的互聯(lián)網(wǎng)媒體用戶(hù)屬性分析方法