一種基于用戶詞典的網(wǎng)絡社交文本大數(shù)據(jù)處理方法及系統(tǒng)與流程

文檔序號：12719588閱讀：來源：國知局

技術特征：

1.一種基于用戶詞典的網(wǎng)絡社交文本大數(shù)據(jù)處理方法，其特征是，包括：

步驟(1)：網(wǎng)絡社交文本大數(shù)據(jù)的獲?。涸谛吕宋⒉╅_放平臺上獲取新浪微博用戶的微博文本，由于微博文本數(shù)據(jù)存儲空間大以及為了保證大數(shù)據(jù)的獲取速度，從網(wǎng)上下載了文本壓縮文件；然后對文本壓縮文件解壓縮處理得到包含微博數(shù)據(jù)的txt文件，對包含微博數(shù)據(jù)的txt文件進行數(shù)據(jù)信息初步的提?。?/p>

步驟(2)：用戶詞典的構建：從微博數(shù)據(jù)中篩選符合待研究心里品質的詞匯，對該詞匯進行預處理，根據(jù)預處理后的詞匯編制調查問卷，根據(jù)調查問卷的問卷題目篩選結果，構建用戶詞典；

步驟(3)：微博文本消息中的關鍵詞模糊匹配，關鍵詞詞頻統(tǒng)計：

步驟(31)：根據(jù)微博發(fā)布的時間點來劃分微博片段，將用戶詞典中待匹配的關鍵詞分解為單個字，

步驟(32)：判斷關鍵詞當中的每一個字是否均在微博片段的文本消息中出現(xiàn)一次，若是，則關鍵詞詞頻加一；若不是則關鍵詞詞頻不變；對所有微博片段進行分析，找出用戶詞典中的各個關鍵詞在每個月份的詞頻。

2.如權利要求1所述的一種基于用戶詞典的網(wǎng)絡社交文本大數(shù)據(jù)處理方法，其特征是，統(tǒng)計每個月份含有各個關鍵詞的頻數(shù)，以csv文件格式進行保存；詞頻統(tǒng)計csv文件的第一列是關鍵詞，第一行是含有該關鍵詞的月份。

3.如權利要求1所述的一種基于用戶詞典的網(wǎng)絡社交文本大數(shù)據(jù)處理方法，其特征是，根據(jù)各個關鍵詞在每個月份的詞頻，判斷被研究人員的待研究心理品質。

4.如權利要求1所述的一種基于用戶詞典的網(wǎng)絡社交文本大數(shù)據(jù)處理方法，其特征是，若某個微博片段中含有多個關鍵詞，則該微博片段的內容會同時與不同關鍵詞進行模糊匹配。

5.如權利要求1所述的一種基于用戶詞典的網(wǎng)絡社交文本大數(shù)據(jù)處理方法，其特征是，由于微博文本中的程度級別詞語和否定詞會影響到關鍵詞的模糊匹配，將程度級別詞語設置不同的權重；沒有出現(xiàn)程度級別詞語的權值記為1；否定詞權重奇數(shù)次出現(xiàn)記為-1，偶數(shù)次出現(xiàn)記為1；每個關鍵詞的詞頻＝程度級別詞語權值*否定詞權重+名詞詞頻。

6.如權利要求1所述的一種基于用戶詞典的網(wǎng)絡社交文本大數(shù)據(jù)處理方法，其特征是，所述步驟(1)中進行數(shù)據(jù)信息初步的提取是指采用文本遍歷和文本過濾的方法過濾掉無用的信息，保留有用的信息，將有用的信息另存為txt文件。

7.如權利要求6所述的一種基于用戶詞典的網(wǎng)絡社交文本大數(shù)據(jù)處理方法，其特征是，所述無用的信息包括：網(wǎng)絡連接或表情符號；所述有用的信息包括：用戶創(chuàng)建微博的時間、省份、微博內容以及用戶性別。

8.如權利要求5所述的一種基于用戶詞典的網(wǎng)絡社交文本大數(shù)據(jù)處理方法，其特征是，將程度詞分為四個等級并賦予相應權重(2，1.75，1.5，0.5)。

9.如權利要求1所述的一種基于用戶詞典的網(wǎng)絡社交文本大數(shù)據(jù)處理方法，其特征是，所述步驟(2)的步驟為：

步驟(21)：確定待研究心理品質的維度；待研究心里品質指的是使用者的所研究的心理主題，待研究心理品質包括：生涯適應力或大五人格；

步驟(22)：從微博排名前設定個數(shù)的用戶的原創(chuàng)微博的微博文本內容中抽取符合待研究心理品質的詞匯；抽取的詞匯必須包括名詞和趨勢詞；所述趨勢詞是指能表述事物發(fā)展動向的詞，對抽取的詞匯進行匯總整理，刪除重復詞匯，對含同義詞或近義詞進行合并處理；

步驟(23)：問卷編制：問卷包括若干個題目，每個題目包括五個選項；每個題目對應一個待研究的心理品質維度；將合并處理的詞作為題目，一個詞匯對應一個題目，隨機抽取人群作為被試人員，問卷采用Likert 5點計分，從非常同意"、"同意"、"不一定"、"不同意"到"非常不同意"五種選項，分別記為5、4、3、2、1分；被試人員對某個題目的選項越集中，說明該題目對應的詞匯越具有代表性；按照集中程度來進行問卷題目的刪除：計算問卷中每個題目中各個選項的百分比，參考一致性系數(shù)的數(shù)值標準，保留單個選項百分比大于等于60％和兩個選項百分比之和大于等于60％或且相鄰三個選項中兩兩相鄰選項百分比不能同時大于等于60％的詞匯；

步驟(24)：形成用戶詞典；按照步驟(23)的按照集中程度來進行問卷題目的刪除方法，刪除被試人員難以達成一致的詞匯，保留被試人員能達成一致的詞匯，構成了最終的待研究心理品質的用戶詞典，保留被試人員能達成一致的詞匯就是用戶詞典的關鍵詞；所述用戶詞典的關鍵詞個數(shù)人為設定。

10.一種基于用戶詞典的網(wǎng)絡社交文本大數(shù)據(jù)處理系統(tǒng)，其特征是，包括：

網(wǎng)絡社交文本大數(shù)據(jù)的獲取單元：在新浪微博開放平臺上獲取新浪微博用戶的微博文本，由于微博文本數(shù)據(jù)存儲空間大以及為了保證大數(shù)據(jù)的獲取速度，從網(wǎng)上下載了文本壓縮文件；然后對文本壓縮文件解壓縮處理得到包含微博數(shù)據(jù)的txt文件，對包含微博數(shù)據(jù)的txt文件進行數(shù)據(jù)信息初步的提??；

用戶詞典的構建單元，用于從微博數(shù)據(jù)中篩選符合待研究心里品質的詞匯，對該詞匯進行預處理，根據(jù)預處理后的詞匯編制調查問卷，根據(jù)調查問卷的問卷題目篩選結果，構建用戶詞典；

微博文本消息中的關鍵詞模糊匹配，關鍵詞詞頻統(tǒng)計單元：

根據(jù)微博發(fā)布的時間點來劃分微博片段，將用戶詞典中待匹配的關鍵詞分解為單個字，

判斷關鍵詞當中的每一個字是否均在微博片段的文本消息中出現(xiàn)一次，若是，則關鍵詞詞頻加一；若不是則關鍵詞詞頻不變；

對所有微博片段進行分析，找出用戶詞典中的各個關鍵詞在每個月份的詞頻。

完整全部詳細技術資料下載

當前第2頁1 2 3

相關技術