本發(fā)明實施例涉及社交網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種實時流式文本分級監(jiān)控方法和裝置。
背景技術(shù):
近年來,伴隨著信息技術(shù)的蓬勃發(fā)展,互聯(lián)網(wǎng)的使用大范圍迅速普及,大量不同領(lǐng)域、不同地域、不同時域的信息在產(chǎn)生伊始便經(jīng)由互聯(lián)網(wǎng)廣泛傳播,這一方面有利于人們及時了解實時信息,把握新鮮資訊;但大量冗余、重復(fù)乃至錯誤的“暗信息”不僅會增加廣大用戶瀏覽有效信息的難度,甚至?xí)`導(dǎo)用戶對信息或事態(tài)產(chǎn)生錯誤的理解或判斷。以新浪微博、騰訊微博為代表的一系列實時用戶在線分享交流社區(qū)自出現(xiàn)以來很快便被廣大互聯(lián)網(wǎng)用戶接受并使用,其原因主要包含以下幾點:
注冊方便,僅通過郵箱或電話號碼即可快速擁有賬戶;
自由便捷,用戶可以根據(jù)自身需要及心情變化隨時隨地分享自己的想法或狀態(tài);
實時快速,用戶能夠通過消息推送、主動搜索、訂閱關(guān)注等多種方式及時獲取想要的多種信息;
用戶廣泛,用戶不僅能夠獲取自身親友圈的信息與狀態(tài),還能與喜歡的明星發(fā)生互動;
增強(qiáng)社交,可以方便陌生人相互熟悉,創(chuàng)建新的社交模式。
微博等新穎的社交模式擁有眾多出眾的優(yōu)點,因此產(chǎn)品受眾范圍十分廣泛,自推出時起便快速積攢大量活躍用戶??焖侔l(fā)展的社交網(wǎng)絡(luò)及用戶群一方面有利于用戶的交流、信息的傳播,但也更加劇了文首說明情況的發(fā)生,此類微博信息的發(fā)布很少或根本未經(jīng)過人工審核,這就導(dǎo)致很多包含過激情緒或不當(dāng)言論微博大量的出現(xiàn)在社交網(wǎng)絡(luò)中,造成一系列連鎖反應(yīng);且微博未實名用戶也同樣可以自由的發(fā)表博客,這就會使得信息的產(chǎn)生十分隨意,極易被不法分子或水軍利用,傳播垃圾或反動言論,迷惑群眾。
上述情況的出現(xiàn)對社會危害十分巨大,由于微博類流式短文本所涉及的用戶遍布社會各個階層,且微博類應(yīng)用用戶基數(shù)達(dá)到億級,快速傳播的信息將會攜帶文本中的信息與情緒通過社交網(wǎng)絡(luò)爆發(fā)式擴(kuò)散,造成難以挽回的影響。因此及時在海量信息中發(fā)現(xiàn)此類文本并實施預(yù)警,進(jìn)行輿情管控是一項十分必要的工作。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種實時流式文本分級監(jiān)控方法和裝置,用于使得用戶的監(jiān)控等級更精確。
第一方面,本發(fā)明實施例提供一種實時流式文本分級監(jiān)控方法,包括:
實時獲取流式的短文本;
對所述短文本進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)補(bǔ)齊和數(shù)據(jù)過濾處理,生成結(jié)構(gòu)化數(shù)據(jù);
對所述結(jié)構(gòu)化數(shù)據(jù)進(jìn)行文本分詞處理,獲得K個詞;所述K為大于0的整數(shù);
根據(jù)敏感詞數(shù)據(jù)庫,對所述K個詞進(jìn)行敏感分析,獲得所述短文本的敏感值;
根據(jù)情感詞數(shù)據(jù)庫,對所述K個詞進(jìn)行情感分析,獲得所述短文本的情感值;
根據(jù)所述敏感值與所述情感值,獲得所述短文本所屬的用戶的監(jiān)控等級。
第二方面,本發(fā)明實施例提供一種實時流式文本分級監(jiān)控裝置,包括:
第一獲取模塊,用于實時獲取流式的短文本;
生成模塊,用于對所述短文本進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)補(bǔ)齊和數(shù)據(jù)過濾處理,生成結(jié)構(gòu)化數(shù)據(jù);
分詞模塊,用于對所述結(jié)構(gòu)化數(shù)據(jù)進(jìn)行文本分詞處理,獲得K個詞;所述K為大于0的整數(shù);
敏感分析模塊,用于根據(jù)敏感詞數(shù)據(jù)庫,對所述K個詞進(jìn)行敏感分析,獲得所述短文本的敏感值;
情感分析模塊,用于根據(jù)情感詞數(shù)據(jù)庫,對所述K個詞進(jìn)行情感分析,獲得所述短文本的情感值;
第二獲取模塊,用于根據(jù)所述敏感值與所述情感值,獲得所述短文本所屬的用戶的監(jiān)控等級。
綜上所述,本發(fā)明實施例獲得的用戶的監(jiān)控等級更精確也更迅速,因此可以快速精確地鎖定監(jiān)控等級高的用戶。例如可以應(yīng)用于社交網(wǎng)絡(luò)中的言論監(jiān)控,以實施預(yù)警措施,從而避免了社交網(wǎng)絡(luò)被不法分子或水軍利用,傳播垃圾或反動言論,迷惑群眾,而造成難以挽回的影響。例如可以應(yīng)用于廣告精準(zhǔn)投放中,根據(jù)廣告商的需求,投放給監(jiān)控等級高的用戶。例如可以應(yīng)用于用戶推薦系統(tǒng)中,以推薦監(jiān)控等級高的用戶。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例一提供的實時流式文本分級監(jiān)控方法的流程圖;
圖2為本發(fā)明實施例一提供的實時流式文本分級監(jiān)控裝置的結(jié)構(gòu)示意圖;
圖3為本發(fā)明實施例二提供的實時流式文本分級監(jiān)控裝置的結(jié)構(gòu)示意圖;
圖4為本發(fā)明實施例三提供的實時流式文本分級監(jiān)控裝置的結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
圖1為本發(fā)明實施例一提供的實時流式文本分級監(jiān)控方法的流程圖,如圖1所示,本實施例的方法可以包括:
S101、實時獲取流式的短文本。
本實施例中,該流式短文本可以是微博中用戶發(fā)布的短文本,或者朋友圈中用戶發(fā)布的短文本,本實施例并不限于此。當(dāng)用戶發(fā)布該短文本時,本實施例可以實時獲取到該短文本,需要說明的是,本實施例不僅獲取該用戶發(fā)布的短文本,還實時獲取其它各用戶發(fā)布的短文本。下面以一個用戶為對像進(jìn)行解釋說明,其它用戶也類似,此處不再贅述。
S102、對所述短文本進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)補(bǔ)齊和數(shù)據(jù)過濾處理,生成結(jié)構(gòu)化數(shù)據(jù)。
本實施例中,在獲取短文本后,對該短文本進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)補(bǔ)充和數(shù)據(jù)過濾處理,可以將無意義短文本、純表情文本等無價值數(shù)據(jù)進(jìn)行剔除,節(jié)省計算性能,然后生成結(jié)構(gòu)化數(shù)據(jù)。以短文本中微博中的信息為例,生成的結(jié)構(gòu)化數(shù)據(jù)至少包括如下信息:微博ID、發(fā)布時間、用戶ID、文本內(nèi)容。
S103、對所述結(jié)構(gòu)化數(shù)據(jù)進(jìn)行文本分詞處理,獲得K個詞;所述K為大于0的整數(shù)。
本實施例中,對生成的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行文本分詞處理,獲得K個詞,例如采用NLPIR方式,K為大于或等于1的整數(shù)。例如短文本為:川普贏得美國大選。分詞處理后可以獲得4個詞,分別為:川普、贏得、美國、大選。
S104、根據(jù)敏感詞數(shù)據(jù)庫,對所述K個詞進(jìn)行敏感分析,獲得所述短文本的敏感值。
本實施例中,根據(jù)敏感詞數(shù)據(jù)庫,對上述K個詞進(jìn)行敏感分析,獲得該短文本的敏感值??蛇x地,所述敏感詞數(shù)據(jù)庫包括以下至少一種:網(wǎng)絡(luò)統(tǒng)計的敏感詞、預(yù)設(shè)的敏感詞。網(wǎng)絡(luò)統(tǒng)計的敏感詞例如可以是微博中統(tǒng)計獲得的敏感詞,預(yù)設(shè)的敏感詞可以是客戶根據(jù)實際需要設(shè)定的詞。
S105、根據(jù)情感詞數(shù)據(jù)庫,對所述K個詞進(jìn)行情感分析,獲得所述短文本的情感值。
本實施例中,根據(jù)敏感詞數(shù)據(jù)庫,對上述K個詞進(jìn)行敏感分析,獲得該短文本的情感值,例如情感值為-1,表示為負(fù)情感或負(fù)面情緒。例如情感值為0,表示為中性情感。例如情感值為1,表示為正情感或正面情緒。可選地,所述情感詞數(shù)據(jù)庫包括以下至少一種:網(wǎng)絡(luò)統(tǒng)計的情感詞、預(yù)設(shè)的情感詞。網(wǎng)絡(luò)統(tǒng)計的情感詞例如可以是微博中統(tǒng)計獲得的情感詞,預(yù)設(shè)的情感詞可以是客戶根據(jù)實際需要設(shè)定的詞。
S106、根據(jù)所述敏感值與所述情感值,獲得所述短文本所屬的用戶的監(jiān)控等級。
本實施例中,在獲取短文本的敏感值和短文本的情感值后,根據(jù)該短文本的敏感值和短文本的情感值,獲得該短文本所屬的用戶的監(jiān)控等級。
綜上所述,本實施例獲得的用戶的監(jiān)控等級更精確也更迅速,困此可以快速精確地鎖定監(jiān)控等級高的用戶。例如可以應(yīng)用于社交網(wǎng)絡(luò)中的言論監(jiān)控,以實施預(yù)警措施,從而避免了社交網(wǎng)絡(luò)被不法分子或水軍利用,傳播垃圾或反動言論,迷惑群眾,而造成難以挽回的影響。例如可以應(yīng)用于廣告精準(zhǔn)投放中,根據(jù)廣告商的需求,投放給監(jiān)控等級高的用戶。例如可以應(yīng)用于用戶推薦系統(tǒng)中,以推薦監(jiān)控等級高的用戶。本實施例不限于上述應(yīng)用場景。
可選地,上述S106的一種可行的實現(xiàn)方式中包括S1061-S1063。
S1061、根據(jù)所述敏感值和所述情感值,獲得所述用戶的初始監(jiān)控等級。
本實施例中,根據(jù)獲得的短文本的敏感值和短文本的情感值,獲得該用戶的初始監(jiān)控等級。
可選地,采用下述公式獲得用戶的初始監(jiān)控等級。
L1=[level-num×δ(log(SS×|SE|))],其中,L1表示初始監(jiān)控等級,level表示取整函數(shù),δ表示激活函數(shù),δ=(1+e-x)-1,其中x=log(SS×|SE|),SS表示敏感值,SE表示情感值,|SE|表示情感值的絕對值。
S1062、根據(jù)所述用戶的歷史短文本,獲得所述用戶的歷史監(jiān)控等級。
本實施例中,在獲取到用戶的初始監(jiān)控等級后,還獲取用戶的歷史短文本,采用如S101-S105的方式獲得用戶的歷史短文本的敏感值和情感值,然后根據(jù)敏感值和情感值,獲得用戶的歷史監(jiān)控等級。
可選地,采用下述公式獲得用戶的歷史監(jiān)控等級。
其中,用戶的歷史短文本可以是至少一個,SSi表示第i個歷史短文本的敏感值,SEi表示第i個歷史短文本的情感值,L2表示用戶的歷史監(jiān)控等級。
S1063、根據(jù)所述用戶的初始監(jiān)控等級和所述歷史監(jiān)控等級,獲得所述用戶的監(jiān)控等級。
本實施例中,根據(jù)用戶的初始監(jiān)控等級和歷史監(jiān)控等級,獲得用戶的監(jiān)控等級,例如用戶的監(jiān)控等級等于(L1+L2)/2。
可選地,在執(zhí)行S1062之前,確定所述用戶的初始監(jiān)控等級大于第一預(yù)設(shè)監(jiān)控等級。具體地,在獲得用戶的初始監(jiān)控等級之后,判斷該用戶的初始監(jiān)控等級是否大于第一預(yù)設(shè)監(jiān)控等級,當(dāng)該用戶的初始監(jiān)控等級大于第一預(yù)設(shè)監(jiān)控等級時,再執(zhí)行S1062。當(dāng)該用戶的初始監(jiān)控等級小于或等于第一預(yù)設(shè)監(jiān)控等級時,則確定該用戶的初始監(jiān)控等級為用戶的監(jiān)控等級。
可選地,本實施例在執(zhí)行S104和S105之前,還包括:S107和S108。
S107、標(biāo)注所述K個詞的詞性。
本實施例中,獲得短文本中的K個詞之后,標(biāo)注該K個詞的詞性,例如:川普(名詞)、贏得(動詞)、美國(名詞)、大選(名詞)。
S108、根據(jù)所述K個詞的詞性,對所述K個詞進(jìn)行語義分析。
本實施例中,在該K個詞標(biāo)注詞性后,根據(jù)該K個詞的詞性,對該K個詞進(jìn)行語義分析,例如采用Word2vec算法。
相應(yīng)地,S104的一種可行的實現(xiàn)方式為:根據(jù)敏感詞數(shù)據(jù)庫,對語義分析后的所述K個詞進(jìn)行敏感分析,獲得所述短文本的敏感值。
相應(yīng)地,S105的一種可行的實現(xiàn)方式為:根據(jù)情感詞數(shù)據(jù)庫,對語義分析后的所述K個詞進(jìn)行情感分析,獲得所述短文本的情感值。
基于語義分析,獲得的敏感值和情感值的準(zhǔn)確性更高。
可選地,本實施例的方法還可以包括:
S109、當(dāng)所述用戶的監(jiān)控等級大于第二預(yù)設(shè)監(jiān)控等級時,獲取所述短文本的M個關(guān)鍵詞;所述M為大于0的整數(shù)。
S110、將所述M個關(guān)鍵詞分別添加至所述敏感詞數(shù)據(jù)庫和所述情感詞數(shù)據(jù)庫中。
本實施例中,在獲得用戶的監(jiān)控等級之后,判斷該用戶的監(jiān)控等級是否大于第二預(yù)設(shè)監(jiān)控等級,當(dāng)該用戶的監(jiān)控等級大于第二預(yù)設(shè)監(jiān)控等級時,獲取該短文本的M個關(guān)鍵詞,例如通過TF-IDF方法獲取關(guān)鍵詞,M為大于或等于1的整數(shù)。然后將M個關(guān)鍵詞分別添加至敏感詞數(shù)據(jù)庫和情感詞數(shù)據(jù)庫中,實現(xiàn)了在線學(xué)習(xí)敏感詞和情感詞的方案。
可選地,獲取短文本的敏感值的一種方式為:通過以下公式獲得。
其中,SS表示敏感值,相似度j表示第j個詞與敏感詞數(shù)據(jù)庫中詞的語義相似度,取值為[0,1],當(dāng)?shù)趈個詞與敏感詞數(shù)據(jù)庫的中某個詞相同時,相似度j等于1。其中。K個詞中的關(guān)鍵詞的權(quán)重高于普通詞的權(quán)重。
敏感詞數(shù)據(jù)庫和情感詞數(shù)據(jù)庫包括預(yù)先設(shè)置以及在線學(xué)習(xí)結(jié)果反饋,能夠有效適應(yīng)實時發(fā)生變化的文本環(huán)境,確保不會因為數(shù)據(jù)問題導(dǎo)致大量敏感短文本被忽視。敏感詞匹配算法基于語義分析算法,將分詞并詞性標(biāo)注后的文本流式多線程的與敏感詞數(shù)據(jù)庫中的敏感詞進(jìn)行相似度評估,篩選出文本中的疑似敏感詞,該操作能夠從語義層次分析一篇短文本的敏感程度,并在當(dāng)前時間片環(huán)境下分析出目標(biāo)文本的敏感程度,與此同時,通過大量流式數(shù)據(jù)的多線程統(tǒng)計,可以根據(jù)敏感詞的共現(xiàn)關(guān)系尋找新的疑似敏感詞根據(jù)閾值判斷是否添加到敏感詞詞庫中;情感分析在篩選出的疑似敏感微博中進(jìn)行情緒判斷,情緒判斷的標(biāo)準(zhǔn)主要依賴于情感詞數(shù)據(jù)庫,在本發(fā)明中,情感詞數(shù)據(jù)庫同樣包括:預(yù)先設(shè)置以及在線學(xué)習(xí)結(jié)果反饋后動態(tài)更新,保證能夠為準(zhǔn)確發(fā)現(xiàn)極端情感提供輔助作用。最終結(jié)合上述兩大步驟,可以得出具有分析研究價值的需要監(jiān)控的短文本列表。
本發(fā)明提供了一種處理流式文本數(shù)據(jù)的方案,為了加快數(shù)據(jù)處理速度,不造成數(shù)據(jù)丟失現(xiàn)象的發(fā)生,提升監(jiān)控程序運行穩(wěn)定程度。本發(fā)明將監(jiān)控程序從多個層次采取并行化處理,充分利用計算機(jī)、分布式數(shù)據(jù)庫、分布式索引的吞吐率,是的計算性能得以提高,監(jiān)控延時由原來的約30分鐘所見到約為5分鐘以內(nèi)。
另外,本發(fā)明還能夠提供實時的監(jiān)控的界面,但實時界面因為頁面、加載時間等條件限制無法顯示過多信息,因此可根據(jù)用戶設(shè)置的時間段生成固定信息項的監(jiān)控報告,方便用戶詳細(xì)分析獲取信息。
綜上所述,本發(fā)明實施例還具有如下優(yōu)勢:
1.應(yīng)用自然語言處理相關(guān)技術(shù),從語義角度統(tǒng)計分析流式數(shù)據(jù),動態(tài)設(shè)置敏感詞數(shù)據(jù)庫,有針對性。
2.采用并行及流水線技術(shù),充分利用計算性能。
3.多屬性判定,準(zhǔn)確性高,穩(wěn)定性好。
4.算法多參數(shù)可調(diào),可根據(jù)需求設(shè)置,算法內(nèi)部耦合性低,可移植性好。
圖2為本發(fā)明實施例一提供的實時流式文本分級監(jiān)控裝置的結(jié)構(gòu)示意圖,如圖2所示,本實施例的裝置可以包括:第一獲取模塊210、生成模塊220、分詞模塊230、敏感分析模塊240、情感分析模塊250和第二獲取模塊260。
第一獲取模塊210,用于實時獲取流式的短文本;
生成模塊220,用于對所述短文本進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)補(bǔ)齊和數(shù)據(jù)過濾處理,生成結(jié)構(gòu)化數(shù)據(jù);
分詞模塊230,用于對所述結(jié)構(gòu)化數(shù)據(jù)進(jìn)行文本分詞處理,獲得K個詞;所述K為大于0的整數(shù);
敏感分析模塊240,用于根據(jù)敏感詞數(shù)據(jù)庫,對所述K個詞進(jìn)行敏感分析,獲得所述短文本的敏感值;
情感分析模塊250,用于根據(jù)情感詞數(shù)據(jù)庫,對所述K個詞進(jìn)行情感分析,獲得所述短文本的情感值;
第二獲取模塊260,用于根據(jù)所述敏感值與所述情感值,獲得所述短文本所屬的用戶的監(jiān)控等級。
本實施例的裝置,可以用于執(zhí)行本發(fā)明上述方法實施例的技術(shù)方案,其實現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
圖3為本發(fā)明實施例二提供的實時流式文本分級監(jiān)控裝置的結(jié)構(gòu)示意圖,如圖3所示,本實施例的裝置在圖2所示裝置結(jié)構(gòu)的基礎(chǔ)上,進(jìn)一步地,所述第二獲取模塊260,包括:第一獲取子模塊261、第二獲取子模塊262和第三獲取子模塊263。
第一獲取子模塊261,用于根據(jù)所述敏感值和所述情感值,獲得所述用戶的初始監(jiān)控等級;
第二獲取子模塊262,用于根據(jù)所述用戶的歷史短文本,獲得所述用戶的歷史監(jiān)控等級;
第三獲取子模塊263,用于根據(jù)所述用戶的初始監(jiān)控等級和所述歷史監(jiān)控等級,獲得所述用戶的監(jiān)控等級。
可選地,所述第二獲取模塊260,還包括:確定子模塊264。
確定子模塊264,用于在所述第二獲取子模塊262根據(jù)所述用戶的歷史短文本,獲得所述用戶的歷史監(jiān)控等級之前,確定所述用戶的初始監(jiān)控等級大于第一預(yù)設(shè)監(jiān)控等級。
可選地,本實施例的裝置還包括:標(biāo)注模塊270和語義分析模塊280。
所述標(biāo)注模塊270,用于標(biāo)注所述K個詞的詞性;
所述語義分析模塊280,用于根據(jù)所述K個詞的詞性,對所述K個詞進(jìn)行語義分析;
所述敏感分析模塊240,具體用于根據(jù)敏感詞數(shù)據(jù)庫,對語義分析后的所述K個詞進(jìn)行敏感分析,獲得所述短文本的敏感值;
所述情感分析模塊250,具體用于根據(jù)情感詞數(shù)據(jù)庫,對語義分析后的所述K個詞進(jìn)行情感分析,獲得所述短文本的情感值。
本實施例的裝置,可以用于執(zhí)行本發(fā)明上述方法實施例的技術(shù)方案,其實現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
可選地,所述敏感詞數(shù)據(jù)庫包括以下至少一種:網(wǎng)絡(luò)統(tǒng)計的敏感詞、預(yù)設(shè)的敏感詞;
所述情感詞數(shù)據(jù)庫包括以下至少一種:網(wǎng)絡(luò)統(tǒng)計的情感詞、預(yù)設(shè)的情感詞。
可選地,本實施例的裝置還包括:第三獲取模塊和添加模塊,圖中未示出。
第三獲取模塊,用于當(dāng)所述用戶的監(jiān)控等級大于第二預(yù)設(shè)監(jiān)控等級時,獲取所述短文本的M個關(guān)鍵詞;所述M為大于0的整數(shù);
添加模塊,用于將所述M個關(guān)鍵詞分別添加至所述敏感詞數(shù)據(jù)庫和所述情感詞數(shù)據(jù)庫中。
圖4為本發(fā)明實施例三提供的實時流式文本分級監(jiān)控裝置的結(jié)構(gòu)示意圖,如圖4所示,本實施例的裝置可以包括:處理器310和存儲器320,處理器310與存儲器320通信連接,所述存儲器320用于存儲執(zhí)行實時流式文本分級監(jiān)控方法的代碼,處理器310用于調(diào)用所述存儲器320存儲的所述代碼執(zhí)行:
實時獲取流式的短文本;
對所述短文本進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)補(bǔ)齊和數(shù)據(jù)過濾處理,生成結(jié)構(gòu)化數(shù)據(jù);
對所述結(jié)構(gòu)化數(shù)據(jù)進(jìn)行文本分詞處理,獲得K個詞;所述K為大于0的整數(shù);
根據(jù)敏感詞數(shù)據(jù)庫,對所述K個詞進(jìn)行敏感分析,獲得所述短文本的敏感值;
根據(jù)情感詞數(shù)據(jù)庫,對所述K個詞進(jìn)行情感分析,獲得所述短文本的情感值;
根據(jù)所述敏感值與所述情感值,獲得所述短文本所屬的用戶的監(jiān)控等級。
可選地,處理器310在根據(jù)所述敏感值與所述情感值,獲得所述短文本對應(yīng)的用戶的監(jiān)控等級時,具體用于:
根據(jù)所述敏感值和所述情感值,獲得所述用戶的初始監(jiān)控等級;
根據(jù)所述用戶的歷史短文本,獲得所述用戶的歷史監(jiān)控等級;
根據(jù)所述用戶的初始監(jiān)控等級和所述歷史監(jiān)控等級,獲得所述用戶的監(jiān)控等級。
可選地,處理器310在根據(jù)所述用戶的歷史短文本,獲得所述用戶的歷史監(jiān)控等級之前,還用于確定所述用戶的初始監(jiān)控等級大于第一預(yù)設(shè)監(jiān)控等級。
可選地,處理器310還用于:標(biāo)注所述K個詞的詞性;以及根據(jù)所述K個詞的詞性,對所述K個詞進(jìn)行語義分析;
處理器310在根據(jù)敏感詞數(shù)據(jù)庫,對所述K個詞進(jìn)行敏感分析,獲得所述短文本的敏感值時,具體用于:根據(jù)敏感詞數(shù)據(jù)庫,對語義分析后的所述K個詞進(jìn)行敏感分析,獲得所述短文本的敏感值;
處理器310在根據(jù)情感詞數(shù)據(jù)庫,對所述K個詞進(jìn)行情感分析,獲得所述短文本的情感值時,具體用于:根據(jù)情感詞數(shù)據(jù)庫,對語義分析后的所述K個詞進(jìn)行情感分析,獲得所述短文本的情感值。
可選地,所述敏感詞數(shù)據(jù)庫包括以下至少一種:網(wǎng)絡(luò)統(tǒng)計的敏感詞、預(yù)設(shè)的敏感詞;
所述情感詞數(shù)據(jù)庫包括以下至少一種:網(wǎng)絡(luò)統(tǒng)計的情感詞、預(yù)設(shè)的情感詞。
可選地,處理器310還用于:
當(dāng)所述用戶的監(jiān)控等級大于第二預(yù)設(shè)監(jiān)控等級時,獲取所述短文本的M個關(guān)鍵詞;所述M為大于0的整數(shù);
將所述M個關(guān)鍵詞分別添加至所述敏感詞數(shù)據(jù)庫和所述情感詞數(shù)據(jù)庫中。
本實施例的裝置,可以用于執(zhí)行本發(fā)明上述方法實施例的技術(shù)方案,其實現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述各方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成。前述的程序可以存儲于一計算機(jī)可讀取存儲介質(zhì)中。該程序在執(zhí)行時,執(zhí)行包括上述各方法實施例的步驟;而前述的存儲介質(zhì)包括:只讀內(nèi)存(英文:Read-Only Memory,簡稱:ROM)、隨機(jī)存取存儲器(英文:Random Access Memory,簡稱:RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。