專利名稱:一種改進(jìn)的基于概念格的論壇人物跟蹤方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎技術(shù),特別涉及一種人物跟蹤的方法。
背景技術(shù):
隨著云計算和物聯(lián)網(wǎng)時代的到來,網(wǎng)絡(luò)交流飛快成長,網(wǎng)絡(luò)社區(qū)文化形成,網(wǎng)絡(luò)交流已經(jīng)成為新一代網(wǎng)民必不可少的交流方式。各種網(wǎng)上交流社區(qū)層出不窮,如百度貼吧,天涯社區(qū),各大高校論壇等,使網(wǎng)民的網(wǎng)絡(luò)交流更加通暢,但是這給輿情信息管控造成很大難度。目前現(xiàn)有技術(shù)只有搜索引擎對于敏感信息的過濾,并沒有深入到人物跟蹤的程度。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供的一種改進(jìn)的論壇人物跟蹤方法,用以解決論壇人物跟蹤的問題,并且提高搜索的效率。對原始數(shù)據(jù)建立知識庫,通過粗糙集約簡算法簡化龐大的數(shù)據(jù)集合。通過概念格的批生成算法,在既定關(guān)鍵字的前提下通過批處理生成算法生成概念格,得出形式概念,并根據(jù)形式概念區(qū)分論壇人物,以達(dá)到人物跟蹤效果。使用概念格形式化模型,具有完整的表達(dá)數(shù)據(jù)庫中知識的特點(diǎn),而且知識表達(dá)形式清晰,易于求解。本發(fā)明實(shí)施例在得出形式概念之后,可得出人物歸類,再擴(kuò)加IP地址以及其他分析,跟蹤論壇用戶,對敏感用戶實(shí)施特殊關(guān)注,達(dá)到管控效果。
圖1是本發(fā)明實(shí)施例提供的流程示意圖;圖2是本發(fā)明實(shí)施例提供的粗糙集算法約簡流程圖;圖3是本發(fā)明實(shí)施例提供的批處理算法流程圖。
具體實(shí)施例方式針對現(xiàn)有論壇輿情存在的用戶監(jiān)控,輿情管控困難的問題,本發(fā)明實(shí)施例在已有數(shù)據(jù)前提下,通過概念格的批生成算法,在既定關(guān)鍵字的前提下生成概念格,得出形式概念,并根據(jù)形式概念區(qū)分論壇人物類別或者具體人物,以達(dá)到人物跟蹤效果。如圖1所示,本發(fā)明實(shí)施例提供的基于概念格的論壇人物跟蹤包括:網(wǎng)頁信息采集服務(wù)器分布式爬取網(wǎng)絡(luò)信息,經(jīng)過分詞等預(yù)處理將信息存入數(shù)據(jù)庫等待處理。人工設(shè)定關(guān)鍵字集合,并對數(shù)據(jù)庫中知識進(jìn)行批量處理,得到概念格,重復(fù)以上步驟,實(shí)時更新概念格。在最終得 到的形式概念中區(qū)分出敏感用戶,進(jìn)行重點(diǎn)關(guān)注,得到跟蹤效果。產(chǎn)生的等價關(guān)系U/Ri, i = 1,2,…η,如果刪除該屬性Xi,使得POS (PXxi) (Q)=POS (P) (Q),則說明屬性Xi,是不必要的,從決策表中刪除屬性Xi所在列并將重復(fù)的行進(jìn)行合并;否則,說明屬性Xi是必要的,不能刪除。如圖2所示,本發(fā)明實(shí)施例提供的粗糙集約簡算法包括下列步驟:步驟201、初始化知識庫K = (U,S);步驟202、生成等價關(guān)系類U/Ri; i = 1,2,...η;步驟203、對于每個屬性Xi,刪除該屬性Xi ;步驟204、使得POS(PXxi) (Q) = POS(p) (Q),則說明屬性Xi,是不必要的,否則,說明屬性Xi是必要的,不能刪除;步驟205、重復(fù)(2)-(3),直到 i = η ;如圖3所示,本發(fā)明實(shí)施例提供的改進(jìn)的概念格批處理算法包括下列步驟:步驟 301、初始化格 L= {(G), f (G)};步驟302、對于隊列F中的一個概念C,產(chǎn)生出它的每個子概念Ce ;步驟303、如果某個子概念Ce以前沒有產(chǎn)生過,則加入到L中;步驟304、增加概念C和其子概念Ce的鏈接關(guān)系;步驟305、反復(fù)(3)-(5),直至隊列F為空;步驟306、輸出概念格L,得到形式概念。
其中G是對象集合,即論壇人物集合,M是屬性集合,即自定義的關(guān)鍵字敏感詞集合。IQ^xM是G與M之間的一個二兀關(guān)系。若(g,m)3^,則對象g具有屬性m。從上述實(shí)施例中可以看出:本發(fā)明實(shí)施例通過粗糙集約簡算法,對批量的數(shù)據(jù)集合進(jìn)行約簡計算,然后通過概念格的批生成算法,在既定關(guān)鍵字的前提下通過批處理生成算法生成概念格,得出形式概念,并根據(jù)形式概念區(qū)分論壇人物,以達(dá)到人物快速跟蹤的效果。使用改進(jìn)的概念格形式化模型,具有精簡數(shù)據(jù)庫的優(yōu)點(diǎn),提高了搜索的速度,具有完整的表達(dá)數(shù)據(jù)庫中知識的特點(diǎn),而且知識表達(dá)形式清晰,易于求解。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1.一種改進(jìn)的基于概念格論壇人物跟蹤方法,其特征在于,該方法包括: 在采集到原始的大量數(shù)據(jù)前提下,首先對原始數(shù)據(jù)建立知識庫,采用粗糙集算法對信息表進(jìn)行約簡,然后對通過概念格的批生成算法,在既定關(guān)鍵字的前提下生成概念格,得出形式概念,并根據(jù)形式概念區(qū)分論壇人物類別或者具體人物,以達(dá)到人物跟蹤效果。
2.如權(quán)利要求1所述的方法,其特征在于,所述的知識庫約簡算法具體包括: 對于采集到的數(shù)據(jù)建立知識庫K= (U, S), U = {x0, X1, X2,..., XnI為論域,S = (R1, R2,…,RJ為論域U上的等價關(guān)系族。并根據(jù)等價關(guān)系生成等價關(guān)系類U/Ri,i = 1,2,…η。
3.如權(quán)利2所述的方法,其特征在于,產(chǎn)生的等價關(guān)系U/Ri;i = 1,2,…n,如果刪除該屬性Xi,使得POS(PXxi) (Q) =POS(P) (Q),則說明屬性Xi,是不必要的,從決策表中刪除屬性Xi所在列并將重復(fù)的行進(jìn)行合并;否則,說明屬性Xi是必要的,不能刪除。
4.如權(quán)利要求3所述的方法,其特征在于,所述概念格的批生產(chǎn)算法的方法具體包括:對于約簡后的知識庫形成背景K = (G,M,I),初始化格L = {(G),f (G)}。
5.如權(quán)利要求4所述的方法,其特征在于,產(chǎn)生子概念的方法具體包括: 隊列F = {(G,f (G))},對于隊列F中的一個概念C,產(chǎn)生出它的每個子概念Ce,如果某個子概念Ce以前沒有產(chǎn)生過,則加入到L中。
6.如權(quán)利要求5所述的方法,其特征在于,增加鏈接關(guān)系的方法具體包括: 增加概念C和其子概念Ce的鏈接關(guān)系。
7.如權(quán)利要求5和6所述的方法,其特征在于,根據(jù)權(quán)利要求3和4,直到隊列P為空。
8.如權(quán)利要求4所述的方法,最后輸出概念格L,得到形式概念。
全文摘要
本發(fā)明公開了一種改進(jìn)的基于概念格論壇人物跟蹤的方法,該方法包括在已有數(shù)據(jù)前提下,使用粗糙集算法進(jìn)行約簡,然后通過概念格的批生成算法,在既定關(guān)鍵字的前提下生成概念格,得出形式概念,并根據(jù)形式概念區(qū)分論壇人物類別或者具體人物,以達(dá)到人物跟蹤效果,并且提高跟蹤的速度。
文檔編號G06F17/30GK103226555SQ20121055985
公開日2013年7月31日 申請日期2012年12月21日 優(yōu)先權(quán)日2012年12月21日
發(fā)明者張玲, 朱洪亮, 李偉, 謝康, 李星, 韓耀明 申請人:北京郵電大學(xué)