亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于智慧校園信息服務平臺的話題發(fā)現(xiàn)方法與流程

文檔序號:11654439閱讀:156來源:國知局
基于智慧校園信息服務平臺的話題發(fā)現(xiàn)方法與流程

本發(fā)明涉及一種熱門話題發(fā)現(xiàn)領域,尤其涉及一種基于智慧校園信息服務平臺的話題發(fā)現(xiàn)方法。



背景技術:

計算機網(wǎng)絡的不斷發(fā)展,越來越豐富了校園生活。網(wǎng)絡信息已成為校園生活中的重要組成部分,互聯(lián)網(wǎng)已經(jīng)成為學生獲取信息、交流溝通的重要場所。

如何有效掌握網(wǎng)絡的海量數(shù)據(jù),提取其中的熱點話題,或者獲取自己想要的信息,成為長期困擾網(wǎng)絡用戶的難題。熱點話題發(fā)現(xiàn),可從各種信息資源中發(fā)現(xiàn)某段時間內(nèi)各個領域中引起人們廣泛關注的話題,方便學生獲取當前重要資訊,快速掌握當前信息。

因此,有必要提供一種于智慧校園信息服務平臺的話題發(fā)現(xiàn)方法來實現(xiàn)以上技術方案。



技術實現(xiàn)要素:

本發(fā)明的目的在于提供一種基于智慧校園信息服務平臺的話題發(fā)現(xiàn)方法,以滿足用戶實時發(fā)現(xiàn)網(wǎng)絡論壇突發(fā)性熱點話題的需求。

本發(fā)明提供一種基于智慧校園信息服務平臺的話題發(fā)現(xiàn)方法,包括:

步驟1,建立智能校園信息服務平臺,在互聯(lián)網(wǎng)上校園主題的消息收集形成消息數(shù)據(jù)庫;

步驟2,對該數(shù)據(jù)庫中的消息文本進行文本預處理,文本預處理即為分詞處理,包括語義歧義分析、未登錄詞提取、關鍵字提取和停用詞處理;

步驟3,對預處理后的文本進行特征提取,其文本特征提取為獨

立評價方法,所述獨立評價方法包括信息增益、x2統(tǒng)計量和文檔頻率算法,所述信息增益通過需要計算特征項權重大小來對文本類簇進行分類,其是通過下述公式(1)計算獲取分類信息多的特征詞,

其中,文本集合表示類別ci的概率是p(ci),并且文本集合表示特征詞t的概率是p(t),p(ci|t)包含特征詞t文本屬于預定義類別ci,是如果特征詞t不在文本內(nèi)則文本屬于類別ci的概率,n是文本類別的數(shù)量;

所述x2統(tǒng)計量是用于評估特征項的重要水平,由特征項攜帶的文本信息的量通過量化來量化,其通過下述公式(2)來統(tǒng)計量,

其中,n是提取的文本的數(shù)目,cj是聚類,a是cj中的文本的數(shù)目,并且c不是特征中的文本,b是特征項ti外部的文本的數(shù)目cj簇,并且d是不在特征項ti中的cj簇外部的文本的數(shù)量;

所述文檔頻率算法是通過包括多個文檔來計算文檔的數(shù)量以評估特征;

步驟4,將提取的特征詞指定為知識表示模型;

步驟5,針對文本知識表示模型由計算機通過聚類算法來計算對象,用同一主題的文本一起形成一個主題庫,該主體庫即為熱門話題庫。

與相關技術相比,本發(fā)明提供的基于智慧校園信息服務平臺的話題發(fā)現(xiàn)方法可以獲得準確的輿情方式和重要元素,從而正確形成輿論。對智慧主題聚類過程可以更快更好地進行處理,并且當報告的消息數(shù)量較大時,聚類的精度可以保持較高。

附圖說明

圖1為本發(fā)明的校園熱門話題發(fā)現(xiàn)模塊的結構示意圖;

圖2為本發(fā)明的話題發(fā)現(xiàn)流程圖;

圖3為圖2中文本預處理的流程圖;

圖4為圖2中文本表示模型的流程圖;

圖5為本發(fā)明的聚類算法的(cdet)norm值測試圖。

具體實施方式

請同時參閱圖1和圖2,其中,圖1為本發(fā)明的校園熱門話題發(fā)現(xiàn)模塊的結構示意圖,圖2為本發(fā)明的話題發(fā)現(xiàn)流程圖。本發(fā)明提供的一種基于智慧校園信息服務平臺的話題發(fā)現(xiàn)方法,包括:

步驟1,建立智能校園信息服務平臺,在互聯(lián)網(wǎng)上校園主題的消息收集形成消息數(shù)據(jù)庫。

步驟2,對該數(shù)據(jù)庫中的消息文本進行文本預處理,該文本預處理具體包括語義歧義分析、未登錄詞提取、關鍵字提取和停用詞處理。請結合參閱圖3為圖2中文本預處理的流程圖。校園的熱點主題發(fā)現(xiàn)模塊采用ictclas分詞系統(tǒng),通過給定的停用詞過濾粗糙的詞,刪除語氣詞,助詞和連詞,最終輸出中文詞典。

步驟2中的中文分詞采用統(tǒng)計分詞法、n-最短路徑方法和字符串匹配分詞法中的任意一種或者組合。

所述統(tǒng)計分詞法是將中文文本中彼此接近的每個詞組合成詞,并且通過對接近文本中的每個詞的詞的數(shù)目進行計數(shù)來獲得撰寫確切詞的概率。在統(tǒng)計之前,設置閾值,如果字的組合的頻率大于或高于閾值,則兩個相鄰字可以組合成一個詞語。

目前,現(xiàn)有的基于統(tǒng)計的分詞模型主要有:隱馬爾可夫、最大概率法、信道-噪聲等模型?;诮y(tǒng)計的分詞法必需列舉全部可能鄰近字組成的詞語,因此會導致分詞處理時間相對過長,要與其他分詞法結合一起使用,并且不用作單獨的分詞法,統(tǒng)計詞分詞可以準確反映文本語義分詞結果。

所述n-最短路徑方法基于路徑分割的思想。在詞語庫中的中文文本中出現(xiàn)的每個詞被認為是構成路徑圖的邊。每個邊緣被賦予邊緣長度的權重。n-最短路徑分割除以邊緣的長度值,并且路徑圖的結果集合將是路徑圖的最短集合。當切分遇到相同的長度,將邊一起插入路徑集。路徑分割后,將得到中文文本的分詞結果。

所述字符串匹配的分詞方法是字分詞的字符串匹配,也稱為機械分割,是一種相對簡單的分詞方法。雖然方法更容易實現(xiàn),但新詞區(qū)分不好。在字符串對照中,發(fā)現(xiàn)字符串和詞表中的詞一致,可以確定是一個詞。還可以通過文字中的單詞擴展,領域名詞和特殊名詞形成一個分詞。

步驟3,對預處理后的文本進行特征提取,其文本特征提取為獨立評價方法,所述獨立評價方法包括信息增益、x2統(tǒng)計量和文檔頻率算法。

所述信息增益是通過需要計算特征項權重大小來對文本類簇進行分類,特征詞所含分類的文本信息多少是根據(jù)所獲特征詞的文本信息增益值的大小來判斷,從而選取分類信息多的特征詞,其是通過下述公式(1)計算獲取分類信息多的特征詞,

其中,文本集合表示類別ci的概率是p(ci),并且文本集合表示特征詞t的概率是p(t),p(ci|t)包含特征詞t文本屬于預定義類別ci,是如果特征詞t不在文本內(nèi)則文本屬于類別ci的概率,n是文本類別的數(shù)量;

所述x2統(tǒng)計量可以評估特征項的重要水平。由特征項攜帶的文本信息的量通過量化來量化。當統(tǒng)計量大時,其指示特征項表示文本內(nèi)容主題是全面的,其通過下述公式(2)來統(tǒng)計量,

其中,n是提取的文本的數(shù)目,cj是聚類,a是cj中的文本的數(shù)目,并且c不是特征中的文本,b是特征項ti外部的文本的數(shù)目cj簇,并且d是不在特征項ti中的cj簇外部的文本的數(shù)量;

所述文檔頻率算法是最基本的特征評估方法之一。這種方法的想法是通過包括多個文檔來計算文檔的數(shù)量以評估特征,如果要排除特征項,就要看這個特征項是否被大數(shù)文檔所包括或者只被少數(shù)的文本所包括,則它的值過高或值過低都是要被替除的對象。

步驟4,將提取的特征詞指定為知識表示模型。請結合參閱圖4為圖2中文本表示模型的流程圖。熱點主題發(fā)現(xiàn)模塊使用知識表示模型來表示消息文本。步驟如下:將預處理后的文字分詞作為特征選擇的樣本;通過所述相關特征選擇規(guī)則減小所述文本知識表示模型的維度;通過計算所選擇的文本特征項的權重來計算加權特征向量;對將加權特征向量存儲到數(shù)據(jù)庫中用于后續(xù)的聚類分析。

校園熱點主題發(fā)現(xiàn)模型的模型考慮了校園消息主題的重要性。然而,通常的向量空間模型僅建模消息報告文本的特征項,這對于顯示校園消息主題很重要。校園消息的知識表達模型可以用pk=(c,id,f1,wf1,f2,wf2,...,fi,wfi)來表示校園消息主題,其中c消息屬于列,id是消息之間的唯一區(qū)別,字段i的值與其fi相對應,但wfi其對應的權重,表示消息文本的值。

因為文本數(shù)據(jù)不能由計算機直接處理,所以文本首先被表示為指定模型,允許計算機通過聚類算法來計算對象。所述知識表示模型包括概率模型、布爾模型、向量空間模型和語言模型。

概率模型基于貝葉斯理論的。它具有通過概率相關對文檔進行排序的優(yōu)點,并且可以調(diào)整處理結果和用戶需求以實現(xiàn)更高的準確率。該模型將對文本聚類工作造成巨大的工作量。同時,該模型不考慮文本詞的含義,因此會降低文本表示的準確性。

所述布爾模型是簡單的文本表示方式。它是一種基于布爾代數(shù)和集合理論提出的。是將文本被標記為1或0以識別特征項的存在,通過計算的比例同時呈現(xiàn)的兩個文本特征來計算兩個消息的相似性的計算以確定。但是,布爾模型也存在不足,也就是說,布爾模型表示文檔的能力相對較差,排除了文檔本身的大部分特性,因此經(jīng)常將布爾模型作為其他相似性對照輔助模型。

所述向量模型的相似性可以通過向量之間的cosθ值來計算:

對于作為n維空間中的向量的文檔,對于給定文檔d(t1,w1;t2,w2;...;tn,wn),其中ti是特征的文本,wi的特征項在于文本內(nèi)容的重要性的執(zhí)行的文本,以將i特征項為i個坐標軸,則wi是對應坐標軸的比例值,即文本被抽象為向量的多維坐標軸,建立向量空間模型的關鍵步驟是確定文本的i個特征項,并通過計算特征項的權重來確認特征項的重要程度。

所述語言模型是一種基于概率和統(tǒng)計的模型。語言模型通常分為兩種類別:一類為用于語言學中的規(guī)則文法,一種是基于統(tǒng)計語言模型。統(tǒng)計方法也是語言模型的主流方法,是通過對一個語料庫來進行加工,并統(tǒng)計其中的語言學方面的概率分布知識,即而獲取語料庫中所包含的語言知識。

步驟5,針對文本知識表示模型由計算機通過聚類算法來計算對象,用同一主題的文本一起形成一個主題庫,該主體庫即為熱門話題庫。

熱門主題發(fā)現(xiàn)是文本聚類算法的精華,文本聚類通過話題簇,從話題簇獲得一個新的主題?;舅枷胧菍⒚總€消息報告與已經(jīng)存在的話題簇進行比較。如果相似性高于給定閾值,則將消息插入到主題簇中。相似性越低,則新聞報道將重新構建主題簇。

所述聚類算法為劃分聚類算法、層次聚類算法或增量聚類算法中的任意一種或者組合。

所述劃分聚類算法是基于分區(qū)聚類算法,假設每個文本可以精確地定義為一個集合,并且計算每個集合的文本和相似性以將文本分類到相應的集合中。智慧校園熱門話題發(fā)現(xiàn)是基于k-means算法來實現(xiàn)的。k-means聚類算法是預先選擇的k個聚類中心,并且執(zhí)行遞歸操作以實現(xiàn)聚類。

k-means算法是通過使用傳統(tǒng)的聚類算法隨機選擇k個初始聚類中心,對聚類的結果影響較大,為解決這個問題,在聚類算法之前,收集主題詞頻方法,然后選擇可以分割主題的k個文本作為算法的初始聚類中心。具體步驟如下:

1)從樣本集中選擇每個消息文章的標題以形成標題集{t1,t2,...,tn};

2)提取的n個主題信息被劃分為詞,用于對主題中的詞的出現(xiàn)頻率進行計數(shù)。

3)在對主題詞頻率進行排序之后,選擇具有最高k個詞頻的關鍵詞以形成主題特征集{wt1,wt2,...,wtk};

4)初始消息樣本由根據(jù)關鍵字集合的k組文檔組成,即di={wi1,wi2,...,win},wij是包含的特征字wti的第j個文本,n是包含的特征字wti的文本數(shù);

5)比較wti和dti中剩余文本之間的相似度,我們得到n個相似度的值,我們將得到它們的和。然后我們使用具有相似性和最大值的消息作為相應主題詞頻率wti文本的表示,總共k可以表示文本;

6)設置閾值以計算k篇代表性文本和文本之間的相似性。如果超過閾值,則兩個中心點合并。如果所有文本之間的相似性低于閾值,則步驟9);

7)在步驟2中獲得的第k1個特征字,然后進行到步驟4;

8)最終得到k篇代表性文本;

9)該k篇代表性文本是初始聚類中心并且用k-means算法聚類。

這樣選擇的文本是k-means聚類算法的k個初始中心點,以提高聚類的準確性。

k-means算法必須預先確認聚類結果簇的數(shù)量,但是實際上難以確認聚類結果的數(shù)量,并且該算法不能完成新插入的文本對象,因此需要根據(jù)實際使用需求與其它兩種方法或其它方法中的一種組合計算。

所述分層聚類算法是一種將文本類別劃分為相應級別的聚類算法,相應級別將隨文本類型更改而更改。根據(jù)聚類的方向可分兩大類:從上層向下層細分形式和從下層到上層組合方式。

所述增量聚類算法為single-pass算法,是將第一個文本作為初始聚類中心,并與其他文本相似性比對,相似度高于插入到聚類中的文本的預設值,當相似度低時,它會自動創(chuàng)建一個新的聚類中心。該算法具有大量的新聞報道序列,不同輸入順序的影響對聚類有一定的影響。

增量聚類算法適應新的文本樣本,解決了k-means算法無法解決新文本對象的問題,根據(jù)新聞發(fā)布時間,依次將消息文本集輸入算法,是在聚類當中動態(tài)地形成聚類簇,預先并不需確認初始類簇數(shù),應用于處理在線信息,通常用于在線主題檢測。

本發(fā)明提供的基于智慧校園信息服務平臺的話題發(fā)現(xiàn)方法通過將熱點主題發(fā)現(xiàn)算法與文本聚類算法進行比較來驗證聚類結果的正確性,對如下實驗數(shù)據(jù)進行分析。先對數(shù)據(jù)測試指標相應介紹。

假設進行實驗的消息樣本總量為n,則對一個話題i,n個樣本中即有a篇與話題i相關的消息報道,通過話題聚類算法進行測出的屬于話題i的消息就有m篇,則發(fā)現(xiàn)m篇中的準確屬于話題i的消息即有b篇,則該算法遺漏正確消息的概率見公式(4)所示:

于是,該算法就將100篇消息錯誤報道聚類到話題i當中,錯誤檢測定義算法的概率如公式(5)所示。

對于跟蹤系統(tǒng)和主題檢測開銷,計算標準如等式(6)所示。

在式(5)中cmiss則為算法遺漏一個準確屬話題i的消息報道所產(chǎn)生的作用,cfa則為將不屬于話題i的消息報道歸到i中所產(chǎn)生的作用,假使實驗應將盡多準確的消息歸類到話題i當中,為達此目的,系統(tǒng)會將很多不屬于話題i的消息一并也歸類到當中,因此,實驗假使cmiss的影響相對較高,而cfa的影響相對較低,設cmiss=1.0,cfa=0.1。ptarget和pnon-target是基于過去的大量的聚類實驗獲得的系數(shù),ptarget=0.02,pnon-target=0.98,(cdet)norm的值越小,表明算法的準確性越好。

請參閱圖5為本發(fā)明的聚類算法的(cdet)norm值測試圖。圖中single-pass算法的(cdet)norm值、k-means算法和智慧校園主題聚類算法三種算法的對比直方圖,通過實驗處理的樣本數(shù)量增加,智慧校園主題發(fā)現(xiàn)算法的k-means算法和single-pass算法的cdet值也在增加。這表明算法的聚類精度隨著輸入樣本的數(shù)量而減少。當測試消息100篇時,k-means算法和single-pass算法的聚類正確度相差不明顯,當所測試消息增至800篇時,single-pass算法顯然要比k-means算法更精確,主要是由于k-means算法和初始聚類中心的影響,當測試的文本時間較長時,很難隨機選擇合適的k個中心,智慧的校園熱點算法解決此問題,所以(cdet)norm值受影響的樣本數(shù)量不大。

與相關技術相比,本發(fā)明提供的基于智慧校園信息服務平臺的話題發(fā)現(xiàn)方法可以獲得準確的輿情方式和重要元素,從而正確形成輿論。對智慧主題聚類過程可以更快更好地進行處理,并且當報告的消息數(shù)量較大時,聚類的精度可以保持較高。

以上所述僅為本發(fā)明的實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結構或等效流程變換,或直接或間接運用在其它相關的技術領域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1