本申請涉及文檔分析技術領域,尤其涉及一種用戶觀點的異常預警方法和裝置。
背景技術:
近年來,隨著互聯(lián)網(wǎng)技術的發(fā)展,聊天軟件、網(wǎng)絡論壇、微博等在線功能逐漸流行,公共輿論的影響已經(jīng)被網(wǎng)絡、大眾等媒體不斷放大,用戶的觀點可以對企業(yè)形象造成極大的影響。例如,在微博上短期內的大量轉發(fā)和負面評論可以對企業(yè)、產(chǎn)品或個人形象產(chǎn)生極壞的影響,如果不能及時發(fā)現(xiàn)并處理,非常容易導致事態(tài)發(fā)展擴張。因此,對各種用戶觀點進行分析,快速發(fā)現(xiàn)某些負面的觀點并進行預警變得非常重要。
目前,有人提出通過輿論觀點動力學的模型,根據(jù)網(wǎng)絡拓樸結構對網(wǎng)絡中的用戶觀點進行傳播和預測,但現(xiàn)階段具備的網(wǎng)絡輿論分析手段與方法不能夠有效地對現(xiàn)實輿論情況做出準確的反應,在預測、推演功能方面存在較為嚴重的滯后性,且現(xiàn)有的網(wǎng)絡輿論分析方法往往是針對網(wǎng)絡拓撲結構進行傳播走勢方面的建模和預測,無法對用戶觀點的文本內容進行分析,進而難以快速發(fā)現(xiàn)大規(guī)模的快速增長的異?;蜇撁娴挠脩粲^點,因而無法做出相應的預警和快速的響應。
技術實現(xiàn)要素:
為解決現(xiàn)有技術中的上述問題,本申請的一個目的在于提出一種用戶觀點的異常預警方法及裝置,可以根據(jù)用戶觀點的用戶文檔數(shù)量的變化發(fā)現(xiàn)用戶觀點的異常增加并進行預警,以便于及時發(fā)現(xiàn)并處理問題,防止事態(tài)擴大。
為達到上述目的,本申請實施例提出的用戶觀點的異常預警方法,包括:獲取符合預設條件的用戶文檔;對所述用戶文檔進行聚類;提取所述聚類主題的用戶觀點;根據(jù)預設時間內所述用戶觀點的用戶文檔數(shù)量進行預警。
為達到上述目的,本申請實施例提出的用戶觀點的異常預警裝置,包括:獲取模塊,用于獲取符合預設條件的用戶文檔;聚類模塊,用于對所述用戶文檔進行聚類;提取模塊,用于提取所述聚類主題的用戶觀點;預警模塊,用于根據(jù)預設時間內所述 用戶觀點的用戶文檔數(shù)量進行預警。
由以上本申請實施例提供的技術方案可見,通過對用戶文檔進行聚類,并提取各聚類主題所表達的用戶觀點,對預設時間內某一用戶觀點的用戶文檔數(shù)量進行分析,實時監(jiān)測各用戶觀點的文檔數(shù)量增長速度,在數(shù)據(jù)異常時做出預警,有利于及時發(fā)現(xiàn)用戶觀點的大規(guī)模激增,尤其是負面觀點的激增,使得企業(yè)能夠在發(fā)現(xiàn)問題后迅速做出反應,有效避免情況惡化,提高解決問題的主動性。
本申請附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本申請的實踐了解到。
附圖說明
為了更清楚地說明本申請實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本申請一實施例提出的用戶觀點的異常預警方法的流程示意圖;
圖2是本申請一實施例的用戶觀點的異常預警裝置的結構示意圖;
圖3是本申請另一實施例的用戶觀點的異常預警裝置的結構示意圖;
圖4是本申請另一實施例的預警模塊400的結構示意圖;
圖5是本申請另一實施例的預警模塊400的結構示意圖;
圖6是本申請另一實施例的預警模塊400的結構示意圖;
圖7是本申請一具體實施例的對用戶觀點進行異常預警的流程示意圖。
具體實施方式
本申請實施例提供一種用戶觀點的異常預警方法和裝置。
為了使本技術領域的人員更好地理解本申請中的技術方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應當屬于本申請保護的范圍。
圖1是本申請一實施例提出的用戶觀點的異常預警方法的流程示意圖,在該圖所示的實施例中,通過對涉及預設內容的用戶文檔進行聚類,并提取各聚類主題所表達的用戶觀點,對用戶觀點進行分析,從而對快速增長的異常用戶觀點進行預警。如圖1所示,該方法包括:
步驟101,獲取符合預設條件的用戶文檔。
具體的,獲取用戶文檔的方式有多種,例如可以從網(wǎng)頁獲取,從預設的網(wǎng)站抓取,或者從已知的數(shù)據(jù)庫中提取,還可以從預設程序的記錄中獲取。預設條件可以是與特定事件、產(chǎn)品等相關,或者包含預設的詞匯、語句等,例如,可以從涉及預設內容或詞匯的微博網(wǎng)頁上抓取相關的用戶留言、轉發(fā)評論等,也可以從內部渠道直接得到的用戶反饋記錄中獲取用戶的評論、留言、反饋、投訴等。
步驟102,對所述用戶文檔進行聚類??赏ㄟ^現(xiàn)有的聚類算法計算各用戶文檔的相似度并進行聚類。
步驟103,提取所述聚類主題的用戶觀點??梢愿鶕?jù)聚類得到的文檔群中的關鍵詞提取文檔群所表達的用戶觀點,具體將在后續(xù)實施例中進行詳細說明。
步驟104,根據(jù)預設時間內所述用戶觀點的用戶文檔數(shù)量進行預警。
根據(jù)本申請的一個實施例,所述對所述用戶文檔進行聚類包括:提取所述用戶文檔中的用戶意圖特征;對所述用戶意圖特征進行文檔相似度分析;根據(jù)文檔相似度分析的結果對所述用戶文檔進行聚類。具體地,對于聚類而言,不同的聚類算法本質上都是通過各種相似度的度量來進行聚類。本申請可以采用多種聚類方法,優(yōu)選地采用流式聚類方法,即基于online學習的聚類算法,例如singlepass算法等,按照時間順序對用戶文檔進行實時聚類,通過提取用戶文檔中最能夠表達用戶意圖的特征,以此為依據(jù)來對文檔進行相似度分析和聚類,能夠使得聚類得到的文檔群所表達的用戶意圖最接近,聚類準確度更高,效率更快。
根據(jù)本申請的一個實施例,用戶意圖特征包括依存特征、文本特征、動詞特征和用戶行為特征。其中,依存特征是一種描述詞與詞之間依存關系的算法。在依存句法中,每個句子都是一個最關鍵的詞,這個詞可以用來表示用戶的意圖。具體地,可以對用戶文檔分別進行依存特征提取得到依存特征,進行文本預處理得到文本特征,提取文檔中的動詞得到動詞特征,對用戶與預設內容相關的行為進行提取和篩選得到用戶行為特征。提取上述用戶意圖特征,能夠使得提取的特征更加有效,從而增強聚類 算法的效果和準確性。
根據(jù)本申請的一個實施例,所述提取所述聚類主題的用戶觀點包括:對所述聚類主題中的用戶文檔進行詞頻排序;根據(jù)所述詞頻排序提取所述聚類主題的用戶觀點。可以對聚類主題中的所有用戶文檔進行詞頻排序,篩選得到詞頻最高的幾個關鍵詞,根據(jù)篩選出的關鍵詞在各文檔中出現(xiàn)的位置,分析得到這些關鍵詞的語序,最終提取到該聚類主題的用戶觀點。
根據(jù)本申請的一個實施例,所述根據(jù)預設時間內所述用戶觀點的用戶文檔數(shù)量進行預警包括:統(tǒng)計預設時間內所述用戶觀點的文檔數(shù)量信息;根據(jù)所述文檔數(shù)量信息計算預設時間內所述用戶觀點的文檔數(shù)量均值;當所述用戶觀點的新增文檔數(shù)量與所述文檔數(shù)量均值的距離大于第一預設閾值時,進行異常觀點預警。其中,文檔數(shù)量信息可以是預設時間內該用戶觀點增加的文檔數(shù)量、單位時間內的新增值、預設時間內的數(shù)量均值、增長速度等數(shù)量統(tǒng)計信息中的一項或多項,預設時間可以根據(jù)統(tǒng)計需求設定,例如對某一用戶觀點一天內的新增文檔數(shù)量進行監(jiān)測,那么可以獲取最近30天內的文檔數(shù)據(jù)來計算每天出現(xiàn)的屬于該用戶觀點的文檔數(shù)量均值。通過根據(jù)一個用戶觀點在預設時間段內出現(xiàn)用戶文檔的數(shù)量均值,判斷新增文檔數(shù)量是否異常,從而可以通過發(fā)現(xiàn)這種數(shù)量上的異常來進行預警。本實施例可通過基于rbfkernel的方法實現(xiàn),具體將在后續(xù)實施例中詳細說明。
根據(jù)本申請的一個實施例,所述根據(jù)預設時間內所述用戶觀點的用戶文檔數(shù)量進行預警包括:統(tǒng)計預設時間內所述用戶觀點的文檔數(shù)量信息;根據(jù)所述文檔數(shù)量信息對所述用戶觀點的新增文檔數(shù)量進行預測,得到新增文檔的預測數(shù)量;當所述新增文檔數(shù)量與所述預測數(shù)量的差值大于第二預設閾值時,進行異常觀點預警。具體地,可以采用基于時間序列的方法來進行預測。時間預測方法是一種常用的對未來數(shù)量進行預測方法。常見的時間預測方法有arima方法。arima方法是一種基于歷史信息來對未來進行預測的方法??筛鶕?jù)歷史文檔數(shù)量(例如前三十天每天的文檔數(shù)量)計算得到今天的預測文檔數(shù)量值。如果聚類主題中所包含的文檔數(shù)遠大于歷史的數(shù)量,就進行報警。需要說明的是,arima方法在基于時間序列進行數(shù)量預測方面的應用可參見相關的技術文檔,例如《時間序列預測技術之三——含自變量的arima模型預測》(沈浩,2009-12-02)等,本申請對此不再贅述。
根據(jù)本申請的一個實施例,所述根據(jù)預設時間內所述用戶觀點的用戶文檔數(shù)量進 行預警包括:統(tǒng)計預設時間內所述用戶觀點的文檔數(shù)量信息;根據(jù)所述文檔數(shù)量信息計算預設時間內所述用戶觀點的文檔數(shù)量均值;根據(jù)所述文檔數(shù)量信息對所述用戶觀點的新增文檔數(shù)量進行預測,得到新增文檔的預測數(shù)量;當所述用戶觀點的新增文檔數(shù)量與所述文檔數(shù)量均值的距離大于第一預設閾值,且所述新增文檔數(shù)量與所述預測數(shù)量的差值大于第二預設閾值時,進行異常觀點預警。本實施例結合了兩種預警的判斷條件,當上述兩種情況同時發(fā)生時才對該用戶觀點進行異常預警,能夠有效減少誤報概率,顯著提高預警的正確性。
根據(jù)本申請的實施例,可以通過對用戶文檔進行聚類,并提取各聚類主題所表達的用戶觀點,通過對預設時間內某一用戶觀點的用戶文檔數(shù)量進行分析,可以實時監(jiān)測各用戶觀點的文檔數(shù)量增長速度,在數(shù)據(jù)異常時做出預警,有利于及時發(fā)現(xiàn)用戶觀點的大規(guī)模激增,尤其是負面觀點的激增,使得企業(yè)能夠在發(fā)現(xiàn)問題后迅速做出反應,有效避免情況惡化,提高解決問題的主動性。
基于同一發(fā)明構思,本申請實施例還提供了一種用戶觀點的異常預警裝置,可以用于實現(xiàn)上述實施例所描述的方法,如下面的實施例所述。由于用戶觀點的異常預警裝置解決問題的原理與用戶觀點的異常預警方法相似,因此用戶觀點的異常預警裝置的實施可以參見用戶觀點的異常預警裝置的實施,重復之處不再贅述。以下所使用的,術語“單元”或者“模塊”可以實現(xiàn)預定功能的軟件和/或硬件的組合。盡管以下實施例所描述的裝置較佳地以軟件來實現(xiàn),但是硬件,或者軟件和硬件的組合的實現(xiàn)也是可能并被構想的。
圖2是本申請一實施例的用戶觀點的異常預警裝置的結構示意圖。本實施例的裝置可以為實現(xiàn)相應功能的邏輯部件構成,也可以為運行有相應功能軟件的電子設備。
如圖2所示,該用戶觀點的異常預警裝置包括:獲取模塊100、聚類模塊200、提取模塊300和預警模塊400。
具體地,獲取模塊100用于獲取符合預設條件的用戶文檔。
聚類模塊200用于對所述用戶文檔進行聚類。
提取模塊300用于提取所述聚類主題的用戶觀點。
預警模塊400用于根據(jù)預設時間內所述用戶觀點的用戶文檔數(shù)量進行預警。
圖3所示是本申請另一實施例的用戶觀點的異常預警裝置的結構示意圖。
根據(jù)本申請的一個實施例,如圖3所示,聚類模塊200包括提取子模塊210、相 似度分析子模塊220和聚類子模塊230。
具體地,提取子模塊210用于提取所述用戶文檔中的用戶意圖特征;
相似度分析子模塊220用于對所述用戶意圖特征進行文檔相似度分析;
聚類子模塊230用于根據(jù)文檔相似度分析的結果對所述用戶文檔進行聚類。
根據(jù)本申請的一個實施例,提取子模塊210具體用于提取所述文檔中的依存特征、文本特征、動詞特征和用戶行為特征。
根據(jù)本申請的一個實施例,如圖3所示,提取模塊300可以包括詞頻排序子模塊310和觀點提取子模塊320。其中,詞頻排序子模塊310用于對所述聚類主題中的用戶文檔進行詞頻排序;觀點提取子模塊320用于根據(jù)所述詞頻排序提取所述聚類主題的用戶觀點。
根據(jù)本申請的一個實施例,如圖4所示,預警模塊400可以包括統(tǒng)計子模塊410、計算子模塊420和第一預警子模塊430。其中,統(tǒng)計子模塊410用于統(tǒng)計預設時間內所述用戶觀點的文檔數(shù)量信息;計算子模塊420用于根據(jù)所述文檔數(shù)量信息計算預設時間內所述用戶觀點的文檔數(shù)量均值;第一預警子模塊430用于在所述用戶觀點的新增文檔數(shù)量與所述文檔數(shù)量均值的距離大于第一預設閾值時,進行異常觀點預警。
根據(jù)本申請的一個實施例,如圖5所示,預警模塊400可以包括統(tǒng)計子模塊410、預測子模塊440和第二預警子模塊450。統(tǒng)計子模塊410,用于統(tǒng)計預設時間內所述用戶觀點的文檔數(shù)量信息;預測子模塊440用于根據(jù)所述文檔數(shù)量信息對所述用戶觀點的新增文檔數(shù)量進行預測,得到新增文檔的預測數(shù)量;第二預警子模塊450用于當所述新增文檔數(shù)量與所述預測數(shù)量的差值大于第二預設閾值時,進行異常觀點預警。
根據(jù)本申請的一個實施例,如圖6所示,預警模塊400可以包括統(tǒng)計子模塊410、計算子模塊420、預測子模塊440和第三預警子模塊460。其中,第三預警子模塊470用于在所述用戶觀點的新增文檔數(shù)量與所述文檔數(shù)量均值的距離大于第一預設閾值,且所述新增文檔數(shù)量與所述預測數(shù)量的差值大于第二預設閾值時,進行異常觀點預警。
根據(jù)本申請的實施例,可以通過對用戶文檔進行聚類,提取各聚類主題所表達的用戶觀點,并通過對預設時間內某一用戶觀點的用戶文檔數(shù)量進行分析,實時監(jiān)測各用戶觀點的文檔數(shù)量增長速度,在數(shù)據(jù)異常時做出預警,有利于及時發(fā)現(xiàn)用戶觀點的大規(guī)模激增,尤其是負面觀點的激增,使得企業(yè)能夠在發(fā)現(xiàn)問題后迅速做出反應,有 效避免情況惡化,提高解決問題的主動性。
圖7所示是本申請一具體實施例的使用上述方法和裝置對用戶觀點進行異常預警的流程示意圖:
步驟1,獲取符合預設條件的用戶文檔。
具體的,獲取用戶文檔的方式有多種,例如可以從網(wǎng)頁獲取,從預設的網(wǎng)站抓取,或者從已知的數(shù)據(jù)庫中提取,還可以從預設程序的記錄中獲取。預設條件可以是與特定事件、產(chǎn)品等相關,或者包含預設的詞匯、語句等,例如,可以從涉及預設內容或詞匯的微博網(wǎng)頁上抓取相關的用戶留言、轉發(fā)評論等,也可以從內部渠道直接得到的用戶反饋記錄中獲取用戶的評論、留言、反饋、投訴等。具體例如到阿里巴巴的官方微博中抓取與“螞蟻花唄”相關的評論。
步驟2,提取所述用戶文檔中的依存特征。
具體地,依存特征是一種描述句子中詞與詞之間依存關系的特征。在依存特征句法中,每個句子都圍繞著一個最關鍵的詞,這個詞可以用來表示用戶的意圖。具體可以根據(jù)現(xiàn)有的依存特征算法提取用戶文檔中的依存特征。
步驟3,提取所述用戶文檔中的文本特征。
具體地,可以對所述用戶文檔中的文本進行常規(guī)的預處理,因為用于預警分析的用戶文檔的文本大多是短對話,所以通常沒有必要將其進行分詞,而是通過2-gram(一種常用的非基于詞典的分詞方法,用于將一句話按照兩個字進行分割,例如花唄手續(xù)費分為:花唄,唄手,手續(xù),續(xù)費)來進行預處理。在進行2-gram預處理后之后,通過文本向量空間模型來將文本轉化為一個向量。
步驟4,提取所述用戶文檔中的動詞特征。
一般而言,動詞是一個句子中最重要的一個詞,最能表示用戶意圖。所以將句子中表示用戶意圖的動詞提取出來,也可以較準確地表述用戶意圖特征。
步驟5,提取所述用戶文檔中的用戶行為特征。
具體地,可將用戶與預設條件相關的特征提取出來。選擇合適的用戶特征對于提高分類的正確性,有著重要的意義。目前,主要通過業(yè)務經(jīng)驗來選擇用戶行為特征。例如預設條件是產(chǎn)品“螞蟻花唄”,則可以提取用戶是否開通該產(chǎn)品,用戶最近的登錄地址,用戶最近的ip地址等等。
步驟6,對所述用戶意圖特征進行文檔相似度分析。
其中,用戶意圖特征包括上述的依存特征、文本特征、動詞特征和用戶行為特征。
具體地,經(jīng)典的聚類算法一般都有一個相似度測量的公式。本實施例中,以基于cosine距離的相似度測量公式為例進行說明。公式如下:
sim(doc1,doc2)=αcos(text1,text2)+βcos(dep1,dep2)+γ(verb1,verb2)+θ(beh1,beh2)
α+β+γ+θ=1
其中,doc1和doc2表示兩篇用戶文檔,text1和text2分別是doc1和doc2中的文本特征部分,dep1和dep2分別是doc1和doc2中的依存特征句法部分,verb1和verb2分別是doc1和doc2中的動詞特征部分,beh1和beh2分別是doc1和doc2中的用戶行為特征部分,cos()指的是通過余弦值來度量相似度,α,β,γ,θ指的是相對應的權重。遵循一般規(guī)則,相似度的范圍一般是在0到1之間,故要求α,β,γ,θ相加為1。一般而言,相似度越接近1,兩句話就越接近。相似度越接近0,兩句話就越不相似,也就是說,兩句話所表示的語義相差就越大。
需要理解的是,除上述四種特征外,用戶意圖特征還可以有多種,對應的相似度測量公式也相應的不同。本實施例選用的四種特征能夠使得提取的特征更加有效,從而增強聚類算法的效果和準確性。
步驟7,根據(jù)文檔相似度分析的結果對所述用戶文檔進行聚類。
舉例而言,以基于online學習的聚類算法為例,可以按照時間順序對用戶文檔進行實時聚類。
首先需要指定算法的一些超參數(shù),t1為相似度的上限,t2為相似度的下限。t1和t2的取值范圍為0到1之間。
具體地,開始的時候,聚類主題數(shù)目為0,即所有的用戶文檔都沒有歸屬聚類主題。將每個按照時間順序流入的用戶文檔,進行上述各種用戶意圖特征提取,得到一個大的向量,然后計算每個聚類主題的文檔群的質心,再分別計算新流入的用戶文檔與每個聚類主題的質心的相似度,如果與某一質心的相似度大于t1,則將這篇用戶文檔歸屬在這一聚類主題里。如果相似度全部小于t2,則將這個用戶文檔作為一個單獨的主題。如果相似度均在t1和t2之間,則表示該用戶文檔的相似度難以界定,可拋棄此文檔。
步驟8,對所述聚類主題中的用戶文檔進行詞頻排序。
具體地,為了能更好的進行觀點展現(xiàn),可以選擇簡單的觀點抽取的方法。例如, 可統(tǒng)計每一個聚類主題中所有用戶文檔的詞頻,對于每個主題中的詞按照詞頻排序。然后,篩選得到排在前10的詞,作為該聚類主題的高頻詞。
步驟9,根據(jù)所述詞頻排序提取所述聚類主題的用戶觀點。
具體地,可統(tǒng)計篩選出的各高頻詞在各用戶文檔中出現(xiàn)的位置,并計算得到平均位置的值,根據(jù)平均位置的值對這些高頻詞進行排序,分析得到這些高頻詞的語序,最終提取到該聚類主題的用戶觀點。舉例而言,詞頻篩選得到的高頻詞為“花唄”“開通”“無法”,可將這三個高頻詞代回到原文檔中獲取位置值,具體例如,一個用戶文檔中依次出現(xiàn)了“花唄”“無法”兩個關鍵詞,“花唄”在該文檔中的位置值即為1,“無法”在該文檔中的位置值即為2,以此類推,可以獲取到該聚類主題中各個高頻詞在每個用戶文檔中的位置值,通過計算位置值的平均值得到“花唄”的平均位置為1.3,“開通”的平均位置為3.5,“無法”的平均位置為2.3,根據(jù)平均位置排序可得到觀點“花唄無法開通”。
在預警部分,可通過以下三種方式進行用戶觀點的文檔數(shù)量預警。
步驟10,統(tǒng)計預設時間內所述用戶觀點的文檔數(shù)量信息。
其中,文檔數(shù)量信息可以是預設時間內該用戶觀點增加的文檔數(shù)量、單位時間內的新增值、預設時間內的數(shù)量均值、增長速度等數(shù)量統(tǒng)計信息中的一項或多項,預設時間可以根據(jù)統(tǒng)計需求設定,例如對某一用戶觀點一天內的新增文檔數(shù)量進行監(jiān)測,那么可以獲取最近30天內的文檔數(shù)據(jù)來計算每天出現(xiàn)的屬于該用戶觀點的文檔數(shù)量均值。
步驟11,根據(jù)所述文檔數(shù)量信息計算預設時間內所述用戶觀點的文檔數(shù)量均值。
步驟12,當所述用戶觀點的新增文檔數(shù)量與所述文檔數(shù)量均值的距離大于第一預設閾值時,進行異常觀點預警。
具體地,步驟10-12的預警方法可通過基于rbfkernel(徑向基核函數(shù),radialbasisfunctionkernel)的方法實現(xiàn)。rbfkernel的公式形式如下:
k(x,x′)=exp(-a||x-x′||)2
首先,采用基于rbfkernel的方法,以一個月的數(shù)據(jù)為例,通過歷史一個月的數(shù)據(jù),可獲取屬于該用戶觀點的文檔數(shù)量每日均值,并且獲得歷史一個月內所述用戶觀點的文檔數(shù)量的標準差。計算新流入該用戶觀點的用戶文檔數(shù)量與一個月內每日文檔數(shù)量均值的距離,當這樣的距離大于預設閾值(例如兩倍的標準差)時,就進行預警。
這樣通過根據(jù)一個用戶觀點在預設時間段內出現(xiàn)用戶文檔的數(shù)量均值,判斷新增文檔數(shù)量是否異常,從而可以通過發(fā)現(xiàn)這種數(shù)量上的異常來進行預警。
可選的,還可以通過步驟13-15對所述用戶觀點的用戶文檔數(shù)量進行預警。
步驟13,統(tǒng)計預設時間內所述用戶觀點的文檔數(shù)量信息。參見步驟10。
步驟14,根據(jù)所述文檔數(shù)量信息對所述用戶觀點的新增文檔數(shù)量進行預測,得到新增文檔的預測數(shù)量。
步驟15,當所述新增文檔數(shù)量與所述預測數(shù)量的差值大于第二預設閾值時,進行異常觀點預警。
具體地,可以采用基于時間序列的方法來進行預測。時間預測方法是一種常用的對未來數(shù)量進行預測方法。常見的時間預測方法有arima方法。arima方法是一種基于歷史信息來對未來進行預測的方法??筛鶕?jù)歷史文檔數(shù)量(例如前三十天每天的文檔數(shù)量)計算得到今天的預測文檔數(shù)量值。如果聚類主題中所包含的文檔數(shù)遠大于歷史的數(shù)量,就進行報警。需要說明的是,arima方法在基于時間序列進行數(shù)量預測方面的應用可參見相關的技術文檔,例如《時間序列預測技術之三——含自變量的arima模型預測》(沈浩,2009-12-02)等,本申請對此不再贅述。
在本申請的另一個實施例中,還可以通過步驟10-15兩種方式來共同對所述用戶觀點的用戶文檔數(shù)量進行預警,當所述用戶觀點的新增文檔數(shù)量與所述文檔數(shù)量均值的距離大于第一預設閾值,且所述新增文檔數(shù)量與所述預測數(shù)量的差值大于第二預設閾值時,才進行異常觀點預警。能夠有效減少誤報概率,顯著提高預警的正確性。
本實施例可以通過對用戶文檔進行聚類,并提取各聚類主題所表達的用戶觀點,通過對預設時間內某一用戶觀點的用戶文檔數(shù)量進行分析,可以實時監(jiān)測各用戶觀點的文檔數(shù)量增長速度,在數(shù)據(jù)異常時做出預警,有利于及時發(fā)現(xiàn)用戶觀點的大規(guī)模激增,尤其是負面觀點的激增,使得企業(yè)能夠在發(fā)現(xiàn)問題后迅速做出反應,有效避免情況惡化,提高解決問題的主動性。通過提取有效的用戶意圖特征增強了聚類算法的效果;使用流式聚類方法,能更好地適應實時計算,聚類更迅速準確。
需要說明的是,在本申請的描述中,術語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。此外,在本申請的描述中,除非另有說明,“多個”的含義是兩個或兩個以上。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括 一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本申請的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應被本申請的實施例所屬技術領域的技術人員所理解。
應當理解,本申請的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(pga),現(xiàn)場可編程門陣列(fpga)等。
本技術領域的普通技術人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本申請的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。
盡管上面已經(jīng)示出和描述了本申請的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本申請的限制,本領域的普通技術人員在本申請的范圍內可以對上述實施例進行變化、修改、替換和變型。