話題預(yù)警的方法和裝置與流程

文檔序號：11250861閱讀：330來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計算機處理領(lǐng)域，特別是涉及一種話題預(yù)警的方法和裝置。

背景技術(shù)：

隨著社交媒體的發(fā)展，社交網(wǎng)站、在線社區(qū)、微博等已逐漸成為人們生活中不可或缺的一部分，也是當(dāng)今時代信息傳播的主要渠道，與此同時，社交媒體也是輿情傳播的重要途徑。通過對社交媒體的話題監(jiān)聽預(yù)警，能夠為決策者提供科學(xué)化的信息支持。傳統(tǒng)的對社交媒體話題監(jiān)聽預(yù)警是通過對獲取到的歷史數(shù)據(jù)進(jìn)行分析，然后針對不同的話題進(jìn)行標(biāo)簽分級。由于話題更新速度非?？?，僅僅針對歷史數(shù)據(jù)進(jìn)行分析得出的結(jié)果顯然不夠準(zhǔn)確，且傳統(tǒng)的話題監(jiān)聽是針對所有的話題進(jìn)行監(jiān)聽，沒有考慮到用戶的個性化需求。

技術(shù)實現(xiàn)要素：

基于此，有必要針對上述問題，提出一種可以實現(xiàn)實時監(jiān)聽且能夠滿足用戶個性化需求的話題預(yù)警的方法和裝置。

一種話題預(yù)警的方法，所述方法包括：獲取自定義關(guān)鍵詞；計算所述自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度，根據(jù)所述相似度從語料庫中獲取與所述自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞；根據(jù)所述擴展關(guān)鍵詞的類型和所述擴展關(guān)鍵詞與所述自定義關(guān)鍵詞之間的相似度從所述擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞，加入目標(biāo)關(guān)鍵詞列表；根據(jù)所述目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽；當(dāng)監(jiān)聽到目標(biāo)關(guān)鍵詞所對應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時，進(jìn)行話題預(yù)警。

在其中一個實施例中，所述根據(jù)所述擴展關(guān)鍵詞的類型和所述擴展關(guān)鍵詞與所述自定義關(guān)鍵詞之間的相似度從所述擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞，加入目標(biāo)關(guān)鍵詞列表的步驟包括：將所述擴展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類；從每一類的擴展關(guān)鍵詞中篩選出與所述自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞，其中，h為大于0的正整數(shù)；將每一類篩選出來的目標(biāo)關(guān)鍵詞進(jìn)行聚合，生成用于監(jiān)聽的目標(biāo)關(guān)鍵詞列表。

在其中一個實施例中，在獲取自定義關(guān)鍵詞的步驟之后還包括：計算所述自定義關(guān)鍵詞對應(yīng)的詞向量；所述計算所述自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度，根據(jù)所述相似度從語料庫中獲取與所述自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞的步驟包括：計算自定義關(guān)鍵詞的詞向量與所述語料庫中每個詞語的詞向量之間的相似度；根據(jù)詞向量之間的相似度從語料庫中獲取與所述自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。

在其中一個實施例中，所述計算所述自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度，根據(jù)相似度從語料庫中獲取與所述自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞的步驟包括：采用皮爾森相關(guān)系數(shù)方法計算所述自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度；獲取與所述自定義關(guān)鍵詞相似度最高的前k個詞語作為所述自定義關(guān)鍵詞的擴展關(guān)鍵詞，其中，k為大于0的正整數(shù)。

在其中一個實施例中，所述根據(jù)所述目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽的步驟包括：采用滑動窗口的形式對所述目標(biāo)關(guān)鍵詞列表中的每一個目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。

一種話題預(yù)警的裝置，所述裝置包括：自定義關(guān)鍵詞獲取模塊，用于獲取自定義關(guān)鍵詞；擴展關(guān)鍵詞獲取模塊，用于計算所述自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度，根據(jù)所述相似度從語料庫中獲取與所述自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞；目標(biāo)關(guān)鍵詞篩選模塊，用于根據(jù)所述擴展關(guān)鍵詞的類型和所述擴展關(guān)鍵詞與所述自定義關(guān)鍵詞之間的相似度從所述擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞，加入目標(biāo)關(guān)鍵詞列表；監(jiān)聽模塊，用于根據(jù)所述目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽；預(yù)警模塊，用于當(dāng)監(jiān)聽所述目標(biāo)關(guān)鍵詞所對應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時，進(jìn)行話題預(yù)警。

在其中一個實施例中，所述目標(biāo)關(guān)鍵詞篩選模塊包括：分類模塊，用于將所述擴展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類；篩選模塊，用于從每一類的擴展關(guān)鍵詞中篩選出與所述自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞，其中，h為大于0的正整數(shù)；聚合模塊，用于將每一類篩選出來的目標(biāo)關(guān)鍵詞進(jìn)行聚合，生成用于監(jiān)聽的目標(biāo)關(guān)鍵詞列表。

在其中一個實施例中，所述裝置還包括：計算模塊，用于計算所述自定義關(guān)鍵詞對應(yīng)的詞向量；擴展關(guān)鍵詞獲取模塊還用于計算自定義關(guān)鍵詞的詞向量與所述語料庫中每個詞語的詞向量之間的相似度，根據(jù)詞向量之間的相似度從語料庫中獲取與所述自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。

在其中一個實施例中，所述擴展詞獲取模塊還用于采用皮爾森相關(guān)系數(shù)方法計算所述自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度，獲取與所述自定義關(guān)鍵詞相似度最高的前k個詞語作為所述自定義關(guān)鍵詞的擴展關(guān)鍵詞，其中，k為大于0的正整數(shù)。

在其中一個實施例中，所述預(yù)警模塊還用于采用滑動窗口的形式對所述目標(biāo)關(guān)鍵詞列表中的每一個目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。

上述話題預(yù)警的方法和裝置，通過獲取用戶自定義關(guān)鍵詞，然后在語料庫中根據(jù)相似度對該自定義關(guān)鍵詞進(jìn)行擴展，獲取相關(guān)的擴展關(guān)鍵詞，再根據(jù)擴展關(guān)鍵詞的類型和相似度進(jìn)行篩選，篩選出最終用于監(jiān)聽的目標(biāo)關(guān)鍵詞，之后在社交媒體上根據(jù)該目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽，當(dāng)監(jiān)聽到目標(biāo)關(guān)鍵詞的話題量達(dá)到預(yù)設(shè)閾值時，進(jìn)行話題預(yù)警。該方法和裝置不僅能夠?qū)崟r對話題進(jìn)行監(jiān)聽，而且可以基于用戶自定義的關(guān)鍵詞有針對性的進(jìn)行監(jiān)控，滿足了用戶的個性化監(jiān)聽預(yù)警的需求。通過對用戶所要監(jiān)控的自定義關(guān)鍵詞進(jìn)行擴展和篩選，保證了監(jiān)聽的多樣性和全面性。

附圖說明

圖1為一個實施例中終端的內(nèi)部結(jié)構(gòu)框圖；

圖2為一個實施例中服務(wù)器的內(nèi)部結(jié)構(gòu)框圖；

圖3為一個實施例中話題預(yù)警的方法流程圖；

圖4為一個實施例中根據(jù)擴展關(guān)鍵詞的類型和擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞的方法流程圖；

圖5為另一個實施例中話題預(yù)警的方法流程圖；

圖6為一個實施例中計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度，根據(jù)相似度從語料庫中獲取擴展關(guān)鍵詞的方法流程圖；

圖7為一個實施例中話題預(yù)警的裝置結(jié)構(gòu)框圖；

圖8為一個實施例中目標(biāo)關(guān)鍵詞篩選模塊的結(jié)構(gòu)框圖；

圖9為另一個實施例中話題預(yù)警的裝置結(jié)構(gòu)框圖。

具體實施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白，以下結(jié)合附圖及實施例，對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

如圖1所示，在一個實施例中，終端102的內(nèi)部結(jié)構(gòu)如圖1所示，包括通過系統(tǒng)總線連接的處理器、非易失性存儲介質(zhì)、內(nèi)存儲器、網(wǎng)絡(luò)接口、顯示屏和輸入裝置。其中，終端102的處理器用于提供計算和控制能力，支撐整個終端102的運行。非易失性存儲介質(zhì)存儲有操作系統(tǒng)，還包括一種話題預(yù)警的裝置，該話題預(yù)警的裝置用于實現(xiàn)一種話題預(yù)警的方法。終端102中的內(nèi)存儲器為非易失性存儲介質(zhì)中的話題預(yù)警的裝置的運行提供環(huán)境，該內(nèi)存儲器中存有計算機可讀指令，該計算機可讀指令被處理器執(zhí)行時，可使得處理器執(zhí)行一種話題預(yù)警的方法。網(wǎng)絡(luò)接口用于連接到網(wǎng)絡(luò)進(jìn)行通信。終端102的顯示屏可以是液晶顯示屏或者電子墨水顯示屏等，輸入裝置可以是顯示屏上覆蓋的觸摸層，也可以是電子設(shè)備外殼上設(shè)置的按鍵、軌跡球或觸控板，也可以是外接的鍵盤、觸控板或鼠標(biāo)等。該終端102可以是平板電腦、筆記本電腦、臺式計算機等。本領(lǐng)域技術(shù)人員可以理解，圖1中示出的結(jié)構(gòu)，僅僅是與本申請方案相關(guān)的部分結(jié)構(gòu)的框圖，并不構(gòu)成對本申請方案所應(yīng)用于其上的終端的限定，具體的終端可以包括比圖中所示更多或更少的部件，或者組合某些部件，或者具有不同的部件布置。

如圖2所示，在一個實施例中，服務(wù)器104的內(nèi)部結(jié)構(gòu)如圖2所示，包括通過系統(tǒng)總線連接的處理器、非易失性存儲介質(zhì)、內(nèi)存儲器和網(wǎng)絡(luò)接口。其中，該服務(wù)器104的處理器用于提供計算和控制能力，支撐整個服務(wù)器的運行。該非易失存儲介質(zhì)包括操作系統(tǒng)和話題預(yù)警的裝置。該話題預(yù)警的裝置用于實現(xiàn)一種話題預(yù)警的方法，該服務(wù)器104的內(nèi)存儲器為非易失性存儲介質(zhì)中的話題預(yù)警的裝置的運行提供環(huán)境，該內(nèi)存儲器中可儲存有計算機可讀指令，該計算機可讀指令被所述處理器執(zhí)行時，可使得所述處理器執(zhí)行一種話題預(yù)警的方法。該服務(wù)器的網(wǎng)絡(luò)接口用于與外部的服務(wù)器和終端通過網(wǎng)絡(luò)連接通信。本領(lǐng)域技術(shù)人員可以理解，圖2中示出的結(jié)構(gòu)，僅僅是與本申請方案相關(guān)的部分結(jié)構(gòu)的框圖，并不構(gòu)成對本申請方案所應(yīng)用于其上的服務(wù)器的限定，具體的服務(wù)器可以包括比圖中所示更多或更少的部件，或者組合某些部件，或者具有不同的部件布置。

如圖3所示，在一個實施例中，提出了一種話題預(yù)警的方法，該方法可應(yīng)用于終端或服務(wù)器中，具體包括以下步驟：

步驟302，獲取自定義關(guān)鍵詞。

在本實施例中，自定義關(guān)鍵詞是指用戶給出的符合用戶監(jiān)聽需求的關(guān)鍵詞。為了能夠滿足用戶的個性化的監(jiān)聽需求，監(jiān)聽關(guān)鍵詞的設(shè)定是根據(jù)用戶自定義關(guān)鍵詞來設(shè)定的。由于大數(shù)據(jù)時代的社交媒體信息錯綜復(fù)雜，主體多種多樣，而不同的用戶所關(guān)注的話題不盡相同，自定義關(guān)鍵詞不僅能帶來友好的用戶交互，更多的是能夠?qū)崿F(xiàn)用戶監(jiān)聽需求的個性化以及多元化。

步驟304，計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度，根據(jù)相似度從語料庫中獲取與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。

在本實施例中，由于用戶給定的自定義關(guān)鍵詞往往不夠完整和全面，因此有必要對該自定義關(guān)鍵詞進(jìn)行一定的擴展。獲取與該自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞，有利于保證用戶對所需要監(jiān)聽的話題更加全面和完整，從而保證監(jiān)聽結(jié)果的完整性和多樣性。通過計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度，從語料庫中選取與自定義關(guān)鍵詞相似度比較大的詞語作為擴展關(guān)鍵詞。相似度越大，說明該詞語與自定義關(guān)鍵詞的語義越相近。詞語相似度的計算方法有多種，比如，可以采用同義詞詞林的方式計算詞語之間的相似度，也采用皮爾森相關(guān)系數(shù)來計算詞語之間的相似度。這里并不對詞語相似度的計算方法進(jìn)行限定。

在一個實施例中，相似度的計算是通過計算詞向量之間的相似度得到的。首先，采用word2vec模型計算自定義關(guān)鍵詞對應(yīng)的詞向量，其中，word2vec是一款將詞表征為實數(shù)值向量的高效工具，其利用深度學(xué)習(xí)的思想，可以通過訓(xùn)練，把對文本內(nèi)容的處理簡化為k維向量空間中的向量運算，而向量空間上的相似度可以用來表示文本語義上的相似度。具體地，將自定義關(guān)鍵詞作為word2vec模型的輸入，輸出該自定義關(guān)鍵詞的詞向量表示。獲取到自定義關(guān)鍵詞的詞向量表示之后，通過計算詞向量之間的相似度從語料庫中篩選出自定義關(guān)鍵詞的擴展關(guān)鍵詞。為了能夠更快的獲取到與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞，可以將語料庫中的詞語均以詞向量的形式存儲。在一個實施例中，采用皮爾森相關(guān)系數(shù)(pearsoncorrelationcoefficient)來計算詞向量之間的相似度。假設(shè)自定義關(guān)鍵詞的向量表示為w＝(w1,w2,…,wn)，語料庫中任一詞語的向量表示為x＝(x1,x2,…,xn)，那么它們之間的相似度s(w,x)為：

其中，n表示詞向量的第n個詞向量特征，i表示詞向量中的第i個詞向量特征。通過計算自定義關(guān)鍵詞與語料庫中每個詞語的相似度篩選出與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。具體地，可以將相似度按照從高到低的順序進(jìn)行排列，選出出相似度最高的前k個詞語作為自定義關(guān)鍵詞的擴展關(guān)鍵詞。將自定義關(guān)鍵詞進(jìn)行擴展，使得關(guān)鍵詞更具多樣性，保證了話題監(jiān)聽結(jié)果具有與相似關(guān)鍵詞的對比性，便于為決策者提供更豐富的信息。

步驟306，根據(jù)擴展關(guān)鍵詞的類型和擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞，加入目標(biāo)關(guān)鍵詞列表。

在本實施例中，如果對步驟204得到的擴展關(guān)鍵詞全部監(jiān)聽，將會使得信息錯雜冗亂。所以為了保證信息的清楚，需要對獲取到的擴展關(guān)鍵詞進(jìn)行進(jìn)一步的篩選。根據(jù)擴展關(guān)鍵詞的類型和擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞的方法有多種。在一個實施例中，首先，將獲取到的全部擴展關(guān)鍵詞進(jìn)行分類，然后從每一類中選取出與自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞，其中，h為大于0的正整數(shù)，將每一類篩選出來的目標(biāo)關(guān)鍵詞進(jìn)行聚合，生成用于監(jiān)聽的目標(biāo)關(guān)鍵詞列表。在另一個實施例中，首先，獲取全部擴展詞對應(yīng)的類型，然后將相同類型的關(guān)鍵詞分為一組。分別獲取每一類擴展關(guān)鍵詞對應(yīng)的擴展詞數(shù)目，以擴展詞數(shù)目最少的類型為基準(zhǔn)，假設(shè)擴展詞數(shù)目最少的類型對應(yīng)的數(shù)目為x個，那么分別從其他每一類型中也篩選出x個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞，其中，從其他每一類型中篩選出x個擴展關(guān)鍵詞是根據(jù)相似度的大小進(jìn)行篩選的，分別篩選出其他每一類擴展關(guān)鍵詞中相似度最高的前x個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞，加入目標(biāo)關(guān)鍵詞列表。

步驟308，根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。

在本實施例中，當(dāng)確定了目標(biāo)關(guān)鍵詞列表后，根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。由于社交媒體數(shù)據(jù)每時每刻都在產(chǎn)生，迅速而規(guī)模龐大，形成了龐大的網(wǎng)絡(luò)數(shù)據(jù)流。為了更好的對話題進(jìn)行監(jiān)聽，可以采用基于滑動窗口的時序管理框架?；诨瑒哟翱诘臅r序管理框架的主要思想是：對于目標(biāo)監(jiān)聽列表中的每一個目標(biāo)關(guān)鍵詞，以滑動窗口的形式對話題數(shù)據(jù)流進(jìn)行管理，每個目標(biāo)關(guān)鍵詞維護一個一定大小的緩存，每過一個時間片(為了實時監(jiān)聽，時間片的設(shè)置通常很小，比如5分鐘)，數(shù)據(jù)窗口進(jìn)行滑動，然后對緩存中的數(shù)據(jù)進(jìn)行處理。

步驟310，當(dāng)監(jiān)聽到目標(biāo)關(guān)鍵詞所對應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時，進(jìn)行話題預(yù)警。

在本實施例中，良好的監(jiān)聽必定需要預(yù)警，通過監(jiān)聽目標(biāo)關(guān)鍵詞所對應(yīng)的話題量是否達(dá)到預(yù)設(shè)閾值，對話題進(jìn)行預(yù)警。預(yù)警可以從兩個方面來進(jìn)行考慮，第一，對預(yù)設(shè)的時間片內(nèi)的話題量進(jìn)行監(jiān)聽預(yù)警。由于時間片是一個較短的時間，所以通過對短時間內(nèi)的話題監(jiān)聽，能夠?qū)Χ虝r間內(nèi)的突發(fā)事件進(jìn)行預(yù)警。第二，對于一段時間段的話題進(jìn)行預(yù)警，很多時候事件的發(fā)生或輿情的走勢并不一定是急劇的，因此，考察一段時間內(nèi)話題的熱點能夠幫助決策者發(fā)現(xiàn)事件的興起或輿情的逐漸走勢。具體地，采用兩種評價策略進(jìn)行關(guān)鍵詞的實時預(yù)警，一種是采用話題熱度進(jìn)行預(yù)警，通過分析大量的關(guān)鍵詞的熱度變化趨勢及其生命周期，以經(jīng)驗的方式確定熱度臨界閾值，當(dāng)監(jiān)聽的目標(biāo)關(guān)鍵詞在一個滑動窗口的時間片內(nèi)出現(xiàn)的頻率大于該熱度臨界閾值時，進(jìn)行預(yù)警響應(yīng)。一種是采用情感極性比率進(jìn)行預(yù)警，對監(jiān)聽的目標(biāo)關(guān)鍵詞列表相關(guān)的社會網(wǎng)絡(luò)文本進(jìn)行情感極性分析，主要包括正面、中性和負(fù)面三個方面的情感極性，當(dāng)負(fù)面情感在所有該目標(biāo)關(guān)鍵詞對應(yīng)的話題量中占的比率大于情感極性閾值時，進(jìn)行預(yù)警。該話題預(yù)警的方法可以應(yīng)用于很多領(lǐng)域，尤其是可以應(yīng)用于金融領(lǐng)域。以應(yīng)用于金融產(chǎn)品為例，說明一下該話題預(yù)警的益處。首先，互聯(lián)網(wǎng)與金融產(chǎn)業(yè)息息相關(guān)，根據(jù)對互聯(lián)網(wǎng)數(shù)據(jù)的監(jiān)控可以為金融產(chǎn)品避免諸多損失。其次，與金融相關(guān)的關(guān)鍵詞比較有規(guī)律，而且相對比較固定，通過對金融產(chǎn)品相關(guān)的話題進(jìn)行監(jiān)聽預(yù)警，可以實現(xiàn)快速響應(yīng)而不失準(zhǔn)確率。

在本實施例中，通過獲取用戶自定義關(guān)鍵詞，然后在語料庫中根據(jù)相似度對該自定義關(guān)鍵詞進(jìn)行擴展，獲取相關(guān)的擴展關(guān)鍵詞，再根據(jù)擴展關(guān)鍵詞的類型和相似度進(jìn)行篩選，篩選出最終用于監(jiān)聽的目標(biāo)關(guān)鍵詞，之后在社交媒體上根據(jù)該目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽，當(dāng)監(jiān)聽到目標(biāo)關(guān)鍵詞的話題量達(dá)到預(yù)設(shè)閾值時，進(jìn)行話題預(yù)警。該方法不僅能夠?qū)崟r對話題進(jìn)行監(jiān)聽，而且可以基于用戶自定義的關(guān)鍵詞有針對性的進(jìn)行監(jiān)控，滿足了用戶的個性化監(jiān)聽預(yù)警的需求。通過對用戶所要監(jiān)控的自定義關(guān)鍵詞進(jìn)行擴展和篩選，保證了監(jiān)聽的多樣性和全面性。

如圖4所示，在一個實施例中，根據(jù)擴展關(guān)鍵詞的類型和擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞，加入目標(biāo)關(guān)鍵詞列表的步驟包括：

步驟306a，將擴展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類。

在本實施例中，為了對基于自定義關(guān)鍵詞的監(jiān)聽能夠監(jiān)聽的更加全面和平衡化。首先，需要對擴展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類，比如，將擴展關(guān)鍵詞按照“品牌”、“產(chǎn)品”、“競品”分為三類。這樣，便于后續(xù)針對每一類挑選出相同個數(shù)的目標(biāo)關(guān)鍵詞進(jìn)行監(jiān)聽，有利于保證監(jiān)聽信息的清楚和平衡。

步驟306b，從每一類的擴展關(guān)鍵詞中篩選出與自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞，其中，h為大于0的正整數(shù)。

在本實施例中，將擴展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類后，采用眾包策略從每一類的擴展關(guān)鍵詞中篩選出與自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞。例如，從每一類中挑選出與自定義關(guān)鍵詞相似度最高的前5個詞語，最后將挑選出的每一類的目標(biāo)關(guān)鍵詞進(jìn)行聚合。

步驟306c，將每一類篩選出來的目標(biāo)關(guān)鍵詞進(jìn)行聚合，生成用于監(jiān)聽的目標(biāo)關(guān)鍵詞列表。

在本實施例中，通過從每一類的擴展關(guān)鍵詞中篩選出與自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞后，將每一類篩選出來的目標(biāo)關(guān)鍵詞聚集起來，放在同一張列表中，即生成目標(biāo)關(guān)鍵詞列表，后續(xù)便于根據(jù)該目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。比如，若將擴展關(guān)鍵詞按照“品牌”、“產(chǎn)品”、“競品”分為三類。若每一類都挑選出5個目標(biāo)關(guān)鍵詞，那么將總共挑選出15個目標(biāo)關(guān)鍵詞進(jìn)行監(jiān)聽。通過將擴展關(guān)鍵詞進(jìn)行分類，然后再針對每一類進(jìn)行篩選有利于監(jiān)聽的內(nèi)容更加清晰和全面，不會出現(xiàn)偏激化的結(jié)果。

如圖5所示，在一個實施例中，提出了一種話題預(yù)警的方法，該方法包括：

步驟502，獲取自定義關(guān)鍵詞。

步驟504，計算自定義關(guān)鍵詞對應(yīng)的詞向量。

步驟506，計算自定義關(guān)鍵詞的詞向量與語料庫中每個詞語的詞向量之間的相似度，根據(jù)詞向量之間的相似度從語料庫中獲取與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。

步驟508，根據(jù)擴展關(guān)鍵詞的類型和擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞，加入目標(biāo)關(guān)鍵詞列表。

步驟510，根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。

步驟512，當(dāng)監(jiān)聽到目標(biāo)關(guān)鍵詞所對應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時，進(jìn)行話題預(yù)警。

在本實施例中，當(dāng)獲取到自定義關(guān)鍵詞后，為了后續(xù)計算詞向量之間的相似度，首先需要計算該自定義關(guān)鍵詞對應(yīng)的詞向量，通過將自定義關(guān)鍵詞作為word2vec模型的輸入，生成與該自定義關(guān)鍵詞對應(yīng)的詞向量并輸出。為了監(jiān)聽的更加全面，需要對自定義關(guān)鍵詞進(jìn)行擴展，即找出相關(guān)的與該自定義關(guān)鍵詞語義相近的詞語表示。通過計算自定義關(guān)鍵詞與語料庫中的每個詞語之間的相似度來獲取與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞，其中，相似度越高，說明與自定義關(guān)鍵詞的語義越相近。具體地，可以采用皮爾森相關(guān)系數(shù)(pearsoncorrelationcoefficient)方法計算自定義關(guān)鍵詞的詞向量與語料庫中每個詞語的詞向量之間的相似度，從中挑選出與自定義關(guān)鍵詞相似度最高的前k個(比如，設(shè)k＝50)詞語作為擴展關(guān)鍵詞。如果對挑選出來的擴展關(guān)鍵詞全部進(jìn)行監(jiān)聽，將會使得信息顯得冗雜，為了解決這一問題，還需要對挑選出來的擴展關(guān)鍵詞進(jìn)行進(jìn)一步的篩選?；诒姲呗詫U展關(guān)鍵詞進(jìn)行進(jìn)一步的篩選，首先對挑選出來的擴展關(guān)鍵詞進(jìn)行分類，比如，按照“品牌”、“產(chǎn)品”、“競品”分為三類。分類完成后，針對每一類，根據(jù)之前計算得到的每個擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度，每一類選出與自定義關(guān)鍵詞相似度最高的前h個詞語作為目標(biāo)關(guān)鍵詞，然后將每一類篩選出來的目標(biāo)關(guān)鍵詞進(jìn)行匯總，放在同一個列表中，即都加入目標(biāo)關(guān)鍵詞列表。之后根據(jù)該目標(biāo)關(guān)鍵詞列表進(jìn)行監(jiān)聽，并進(jìn)行相應(yīng)的預(yù)警。該方法通過對用戶自定義關(guān)鍵詞進(jìn)行擴展，保證了監(jiān)聽的多樣性和全面性，結(jié)合眾包技術(shù)對擴展關(guān)鍵詞進(jìn)行進(jìn)一步甄選保證了監(jiān)聽結(jié)果不具有偏激化。

如圖6所示，在一個實施例中，計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度，根據(jù)相似度從語料庫中獲取與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞的步驟包括：

步驟304a，采用皮爾森相關(guān)系數(shù)方法計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度。

在本實施例中，為了對自定義關(guān)鍵詞進(jìn)行擴展，找出與自定義關(guān)鍵詞語義相近的擴展關(guān)鍵詞，通過采用皮爾森相關(guān)系數(shù)方法來計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度。相似度越大，語義越相近。具體地，首先，獲取自定義關(guān)鍵詞的詞向量表示，可以通過word2vec方法計算得到。然后計算自定義關(guān)鍵詞的詞向量與語料庫中詞語的詞向量之間的相似度。為了能夠更加快捷的計算自定義關(guān)鍵詞與語料庫中詞語之間的相似度，在語料庫中，詞語是以詞向量的形式存在的。假設(shè)自定義關(guān)鍵詞的詞向量表示為w＝(w1,w2,…,wn)，語料庫中任一詞語的詞向量表示為x＝(x1,x2,…,xn)，那么它們之間的相似度s(w,x)為：

步驟304b，獲取與自定義關(guān)鍵詞相似度最高的前k個詞語作為自定義關(guān)鍵詞的擴展關(guān)鍵詞，其中，k為大于0的正整數(shù)。

在本實施例中，顯然，對自定義關(guān)鍵詞進(jìn)行無限擴展是不切實際的，所以需要從語料庫中篩選出相似度比較大的詞語作為擴展關(guān)鍵詞。具體地，采用貪心策略選擇與自定義關(guān)鍵詞相似度最高的前k個詞語作為自定義關(guān)鍵詞的擴展，設(shè)擴展關(guān)鍵詞集合為es(w)，那么es(w)＝{x|s(w,x)≥s(w,xk)}，其中，w表示自定義關(guān)鍵詞，xk表示與自定義關(guān)鍵詞相似度第k大的詞匯，比如，可以設(shè)置k＝50，即選取與自定義關(guān)鍵詞相似度最高的前50個詞匯作為其擴展關(guān)鍵詞集合。

在一個實施例中，根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽的步驟包括：采用滑動窗口的形式對目標(biāo)關(guān)鍵詞列表中的每一個目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。

在本實施例中由于社交媒體數(shù)據(jù)每時每刻都在產(chǎn)生，且迅速而規(guī)模龐大，為了達(dá)到對話題進(jìn)行實時監(jiān)聽，需要解決如何在數(shù)據(jù)流的環(huán)境下進(jìn)行話題的實時監(jiān)聽。在該實施例中，通過采用基于滑動窗口的形式對目標(biāo)關(guān)鍵詞列中的每一個目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。即以滑動窗口的形式對話題數(shù)據(jù)流進(jìn)行管理，每個目標(biāo)關(guān)鍵詞維護一個一定大小的緩存，每過一個時間片，數(shù)據(jù)窗口進(jìn)行滑動，然后對緩存中的數(shù)據(jù)進(jìn)行處理，從而實現(xiàn)了對每個目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。

如圖7所示，在一個實施例中，提出了一種話題預(yù)警的裝置700，該裝置包括：

自定義關(guān)鍵詞獲取模塊702，用于獲取自定義關(guān)鍵詞。

擴展關(guān)鍵詞獲取模塊704，用于計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度，根據(jù)相似度從語料庫中獲取與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。

目標(biāo)關(guān)鍵詞篩選模塊706，用于根據(jù)擴展關(guān)鍵詞的類型和擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞，加入目標(biāo)關(guān)鍵詞列表。

監(jiān)聽模塊708，用于根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。

預(yù)警模塊710，用于當(dāng)監(jiān)聽目標(biāo)關(guān)鍵詞所對應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時，進(jìn)行話題預(yù)警。

如圖8所示，在一個實施例中，目標(biāo)關(guān)鍵詞篩選模塊706包括：

分類模塊706a，用于將擴展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類。

篩選模塊706b，用于從每一類的擴展關(guān)鍵詞中篩選出與自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞，其中，h為大于0的正整數(shù)。

聚合模塊706c，用于將每一類篩選出來的目標(biāo)關(guān)鍵詞進(jìn)行聚合，生成用于監(jiān)聽的目標(biāo)關(guān)鍵詞列表。

如圖9所示，在一個實施例中，提出了一種話題預(yù)警的裝置900，除了包括上述模塊702-710，還包括：

計算模塊703，用于計算自定義關(guān)鍵詞對應(yīng)的詞向量。

擴展關(guān)鍵詞獲取模塊704還用于計算自定義關(guān)鍵詞的詞向量與語料庫中每個詞語的詞向量之間的相似度，根據(jù)詞向量之間的相似度從語料庫中獲取與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。

在一個實施例中，擴展詞獲取模塊還用于采用皮爾森相關(guān)系數(shù)方法計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度，獲取與自定義關(guān)鍵詞相似度最高的前k個詞語作為自定義關(guān)鍵詞的擴展關(guān)鍵詞，其中，k為大于0的正整數(shù)。

在一個實施例中，預(yù)警模塊還用于采用滑動窗口的形式對目標(biāo)關(guān)鍵詞列表中的每一個目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。

本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程，是可以通過計算機程序來指令相關(guān)的硬件來完成，該計算機程序可存儲于一計算機可讀取存儲介質(zhì)中，該程序在執(zhí)行時，可包括如上述各方法的實施例的流程。其中，前述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(read-onlymemory，rom)等非易失性存儲介質(zhì)，或隨機存儲記憶體(randomaccessmemory，ram)等。

以上所述實施例的各技術(shù)特征可以進(jìn)行任意的組合，為使描述簡潔，未對上述實施例中的各個技術(shù)特征所有可能的組合都進(jìn)行描述，然而，只要這些技術(shù)特征的組合不存在矛盾，都應(yīng)當(dāng)認(rèn)為是本說明書記載的范圍。

以上所述實施例僅表達(dá)了本發(fā)明的幾種實施方式，其描述較為具體和詳細(xì)，但并不能因此而理解為對發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是，對于本領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變形和改進(jìn)，這些都屬于本發(fā)明的保護范圍。因此，本發(fā)明專利的保護范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王健宗;黃章成;吳天博;肖京
技術(shù)所有人：平安科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：一種LDA并行優(yōu)化方法與流程
上一篇：一種自動報表生成方法及其裝置與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

通訊立桿防爬預(yù)警裝置相關(guān)技術(shù)

地震預(yù)警裝置相關(guān)技術(shù)

卷收預(yù)警裝置什么東西相關(guān)技術(shù)

一種限高自動預(yù)警裝置相關(guān)技術(shù)

立桿防爬預(yù)警裝置相關(guān)技術(shù)

預(yù)警裝置相關(guān)技術(shù)

車路協(xié)同預(yù)警裝置相關(guān)技術(shù)

檢查裝置氣密性的方法相關(guān)技術(shù)

檢驗裝置氣密性的方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

話題預(yù)警的方法和裝置與流程