本發(fā)明涉及計算機處理領(lǐng)域,特別是涉及一種話題預(yù)警的方法和裝置。
背景技術(shù):
隨著社交媒體的發(fā)展,社交網(wǎng)站、在線社區(qū)、微博等已逐漸成為人們生活中不可或缺的一部分,也是當(dāng)今時代信息傳播的主要渠道,與此同時,社交媒體也是輿情傳播的重要途徑。通過對社交媒體的話題監(jiān)聽預(yù)警,能夠為決策者提供科學(xué)化的信息支持。傳統(tǒng)的對社交媒體話題監(jiān)聽預(yù)警是通過對獲取到的歷史數(shù)據(jù)進(jìn)行分析,然后針對不同的話題進(jìn)行標(biāo)簽分級。由于話題更新速度非???,僅僅針對歷史數(shù)據(jù)進(jìn)行分析得出的結(jié)果顯然不夠準(zhǔn)確,且傳統(tǒng)的話題監(jiān)聽是針對所有的話題進(jìn)行監(jiān)聽,沒有考慮到用戶的個性化需求。
技術(shù)實現(xiàn)要素:
基于此,有必要針對上述問題,提出一種可以實現(xiàn)實時監(jiān)聽且能夠滿足用戶個性化需求的話題預(yù)警的方法和裝置。
一種話題預(yù)警的方法,所述方法包括:獲取自定義關(guān)鍵詞;計算所述自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度,根據(jù)所述相似度從語料庫中獲取與所述自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞;根據(jù)所述擴展關(guān)鍵詞的類型和所述擴展關(guān)鍵詞與所述自定義關(guān)鍵詞之間的相似度從所述擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表;根據(jù)所述目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽;當(dāng)監(jiān)聽到目標(biāo)關(guān)鍵詞所對應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時,進(jìn)行話題預(yù)警。
在其中一個實施例中,所述根據(jù)所述擴展關(guān)鍵詞的類型和所述擴展關(guān)鍵詞與所述自定義關(guān)鍵詞之間的相似度從所述擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表的步驟包括:將所述擴展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類;從每一類的擴展關(guān)鍵詞中篩選出與所述自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,其中,h為大于0的正整數(shù);將每一類篩選出來的目標(biāo)關(guān)鍵詞進(jìn)行聚合,生成用于監(jiān)聽的目標(biāo)關(guān)鍵詞列表。
在其中一個實施例中,在獲取自定義關(guān)鍵詞的步驟之后還包括:計算所述自定義關(guān)鍵詞對應(yīng)的詞向量;所述計算所述自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度,根據(jù)所述相似度從語料庫中獲取與所述自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞的步驟包括:計算自定義關(guān)鍵詞的詞向量與所述語料庫中每個詞語的詞向量之間的相似度;根據(jù)詞向量之間的相似度從語料庫中獲取與所述自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。
在其中一個實施例中,所述計算所述自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度,根據(jù)相似度從語料庫中獲取與所述自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞的步驟包括:采用皮爾森相關(guān)系數(shù)方法計算所述自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度;獲取與所述自定義關(guān)鍵詞相似度最高的前k個詞語作為所述自定義關(guān)鍵詞的擴展關(guān)鍵詞,其中,k為大于0的正整數(shù)。
在其中一個實施例中,所述根據(jù)所述目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽的步驟包括:采用滑動窗口的形式對所述目標(biāo)關(guān)鍵詞列表中的每一個目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。
一種話題預(yù)警的裝置,所述裝置包括:自定義關(guān)鍵詞獲取模塊,用于獲取自定義關(guān)鍵詞;擴展關(guān)鍵詞獲取模塊,用于計算所述自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度,根據(jù)所述相似度從語料庫中獲取與所述自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞;目標(biāo)關(guān)鍵詞篩選模塊,用于根據(jù)所述擴展關(guān)鍵詞的類型和所述擴展關(guān)鍵詞與所述自定義關(guān)鍵詞之間的相似度從所述擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表;監(jiān)聽模塊,用于根據(jù)所述目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽;預(yù)警模塊,用于當(dāng)監(jiān)聽所述目標(biāo)關(guān)鍵詞所對應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時,進(jìn)行話題預(yù)警。
在其中一個實施例中,所述目標(biāo)關(guān)鍵詞篩選模塊包括:分類模塊,用于將所述擴展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類;篩選模塊,用于從每一類的擴展關(guān)鍵詞中篩選出與所述自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,其中,h為大于0的正整數(shù);聚合模塊,用于將每一類篩選出來的目標(biāo)關(guān)鍵詞進(jìn)行聚合,生成用于監(jiān)聽的目標(biāo)關(guān)鍵詞列表。
在其中一個實施例中,所述裝置還包括:計算模塊,用于計算所述自定義關(guān)鍵詞對應(yīng)的詞向量;擴展關(guān)鍵詞獲取模塊還用于計算自定義關(guān)鍵詞的詞向量與所述語料庫中每個詞語的詞向量之間的相似度,根據(jù)詞向量之間的相似度從語料庫中獲取與所述自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。
在其中一個實施例中,所述擴展詞獲取模塊還用于采用皮爾森相關(guān)系數(shù)方法計算所述自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度,獲取與所述自定義關(guān)鍵詞相似度最高的前k個詞語作為所述自定義關(guān)鍵詞的擴展關(guān)鍵詞,其中,k為大于0的正整數(shù)。
在其中一個實施例中,所述預(yù)警模塊還用于采用滑動窗口的形式對所述目標(biāo)關(guān)鍵詞列表中的每一個目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。
上述話題預(yù)警的方法和裝置,通過獲取用戶自定義關(guān)鍵詞,然后在語料庫中根據(jù)相似度對該自定義關(guān)鍵詞進(jìn)行擴展,獲取相關(guān)的擴展關(guān)鍵詞,再根據(jù)擴展關(guān)鍵詞的類型和相似度進(jìn)行篩選,篩選出最終用于監(jiān)聽的目標(biāo)關(guān)鍵詞,之后在社交媒體上根據(jù)該目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽,當(dāng)監(jiān)聽到目標(biāo)關(guān)鍵詞的話題量達(dá)到預(yù)設(shè)閾值時,進(jìn)行話題預(yù)警。該方法和裝置不僅能夠?qū)崟r對話題進(jìn)行監(jiān)聽,而且可以基于用戶自定義的關(guān)鍵詞有針對性的進(jìn)行監(jiān)控,滿足了用戶的個性化監(jiān)聽預(yù)警的需求。通過對用戶所要監(jiān)控的自定義關(guān)鍵詞進(jìn)行擴展和篩選,保證了監(jiān)聽的多樣性和全面性。
附圖說明
圖1為一個實施例中終端的內(nèi)部結(jié)構(gòu)框圖;
圖2為一個實施例中服務(wù)器的內(nèi)部結(jié)構(gòu)框圖;
圖3為一個實施例中話題預(yù)警的方法流程圖;
圖4為一個實施例中根據(jù)擴展關(guān)鍵詞的類型和擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞的方法流程圖;
圖5為另一個實施例中話題預(yù)警的方法流程圖;
圖6為一個實施例中計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度,根據(jù)相似度從語料庫中獲取擴展關(guān)鍵詞的方法流程圖;
圖7為一個實施例中話題預(yù)警的裝置結(jié)構(gòu)框圖;
圖8為一個實施例中目標(biāo)關(guān)鍵詞篩選模塊的結(jié)構(gòu)框圖;
圖9為另一個實施例中話題預(yù)警的裝置結(jié)構(gòu)框圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,在一個實施例中,終端102的內(nèi)部結(jié)構(gòu)如圖1所示,包括通過系統(tǒng)總線連接的處理器、非易失性存儲介質(zhì)、內(nèi)存儲器、網(wǎng)絡(luò)接口、顯示屏和輸入裝置。其中,終端102的處理器用于提供計算和控制能力,支撐整個終端102的運行。非易失性存儲介質(zhì)存儲有操作系統(tǒng),還包括一種話題預(yù)警的裝置,該話題預(yù)警的裝置用于實現(xiàn)一種話題預(yù)警的方法。終端102中的內(nèi)存儲器為非易失性存儲介質(zhì)中的話題預(yù)警的裝置的運行提供環(huán)境,該內(nèi)存儲器中存有計算機可讀指令,該計算機可讀指令被處理器執(zhí)行時,可使得處理器執(zhí)行一種話題預(yù)警的方法。網(wǎng)絡(luò)接口用于連接到網(wǎng)絡(luò)進(jìn)行通信。終端102的顯示屏可以是液晶顯示屏或者電子墨水顯示屏等,輸入裝置可以是顯示屏上覆蓋的觸摸層,也可以是電子設(shè)備外殼上設(shè)置的按鍵、軌跡球或觸控板,也可以是外接的鍵盤、觸控板或鼠標(biāo)等。該終端102可以是平板電腦、筆記本電腦、臺式計算機等。本領(lǐng)域技術(shù)人員可以理解,圖1中示出的結(jié)構(gòu),僅僅是與本申請方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對本申請方案所應(yīng)用于其上的終端的限定,具體的終端可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。
如圖2所示,在一個實施例中,服務(wù)器104的內(nèi)部結(jié)構(gòu)如圖2所示,包括通過系統(tǒng)總線連接的處理器、非易失性存儲介質(zhì)、內(nèi)存儲器和網(wǎng)絡(luò)接口。其中,該服務(wù)器104的處理器用于提供計算和控制能力,支撐整個服務(wù)器的運行。該非易失存儲介質(zhì)包括操作系統(tǒng)和話題預(yù)警的裝置。該話題預(yù)警的裝置用于實現(xiàn)一種話題預(yù)警的方法,該服務(wù)器104的內(nèi)存儲器為非易失性存儲介質(zhì)中的話題預(yù)警的裝置的運行提供環(huán)境,該內(nèi)存儲器中可儲存有計算機可讀指令,該計算機可讀指令被所述處理器執(zhí)行時,可使得所述處理器執(zhí)行一種話題預(yù)警的方法。該服務(wù)器的網(wǎng)絡(luò)接口用于與外部的服務(wù)器和終端通過網(wǎng)絡(luò)連接通信。本領(lǐng)域技術(shù)人員可以理解,圖2中示出的結(jié)構(gòu),僅僅是與本申請方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對本申請方案所應(yīng)用于其上的服務(wù)器的限定,具體的服務(wù)器可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。
如圖3所示,在一個實施例中,提出了一種話題預(yù)警的方法,該方法可應(yīng)用于終端或服務(wù)器中,具體包括以下步驟:
步驟302,獲取自定義關(guān)鍵詞。
在本實施例中,自定義關(guān)鍵詞是指用戶給出的符合用戶監(jiān)聽需求的關(guān)鍵詞。為了能夠滿足用戶的個性化的監(jiān)聽需求,監(jiān)聽關(guān)鍵詞的設(shè)定是根據(jù)用戶自定義關(guān)鍵詞來設(shè)定的。由于大數(shù)據(jù)時代的社交媒體信息錯綜復(fù)雜,主體多種多樣,而不同的用戶所關(guān)注的話題不盡相同,自定義關(guān)鍵詞不僅能帶來友好的用戶交互,更多的是能夠?qū)崿F(xiàn)用戶監(jiān)聽需求的個性化以及多元化。
步驟304,計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度,根據(jù)相似度從語料庫中獲取與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。
在本實施例中,由于用戶給定的自定義關(guān)鍵詞往往不夠完整和全面,因此有必要對該自定義關(guān)鍵詞進(jìn)行一定的擴展。獲取與該自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞,有利于保證用戶對所需要監(jiān)聽的話題更加全面和完整,從而保證監(jiān)聽結(jié)果的完整性和多樣性。通過計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度,從語料庫中選取與自定義關(guān)鍵詞相似度比較大的詞語作為擴展關(guān)鍵詞。相似度越大,說明該詞語與自定義關(guān)鍵詞的語義越相近。詞語相似度的計算方法有多種,比如,可以采用同義詞詞林的方式計算詞語之間的相似度,也采用皮爾森相關(guān)系數(shù)來計算詞語之間的相似度。這里并不對詞語相似度的計算方法進(jìn)行限定。
在一個實施例中,相似度的計算是通過計算詞向量之間的相似度得到的。首先,采用word2vec模型計算自定義關(guān)鍵詞對應(yīng)的詞向量,其中,word2vec是一款將詞表征為實數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,可以通過訓(xùn)練,把對文本內(nèi)容的處理簡化為k維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似度。具體地,將自定義關(guān)鍵詞作為word2vec模型的輸入,輸出該自定義關(guān)鍵詞的詞向量表示。獲取到自定義關(guān)鍵詞的詞向量表示之后,通過計算詞向量之間的相似度從語料庫中篩選出自定義關(guān)鍵詞的擴展關(guān)鍵詞。為了能夠更快的獲取到與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞,可以將語料庫中的詞語均以詞向量的形式存儲。在一個實施例中,采用皮爾森相關(guān)系數(shù)(pearsoncorrelationcoefficient)來計算詞向量之間的相似度。假設(shè)自定義關(guān)鍵詞的向量表示為w=(w1,w2,…,wn),語料庫中任一詞語的向量表示為x=(x1,x2,…,xn),那么它們之間的相似度s(w,x)為:
其中,n表示詞向量的第n個詞向量特征,i表示詞向量中的第i個詞向量特征。通過計算自定義關(guān)鍵詞與語料庫中每個詞語的相似度篩選出與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。具體地,可以將相似度按照從高到低的順序進(jìn)行排列,選出出相似度最高的前k個詞語作為自定義關(guān)鍵詞的擴展關(guān)鍵詞。將自定義關(guān)鍵詞進(jìn)行擴展,使得關(guān)鍵詞更具多樣性,保證了話題監(jiān)聽結(jié)果具有與相似關(guān)鍵詞的對比性,便于為決策者提供更豐富的信息。
步驟306,根據(jù)擴展關(guān)鍵詞的類型和擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表。
在本實施例中,如果對步驟204得到的擴展關(guān)鍵詞全部監(jiān)聽,將會使得信息錯雜冗亂。所以為了保證信息的清楚,需要對獲取到的擴展關(guān)鍵詞進(jìn)行進(jìn)一步的篩選。根據(jù)擴展關(guān)鍵詞的類型和擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞的方法有多種。在一個實施例中,首先,將獲取到的全部擴展關(guān)鍵詞進(jìn)行分類,然后從每一類中選取出與自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,其中,h為大于0的正整數(shù),將每一類篩選出來的目標(biāo)關(guān)鍵詞進(jìn)行聚合,生成用于監(jiān)聽的目標(biāo)關(guān)鍵詞列表。在另一個實施例中,首先,獲取全部擴展詞對應(yīng)的類型,然后將相同類型的關(guān)鍵詞分為一組。分別獲取每一類擴展關(guān)鍵詞對應(yīng)的擴展詞數(shù)目,以擴展詞數(shù)目最少的類型為基準(zhǔn),假設(shè)擴展詞數(shù)目最少的類型對應(yīng)的數(shù)目為x個,那么分別從其他每一類型中也篩選出x個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,其中,從其他每一類型中篩選出x個擴展關(guān)鍵詞是根據(jù)相似度的大小進(jìn)行篩選的,分別篩選出其他每一類擴展關(guān)鍵詞中相似度最高的前x個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表。
步驟308,根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。
在本實施例中,當(dāng)確定了目標(biāo)關(guān)鍵詞列表后,根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。由于社交媒體數(shù)據(jù)每時每刻都在產(chǎn)生,迅速而規(guī)模龐大,形成了龐大的網(wǎng)絡(luò)數(shù)據(jù)流。為了更好的對話題進(jìn)行監(jiān)聽,可以采用基于滑動窗口的時序管理框架?;诨瑒哟翱诘臅r序管理框架的主要思想是:對于目標(biāo)監(jiān)聽列表中的每一個目標(biāo)關(guān)鍵詞,以滑動窗口的形式對話題數(shù)據(jù)流進(jìn)行管理,每個目標(biāo)關(guān)鍵詞維護一個一定大小的緩存,每過一個時間片(為了實時監(jiān)聽,時間片的設(shè)置通常很小,比如5分鐘),數(shù)據(jù)窗口進(jìn)行滑動,然后對緩存中的數(shù)據(jù)進(jìn)行處理。
步驟310,當(dāng)監(jiān)聽到目標(biāo)關(guān)鍵詞所對應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時,進(jìn)行話題預(yù)警。
在本實施例中,良好的監(jiān)聽必定需要預(yù)警,通過監(jiān)聽目標(biāo)關(guān)鍵詞所對應(yīng)的話題量是否達(dá)到預(yù)設(shè)閾值,對話題進(jìn)行預(yù)警。預(yù)警可以從兩個方面來進(jìn)行考慮,第一,對預(yù)設(shè)的時間片內(nèi)的話題量進(jìn)行監(jiān)聽預(yù)警。由于時間片是一個較短的時間,所以通過對短時間內(nèi)的話題監(jiān)聽,能夠?qū)Χ虝r間內(nèi)的突發(fā)事件進(jìn)行預(yù)警。第二,對于一段時間段的話題進(jìn)行預(yù)警,很多時候事件的發(fā)生或輿情的走勢并不一定是急劇的,因此,考察一段時間內(nèi)話題的熱點能夠幫助決策者發(fā)現(xiàn)事件的興起或輿情的逐漸走勢。具體地,采用兩種評價策略進(jìn)行關(guān)鍵詞的實時預(yù)警,一種是采用話題熱度進(jìn)行預(yù)警,通過分析大量的關(guān)鍵詞的熱度變化趨勢及其生命周期,以經(jīng)驗的方式確定熱度臨界閾值,當(dāng)監(jiān)聽的目標(biāo)關(guān)鍵詞在一個滑動窗口的時間片內(nèi)出現(xiàn)的頻率大于該熱度臨界閾值時,進(jìn)行預(yù)警響應(yīng)。一種是采用情感極性比率進(jìn)行預(yù)警,對監(jiān)聽的目標(biāo)關(guān)鍵詞列表相關(guān)的社會網(wǎng)絡(luò)文本進(jìn)行情感極性分析,主要包括正面、中性和負(fù)面三個方面的情感極性,當(dāng)負(fù)面情感在所有該目標(biāo)關(guān)鍵詞對應(yīng)的話題量中占的比率大于情感極性閾值時,進(jìn)行預(yù)警。該話題預(yù)警的方法可以應(yīng)用于很多領(lǐng)域,尤其是可以應(yīng)用于金融領(lǐng)域。以應(yīng)用于金融產(chǎn)品為例,說明一下該話題預(yù)警的益處。首先,互聯(lián)網(wǎng)與金融產(chǎn)業(yè)息息相關(guān),根據(jù)對互聯(lián)網(wǎng)數(shù)據(jù)的監(jiān)控可以為金融產(chǎn)品避免諸多損失。其次,與金融相關(guān)的關(guān)鍵詞比較有規(guī)律,而且相對比較固定,通過對金融產(chǎn)品相關(guān)的話題進(jìn)行監(jiān)聽預(yù)警,可以實現(xiàn)快速響應(yīng)而不失準(zhǔn)確率。
在本實施例中,通過獲取用戶自定義關(guān)鍵詞,然后在語料庫中根據(jù)相似度對該自定義關(guān)鍵詞進(jìn)行擴展,獲取相關(guān)的擴展關(guān)鍵詞,再根據(jù)擴展關(guān)鍵詞的類型和相似度進(jìn)行篩選,篩選出最終用于監(jiān)聽的目標(biāo)關(guān)鍵詞,之后在社交媒體上根據(jù)該目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽,當(dāng)監(jiān)聽到目標(biāo)關(guān)鍵詞的話題量達(dá)到預(yù)設(shè)閾值時,進(jìn)行話題預(yù)警。該方法不僅能夠?qū)崟r對話題進(jìn)行監(jiān)聽,而且可以基于用戶自定義的關(guān)鍵詞有針對性的進(jìn)行監(jiān)控,滿足了用戶的個性化監(jiān)聽預(yù)警的需求。通過對用戶所要監(jiān)控的自定義關(guān)鍵詞進(jìn)行擴展和篩選,保證了監(jiān)聽的多樣性和全面性。
如圖4所示,在一個實施例中,根據(jù)擴展關(guān)鍵詞的類型和擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表的步驟包括:
步驟306a,將擴展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類。
在本實施例中,為了對基于自定義關(guān)鍵詞的監(jiān)聽能夠監(jiān)聽的更加全面和平衡化。首先,需要對擴展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類,比如,將擴展關(guān)鍵詞按照“品牌”、“產(chǎn)品”、“競品”分為三類。這樣,便于后續(xù)針對每一類挑選出相同個數(shù)的目標(biāo)關(guān)鍵詞進(jìn)行監(jiān)聽,有利于保證監(jiān)聽信息的清楚和平衡。
步驟306b,從每一類的擴展關(guān)鍵詞中篩選出與自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,其中,h為大于0的正整數(shù)。
在本實施例中,將擴展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類后,采用眾包策略從每一類的擴展關(guān)鍵詞中篩選出與自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞。例如,從每一類中挑選出與自定義關(guān)鍵詞相似度最高的前5個詞語,最后將挑選出的每一類的目標(biāo)關(guān)鍵詞進(jìn)行聚合。
步驟306c,將每一類篩選出來的目標(biāo)關(guān)鍵詞進(jìn)行聚合,生成用于監(jiān)聽的目標(biāo)關(guān)鍵詞列表。
在本實施例中,通過從每一類的擴展關(guān)鍵詞中篩選出與自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞后,將每一類篩選出來的目標(biāo)關(guān)鍵詞聚集起來,放在同一張列表中,即生成目標(biāo)關(guān)鍵詞列表,后續(xù)便于根據(jù)該目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。比如,若將擴展關(guān)鍵詞按照“品牌”、“產(chǎn)品”、“競品”分為三類。若每一類都挑選出5個目標(biāo)關(guān)鍵詞,那么將總共挑選出15個目標(biāo)關(guān)鍵詞進(jìn)行監(jiān)聽。通過將擴展關(guān)鍵詞進(jìn)行分類,然后再針對每一類進(jìn)行篩選有利于監(jiān)聽的內(nèi)容更加清晰和全面,不會出現(xiàn)偏激化的結(jié)果。
如圖5所示,在一個實施例中,提出了一種話題預(yù)警的方法,該方法包括:
步驟502,獲取自定義關(guān)鍵詞。
步驟504,計算自定義關(guān)鍵詞對應(yīng)的詞向量。
步驟506,計算自定義關(guān)鍵詞的詞向量與語料庫中每個詞語的詞向量之間的相似度,根據(jù)詞向量之間的相似度從語料庫中獲取與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。
步驟508,根據(jù)擴展關(guān)鍵詞的類型和擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表。
步驟510,根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。
步驟512,當(dāng)監(jiān)聽到目標(biāo)關(guān)鍵詞所對應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時,進(jìn)行話題預(yù)警。
在本實施例中,當(dāng)獲取到自定義關(guān)鍵詞后,為了后續(xù)計算詞向量之間的相似度,首先需要計算該自定義關(guān)鍵詞對應(yīng)的詞向量,通過將自定義關(guān)鍵詞作為word2vec模型的輸入,生成與該自定義關(guān)鍵詞對應(yīng)的詞向量并輸出。為了監(jiān)聽的更加全面,需要對自定義關(guān)鍵詞進(jìn)行擴展,即找出相關(guān)的與該自定義關(guān)鍵詞語義相近的詞語表示。通過計算自定義關(guān)鍵詞與語料庫中的每個詞語之間的相似度來獲取與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞,其中,相似度越高,說明與自定義關(guān)鍵詞的語義越相近。具體地,可以采用皮爾森相關(guān)系數(shù)(pearsoncorrelationcoefficient)方法計算自定義關(guān)鍵詞的詞向量與語料庫中每個詞語的詞向量之間的相似度,從中挑選出與自定義關(guān)鍵詞相似度最高的前k個(比如,設(shè)k=50)詞語作為擴展關(guān)鍵詞。如果對挑選出來的擴展關(guān)鍵詞全部進(jìn)行監(jiān)聽,將會使得信息顯得冗雜,為了解決這一問題,還需要對挑選出來的擴展關(guān)鍵詞進(jìn)行進(jìn)一步的篩選?;诒姲呗詫U展關(guān)鍵詞進(jìn)行進(jìn)一步的篩選,首先對挑選出來的擴展關(guān)鍵詞進(jìn)行分類,比如,按照“品牌”、“產(chǎn)品”、“競品”分為三類。分類完成后,針對每一類,根據(jù)之前計算得到的每個擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度,每一類選出與自定義關(guān)鍵詞相似度最高的前h個詞語作為目標(biāo)關(guān)鍵詞,然后將每一類篩選出來的目標(biāo)關(guān)鍵詞進(jìn)行匯總,放在同一個列表中,即都加入目標(biāo)關(guān)鍵詞列表。之后根據(jù)該目標(biāo)關(guān)鍵詞列表進(jìn)行監(jiān)聽,并進(jìn)行相應(yīng)的預(yù)警。該方法通過對用戶自定義關(guān)鍵詞進(jìn)行擴展,保證了監(jiān)聽的多樣性和全面性,結(jié)合眾包技術(shù)對擴展關(guān)鍵詞進(jìn)行進(jìn)一步甄選保證了監(jiān)聽結(jié)果不具有偏激化。
如圖6所示,在一個實施例中,計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度,根據(jù)相似度從語料庫中獲取與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞的步驟包括:
步驟304a,采用皮爾森相關(guān)系數(shù)方法計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度。
在本實施例中,為了對自定義關(guān)鍵詞進(jìn)行擴展,找出與自定義關(guān)鍵詞語義相近的擴展關(guān)鍵詞,通過采用皮爾森相關(guān)系數(shù)方法來計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度。相似度越大,語義越相近。具體地,首先,獲取自定義關(guān)鍵詞的詞向量表示,可以通過word2vec方法計算得到。然后計算自定義關(guān)鍵詞的詞向量與語料庫中詞語的詞向量之間的相似度。為了能夠更加快捷的計算自定義關(guān)鍵詞與語料庫中詞語之間的相似度,在語料庫中,詞語是以詞向量的形式存在的。假設(shè)自定義關(guān)鍵詞的詞向量表示為w=(w1,w2,…,wn),語料庫中任一詞語的詞向量表示為x=(x1,x2,…,xn),那么它們之間的相似度s(w,x)為:
步驟304b,獲取與自定義關(guān)鍵詞相似度最高的前k個詞語作為自定義關(guān)鍵詞的擴展關(guān)鍵詞,其中,k為大于0的正整數(shù)。
在本實施例中,顯然,對自定義關(guān)鍵詞進(jìn)行無限擴展是不切實際的,所以需要從語料庫中篩選出相似度比較大的詞語作為擴展關(guān)鍵詞。具體地,采用貪心策略選擇與自定義關(guān)鍵詞相似度最高的前k個詞語作為自定義關(guān)鍵詞的擴展,設(shè)擴展關(guān)鍵詞集合為es(w),那么es(w)={x|s(w,x)≥s(w,xk)},其中,w表示自定義關(guān)鍵詞,xk表示與自定義關(guān)鍵詞相似度第k大的詞匯,比如,可以設(shè)置k=50,即選取與自定義關(guān)鍵詞相似度最高的前50個詞匯作為其擴展關(guān)鍵詞集合。
在一個實施例中,根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽的步驟包括:采用滑動窗口的形式對目標(biāo)關(guān)鍵詞列表中的每一個目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。
在本實施例中由于社交媒體數(shù)據(jù)每時每刻都在產(chǎn)生,且迅速而規(guī)模龐大,為了達(dá)到對話題進(jìn)行實時監(jiān)聽,需要解決如何在數(shù)據(jù)流的環(huán)境下進(jìn)行話題的實時監(jiān)聽。在該實施例中,通過采用基于滑動窗口的形式對目標(biāo)關(guān)鍵詞列中的每一個目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。即以滑動窗口的形式對話題數(shù)據(jù)流進(jìn)行管理,每個目標(biāo)關(guān)鍵詞維護一個一定大小的緩存,每過一個時間片,數(shù)據(jù)窗口進(jìn)行滑動,然后對緩存中的數(shù)據(jù)進(jìn)行處理,從而實現(xiàn)了對每個目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。
如圖7所示,在一個實施例中,提出了一種話題預(yù)警的裝置700,該裝置包括:
自定義關(guān)鍵詞獲取模塊702,用于獲取自定義關(guān)鍵詞。
擴展關(guān)鍵詞獲取模塊704,用于計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度,根據(jù)相似度從語料庫中獲取與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。
目標(biāo)關(guān)鍵詞篩選模塊706,用于根據(jù)擴展關(guān)鍵詞的類型和擴展關(guān)鍵詞與自定義關(guān)鍵詞之間的相似度從擴展關(guān)鍵詞中篩選出目標(biāo)關(guān)鍵詞,加入目標(biāo)關(guān)鍵詞列表。
監(jiān)聽模塊708,用于根據(jù)目標(biāo)關(guān)鍵詞列表中的目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。
預(yù)警模塊710,用于當(dāng)監(jiān)聽目標(biāo)關(guān)鍵詞所對應(yīng)的話題量達(dá)到預(yù)設(shè)閾值時,進(jìn)行話題預(yù)警。
如圖8所示,在一個實施例中,目標(biāo)關(guān)鍵詞篩選模塊706包括:
分類模塊706a,用于將擴展關(guān)鍵詞按照預(yù)設(shè)的類型進(jìn)行分類。
篩選模塊706b,用于從每一類的擴展關(guān)鍵詞中篩選出與自定義關(guān)鍵詞相似度最高的前h個擴展關(guān)鍵詞作為目標(biāo)關(guān)鍵詞,其中,h為大于0的正整數(shù)。
聚合模塊706c,用于將每一類篩選出來的目標(biāo)關(guān)鍵詞進(jìn)行聚合,生成用于監(jiān)聽的目標(biāo)關(guān)鍵詞列表。
如圖9所示,在一個實施例中,提出了一種話題預(yù)警的裝置900,除了包括上述模塊702-710,還包括:
計算模塊703,用于計算自定義關(guān)鍵詞對應(yīng)的詞向量。
擴展關(guān)鍵詞獲取模塊704還用于計算自定義關(guān)鍵詞的詞向量與語料庫中每個詞語的詞向量之間的相似度,根據(jù)詞向量之間的相似度從語料庫中獲取與自定義關(guān)鍵詞相關(guān)的擴展關(guān)鍵詞。
在一個實施例中,擴展詞獲取模塊還用于采用皮爾森相關(guān)系數(shù)方法計算自定義關(guān)鍵詞與語料庫中每個詞語之間的相似度,獲取與自定義關(guān)鍵詞相似度最高的前k個詞語作為自定義關(guān)鍵詞的擴展關(guān)鍵詞,其中,k為大于0的正整數(shù)。
在一個實施例中,預(yù)警模塊還用于采用滑動窗口的形式對目標(biāo)關(guān)鍵詞列表中的每一個目標(biāo)關(guān)鍵詞進(jìn)行實時監(jiān)聽。
本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,該計算機程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,前述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(read-onlymemory,rom)等非易失性存儲介質(zhì),或隨機存儲記憶體(randomaccessmemory,ram)等。
以上所述實施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡潔,未對上述實施例中的各個技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說明書記載的范圍。
以上所述實施例僅表達(dá)了本發(fā)明的幾種實施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。