本申請(qǐng)涉及計(jì)算機(jī)領(lǐng)域,具體而言,涉及一種熱詞的處理方法及裝置。
背景技術(shù):
在對(duì)一些話題進(jìn)行分析時(shí),通常都會(huì)需要統(tǒng)計(jì)話題中的熱詞,熱詞是指在與話題相關(guān)的文本中出現(xiàn)次數(shù)達(dá)到一定百分比的n個(gè)詞。而在統(tǒng)計(jì)熱詞的過(guò)程中經(jīng)常會(huì)遇到相同領(lǐng)域下,不同話題間的熱詞相似度很大的情況,以及一些該領(lǐng)域常見(jiàn)的熱詞會(huì)在該領(lǐng)域下的幾乎所有話題中都會(huì)出現(xiàn)的情況。例如分析法律案件的話題時(shí),無(wú)論話題是離婚案件還是交通事故案件或者民事糾紛案件,都會(huì)出現(xiàn)諸如“原告”、“被告”等詞,此類詞在所有法律案件的話題中都會(huì)出現(xiàn),因此上述熱詞的特征程度較低,為非特征詞。所以對(duì)于表述某個(gè)法律案件的話題的特征沒(méi)有幫助,需要去除掉?,F(xiàn)有技術(shù)中,通過(guò)人工統(tǒng)計(jì)的方式將所有話題中都出現(xiàn)的熱詞刪除掉,上述人工統(tǒng)計(jì)的方式有如下缺點(diǎn):第一,人工統(tǒng)計(jì)容易發(fā)生遺漏;第二,人工統(tǒng)計(jì)的準(zhǔn)確度不高;第三,人工統(tǒng)計(jì)耗時(shí)較長(zhǎng)。
針對(duì)上述的問(wèn)題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)實(shí)施例提供了一種熱詞的處理方法及裝置,以至少解決現(xiàn)有技術(shù)中由于采用人工方式刪除特征程度較低的熱詞,導(dǎo)致效率低的技術(shù)問(wèn)題。
根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供了一種熱詞的處理方法,包括:獲取各個(gè)話題的熱詞,得到多個(gè)熱詞;計(jì)算每個(gè)熱詞在話題集合中的熵值,其中,所述話題集合為所述各個(gè)話題的集合,所述熵值用于表征所述熱詞的特征程度;從所述多個(gè)熱詞中篩選出熵值大于第一預(yù)設(shè)閾值的熱詞,得到第一目標(biāo)熱詞;在所述各個(gè)話題的熱詞中刪除所述第一目標(biāo)熱詞。
進(jìn)一步地,計(jì)算每個(gè)熱詞在話題集合中的熵值包括:計(jì)算熱詞ai在目標(biāo)話題bij中出現(xiàn)的概率pij,其中,i依次取1至n,n為所述多個(gè)熱詞的數(shù)量,j依次取1至m(i),m(i)為所述熱詞ai對(duì)應(yīng)的目標(biāo)話題的數(shù)量之和,所述目標(biāo)話題bij為所述各個(gè)話題中所述熱詞ai出現(xiàn)的話題;根據(jù)概率pi1至概率pim(i)計(jì)算所述熱詞ai在所述話題集合中的熵值。
進(jìn)一步地,根據(jù)概率pi1至概率pim(i)計(jì)算所述熱詞ai在所述話題集合中的熵值包括:根據(jù)公式
進(jìn)一步地,計(jì)算熱詞ai在目標(biāo)話題bij中出現(xiàn)的概率pij包括:統(tǒng)計(jì)所述熱詞ai在所述目標(biāo)話題bij中出現(xiàn)的次數(shù)cij;統(tǒng)計(jì)所述目標(biāo)話題bij中包含的熱詞的總出現(xiàn)次數(shù)cij';根據(jù)所述次數(shù)cij和所述總出現(xiàn)次數(shù)cij'計(jì)算所述熱詞ai在所述目標(biāo)話題bij中出現(xiàn)的概率pij。
進(jìn)一步地,從所述多個(gè)熱詞中篩選出熵值大于第一預(yù)設(shè)閾值的熱詞,得到第一目標(biāo)熱詞包括:判斷熱詞ai的熵值是否大于所述第一預(yù)設(shè)閾值,其中,i依次取1至n,n為所述多個(gè)熱詞的數(shù)量;在判斷出所述熱詞ai的熵值大于所述第一預(yù)設(shè)閾值的情況下,確定所述熱詞ai為所述第一目標(biāo)熱詞。
進(jìn)一步地,在所述各個(gè)話題的熱詞中刪除所述第一目標(biāo)熱詞之后,所述方法還包括:從所述多個(gè)熱詞中篩選出熵值大于第二預(yù)設(shè)閾值的熱詞,得到第二目標(biāo)熱詞,其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值;在所述各個(gè)話題的刪除所述第一目標(biāo)熱詞后的剩余熱詞中刪除所述第二目標(biāo)熱詞。
根據(jù)本申請(qǐng)實(shí)施例的另一方面,還提供了一種熱詞的處理裝置,包括:獲取單元,用于獲取各個(gè)話題的熱詞,得到多個(gè)熱詞;計(jì)算單元,用于計(jì)算每個(gè)熱詞在話題集合中的熵值,其中,所述話題集合為所述各個(gè)話題的集合,所述熵值用于表征所述熱詞的特征程度;第一篩選單元,用于從所述多個(gè)熱詞中篩選出熵值大于第一預(yù)設(shè)閾值的熱詞,得到第一目標(biāo)熱詞;第一刪除單元,用于在所述各個(gè)話題的熱詞中刪除所述第一目標(biāo)熱詞。
進(jìn)一步地,所述計(jì)算單元包括:第一計(jì)算模塊,用于計(jì)算熱詞ai在目標(biāo)話題bij中出現(xiàn)的概率pij,其中,i依次取1至n,n為所述多個(gè)熱詞的數(shù)量,j依次取1至m(i),m(i)為所述熱詞ai對(duì)應(yīng)的目標(biāo)話題的數(shù)量之和,所述目標(biāo)話題bij為所述各個(gè)話題中所述熱詞ai出現(xiàn)的話題;第二計(jì)算模塊,用于根據(jù)概率pi1至概率pim(i)計(jì)算所述熱詞ai在所述話題集合中的熵值。
進(jìn)一步地,所述第二計(jì)算模塊包括:第一計(jì)算子模塊,用于根據(jù)公式
進(jìn)一步地,所述第一計(jì)算模塊包括:第一統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)所述熱詞ai在所述目標(biāo)話題bij中出現(xiàn)的次數(shù)cij;第二統(tǒng)計(jì)子模塊,用于獲取所述目標(biāo)話題bij中包含的熱詞的總出現(xiàn)次數(shù)cij';第二計(jì)算子模塊,用于根據(jù)所述次數(shù)cij和所述總出現(xiàn)次數(shù)cij'計(jì)算所述熱詞ai在所述目標(biāo)話題bij中出現(xiàn)的概率pij。
進(jìn)一步地,所述第一篩選單元包括:判斷模塊,判斷熱詞ai的熵值是否大于所述第一預(yù)設(shè)閾值,其中,i依次取1至n,n為所述多個(gè)熱詞的數(shù)量;確定模塊,用于在判斷出所述熱詞ai的熵值大于所述第一預(yù)設(shè)閾值的情況下,確定所述熱詞ai為第一目標(biāo)熱詞。
進(jìn)一步地,所述裝置還包括:第二篩選單元,用于在所述各個(gè)話題的熱詞中刪除所述第一目標(biāo)熱詞之后,從所述多個(gè)熱詞中篩選出熵值大于第二預(yù)設(shè)閾值的熱詞,得到第二目標(biāo)熱詞,其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值;第二刪除單元,用于在所述各個(gè)話題的刪除所述第一目標(biāo)熱詞后的剩余熱詞中刪除所述第二目標(biāo)熱詞。
在本申請(qǐng)實(shí)施例中,采用獲取各個(gè)話題的熱詞,得到多個(gè)熱詞;計(jì)算每個(gè)熱詞在話題集合中的熵值,其中,所述話題集合為所述各個(gè)話題的集合,所述熵值用于表征所述熱詞的特征程度;從所述多個(gè)熱詞中篩選出熵值大于第一預(yù)設(shè)閾值的熱詞,得到第一目標(biāo)熱詞;以及在所述各個(gè)話題的熱詞中刪除所述第一目標(biāo)熱詞的方式,通過(guò)計(jì)算每個(gè)熱詞在由各個(gè)話題組成的話題集合中的熵值,并根據(jù)熵值刪除話題集合中的特征程度較低的熱詞(即,第一目標(biāo)熱詞),與現(xiàn)有技術(shù)中通過(guò)人工統(tǒng)計(jì)的方式特征程度較低的熱詞相比,不僅能夠較為準(zhǔn)確的確定出特征程度較低的熱詞,還能夠自動(dòng)將上述特征程度較低的熱詞刪除,進(jìn)而解決了現(xiàn)有技術(shù)中由于采用人工方式刪除特征程度較低的熱詞,導(dǎo)致效率低的技術(shù)問(wèn)題,達(dá)到了提高工作效率的技術(shù)效果。
附圖說(shuō)明
此處所說(shuō)明的附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說(shuō)明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:
圖1是根據(jù)本申請(qǐng)實(shí)施例的一種熱詞的處理方法的流程圖;以及
圖2是根據(jù)本申請(qǐng)實(shí)施例的一種熱詞的處理裝置的示意圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)方案,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分的實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。
需要說(shuō)明的是,本申請(qǐng)的說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本申請(qǐng)的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語(yǔ)“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒(méi)有清楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
根據(jù)本申請(qǐng)實(shí)施例,提供了一種熱詞的處理方法的方法實(shí)施例,需要說(shuō)明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
圖1是根據(jù)本申請(qǐng)實(shí)施例的一種熱詞的處理方法的流程圖,如圖1所示,該方法包括如下步驟:
步驟s102,獲取各個(gè)話題的熱詞,得到多個(gè)熱詞。
步驟s104,計(jì)算每個(gè)熱詞在話題集合中的熵值,其中,話題集合為各個(gè)話題的集合,熵值用于表征熱詞的特征程度。
由于計(jì)算了每個(gè)熱詞在話題集合中的熵值,從而能夠知曉每個(gè)熱詞在話題集合中特征程度的高低。
具體地,熵值越高,表示該熱詞在話題集合中出現(xiàn)的概率越大,從而特征程度越低,也就越普遍。
步驟s106,從多個(gè)熱詞中篩選出熵值大于第一預(yù)設(shè)閾值的熱詞,得到第一目標(biāo)熱詞。
具體地,第一預(yù)設(shè)閾值可以根據(jù)用戶需求設(shè)置。得到的第一目標(biāo)熱詞的數(shù)量可以是一個(gè),也可以是多個(gè),具有由用戶設(shè)定的預(yù)設(shè)閾值的大小以及熱詞的熵值共同決定。
步驟s108,在各個(gè)話題的熱詞中刪除第一目標(biāo)熱詞。
在本申請(qǐng)實(shí)施例中,通過(guò)計(jì)算每個(gè)熱詞在由各個(gè)話題組成的話題集合中的熵值,并根據(jù)熵值刪除話題集合中特征程度較低的熱詞(即,第一目標(biāo)熱詞),與現(xiàn)有技術(shù)中通過(guò)人工統(tǒng)計(jì)的方式特征程度較低的熱詞相比,不僅能夠較為準(zhǔn)確的確定出特征程度較低的熱詞,還能夠自動(dòng)將上述特征程度較低的熱詞刪除,進(jìn)而解決了現(xiàn)有技術(shù)中由于采用人工方式刪除特征程度較低的熱詞,導(dǎo)致效率低的技術(shù)問(wèn)題,達(dá)到了提高工作效率的技術(shù)效果。并且,本申請(qǐng)實(shí)施例所提供的熱詞的處理方式,無(wú)需人工參與,所以還達(dá)到了節(jié)約成本的效果。
可選地,在本申請(qǐng)實(shí)施例中,計(jì)算每個(gè)熱詞在話題集合中的熵值包括步驟s1041和步驟s1043,具體如下:
步驟s1041,計(jì)算熱詞ai在目標(biāo)話題bij中出現(xiàn)的概率pij,其中,i依次取1至n,n為多個(gè)熱詞的數(shù)量,j依次取1至m(i),m(i)為熱詞ai對(duì)應(yīng)的目標(biāo)話題的數(shù)量之和,目標(biāo)話題bij為各個(gè)話題中熱詞ai出現(xiàn)的話題。
具體地,目標(biāo)話題bij為各個(gè)話題中熱詞ai所在的話題或者各個(gè)話題中包含熱詞ai的話題。
需要說(shuō)明的是,一個(gè)熱詞可能出現(xiàn)在多個(gè)話題中,也可能只出現(xiàn)在一個(gè)話題中。如果上述熱詞出現(xiàn)在多個(gè)話題中,則該熱詞對(duì)應(yīng)的目標(biāo)話題就為多個(gè),那么需要計(jì)算該熱詞在每個(gè)目標(biāo)話題中出現(xiàn)的概率;如果上述熱詞只出現(xiàn)在一個(gè)話題中,則該熱詞對(duì)應(yīng)的目標(biāo)話題就為一個(gè),那么只需計(jì)算該熱詞在上述一個(gè)目標(biāo)話題中出現(xiàn)的概率,此時(shí)步驟s1041中的m(i)等于1,則j只取1。
通過(guò)上述內(nèi)容可知,對(duì)于某個(gè)熱詞而言,其對(duì)應(yīng)的目標(biāo)話題的數(shù)量與計(jì)算出的概率的數(shù)量相等。也就是,該熱詞出現(xiàn)在多少個(gè)話題中,就會(huì)有多少個(gè)對(duì)應(yīng)的目標(biāo)話題,從而就計(jì)算出上述熱詞的多少個(gè)概率。
步驟s1043,根據(jù)概率pi1至概率pim(i)計(jì)算熱詞ai在話題集合中的熵值。
需要說(shuō)明的是,對(duì)于只出現(xiàn)在一個(gè)話題中的熱詞,由于該熱詞對(duì)應(yīng)的目標(biāo)話題只有一個(gè),因此只根據(jù)該熱詞在上述一個(gè)目標(biāo)話題中出現(xiàn)的概率計(jì)算該熱詞在話題集合中的熵值。
通過(guò)對(duì)每個(gè)熱詞執(zhí)行步驟s1041和步驟s1043,就可以計(jì)算出每個(gè)熱詞在話題集合中的熵值。
可選地,在本申請(qǐng)實(shí)施例中,根據(jù)概率pi1至概率pim(i)計(jì)算熱詞ai在話題集合中的熵值包括:根據(jù)公式
在本申請(qǐng)實(shí)施例中,通過(guò)上述公式能夠準(zhǔn)確,并且快速的計(jì)算出每個(gè)熱詞在話題集合中的熵值,達(dá)到了進(jìn)一步提高刪除特征程度較低的熱詞的工作效率的技術(shù)效果。另外,由于根據(jù)上述公式能夠準(zhǔn)確的計(jì)算出每個(gè)熱詞在話題集合中的熵值,因此為后續(xù)篩選出特征程度較低的熱詞提供了較為準(zhǔn)確的數(shù)據(jù)基礎(chǔ),所以從各個(gè)話題的熱詞中刪除了上述特征程度較低的熱詞后,剩余的大都是有參考價(jià)值的熱詞,還達(dá)到了提高話題集合中熱詞的對(duì)比度的效果。
可選地,在本申請(qǐng)實(shí)施例中,計(jì)算熱詞ai在目標(biāo)話題bij中出現(xiàn)的概率pij包括步驟s1至步驟s5,具體如下:
步驟s1,統(tǒng)計(jì)熱詞ai在目標(biāo)話題bij中出現(xiàn)的次數(shù)cij。
步驟s3,統(tǒng)計(jì)目標(biāo)話題bij中包含的熱詞的總出現(xiàn)次數(shù)cij'。
具體地,上述總出現(xiàn)次數(shù)為目標(biāo)話題bij中的每個(gè)熱詞在目標(biāo)話題bij中的出現(xiàn)次數(shù)之和。
步驟s5,根據(jù)次數(shù)cij和總出現(xiàn)次數(shù)cij'計(jì)算熱詞ai在目標(biāo)話題bij中出現(xiàn)的概率pij。
具體地,可以根據(jù)次數(shù)cij與總出現(xiàn)次數(shù)cij'比值,計(jì)算出熱詞ai在目標(biāo)話題bij中出現(xiàn)的概率pij。
例如,假設(shè)熱詞a1為“原告”,“原告”在兩個(gè)話題中出現(xiàn),分別是話題n1和話題n2,則上述話題n1即為目標(biāo)話題b11,上述話題n2即為目標(biāo)話題b12。其中,“原告”在目標(biāo)話題b11中的出現(xiàn)次數(shù)c11為200次,而目標(biāo)話題b11中包含熱詞的總出現(xiàn)次數(shù)c11'為2000次,則“原告”在目標(biāo)話題b11中出現(xiàn)的概率p11=200/2000=10%;“原告”在目標(biāo)話題b12中的出現(xiàn)次數(shù)c12為300次,而目標(biāo)話題b12中包含熱詞的總出現(xiàn)次數(shù)c12'為2500次,則“原告”在目標(biāo)話題b12中出現(xiàn)的概率p12=300/2500=12%。
可選地,在本申請(qǐng)實(shí)施例中,從多個(gè)熱詞中篩選出熵值大于第一預(yù)設(shè)閾值的熱詞,得到第一目標(biāo)熱詞包括:判斷熱詞ai的熵值是否大于第一預(yù)設(shè)閾值,其中,i依次取1至n,n為多個(gè)熱詞的數(shù)量;在判斷出熱詞ai的熵值大于第一預(yù)設(shè)閾值的情況下,確定熱詞ai為第一目標(biāo)熱詞。
可選地,在各個(gè)話題中刪除第一目標(biāo)熱詞之后,方法還包括:從多個(gè)熱詞中篩選出熵值大于第二預(yù)設(shè)閾值的熱詞,得到第二目標(biāo)熱詞,其中,第二預(yù)設(shè)閾值小于第一預(yù)設(shè)閾值;在各個(gè)話題的刪除第一目標(biāo)熱詞后的剩余熱詞中刪除的第二目標(biāo)熱詞。
具體地,第二預(yù)設(shè)閾值同樣可以根據(jù)用戶需求設(shè)置。
通過(guò)上述內(nèi)容可知,如果用戶對(duì)各個(gè)話題中刪除了第一目標(biāo)熱詞后的剩余的熱詞不滿意,還可以通過(guò)再次設(shè)置預(yù)設(shè)閾值,以從上述剩余的熱詞中繼續(xù)刪除熵值低于再次設(shè)置的預(yù)設(shè)閾值的熱詞,直到達(dá)到滿意的效果。
需要說(shuō)明的是,用戶可以根據(jù)上述方式,多次調(diào)整預(yù)設(shè)閾值。
根據(jù)本申請(qǐng)實(shí)施例,還提供了一種熱詞的處理裝置,該熱詞的處理裝置用于執(zhí)行本申請(qǐng)實(shí)施例上述內(nèi)容所提供的熱詞的處理方法,以下對(duì)本申請(qǐng)實(shí)施例所提供的熱詞的處理裝置做具體介紹:
圖2是根據(jù)本申請(qǐng)實(shí)施例的一種熱詞的處理裝置的示意圖,如圖2所示,該處理裝置主要包括獲取單元21、計(jì)算單元23、第一篩選單元25和第一刪除單元27,其中:
獲取單元21用于獲取各個(gè)話題的熱詞,得到多個(gè)熱詞。
計(jì)算單元23用于計(jì)算每個(gè)熱詞在話題集合中的熵值,其中,話題集合為各個(gè)話題的集合,熵值用于表征熱詞的特征程度。
由于計(jì)算了每個(gè)熱詞在話題集合中的熵值,從而能夠知曉每個(gè)熱詞在話題集合中特征程度的高低。
具體地,熵值越高,表示該熱詞在話題集合中出現(xiàn)的概率越大,從而特征程度越低,也就越普遍。
第一篩選單元25用于從多個(gè)熱詞中篩選出熵值大于第一預(yù)設(shè)閾值的熱詞,得到第一目標(biāo)熱詞。
具體地,第一預(yù)設(shè)閾值可以根據(jù)用戶需求設(shè)置。得到的第一目標(biāo)熱詞的數(shù)量可以是一個(gè),也可以是多個(gè),具有由用戶設(shè)定的預(yù)設(shè)閾值的大小以及熱詞的熵值共同決定。
第一刪除單元27用于在各個(gè)話題的熱詞中刪除第一目標(biāo)熱詞。
在本申請(qǐng)實(shí)施例中,通過(guò)計(jì)算每個(gè)熱詞在由各個(gè)話題組成的話題集合中的熵值,并根據(jù)熵值刪除話題集合中特征程度較低的熱詞(即,第一目標(biāo)熱詞),與現(xiàn)有技術(shù)中通過(guò)人工統(tǒng)計(jì)的方式特征程度較低的熱詞相比,不僅能夠較為準(zhǔn)確的確定出特征程度較低的熱詞,還能夠自動(dòng)將上述特征程度較低的熱詞刪除,進(jìn)而解決了現(xiàn)有技術(shù)中由于采用人工方式刪除特征程度較低的熱詞,導(dǎo)致效率低的技術(shù)問(wèn)題,達(dá)到了提高工作效率的技術(shù)效果。并且,本申請(qǐng)實(shí)施例所提供的熱詞的處理方式,無(wú)需人工參與,所以還達(dá)到了節(jié)約成本的效果。
可選地,在本申請(qǐng)實(shí)施例中,計(jì)算單元包括:第一計(jì)算模塊和第二計(jì)算模塊,其中:
第一計(jì)算模塊用于計(jì)算熱詞ai在目標(biāo)話題bij中出現(xiàn)的概率pij,其中,i依次取1至n,n為多個(gè)熱詞的數(shù)量,j依次取1至m(i),m(i)為熱詞ai對(duì)應(yīng)的目標(biāo)話題的數(shù)量之和,目標(biāo)話題bij為各個(gè)話題中熱詞ai出現(xiàn)的話題。
具體地,目標(biāo)話題bij為各個(gè)話題中熱詞ai所在的話題或者各個(gè)話題中包含熱詞ai的話題。
需要說(shuō)明的是,一個(gè)熱詞可能出現(xiàn)在多個(gè)話題中,也可能只出現(xiàn)在一個(gè)話題中。如果上述熱詞出現(xiàn)在多個(gè)話題中,則該熱詞對(duì)應(yīng)的目標(biāo)話題就為多個(gè),那么需要計(jì)算該熱詞在每個(gè)目標(biāo)話題中出現(xiàn)的概率;如果上述熱詞只出現(xiàn)在一個(gè)話題中,則該熱詞對(duì)應(yīng)的目標(biāo)話題就為一個(gè),那么只需計(jì)算該熱詞在上述一個(gè)目標(biāo)話題中出現(xiàn)的概率,此時(shí)第一計(jì)算模塊中的m(i)等于1,則j只取1。
通過(guò)上述內(nèi)容可知,對(duì)于某個(gè)熱詞而言,其對(duì)應(yīng)的目標(biāo)話題的數(shù)量與計(jì)算出的概率的數(shù)量相等。也就是,該熱詞出現(xiàn)在多少個(gè)話題中,就有多少個(gè)對(duì)應(yīng)的目標(biāo)話題,從而就計(jì)算出上述熱詞的多少個(gè)概率。
第二計(jì)算模塊用于根據(jù)概率pi1至概率pim(i)計(jì)算熱詞ai在話題集合中的熵值。
需要說(shuō)明的是,對(duì)于只出現(xiàn)在一個(gè)話題中的熱詞,由于該熱詞對(duì)應(yīng)的目標(biāo)話題只有一個(gè),因此只根據(jù)該熱詞在上述一個(gè)目標(biāo)話題中出現(xiàn)的概率計(jì)算該熱詞在話題集合中的熵值。
通過(guò)對(duì)每個(gè)熱詞調(diào)用第一計(jì)算模塊和第二計(jì)算模塊,就可以計(jì)算出每個(gè)熱詞在話題集合中的熵值。
可選地,在本申請(qǐng)實(shí)施例中,第二計(jì)算模塊包括第一計(jì)算子模塊。其中,第一計(jì)算子模塊用于根據(jù)公式
在本申請(qǐng)實(shí)施例中,通過(guò)上述公式能夠準(zhǔn)確,并且快速的計(jì)算出每個(gè)熱詞在話題集合中的熵值,達(dá)到了進(jìn)一步提高刪除特征程度較低的熱詞的工作效率的技術(shù)效果。另外,由于根據(jù)上述公式能夠準(zhǔn)確的計(jì)算出每個(gè)熱詞在話題集合中的熵值,因此為后續(xù)篩選出特征程度較低的熱詞提供了較為準(zhǔn)確的數(shù)據(jù)基礎(chǔ),所以從各個(gè)話題的熱詞中刪除了上述特征程度較低的熱詞后,剩余的大都是有參考價(jià)值的熱詞,還達(dá)到了提高話題集合中熱詞的對(duì)比度的效果。
可選地,在本申請(qǐng)實(shí)施例中,第一計(jì)算模塊包括:第一統(tǒng)計(jì)子模塊、第二統(tǒng)計(jì)子模塊和第二計(jì)算子模塊,其中:
第一統(tǒng)計(jì)子模塊用于統(tǒng)計(jì)熱詞ai在目標(biāo)話題bij中出現(xiàn)的次數(shù)cij。
第二統(tǒng)計(jì)子模塊用于獲取目標(biāo)話題bij中包含的熱詞的總出現(xiàn)次數(shù)cij'。
具體地,上述總出現(xiàn)次數(shù)為目標(biāo)話題bij中每個(gè)熱詞的出現(xiàn)次數(shù)之和。
第二計(jì)算子模塊用于根據(jù)次數(shù)cij和總出現(xiàn)次數(shù)cij'計(jì)算熱詞ai在目標(biāo)話題bij中出現(xiàn)的概率pij。
具體地,可以根據(jù)次數(shù)cij與總出現(xiàn)次數(shù)cij'比值,計(jì)算出熱詞ai在目標(biāo)話題bij中出現(xiàn)的概率pij。
例如,假設(shè)熱詞a1為“原告”,“原告”在兩個(gè)話題中出現(xiàn),分別是話題n1和話題n2,則上述話題n1即為目標(biāo)話題b11,上述話題n2即為目標(biāo)話題b12。其中,“原告”在目標(biāo)話題b11中的出現(xiàn)次數(shù)c11為200次,而目標(biāo)話題b11中包含熱詞的總出現(xiàn)次數(shù)c11'為2000次,則“原告”在目標(biāo)話題b11中出現(xiàn)的概率p11=200/2000=10%;“原告”在目標(biāo)話題b12中的出現(xiàn)次數(shù)c12為300次,而目標(biāo)話題b12中包含熱詞的總出現(xiàn)次數(shù)c12'為2500次,則“原告”在目標(biāo)話題b12中出現(xiàn)的概率p12=300/2500=12%。
可選地,在本申請(qǐng)實(shí)施例中,第一篩選單元包括:判斷模塊和確定模塊。其中,判斷模塊用于判斷熱詞ai的熵值是否大于第一預(yù)設(shè)閾值,其中,i依次取1至n,n為多個(gè)熱詞的數(shù)量;確定模塊用于在判斷出熱詞ai的熵值大于第一預(yù)設(shè)閾值的情況下,確定熱詞ai為第一目標(biāo)熱詞。
可選地,在本申請(qǐng)實(shí)施例中,裝置還包括:第二篩選單元和第二刪除單元。其中,第二篩選單元用于在各個(gè)話題的熱詞中刪除第一目標(biāo)熱詞之后,從多個(gè)熱詞中篩選出熵值大于第二預(yù)設(shè)閾值的熱詞,得到第二目標(biāo)熱詞,其中,第二預(yù)設(shè)閾值小于第一預(yù)設(shè)閾值;第二刪除單元用于在各個(gè)話題的刪除第一目標(biāo)熱詞后的剩余熱詞中刪除第二目標(biāo)熱詞。
具體地,第二預(yù)設(shè)閾值同樣可以根據(jù)用戶需求設(shè)置。
通過(guò)上述內(nèi)容可知,如果用戶對(duì)各個(gè)話題中刪除了第一目標(biāo)熱詞后的剩余的熱詞不滿意,還可以通過(guò)再次設(shè)置預(yù)設(shè)閾值,以從上述剩余的熱詞中繼續(xù)刪除熵值低于再次設(shè)置的預(yù)設(shè)閾值的熱詞,直到達(dá)到滿意的效果。
需要說(shuō)明的是,用戶可以根據(jù)上述方式,多次調(diào)整預(yù)設(shè)閾值。
所述熱詞的處理裝置包括處理器和存儲(chǔ)器,上述獲取單元、計(jì)算單元、第一篩選單元和第一刪除單元等均作為程序單元存儲(chǔ)在存儲(chǔ)器中,由處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的上述程序單元。
處理器中包含內(nèi)核,由內(nèi)核去存儲(chǔ)器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個(gè)或以上,通過(guò)調(diào)整內(nèi)核參數(shù)來(lái)自動(dòng)篩選以及刪除特征程度較低的熱詞。
存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram),存儲(chǔ)器包括至少一個(gè)存儲(chǔ)芯片。
本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品的實(shí)施例,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí),適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取各個(gè)話題的熱詞,得到多個(gè)熱詞;計(jì)算每個(gè)熱詞在話題集合中的熵值,其中,所述話題集合為所述各個(gè)話題的集合,所述熵值用于表征所述熱詞的特征程度;從所述多個(gè)熱詞中篩選出熵值大于所述第一預(yù)設(shè)閾值的熱詞,得到第一目標(biāo)熱詞;以及在所述各個(gè)話題的熱詞中刪除所述第一目標(biāo)熱詞的。
上述本申請(qǐng)實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
在本申請(qǐng)的上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過(guò)其它的方式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤(pán)、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、移動(dòng)硬盤(pán)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述僅是本申請(qǐng)的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本申請(qǐng)?jiān)淼那疤嵯拢€可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本申請(qǐng)的保護(hù)范圍。