本發(fā)明屬于文本挖掘技術(shù)領(lǐng)域,更具體的說,尤其涉及一種特征提取方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的日益普及,文本信息迅速膨脹。例如,在Internet(網(wǎng)絡(luò))上每天有數(shù)十萬的網(wǎng)頁更新,數(shù)百萬新的網(wǎng)頁加入,使得Internet上的信息豐富而又復(fù)雜。如何有效地組織和管理這些信息,并快速、準(zhǔn)確、全面地從眾多文本信息中挖掘出用戶所需要的信息是當(dāng)前文本挖掘領(lǐng)域面臨的一大挑戰(zhàn)。
在文本挖掘領(lǐng)域中,文本特征提取是文本挖掘領(lǐng)域中的關(guān)鍵環(huán)節(jié),而詞作為自然語言的理解單元,會(huì)作為文本特征被提取出來。目前文本特征的提取方式是基于詞頻的方式,即根據(jù)詞在文本中出現(xiàn)的頻率來提取,這種提取方式僅考慮文本中單個(gè)詞的重要性,從而降低特征提取的準(zhǔn)確度。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種特征提取方法及裝置,用于提高特征提取的準(zhǔn)確度。具體的,技術(shù)方案如下:
本發(fā)明提供一種特征提取方法,所述方法:
從待處理文本中提取各個(gè)詞;
獲取所述待處理文本包含的各個(gè)主題,并從所述各個(gè)主題中選取至少一個(gè)目標(biāo)主題;
計(jì)算所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度;
根據(jù)所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度,得到所述各個(gè)詞與所述待處理文本的相關(guān)度;
根據(jù)所述各個(gè)詞與所述待處理文本的相關(guān)度,從所述各個(gè)詞中選取至少一個(gè)詞作為所述待處理文本的特征。
優(yōu)選地,所述計(jì)算所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度,包括:
計(jì)算各個(gè)目標(biāo)主題中各個(gè)詞的概率和所述待處理文本中各個(gè)目標(biāo)主題的概率;
計(jì)算所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率;
計(jì)算所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率;
根據(jù)所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率、所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率、所述各個(gè)目標(biāo)主題中各個(gè)詞的概率和所述待處理文本中各個(gè)目標(biāo)主題的概率,計(jì)算所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度。
優(yōu)選地,所述計(jì)算所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率,包括:
計(jì)算所述待處理文本出現(xiàn)的頻率;
根據(jù)所述待處理文本中各個(gè)目標(biāo)主題的概率和所述待處理文本出現(xiàn)的頻率,計(jì)算所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率。
優(yōu)選地,所述計(jì)算所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率,包括:
計(jì)算所述各個(gè)詞的詞頻和從所述待處理文本中提取的詞的總數(shù);
根據(jù)所述各個(gè)詞的詞頻和從所述待處理文本中提取的詞的總數(shù),計(jì)算所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率。
優(yōu)選地,所述從所包含的各個(gè)主題中選取至少一個(gè)目標(biāo)主題,包括:
根據(jù)所述待處理文本中各個(gè)主題的概率,對(duì)各個(gè)主題按照概率由大到小的方式進(jìn)行排序;
選取排序在其他主題前的預(yù)設(shè)數(shù)量的主題分別作為目標(biāo)主題。
本發(fā)明還提供一種特征提取裝置,所述裝置:
提取單元,用于從待處理文本中提取各個(gè)詞;
主題獲取單元,用于獲取所述待處理文本包含的各個(gè)主題,并從所述各個(gè)主題中選取至少一個(gè)目標(biāo)主題;
主題相關(guān)度計(jì)算單元,用于計(jì)算所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度;
文本相關(guān)度計(jì)算單元,用于根據(jù)所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度,得到所述各個(gè)詞與所述待處理文本的相關(guān)度;
特征選取單元,用于根據(jù)所述各個(gè)詞與所述待處理文本的相關(guān)度,從所述各個(gè)詞中選取至少一個(gè)詞作為所述待處理文本的特征。
優(yōu)選地,所述主題相關(guān)度計(jì)算單元,包括:
第一計(jì)算子單元,用于計(jì)算各個(gè)目標(biāo)主題中各個(gè)詞的概率和所述待處理文本中各個(gè)目標(biāo)主題的概率;
第二計(jì)算子單元,用于計(jì)算所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率;
第三計(jì)算子單元,用于計(jì)算所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率;
相關(guān)度計(jì)算子單元,用于根據(jù)所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率、所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率、所述各個(gè)目標(biāo)主題中各個(gè)詞的概率和所述待處理文本中各個(gè)目標(biāo)主題的概率,計(jì)算所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度。
優(yōu)選地,所述第二計(jì)算子單元,具體用于計(jì)算所述待處理文本出現(xiàn)的頻率,并根據(jù)所述待處理文本中各個(gè)目標(biāo)主題的概率和所述待處理文本出現(xiàn)的頻率,計(jì)算所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率。
優(yōu)選地,所述第三計(jì)算子單元,具體用于計(jì)算所述各個(gè)詞的詞頻和從所述待處理文本中提取的詞的總數(shù),并根據(jù)所述各個(gè)詞的詞頻和從所述待處理文本中提取的詞的總數(shù),計(jì)算所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率。
優(yōu)選地,所述主題獲取單元,具體用于根據(jù)所述待處理文本中各個(gè)主題的概率,對(duì)各個(gè)主題按照概率由大到小的方式進(jìn)行排序,并選取排序在其他主題前的預(yù)設(shè)數(shù)量的主題分別作為目標(biāo)主題。
與現(xiàn)有技術(shù)相比,本發(fā)明提供的上述技術(shù)方案具有如下優(yōu)點(diǎn):
通過上述技術(shù)方案,對(duì)于任一待處理文本,可以從待處理文本中提取各個(gè)詞,并從待處理文本包含的各個(gè)主題中選取至少一個(gè)目標(biāo)主題,根據(jù)各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度,得到各個(gè)詞與待處理文本的相關(guān)度,然后根據(jù)各個(gè)詞與待處理文本的相關(guān)度,從各個(gè)詞中選取至少一個(gè)詞作為待處理文本的特征。例如根據(jù)各個(gè)詞與待處理文本的相關(guān)度,選取與待處理文本的相關(guān)度大于其他詞與待處理文本的相關(guān)度的預(yù)設(shè)個(gè)數(shù)的詞作為待處理文本的特征,使得選取的特征與待處理文本的主要內(nèi)容相關(guān),也就是說在提取待處理文本的特征時(shí),不僅考慮詞自身的重要性還考慮詞與待處理文本的主要內(nèi)容的相關(guān)度,從而從提取的詞中過濾掉與主要內(nèi)容無關(guān)的詞,提高特征提取的準(zhǔn)確度。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實(shí)施例提供的特征提取方法的流程圖;
圖2是本發(fā)明實(shí)施例提供的獲取詞與目標(biāo)主題的相關(guān)度的流程圖;
圖3是本發(fā)明實(shí)施例提供的特征提取裝置的結(jié)構(gòu)示意圖;
圖4是本發(fā)明實(shí)施例提供的特征提取裝置中主題相關(guān)度獲取單元的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
請(qǐng)參閱圖1,其示出了本發(fā)明實(shí)施例提供的特征提取方法的一種流程圖,用于提取與目標(biāo)主題相關(guān)的詞作為待處理文本的特征,以提供特征提取的準(zhǔn)確度。具體的,本發(fā)明實(shí)施例提供的特征提取方法可以包括以下步驟:
101:從待處理文本中提取各個(gè)詞。可以理解的是:待處理文本是當(dāng)前需要進(jìn)行特征提取的文本,其可以是由至少一條句子組成,而詞是待處理文本中組成句子的最小單位,在獲取到待處理文本后,可以從待處理文本中提取出每條句子中的每個(gè)詞。在本發(fā)明實(shí)施例中,可以通過分詞技術(shù)對(duì)每條句子進(jìn)行分詞處理,以從每條句子中提取到對(duì)應(yīng)的詞。
102:獲取待處理文本包含的各個(gè)主題,并從各個(gè)主題中選取至少一個(gè)目標(biāo)主題。其中主題是待處理文本表現(xiàn)的內(nèi)容,一篇待處理文本包含多個(gè)主題,但是并不是每個(gè)主題表現(xiàn)的內(nèi)容是待處理文本的主要內(nèi)容,因此在獲取到各個(gè)主題后需要從中選取出表現(xiàn)待處理文本的主要內(nèi)容的目標(biāo)主題。
在本發(fā)明實(shí)施例中,選取目標(biāo)主題的一種可行方式是:根據(jù)待處理文本中各個(gè)主題的概率,對(duì)各個(gè)主題按照概率由大到小的方式進(jìn)行排序,選取排序在其他主題前的預(yù)設(shè)數(shù)量的主題分別作為目標(biāo)主題。
其中待處理文本中各個(gè)主題的概率可以通過主題模型來得到,如LDA(Latent Dirichlet Allocation,文檔主題生成模型)作為一個(gè)主題模型,其可以輸出兩個(gè)概率,分別是文本中各個(gè)主題的概率P(t|d)以及主題中各個(gè)詞的概率P(w|t),因此通過LDA可以得到待處理文本中各個(gè)主題的概率,其中t是主題,d是待處理文本,w是詞。
在訓(xùn)練LDA過程中,為L(zhǎng)DA設(shè)置的主題數(shù)K較大,一般是幾十,甚至幾百,而一篇待處理文本中表示主要內(nèi)容的目標(biāo)主題的數(shù)量遠(yuǎn)遠(yuǎn)小于主題數(shù)K,因此獲取到的各個(gè)主題中冗余主題的數(shù)量比較多,為此本發(fā)明實(shí)施例需要根據(jù)待處理文本中各個(gè)主題的概率來從各個(gè)主題中選取目標(biāo)主題。
發(fā)明人經(jīng)過多次實(shí)踐發(fā)現(xiàn),一篇待處理文本中表示主要內(nèi)容的目標(biāo)主題的預(yù)設(shè)數(shù)量小于等于5個(gè),因此在獲取到待處理文本中各個(gè)主題的概率后,根據(jù)待處理文本中各個(gè)主題的概率,對(duì)各個(gè)主題按照概率由大到小的方式進(jìn)行排序,選取排序在其他主題前的5個(gè)主題分別作為目標(biāo)主題。
103:計(jì)算各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度。可以理解的是:相關(guān)度是指詞與目標(biāo)主題之間存在相互聯(lián)系的百分比,如果詞能夠反映出目標(biāo)主題表達(dá)的含義,則說明詞與目標(biāo)主題相關(guān),詞與目標(biāo)主題的相關(guān)度較高,如果詞不能夠反映出目標(biāo)主題表達(dá)的含義,則說明詞與目標(biāo)主題無關(guān),詞與目標(biāo)主題的相關(guān)度較低,甚至可以將詞與目標(biāo)主題的相關(guān)度設(shè)為0。
下面從待處理文本中目標(biāo)主題的概率來說明如何獲取各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度,待處理文本中目標(biāo)主題的概率可以表示為:
wi是提取的第i個(gè)詞,并且從上述待處理文本中目標(biāo)主題的概率的表示公式可知:待處理文本中目標(biāo)主題的概率可以看做是提取的各個(gè)詞對(duì)目標(biāo)主題的共同貢獻(xiàn)的結(jié)果,而不同詞對(duì)目標(biāo)主題的貢獻(xiàn)度(詞可體現(xiàn)出目標(biāo)主題表達(dá)的含義的程度)大小不同,為此需要獲取對(duì)目標(biāo)主題貢獻(xiàn)度較大的詞,即找到取值較大的P(t|wi)。然而,待處理文本中目標(biāo)主題的概率也不同,因此本發(fā)明實(shí)施例中定義詞與目標(biāo)主題的相關(guān)度為:
ScCre(w)=P(t|d)*P(t|w)
通過主題模型——LDA可以得到P(t|d)以及P(w|t),因此相關(guān)度的計(jì)算公式中的P(t|w)是未知的,但是根據(jù)貝葉斯定理可知:
因此獲取詞與目標(biāo)主題的相關(guān)度被轉(zhuǎn)換成求P(t)和P(w),P(w)表示詞在待處理文本中出現(xiàn)的頻率,其計(jì)算公式為:
至此獲取詞與目標(biāo)主題的相關(guān)度被轉(zhuǎn)換成求P(t),P(t)為目標(biāo)主題在待處理文本中出現(xiàn)的頻率。同樣,根據(jù)貝葉斯定理可知:
P(t)=∑d∈DP(t|d)P(d)
其中,P(t|d)已知,P(d)表示待處理文本出現(xiàn)的概率,而對(duì)于任一待處理文本來說,可以認(rèn)為其出現(xiàn)的概率都是獨(dú)立的,因此P(d)等于1。
通過上述分析,可以得出詞與目標(biāo)概率的相關(guān)度的計(jì)算公式如下:
相對(duì)應(yīng)的,計(jì)算各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度的過程如圖2所示,可以包括以下步驟:
201:計(jì)算各個(gè)目標(biāo)主題中各個(gè)詞的概率P(w|t)和待處理文本中各個(gè)目標(biāo)主題的概率P(t|d)。
202:計(jì)算各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率。
可選的,計(jì)算各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率包括:計(jì)算待處理文本出現(xiàn)的頻率P(d),根據(jù)待處理文本中各個(gè)目標(biāo)主題的概率P(t|d)和待處理文本出現(xiàn)的頻率P(d),計(jì)算各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率P(t),對(duì)應(yīng)的計(jì)算公式為:P(t)=∑d∈DP(t|d)P(d)。
203:計(jì)算各個(gè)詞在待處理文本中出現(xiàn)的頻率。可選的,計(jì)算各個(gè)詞在待處理文本中出現(xiàn)的頻率包括:計(jì)算各個(gè)詞的詞頻Count(w)和從待處理文本中提取的詞的總數(shù)TotalCount,根據(jù)各個(gè)詞的詞頻Count(w)和從待處理文本中提取的詞的總數(shù)TotalCount,計(jì)算各個(gè)詞在待處理文本中出現(xiàn)的頻率P(w),對(duì)應(yīng)的計(jì)算公式為:
204:根據(jù)各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率、各個(gè)詞在待處理文本中出現(xiàn)的頻率、各個(gè)目標(biāo)主題中各個(gè)詞的概率和待處理文本中各個(gè)目標(biāo)主題的概率,計(jì)算各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度。
對(duì)應(yīng)的計(jì)算公式是:
在這里需要說明的一點(diǎn)是:上述步驟201至步驟203的執(zhí)行順序可以是:順次執(zhí)行,如按照步驟201——步驟202——步驟203或者按照步驟202——步驟201——步驟203來執(zhí)行,即在順次執(zhí)行時(shí)可以對(duì)步驟201至步驟203任意排列,按照排列后的順序順次執(zhí)行,當(dāng)然上述步驟201至步驟203也可以并列執(zhí)行,因此本發(fā)明實(shí)施例并不因步驟標(biāo)號(hào)而限定各個(gè)步驟的執(zhí)行順序。
104:根據(jù)各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度,得到各個(gè)詞與待處理文本的相關(guān)度。其中詞與待處理文本的相關(guān)度是對(duì)應(yīng)詞在各個(gè)目標(biāo)主題的相關(guān)度之和,如選取的目標(biāo)主題有5個(gè),則通過上述計(jì)算公式可以得到詞分別對(duì)這5個(gè)目標(biāo)主題的相關(guān)度,然后將詞分別對(duì)這5個(gè)目標(biāo)主題的相關(guān)度求和,得到詞與待處理文本的相關(guān)度,通過詞與待處理文本的相關(guān)度,可以指示出詞是否能夠反映出待處理文本的主要內(nèi)容,如果詞與待處理文本的相關(guān)度較高,說明詞能夠反映出待處理文本的主要內(nèi)容,如果詞與待處理文本的相關(guān)度較低,則說明詞反映出待處理文本的主要內(nèi)容的可能性較低。
105:根據(jù)各個(gè)詞與待處理文本的相關(guān)度,從各個(gè)詞中選取至少一個(gè)詞作為待處理文本的特征。
在本發(fā)明實(shí)施例中,選取詞的一種可行方式是:根據(jù)各個(gè)詞與待處理文本的相關(guān)度,對(duì)各個(gè)詞按照相關(guān)度由大到小的方式進(jìn)行排序,選取排序在其他詞前的預(yù)設(shè)個(gè)數(shù)的詞作為待處理文本的特征,其中預(yù)設(shè)個(gè)數(shù)可以根據(jù)實(shí)際應(yīng)用而定,本發(fā)明實(shí)施例不限定其取值。
從上述技術(shù)方案可知,本發(fā)明實(shí)施例提供的特征提取方法根據(jù)各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度,得到各個(gè)詞與待處理文本的相關(guān)度,然后根據(jù)各個(gè)詞與待處理文本的相關(guān)度,從各個(gè)詞中選取至少一個(gè)詞作為待處理文本的特征。例如根據(jù)各個(gè)詞與待處理文本的相關(guān)度,選取與待處理文本的相關(guān)度大于其他詞與待處理文本的相關(guān)度的預(yù)設(shè)個(gè)數(shù)的詞作為待處理文本的特征,使得選取的特征與待處理文本的主要內(nèi)容相關(guān),也就是說在提取待處理文本的特征時(shí),不僅考慮詞自身的重要性還考慮詞與待處理文本的主要內(nèi)容的相關(guān)度,使得作為特征的詞在主題方面更能反映待處理文本的主要內(nèi)容,進(jìn)而提高特征提取的準(zhǔn)確度。并且通過本發(fā)明實(shí)施例提供的特征提取方法,可以從提取的詞中過濾掉噪聲詞(即與主要內(nèi)容無關(guān)的詞),減少噪聲詞對(duì)后續(xù)處理過程的影響。
下面通過實(shí)例來說明本發(fā)明實(shí)施例提供的特征提取方法可提高特征提取的準(zhǔn)確度,實(shí)例是標(biāo)題為“美大選日加移民網(wǎng)站被擠爆加官員:美國(guó)人占一半”的一篇新聞,部分內(nèi)容如下:
【觀察者網(wǎng)綜合】美國(guó)當(dāng)?shù)貢r(shí)間8日晚11時(shí)左右,近20萬人涌入加拿大移民網(wǎng)站,導(dǎo)致該網(wǎng)站陷入癱瘓。而同一時(shí)段,美國(guó)大選開票顯示特朗普領(lǐng)先希拉里,并逐漸擴(kuò)大優(yōu)勢(shì)。外界此前普遍認(rèn)為美國(guó)民眾導(dǎo)致了這一事件。據(jù)赫芬頓郵報(bào)9日?qǐng)?bào)道,加拿大政府移民部發(fā)言人勒薩熱(SoniaLesage)證實(shí),當(dāng)日近半數(shù)IP來自美國(guó),是正常訪問量5倍之多。11月8日晚,美國(guó)總統(tǒng)大選開票顯示特朗普領(lǐng)先時(shí),瞬間有大量美國(guó)人登錄加拿大移民部網(wǎng)站,導(dǎo)致網(wǎng)站崩潰。加拿大電視臺(tái)CTV報(bào)道稱,當(dāng)晚11點(diǎn)加拿大移民部官網(wǎng)陷入崩潰,兩個(gè)小時(shí)后依舊沒有恢復(fù)。即使宣布特朗普獲勝后,依舊無法打開網(wǎng)頁,直到9日早晨才恢復(fù)正常。
……據(jù)悉,美國(guó)互聯(lián)網(wǎng)用戶到訪移民部網(wǎng)站的次數(shù)從美國(guó)大選開始階段就穩(wěn)步上升,今年3月達(dá)至總數(shù)170萬點(diǎn)擊率的高位,上月也有106萬次點(diǎn)擊,比去年同期的88萬次上升21%。9日,加拿大政府對(duì)此還“適時(shí)地”發(fā)布了一條推文稱,“在加拿大,我們鼓勵(lì)所有的移民帶來他們自己的文化傳統(tǒng),并且分享給加拿大市民”。Mainstreet公司總裁馬奇(Quito Maggi)表示,申請(qǐng)加拿大的過程復(fù)雜、繁瑣,唯一的例外就是“難民”,例如先前的敘利亞難民危機(jī),加拿大破例接受了大批難民,但“沮喪的美國(guó)民主黨人并不符合難民資格”。
應(yīng)用本發(fā)明實(shí)施例提供的特征提取方法從上述新聞內(nèi)容(視為待處理文本并)中提取特征的過程如下:
(1)、對(duì)上述新聞內(nèi)容進(jìn)行中文分詞處理,以從上述新聞內(nèi)容中提取出各個(gè)詞,得到包括各個(gè)詞的詞序列{用戶、報(bào)道、搜索、難民、美國(guó)、……、移民、領(lǐng)先、網(wǎng)站、日、……、加拿大、大選、官員、特朗普和上升……};
(2)、在對(duì)上述新聞內(nèi)容分析后,得到上述新聞內(nèi)容包含的主題數(shù)量為10個(gè),其中這10個(gè)主題分別是{美國(guó)總統(tǒng)大選、網(wǎng)站崩潰、敘利亞難民、前往加拿大、訪問量上升、希拉里、移民、搜索量、emigrate和調(diào)查},根據(jù)主題模型得到各個(gè)主題的概率,記為P={0.21,0.06,0.14,0.11,0.09,0.05,0.19,0.04,0.06,0.05},0.21表示第1個(gè)主題t1的概率P(t1|d);
(3)、在本發(fā)明實(shí)施例中,預(yù)設(shè)數(shù)量的主題為5個(gè),即可以從上述10個(gè)主題中選取5個(gè)主題來作為目標(biāo)主題,則選取目標(biāo)主題的過程是:將10個(gè)主題按照概率由大到小排序,得到排序后的概率為P'={0.21,0.19,0.14,0.11,0.09,0.06,0.06,0.05,0.05,0.04},選取概率最大的前5個(gè)主題分別作為目標(biāo)主題,對(duì)于上述新聞內(nèi)容來說,選取的目標(biāo)主題上述10個(gè)主題中的是第1個(gè)、第3個(gè)、第4個(gè)、第5個(gè)和第7個(gè)主題,即目標(biāo)主題分別是{美國(guó)總統(tǒng)大選、敘利亞難民、前往加拿大、訪問量上升、移民};
(4)、根據(jù)公式得到詞序列中各個(gè)詞的P(t|w),以詞序列中的詞“移民”為例,得到的詞“移民”對(duì)5個(gè)目標(biāo)主題的P(t|w)分別是P(t1|移民)=0.085,P(t3|移民)=0.013,P(t4|移民)=0.022,P(t5|移民)=0.009,P(t7|移民)=0.017,P(t1|移民)是第1個(gè)主題作為目標(biāo)主題時(shí),詞“移民”與其的P(t|w);
(5)、在得到詞序列中每個(gè)詞與上述5個(gè)目標(biāo)主題的P(t|w)后,根據(jù)公式Score(移民)=P(t|d)*P(t|w)計(jì)算每個(gè)詞分別與這5個(gè)目標(biāo)主題的相關(guān)度,然后計(jì)算每個(gè)詞與這5個(gè)目標(biāo)主題的相關(guān)度之和,每個(gè)詞與這5個(gè)目標(biāo)主題的相關(guān)度之和即是每個(gè)詞與新聞內(nèi)容的相關(guān)度,上述詞“移民”與新聞內(nèi)容的相關(guān)度是0.02613;
(6)、在本發(fā)明實(shí)施例中,預(yù)設(shè)個(gè)數(shù)的詞為10個(gè),對(duì)詞序列中的每個(gè)詞按照相關(guān)度由大到小的方式進(jìn)行排序,選取詞序列中相關(guān)度排序在其他詞前的10個(gè)詞作為新聞內(nèi)容的特征,在上述新聞內(nèi)容中,選取的作為特征的詞為美國(guó)、移民、加拿大、網(wǎng)站、大選、官員、特朗普、搜索、上升和難民。
對(duì)上述新聞內(nèi)容通過現(xiàn)有TF-IDF(Term Frequency–Inverse Document Frequency,特征性頻率-倒排文檔頻率加權(quán)法)特征提取方法提取的特征有:用戶、報(bào)道、搜索、難民、美國(guó)、移民、領(lǐng)先、網(wǎng)站、日和加拿大,相對(duì)于現(xiàn)有TF-IDF特征提取方法提取的特征來說,本發(fā)明實(shí)施例提供的特征更貼合上述目標(biāo)主題,因此通過提取的特征更能反映新聞內(nèi)容的主要內(nèi)容,進(jìn)而提高特征提取的準(zhǔn)確度。
請(qǐng)參閱圖3,其示出了本發(fā)明實(shí)施例提供的特征提取裝置,用于提取與目標(biāo)主題相關(guān)的詞作為待處理文本的特征,以提供特征提取的準(zhǔn)確度。具體的,本發(fā)明實(shí)施例提供的特征提取裝置可以包括:提取單元11、主題獲取單元12、主題相關(guān)度計(jì)算單元13、文本相關(guān)度計(jì)算單元14和特征選取單元15。
提取單元11,用于從待處理文本中提取各個(gè)詞??梢岳斫獾氖牵捍幚砦谋臼钱?dāng)前需要進(jìn)行特征提取的文本,其可以是由至少一條句子組成,而詞是待處理文本中組成句子的最小單位,在獲取到待處理文本后,可以從待處理文本中提取出每條句子中的每個(gè)詞。在本發(fā)明實(shí)施例中,可以通過分詞技術(shù)對(duì)每條句子進(jìn)行分詞處理,以從每條句子中提取到對(duì)應(yīng)的詞。
主題獲取單元12,用于獲取待處理文本包含的各個(gè)主題,并從各個(gè)主題中選取至少一個(gè)目標(biāo)主題。其中主題是待處理文本表現(xiàn)的內(nèi)容,一篇待處理文本包含多個(gè)主題,但是并不是每個(gè)主題表現(xiàn)的內(nèi)容是待處理文本的主要內(nèi)容,因此在獲取到各個(gè)主題后需要從中選取出表現(xiàn)待處理文本的主要內(nèi)容的目標(biāo)主題。
在本發(fā)明實(shí)施例中,主題獲取單元12選取目標(biāo)主題的一種可行方式是:根據(jù)待處理文本中各個(gè)主題的概率,對(duì)各個(gè)主題按照概率由大到小的方式進(jìn)行排序,選取排序在其他主題前的預(yù)設(shè)數(shù)量的主題分別作為目標(biāo)主題。
發(fā)明人經(jīng)過多次實(shí)踐發(fā)現(xiàn),一篇待處理文本中表示主要內(nèi)容的目標(biāo)主題的預(yù)設(shè)數(shù)量小于等于5個(gè),因此在獲取到待處理文本中各個(gè)主題的概率后,根據(jù)待處理文本中各個(gè)主題的概率,對(duì)各個(gè)主題按照概率由大到小的方式進(jìn)行排序,選取排序在其他主題前的5個(gè)主題分別作為目標(biāo)主題。
主題相關(guān)度計(jì)算單元13,用于計(jì)算各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度??梢岳斫獾氖牵合嚓P(guān)度是指詞與目標(biāo)主題之間存在相互聯(lián)系的百分比,如果詞能夠反映出目標(biāo)主題表達(dá)的含義,則說明詞與目標(biāo)主題相關(guān),詞與目標(biāo)主題的相關(guān)度較高,如果詞不能夠反映出目標(biāo)主題表達(dá)的含義,則說明詞與目標(biāo)主題無關(guān),詞與目標(biāo)主題的相關(guān)度較低,甚至可以將詞與目標(biāo)主題的相關(guān)度設(shè)為0。
在本發(fā)明實(shí)施例中,主題相關(guān)度計(jì)算單元13的結(jié)構(gòu)如圖4所示,可以包括:第一計(jì)算子單元131、第二計(jì)算子單元132、第三計(jì)算子單元133和相關(guān)度計(jì)算子單元134。
第一計(jì)算子單元131,用于計(jì)算各個(gè)目標(biāo)主題中各個(gè)詞的概率和待處理文本中各個(gè)目標(biāo)主題的概率。其中各個(gè)目標(biāo)主題中各個(gè)詞的概率和待處理文本中各個(gè)目標(biāo)主題的概率可以通過主題模型來計(jì)算,具體請(qǐng)參閱方法實(shí)施例中的相關(guān)說明。
第二計(jì)算子單元132,用于計(jì)算各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率。可選的,計(jì)算各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率包括:計(jì)算待處理文本出現(xiàn)的頻率P(d),根據(jù)待處理文本中各個(gè)目標(biāo)主題的概率P(t|d)和待處理文本出現(xiàn)的頻率P(d),計(jì)算各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率P(t),對(duì)應(yīng)的計(jì)算公式為:P(t)=∑d∈DP(t|d)P(d)。
第三計(jì)算子單元133,用于計(jì)算各個(gè)詞在待處理文本中出現(xiàn)的頻率??蛇x的,計(jì)算各個(gè)詞在待處理文本中出現(xiàn)的頻率包括:計(jì)算各個(gè)詞的詞頻Count(w)和從待處理文本中提取的詞的總數(shù)TotalCount,根據(jù)各個(gè)詞的詞頻Count(w)和從待處理文本中提取的詞的總數(shù)TotalCount,計(jì)算各個(gè)詞在待處理文本中出現(xiàn)的頻率P(w),對(duì)應(yīng)的計(jì)算公式為:
相關(guān)度計(jì)算子單元134,用于根據(jù)各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率、各個(gè)詞在待處理文本中出現(xiàn)的頻率、各個(gè)目標(biāo)主題中各個(gè)詞的概率和待處理文本中各個(gè)目標(biāo)主題的概率,計(jì)算各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度。對(duì)應(yīng)的計(jì)算公式如下:
文本相關(guān)度計(jì)算單元14,用于根據(jù)各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度,得到各個(gè)詞與待處理文本的相關(guān)度。其中詞與待處理文本的相關(guān)度是對(duì)應(yīng)詞在各個(gè)目標(biāo)主題的相關(guān)度之和,如選取的目標(biāo)主題有5個(gè),則通過上述計(jì)算公式可以得到詞分別對(duì)這5個(gè)目標(biāo)主題的相關(guān)度,然后將詞分別對(duì)這5個(gè)目標(biāo)主題的相關(guān)度求和,得到詞與待處理文本的相關(guān)度,通過詞與待處理文本的相關(guān)度,可以指示出詞是否能夠反映出待處理文本的主要內(nèi)容,如果詞與待處理文本的相關(guān)度較高,說明詞能夠反映出待處理文本的主要內(nèi)容,如果詞與待處理文本的相關(guān)度較低,則說明詞反映出待處理文本的主要內(nèi)容的可能性較低。
特征選取單元15,用于根據(jù)各個(gè)詞與待處理文本的相關(guān)度,從各個(gè)詞中選取至少一個(gè)詞作為待處理文本的特征。
在本發(fā)明實(shí)施例中,選取詞的一種可行方式是:根據(jù)各個(gè)詞與待處理文本的相關(guān)度,對(duì)各個(gè)詞按照相關(guān)度由大到小的方式進(jìn)行排序,選取排序在其他詞前的預(yù)設(shè)個(gè)數(shù)的詞作為待處理文本的特征,其中預(yù)設(shè)個(gè)數(shù)可以根據(jù)實(shí)際應(yīng)用而定,本發(fā)明實(shí)施例不限定其取值。
從上述技術(shù)方案可知,本發(fā)明實(shí)施例提供的特征提取裝置根據(jù)各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度,得到各個(gè)詞與待處理文本的相關(guān)度,然后根據(jù)各個(gè)詞與待處理文本的相關(guān)度,從各個(gè)詞中選取至少一個(gè)詞作為待處理文本的特征。例如根據(jù)各個(gè)詞與待處理文本的相關(guān)度,選取與待處理文本的相關(guān)度大于其他詞與待處理文本的相關(guān)度的預(yù)設(shè)個(gè)數(shù)的詞作為待處理文本的特征,使得選取的特征與待處理文本的主要內(nèi)容相關(guān),也就是說在提取待處理文本的特征時(shí),不僅考慮詞自身的重要性還考慮詞與待處理文本的主要內(nèi)容的相關(guān)度,使得作為特征的詞在主題方面更能反映待處理文本的主要內(nèi)容,進(jìn)而提高特征提取的準(zhǔn)確度。并且通過本發(fā)明實(shí)施例提供的特征提取裝置,可以從提取的詞中過濾掉噪聲詞(即與主要內(nèi)容無關(guān)的詞),減少噪聲詞對(duì)后續(xù)處理過程的影響。
需要說明的是,本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于裝置類實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
對(duì)所公開的實(shí)施例的上述說明,使本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。