一種特征提取方法及裝置與流程

文檔序號(hào)：12063651閱讀：285來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于文本挖掘技術(shù)領(lǐng)域，更具體的說，尤其涉及一種特征提取方法及裝置。

背景技術(shù)：

隨著互聯(lián)網(wǎng)的日益普及，文本信息迅速膨脹。例如，在Internet(網(wǎng)絡(luò))上每天有數(shù)十萬的網(wǎng)頁更新，數(shù)百萬新的網(wǎng)頁加入，使得Internet上的信息豐富而又復(fù)雜。如何有效地組織和管理這些信息，并快速、準(zhǔn)確、全面地從眾多文本信息中挖掘出用戶所需要的信息是當(dāng)前文本挖掘領(lǐng)域面臨的一大挑戰(zhàn)。

在文本挖掘領(lǐng)域中，文本特征提取是文本挖掘領(lǐng)域中的關(guān)鍵環(huán)節(jié)，而詞作為自然語言的理解單元，會(huì)作為文本特征被提取出來。目前文本特征的提取方式是基于詞頻的方式，即根據(jù)詞在文本中出現(xiàn)的頻率來提取，這種提取方式僅考慮文本中單個(gè)詞的重要性，從而降低特征提取的準(zhǔn)確度。

技術(shù)實(shí)現(xiàn)要素：

有鑒于此，本發(fā)明的目的在于提供一種特征提取方法及裝置，用于提高特征提取的準(zhǔn)確度。具體的，技術(shù)方案如下：

本發(fā)明提供一種特征提取方法，所述方法：

從待處理文本中提取各個(gè)詞；

獲取所述待處理文本包含的各個(gè)主題，并從所述各個(gè)主題中選取至少一個(gè)目標(biāo)主題；

計(jì)算所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度；

根據(jù)所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度，得到所述各個(gè)詞與所述待處理文本的相關(guān)度；

根據(jù)所述各個(gè)詞與所述待處理文本的相關(guān)度，從所述各個(gè)詞中選取至少一個(gè)詞作為所述待處理文本的特征。

優(yōu)選地，所述計(jì)算所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度，包括：

計(jì)算各個(gè)目標(biāo)主題中各個(gè)詞的概率和所述待處理文本中各個(gè)目標(biāo)主題的概率；

計(jì)算所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率；

計(jì)算所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率；

根據(jù)所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率、所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率、所述各個(gè)目標(biāo)主題中各個(gè)詞的概率和所述待處理文本中各個(gè)目標(biāo)主題的概率，計(jì)算所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度。

優(yōu)選地，所述計(jì)算所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率，包括：

計(jì)算所述待處理文本出現(xiàn)的頻率；

根據(jù)所述待處理文本中各個(gè)目標(biāo)主題的概率和所述待處理文本出現(xiàn)的頻率，計(jì)算所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率。

優(yōu)選地，所述計(jì)算所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率，包括：

計(jì)算所述各個(gè)詞的詞頻和從所述待處理文本中提取的詞的總數(shù)；

根據(jù)所述各個(gè)詞的詞頻和從所述待處理文本中提取的詞的總數(shù)，計(jì)算所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率。

優(yōu)選地，所述從所包含的各個(gè)主題中選取至少一個(gè)目標(biāo)主題，包括：

根據(jù)所述待處理文本中各個(gè)主題的概率，對(duì)各個(gè)主題按照概率由大到小的方式進(jìn)行排序；

選取排序在其他主題前的預(yù)設(shè)數(shù)量的主題分別作為目標(biāo)主題。

本發(fā)明還提供一種特征提取裝置，所述裝置：

提取單元，用于從待處理文本中提取各個(gè)詞；

主題獲取單元，用于獲取所述待處理文本包含的各個(gè)主題，并從所述各個(gè)主題中選取至少一個(gè)目標(biāo)主題；

主題相關(guān)度計(jì)算單元，用于計(jì)算所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度；

文本相關(guān)度計(jì)算單元，用于根據(jù)所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度，得到所述各個(gè)詞與所述待處理文本的相關(guān)度；

特征選取單元，用于根據(jù)所述各個(gè)詞與所述待處理文本的相關(guān)度，從所述各個(gè)詞中選取至少一個(gè)詞作為所述待處理文本的特征。

優(yōu)選地，所述主題相關(guān)度計(jì)算單元，包括：

第一計(jì)算子單元，用于計(jì)算各個(gè)目標(biāo)主題中各個(gè)詞的概率和所述待處理文本中各個(gè)目標(biāo)主題的概率；

第二計(jì)算子單元，用于計(jì)算所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率；

第三計(jì)算子單元，用于計(jì)算所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率；

相關(guān)度計(jì)算子單元，用于根據(jù)所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率、所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率、所述各個(gè)目標(biāo)主題中各個(gè)詞的概率和所述待處理文本中各個(gè)目標(biāo)主題的概率，計(jì)算所述各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度。

優(yōu)選地，所述第二計(jì)算子單元，具體用于計(jì)算所述待處理文本出現(xiàn)的頻率，并根據(jù)所述待處理文本中各個(gè)目標(biāo)主題的概率和所述待處理文本出現(xiàn)的頻率，計(jì)算所述各個(gè)目標(biāo)主題在所述待處理文本中出現(xiàn)的頻率。

優(yōu)選地，所述第三計(jì)算子單元，具體用于計(jì)算所述各個(gè)詞的詞頻和從所述待處理文本中提取的詞的總數(shù)，并根據(jù)所述各個(gè)詞的詞頻和從所述待處理文本中提取的詞的總數(shù)，計(jì)算所述各個(gè)詞在所述待處理文本中出現(xiàn)的頻率。

優(yōu)選地，所述主題獲取單元，具體用于根據(jù)所述待處理文本中各個(gè)主題的概率，對(duì)各個(gè)主題按照概率由大到小的方式進(jìn)行排序，并選取排序在其他主題前的預(yù)設(shè)數(shù)量的主題分別作為目標(biāo)主題。

與現(xiàn)有技術(shù)相比，本發(fā)明提供的上述技術(shù)方案具有如下優(yōu)點(diǎn)：

通過上述技術(shù)方案，對(duì)于任一待處理文本，可以從待處理文本中提取各個(gè)詞，并從待處理文本包含的各個(gè)主題中選取至少一個(gè)目標(biāo)主題，根據(jù)各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度，得到各個(gè)詞與待處理文本的相關(guān)度，然后根據(jù)各個(gè)詞與待處理文本的相關(guān)度，從各個(gè)詞中選取至少一個(gè)詞作為待處理文本的特征。例如根據(jù)各個(gè)詞與待處理文本的相關(guān)度，選取與待處理文本的相關(guān)度大于其他詞與待處理文本的相關(guān)度的預(yù)設(shè)個(gè)數(shù)的詞作為待處理文本的特征，使得選取的特征與待處理文本的主要內(nèi)容相關(guān)，也就是說在提取待處理文本的特征時(shí)，不僅考慮詞自身的重要性還考慮詞與待處理文本的主要內(nèi)容的相關(guān)度，從而從提取的詞中過濾掉與主要內(nèi)容無關(guān)的詞，提高特征提取的準(zhǔn)確度。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明實(shí)施例提供的特征提取方法的流程圖；

圖2是本發(fā)明實(shí)施例提供的獲取詞與目標(biāo)主題的相關(guān)度的流程圖；

圖3是本發(fā)明實(shí)施例提供的特征提取裝置的結(jié)構(gòu)示意圖；

圖4是本發(fā)明實(shí)施例提供的特征提取裝置中主題相關(guān)度獲取單元的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

請(qǐng)參閱圖1，其示出了本發(fā)明實(shí)施例提供的特征提取方法的一種流程圖，用于提取與目標(biāo)主題相關(guān)的詞作為待處理文本的特征，以提供特征提取的準(zhǔn)確度。具體的，本發(fā)明實(shí)施例提供的特征提取方法可以包括以下步驟：

101：從待處理文本中提取各個(gè)詞。可以理解的是：待處理文本是當(dāng)前需要進(jìn)行特征提取的文本，其可以是由至少一條句子組成，而詞是待處理文本中組成句子的最小單位，在獲取到待處理文本后，可以從待處理文本中提取出每條句子中的每個(gè)詞。在本發(fā)明實(shí)施例中，可以通過分詞技術(shù)對(duì)每條句子進(jìn)行分詞處理，以從每條句子中提取到對(duì)應(yīng)的詞。

102：獲取待處理文本包含的各個(gè)主題，并從各個(gè)主題中選取至少一個(gè)目標(biāo)主題。其中主題是待處理文本表現(xiàn)的內(nèi)容，一篇待處理文本包含多個(gè)主題，但是并不是每個(gè)主題表現(xiàn)的內(nèi)容是待處理文本的主要內(nèi)容，因此在獲取到各個(gè)主題后需要從中選取出表現(xiàn)待處理文本的主要內(nèi)容的目標(biāo)主題。

在本發(fā)明實(shí)施例中，選取目標(biāo)主題的一種可行方式是：根據(jù)待處理文本中各個(gè)主題的概率，對(duì)各個(gè)主題按照概率由大到小的方式進(jìn)行排序，選取排序在其他主題前的預(yù)設(shè)數(shù)量的主題分別作為目標(biāo)主題。

其中待處理文本中各個(gè)主題的概率可以通過主題模型來得到，如LDA(Latent Dirichlet Allocation，文檔主題生成模型)作為一個(gè)主題模型，其可以輸出兩個(gè)概率，分別是文本中各個(gè)主題的概率P(t|d)以及主題中各個(gè)詞的概率P(w|t)，因此通過LDA可以得到待處理文本中各個(gè)主題的概率，其中t是主題，d是待處理文本，w是詞。

在訓(xùn)練LDA過程中，為L(zhǎng)DA設(shè)置的主題數(shù)K較大，一般是幾十，甚至幾百，而一篇待處理文本中表示主要內(nèi)容的目標(biāo)主題的數(shù)量遠(yuǎn)遠(yuǎn)小于主題數(shù)K，因此獲取到的各個(gè)主題中冗余主題的數(shù)量比較多，為此本發(fā)明實(shí)施例需要根據(jù)待處理文本中各個(gè)主題的概率來從各個(gè)主題中選取目標(biāo)主題。

發(fā)明人經(jīng)過多次實(shí)踐發(fā)現(xiàn)，一篇待處理文本中表示主要內(nèi)容的目標(biāo)主題的預(yù)設(shè)數(shù)量小于等于5個(gè)，因此在獲取到待處理文本中各個(gè)主題的概率后，根據(jù)待處理文本中各個(gè)主題的概率，對(duì)各個(gè)主題按照概率由大到小的方式進(jìn)行排序，選取排序在其他主題前的5個(gè)主題分別作為目標(biāo)主題。

103：計(jì)算各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度。可以理解的是：相關(guān)度是指詞與目標(biāo)主題之間存在相互聯(lián)系的百分比，如果詞能夠反映出目標(biāo)主題表達(dá)的含義，則說明詞與目標(biāo)主題相關(guān)，詞與目標(biāo)主題的相關(guān)度較高，如果詞不能夠反映出目標(biāo)主題表達(dá)的含義，則說明詞與目標(biāo)主題無關(guān)，詞與目標(biāo)主題的相關(guān)度較低，甚至可以將詞與目標(biāo)主題的相關(guān)度設(shè)為0。

下面從待處理文本中目標(biāo)主題的概率來說明如何獲取各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度，待處理文本中目標(biāo)主題的概率可以表示為：

w_i是提取的第i個(gè)詞，并且從上述待處理文本中目標(biāo)主題的概率的表示公式可知：待處理文本中目標(biāo)主題的概率可以看做是提取的各個(gè)詞對(duì)目標(biāo)主題的共同貢獻(xiàn)的結(jié)果，而不同詞對(duì)目標(biāo)主題的貢獻(xiàn)度(詞可體現(xiàn)出目標(biāo)主題表達(dá)的含義的程度)大小不同，為此需要獲取對(duì)目標(biāo)主題貢獻(xiàn)度較大的詞，即找到取值較大的P(t|w_i)。然而，待處理文本中目標(biāo)主題的概率也不同，因此本發(fā)明實(shí)施例中定義詞與目標(biāo)主題的相關(guān)度為：

ScCre(w)＝P(t|d)*P(t|w)

通過主題模型——LDA可以得到P(t|d)以及P(w|t)，因此相關(guān)度的計(jì)算公式中的P(t|w)是未知的，但是根據(jù)貝葉斯定理可知：

因此獲取詞與目標(biāo)主題的相關(guān)度被轉(zhuǎn)換成求P(t)和P(w)，P(w)表示詞在待處理文本中出現(xiàn)的頻率，其計(jì)算公式為：

至此獲取詞與目標(biāo)主題的相關(guān)度被轉(zhuǎn)換成求P(t)，P(t)為目標(biāo)主題在待處理文本中出現(xiàn)的頻率。同樣，根據(jù)貝葉斯定理可知：

P(t)＝∑_d∈DP(t|d)P(d)

其中，P(t|d)已知，P(d)表示待處理文本出現(xiàn)的概率，而對(duì)于任一待處理文本來說，可以認(rèn)為其出現(xiàn)的概率都是獨(dú)立的，因此P(d)等于1。

通過上述分析，可以得出詞與目標(biāo)概率的相關(guān)度的計(jì)算公式如下：

相對(duì)應(yīng)的，計(jì)算各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度的過程如圖2所示，可以包括以下步驟：

201：計(jì)算各個(gè)目標(biāo)主題中各個(gè)詞的概率P(w|t)和待處理文本中各個(gè)目標(biāo)主題的概率P(t|d)。

202：計(jì)算各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率。

可選的，計(jì)算各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率包括：計(jì)算待處理文本出現(xiàn)的頻率P(d)，根據(jù)待處理文本中各個(gè)目標(biāo)主題的概率P(t|d)和待處理文本出現(xiàn)的頻率P(d)，計(jì)算各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率P(t)，對(duì)應(yīng)的計(jì)算公式為：P(t)＝∑_d∈DP(t|d)P(d)。

203：計(jì)算各個(gè)詞在待處理文本中出現(xiàn)的頻率。可選的，計(jì)算各個(gè)詞在待處理文本中出現(xiàn)的頻率包括：計(jì)算各個(gè)詞的詞頻Count(w)和從待處理文本中提取的詞的總數(shù)TotalCount，根據(jù)各個(gè)詞的詞頻Count(w)和從待處理文本中提取的詞的總數(shù)TotalCount，計(jì)算各個(gè)詞在待處理文本中出現(xiàn)的頻率P(w)，對(duì)應(yīng)的計(jì)算公式為：

204：根據(jù)各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率、各個(gè)詞在待處理文本中出現(xiàn)的頻率、各個(gè)目標(biāo)主題中各個(gè)詞的概率和待處理文本中各個(gè)目標(biāo)主題的概率，計(jì)算各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度。

對(duì)應(yīng)的計(jì)算公式是：

在這里需要說明的一點(diǎn)是：上述步驟201至步驟203的執(zhí)行順序可以是：順次執(zhí)行，如按照步驟201——步驟202——步驟203或者按照步驟202——步驟201——步驟203來執(zhí)行，即在順次執(zhí)行時(shí)可以對(duì)步驟201至步驟203任意排列，按照排列后的順序順次執(zhí)行，當(dāng)然上述步驟201至步驟203也可以并列執(zhí)行，因此本發(fā)明實(shí)施例并不因步驟標(biāo)號(hào)而限定各個(gè)步驟的執(zhí)行順序。

104：根據(jù)各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度，得到各個(gè)詞與待處理文本的相關(guān)度。其中詞與待處理文本的相關(guān)度是對(duì)應(yīng)詞在各個(gè)目標(biāo)主題的相關(guān)度之和，如選取的目標(biāo)主題有5個(gè)，則通過上述計(jì)算公式可以得到詞分別對(duì)這5個(gè)目標(biāo)主題的相關(guān)度，然后將詞分別對(duì)這5個(gè)目標(biāo)主題的相關(guān)度求和，得到詞與待處理文本的相關(guān)度，通過詞與待處理文本的相關(guān)度，可以指示出詞是否能夠反映出待處理文本的主要內(nèi)容，如果詞與待處理文本的相關(guān)度較高，說明詞能夠反映出待處理文本的主要內(nèi)容，如果詞與待處理文本的相關(guān)度較低，則說明詞反映出待處理文本的主要內(nèi)容的可能性較低。

105：根據(jù)各個(gè)詞與待處理文本的相關(guān)度，從各個(gè)詞中選取至少一個(gè)詞作為待處理文本的特征。

在本發(fā)明實(shí)施例中，選取詞的一種可行方式是：根據(jù)各個(gè)詞與待處理文本的相關(guān)度，對(duì)各個(gè)詞按照相關(guān)度由大到小的方式進(jìn)行排序，選取排序在其他詞前的預(yù)設(shè)個(gè)數(shù)的詞作為待處理文本的特征，其中預(yù)設(shè)個(gè)數(shù)可以根據(jù)實(shí)際應(yīng)用而定，本發(fā)明實(shí)施例不限定其取值。

從上述技術(shù)方案可知，本發(fā)明實(shí)施例提供的特征提取方法根據(jù)各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度，得到各個(gè)詞與待處理文本的相關(guān)度，然后根據(jù)各個(gè)詞與待處理文本的相關(guān)度，從各個(gè)詞中選取至少一個(gè)詞作為待處理文本的特征。例如根據(jù)各個(gè)詞與待處理文本的相關(guān)度，選取與待處理文本的相關(guān)度大于其他詞與待處理文本的相關(guān)度的預(yù)設(shè)個(gè)數(shù)的詞作為待處理文本的特征，使得選取的特征與待處理文本的主要內(nèi)容相關(guān)，也就是說在提取待處理文本的特征時(shí)，不僅考慮詞自身的重要性還考慮詞與待處理文本的主要內(nèi)容的相關(guān)度，使得作為特征的詞在主題方面更能反映待處理文本的主要內(nèi)容，進(jìn)而提高特征提取的準(zhǔn)確度。并且通過本發(fā)明實(shí)施例提供的特征提取方法，可以從提取的詞中過濾掉噪聲詞(即與主要內(nèi)容無關(guān)的詞)，減少噪聲詞對(duì)后續(xù)處理過程的影響。

下面通過實(shí)例來說明本發(fā)明實(shí)施例提供的特征提取方法可提高特征提取的準(zhǔn)確度，實(shí)例是標(biāo)題為“美大選日加移民網(wǎng)站被擠爆加官員:美國(guó)人占一半”的一篇新聞，部分內(nèi)容如下：

【觀察者網(wǎng)綜合】美國(guó)當(dāng)?shù)貢r(shí)間8日晚11時(shí)左右，近20萬人涌入加拿大移民網(wǎng)站，導(dǎo)致該網(wǎng)站陷入癱瘓。而同一時(shí)段，美國(guó)大選開票顯示特朗普領(lǐng)先希拉里，并逐漸擴(kuò)大優(yōu)勢(shì)。外界此前普遍認(rèn)為美國(guó)民眾導(dǎo)致了這一事件。據(jù)赫芬頓郵報(bào)9日?qǐng)?bào)道，加拿大政府移民部發(fā)言人勒薩熱(SoniaLesage)證實(shí)，當(dāng)日近半數(shù)IP來自美國(guó)，是正常訪問量5倍之多。11月8日晚，美國(guó)總統(tǒng)大選開票顯示特朗普領(lǐng)先時(shí)，瞬間有大量美國(guó)人登錄加拿大移民部網(wǎng)站，導(dǎo)致網(wǎng)站崩潰。加拿大電視臺(tái)CTV報(bào)道稱，當(dāng)晚11點(diǎn)加拿大移民部官網(wǎng)陷入崩潰，兩個(gè)小時(shí)后依舊沒有恢復(fù)。即使宣布特朗普獲勝后，依舊無法打開網(wǎng)頁，直到9日早晨才恢復(fù)正常。

……據(jù)悉，美國(guó)互聯(lián)網(wǎng)用戶到訪移民部網(wǎng)站的次數(shù)從美國(guó)大選開始階段就穩(wěn)步上升，今年3月達(dá)至總數(shù)170萬點(diǎn)擊率的高位，上月也有106萬次點(diǎn)擊，比去年同期的88萬次上升21％。9日，加拿大政府對(duì)此還“適時(shí)地”發(fā)布了一條推文稱，“在加拿大，我們鼓勵(lì)所有的移民帶來他們自己的文化傳統(tǒng)，并且分享給加拿大市民”。Mainstreet公司總裁馬奇(Quito Maggi)表示，申請(qǐng)加拿大的過程復(fù)雜、繁瑣，唯一的例外就是“難民”，例如先前的敘利亞難民危機(jī)，加拿大破例接受了大批難民，但“沮喪的美國(guó)民主黨人并不符合難民資格”。

應(yīng)用本發(fā)明實(shí)施例提供的特征提取方法從上述新聞內(nèi)容(視為待處理文本并)中提取特征的過程如下：

(1)、對(duì)上述新聞內(nèi)容進(jìn)行中文分詞處理，以從上述新聞內(nèi)容中提取出各個(gè)詞，得到包括各個(gè)詞的詞序列{用戶、報(bào)道、搜索、難民、美國(guó)、……、移民、領(lǐng)先、網(wǎng)站、日、……、加拿大、大選、官員、特朗普和上升……}；

(2)、在對(duì)上述新聞內(nèi)容分析后，得到上述新聞內(nèi)容包含的主題數(shù)量為10個(gè)，其中這10個(gè)主題分別是{美國(guó)總統(tǒng)大選、網(wǎng)站崩潰、敘利亞難民、前往加拿大、訪問量上升、希拉里、移民、搜索量、emigrate和調(diào)查}，根據(jù)主題模型得到各個(gè)主題的概率，記為P＝{0.21,0.06,0.14,0.11,0.09,0.05,0.19,0.04,0.06,0.05},0.21表示第1個(gè)主題t1的概率P(t1|d)；

(3)、在本發(fā)明實(shí)施例中，預(yù)設(shè)數(shù)量的主題為5個(gè)，即可以從上述10個(gè)主題中選取5個(gè)主題來作為目標(biāo)主題，則選取目標(biāo)主題的過程是：將10個(gè)主題按照概率由大到小排序，得到排序后的概率為P'＝{0.21,0.19,0.14,0.11,0.09,0.06,0.06,0.05,0.05,0.04}，選取概率最大的前5個(gè)主題分別作為目標(biāo)主題，對(duì)于上述新聞內(nèi)容來說，選取的目標(biāo)主題上述10個(gè)主題中的是第1個(gè)、第3個(gè)、第4個(gè)、第5個(gè)和第7個(gè)主題，即目標(biāo)主題分別是{美國(guó)總統(tǒng)大選、敘利亞難民、前往加拿大、訪問量上升、移民}；

(5)、在得到詞序列中每個(gè)詞與上述5個(gè)目標(biāo)主題的P(t|w)后，根據(jù)公式Score(移民)＝P(t|d)*P(t|w)計(jì)算每個(gè)詞分別與這5個(gè)目標(biāo)主題的相關(guān)度，然后計(jì)算每個(gè)詞與這5個(gè)目標(biāo)主題的相關(guān)度之和，每個(gè)詞與這5個(gè)目標(biāo)主題的相關(guān)度之和即是每個(gè)詞與新聞內(nèi)容的相關(guān)度，上述詞“移民”與新聞內(nèi)容的相關(guān)度是0.02613；

(6)、在本發(fā)明實(shí)施例中，預(yù)設(shè)個(gè)數(shù)的詞為10個(gè)，對(duì)詞序列中的每個(gè)詞按照相關(guān)度由大到小的方式進(jìn)行排序，選取詞序列中相關(guān)度排序在其他詞前的10個(gè)詞作為新聞內(nèi)容的特征，在上述新聞內(nèi)容中，選取的作為特征的詞為美國(guó)、移民、加拿大、網(wǎng)站、大選、官員、特朗普、搜索、上升和難民。

對(duì)上述新聞內(nèi)容通過現(xiàn)有TF-IDF(Term Frequency–Inverse Document Frequency，特征性頻率-倒排文檔頻率加權(quán)法)特征提取方法提取的特征有：用戶、報(bào)道、搜索、難民、美國(guó)、移民、領(lǐng)先、網(wǎng)站、日和加拿大，相對(duì)于現(xiàn)有TF-IDF特征提取方法提取的特征來說，本發(fā)明實(shí)施例提供的特征更貼合上述目標(biāo)主題，因此通過提取的特征更能反映新聞內(nèi)容的主要內(nèi)容，進(jìn)而提高特征提取的準(zhǔn)確度。

請(qǐng)參閱圖3，其示出了本發(fā)明實(shí)施例提供的特征提取裝置，用于提取與目標(biāo)主題相關(guān)的詞作為待處理文本的特征，以提供特征提取的準(zhǔn)確度。具體的，本發(fā)明實(shí)施例提供的特征提取裝置可以包括：提取單元11、主題獲取單元12、主題相關(guān)度計(jì)算單元13、文本相關(guān)度計(jì)算單元14和特征選取單元15。

提取單元11，用于從待處理文本中提取各個(gè)詞?？梢岳斫獾氖牵捍幚砦谋臼钱?dāng)前需要進(jìn)行特征提取的文本，其可以是由至少一條句子組成，而詞是待處理文本中組成句子的最小單位，在獲取到待處理文本后，可以從待處理文本中提取出每條句子中的每個(gè)詞。在本發(fā)明實(shí)施例中，可以通過分詞技術(shù)對(duì)每條句子進(jìn)行分詞處理，以從每條句子中提取到對(duì)應(yīng)的詞。

主題獲取單元12，用于獲取待處理文本包含的各個(gè)主題，并從各個(gè)主題中選取至少一個(gè)目標(biāo)主題。其中主題是待處理文本表現(xiàn)的內(nèi)容，一篇待處理文本包含多個(gè)主題，但是并不是每個(gè)主題表現(xiàn)的內(nèi)容是待處理文本的主要內(nèi)容，因此在獲取到各個(gè)主題后需要從中選取出表現(xiàn)待處理文本的主要內(nèi)容的目標(biāo)主題。

在本發(fā)明實(shí)施例中，主題獲取單元12選取目標(biāo)主題的一種可行方式是：根據(jù)待處理文本中各個(gè)主題的概率，對(duì)各個(gè)主題按照概率由大到小的方式進(jìn)行排序，選取排序在其他主題前的預(yù)設(shè)數(shù)量的主題分別作為目標(biāo)主題。

主題相關(guān)度計(jì)算單元13，用于計(jì)算各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度?？梢岳斫獾氖牵合嚓P(guān)度是指詞與目標(biāo)主題之間存在相互聯(lián)系的百分比，如果詞能夠反映出目標(biāo)主題表達(dá)的含義，則說明詞與目標(biāo)主題相關(guān)，詞與目標(biāo)主題的相關(guān)度較高，如果詞不能夠反映出目標(biāo)主題表達(dá)的含義，則說明詞與目標(biāo)主題無關(guān)，詞與目標(biāo)主題的相關(guān)度較低，甚至可以將詞與目標(biāo)主題的相關(guān)度設(shè)為0。

在本發(fā)明實(shí)施例中，主題相關(guān)度計(jì)算單元13的結(jié)構(gòu)如圖4所示，可以包括：第一計(jì)算子單元131、第二計(jì)算子單元132、第三計(jì)算子單元133和相關(guān)度計(jì)算子單元134。

第一計(jì)算子單元131，用于計(jì)算各個(gè)目標(biāo)主題中各個(gè)詞的概率和待處理文本中各個(gè)目標(biāo)主題的概率。其中各個(gè)目標(biāo)主題中各個(gè)詞的概率和待處理文本中各個(gè)目標(biāo)主題的概率可以通過主題模型來計(jì)算，具體請(qǐng)參閱方法實(shí)施例中的相關(guān)說明。

第二計(jì)算子單元132，用于計(jì)算各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率。可選的，計(jì)算各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率包括：計(jì)算待處理文本出現(xiàn)的頻率P(d)，根據(jù)待處理文本中各個(gè)目標(biāo)主題的概率P(t|d)和待處理文本出現(xiàn)的頻率P(d)，計(jì)算各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率P(t)，對(duì)應(yīng)的計(jì)算公式為：P(t)＝∑_d∈DP(t|d)P(d)。

第三計(jì)算子單元133，用于計(jì)算各個(gè)詞在待處理文本中出現(xiàn)的頻率?？蛇x的，計(jì)算各個(gè)詞在待處理文本中出現(xiàn)的頻率包括：計(jì)算各個(gè)詞的詞頻Count(w)和從待處理文本中提取的詞的總數(shù)TotalCount，根據(jù)各個(gè)詞的詞頻Count(w)和從待處理文本中提取的詞的總數(shù)TotalCount，計(jì)算各個(gè)詞在待處理文本中出現(xiàn)的頻率P(w)，對(duì)應(yīng)的計(jì)算公式為：

相關(guān)度計(jì)算子單元134，用于根據(jù)各個(gè)目標(biāo)主題在待處理文本中出現(xiàn)的頻率、各個(gè)詞在待處理文本中出現(xiàn)的頻率、各個(gè)目標(biāo)主題中各個(gè)詞的概率和待處理文本中各個(gè)目標(biāo)主題的概率，計(jì)算各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度。對(duì)應(yīng)的計(jì)算公式如下：

文本相關(guān)度計(jì)算單元14，用于根據(jù)各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度，得到各個(gè)詞與待處理文本的相關(guān)度。其中詞與待處理文本的相關(guān)度是對(duì)應(yīng)詞在各個(gè)目標(biāo)主題的相關(guān)度之和，如選取的目標(biāo)主題有5個(gè)，則通過上述計(jì)算公式可以得到詞分別對(duì)這5個(gè)目標(biāo)主題的相關(guān)度，然后將詞分別對(duì)這5個(gè)目標(biāo)主題的相關(guān)度求和，得到詞與待處理文本的相關(guān)度，通過詞與待處理文本的相關(guān)度，可以指示出詞是否能夠反映出待處理文本的主要內(nèi)容，如果詞與待處理文本的相關(guān)度較高，說明詞能夠反映出待處理文本的主要內(nèi)容，如果詞與待處理文本的相關(guān)度較低，則說明詞反映出待處理文本的主要內(nèi)容的可能性較低。

特征選取單元15，用于根據(jù)各個(gè)詞與待處理文本的相關(guān)度，從各個(gè)詞中選取至少一個(gè)詞作為待處理文本的特征。

從上述技術(shù)方案可知，本發(fā)明實(shí)施例提供的特征提取裝置根據(jù)各個(gè)詞與各個(gè)目標(biāo)主題的相關(guān)度，得到各個(gè)詞與待處理文本的相關(guān)度，然后根據(jù)各個(gè)詞與待處理文本的相關(guān)度，從各個(gè)詞中選取至少一個(gè)詞作為待處理文本的特征。例如根據(jù)各個(gè)詞與待處理文本的相關(guān)度，選取與待處理文本的相關(guān)度大于其他詞與待處理文本的相關(guān)度的預(yù)設(shè)個(gè)數(shù)的詞作為待處理文本的特征，使得選取的特征與待處理文本的主要內(nèi)容相關(guān)，也就是說在提取待處理文本的特征時(shí)，不僅考慮詞自身的重要性還考慮詞與待處理文本的主要內(nèi)容的相關(guān)度，使得作為特征的詞在主題方面更能反映待處理文本的主要內(nèi)容，進(jìn)而提高特征提取的準(zhǔn)確度。并且通過本發(fā)明實(shí)施例提供的特征提取裝置，可以從提取的詞中過濾掉噪聲詞(即與主要內(nèi)容無關(guān)的詞)，減少噪聲詞對(duì)后續(xù)處理過程的影響。

需要說明的是，本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述，每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處，各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于裝置類實(shí)施例而言，由于其與方法實(shí)施例基本相似，所以描述的比較簡(jiǎn)單，相關(guān)之處參見方法實(shí)施例的部分說明即可。

最后，還需要說明的是，在本文中，諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來，而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且，術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下，由語句“包括一個(gè)……”限定的要素，并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

對(duì)所公開的實(shí)施例的上述說明，使本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域技術(shù)人員來說將是顯而易見的，本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下，在其它實(shí)施例中實(shí)現(xiàn)。因此，本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例，而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤(rùn)飾，這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：董超
技術(shù)所有人：東軟集團(tuán)股份有限公司
我是此專利的發(fā)明人

上一篇：一種詞向量的生成方法和裝置與流程
上一篇：一種信息推薦的方法及系統(tǒng)與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

一種新的特征提取方法相關(guān)技術(shù)

特征提取方法相關(guān)技術(shù)

圖像特征提取方法相關(guān)技術(shù)

特征提取的方法相關(guān)技術(shù)

數(shù)據(jù)特征提取方法相關(guān)技術(shù)

信號(hào)特征提取方法相關(guān)技術(shù)

圖像特征提取的方法相關(guān)技術(shù)

人臉圖像特征提取方法相關(guān)技術(shù)

模式識(shí)別特征提取方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種特征提取方法及裝置與流程