最優(yōu)主題數(shù)計(jì)算方法及裝置與流程

文檔序號(hào)：12596166閱讀：368來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域，更具體地說(shuō)，涉及一種最優(yōu)主題數(shù)計(jì)算方法及裝置。

背景技術(shù)：

在自然語(yǔ)言處理過(guò)程中，文檔對(duì)于計(jì)算機(jī)通常被當(dāng)作是一個(gè)無(wú)限維度的向量。而這種無(wú)限維度的向量對(duì)于計(jì)算機(jī)本身又是不可被計(jì)算的，這時(shí)就需要對(duì)文本進(jìn)行降維處理，讓它以一定維度的數(shù)學(xué)向量?jī)?chǔ)存在計(jì)算機(jī)中以便計(jì)算。主題模型(Topic Model)就是一種常見(jiàn)的文檔降維方法。主題模型的實(shí)質(zhì)是對(duì)文檔中隱含主題的一種建模方法。具體的，主題模型就是通過(guò)已知的“詞語(yǔ)-文檔”矩陣進(jìn)行訓(xùn)練，得到“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣的過(guò)程。其中，“詞語(yǔ)-文檔”矩陣表示每個(gè)文檔中每個(gè)詞語(yǔ)的詞頻(即出現(xiàn)的概率)；“詞語(yǔ)-主題”矩陣表示每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的概率；“主題-文檔”矩陣表示每個(gè)文檔中每個(gè)主題出現(xiàn)的概率。

上述訓(xùn)練過(guò)程，需要先獲取若干個(gè)主題數(shù)，然后基于每一個(gè)主題數(shù)，通過(guò)“詞語(yǔ)-文檔”矩陣進(jìn)行訓(xùn)練，得到每一個(gè)主題數(shù)對(duì)應(yīng)的“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣，然后從上述若干個(gè)主題中選擇一個(gè)最優(yōu)的主題數(shù)，將該最優(yōu)主題數(shù)對(duì)應(yīng)的“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣作為最優(yōu)結(jié)果輸出。

顯然，主題數(shù)是主題模型的一個(gè)重要參數(shù)。如果最優(yōu)主題數(shù)選擇不當(dāng)(主題數(shù)過(guò)少或過(guò)多)會(huì)導(dǎo)致主題模型的輸出結(jié)果的質(zhì)量較差。因此，如何選擇最優(yōu)主題數(shù)成為亟待解決的問(wèn)題。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的是提供一種最優(yōu)主題數(shù)計(jì)算方法及裝置，以提高主題模型的輸出結(jié)果的質(zhì)量。

為實(shí)現(xiàn)上述目的，本發(fā)明提供了如下技術(shù)方案：

一種最優(yōu)主題數(shù)計(jì)算方法，包括：

獲取主題模型中使用的若干個(gè)主題數(shù)；

對(duì)應(yīng)每一個(gè)所述主題數(shù)，獲取所述主題數(shù)對(duì)應(yīng)的，每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的第一概率，以及每個(gè)文檔中每個(gè)主題出現(xiàn)的第二概率；

基于所述第一概率和所述第二概率，計(jì)算兩兩主題間的第一相似度，以及兩兩詞語(yǔ)間的第二相似度；

基于所述主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、所述主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及所述主題數(shù)，計(jì)算所述主題數(shù)對(duì)應(yīng)的平衡相似度，所述平衡相似度的大小用于衡量主題數(shù)的優(yōu)劣；

將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。

通過(guò)上述過(guò)程可知，本發(fā)明實(shí)施例中，基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù)，計(jì)算主題數(shù)對(duì)應(yīng)的用于衡量主題數(shù)的優(yōu)劣的平衡相似度；將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。從而可以基于如下原則獲取最優(yōu)主題數(shù)：主題數(shù)盡可能多，以保證最大程度的語(yǔ)義覆蓋，但是卻不能過(guò)多；各個(gè)主題盡可能表達(dá)獨(dú)立含義，盡量不存在語(yǔ)義交叉；相同含義的詞語(yǔ)越少越好，以保證用最少的詞語(yǔ)來(lái)表示盡可能多的語(yǔ)義。

上述方法，優(yōu)選的，所述基于所述主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、所述主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及所述主題數(shù)，計(jì)算所述主題數(shù)對(duì)應(yīng)的平衡相似度，包括：

計(jì)算所述主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度的第一和值，以及所述主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度的第二和值；

將所述第一和值和所述第二和值的乘積與所述主題數(shù)的平方值做商運(yùn)算，得到所述主題數(shù)對(duì)應(yīng)的平衡相似度。

上述方法，優(yōu)選的，所述將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)，包括：

將平衡相似度最小時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。

上述過(guò)程中，通過(guò)分母主題數(shù)的平方來(lái)確保主題數(shù)不會(huì)過(guò)大；通過(guò)對(duì)兩兩主題間的相似度求和，并且通過(guò)平衡相似度最小來(lái)使得主題數(shù)范圍內(nèi)的主題間語(yǔ)義疊加最小；通過(guò)對(duì)兩兩詞語(yǔ)間的相似度求和，并且通過(guò)平衡相似度最小來(lái)使得當(dāng)前主題數(shù)范圍內(nèi)的主題中所有詞語(yǔ)語(yǔ)義疊加最小。

上述方法，優(yōu)選的，基于所述第一概率計(jì)算兩兩主題間的第一相似度，包括：

獲取與第一主題對(duì)應(yīng)的第一向量，以及與第二主題對(duì)應(yīng)的第二向量；所述第一向量中的元素為所述第一主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率，所述第二向量中的元素為所述第二主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率；

基于所述第一向量和所述第二向量計(jì)算所述第一主題和所述第二主題間的第一相似度。

上述方法，優(yōu)選的，基于所述第一概率和所述第二概率計(jì)算兩兩詞語(yǔ)間的第二相似度，包括：

計(jì)算不同文檔中同一主題出現(xiàn)的第二概率的第三和值；

對(duì)應(yīng)每一個(gè)主題，計(jì)算主題對(duì)應(yīng)的所述第三和值與主題中第一詞語(yǔ)出現(xiàn)的第一概率的第一乘積，將第一乘積結(jié)果與語(yǔ)料庫(kù)中所述第一詞語(yǔ)的詞頻做商運(yùn)算，得到在所述第一詞語(yǔ)出現(xiàn)的條件下，每一個(gè)主題的第三概率；計(jì)算主題對(duì)應(yīng)的所述第三和值與主題中第二詞語(yǔ)出現(xiàn)的第一概率的第二乘積，將第二乘積結(jié)果與語(yǔ)料庫(kù)中所述第二詞語(yǔ)的詞頻做商運(yùn)算，得到在所述第二詞語(yǔ)出現(xiàn)的條件下，每一個(gè)主題的第四概率；

獲取與所述第一詞語(yǔ)對(duì)應(yīng)的第三向量，以及與所述第二詞語(yǔ)對(duì)應(yīng)的第四向量；所述第三向量中的元素為在所述第一詞語(yǔ)出現(xiàn)的條件下，各個(gè)主題的第三概率；所述第四向量中的元素為在所述第二詞語(yǔ)出現(xiàn)的條件下，各個(gè)主題的第四概率；

基于所述第三向量和所述第四向量計(jì)算所述第一詞語(yǔ)和所述第二詞語(yǔ)間的第二相似度。

一種最優(yōu)主題數(shù)計(jì)算裝置，包括：

第一獲取模塊，用于獲取主題模型中使用的若干個(gè)主題數(shù)；

第二獲取模塊，用于對(duì)應(yīng)每一個(gè)所述主題數(shù)，獲取所述主題數(shù)對(duì)應(yīng)的，每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的第一概率，以及每個(gè)文檔中每個(gè)主題出現(xiàn)的第二概率；

第一計(jì)算模塊，用于基于所述第一概率和所述第二概率，計(jì)算兩兩主題間的第一相似度，以及兩兩詞語(yǔ)間的第二相似度；

第二計(jì)算模塊，用于基于所述主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、所述主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及所述主題數(shù)，計(jì)算所述主題數(shù)對(duì)應(yīng)的平衡相似度，所述平衡相似度的大小用于衡量主題數(shù)的優(yōu)劣；

確定模塊，用于將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。

本發(fā)明實(shí)施例提供的最優(yōu)主題數(shù)計(jì)算裝置，基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù)，計(jì)算主題數(shù)對(duì)應(yīng)的用于衡量主題數(shù)的優(yōu)劣的平衡相似度；將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。從而可以基于如下原則獲取最優(yōu)主題數(shù)：主題數(shù)盡可能多，以保證最大程度的語(yǔ)義覆蓋，但是卻不能過(guò)多；各個(gè)主題盡可能表達(dá)獨(dú)立含義，盡量不存在語(yǔ)義交叉；相同含義的詞語(yǔ)越少越好，以保證用最少的詞語(yǔ)來(lái)表示盡可能多的語(yǔ)義。

上述裝置，優(yōu)選的，所述第二計(jì)算模塊包括：

第一計(jì)算單元，用于計(jì)算所述主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度的第一和值，以及所述主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度的第二和值；

第二計(jì)算單元，用于將所述第一和值和所述第二和值的乘積與所述主題數(shù)的平方值做商運(yùn)算，得到所述主題數(shù)對(duì)應(yīng)的平衡相似度。

上述裝置，優(yōu)選的，所述確定模塊用于，將平衡相似度最小時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。

上述最優(yōu)主題數(shù)計(jì)算裝置，通過(guò)分母主題數(shù)的平方來(lái)確保主題數(shù)不會(huì)過(guò)大；通過(guò)對(duì)兩兩主題間的相似度求和，并且通過(guò)平衡相似度最小來(lái)使得主題數(shù)范圍內(nèi)的主題間語(yǔ)義疊加最小；通過(guò)對(duì)兩兩詞語(yǔ)間的相似度求和，并且通過(guò)平衡相似度最小來(lái)使得當(dāng)前主題數(shù)范圍內(nèi)的主題中所有詞語(yǔ)語(yǔ)義疊加最小。

上述裝置，優(yōu)選的，所述第一計(jì)算模塊用于基于所述第一概率計(jì)算兩兩主題間的第一相似度，包括：

第一獲取單元，用于獲取與第一主題對(duì)應(yīng)的第一向量，以及與第二主題對(duì)應(yīng)的第二向量；所述第一向量中的元素為所述第一主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率，所述第二向量中的元素為所述第二主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率；

第三計(jì)算單元，用于基于所述第一向量和所述第二向量計(jì)算所述第一主題和所述第二主題間的第一相似度。

上述裝置，優(yōu)選的，所述第一計(jì)算模塊用于基于所述第一概率和所述第二概率計(jì)算兩兩詞語(yǔ)間的第二相似度，包括：

第四計(jì)算單元，用于計(jì)算不同文檔中同一主題出現(xiàn)的第二概率的第三和值；

第五計(jì)算單元，用于對(duì)應(yīng)每一個(gè)主題，計(jì)算主題對(duì)應(yīng)的所述第三和值與主題中第一詞語(yǔ)出現(xiàn)的第一概率的第一乘積，將第一乘積結(jié)果與語(yǔ)料庫(kù)中所述第一詞語(yǔ)的詞頻做商運(yùn)算，得到在所述第一詞語(yǔ)出現(xiàn)的條件下，每一個(gè)主題的第三概率；計(jì)算主題對(duì)應(yīng)的所述第三和值與主題中第二詞語(yǔ)出現(xiàn)的第一概率的第二乘積，將第二乘積結(jié)果與語(yǔ)料庫(kù)中所述第二詞語(yǔ)的詞頻做商運(yùn)算，得到在所述第二詞語(yǔ)出現(xiàn)的條件下，每一個(gè)主題的第四概率；

第二獲取單元，用于獲取與所述第一詞語(yǔ)對(duì)應(yīng)的第三向量，以及與所述第二詞語(yǔ)對(duì)應(yīng)的第四向量；所述第三向量中的元素為在所述第一詞語(yǔ)出現(xiàn)的條件下，各個(gè)主題的第三概率；所述第四向量中的元素為在所述第二詞語(yǔ)出現(xiàn)的條件下，各個(gè)主題的第四概率；

第六計(jì)算單元，用于基于所述第三向量和所述第四向量計(jì)算所述第一詞語(yǔ)和所述第二詞語(yǔ)間的第二相似度。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1a為“詞語(yǔ)-文檔”矩陣的一種示例；

圖1b為“詞語(yǔ)-主題”矩陣的一種示例圖；

圖1c為“主題-文檔”矩陣的一種示例圖；

圖2為本發(fā)明實(shí)施提供的最優(yōu)主題數(shù)計(jì)算方法的一種實(shí)現(xiàn)流程圖；

圖3為本發(fā)明實(shí)施提供的基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù)，計(jì)算主題數(shù)對(duì)應(yīng)的平衡相似度的一種實(shí)現(xiàn)流程圖；

圖4為本發(fā)明實(shí)施提供的計(jì)算兩兩主題間的第一相似度的一種實(shí)現(xiàn)流程圖；

圖5為本發(fā)明實(shí)施提供的計(jì)算兩兩詞語(yǔ)間的第二相似度的一種實(shí)現(xiàn)流程圖；

圖6為基于本發(fā)明實(shí)施例中公式(1)相關(guān)實(shí)施例提供的，最優(yōu)主題數(shù)計(jì)算方法計(jì)算過(guò)程中平衡相似度的一種變化趨勢(shì)圖；

圖7為基于本發(fā)明實(shí)施例中公式(1)相關(guān)實(shí)施例提供的，最優(yōu)主題數(shù)計(jì)算方法計(jì)算過(guò)程中平衡相似度的另一種變化趨勢(shì)圖；

圖8為利用基于信息熵的困惑度來(lái)評(píng)價(jià)主題模型整體質(zhì)量的時(shí)，困惑度的變化趨勢(shì)圖；

圖9為本發(fā)明實(shí)施提供的最優(yōu)主題數(shù)計(jì)算裝置的一種結(jié)構(gòu)示意圖；

圖10為本發(fā)明實(shí)施提供的第二計(jì)算模塊的一種結(jié)構(gòu)示意圖；

圖11為本發(fā)明實(shí)施提供的第一計(jì)算模塊的一種結(jié)構(gòu)示意圖；

圖12為本發(fā)明實(shí)施提供的第一計(jì)算模塊的另一種結(jié)構(gòu)示意圖。

說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)“第一”、“第二”、“第三”“第四”等(如果存在)是用于區(qū)別類似的部分，而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換，以便這里描述的本申請(qǐng)的實(shí)施例能夠以除了在這里圖示的以外的順序?qū)嵤?/p>

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有付出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

為了更好的理解本發(fā)明實(shí)施例，首先對(duì)主題模型的訓(xùn)練過(guò)程進(jìn)行說(shuō)明。

在訓(xùn)練開(kāi)始之前，需要技術(shù)人員根據(jù)先驗(yàn)知識(shí)確定若干個(gè)主題數(shù)，主題數(shù)即為主題的個(gè)數(shù)。為方便敘述，這里將第r個(gè)主題數(shù)記為N_r(r＝1，2，3，4，……，n)，n表示主題數(shù)的個(gè)數(shù)。

在啟動(dòng)訓(xùn)練過(guò)程后，首先，對(duì)于語(yǔ)料庫(kù)中的一系列文檔，通過(guò)對(duì)文檔進(jìn)行分詞，計(jì)算各個(gè)文檔中每個(gè)詞語(yǔ)的詞頻就可以得到“詞語(yǔ)-文檔”矩陣。

“詞語(yǔ)-文檔”矩陣的一種示例如圖1a所示。“詞語(yǔ)-文檔”矩陣表示每個(gè)文檔中每個(gè)詞語(yǔ)的詞頻(即出現(xiàn)的概率)，也就是說(shuō)，若“詞語(yǔ)-文檔”矩陣中某個(gè)元素對(duì)應(yīng)的文檔為d，對(duì)應(yīng)的詞語(yǔ)為w，則該元素的取值為P(w|d)。

主題模型的訓(xùn)練過(guò)程，就是對(duì)應(yīng)每一個(gè)主題數(shù)，通過(guò)圖1a所示的“詞語(yǔ)-文檔”矩陣得到“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣，然后，根據(jù)一定的規(guī)則找到最優(yōu)主題數(shù)，輸出與最優(yōu)主題數(shù)對(duì)應(yīng)的“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣的過(guò)程。

其中，“詞語(yǔ)-主題”矩陣的一種示例圖如圖1b所示，“詞語(yǔ)-主題”矩陣表示每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的概率，也就是說(shuō)，若“詞語(yǔ)-主題”矩陣中某個(gè)元素對(duì)應(yīng)的主題為t，對(duì)應(yīng)的詞語(yǔ)為w，則該元素的取值為P(w|t)?！爸黝}-文檔”矩陣的一種示例圖如圖1c所示，“主題-文檔”矩陣表示每個(gè)文檔中每個(gè)主題出現(xiàn)的概率，也就是說(shuō)，若“主題-文檔”矩陣中某個(gè)元素對(duì)應(yīng)的主題為t，對(duì)應(yīng)的文檔為d，則該元素的取值為P(t|d)。

1a-1c三個(gè)矩陣滿足如下關(guān)系：“詞語(yǔ)-文檔”矩陣等于“主題-文檔”矩陣與“詞語(yǔ)-主題”矩陣的乘積。

本發(fā)明實(shí)施例就是提供一種確定最優(yōu)主題數(shù)的方法及裝置。

請(qǐng)參閱圖2，圖2為本發(fā)明實(shí)施提供的最優(yōu)主題數(shù)計(jì)算方法的一種實(shí)現(xiàn)流程圖，可以包括：

步驟S21：獲取主題模型中使用的若干個(gè)主題數(shù)。

主題模型使用的若干各主題數(shù)即為主題模型訓(xùn)練開(kāi)始之前，由技術(shù)人員根據(jù)先驗(yàn)知識(shí)確定的若干個(gè)主題數(shù)。

例如，確定了8個(gè)主題數(shù)，分別為4，20，25，35，37，65，88。若主題數(shù)為4，則“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣中的主題數(shù)均為4，即，“詞語(yǔ)-主題”矩陣的行數(shù)為4，“主題-文檔”矩陣的列數(shù)為4。同理，若主題數(shù)為25，則“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣中的主題數(shù)均為25，即，“詞語(yǔ)-主題”矩陣的行數(shù)為25，“主題-文檔”矩陣的列數(shù)為25。

步驟S22：對(duì)應(yīng)每一個(gè)主題數(shù)，獲取該主題數(shù)對(duì)應(yīng)的，每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的第一概率，以及每個(gè)文檔中每個(gè)主題出現(xiàn)的第二概率。

主題數(shù)確認(rèn)后，相對(duì)應(yīng)的“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣就確定了，而“詞語(yǔ)-主題”矩陣表示每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的概率，“主題-文檔”矩陣表示每個(gè)文檔中每個(gè)主題出現(xiàn)的概率，因此，對(duì)應(yīng)每一個(gè)主題數(shù)，該主題數(shù)對(duì)應(yīng)的每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的第一概率，以及每個(gè)文檔中每個(gè)主題出現(xiàn)的第二概率是已知的?？梢灾苯訌摹霸~語(yǔ)-主題”矩陣和“主題-文檔”矩陣中讀取每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的第一概率，以及每個(gè)文檔中每個(gè)主題出現(xiàn)的第二概率。

步驟S23：基于第一概率和第二概率，計(jì)算兩兩主題間的第一相似度，以及兩兩詞語(yǔ)間的第二相似度。

在一可選的實(shí)施例中，兩兩主題間的第一相似度可以通過(guò)詞語(yǔ)的語(yǔ)義分布來(lái)計(jì)算。對(duì)于一個(gè)主題來(lái)說(shuō)，詞語(yǔ)的語(yǔ)義分布即為：不同的詞語(yǔ)在該主題中出現(xiàn)的概率。

兩兩詞語(yǔ)間的第二相似度可以通過(guò)主題的語(yǔ)義分布來(lái)計(jì)算。對(duì)于一個(gè)詞語(yǔ)來(lái)說(shuō)，主題的語(yǔ)義分布即為：在該詞語(yǔ)出現(xiàn)的情況下，各個(gè)主題的概率。例如，“蘋(píng)果”出現(xiàn)的時(shí)候，會(huì)有一定的概率來(lái)表示水果，也有一定的概率表示為電子產(chǎn)品。那么，蘋(píng)果這個(gè)詞的語(yǔ)義分布即為，在蘋(píng)果這個(gè)詞出現(xiàn)的情況下，主題“水果”的概率，以及主題“電子產(chǎn)品”的概率。其中，主題的語(yǔ)義分布可以基于“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣計(jì)算得到。

為便于區(qū)分，可以將通過(guò)詞語(yǔ)的語(yǔ)義分布計(jì)算兩兩主題間的相似度記為正向相似度；將通過(guò)主題的語(yǔ)義分布計(jì)算兩兩詞語(yǔ)間的相似度記為反向相似度。

步驟S24：基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù)，計(jì)算主題數(shù)對(duì)應(yīng)的平衡相似度，平衡相似度的大小用于衡量主題數(shù)的優(yōu)劣。

對(duì)應(yīng)每一個(gè)主題數(shù)，基于該主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、該主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及該主題數(shù)，計(jì)算該主題數(shù)對(duì)應(yīng)的平衡相似度。也就是說(shuō)，每一個(gè)主題數(shù)對(duì)應(yīng)一個(gè)平衡相似度。

步驟S25：將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。

本發(fā)明實(shí)施例提供的計(jì)算最優(yōu)主題數(shù)的方法，基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù)，計(jì)算主題數(shù)對(duì)應(yīng)的用于衡量主題數(shù)的優(yōu)劣的平衡相似度；將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。從而可以基于如下原則獲取最優(yōu)主題數(shù)：主題數(shù)盡可能多，以保證最大程度的語(yǔ)義覆蓋，但是卻不能過(guò)多；各個(gè)主題盡可能表達(dá)獨(dú)立含義，盡量不存在語(yǔ)義交叉；相同含義的詞語(yǔ)越少越好，以保證用最少的詞語(yǔ)來(lái)表示盡可能多的語(yǔ)義。

在一可選的實(shí)施例中，基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù)，計(jì)算主題數(shù)對(duì)應(yīng)的平衡相似度的一種實(shí)現(xiàn)流程圖如圖3所示，可以包括：

步驟S31：計(jì)算主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度的第一和值，以及主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度的第二和值；

假設(shè)主題個(gè)數(shù)為m，則共有m(m-1)/2個(gè)兩兩主題間的第一相似度，因此，兩兩主題間的第一相似度的第一和值是指上述m(m-1)/2個(gè)第一相似度的和值；同理，若“詞語(yǔ)-文檔”矩陣中，詞語(yǔ)數(shù)為q，則共有q(q-1)/2個(gè)兩兩詞語(yǔ)間的第二相似度，因此，兩兩詞語(yǔ)間的第二相似度的第二和值是指上述q(q-1)/2個(gè)第二相似度的和值。

步驟S32：將第一和值和第二和值的乘積與主題數(shù)的平方值做商運(yùn)算，得主題數(shù)對(duì)應(yīng)的平衡相似度。

若用K表示主題數(shù)，主題數(shù)K對(duì)應(yīng)的平衡相似度為BlanceSimilarity(K)，則平衡相似度的計(jì)算公式為：

其中，W表示所有詞語(yǔ)的集合，T表示與主題數(shù)K對(duì)應(yīng)的所有主題的集合；similarity(w_i,w_j)表示詞語(yǔ)w_i和詞語(yǔ)w_j的相似度；similarity(t_i,t_j)表示主題t_i和主題t_j的相似度。

基于上述平衡相似度的計(jì)算方法，可以將平衡相似度最小時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。若用K₀表示最優(yōu)主題數(shù)，則K₀可以用公式表示為：

其中，argmin是一個(gè)數(shù)學(xué)符號(hào)，表示函數(shù)BlanceSimilarity(K)取值最小時(shí)的自變量K的取值。

本發(fā)明實(shí)施例中，通過(guò)分母K²來(lái)確保主題數(shù)不會(huì)過(guò)大，為了讓主題數(shù)盡可能的多，在實(shí)際使用中可以按照主題數(shù)K從小到大的順序進(jìn)行訓(xùn)練；為了讓各個(gè)主題盡可能表達(dá)獨(dú)立含義，不存在語(yǔ)義交叉，通過(guò)對(duì)兩兩主題間的相似度求和，并且通過(guò)平衡相似度最小來(lái)使得主題數(shù)范圍內(nèi)的主題間語(yǔ)義疊加最??；為了保證相同含義的詞語(yǔ)盡可能少(包括：相同詞語(yǔ)盡可能不在多個(gè)主題中存在，并且相同含義的詞語(yǔ)盡可能少)，通過(guò)對(duì)兩兩詞語(yǔ)間的相似度求和，并且通過(guò)平衡相似度最小來(lái)使得當(dāng)前主題數(shù)范圍內(nèi)的主題中所有詞語(yǔ)語(yǔ)義疊加最小。

另外，本發(fā)明實(shí)施例提供的計(jì)算最優(yōu)主題數(shù)的方法計(jì)算簡(jiǎn)單，且計(jì)算量小，節(jié)省計(jì)算資源。

在另一可選的實(shí)施例中，在計(jì)算主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度的第一和值，以及主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度的第二和值之后，可以計(jì)算第一和值和第二和值的乘積，然后將主題數(shù)的平方值與乘積結(jié)果做商運(yùn)算，得到主題數(shù)對(duì)應(yīng)的平衡相似度。此時(shí)，可以將平衡相似度最大時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。本實(shí)施例中，最優(yōu)主題數(shù)的計(jì)算公式為：

其中，argmax是一個(gè)數(shù)學(xué)符號(hào)，表示函數(shù)BlanceSimilarity(K)取值最大時(shí)的自變量K的取值。

與圖3所示實(shí)施例不同，本發(fā)明實(shí)施例中，通過(guò)分子K²來(lái)確保主題數(shù)不會(huì)過(guò)大，為了讓主題數(shù)盡可能的多，在實(shí)際使用中可以按照主題數(shù)K從小到大的順序進(jìn)行訓(xùn)練；為了讓各個(gè)主題盡可能表達(dá)獨(dú)立含義，不存在語(yǔ)義交叉，通過(guò)對(duì)兩兩主題間的相似度求和，并且通過(guò)平衡相似度最大來(lái)使得主題數(shù)范圍內(nèi)的主題間語(yǔ)義疊加最??；為了保證相同含義的詞語(yǔ)盡可能少(包括：相同詞語(yǔ)盡可能不在多個(gè)主題中存在，并且相同含義的詞語(yǔ)盡可能少)，通過(guò)對(duì)兩兩詞語(yǔ)間的相似度求和，并且通過(guò)平衡相似度最大來(lái)使得當(dāng)前主題數(shù)范圍內(nèi)的主題中所有詞語(yǔ)語(yǔ)義疊加最小。

在一可選的實(shí)施例中，可以基于第一概率計(jì)算兩兩主題間的第一相似度。對(duì)于任意兩個(gè)主題，分別為第一主題和第二主題，計(jì)算這兩個(gè)主題間的第一相似度的一種實(shí)現(xiàn)流程圖如圖4所示，可以包括：

步驟S41：獲取與第一主題對(duì)應(yīng)的第一向量，以及與第二主題對(duì)應(yīng)的第二向量；其中，第一向量中的元素為第一主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率，第二向量中的元素為第二主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率；

以圖1b為例，主題1對(duì)應(yīng)的向量為(B₁₁，B₁₂，B₁₃，…)，主題2對(duì)應(yīng)的向量為(B₂₁，B₂₂，B₂₃，…)，主題3對(duì)應(yīng)的向量為(B₃₁，B₃₂，B₃₃，…)，依此類推。

步驟S42：基于第一向量和第二向量計(jì)算第一主題和第二主題間的第一相似度。

可以計(jì)算第一向量和第二向量之間的KL散度，通過(guò)KL散度來(lái)衡量第一主題和第二主題間的相似度。KL散度越小，表征第一主題和第二主題間越相似，即相似度越大。KL散度越大，表征第一主題和第二主題間越不相似，即相似度越小。

也可以計(jì)算第一主題和第二主題間的余弦相似度，即，計(jì)算第一向量和第二向量的夾角余弦值，通過(guò)夾角余弦值來(lái)衡量第一主題和第二主題的相似度。夾角余弦值越小，表征第一主題和第二主題間越相似，即相似度越大。夾角余弦值越大，表征第一主題和第二主題間越不相似，即相似度越小。

還可以計(jì)算第一向量和第二向量的歐式距離，通過(guò)歐式距離來(lái)衡量第一主題和第二主題間的相似度。歐式距離越小，表征第一主題和第二主題間越相似，即相似度越大。歐式距離越大，表征第一主題和第二主題間越不相似，即相似度越小。

當(dāng)然，本發(fā)明實(shí)施例中，并不限于以上幾種方式計(jì)算第一主題和第二主題間的第一相似度，還可以通過(guò)其它方式計(jì)算第一主題和第二主題間的第一相似度，例如，計(jì)算第一向量和第二向量的皮爾森系數(shù)，通過(guò)皮爾森系數(shù)來(lái)衡量第一主題和第二主題間的相似度。

在一可選的實(shí)施例中，可以基于第一概率和第二概率計(jì)算兩兩詞語(yǔ)間的第二相似度，對(duì)于任意兩個(gè)詞語(yǔ)，分別為第一詞語(yǔ)和第二詞語(yǔ)，計(jì)算這兩個(gè)詞語(yǔ)間的第二相似度的一種實(shí)現(xiàn)流程圖如圖5所示，可以包括：

步驟S51：計(jì)算不同文檔中同一主題出現(xiàn)的第二概率的第三和值；

這里的不同文檔是指語(yǔ)料庫(kù)中的各個(gè)文檔。第二概率可以從“主題-文檔”矩陣中直接讀取。

以圖1c為例，不同文檔中主題1出現(xiàn)的第二概率的第三和值為：C₁₁+C₂₁+C₃₁+…；不同文檔中主題2出現(xiàn)的第二概率的第三和值為：C₁₂+C₂₂+C₃₂+…；不同文檔中主題3出現(xiàn)的第二概率的第三和值為：C₁₃+C₂₃+C₃₃+…；依此類推。

不同文檔中，主題t_i出現(xiàn)的第二概率的第三和值用公式表示為：∑_d∈DP(t_i|d)，其中，d表示文檔，D表示文檔集合。

步驟S52：對(duì)應(yīng)每一個(gè)主題，計(jì)算主題對(duì)應(yīng)的第三和值與主題中第一詞語(yǔ)出現(xiàn)的第一概率的第一乘積，將第一乘積結(jié)果與語(yǔ)料庫(kù)中第一詞語(yǔ)的詞頻做商運(yùn)算，得到在第一詞語(yǔ)出現(xiàn)的條件下，每一個(gè)主題的第三概率；計(jì)算主題對(duì)應(yīng)的第三和值與主題中第二詞語(yǔ)出現(xiàn)的第一概率的第二乘積，將第二乘積結(jié)果與語(yǔ)料庫(kù)中第二詞語(yǔ)的詞頻做商運(yùn)算，得到在第二詞語(yǔ)出現(xiàn)的條件下，每一個(gè)主題的第四概率；

下面以第i個(gè)主題t_i為例進(jìn)行說(shuō)明。對(duì)應(yīng)第i個(gè)主題t_i，計(jì)算主題t_i對(duì)應(yīng)的第三和值與主題t_i中第一詞語(yǔ)(為方便敘述記為w₁)出現(xiàn)的第一概率的第一乘積，將第一乘積結(jié)果與語(yǔ)料庫(kù)中第一詞語(yǔ)的詞頻做商運(yùn)算，得到在第一詞語(yǔ)出現(xiàn)的條件下，主題t_i的概率P(t_i|w₁)，用公式表示為：

其中，∑_d∈DP(t_i|d)表示不同文檔中，主題t_i出現(xiàn)的第二概率的第三和值，d表示文檔，D表示文檔集合，P(w₁|t_i)表示主題t_i中第一詞語(yǔ)w₁出現(xiàn)的概率，P(w₁)表示在整個(gè)語(yǔ)料庫(kù)中第一詞語(yǔ)w₁的詞頻。

同理，對(duì)應(yīng)第i個(gè)主題t_i，計(jì)算主題t_i對(duì)應(yīng)的第三和值與主題t_i中第二詞語(yǔ)(為方便敘述記為w₂)出現(xiàn)的第一概率的第二乘積，將第二乘積結(jié)果與語(yǔ)料庫(kù)中第二詞語(yǔ)的詞頻做商運(yùn)算，得到在第二詞語(yǔ)出現(xiàn)的條件下，主題t_i的概率P(w₂|t_i)，用公式表示為：

其中，∑_d∈DP(t_i|d)表示不同文檔中，主題t_i出現(xiàn)的第二概率的第三和值，d表示文檔，D表示文檔集合，P(w₂|t_i)表示主題t_i中第二詞語(yǔ)w₂出現(xiàn)的概率，P(w₂)表示在整個(gè)語(yǔ)料庫(kù)中第二詞語(yǔ)w₂的詞頻。

上述第一詞語(yǔ)和第二詞語(yǔ)為語(yǔ)料庫(kù)中的任意兩個(gè)詞語(yǔ)。

同理，對(duì)應(yīng)其它任意一個(gè)主題，在第一詞語(yǔ)出現(xiàn)的情況下，該主題的概率的計(jì)算方式可以參照前述計(jì)算過(guò)程，這里不在一一詳述。

步驟S53：獲取與第一詞語(yǔ)對(duì)應(yīng)的第三向量，以及與第二詞語(yǔ)對(duì)應(yīng)的第四向量；其中，第三向量中的元素為在第一詞語(yǔ)出現(xiàn)的條件下，各個(gè)主題的第三概率；第四向量中的元素為在第二詞語(yǔ)出現(xiàn)的條件下，各個(gè)主題的第四概率；

第一詞語(yǔ)對(duì)應(yīng)的第三向量為(P(t₁|w₁)，P(t₂|w₁)，P(t₃|w₁)，…)，第二詞語(yǔ)對(duì)應(yīng)的第四向量為(P(t₁|w₂)，P(t₂|w₂)，P(t₃|w₂)，…)。

步驟S54：基于第三向量和第四向量計(jì)算第一詞語(yǔ)和第二詞語(yǔ)間的第二相似度。

可以計(jì)算第三向量和第四向量之間的KL散度，通過(guò)KL散度來(lái)衡量第一詞語(yǔ)和第二詞語(yǔ)間的相似度。KL散度越小，表征第一詞語(yǔ)和第二詞語(yǔ)間越相似，即相似度越大。KL散度越大，表征第一詞語(yǔ)和第二詞語(yǔ)間越不相似，即相似度越小。

也可以計(jì)算第一詞語(yǔ)和第二詞語(yǔ)的余弦相似度，即，計(jì)算第三向量和第四向量的夾角余弦值，通過(guò)夾角余弦值來(lái)衡量第一詞語(yǔ)和第二詞語(yǔ)的相似度。夾角余弦值越小，表征第一詞語(yǔ)和第二詞語(yǔ)間越相似，即相似度越大。夾角余弦值越大，表征第一詞語(yǔ)和第二詞語(yǔ)間越不相似，即相似度越小。

還可以計(jì)算第三向量和第四向量的歐式距離，通過(guò)歐式距離來(lái)衡量第一詞語(yǔ)和第二詞語(yǔ)間的相似度。歐式距離越小，表征第一詞語(yǔ)和第二詞語(yǔ)間越相似，即相似度越大。歐式距離越大，表征第一詞語(yǔ)和第二詞語(yǔ)間越不相似，即相似度越小。

當(dāng)然，本發(fā)明實(shí)施例中，并不限于以上幾種方式計(jì)算第一詞語(yǔ)和第二詞語(yǔ)間的第二相似度，還可以通過(guò)其它方式計(jì)算第一詞語(yǔ)和第二詞語(yǔ)間的第二相似度，例如，計(jì)算第三向量和第四向量的皮爾森系數(shù)，通過(guò)皮爾森系數(shù)來(lái)衡量第一詞語(yǔ)和第二詞語(yǔ)間的第二相似度。

下面通過(guò)具體的測(cè)試實(shí)例說(shuō)明本發(fā)明實(shí)施例的有效性。

本測(cè)試實(shí)例中，計(jì)算了相同語(yǔ)料條件下，主題數(shù)被設(shè)定為5，25，35，40，45，47，50，100的主題模型結(jié)果。然后通過(guò)本發(fā)明實(shí)施例提供的最優(yōu)主題數(shù)計(jì)算方法計(jì)算最優(yōu)主題數(shù)，并通過(guò)基于信息熵的困惑度來(lái)計(jì)算最優(yōu)主題數(shù)。

如圖6所示，為基于本發(fā)明實(shí)施例中公式(1)相關(guān)實(shí)施例提供的，最優(yōu)主題數(shù)計(jì)算方法計(jì)算過(guò)程中平衡相似度的一種變化趨勢(shì)圖，其中，相似度的計(jì)算采用了余弦相似度計(jì)算方法。圖6中，橫軸表示主題數(shù)，縱軸表示平衡相似度。

如圖7所示，為基于本發(fā)明實(shí)施例中公式(1)相關(guān)實(shí)施例提供的，最優(yōu)主題數(shù)計(jì)算方法計(jì)算過(guò)程中平衡相似度的另一種變化趨勢(shì)圖，其中，相似度的計(jì)算采用了KL散度計(jì)算方法。圖7中，橫軸表示主題數(shù)，縱軸表示平衡相似度。

基于本發(fā)明實(shí)施例中的公式(2)，結(jié)合圖6和圖7所示的平衡相似度的變化趨勢(shì)，可以看出，不管是圖6所示示例，還是圖7所示示例，最優(yōu)主題數(shù)均為40。

困惑度是LDA(Latent Dirichlet Allocation，隱含狄利克雷分布)的作者Blei在LDA原論文中通過(guò)利用主題模型去擬合原文本時(shí)的信息熵來(lái)評(píng)價(jià)主題模型整體質(zhì)量的方法。該方法將困惑度最小時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。困惑度計(jì)算公式如下所示：

其中，perlexity表示困惑度，z表示主題，d表示文檔，D表示文檔集合，即語(yǔ)料庫(kù)，w表示詞語(yǔ)，|d|表示文檔d中詞語(yǔ)的個(gè)數(shù)，∑_d∈D|d|表示語(yǔ)料庫(kù)中詞語(yǔ)的個(gè)數(shù)。

如圖8所示，為利用基于信息熵的困惑度來(lái)評(píng)價(jià)主題模型整體質(zhì)量的時(shí)，困惑度的變化趨勢(shì)圖。圖8中，橫軸表示主題數(shù)，縱軸表示困惑度。

從圖8可以看出，當(dāng)主題數(shù)為40時(shí)，困惑度最小。即最優(yōu)主題數(shù)也為40。

將圖6或圖7與圖8進(jìn)行比較可知，本發(fā)明實(shí)施例提供的最優(yōu)主題數(shù)計(jì)算方法是有效的。而且，圖6和圖7所示示例中，所使用的相似度計(jì)算方法為計(jì)算向量相似度比較通用的方法，因此，可以看出，本發(fā)明實(shí)施例中，相似度計(jì)算方法并不影響最優(yōu)主題數(shù)的計(jì)算結(jié)果，本發(fā)明實(shí)施例提供的最優(yōu)主題數(shù)計(jì)算方法可以采用任何相似度算法來(lái)進(jìn)行最優(yōu)主題數(shù)的計(jì)算，適用范圍較廣。

與方法實(shí)施例相對(duì)應(yīng)，本發(fā)明實(shí)施例還提供一種最優(yōu)主題數(shù)計(jì)算裝置。本發(fā)明實(shí)施例提供的最優(yōu)主題數(shù)計(jì)算裝置的一種結(jié)構(gòu)示意圖如圖9所示，可以包括：

第一獲取模塊91，第二獲取模塊92，第一計(jì)算模塊93，第二計(jì)算模塊94和確定模塊95；其中，

第一獲取模塊91用于獲取主題模型中使用的若干個(gè)主題數(shù)；

第二獲取模塊92用于對(duì)應(yīng)每一個(gè)主題數(shù)，獲取主題數(shù)對(duì)應(yīng)的，每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的第一概率，以及每個(gè)文檔中每個(gè)主題出現(xiàn)的第二概率；

第一計(jì)算模塊93用于基于第一概率和第二概率，計(jì)算兩兩主題間的第一相似度，以及兩兩詞語(yǔ)間的第二相似度；

第二計(jì)算模塊94用于基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù)，計(jì)算主題數(shù)對(duì)應(yīng)的平衡相似度，平衡相似度的大小用于衡量主題數(shù)的優(yōu)劣；

確定模塊94用于將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。

本發(fā)明實(shí)施例提供的最優(yōu)主題是計(jì)算裝置，基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù)，計(jì)算主題數(shù)對(duì)應(yīng)的用于衡量主題數(shù)的優(yōu)劣的平衡相似度；將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。從而可以基于如下原則獲取最優(yōu)主題數(shù)：主題數(shù)盡可能多，以保證最大程度的語(yǔ)義覆蓋，但是卻不能過(guò)多；各個(gè)主題盡可能表達(dá)獨(dú)立含義，盡量不存在語(yǔ)義交叉；相同含義的詞語(yǔ)越少越好，以保證用最少的詞語(yǔ)來(lái)表示盡可能多的語(yǔ)義。

在一可選的實(shí)施例中，第二計(jì)算模塊94的一種結(jié)構(gòu)示意圖如圖10所示，可以包括：

第一計(jì)算單元101和第二計(jì)算單元102；其中，

第一計(jì)算單元101用于計(jì)算主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度的第一和值，以及主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度的第二和值；

第二計(jì)算單元102用于將第一和值和第二和值的乘積與主題數(shù)的平方值做商運(yùn)算，得到主題數(shù)對(duì)應(yīng)的平衡相似度。

在一可選的實(shí)施例中，確定模塊95具體用于，將平衡相似度最小時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。

在一可選的實(shí)施例中，第一計(jì)算模塊93用于基于第一概率計(jì)算兩兩主題間的第一相似度，第一計(jì)算模塊93的一種結(jié)構(gòu)示意圖如圖11所示，可以包括：

第一獲取單元111和第三計(jì)算單元112；其中，

第一獲取單元111用于獲取與第一主題對(duì)應(yīng)的第一向量，以及與第二主題對(duì)應(yīng)的第二向量；第一向量中的元素為第一主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率，第二向量中的元素為第二主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率；

第三計(jì)算單元112用于基于第一向量和第二向量計(jì)算第一主題和第二主題間的第一相似度。

在另一可選的實(shí)施例中，第一計(jì)算模塊93用于基于第一概率和第二概率計(jì)算兩兩詞語(yǔ)間的第二相似度，第一計(jì)算模塊93的另一種結(jié)構(gòu)示意圖如圖12所示，可以包括：

第四計(jì)算單元121，第五計(jì)算單元122，第二獲取單元123和第六計(jì)算單元124；其中，

第四計(jì)算單元121用于計(jì)算不同文檔中同一主題出現(xiàn)的第二概率的第三和值；

第五計(jì)算單元122用于對(duì)應(yīng)每一個(gè)主題，計(jì)算主題對(duì)應(yīng)的第三和值與主題中第一詞語(yǔ)出現(xiàn)的第一概率的第一乘積，將第一乘積結(jié)果與語(yǔ)料庫(kù)中第一詞語(yǔ)的詞頻做商運(yùn)算，得到在第一詞語(yǔ)出現(xiàn)的條件下，每一個(gè)主題的第三概率；計(jì)算主題對(duì)應(yīng)的第三和值與主題中第二詞語(yǔ)出現(xiàn)的第一概率的第二乘積，將第二乘積結(jié)果與語(yǔ)料庫(kù)中第二詞語(yǔ)的詞頻做商運(yùn)算，得到在第二詞語(yǔ)出現(xiàn)的條件下，每一個(gè)主題的第四概率；

第二獲取單元123用于獲取與第一詞語(yǔ)對(duì)應(yīng)的第三向量，以及與第二詞語(yǔ)對(duì)應(yīng)的第四向量；第三向量中的元素為在第一詞語(yǔ)出現(xiàn)的條件下，各個(gè)主題的第三概率；第四向量中的元素為在第二詞語(yǔ)出現(xiàn)的條件下，各個(gè)主題的第四概率；

第六計(jì)算單元124用于基于第三向量和第四向量計(jì)算第一詞語(yǔ)和第二詞語(yǔ)間的第二相似度。

本領(lǐng)域普通技術(shù)人員可以意識(shí)到，結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟，能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來(lái)實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行，取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能，但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。

所屬領(lǐng)域的技術(shù)人員可以清楚地了解到，為描述的方便和簡(jiǎn)潔，上述描述的系統(tǒng)(若存在)、裝置和單元的具體工作過(guò)程，可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程，在此不再贅述。

在本申請(qǐng)所提供的幾個(gè)實(shí)施例中，應(yīng)該理解到，所揭露的系統(tǒng)、裝置和方法，可以通過(guò)其它的方式實(shí)現(xiàn)。例如，以上所描述的裝置實(shí)施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式，例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng)，或一些特征可以忽略，或不執(zhí)行。另一點(diǎn)，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口，裝置或單元的間接耦合或通信連接，可以是電性，機(jī)械或其它的形式。

所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個(gè)地方，或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。

另外，在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中，也可以是各個(gè)單元單獨(dú)物理存在，也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。

所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí)，可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?；谶@樣的理解，本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái)，該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中，包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)，服務(wù)器，或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括：U盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(ROM，Read-Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM，Random Access Memory)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。

對(duì)所公開(kāi)的實(shí)施例的上述說(shuō)明，使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的，本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下，在其它實(shí)施例中實(shí)現(xiàn)。因此，本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例，而是要符合與本文所公開(kāi)的原理和新穎特點(diǎn)相一致的最寬的范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙耕弘;張霞;趙立軍;崔朝輝
技術(shù)所有人：東軟集團(tuán)股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

最優(yōu)化計(jì)算方法相關(guān)技術(shù)

非線性最優(yōu)化計(jì)算方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

最優(yōu)主題數(shù)計(jì)算方法及裝置與流程