本發(fā)明涉及機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域,更具體地說(shuō),涉及一種最優(yōu)主題數(shù)計(jì)算方法及裝置。
背景技術(shù):
在自然語(yǔ)言處理過(guò)程中,文檔對(duì)于計(jì)算機(jī)通常被當(dāng)作是一個(gè)無(wú)限維度的向量。而這種無(wú)限維度的向量對(duì)于計(jì)算機(jī)本身又是不可被計(jì)算的,這時(shí)就需要對(duì)文本進(jìn)行降維處理,讓它以一定維度的數(shù)學(xué)向量?jī)?chǔ)存在計(jì)算機(jī)中以便計(jì)算。主題模型(Topic Model)就是一種常見(jiàn)的文檔降維方法。主題模型的實(shí)質(zhì)是對(duì)文檔中隱含主題的一種建模方法。具體的,主題模型就是通過(guò)已知的“詞語(yǔ)-文檔”矩陣進(jìn)行訓(xùn)練,得到“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣的過(guò)程。其中,“詞語(yǔ)-文檔”矩陣表示每個(gè)文檔中每個(gè)詞語(yǔ)的詞頻(即出現(xiàn)的概率);“詞語(yǔ)-主題”矩陣表示每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的概率;“主題-文檔”矩陣表示每個(gè)文檔中每個(gè)主題出現(xiàn)的概率。
上述訓(xùn)練過(guò)程,需要先獲取若干個(gè)主題數(shù),然后基于每一個(gè)主題數(shù),通過(guò)“詞語(yǔ)-文檔”矩陣進(jìn)行訓(xùn)練,得到每一個(gè)主題數(shù)對(duì)應(yīng)的“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣,然后從上述若干個(gè)主題中選擇一個(gè)最優(yōu)的主題數(shù),將該最優(yōu)主題數(shù)對(duì)應(yīng)的“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣作為最優(yōu)結(jié)果輸出。
顯然,主題數(shù)是主題模型的一個(gè)重要參數(shù)。如果最優(yōu)主題數(shù)選擇不當(dāng)(主題數(shù)過(guò)少或過(guò)多)會(huì)導(dǎo)致主題模型的輸出結(jié)果的質(zhì)量較差。因此,如何選擇最優(yōu)主題數(shù)成為亟待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種最優(yōu)主題數(shù)計(jì)算方法及裝置,以提高主題模型的輸出結(jié)果的質(zhì)量。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:
一種最優(yōu)主題數(shù)計(jì)算方法,包括:
獲取主題模型中使用的若干個(gè)主題數(shù);
對(duì)應(yīng)每一個(gè)所述主題數(shù),獲取所述主題數(shù)對(duì)應(yīng)的,每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的第一概率,以及每個(gè)文檔中每個(gè)主題出現(xiàn)的第二概率;
基于所述第一概率和所述第二概率,計(jì)算兩兩主題間的第一相似度,以及兩兩詞語(yǔ)間的第二相似度;
基于所述主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、所述主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及所述主題數(shù),計(jì)算所述主題數(shù)對(duì)應(yīng)的平衡相似度,所述平衡相似度的大小用于衡量主題數(shù)的優(yōu)劣;
將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。
通過(guò)上述過(guò)程可知,本發(fā)明實(shí)施例中,基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù),計(jì)算主題數(shù)對(duì)應(yīng)的用于衡量主題數(shù)的優(yōu)劣的平衡相似度;將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。從而可以基于如下原則獲取最優(yōu)主題數(shù):主題數(shù)盡可能多,以保證最大程度的語(yǔ)義覆蓋,但是卻不能過(guò)多;各個(gè)主題盡可能表達(dá)獨(dú)立含義,盡量不存在語(yǔ)義交叉;相同含義的詞語(yǔ)越少越好,以保證用最少的詞語(yǔ)來(lái)表示盡可能多的語(yǔ)義。
上述方法,優(yōu)選的,所述基于所述主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、所述主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及所述主題數(shù),計(jì)算所述主題數(shù)對(duì)應(yīng)的平衡相似度,包括:
計(jì)算所述主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度的第一和值,以及所述主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度的第二和值;
將所述第一和值和所述第二和值的乘積與所述主題數(shù)的平方值做商運(yùn)算,得到所述主題數(shù)對(duì)應(yīng)的平衡相似度。
上述方法,優(yōu)選的,所述將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù),包括:
將平衡相似度最小時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。
上述過(guò)程中,通過(guò)分母主題數(shù)的平方來(lái)確保主題數(shù)不會(huì)過(guò)大;通過(guò)對(duì)兩兩主題間的相似度求和,并且通過(guò)平衡相似度最小來(lái)使得主題數(shù)范圍內(nèi)的主題間語(yǔ)義疊加最小;通過(guò)對(duì)兩兩詞語(yǔ)間的相似度求和,并且通過(guò)平衡相似度最小來(lái)使得當(dāng)前主題數(shù)范圍內(nèi)的主題中所有詞語(yǔ)語(yǔ)義疊加最小。
上述方法,優(yōu)選的,基于所述第一概率計(jì)算兩兩主題間的第一相似度,包括:
獲取與第一主題對(duì)應(yīng)的第一向量,以及與第二主題對(duì)應(yīng)的第二向量;所述第一向量中的元素為所述第一主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率,所述第二向量中的元素為所述第二主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率;
基于所述第一向量和所述第二向量計(jì)算所述第一主題和所述第二主題間的第一相似度。
上述方法,優(yōu)選的,基于所述第一概率和所述第二概率計(jì)算兩兩詞語(yǔ)間的第二相似度,包括:
計(jì)算不同文檔中同一主題出現(xiàn)的第二概率的第三和值;
對(duì)應(yīng)每一個(gè)主題,計(jì)算主題對(duì)應(yīng)的所述第三和值與主題中第一詞語(yǔ)出現(xiàn)的第一概率的第一乘積,將第一乘積結(jié)果與語(yǔ)料庫(kù)中所述第一詞語(yǔ)的詞頻做商運(yùn)算,得到在所述第一詞語(yǔ)出現(xiàn)的條件下,每一個(gè)主題的第三概率;計(jì)算主題對(duì)應(yīng)的所述第三和值與主題中第二詞語(yǔ)出現(xiàn)的第一概率的第二乘積,將第二乘積結(jié)果與語(yǔ)料庫(kù)中所述第二詞語(yǔ)的詞頻做商運(yùn)算,得到在所述第二詞語(yǔ)出現(xiàn)的條件下,每一個(gè)主題的第四概率;
獲取與所述第一詞語(yǔ)對(duì)應(yīng)的第三向量,以及與所述第二詞語(yǔ)對(duì)應(yīng)的第四向量;所述第三向量中的元素為在所述第一詞語(yǔ)出現(xiàn)的條件下,各個(gè)主題的第三概率;所述第四向量中的元素為在所述第二詞語(yǔ)出現(xiàn)的條件下,各個(gè)主題的第四概率;
基于所述第三向量和所述第四向量計(jì)算所述第一詞語(yǔ)和所述第二詞語(yǔ)間的第二相似度。
一種最優(yōu)主題數(shù)計(jì)算裝置,包括:
第一獲取模塊,用于獲取主題模型中使用的若干個(gè)主題數(shù);
第二獲取模塊,用于對(duì)應(yīng)每一個(gè)所述主題數(shù),獲取所述主題數(shù)對(duì)應(yīng)的,每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的第一概率,以及每個(gè)文檔中每個(gè)主題出現(xiàn)的第二概率;
第一計(jì)算模塊,用于基于所述第一概率和所述第二概率,計(jì)算兩兩主題間的第一相似度,以及兩兩詞語(yǔ)間的第二相似度;
第二計(jì)算模塊,用于基于所述主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、所述主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及所述主題數(shù),計(jì)算所述主題數(shù)對(duì)應(yīng)的平衡相似度,所述平衡相似度的大小用于衡量主題數(shù)的優(yōu)劣;
確定模塊,用于將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。
本發(fā)明實(shí)施例提供的最優(yōu)主題數(shù)計(jì)算裝置,基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù),計(jì)算主題數(shù)對(duì)應(yīng)的用于衡量主題數(shù)的優(yōu)劣的平衡相似度;將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。從而可以基于如下原則獲取最優(yōu)主題數(shù):主題數(shù)盡可能多,以保證最大程度的語(yǔ)義覆蓋,但是卻不能過(guò)多;各個(gè)主題盡可能表達(dá)獨(dú)立含義,盡量不存在語(yǔ)義交叉;相同含義的詞語(yǔ)越少越好,以保證用最少的詞語(yǔ)來(lái)表示盡可能多的語(yǔ)義。
上述裝置,優(yōu)選的,所述第二計(jì)算模塊包括:
第一計(jì)算單元,用于計(jì)算所述主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度的第一和值,以及所述主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度的第二和值;
第二計(jì)算單元,用于將所述第一和值和所述第二和值的乘積與所述主題數(shù)的平方值做商運(yùn)算,得到所述主題數(shù)對(duì)應(yīng)的平衡相似度。
上述裝置,優(yōu)選的,所述確定模塊用于,將平衡相似度最小時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。
上述最優(yōu)主題數(shù)計(jì)算裝置,通過(guò)分母主題數(shù)的平方來(lái)確保主題數(shù)不會(huì)過(guò)大;通過(guò)對(duì)兩兩主題間的相似度求和,并且通過(guò)平衡相似度最小來(lái)使得主題數(shù)范圍內(nèi)的主題間語(yǔ)義疊加最小;通過(guò)對(duì)兩兩詞語(yǔ)間的相似度求和,并且通過(guò)平衡相似度最小來(lái)使得當(dāng)前主題數(shù)范圍內(nèi)的主題中所有詞語(yǔ)語(yǔ)義疊加最小。
上述裝置,優(yōu)選的,所述第一計(jì)算模塊用于基于所述第一概率計(jì)算兩兩主題間的第一相似度,包括:
第一獲取單元,用于獲取與第一主題對(duì)應(yīng)的第一向量,以及與第二主題對(duì)應(yīng)的第二向量;所述第一向量中的元素為所述第一主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率,所述第二向量中的元素為所述第二主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率;
第三計(jì)算單元,用于基于所述第一向量和所述第二向量計(jì)算所述第一主題和所述第二主題間的第一相似度。
上述裝置,優(yōu)選的,所述第一計(jì)算模塊用于基于所述第一概率和所述第二概率計(jì)算兩兩詞語(yǔ)間的第二相似度,包括:
第四計(jì)算單元,用于計(jì)算不同文檔中同一主題出現(xiàn)的第二概率的第三和值;
第五計(jì)算單元,用于對(duì)應(yīng)每一個(gè)主題,計(jì)算主題對(duì)應(yīng)的所述第三和值與主題中第一詞語(yǔ)出現(xiàn)的第一概率的第一乘積,將第一乘積結(jié)果與語(yǔ)料庫(kù)中所述第一詞語(yǔ)的詞頻做商運(yùn)算,得到在所述第一詞語(yǔ)出現(xiàn)的條件下,每一個(gè)主題的第三概率;計(jì)算主題對(duì)應(yīng)的所述第三和值與主題中第二詞語(yǔ)出現(xiàn)的第一概率的第二乘積,將第二乘積結(jié)果與語(yǔ)料庫(kù)中所述第二詞語(yǔ)的詞頻做商運(yùn)算,得到在所述第二詞語(yǔ)出現(xiàn)的條件下,每一個(gè)主題的第四概率;
第二獲取單元,用于獲取與所述第一詞語(yǔ)對(duì)應(yīng)的第三向量,以及與所述第二詞語(yǔ)對(duì)應(yīng)的第四向量;所述第三向量中的元素為在所述第一詞語(yǔ)出現(xiàn)的條件下,各個(gè)主題的第三概率;所述第四向量中的元素為在所述第二詞語(yǔ)出現(xiàn)的條件下,各個(gè)主題的第四概率;
第六計(jì)算單元,用于基于所述第三向量和所述第四向量計(jì)算所述第一詞語(yǔ)和所述第二詞語(yǔ)間的第二相似度。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1a為“詞語(yǔ)-文檔”矩陣的一種示例;
圖1b為“詞語(yǔ)-主題”矩陣的一種示例圖;
圖1c為“主題-文檔”矩陣的一種示例圖;
圖2為本發(fā)明實(shí)施提供的最優(yōu)主題數(shù)計(jì)算方法的一種實(shí)現(xiàn)流程圖;
圖3為本發(fā)明實(shí)施提供的基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù),計(jì)算主題數(shù)對(duì)應(yīng)的平衡相似度的一種實(shí)現(xiàn)流程圖;
圖4為本發(fā)明實(shí)施提供的計(jì)算兩兩主題間的第一相似度的一種實(shí)現(xiàn)流程圖;
圖5為本發(fā)明實(shí)施提供的計(jì)算兩兩詞語(yǔ)間的第二相似度的一種實(shí)現(xiàn)流程圖;
圖6為基于本發(fā)明實(shí)施例中公式(1)相關(guān)實(shí)施例提供的,最優(yōu)主題數(shù)計(jì)算方法計(jì)算過(guò)程中平衡相似度的一種變化趨勢(shì)圖;
圖7為基于本發(fā)明實(shí)施例中公式(1)相關(guān)實(shí)施例提供的,最優(yōu)主題數(shù)計(jì)算方法計(jì)算過(guò)程中平衡相似度的另一種變化趨勢(shì)圖;
圖8為利用基于信息熵的困惑度來(lái)評(píng)價(jià)主題模型整體質(zhì)量的時(shí),困惑度的變化趨勢(shì)圖;
圖9為本發(fā)明實(shí)施提供的最優(yōu)主題數(shù)計(jì)算裝置的一種結(jié)構(gòu)示意圖;
圖10為本發(fā)明實(shí)施提供的第二計(jì)算模塊的一種結(jié)構(gòu)示意圖;
圖11為本發(fā)明實(shí)施提供的第一計(jì)算模塊的一種結(jié)構(gòu)示意圖;
圖12為本發(fā)明實(shí)施提供的第一計(jì)算模塊的另一種結(jié)構(gòu)示意圖。
說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)“第一”、“第二”、“第三”“第四”等(如果存在)是用于區(qū)別類似的部分,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本申請(qǐng)的實(shí)施例能夠以除了在這里圖示的以外的順序?qū)嵤?/p>
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有付出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
為了更好的理解本發(fā)明實(shí)施例,首先對(duì)主題模型的訓(xùn)練過(guò)程進(jìn)行說(shuō)明。
在訓(xùn)練開(kāi)始之前,需要技術(shù)人員根據(jù)先驗(yàn)知識(shí)確定若干個(gè)主題數(shù),主題數(shù)即為主題的個(gè)數(shù)。為方便敘述,這里將第r個(gè)主題數(shù)記為Nr(r=1,2,3,4,……,n),n表示主題數(shù)的個(gè)數(shù)。
在啟動(dòng)訓(xùn)練過(guò)程后,首先,對(duì)于語(yǔ)料庫(kù)中的一系列文檔,通過(guò)對(duì)文檔進(jìn)行分詞,計(jì)算各個(gè)文檔中每個(gè)詞語(yǔ)的詞頻就可以得到“詞語(yǔ)-文檔”矩陣。
“詞語(yǔ)-文檔”矩陣的一種示例如圖1a所示。“詞語(yǔ)-文檔”矩陣表示每個(gè)文檔中每個(gè)詞語(yǔ)的詞頻(即出現(xiàn)的概率),也就是說(shuō),若“詞語(yǔ)-文檔”矩陣中某個(gè)元素對(duì)應(yīng)的文檔為d,對(duì)應(yīng)的詞語(yǔ)為w,則該元素的取值為P(w|d)。
主題模型的訓(xùn)練過(guò)程,就是對(duì)應(yīng)每一個(gè)主題數(shù),通過(guò)圖1a所示的“詞語(yǔ)-文檔”矩陣得到“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣,然后,根據(jù)一定的規(guī)則找到最優(yōu)主題數(shù),輸出與最優(yōu)主題數(shù)對(duì)應(yīng)的“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣的過(guò)程。
其中,“詞語(yǔ)-主題”矩陣的一種示例圖如圖1b所示,“詞語(yǔ)-主題”矩陣表示每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的概率,也就是說(shuō),若“詞語(yǔ)-主題”矩陣中某個(gè)元素對(duì)應(yīng)的主題為t,對(duì)應(yīng)的詞語(yǔ)為w,則該元素的取值為P(w|t)?!爸黝}-文檔”矩陣的一種示例圖如圖1c所示,“主題-文檔”矩陣表示每個(gè)文檔中每個(gè)主題出現(xiàn)的概率,也就是說(shuō),若“主題-文檔”矩陣中某個(gè)元素對(duì)應(yīng)的主題為t,對(duì)應(yīng)的文檔為d,則該元素的取值為P(t|d)。
1a-1c三個(gè)矩陣滿足如下關(guān)系:“詞語(yǔ)-文檔”矩陣等于“主題-文檔”矩陣與“詞語(yǔ)-主題”矩陣的乘積。
本發(fā)明實(shí)施例就是提供一種確定最優(yōu)主題數(shù)的方法及裝置。
請(qǐng)參閱圖2,圖2為本發(fā)明實(shí)施提供的最優(yōu)主題數(shù)計(jì)算方法的一種實(shí)現(xiàn)流程圖,可以包括:
步驟S21:獲取主題模型中使用的若干個(gè)主題數(shù)。
主題模型使用的若干各主題數(shù)即為主題模型訓(xùn)練開(kāi)始之前,由技術(shù)人員根據(jù)先驗(yàn)知識(shí)確定的若干個(gè)主題數(shù)。
例如,確定了8個(gè)主題數(shù),分別為4,20,25,35,37,65,88。若主題數(shù)為4,則“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣中的主題數(shù)均為4,即,“詞語(yǔ)-主題”矩陣的行數(shù)為4,“主題-文檔”矩陣的列數(shù)為4。同理,若主題數(shù)為25,則“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣中的主題數(shù)均為25,即,“詞語(yǔ)-主題”矩陣的行數(shù)為25,“主題-文檔”矩陣的列數(shù)為25。
步驟S22:對(duì)應(yīng)每一個(gè)主題數(shù),獲取該主題數(shù)對(duì)應(yīng)的,每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的第一概率,以及每個(gè)文檔中每個(gè)主題出現(xiàn)的第二概率。
主題數(shù)確認(rèn)后,相對(duì)應(yīng)的“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣就確定了,而“詞語(yǔ)-主題”矩陣表示每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的概率,“主題-文檔”矩陣表示每個(gè)文檔中每個(gè)主題出現(xiàn)的概率,因此,對(duì)應(yīng)每一個(gè)主題數(shù),該主題數(shù)對(duì)應(yīng)的每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的第一概率,以及每個(gè)文檔中每個(gè)主題出現(xiàn)的第二概率是已知的??梢灾苯訌摹霸~語(yǔ)-主題”矩陣和“主題-文檔”矩陣中讀取每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的第一概率,以及每個(gè)文檔中每個(gè)主題出現(xiàn)的第二概率。
步驟S23:基于第一概率和第二概率,計(jì)算兩兩主題間的第一相似度,以及兩兩詞語(yǔ)間的第二相似度。
在一可選的實(shí)施例中,兩兩主題間的第一相似度可以通過(guò)詞語(yǔ)的語(yǔ)義分布來(lái)計(jì)算。對(duì)于一個(gè)主題來(lái)說(shuō),詞語(yǔ)的語(yǔ)義分布即為:不同的詞語(yǔ)在該主題中出現(xiàn)的概率。
兩兩詞語(yǔ)間的第二相似度可以通過(guò)主題的語(yǔ)義分布來(lái)計(jì)算。對(duì)于一個(gè)詞語(yǔ)來(lái)說(shuō),主題的語(yǔ)義分布即為:在該詞語(yǔ)出現(xiàn)的情況下,各個(gè)主題的概率。例如,“蘋(píng)果”出現(xiàn)的時(shí)候,會(huì)有一定的概率來(lái)表示水果,也有一定的概率表示為電子產(chǎn)品。那么,蘋(píng)果這個(gè)詞的語(yǔ)義分布即為,在蘋(píng)果這個(gè)詞出現(xiàn)的情況下,主題“水果”的概率,以及主題“電子產(chǎn)品”的概率。其中,主題的語(yǔ)義分布可以基于“詞語(yǔ)-主題”矩陣和“主題-文檔”矩陣計(jì)算得到。
為便于區(qū)分,可以將通過(guò)詞語(yǔ)的語(yǔ)義分布計(jì)算兩兩主題間的相似度記為正向相似度;將通過(guò)主題的語(yǔ)義分布計(jì)算兩兩詞語(yǔ)間的相似度記為反向相似度。
步驟S24:基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù),計(jì)算主題數(shù)對(duì)應(yīng)的平衡相似度,平衡相似度的大小用于衡量主題數(shù)的優(yōu)劣。
對(duì)應(yīng)每一個(gè)主題數(shù),基于該主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、該主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及該主題數(shù),計(jì)算該主題數(shù)對(duì)應(yīng)的平衡相似度。也就是說(shuō),每一個(gè)主題數(shù)對(duì)應(yīng)一個(gè)平衡相似度。
步驟S25:將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。
本發(fā)明實(shí)施例提供的計(jì)算最優(yōu)主題數(shù)的方法,基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù),計(jì)算主題數(shù)對(duì)應(yīng)的用于衡量主題數(shù)的優(yōu)劣的平衡相似度;將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。從而可以基于如下原則獲取最優(yōu)主題數(shù):主題數(shù)盡可能多,以保證最大程度的語(yǔ)義覆蓋,但是卻不能過(guò)多;各個(gè)主題盡可能表達(dá)獨(dú)立含義,盡量不存在語(yǔ)義交叉;相同含義的詞語(yǔ)越少越好,以保證用最少的詞語(yǔ)來(lái)表示盡可能多的語(yǔ)義。
在一可選的實(shí)施例中,基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù),計(jì)算主題數(shù)對(duì)應(yīng)的平衡相似度的一種實(shí)現(xiàn)流程圖如圖3所示,可以包括:
步驟S31:計(jì)算主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度的第一和值,以及主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度的第二和值;
假設(shè)主題個(gè)數(shù)為m,則共有m(m-1)/2個(gè)兩兩主題間的第一相似度,因此,兩兩主題間的第一相似度的第一和值是指上述m(m-1)/2個(gè)第一相似度的和值;同理,若“詞語(yǔ)-文檔”矩陣中,詞語(yǔ)數(shù)為q,則共有q(q-1)/2個(gè)兩兩詞語(yǔ)間的第二相似度,因此,兩兩詞語(yǔ)間的第二相似度的第二和值是指上述q(q-1)/2個(gè)第二相似度的和值。
步驟S32:將第一和值和第二和值的乘積與主題數(shù)的平方值做商運(yùn)算,得主題數(shù)對(duì)應(yīng)的平衡相似度。
若用K表示主題數(shù),主題數(shù)K對(duì)應(yīng)的平衡相似度為BlanceSimilarity(K),則平衡相似度的計(jì)算公式為:
其中,W表示所有詞語(yǔ)的集合,T表示與主題數(shù)K對(duì)應(yīng)的所有主題的集合;similarity(wi,wj)表示詞語(yǔ)wi和詞語(yǔ)wj的相似度;similarity(ti,tj)表示主題ti和主題tj的相似度。
基于上述平衡相似度的計(jì)算方法,可以將平衡相似度最小時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。若用K0表示最優(yōu)主題數(shù),則K0可以用公式表示為:
其中,argmin是一個(gè)數(shù)學(xué)符號(hào),表示函數(shù)BlanceSimilarity(K)取值最小時(shí)的自變量K的取值。
本發(fā)明實(shí)施例中,通過(guò)分母K2來(lái)確保主題數(shù)不會(huì)過(guò)大,為了讓主題數(shù)盡可能的多,在實(shí)際使用中可以按照主題數(shù)K從小到大的順序進(jìn)行訓(xùn)練;為了讓各個(gè)主題盡可能表達(dá)獨(dú)立含義,不存在語(yǔ)義交叉,通過(guò)對(duì)兩兩主題間的相似度求和,并且通過(guò)平衡相似度最小來(lái)使得主題數(shù)范圍內(nèi)的主題間語(yǔ)義疊加最??;為了保證相同含義的詞語(yǔ)盡可能少(包括:相同詞語(yǔ)盡可能不在多個(gè)主題中存在,并且相同含義的詞語(yǔ)盡可能少),通過(guò)對(duì)兩兩詞語(yǔ)間的相似度求和,并且通過(guò)平衡相似度最小來(lái)使得當(dāng)前主題數(shù)范圍內(nèi)的主題中所有詞語(yǔ)語(yǔ)義疊加最小。
另外,本發(fā)明實(shí)施例提供的計(jì)算最優(yōu)主題數(shù)的方法計(jì)算簡(jiǎn)單,且計(jì)算量小,節(jié)省計(jì)算資源。
在另一可選的實(shí)施例中,在計(jì)算主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度的第一和值,以及主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度的第二和值之后,可以計(jì)算第一和值和第二和值的乘積,然后將主題數(shù)的平方值與乘積結(jié)果做商運(yùn)算,得到主題數(shù)對(duì)應(yīng)的平衡相似度。此時(shí),可以將平衡相似度最大時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。本實(shí)施例中,最優(yōu)主題數(shù)的計(jì)算公式為:
其中,argmax是一個(gè)數(shù)學(xué)符號(hào),表示函數(shù)BlanceSimilarity(K)取值最大時(shí)的自變量K的取值。
與圖3所示實(shí)施例不同,本發(fā)明實(shí)施例中,通過(guò)分子K2來(lái)確保主題數(shù)不會(huì)過(guò)大,為了讓主題數(shù)盡可能的多,在實(shí)際使用中可以按照主題數(shù)K從小到大的順序進(jìn)行訓(xùn)練;為了讓各個(gè)主題盡可能表達(dá)獨(dú)立含義,不存在語(yǔ)義交叉,通過(guò)對(duì)兩兩主題間的相似度求和,并且通過(guò)平衡相似度最大來(lái)使得主題數(shù)范圍內(nèi)的主題間語(yǔ)義疊加最??;為了保證相同含義的詞語(yǔ)盡可能少(包括:相同詞語(yǔ)盡可能不在多個(gè)主題中存在,并且相同含義的詞語(yǔ)盡可能少),通過(guò)對(duì)兩兩詞語(yǔ)間的相似度求和,并且通過(guò)平衡相似度最大來(lái)使得當(dāng)前主題數(shù)范圍內(nèi)的主題中所有詞語(yǔ)語(yǔ)義疊加最小。
在一可選的實(shí)施例中,可以基于第一概率計(jì)算兩兩主題間的第一相似度。對(duì)于任意兩個(gè)主題,分別為第一主題和第二主題,計(jì)算這兩個(gè)主題間的第一相似度的一種實(shí)現(xiàn)流程圖如圖4所示,可以包括:
步驟S41:獲取與第一主題對(duì)應(yīng)的第一向量,以及與第二主題對(duì)應(yīng)的第二向量;其中,第一向量中的元素為第一主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率,第二向量中的元素為第二主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率;
以圖1b為例,主題1對(duì)應(yīng)的向量為(B11,B12,B13,…),主題2對(duì)應(yīng)的向量為(B21,B22,B23,…),主題3對(duì)應(yīng)的向量為(B31,B32,B33,…),依此類推。
步驟S42:基于第一向量和第二向量計(jì)算第一主題和第二主題間的第一相似度。
可以計(jì)算第一向量和第二向量之間的KL散度,通過(guò)KL散度來(lái)衡量第一主題和第二主題間的相似度。KL散度越小,表征第一主題和第二主題間越相似,即相似度越大。KL散度越大,表征第一主題和第二主題間越不相似,即相似度越小。
也可以計(jì)算第一主題和第二主題間的余弦相似度,即,計(jì)算第一向量和第二向量的夾角余弦值,通過(guò)夾角余弦值來(lái)衡量第一主題和第二主題的相似度。夾角余弦值越小,表征第一主題和第二主題間越相似,即相似度越大。夾角余弦值越大,表征第一主題和第二主題間越不相似,即相似度越小。
還可以計(jì)算第一向量和第二向量的歐式距離,通過(guò)歐式距離來(lái)衡量第一主題和第二主題間的相似度。歐式距離越小,表征第一主題和第二主題間越相似,即相似度越大。歐式距離越大,表征第一主題和第二主題間越不相似,即相似度越小。
當(dāng)然,本發(fā)明實(shí)施例中,并不限于以上幾種方式計(jì)算第一主題和第二主題間的第一相似度,還可以通過(guò)其它方式計(jì)算第一主題和第二主題間的第一相似度,例如,計(jì)算第一向量和第二向量的皮爾森系數(shù),通過(guò)皮爾森系數(shù)來(lái)衡量第一主題和第二主題間的相似度。
在一可選的實(shí)施例中,可以基于第一概率和第二概率計(jì)算兩兩詞語(yǔ)間的第二相似度,對(duì)于任意兩個(gè)詞語(yǔ),分別為第一詞語(yǔ)和第二詞語(yǔ),計(jì)算這兩個(gè)詞語(yǔ)間的第二相似度的一種實(shí)現(xiàn)流程圖如圖5所示,可以包括:
步驟S51:計(jì)算不同文檔中同一主題出現(xiàn)的第二概率的第三和值;
這里的不同文檔是指語(yǔ)料庫(kù)中的各個(gè)文檔。第二概率可以從“主題-文檔”矩陣中直接讀取。
以圖1c為例,不同文檔中主題1出現(xiàn)的第二概率的第三和值為:C11+C21+C31+…;不同文檔中主題2出現(xiàn)的第二概率的第三和值為:C12+C22+C32+…;不同文檔中主題3出現(xiàn)的第二概率的第三和值為:C13+C23+C33+…;依此類推。
不同文檔中,主題ti出現(xiàn)的第二概率的第三和值用公式表示為:∑d∈DP(ti|d),其中,d表示文檔,D表示文檔集合。
步驟S52:對(duì)應(yīng)每一個(gè)主題,計(jì)算主題對(duì)應(yīng)的第三和值與主題中第一詞語(yǔ)出現(xiàn)的第一概率的第一乘積,將第一乘積結(jié)果與語(yǔ)料庫(kù)中第一詞語(yǔ)的詞頻做商運(yùn)算,得到在第一詞語(yǔ)出現(xiàn)的條件下,每一個(gè)主題的第三概率;計(jì)算主題對(duì)應(yīng)的第三和值與主題中第二詞語(yǔ)出現(xiàn)的第一概率的第二乘積,將第二乘積結(jié)果與語(yǔ)料庫(kù)中第二詞語(yǔ)的詞頻做商運(yùn)算,得到在第二詞語(yǔ)出現(xiàn)的條件下,每一個(gè)主題的第四概率;
下面以第i個(gè)主題ti為例進(jìn)行說(shuō)明。對(duì)應(yīng)第i個(gè)主題ti,計(jì)算主題ti對(duì)應(yīng)的第三和值與主題ti中第一詞語(yǔ)(為方便敘述記為w1)出現(xiàn)的第一概率的第一乘積,將第一乘積結(jié)果與語(yǔ)料庫(kù)中第一詞語(yǔ)的詞頻做商運(yùn)算,得到在第一詞語(yǔ)出現(xiàn)的條件下,主題ti的概率P(ti|w1),用公式表示為:
其中,∑d∈DP(ti|d)表示不同文檔中,主題ti出現(xiàn)的第二概率的第三和值,d表示文檔,D表示文檔集合,P(w1|ti)表示主題ti中第一詞語(yǔ)w1出現(xiàn)的概率,P(w1)表示在整個(gè)語(yǔ)料庫(kù)中第一詞語(yǔ)w1的詞頻。
同理,對(duì)應(yīng)第i個(gè)主題ti,計(jì)算主題ti對(duì)應(yīng)的第三和值與主題ti中第二詞語(yǔ)(為方便敘述記為w2)出現(xiàn)的第一概率的第二乘積,將第二乘積結(jié)果與語(yǔ)料庫(kù)中第二詞語(yǔ)的詞頻做商運(yùn)算,得到在第二詞語(yǔ)出現(xiàn)的條件下,主題ti的概率P(w2|ti),用公式表示為:
其中,∑d∈DP(ti|d)表示不同文檔中,主題ti出現(xiàn)的第二概率的第三和值,d表示文檔,D表示文檔集合,P(w2|ti)表示主題ti中第二詞語(yǔ)w2出現(xiàn)的概率,P(w2)表示在整個(gè)語(yǔ)料庫(kù)中第二詞語(yǔ)w2的詞頻。
上述第一詞語(yǔ)和第二詞語(yǔ)為語(yǔ)料庫(kù)中的任意兩個(gè)詞語(yǔ)。
同理,對(duì)應(yīng)其它任意一個(gè)主題,在第一詞語(yǔ)出現(xiàn)的情況下,該主題的概率的計(jì)算方式可以參照前述計(jì)算過(guò)程,這里不在一一詳述。
步驟S53:獲取與第一詞語(yǔ)對(duì)應(yīng)的第三向量,以及與第二詞語(yǔ)對(duì)應(yīng)的第四向量;其中,第三向量中的元素為在第一詞語(yǔ)出現(xiàn)的條件下,各個(gè)主題的第三概率;第四向量中的元素為在第二詞語(yǔ)出現(xiàn)的條件下,各個(gè)主題的第四概率;
第一詞語(yǔ)對(duì)應(yīng)的第三向量為(P(t1|w1),P(t2|w1),P(t3|w1),…),第二詞語(yǔ)對(duì)應(yīng)的第四向量為(P(t1|w2),P(t2|w2),P(t3|w2),…)。
步驟S54:基于第三向量和第四向量計(jì)算第一詞語(yǔ)和第二詞語(yǔ)間的第二相似度。
可以計(jì)算第三向量和第四向量之間的KL散度,通過(guò)KL散度來(lái)衡量第一詞語(yǔ)和第二詞語(yǔ)間的相似度。KL散度越小,表征第一詞語(yǔ)和第二詞語(yǔ)間越相似,即相似度越大。KL散度越大,表征第一詞語(yǔ)和第二詞語(yǔ)間越不相似,即相似度越小。
也可以計(jì)算第一詞語(yǔ)和第二詞語(yǔ)的余弦相似度,即,計(jì)算第三向量和第四向量的夾角余弦值,通過(guò)夾角余弦值來(lái)衡量第一詞語(yǔ)和第二詞語(yǔ)的相似度。夾角余弦值越小,表征第一詞語(yǔ)和第二詞語(yǔ)間越相似,即相似度越大。夾角余弦值越大,表征第一詞語(yǔ)和第二詞語(yǔ)間越不相似,即相似度越小。
還可以計(jì)算第三向量和第四向量的歐式距離,通過(guò)歐式距離來(lái)衡量第一詞語(yǔ)和第二詞語(yǔ)間的相似度。歐式距離越小,表征第一詞語(yǔ)和第二詞語(yǔ)間越相似,即相似度越大。歐式距離越大,表征第一詞語(yǔ)和第二詞語(yǔ)間越不相似,即相似度越小。
當(dāng)然,本發(fā)明實(shí)施例中,并不限于以上幾種方式計(jì)算第一詞語(yǔ)和第二詞語(yǔ)間的第二相似度,還可以通過(guò)其它方式計(jì)算第一詞語(yǔ)和第二詞語(yǔ)間的第二相似度,例如,計(jì)算第三向量和第四向量的皮爾森系數(shù),通過(guò)皮爾森系數(shù)來(lái)衡量第一詞語(yǔ)和第二詞語(yǔ)間的第二相似度。
下面通過(guò)具體的測(cè)試實(shí)例說(shuō)明本發(fā)明實(shí)施例的有效性。
本測(cè)試實(shí)例中,計(jì)算了相同語(yǔ)料條件下,主題數(shù)被設(shè)定為5,25,35,40,45,47,50,100的主題模型結(jié)果。然后通過(guò)本發(fā)明實(shí)施例提供的最優(yōu)主題數(shù)計(jì)算方法計(jì)算最優(yōu)主題數(shù),并通過(guò)基于信息熵的困惑度來(lái)計(jì)算最優(yōu)主題數(shù)。
如圖6所示,為基于本發(fā)明實(shí)施例中公式(1)相關(guān)實(shí)施例提供的,最優(yōu)主題數(shù)計(jì)算方法計(jì)算過(guò)程中平衡相似度的一種變化趨勢(shì)圖,其中,相似度的計(jì)算采用了余弦相似度計(jì)算方法。圖6中,橫軸表示主題數(shù),縱軸表示平衡相似度。
如圖7所示,為基于本發(fā)明實(shí)施例中公式(1)相關(guān)實(shí)施例提供的,最優(yōu)主題數(shù)計(jì)算方法計(jì)算過(guò)程中平衡相似度的另一種變化趨勢(shì)圖,其中,相似度的計(jì)算采用了KL散度計(jì)算方法。圖7中,橫軸表示主題數(shù),縱軸表示平衡相似度。
基于本發(fā)明實(shí)施例中的公式(2),結(jié)合圖6和圖7所示的平衡相似度的變化趨勢(shì),可以看出,不管是圖6所示示例,還是圖7所示示例,最優(yōu)主題數(shù)均為40。
困惑度是LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)的作者Blei在LDA原論文中通過(guò)利用主題模型去擬合原文本時(shí)的信息熵來(lái)評(píng)價(jià)主題模型整體質(zhì)量的方法。該方法將困惑度最小時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。困惑度計(jì)算公式如下所示:
其中,perlexity表示困惑度,z表示主題,d表示文檔,D表示文檔集合,即語(yǔ)料庫(kù),w表示詞語(yǔ),|d|表示文檔d中詞語(yǔ)的個(gè)數(shù),∑d∈D|d|表示語(yǔ)料庫(kù)中詞語(yǔ)的個(gè)數(shù)。
如圖8所示,為利用基于信息熵的困惑度來(lái)評(píng)價(jià)主題模型整體質(zhì)量的時(shí),困惑度的變化趨勢(shì)圖。圖8中,橫軸表示主題數(shù),縱軸表示困惑度。
從圖8可以看出,當(dāng)主題數(shù)為40時(shí),困惑度最小。即最優(yōu)主題數(shù)也為40。
將圖6或圖7與圖8進(jìn)行比較可知,本發(fā)明實(shí)施例提供的最優(yōu)主題數(shù)計(jì)算方法是有效的。而且,圖6和圖7所示示例中,所使用的相似度計(jì)算方法為計(jì)算向量相似度比較通用的方法,因此,可以看出,本發(fā)明實(shí)施例中,相似度計(jì)算方法并不影響最優(yōu)主題數(shù)的計(jì)算結(jié)果,本發(fā)明實(shí)施例提供的最優(yōu)主題數(shù)計(jì)算方法可以采用任何相似度算法來(lái)進(jìn)行最優(yōu)主題數(shù)的計(jì)算,適用范圍較廣。
與方法實(shí)施例相對(duì)應(yīng),本發(fā)明實(shí)施例還提供一種最優(yōu)主題數(shù)計(jì)算裝置。本發(fā)明實(shí)施例提供的最優(yōu)主題數(shù)計(jì)算裝置的一種結(jié)構(gòu)示意圖如圖9所示,可以包括:
第一獲取模塊91,第二獲取模塊92,第一計(jì)算模塊93,第二計(jì)算模塊94和確定模塊95;其中,
第一獲取模塊91用于獲取主題模型中使用的若干個(gè)主題數(shù);
第二獲取模塊92用于對(duì)應(yīng)每一個(gè)主題數(shù),獲取主題數(shù)對(duì)應(yīng)的,每個(gè)主題中每個(gè)詞語(yǔ)出現(xiàn)的第一概率,以及每個(gè)文檔中每個(gè)主題出現(xiàn)的第二概率;
第一計(jì)算模塊93用于基于第一概率和第二概率,計(jì)算兩兩主題間的第一相似度,以及兩兩詞語(yǔ)間的第二相似度;
第二計(jì)算模塊94用于基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù),計(jì)算主題數(shù)對(duì)應(yīng)的平衡相似度,平衡相似度的大小用于衡量主題數(shù)的優(yōu)劣;
確定模塊94用于將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。
本發(fā)明實(shí)施例提供的最優(yōu)主題是計(jì)算裝置,基于主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度、主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度以及主題數(shù),計(jì)算主題數(shù)對(duì)應(yīng)的用于衡量主題數(shù)的優(yōu)劣的平衡相似度;將平衡相似度滿足預(yù)設(shè)條件時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。從而可以基于如下原則獲取最優(yōu)主題數(shù):主題數(shù)盡可能多,以保證最大程度的語(yǔ)義覆蓋,但是卻不能過(guò)多;各個(gè)主題盡可能表達(dá)獨(dú)立含義,盡量不存在語(yǔ)義交叉;相同含義的詞語(yǔ)越少越好,以保證用最少的詞語(yǔ)來(lái)表示盡可能多的語(yǔ)義。
在一可選的實(shí)施例中,第二計(jì)算模塊94的一種結(jié)構(gòu)示意圖如圖10所示,可以包括:
第一計(jì)算單元101和第二計(jì)算單元102;其中,
第一計(jì)算單元101用于計(jì)算主題數(shù)對(duì)應(yīng)的兩兩主題間的第一相似度的第一和值,以及主題數(shù)對(duì)應(yīng)的兩兩詞語(yǔ)間的第二相似度的第二和值;
第二計(jì)算單元102用于將第一和值和第二和值的乘積與主題數(shù)的平方值做商運(yùn)算,得到主題數(shù)對(duì)應(yīng)的平衡相似度。
在一可選的實(shí)施例中,確定模塊95具體用于,將平衡相似度最小時(shí)的主題數(shù)確定為最優(yōu)主題數(shù)。
在一可選的實(shí)施例中,第一計(jì)算模塊93用于基于第一概率計(jì)算兩兩主題間的第一相似度,第一計(jì)算模塊93的一種結(jié)構(gòu)示意圖如圖11所示,可以包括:
第一獲取單元111和第三計(jì)算單元112;其中,
第一獲取單元111用于獲取與第一主題對(duì)應(yīng)的第一向量,以及與第二主題對(duì)應(yīng)的第二向量;第一向量中的元素為第一主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率,第二向量中的元素為第二主題中各個(gè)詞語(yǔ)出現(xiàn)的第一概率;
第三計(jì)算單元112用于基于第一向量和第二向量計(jì)算第一主題和第二主題間的第一相似度。
在另一可選的實(shí)施例中,第一計(jì)算模塊93用于基于第一概率和第二概率計(jì)算兩兩詞語(yǔ)間的第二相似度,第一計(jì)算模塊93的另一種結(jié)構(gòu)示意圖如圖12所示,可以包括:
第四計(jì)算單元121,第五計(jì)算單元122,第二獲取單元123和第六計(jì)算單元124;其中,
第四計(jì)算單元121用于計(jì)算不同文檔中同一主題出現(xiàn)的第二概率的第三和值;
第五計(jì)算單元122用于對(duì)應(yīng)每一個(gè)主題,計(jì)算主題對(duì)應(yīng)的第三和值與主題中第一詞語(yǔ)出現(xiàn)的第一概率的第一乘積,將第一乘積結(jié)果與語(yǔ)料庫(kù)中第一詞語(yǔ)的詞頻做商運(yùn)算,得到在第一詞語(yǔ)出現(xiàn)的條件下,每一個(gè)主題的第三概率;計(jì)算主題對(duì)應(yīng)的第三和值與主題中第二詞語(yǔ)出現(xiàn)的第一概率的第二乘積,將第二乘積結(jié)果與語(yǔ)料庫(kù)中第二詞語(yǔ)的詞頻做商運(yùn)算,得到在第二詞語(yǔ)出現(xiàn)的條件下,每一個(gè)主題的第四概率;
第二獲取單元123用于獲取與第一詞語(yǔ)對(duì)應(yīng)的第三向量,以及與第二詞語(yǔ)對(duì)應(yīng)的第四向量;第三向量中的元素為在第一詞語(yǔ)出現(xiàn)的條件下,各個(gè)主題的第三概率;第四向量中的元素為在第二詞語(yǔ)出現(xiàn)的條件下,各個(gè)主題的第四概率;
第六計(jì)算單元124用于基于第三向量和第四向量計(jì)算第一詞語(yǔ)和第二詞語(yǔ)間的第二相似度。
本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來(lái)實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng)(若存在)、裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。
所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(ROM,Read-Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。
對(duì)所公開(kāi)的實(shí)施例的上述說(shuō)明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開(kāi)的原理和新穎特點(diǎn)相一致的最寬的范圍。