專利名稱:基于潛在狄利克雷模型的參數(shù)推斷方法、計算裝置及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索領(lǐng)域,尤其涉及一種基于潛在狄利克雷模型的參數(shù)推斷方法、計算裝置及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的飛速發(fā)展,互聯(lián)網(wǎng)上的信息以指數(shù)級的方式增長,面對如此海量的信息資源,如何高效快速地獲取自己需要的信息對人們越來越重要。為了提高用戶信息檢索的質(zhì)量和效率,陸續(xù)出現(xiàn)了很多功能強大的信息檢索工具一搜索引擎。搜索引擎在給人們帶來很大便利的同時,也暴露出以關(guān)鍵詞為基本索引單位的搜索技術(shù)的很多不足一方面,無論用戶提交什么樣的關(guān)鍵詞,都會返回過多的結(jié)果,其中用戶真正需要的信息往往只占很小一部分,用戶不得不花費相當(dāng)多的時間對這些結(jié)果進行人工篩選;另一方面,許多與查找主題有關(guān)的文本可能不包含用戶輸入的關(guān)鍵詞,導(dǎo)致搜索引擎不能找出這些文本。對信息進行自動分類是解決上述問題的一種有效途徑,可以在較大程度上解決網(wǎng)上信息異構(gòu)、雜亂的問題,從而縮小搜索空間,提高檢索速度,改善查詢結(jié)果。由于目前網(wǎng)上信息的表現(xiàn)形式大多數(shù)為文本,比如電子郵件、電子雜志、技術(shù)報告、新聞及網(wǎng)上圖書館等等,因此,文本分類的方法和技術(shù)成為信息檢索領(lǐng)域中最重要的研究熱點。文本分類的主要任務(wù)是,根據(jù)文本內(nèi)容自動確定關(guān)聯(lián)的類別。目前人們使用最多的是基于統(tǒng)計和機器學(xué)習(xí)的文本分類方法。其中,基于統(tǒng)計的文本分類方法之一的貝葉斯分類的一種常見模型是狄利克雷分配(Latent Dirichlet Allocation, LDA)模型。LDA模型是一種概率生成模型,可以用來識別大規(guī)模文本集或語料庫中潛藏的主題信息。它采用了詞袋的方法,將每一篇文本視為一個詞頻向量,從而將文本信息轉(zhuǎn)化為易于建模的數(shù)字信息。每一篇文本代表了一些主題所構(gòu)成的一個概率分布,而每一個主題又代表了很多詞所構(gòu)成的一個概率分布。對于語料庫中的每篇文本,LDA定義了如下生成過程(1)對每一篇文本,從主題分布中抽取一個主題;(2)從上述被抽到的主題所對應(yīng)的詞分布中抽取一個詞;(3)重復(fù)上述過程直至遍歷文本中的每一個詞。參照圖1,更形式化一點說,語料庫中的每一篇文本與K(通過反復(fù)試驗等方法預(yù)先給定的)個主題的一個多項分布相對應(yīng),將該多項分布記為Θ。每個主題又與詞匯表中的V個詞的一個多項分布相對應(yīng),將這個多項分布記為Φ。θ和Φ分別有一個帶有超參數(shù)α和β的狄利克雷先驗分布。對于一篇文本d中的每一個詞,我們從該文本所對應(yīng)的多項分布θ中抽取一個主題Ζ,然后我們再從主題Z所對應(yīng)的多項分布Φ中抽取一個詞 ω。將這個過程重復(fù)Nd次,就產(chǎn)生了文本D,這里的Nd是文本D的詞總數(shù)。圖1中,陰影圓圈表示可觀測變量,非陰影圓圈表示潛在變量,箭頭表示兩變量間的條件依賴性,方框表示重復(fù)抽樣,重復(fù)次數(shù)在方框的右下角。LDA模型有兩個參數(shù)需要推斷,一個是“文本-主題”分布θ,另外是κ個“主題-詞”分布Φ。通過學(xué)習(xí)這兩個參數(shù),我們可以知道文本作者感興趣的主題,以及每篇文本所涵蓋的主題比例。通過實際的計算可以發(fā)現(xiàn),對于大規(guī)模文本數(shù)據(jù),雖然LDA模型可以模擬文本中主題和詞之間的相關(guān)性,但是需要人工根據(jù)經(jīng)驗預(yù)先指定最優(yōu)的主題個數(shù)K,而且輸入的主題個數(shù)K對所求解的模型精度有很大的影響。因此,如何選擇最優(yōu)的主題個數(shù)K仍然是一大難題。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種基于潛在狄利克雷模型的參數(shù)推斷方法、計算裝置及系統(tǒng),以解決因人工輸入的主題個數(shù)不準確所導(dǎo)致的LDA模型求解精度差的問題。為達到上述目的,本發(fā)明的實施例采用如下技術(shù)方案一方面,提供的基于潛在狄利克雷模型的參數(shù)推斷方法,包括根據(jù)設(shè)置的初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)計、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣計算潛在狄利克雷模型,得到文本與主題和主題與詞之間的概率分布;利用期望最大算法得到使概率分布的對數(shù)似然函數(shù)最大的第一超參數(shù)、第二超參數(shù)、主題個數(shù);判斷第一超參數(shù)、第二超參數(shù)、主題個數(shù)是否收斂,若不收斂,則將第一超參數(shù)、第二超參數(shù)、主題個數(shù)帶入所述潛在狄利克雷模型進行計算,直至得到使概率分布的對數(shù)似然函數(shù)最大的最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù)收斂為止,并輸出最后得到的概率分布、最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù)。一方面,提供的一種基于潛在狄利克雷模型參數(shù)推斷計算裝置,包括潛在狄利克雷模型計算單元,用于根據(jù)設(shè)置的初始第一超參數(shù)、初始第二超參數(shù)、 初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣計算潛在狄利克雷模型,得到文本與主題和主題與詞之間的概率分布;參數(shù)估計單元,用于利用期望最大算法得到使概率分布的對數(shù)似然函數(shù)最大的第一超參數(shù)、第二超參數(shù)、主題個數(shù);判斷輸出單元,用于判斷第一超參數(shù)、第二超參數(shù)、主題個數(shù)是否收斂,若不收斂, 則將第一超參數(shù)、第二超參數(shù)、主題個數(shù)帶入潛在狄利克雷模型進行計算,直至得到使概率分布的對數(shù)似然函數(shù)最大的最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù)收斂為止,并輸出最后得到的概率分布、最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù)。一方面,提供的一種基于潛在狄利克雷模型參數(shù)推斷計算系統(tǒng),包括主計算裝置,用于將文本集合分割成多個文本子集;設(shè)置初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣;將一個文本子集以及初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣對應(yīng)發(fā)送給一個從計算裝置;接收各個從計算裝置返回的局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣,歸并得到全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;判斷各從計算裝置求解潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣的過程是否收斂,若不收斂,則將全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣對應(yīng)發(fā)送給各個從計算裝置計算,繼續(xù)更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣直至計算潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣的過程收斂為止,并輸出最后得到的全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;根據(jù)全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣計算得到文本與主題和主題與詞之間的概率分布;利用期望最大算法得到使概率分布的對數(shù)似然函數(shù)最大的第一超參數(shù)、第二超參數(shù)、主題個數(shù);判斷第一超參數(shù)、第二超參數(shù)、主題個數(shù)是否收斂,若不收斂,則將第一超參數(shù)、第二超參數(shù)、主題個數(shù)發(fā)送給各個從計算裝置,直至得到使概率分布的對數(shù)似然函數(shù)最大的最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù)收斂為止,并輸出最后得到的概率分布、所述最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù);多個從計算裝置,用于接收主計算裝置發(fā)送的文本子集以及初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣,計算潛在狄利克雷模型,更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣,并將局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣返回給主計算裝置;接收主計算裝置發(fā)送的全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣帶入潛在狄利克雷模型進行局部計算;接收第一超參數(shù)、 第二超參數(shù)、主題個數(shù)帶入潛在狄利克雷模型進行局部計算。本發(fā)明實施例提供的基于潛在狄利克雷模型的參數(shù)推斷方法、計算裝置及系統(tǒng), 能夠通過期望最大算法自適應(yīng)地求解出使文本與主題、主題與詞之間的概率分布的對數(shù)似然函數(shù)最大的主題個數(shù)、第一超參數(shù)和第二超參數(shù),從而避免了人工根據(jù)經(jīng)驗預(yù)先指定的主題數(shù)目,提高了潛在狄利克雷模型計算結(jié)果的精度。
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為潛在狄利克雷模型的圖模型表示圖;圖2為本發(fā)明提供的基于潛在狄利克雷模型的參數(shù)推斷方法的流程圖;圖3為本發(fā)明另一實施例提供的基于潛在狄利克雷模型的參數(shù)推斷方法的流程圖;圖4為本發(fā)明實施例提供的基于潛在狄利克雷模型的參數(shù)推斷計算裝置的結(jié)構(gòu)示意圖;圖5為本發(fā)明實施例提供的基于潛在狄利克雷模型的參數(shù)推斷計算系統(tǒng)的結(jié)構(gòu)示意圖;圖6為本發(fā)明另一實施例提供的基于潛在狄利克雷模型的參數(shù)推斷計算系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。在下述各實施例中,“第一超參數(shù)”是指“文本-主題”分布的超參數(shù),“第二超參” 數(shù)是指“主題個數(shù)”個“主題-詞”分布的超參數(shù)。通過對LDA結(jié)果中“文本-主題”分布和 “主題-詞”分布的學(xué)習(xí),就可以知道文本作者感興趣的主題,以及每篇文本所涵蓋的主題比例。本發(fā)明實施例提供的基于潛在狄利克雷模型的參數(shù)推斷方法,如圖2所示,其步驟包括S201、根據(jù)設(shè)置的初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣計算潛在狄利克雷模型,得到文本與主題和主題與詞之間的概率分布。S202、利用期望最大算法得到使所述概率分布的對數(shù)似然函數(shù)最大的主題個數(shù)、
第一超參數(shù)和第二超參數(shù)。S203、判斷該主題個數(shù)、第一超參數(shù)和第二超參數(shù)是否收斂,若不收斂,則將該主題個數(shù)、第一超參數(shù)和第二超參數(shù)帶入潛在狄利克雷模型進行計算,直至得到使概率分布的對數(shù)似然函數(shù)最大的最優(yōu)主題個數(shù)、最優(yōu)第一超參數(shù)和最優(yōu)第二超參數(shù)收斂為止,并輸出最后得到的概率分布、最優(yōu)主題個數(shù)、最優(yōu)第一超參數(shù)和最優(yōu)第二超參數(shù)。本發(fā)明實施例提供的基于潛在狄利克雷模型的參數(shù)推斷方法,能夠通過期望最大算法自適應(yīng)地求解出使文本與主題、主題與詞之間的概率分布的對數(shù)似然函數(shù)最大的主題個數(shù)、第一超參數(shù)和第二超參數(shù),從而避免了人工根據(jù)經(jīng)驗預(yù)先指定的主題數(shù)目,提高了潛在狄利克雷模型計算結(jié)果的精度。本發(fā)明另一實施例提供的另一種基于潛在狄利克雷模型的參數(shù)推斷方法,如圖3 所示,包括S301、主計算裝置將文本集合分割成多個文本子集,設(shè)置初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣,并將一個文本子集以及初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣對應(yīng)發(fā)送給一個從計算裝置。S302、從計算裝置根據(jù)接收到的文本子集、初始全局文本與主題計數(shù)矩陣和主題與詞的計數(shù)矩陣以及初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)求解潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣。S303、主計算裝置接收各個從計算裝置返回的局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣并歸并得到全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣。S304、主計算裝置判斷各從計算裝置求解潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣的過程是否收斂,若不收斂,則將全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣發(fā)送給各個從計算裝置,執(zhí)行步驟S302。若收斂,則執(zhí)行S305。S305、主機算裝置根據(jù)全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣計算得到文本與主題和主題與詞之間的概率分布。S306、主機算裝置利用期望最大算法得到使該概率分布的對數(shù)似然函數(shù)最大的主題個數(shù)、第一超參數(shù)和第二超參數(shù)。
S307、主計算裝置判斷該主題個數(shù)、第一超參數(shù)和第二超參數(shù)是否收斂。若不收斂,則執(zhí)行步驟S302,此時主計算裝置將該主題個數(shù)、第一超參數(shù)和第二超參數(shù)發(fā)送給各個從計算裝置,以便各個從計算裝置將該主題個數(shù)、第一超參數(shù)和第二超參數(shù)帶入潛在狄利克雷模型進行局部計算。若收斂,則執(zhí)行步驟S308。S308、主計算裝置輸出使概率分布的對數(shù)似然函數(shù)最大的最優(yōu)主題個數(shù)、最優(yōu)第一超參數(shù)和最優(yōu)第二超參數(shù),以及最后得到的概率分布。需要說明的是,S302中求解狄利克雷模型可以采用包括吉布斯采樣法實現(xiàn); S305、主機算裝置根據(jù)全局文本與主題計數(shù)矩陣、主題與詞計數(shù)矩陣計算得到文本與主題、 主題與詞之間的概率分布可以采用包括貝葉斯推斷法實現(xiàn)。本發(fā)明實施例提供的基于潛在狄利克雷模型的參數(shù)推斷方法,能夠通過期望最大算法自適應(yīng)地求解出使文本與主題、主題與詞之間的概率分布的對數(shù)似然函數(shù)最大的主題個數(shù)、第一超參數(shù)和第二超參數(shù),從而避免了人工根據(jù)經(jīng)驗預(yù)先指定的主題數(shù)目,提高了潛在狄利克雷模型計算結(jié)果的精度。本發(fā)明例提供的基于潛在狄利克雷模型的參數(shù)推斷計算裝置40,如圖4所示,包括潛在狄利克雷模型計算單元401,用于根據(jù)設(shè)置的初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣計算潛在狄利克雷模型,得到文本與主題和主題與詞之間的概率分布。參數(shù)估計單元402,用于利用期望最大算法得到使該概率分布的對數(shù)似然函數(shù)最大的主題個數(shù)、第一超參數(shù)和第二超參數(shù)。判斷輸出單元403,用于判斷該主題個數(shù)、第一超參數(shù)和第二超參數(shù)是否收斂,若不收斂,則將該主題個數(shù)、第一超參數(shù)和第二超參數(shù)帶入潛在狄利克雷模型進行計算,直至得到使概率分布的對數(shù)似然函數(shù)最大的最優(yōu)主題個數(shù)、最優(yōu)第一超參數(shù)和最優(yōu)第二超參數(shù)收斂為止,并輸出最后得到的概率分布、最優(yōu)主題個數(shù)、最優(yōu)第一超參數(shù)和最優(yōu)第二超參數(shù)。本發(fā)明實施例提供的基于潛在狄利克雷模型的參數(shù)推斷計算裝置,能夠通過期望最大算法自適應(yīng)地求解出使文本與主題、主題與詞之間的概率分布的對數(shù)似然函數(shù)最大的主題個數(shù)、第一超參數(shù)和第二超參數(shù),從而避免了人工根據(jù)經(jīng)驗預(yù)先指定的主題數(shù)目,提高了潛在狄利克雷模型計算結(jié)果的精度。本發(fā)明實施例提供的基于潛在狄利克雷模型的參數(shù)推斷計算系統(tǒng),如圖5所示, 包括主計算裝置51和多個從計算裝置52,即分布并行式計算系統(tǒng),主計算裝置51可以分別與多個從計算裝置52分布并行式連接。主計算裝置51,用于將文本集合分割成多個文本子集;設(shè)置初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣;將一個文本子集以及初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣對應(yīng)發(fā)送給一個從計算裝置52 ;接收各個從計算裝52置返回的局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣,歸并得到全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;判斷各從計算裝置52求解潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣的過程是否收斂,若不收斂,則將全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣對應(yīng)發(fā)送給各個從計算裝置52計算,繼續(xù)更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣直至求解潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣的過程收斂為止,并輸出最后得到的全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;根據(jù)全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣計算得到文本與主題和主題與詞之間的概率分布;利用期望最大算法得到使所述概率分布的對數(shù)似然函數(shù)最大的第一超參數(shù)、第二超參數(shù)、主題個數(shù);判斷該主題個數(shù)、第一超參數(shù)和第二超參數(shù)是否收斂,若不收斂,則將該主題個數(shù)、第一超參數(shù)和第二超參數(shù)發(fā)送給各個從計算裝置52,直至得到使概率分布的對數(shù)似然函數(shù)最大的最優(yōu)主題個數(shù)、最優(yōu)第一超參數(shù)和最優(yōu)第二超參數(shù)收斂為止, 并輸出最后得到的概率分布、最優(yōu)主題個數(shù)、最優(yōu)第一超參數(shù)和最優(yōu)第二超參數(shù)。從計算裝置52,用于接收主計算裝置51發(fā)送的文本子集以及初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣,計算潛在狄利克雷模型,更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣,并將局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣返回給主計算裝置51 ;接收主計算裝置51發(fā)送的全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣帶入潛在狄利克雷模型進行局部計算更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;接受主機算裝置51發(fā)送的主題個數(shù)、第一超參數(shù)和第二超參數(shù)帶入潛在狄利克雷模型進行局部計算更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣。本發(fā)明實施例提供的基于潛在狄利克雷模型的參數(shù)推斷計算系統(tǒng),能夠通過期望最大算法自適應(yīng)地求解出使文本與主題、主題與詞之間的概率分布的對數(shù)似然函數(shù)最大的主題個數(shù)、第一超參數(shù)和第二超參數(shù),從而避免了人工根據(jù)經(jīng)驗預(yù)先指定的主題數(shù)目,提高了潛在狄利克雷模型計算結(jié)果的精度。此外,本發(fā)明實施例提供的基于潛在狄利克雷模型的參數(shù)推斷計算系統(tǒng)采用分布式并行化的計算,降低了一臺機器上的計算復(fù)雜度,提高了運算速度。進一步地,如圖6所示,主計算裝置51包括初始化單元511,用于將文本集合分割成多個文本子集;設(shè)置初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣。參數(shù)估計單元512,用于構(gòu)造概率分布的對數(shù)似然函數(shù);接收潛在狄利克雷模型計算單元513發(fā)來的文本與主題和主題與詞之間的概率分布利用期望最大算法得到使概率分布的對數(shù)似然函數(shù)最大的主題個數(shù)、第一超參數(shù)和第二超參數(shù)即判斷主題個數(shù)、第一超參數(shù)和第二超參數(shù)是否收斂,若不收斂,通過第一數(shù)據(jù)收發(fā)單元514將該主題個數(shù)、第一超參數(shù)和第二超參數(shù)通過第一數(shù)據(jù)收發(fā)單元514發(fā)送給從計算裝置52 ;直至得到使概率分布的對數(shù)似然函數(shù)最大的最優(yōu)主題個數(shù)、最優(yōu)第一超參數(shù)和最優(yōu)第二超參數(shù)收斂為止,并輸出最后得到的概率分布、最優(yōu)主題個數(shù)、最優(yōu)第一超參數(shù)和最優(yōu)第二超參數(shù)。潛在狄利克雷模型計算單元513,用于將通過第一數(shù)據(jù)收發(fā)單元514接收到的多個局部文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣歸并得到全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣;判斷各從計算裝置52求解潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣的過程是否收斂,若不收斂,則將全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣通過第一數(shù)據(jù)收發(fā)單元514對應(yīng)發(fā)送給各個從計算裝置計算52,繼續(xù)更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣直至計算潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣的過程收斂為止,并輸出最后得到的全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;根據(jù)全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣計算得到文本與主題和主題與詞之間的概率分布,并把文本與主題和主題與詞之間的概率分布發(fā)送到參數(shù)估計模單元512。第一數(shù)據(jù)收發(fā)單元514,用于將一個文本子集以及初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣對應(yīng)發(fā)送給一個從計算裝置52 ;接收各個從計算裝置52返回的局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;將全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣發(fā)送給各個從計算裝置52 ;將參數(shù)估計單元512發(fā)來的主題個數(shù)、第一超參數(shù)和第二超參數(shù)發(fā)送給各個從計算裝置52。從計算裝置52包括第二數(shù)據(jù)收發(fā)單元521,用于接收主計算裝置51發(fā)送的文本子集以及初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣;向主計算裝置51發(fā)送的全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;接收主計算裝置51發(fā)送的主題個數(shù)、第一超參數(shù)和第二超參數(shù)。潛在狄利克雷模型局部計算單元522,用于根據(jù)通過第二數(shù)據(jù)收發(fā)單元521接收的文本子集以及所述初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣,計算潛在狄利克雷模型更新得到局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;將通過所述第二數(shù)據(jù)收發(fā)單元521接收的全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣帶入所述潛在狄利克雷模型進行局部計算更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;將通過第二數(shù)據(jù)收發(fā)單元521接收的主題個數(shù)、第一超參數(shù)和第二超參數(shù)帶入潛在狄利克雷模型進行局部計算更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣。本發(fā)明另一實施例提供的基于潛在狄利克雷模型的參數(shù)推斷計算系統(tǒng),如圖6所示。主計算裝置51包括初始化單元511、參數(shù)估計單元512、LDA計算單元513及第一數(shù)據(jù)收發(fā)單元514。從計算裝置52包括第二數(shù)據(jù)收發(fā)單元521和LDA局部計算單元522。其中,初始化單元511,主要功能包括文本分割和參數(shù)初始化。在初始化階段,初始化單元511將包含M個文本的文本集合分成P個子集,并為每個子集建立一個索引;為了進行迭代,給定初始全局文本-主題計數(shù)矩陣C-以及主題-詞計數(shù)矩陣C d,同時給LDA 模型的每個參數(shù)設(shè)定一個初始值α = α0>β = β『K = Ktl,在此,α、β為超參數(shù),K為主題個數(shù)。參數(shù)估計單元512,用于似然函數(shù)建立、極大化似然函數(shù)以及更新LDA模型的參數(shù)?;贚DA模型,參數(shù)估計單元512由LDA計算單元513得到的文本-主題、主題-詞之間的概率分布P (Ζ I d)和ρ (W I Z),然后根據(jù)貝葉斯理論建立目標似然函數(shù)
權(quán)利要求
1.一種基于潛在狄利克雷模型的參數(shù)推斷方法,其特征在于,包括根據(jù)設(shè)置的初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)計、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣計算潛在狄利克雷模型,得到文本與主題和主題與詞之間的概率分布;利用期望最大算法得到使所述概率分布的對數(shù)似然函數(shù)最大的第一超參數(shù)、第二超參數(shù)、主題個數(shù);判斷所述第一超參數(shù)、第二超參數(shù)、主題個數(shù)是否收斂,若不收斂,則將所述第一超參數(shù)、第二超參數(shù)、主題個數(shù)帶入所述潛在狄利克雷模型進行計算,直至得到使所述概率分布的對數(shù)似然函數(shù)最大的最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù)收斂為止,并輸出最后得到的概率分布、所述最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)設(shè)置的初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)計、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣計算潛在狄利克雷模型,得到文本與主題和主題與詞之間的概率分布包括主計算裝置將文本集合分割成多個文本子集,并設(shè)置初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣;所述主計算裝置將一個文本子集以及所述初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣對應(yīng)發(fā)送給一個從計算裝置; 以便各個從計算裝置根據(jù)接收到的所述初始隨機全局文本與主題計數(shù)矩陣和主題與詞的計數(shù)矩陣以及所述初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)求解潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;所述主計算裝置接收各個從計算裝置返回的所述局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣并歸并得到全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;所述主計算裝置判斷所述各從計算裝置求解潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣的過程是否收斂,若不收斂,則將所述全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣對應(yīng)發(fā)送給各個從計算裝置計算,繼續(xù)更新所述局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣直至所述求解潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣的過程收斂為止,并輸出最后得到的全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;所述主計算裝置根據(jù)所述全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣計算得到文本與主題和主題與詞之間的概率分布。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述判斷所述第一超參數(shù)、第二超參數(shù)、 主題個數(shù)是否收斂,若不收斂,則將所述第一超參數(shù)、第二超參數(shù)、主題個數(shù)帶入所述潛在狄利克雷模型進行計算包括所述主計算裝置判斷所述第一超參數(shù)、第二超參數(shù)、主題個數(shù)是否收斂,若不收斂,將所述第一超參數(shù)、第二超參數(shù)、主題個數(shù)發(fā)送給各個從計算裝置,以便所述各個從計算裝置將所述第一超參數(shù)、第二超參數(shù)、主題個數(shù)帶入所述潛在狄利克雷模型進行局部計算。
4.一種基于潛在狄利克雷模型的參數(shù)推斷計算裝置,其特征在于,包括潛在狄利克雷模型計算單元,用于根據(jù)設(shè)置的初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣計算潛在狄利克雷模型,得到文本與主題和主題與詞之間的概率分布;參數(shù)估計單元,用于利用期望最大算法得到使所述概率分布的對數(shù)似然函數(shù)最大的第一超參數(shù)、第二超參數(shù)、主題個數(shù);判斷輸出單元,用于判斷所述第一超參數(shù)、第二超參數(shù)、主題個數(shù)是否收斂,若不收斂, 則將所述第一超參數(shù)、第二超參數(shù)、主題個數(shù)帶入所述潛在狄利克雷模型進行計算,直至得到使所述概率分布的對數(shù)似然函數(shù)最大的最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù)收斂為止,并輸出最后得到的概率分布、最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù)。
5.一種基于潛在狄利克雷模型的參數(shù)推斷計算系統(tǒng),特征在于,包括主計算裝置,用于將文本集合分割成多個文本子集;設(shè)置初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣;將一個文本子集以及所述初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣對應(yīng)發(fā)送給一個從計算裝置;接收各個從計算裝置返回的局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣,歸并得到全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;判斷所述各從計算裝置求解潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣的過程是否收斂,若不收斂,則將所述全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣對應(yīng)發(fā)送給各個從計算裝置計算,繼續(xù)更新所述局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣直至所述計算潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣的過程收斂為止,并輸出最后得到的全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;根據(jù)所述全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣計算得到文本與主題和主題與詞之間的概率分布;利用期望最大算法得到使所述概率分布的對數(shù)似然函數(shù)最大的第一超參數(shù)、第二超參數(shù)、主題個數(shù);判斷所述第一超參數(shù)、第二超參數(shù)、主題個數(shù)是否收斂,若不收斂,則將所述第一超參數(shù)、第二超參數(shù)、主題個數(shù)發(fā)送給各個從計算裝置,直至得到使所述概率分布的對數(shù)似然函數(shù)最大的最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù)收斂為止,并輸出最后得到的概率分布、所述最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù);多個從計算裝置,用于接收所述主計算裝置發(fā)送的文本子集以及所述初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣, 計算潛在狄利克雷模型,更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣,并將所述局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣返回給所述主計算裝置;接收所述主計算裝置發(fā)送的所述全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣、第一超參數(shù)、第二超參數(shù)、主題個數(shù)帶入所述潛在狄利克雷模型進行局部計算。
6.根據(jù)權(quán)利要求5所述的計算系統(tǒng),其特征在于,所述主計算裝置包括初始化單元,用于將文本集合分割成多個文本子集;設(shè)置初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始隨機全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣;參數(shù)估計單元,用于構(gòu)造概率分布的對數(shù)似然函數(shù);利用期望最大算法得到使所述概率分布的對數(shù)似然函數(shù)最大的第一超參數(shù)、第二超參數(shù)、主題個數(shù);判斷所述第一超參數(shù)、 第二超參數(shù)、主題個數(shù)是否收斂,若不收斂,通過所述第一數(shù)據(jù)收發(fā)單元將所述第一超參數(shù)、第二超參數(shù)、主題個數(shù)發(fā)送給所述從計算裝置;直至得到使所述概率分布的對數(shù)似然函數(shù)最大的最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù)收斂為止,并輸出最后得到的概率分布、所述最優(yōu)第一超參數(shù)、最優(yōu)第二超參數(shù)、最優(yōu)主題個數(shù);潛在狄利克雷模型計算單元,用于將通過所述第一數(shù)據(jù)收發(fā)單元接收到的多個局部文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣歸并得到全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣;判斷所述各從計算裝置求解潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣的過程是否收斂,若不收斂,則將所述全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣對應(yīng)發(fā)送給各個從計算裝置計算,繼續(xù)更新所述局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣直至所述計算潛在狄利克雷模型更新局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣的過程收斂為止,并輸出最后得到的全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;根據(jù)所述全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣計算得到文本與主題和主題與詞之間的概率分布;第一數(shù)據(jù)收發(fā)單元,用于將一個文本子集以及所述初始第一超參數(shù)、初始第二超參數(shù)、 初始主題個數(shù)計、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣對應(yīng)發(fā)送給一個從計算裝置;接收各個從計算裝置返回的局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;將所述全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣發(fā)送給各個從計算裝置;將所述第一超參數(shù)、第二超參數(shù)、主題個數(shù)發(fā)送給各個從計算裝置。
7.根據(jù)權(quán)利要求6所述的計算系統(tǒng),其特征在于,所述從計算裝置包括 第二數(shù)據(jù)收發(fā)單元,用于接收所述主計算裝置發(fā)送的文本子集以及所述初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣; 向所述主計算裝置發(fā)送局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;接收所述主計算裝置發(fā)送的所述全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;接收所述主計算裝置發(fā)送的所述第一超參數(shù)、第二超參數(shù)、主題個數(shù);潛在狄利克雷模型局部計算單元,用于根據(jù)通過所述第二數(shù)據(jù)收發(fā)單元接收的所述文本子集以及所述初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣,計算潛在狄利克雷模型更新得到局部文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣;將通過所述第二數(shù)據(jù)收發(fā)單元接收的所述全局文本與主題計數(shù)矩陣和主題與詞計數(shù)矩陣帶入所述潛在狄利克雷模型進行局部計算;將通過所述第二數(shù)據(jù)收發(fā)單元接收的所述第一超參數(shù)、第二超參數(shù)、主題個數(shù)帶入所述潛在狄利克雷模型進行局部計笪弁。
全文摘要
本發(fā)明實施例提供一種基于潛在狄利克雷模型的參數(shù)推斷方法、計算裝置及系統(tǒng),涉及信息檢索領(lǐng)域,以解決因人工輸入的主題個數(shù)不準確所導(dǎo)致的LDA模型求解精度差的問題。該方法包括根據(jù)設(shè)置的初始第一超參數(shù)、初始第二超參數(shù)、初始主題個數(shù)、初始全局文本與主題計數(shù)矩陣和主體與詞計數(shù)矩陣計算LDA模型,得到概率分布;利用期望最大算法得到使概率分布的對數(shù)似然函數(shù)最大的主題個數(shù)、第一超參數(shù)和第二超參數(shù);判斷主題個數(shù)、第一超參數(shù)和第二超參數(shù)是否收斂,若不收斂,則將主題個數(shù)、第一超參數(shù)和第二超參數(shù)帶入LDA模型進行計算,直至得到使概率分布的對數(shù)似然函數(shù)最大的最優(yōu)主題個數(shù)、最優(yōu)第一超參數(shù)和最優(yōu)第二超參數(shù)收斂為止。本發(fā)明實施例用于文本參數(shù)推斷。
文檔編號G06F17/30GK102439597SQ201180001128
公開日2012年5月2日 申請日期2011年7月13日 優(yōu)先權(quán)日2011年7月13日
發(fā)明者文劉飛, 施廣宇, 科比洛夫·維拉迪斯拉維 申請人:華為技術(shù)有限公司