亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本聚類的處理方法、服務(wù)器及系統(tǒng)與流程

文檔序號:11830052閱讀:207來源:國知局
一種文本聚類的處理方法、服務(wù)器及系統(tǒng)與流程
本發(fā)明涉及文本聚類領(lǐng)域,尤其涉及一種文本聚類處理方法、服務(wù)器及系統(tǒng)。
背景技術(shù)
:隨著互聯(lián)網(wǎng)技術(shù)和數(shù)據(jù)庫技術(shù)的普及和發(fā)展,人們可以方便地獲取和存儲大量數(shù)據(jù)?,F(xiàn)實中的數(shù)據(jù)大多以文本形式存在,文本聚類作為一種手段,可以對文本信息進行組織、摘要和導航,有助于從大量的文本信息資源中準確獲取所需信息,因此,文本聚類近年來獲得了廣泛關(guān)注。文本聚類算法是機器學習,信息檢索等領(lǐng)域中一類主要的文本數(shù)據(jù)挖掘處理方法,是解決互聯(lián)網(wǎng)文本信息過載的主要途徑之一。其目的是按照“物以類聚”的原則組織互聯(lián)網(wǎng)文本集合,以得到一系列有意義的文本子集。LDA是一種非監(jiān)督機器學習技術(shù),可以用來識別海量文本中潛藏的主題信息,它采用詞袋模型,利用詞、主題、文本三層貝葉斯概率,能取得較好的主題聚類效果,因此,該技術(shù)目前在業(yè)界被廣泛應(yīng)用在文本聚類中,常用的經(jīng)典LDA算法利用吉布斯(Gibbs)采樣來建立模型,其中,Gibbs采樣計算主題的轉(zhuǎn)移概率公式如下:其中,上述的公式表示第m篇文本中的第i個詞從前一個主題轉(zhuǎn)移到當前的主題即第k個主題的轉(zhuǎn)移概率,下角標中的表示統(tǒng)計值均為轉(zhuǎn)移前的值,下角標中的|i表示除第i個詞以外的詞,Zi表示第m篇文本中的第i個詞,表示包含第i個詞的向量,αk表示與第k個主題相關(guān)的常量,βt表示與第t篇文本相關(guān)的常量,表示常量構(gòu)成的向量,V表示文本集合,t表示文本集合中的第t篇文本,K表示主題集合,k表示主題集合K中的第k個主題,表示在第m篇文本中第k個主題出現(xiàn)的個數(shù),后面可簡稱為nmk,表示屬于第k個主題的第i個詞的個數(shù),后面簡稱為nkv,表示屬于第k個主題的詞的總個數(shù),簡稱為nk。依據(jù)上述的主題的轉(zhuǎn)移概率公式,訓練模型的過程包括:1)初始化文本參數(shù),為每一個詞隨機分配一個主題,確定nmk,nkv和nk的參數(shù)值,2)對每篇文本中的每一個詞,進行Gibbs采樣得到一個更新后的主題,并更新nmk,nkv和nk的參數(shù)值,3)對所有文本都采樣完畢,一輪迭代完成后,重復(fù)執(zhí)行步驟2)直至nmk,nkv和nk收斂,迭代結(jié)束并將每篇文本的采樣結(jié)果進行輸出,確定每篇文本的聚類結(jié)果。然而,現(xiàn)有的LDA技術(shù)還是存在一定的缺陷:由于在采樣過程中對每個詞采樣完后都需要更新nmk、nkv、nk這三個參數(shù),為了保證數(shù)據(jù)一致性需要對該三個參數(shù)重新進行統(tǒng)計計算,消耗的時間會特別長,因此,現(xiàn)有的很多論文都提出了對LDA算法的改進,最著名的為谷歌開發(fā)的基于多點接口(MultiPointInterface,MPI)并行框架的PLDA算法,該算法中第一服務(wù)器將文本均勻地分配到多個第二服務(wù)器上并行采樣,在每一個第二服務(wù)器上都有一個屬于該第二服務(wù)器的全局變量nkv和nk參數(shù)進行第二服務(wù)器的局部更新,每一輪迭代結(jié)束后第一服務(wù)器將所有的nkv、nk的變化合并,同步到第一服務(wù)器直至收斂。然而,上述的PLDA算法雖然解決了消耗時間長的問題,但是同時也引入了新的問題:由于每個第二服務(wù)器的局部矩陣需要在第一服務(wù)器進行合并更新,而每個第二服務(wù)器的矩陣本身的尺寸已經(jīng)很大,在瞬間由多個第二服務(wù)器到第一服務(wù)器之間的網(wǎng)絡(luò)開銷會非常大,造成網(wǎng)絡(luò)瓶頸,此外每個第二服務(wù)器都需要存儲局部矩陣,內(nèi)存開銷較大,消耗資源多。技術(shù)實現(xiàn)要素:有鑒于此,本發(fā)明提供一種文本聚類的處理方法及系統(tǒng),用于解決現(xiàn)有技術(shù)中出現(xiàn)的網(wǎng)絡(luò)瓶頸、內(nèi)存開銷大、消耗資源多等問題。本發(fā)明實施例提供的文本聚類的處理方法,包括:第一服務(wù)器從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的所述文本集合中各文本分配到多個第二服務(wù)器;建立多個所述第二服務(wù)器分配的文本中的每一個詞的初始映射關(guān)系,并分別發(fā)送給多個所述第二服務(wù)器,所述初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及所述詞的主題與第二矩陣之間的映射關(guān)系,所述第一 矩陣為所述文本集合中屬于主題集合中各主題的所述詞的個數(shù)構(gòu)成的矩陣,所述第二矩陣為所述文本集合中屬于所述詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,所述第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣;根據(jù)所述第二服務(wù)器反饋的所述第二服務(wù)器分配的文本的每一個詞更新后的主題確定所述文本集合中各文本的聚類結(jié)果,所述每一個詞更新后的主題由所述第二服務(wù)器基于改進的吉布斯采樣算法,根據(jù)所述第二服務(wù)器上的詞的所述初始映射關(guān)系進行采樣計算得到的。本發(fā)明實施例提供的文本聚類的處理方法,包括:第二服務(wù)器接收第一服務(wù)器分配的文本中每一個詞的主題,及所述每一個詞的初始映射關(guān)系,所述初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及所述詞的主題與第二矩陣之間的映射關(guān)系,所述第一矩陣為所述文本集合中屬于主題集合中各主題的所述詞的個數(shù)構(gòu)成的矩陣,所述第二矩陣為所述文本集合中屬于所述詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,所述第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣;所述第二服務(wù)器基于改進的吉布斯采樣算法,根據(jù)所述每一個詞的初始映射關(guān)系采樣計算得到所述每一個詞更新后的主題的轉(zhuǎn)移概率,將所述每一個詞更新后的主題及更新后的主題的轉(zhuǎn)移概率反饋給所述第一服務(wù)器,由所述第一服務(wù)器根據(jù)文本中各詞的更新后的主題及所述更新后的主題的轉(zhuǎn)移概率確定所述文本的聚類結(jié)果。本發(fā)明實施例提供的服務(wù)器,包括:分配模塊,用于從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的所述文本集合中各文本分配到多個第二服務(wù)器;建立模塊,用于建立多個所述第二服務(wù)器分配的文本中的每一個詞的初始映射關(guān)系,并分別發(fā)送給多個所述第二服務(wù)器,所述初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及所述詞的主題與第二矩陣之間的映射關(guān)系,所述第一矩陣為所述文本集合中屬于主題集合中各主題的所述詞的個數(shù)構(gòu)成的矩陣,所述第二矩陣為所述文本集合中屬于所述詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,所述第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣;輸出模塊,用于根據(jù)所述第二服務(wù)器反饋的所述第二服務(wù)器分配的文 本的每一個詞更新后的主題確定所述文本集合中各文本的聚類結(jié)果,所述每一個詞更新后的主題由所述第二服務(wù)器基于改進的吉布斯采樣算法,根據(jù)所述第二服務(wù)器上的詞的所述初始映射關(guān)系進行采樣計算得到的。本發(fā)明實施例中提供的服務(wù)器,包括:接收模塊,用于接收第一服務(wù)器分配的文本中每一個詞的主題,及所述每一個詞的初始映射關(guān)系,所述初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及所述詞的主題與第二矩陣之間的映射關(guān)系,所述第一矩陣為所述文本集合中屬于主題集合中各主題的所述詞的個數(shù)構(gòu)成的矩陣,所述第二矩陣為所述文本集合中屬于所述詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,所述第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣;采樣模塊,用于基于改進的吉布斯采樣算法,根據(jù)所述每一個詞的初始映射關(guān)系采樣計算得到所述每一個詞更新后的主題的轉(zhuǎn)移概率,將所述每一個詞更新后的主題及更新后的主題的轉(zhuǎn)移概率反饋給所述第一服務(wù)器,由所述第一服務(wù)器根據(jù)文本中各詞的更新后的主題及所述更新后的主題的轉(zhuǎn)移概率確定所述文本的聚類結(jié)果。本發(fā)明實施例提供的文本聚類的處理系統(tǒng),包括:上述的第一服務(wù)器及多個第二服務(wù)器。從以上技術(shù)方案可以看出,本發(fā)明實施例具有以下優(yōu)點:第一服務(wù)器從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的文本集合中各文本分配到多個第二服務(wù)器,建立該多個第二服務(wù)器分配的文本中的每一個詞的初始映射關(guān)系,并發(fā)給對應(yīng)的第二服務(wù)器,該初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及詞的主題與第二矩陣之間的映射關(guān)系,其中,第一矩陣為文本集合中屬于主題集合中各主題的詞的個數(shù)構(gòu)成的矩陣,第二矩陣為文本集合中屬于詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,其中,第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣;根據(jù)第二服務(wù)器反饋的第二服務(wù)器分配的文本的每一個詞更新后的主題確定文本集合中各文本的聚類結(jié)果,其中,每一個詞更新后的主題由第二服務(wù)器基于改進的吉布斯采樣算法,根據(jù)第二服務(wù)器上的詞的初始映射關(guān)系進行采樣計算得到的。通過確定詞的映射關(guān)系及使用稠密數(shù)據(jù)結(jié)構(gòu)的矩陣并利用改進的吉布斯采樣算法進行采樣計算,能夠有效的減 小第二服務(wù)器需要處理的數(shù)據(jù)的大小,且第二服務(wù)器上所需要的內(nèi)存減小,減小資源消耗及時間消耗,且第一服務(wù)器在進行文本聚類的過程中也不會出現(xiàn)網(wǎng)絡(luò)瓶頸。為讓本發(fā)明的上述和其他目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合所附圖式,作詳細說明如下。附圖說明圖1a為本發(fā)明實施例中服務(wù)器系統(tǒng)的示意圖;圖1b為本發(fā)明實施例中的服務(wù)器的結(jié)構(gòu)的實施例;圖2為本發(fā)明實施例中文本聚類的處理方法的實施例的一個示意圖;圖3為本發(fā)明實施例中文本聚類的處理方法的實施例的另一示意圖;圖4為本發(fā)明實施例中第一服務(wù)器確定文本的聚類主題的方法的實施例的一個示意圖;圖5為本發(fā)明實施例中文本聚類的處理方法的另一示意圖;圖6為本發(fā)明實施例中第一服務(wù)器的結(jié)構(gòu)的一個示意圖;圖7為本發(fā)明實施例中第一服務(wù)器的結(jié)構(gòu)的另一示意圖;圖8為本發(fā)明實施例中第二服務(wù)器的結(jié)構(gòu)的一個示意圖。具體實施方式為更進一步闡述本發(fā)明為實現(xiàn)預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,以下結(jié)合附圖及較佳實施例,對依據(jù)本發(fā)明的具體實施方式、結(jié)構(gòu)、特征及其功效,詳細說明如后。請參閱圖1a,為本發(fā)明實施例中服務(wù)器系統(tǒng)的示意圖,包括第一服務(wù)器和多個第二服務(wù)器,其中,第一服務(wù)器從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的文本集合中各文本分配到多個第二服務(wù)器上,并建立該多個第二服務(wù)器分配的文本中的每一個詞的初始映射關(guān)系,并分別發(fā)送給該多個第二服務(wù)器,初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及詞的主題與第二矩陣之間的映射關(guān)系,第一矩陣為文本集合中屬于主題集合中各主題的詞的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,第二矩陣為文本集合中屬于詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,第二服務(wù)器將基于改進的吉布斯采樣算法對其分配的每一個詞的轉(zhuǎn)移概率進行計算,確定每一個詞的更新后的主題,并反饋給第一 服務(wù)器,通過多次迭代計算的方式直至第二服務(wù)器反饋給第一服務(wù)器的每一個詞更新后的主題的轉(zhuǎn)移概率收斂,第一服務(wù)器利用各文本收斂后的詞的主題確定各文本的聚類結(jié)果。其中,通過建立詞的映射關(guān)系及使用稠密數(shù)據(jù)結(jié)構(gòu)的矩陣及利用改進的吉布斯采樣算法,使得每一個第二服務(wù)器使用的是與其分配的文本中的詞有關(guān)的數(shù)據(jù),為局部矩陣數(shù)據(jù),第二服務(wù)器的計算量減小且所需要的內(nèi)存空間減小,多個第二服務(wù)器在向第一服務(wù)器反饋數(shù)據(jù)時也不會存在網(wǎng)絡(luò)瓶頸。在本發(fā)明實施例中,第一服務(wù)器和第二服務(wù)器都是服務(wù)器,僅僅是所執(zhí)行的功能不同,請參閱圖1b,為本發(fā)明實施例中服務(wù)器的結(jié)構(gòu)的實施例,包括:該服務(wù)器100可因配置或性能不同而產(chǎn)生比較大的差異,可以包括一個或一個以上中央處理器(centralprocessingunits,CPU)122(例如,一個或一個以上處理器)和存儲器132,一個或一個以上存儲應(yīng)用程序142或數(shù)據(jù)144的存儲介質(zhì)130(例如一個或一個以上海量存儲設(shè)備)。其中,存儲器132和存儲介質(zhì)130可以是短暫存儲或持久存儲。存儲在存儲介質(zhì)130的程序可以包括一個或一個以上模塊(圖示未示出),每個模塊可以包括對服務(wù)器中的一系列指令操作。更進一步地,中央處理器122可以設(shè)置為與存儲介質(zhì)130通信,在服務(wù)器100上執(zhí)行存儲介質(zhì)130中的一系列指令操作。服務(wù)器100還可以包括一個或一個以上電源126,一個或一個以上有線或無線網(wǎng)絡(luò)接口150,一個或一個以上輸入輸出接口158,和/或,一個或一個以上操作系統(tǒng)141,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,F(xiàn)reeBSDTM等等。需要說明的是,在本發(fā)明實施例中文本聚類的處理方法可以是在開源的高效分布式計算系統(tǒng)(Spark)上執(zhí)行的,且該計算系統(tǒng)可以是運行在圖1所示的服務(wù)器上的。在本發(fā)明實施例中,一個完整的聚類流程由文本預(yù)處理、初始化、迭代采樣和模型輸出幾個部分組成,本發(fā)明實施例中主要是對初始化和迭代采樣過程進行優(yōu)化以使得該文本聚類過程能夠避免網(wǎng)絡(luò)瓶頸,降低資源消耗和縮短處理時間,其中,文本預(yù)處理是指第一服務(wù)器利用分詞庫對文本集合中各文本進行分詞處理,并去掉停用詞及非實意詞,將標號轉(zhuǎn)碼后得 到預(yù)處理后的文本集合;初始化是第一服務(wù)器從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,并在分配主題后將文本集合中各文本分配到多個第二服務(wù)器,統(tǒng)計初始第三矩陣、第四矩陣及第五矩陣,其中,初始第三矩陣為現(xiàn)有技術(shù)中的nmk、第四矩陣為現(xiàn)有技術(shù)中的nkv,第五矩陣為現(xiàn)有技術(shù)中的nk,且區(qū)別于現(xiàn)有技術(shù),第四矩陣和第五矩陣為采用稠密數(shù)據(jù)結(jié)構(gòu)的矩陣;將第四矩陣和第五矩陣分區(qū)映射到第二服務(wù)器分配的文本的每一個詞上,建立每一個第二服務(wù)器上文本的每一個詞的初始映射關(guān)系,迭代采樣是第二服務(wù)器利用詞的映射關(guān)系和初始第三矩陣進行采樣計算,所用的算法為改進的吉布斯采樣算法,以得到每一個詞更新后的主題,該更新后的主題為該詞的轉(zhuǎn)移概率中最大的主題,并將更新后的主題及更新后的主題的轉(zhuǎn)移概率反饋給第一服務(wù)器,若存在轉(zhuǎn)移概率不收斂的詞的主題,則更新上述的初始第三矩陣、第四矩陣和第五矩陣,返回上述的迭代采樣,進行迭代計算,直至所有詞的轉(zhuǎn)移概率收斂;模型輸出是對每一篇文本的詞的轉(zhuǎn)移概率進行處理得到該文本的聚類結(jié)果。其中,通過進行分區(qū)映射及使用稠密數(shù)據(jù)結(jié)構(gòu)的矩陣及利用改進的吉布斯采樣算法,使得每一個第二服務(wù)器上處理的數(shù)據(jù)為局部數(shù)據(jù),數(shù)據(jù)量大大減小,處理數(shù)據(jù)所消耗的資源也大大減小且所消耗的時間也縮短,且能夠避免網(wǎng)絡(luò)瓶頸。請參閱圖2,為本發(fā)明實施例中文本聚類的處理方法的實施例,包括:201、第一服務(wù)器從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的所述文本集合中各文本分配到多個第二服務(wù)器;在本發(fā)明實施例中,第一服務(wù)器為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,并將分配主題后的文本集合中各文本分配到多個第二服務(wù)器上。在本發(fā)明實施例中,文本集合是需要進行預(yù)處理的,該預(yù)處理的過程是指利用分詞庫對文本集合中的每一篇文本進行切詞,去掉停用詞和非實意詞,且將標點符合轉(zhuǎn)換后得到預(yù)處理后的文本。在本發(fā)明實施例中,第一服務(wù)器可將分配主題后的文本集合中各文本分配到多個第二服務(wù)器上,且為了避免木桶效應(yīng),優(yōu)選的,第一服務(wù)器可 將該文本集合中各文本平均地分配給該多個第二服務(wù)器。需要說明的是,本發(fā)明實施例中提到的文本集合均是指已經(jīng)經(jīng)過預(yù)處理后的文本集合,在各實施例中不再做特別說明。在本發(fā)明實施例中,第一服務(wù)器上設(shè)置了多個主題,該多個主題構(gòu)成主題集合,第一服務(wù)器可為第二服務(wù)器分配的文本的每一個詞隨機分配一個主題,使得文本中的每一個詞都具有一個隨機分配的主題。在本發(fā)明實施例中,第二服務(wù)器能夠?qū)Ψ峙涞降奈谋具M行采樣計算,并將采樣計算的結(jié)果反饋給第一服務(wù)器,使得能夠?qū)崿F(xiàn)數(shù)據(jù)的并行處理。202、建立多個第二服務(wù)器分配的文本中的每一個詞的初始映射關(guān)系,并分別發(fā)送給多個第二服務(wù)器,初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及詞的主題與第二矩陣之間的映射關(guān)系,第一矩陣為文本集合中屬于主題集合中各主題的詞的個數(shù)構(gòu)成的矩陣,第二矩陣為文本集合中屬于詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣;在本發(fā)明實施例中,第一服務(wù)器在將文本集合中文本分配到多個第二服務(wù)器后,該第一服務(wù)器還將建立該多個第二服務(wù)器分配的文本中的每一個詞的初始映射關(guān)系,并分別發(fā)送給該多個第二服務(wù)器,且該初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系,詞的主題與第二矩陣之間的映射關(guān)系,其中第一矩陣為文本集合中屬于主題集合中各主題的詞的個數(shù)構(gòu)成的矩陣,第二矩陣為文本集合中屬于詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,其中,第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣。在本發(fā)明實施例中,文本中的每一個詞都有一個與其具有映射關(guān)系的第一矩陣,且該第一矩陣是詞與主體集合中的主題構(gòu)成的矩陣,例如:若詞為“算法”,主題集合中包含10個主題,則第一服務(wù)器確定在文本集合中的所有文本中,該詞“算法”對應(yīng)的每一個主題中,該詞“算法”個數(shù)。且第一服務(wù)器還將使用稠密數(shù)據(jù)結(jié)構(gòu)的矩陣來保存該第一矩陣,例如:詞算法的第一矩陣為{(主題1,10),(主題2,8),(主題4,9),.......,(主題10,30)}。在本發(fā)明實施例中,第一服務(wù)器還將確定主題集合中的每一個主題具有的詞的個數(shù),以確定詞的主題與第二矩陣之間的映射關(guān)系,例如:當前詞為“算法”,隨機為其分配的主題為:主題5,則第一服務(wù)器確定在文本集合 中的所有文本中,主題均為主題5的詞的個數(shù),其中,主題均為主題5的詞中當前詞“算法”,也可以包含其他不是“算法”的詞。例如:主題均為主題5的詞的個數(shù)為4,其中,該4個詞中,有一個詞是“蘋果”,有一個詞為“騰訊”,有一個詞為“視頻”,有一個詞為“算法”,且得到的當前文本的當前詞“算法”的主題5對應(yīng)的第二矩陣為[主題5,4]。在本發(fā)明實施中,第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣且是與詞具有映射關(guān)系的矩陣,使得能夠有效的降低保存第一矩陣所需要的內(nèi)存空間,且能夠降低在采樣過程中處理該第一矩陣所需要的資源。203、根據(jù)第二服務(wù)器反饋的第二服務(wù)器分配的文本的每一個詞更新后的主題確定文本集合中各文本的聚類結(jié)果,每一個詞更新后的主題由第二服務(wù)器基于改進的吉布斯采樣算法,根據(jù)第二服務(wù)器上的詞的初始映射關(guān)系進行采樣計算得到的。在本發(fā)明實施例中,第一服務(wù)器將根據(jù)第二服務(wù)器反饋的該第二服務(wù)器分配的文本的每一個詞更新后的主題確定文本集合中各文本的聚類結(jié)果,其中,每一個詞更新后的主題是由第二服務(wù)器基于改進的吉布斯采樣算法,根據(jù)該第二服務(wù)器上的每一個詞的初始映射關(guān)系進行采樣計算得到的。在本發(fā)明實施例中,第一服務(wù)器從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的文本集合中各文本分配到多個第二服務(wù)器,建立該多個第二服務(wù)器分配的文本中的每一個詞的初始映射關(guān)系,初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及詞的主題與第二矩陣之間的映射關(guān)系,該第一矩陣為文本集合中屬于主題集合中各主題的上述詞的個數(shù)構(gòu)成的矩陣,第二矩陣為文本集合中屬于詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,其中,第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,第一服務(wù)器還根據(jù)第二服務(wù)器反饋的第二服務(wù)器分配的文本的每一個詞更新后的主題確定所述文本集合中各文本的聚類結(jié)果,其中,每一個詞更新后的主題由第二服務(wù)器基于改進的吉布斯采樣算法,根據(jù)第二服務(wù)器上的詞的初始映射關(guān)系進行采樣計算得到的。通過建立分配的文本中的詞的映射關(guān)系,及映射關(guān)系中的第一矩陣使用稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,使得每個第二服務(wù)器上的局部變量的尺寸減小,能夠有效的降低聚類過程中網(wǎng)絡(luò) 開銷及資源消耗,且由于第二服務(wù)器上需要保持的局部變量的尺寸減小,內(nèi)存開銷也將減小,能夠有效節(jié)約內(nèi)存資源,同時利用基于改進的吉布斯采樣算法進行采樣計算能夠有效的降低采樣的計算量,加快采樣計算的速度提高系統(tǒng)性能。請參閱圖3,為本發(fā)明實施例中文本聚類的處理方法的實施例,包括:301、從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的文本集合中各文本分配到多個第二服務(wù)器;在本發(fā)明實施例中,第一服務(wù)器從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的文本集合中各文本分配到多個第二服務(wù)器。在本發(fā)明實施例中,文本集合是需要進行預(yù)處理的,該預(yù)處理的過程是指利用分詞庫對文本集合中的每一篇文本進行切詞,去掉停用詞和非實意詞,且將標點符合轉(zhuǎn)換后得到預(yù)處理后的文本。在本發(fā)明實施例中,第一服務(wù)器可將文本集合中各文本分配到多個第二服務(wù)器上,且為了避免木桶效應(yīng),優(yōu)選的,第一服務(wù)器可將該文本集合中各文本平均地分配給該多個第二服務(wù)器。在本發(fā)明實施例中,第二服務(wù)器能夠?qū)Ψ峙涞降奈谋具M行采樣計算,并將采樣計算的結(jié)果反饋給第一服務(wù)器,使得能夠?qū)崿F(xiàn)數(shù)據(jù)的并行處理。302、統(tǒng)計計算初始第三矩陣,第四矩陣及第五矩陣,初始第三矩陣為文本集合的各文本中主題集合中的各主題出現(xiàn)的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,第四矩陣為文本集合中的每一個詞屬于主題集合中各主題的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,第五矩陣為文本集合中屬于主題集合中各主題的詞的個數(shù)構(gòu)成的矩陣;在本發(fā)明實施例中,第一服務(wù)器在將文本集合中各文本分配給多個第二服務(wù)器之后,統(tǒng)計計算初始第三矩陣,第四矩陣及第五矩陣,其中,初始第三矩陣及第四矩陣及第五矩陣均為全局變量。在本發(fā)明實施例中,初始第三矩陣為文本集合中各文本中主題集合中的各主題出題出現(xiàn)的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,該初始第三矩陣是基于主題集合計算每一個主題在文本集合中各文本出現(xiàn)的個數(shù)的,例如:主題集合中有30個主題,第一服務(wù)器將分別統(tǒng)計該30個主題在文本集合中 的各個文本中對應(yīng)的詞的個數(shù),以得到一個矩陣,即初始第三矩陣。為了更好的理解,下面將舉一個例子,請參閱表4,為初始第三矩陣中各數(shù)據(jù)構(gòu)成的表格,具體為:主題1主題2主題3主題4主題5......主題m文本1038100......6文本230092......0文本378921......8................................................文本n4600......5表4且基于表4中的數(shù)據(jù)可確定具有稠密數(shù)據(jù)結(jié)構(gòu)的初始第三矩陣為:{{(主題2,3),(主題3,8),(主題4,10),.....,(主題m,6)},{(主題1,3),(主題4,9),(主題5,2),.....},{(主題1,7),(主題2,8),(主題3,9),(主題4,2),(主題5,1),.....,(主題m,8)},{(主題1,4),(主題2,6),......,(主題m,5)}}。在本發(fā)明實施例中,第四矩陣為文本集合中的每一個詞屬于主題集合中各主題的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣。對于第二服務(wù)器分配的文本中的每一個詞,第一服務(wù)器都將統(tǒng)計每一個詞屬于各個主題的個數(shù),并得到所有詞屬于主題集合中各出題的個數(shù)的構(gòu)成的第四矩陣,例如:對于詞“算法”,第一服務(wù)器將獲取所有文本中詞“算法”隨機分配到的主題,并確定該算法對應(yīng)每一個主題的個數(shù),即可得到詞“算法”在第四矩陣中的子矩陣。需要說明的是,在本發(fā)明實施例中,第四矩陣是稠密數(shù)據(jù)結(jié)構(gòu)的矩陣。在現(xiàn)有技術(shù)中,第四矩陣的數(shù)據(jù)結(jié)構(gòu)一般是個word*主題*4字節(jié)的二維數(shù)據(jù),往往這個尺寸在50萬的文本數(shù)據(jù)量時,聚類1000個主題時文本集合中的每一個詞屬于主題集合中各主題的個數(shù)的矩陣就能達到1G左右,所需要的存儲空間大,而對大量短文本數(shù)據(jù)而言這個矩陣是非常稀疏的,將造成采樣過程中耗時長的問題。在本發(fā)明實施例中,第四矩陣是稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,是非稀疏矩陣,所需要的存儲空間小且在計算過程中的耗時也短。為了更好的理解,請參閱如下的兩個表格,表1a為現(xiàn)有技術(shù)中的第四矩陣 的中的數(shù)據(jù)結(jié)構(gòu)的一個例子,表1b為本發(fā)明實施例中的第四矩陣中的數(shù)據(jù)結(jié)構(gòu)的一個例子,如下:主題1主題2......主題N詞1N10......0詞20N2......0..............................詞N00......Nn表1詞1(主題1,N1)......詞2(主題2,N2)..................詞4(主題N,Nn).......表2基于上述的表2可知,第四矩陣為{{(主題1,N1),.....},{(主題2,N2),......},......,{(主題N,Nn),......}}。在本發(fā)明實施例中,第五矩陣為文本集合中屬于主題集合中各主題的詞的個數(shù)構(gòu)成的矩陣,例如,若主題集合中有一千個主題,則第一服務(wù)器將分別統(tǒng)計該一千個主題在文本集合中多對應(yīng)的詞的個數(shù),為了更好的理解,以下為第五矩陣中的數(shù)據(jù)以表格形式展現(xiàn)的一個例子:主題1主題2主題3主題4主題5......主題1000詞的個數(shù)18537145987293......362表3從表3可以看出,第五矩陣為{(主題1,185),(主題2,371),(主題3,459),(主題4,87),(主題5,293),......,(主題1000,362)}。304、將第四矩陣及第五矩陣進行分區(qū)映射,建立多個第二服務(wù)器上分配的文本中的每一個詞的初始映射關(guān)系,并將多個第二服務(wù)器分配的文本中每一個詞的初始映射關(guān)系及初始第三矩陣發(fā)送給對應(yīng)的第二服務(wù)器;在本發(fā)明實施例中,第一服務(wù)器在得到初始第三矩陣、第四矩陣及第五矩陣之后,將第四矩陣及第五矩陣進行分區(qū)映射,建立多個第二服務(wù)器上分配的文本中的每一個詞的初始映射關(guān)系,并將多個第二服務(wù)器分配的文 本中每一個詞的初始映射關(guān)系初始第三矩陣發(fā)送給對應(yīng)的第二服務(wù)器,需要說明的是,該初始第三矩陣也將發(fā)送給各第二服務(wù)器。此外,還可按照文本的劃分對第三矩陣進行分區(qū)映射,例如,若一個第二服務(wù)器上分配了文本1至N,則從第三矩陣中將文本1至N的部分劃分為該第二服務(wù)器,以實現(xiàn)第三矩陣的分區(qū)映射。在本發(fā)明實施例中,詞的映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及詞的主題與第二矩陣之間的映射關(guān)系,具體的:第一服務(wù)器確定第二服務(wù)器分配的詞及詞的主題,從第四矩陣中獲取當前詞所對應(yīng)的矩陣作為該當前詞的第一矩陣,建立該當前詞與第一矩陣之間的映射關(guān)系,例如,在表2中,若當前詞為詞1,則與該詞1具有映射關(guān)系的第一矩陣為{(主題1,N1)......};此外,第一服務(wù)器還將從第五矩陣中獲取當前詞的主題對應(yīng)的詞的個數(shù)的第二矩陣,建立該當前詞與第二矩陣之間的映射關(guān)系,例如,在表2中,若詞1的主題為主題2,則與該詞1的主題2具有映射關(guān)系的第二矩陣為(主題2,371)。在本發(fā)明實施例中,第一服務(wù)器可通過上述的分區(qū)映射的方法,建立分配了文本的每一個第二服務(wù)器上每一個文本上的每一個詞的初始映射關(guān)系。在本發(fā)明實施例中,文本中的詞出現(xiàn)在該文本中的頻率往往是長尾分布,即大部分是低頻詞,所以通過分區(qū)映射的方式相當于每個第二服務(wù)器上分配的文本中的詞的映射關(guān)系中包含的第一矩陣只是第四矩陣中的一部分,且第二矩陣也是第五矩陣中的一部分,不會出現(xiàn)第二服務(wù)器的大數(shù)據(jù)傳輸,且更新該結(jié)構(gòu)時用一個join過程來更新數(shù)據(jù),也能使得消耗由各第二服務(wù)器承擔,能夠有效減小第一服務(wù)器的負擔。304、確定文本集合中各文本的每一個詞的聚類主題,聚類主題是第二服務(wù)器是第二服務(wù)器基于改進的吉布斯采樣算法得到的,第二服務(wù)器分別根據(jù)分配的文本中的每一個詞的初始映射關(guān)系及初始第三矩陣計算每一個詞的轉(zhuǎn)移概率,且確定每一個詞的轉(zhuǎn)移概率在迭代收斂后的主題作為詞的聚類主題;在本發(fā)明實施例中,第一服務(wù)器在進行分區(qū)映射之后,將由第二服務(wù)器基于改進的吉布斯采樣算法得到其分配的文本中的每一個詞的聚類主題, 具體的:第二服務(wù)器根據(jù)分配的文本中的每一個詞的初始映射關(guān)系及初始第三矩陣計算每一個詞的轉(zhuǎn)移概率,且確定每一個詞的轉(zhuǎn)移概率迭代收斂后的主題作為該詞的聚類主題。為了更好的理解本發(fā)明實施例中的步驟305,請參閱圖4,為本發(fā)明實施例中第一服務(wù)器確定文本的聚類主題的方法的實施例,包括:q的初始值為1,且q為正整數(shù),其中,第0次迭代的映射關(guān)系為初始映射關(guān)系,第0次迭代的第三矩陣為初始第三矩陣;按照以下步驟執(zhí)行迭代過程:401、第一服務(wù)器獲取多個第二服務(wù)器第q次反饋的基于改進的吉布斯采樣算法得到的第二服務(wù)器分配的文本中各詞的第q次迭代后的主題及各詞第q次迭代后的主題的轉(zhuǎn)移概率,第二服務(wù)器基于改進的吉布斯采樣算法對各詞的第q-1次迭代的映射關(guān)系及第q-1次迭代的第三矩陣計算得到各詞的第q次迭代后的主題及各詞第q次迭代后的主題的轉(zhuǎn)移概率;在本發(fā)明實施例中,第二服務(wù)器將基于改進的吉布斯采樣算法,利用第二服務(wù)器分配的文本中的每一個詞的初始映射關(guān)系,及初始第三矩陣進行采樣計算,得到每一個詞更新后的主題。其中,改進的吉布斯采樣算法具體為:且上述算法可以表示為:s=αkββV+nkk;r=nmkk·ββV+nkk;q=(αk+nmkk)·nkvkβV+nkk]]>其中,表示第i個詞從上一個主題轉(zhuǎn)移到第k個主題的轉(zhuǎn)移概率,Zi表示第m篇文本中的第i個詞,表示使用的是第i個詞上一個主題的參數(shù),αk表示常量,β表示常量,表示αk和β的向量,nmkk表示上一次迭代后的第三矩陣中第k個主題的個數(shù)中第m篇文本中第k個主題出現(xiàn)的個數(shù),nkvk表示上一個主題下的第i個詞的第一矩陣,nkk表示上一個主題下的第i個詞的第二矩陣,V表示文本集合中文本的總數(shù)。在本發(fā)明實施例中,第二服務(wù)器對分配的每一個詞都將計算其轉(zhuǎn)移概率,以第m篇文本中的第i個詞為例:第二服務(wù)器利用上述的改進的吉布斯采樣算法計算第i個詞從當前的主題轉(zhuǎn)移到其他主題時,每一個主題的轉(zhuǎn)移概率,具體的:首先,基于改進的吉布斯采樣算法計算第m篇文本中的第i個詞從當前的主題轉(zhuǎn)移到主題集合中的每一個主題的轉(zhuǎn)移概率,將主題與轉(zhuǎn)移概率的對應(yīng)關(guān)系構(gòu)成概率集合;其次,對概率集合中的轉(zhuǎn)移概率進行歸一化處理,并按照累加的方式確定每一個主題的轉(zhuǎn)移概率區(qū)間,確定并保存每一個轉(zhuǎn)移概率的s參數(shù),r參數(shù)及q參數(shù),且歸一化處理為s區(qū)間、r區(qū)間及q區(qū)間;例如:若概率集合中包含10個主題的轉(zhuǎn)移概率,則對該10個主題的轉(zhuǎn)移概率進行歸一化處理,且歸一化后的轉(zhuǎn)移概率為C1、C2、C3、C4、C5、C6、C7、C8、C9、C10,則該10個主題的轉(zhuǎn)移概率區(qū)間分別為(0,C1),(C1,C1+C2),(C1+C2,C1+C2+C3),(C1+C2+C3,C1+C2+C3+C4),(C1+C2+C3+C4,C1+C2+C3+C4+C5),(C1+C2+C3+C4+C5,C1+C2+C3+C4+C5+C6),(C1+C2+C3+C4+C5+C6,C1+C2+C3+C4+C5+C6+C7),(C1+C2+C3+C4+C5+C6+C7,C1+C2+C3+C4+C5+C6+C7+C8),(C1+C2+C3+C4+C5+C6+C7+C8,C1+C2+C3+C4+C5+C6+C7+C8+C9),(C1+C2+C3+C4+C5+C6+C7+C8+C9,C1+C2+C3+C4+C5+C6+C7+C8+C9+C10)。例如:若對s參數(shù)、r參數(shù)及q參數(shù)歸一化后得到的是s0,r0及q0,則s區(qū)間為(0,s0),r區(qū)間為(s0,s0+r0),q區(qū)間為(s0+r0,s0+r0+q0)。在本發(fā)明實施例中,第二服務(wù)器在確定了上述區(qū)間之后,將隨機確定采樣值x,確定該采樣值x是在s區(qū)間還是在r區(qū)間還是在q區(qū)間,確定采樣值x在上述的哪個轉(zhuǎn)移概率區(qū)間,并將其所在的轉(zhuǎn)移概率區(qū)間對應(yīng)的主題作為該第i個詞更新后的主題,其中,x屬于(0,1)。在本發(fā)明實施例中,第二服務(wù)器在得到第i個詞更新后的主題之后,將根據(jù)該第i個詞更新后的主題更新該第i個詞的映射關(guān)系,及更新包含第i個詞更新前的主題的詞的映射關(guān)系。需要說明的是,在本發(fā)明實施例中,第二服務(wù)器在按照上述方式得到各文本中各詞的更新后的主題及更新后的主題的轉(zhuǎn)移概率之后,將更新后 的主題及更新后的主題的轉(zhuǎn)移概率發(fā)送給第一服務(wù)器,由第一服務(wù)器確定是否需要進行下一次迭代計算。需要說明的是,由于αk,β是常量,且數(shù)值較小,所以大部分采樣都會落在q區(qū)間,這樣分層計算時間便可進行優(yōu)化,即將每個主題的q值緩存起來,是的下一次迭代時不需要再次計算該主題的q值,能夠有效降低計算量,且減少計算的時間,且由于每次采樣只改動至多2個主題的映射關(guān)系,則循環(huán)計算轉(zhuǎn)移概率區(qū)間的復(fù)雜度由O(k)下降到O(2),而循環(huán)一步查找采樣屬于轉(zhuǎn)移概率區(qū)間的復(fù)雜度也由O(k)下降到O(k’),k’為該詞屬于的主題的個數(shù),即查找區(qū)間只需要在k’個區(qū)間遍歷。而當采樣落在s區(qū)間時,復(fù)雜度不變均為O(k);落在r區(qū)間時,復(fù)雜度為O(k”),k”為該文本中屬于第k個的主題的個數(shù)。綜上,加速主要針對短文本,當?shù)揭欢ㄝ喆?往往只需要20次左右)后,主題與詞的矩陣將非常稀疏,采用本方法的加速效果可達到之前的5倍以上。402、若多個第二服務(wù)器分配的各詞第q次迭代后的主題的轉(zhuǎn)移概率收斂,則確定第q次迭代后的主題為聚類主題;403、若第q次迭代后的主題的轉(zhuǎn)移概率中存在不收斂的轉(zhuǎn)移概率,則利用各詞第q次迭代后的主題更新各詞的映射關(guān)系,得到各詞第q+1次迭代的映射關(guān)系及第q+1次迭代的第三矩陣,并將第q+1次迭代的映射關(guān)系及第q+1次迭代的第三矩陣按照映射關(guān)系發(fā)送給多個第二服務(wù)器,令q=q+1,返回執(zhí)行步驟401。在本發(fā)明實施例中,第二服務(wù)器在將第q次迭代后更新后的主題及更新后的主題的轉(zhuǎn)移概率發(fā)送給第一服務(wù)器之后,第一服務(wù)器將確定第q次迭代后的主題的轉(zhuǎn)移概率是否收斂,若收斂,則確定第q次迭代后的主題為聚類主題,且結(jié)束迭代過程。在本發(fā)明實施例中,若第一服務(wù)器確定第q迭代后的主題的轉(zhuǎn)移概率中存在不收斂的轉(zhuǎn)移概率,則利用各詞第q次迭代后的更新后的主題更新各詞的映射關(guān)系,得到各詞第q+1次迭代的映射關(guān)系及第q+1次迭代的第三矩陣,并將第q+1次迭代的映射關(guān)系及第q+1次迭代的第三矩陣發(fā)給該多個第二服務(wù)器,令q=q+1,返回步驟401。在本發(fā)明實施例中,詞的主題的轉(zhuǎn)移概率收斂是指每一個詞的轉(zhuǎn)移概率 趨近一個固定值,每次采樣后的轉(zhuǎn)移概率變化都小于預(yù)先設(shè)置的數(shù)值。在本發(fā)明實施例中,第二服務(wù)器基于改進的吉布斯采樣算法,利用第二服務(wù)器分配的文本中的每一個詞的初始映射關(guān)系,及初始第三矩陣進行采樣計算,得到每一個詞更新后的主題,利用每一個詞更新后的主題其映射關(guān)系進行更新,第一服務(wù)器若確定每一個詞更新后的主題的轉(zhuǎn)移概率均收斂,則確定更新后的主題為詞的聚類主題;若文本集合中文本的所有詞中存在更新后的主題的轉(zhuǎn)移概率不收斂的詞,則完成更新后返回步驟401。通過上述的迭代采樣過程,能夠得到文本集合中每一個詞收斂后主題及主題的轉(zhuǎn)移概率,且將詞收斂的主題作為該詞的聚類主題,其中,由于第二服務(wù)器上的詞都實現(xiàn)了分區(qū)映射,且分區(qū)映射的矩陣采用的是稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,因此,每個第二服務(wù)器進行迭代采樣過程所需要的資源就大大降低了,且所消耗的時間也縮短了,且在向第一服務(wù)器反饋的數(shù)據(jù)的大小也減小了,并不會造成網(wǎng)絡(luò)瓶頸。且由于第二服務(wù)器使用的是改進的吉布斯采樣算法,也將大大減少第二服務(wù)器的計算量及所有時間,能夠有效提高效率。305、從各第二服務(wù)器上分配的文本的每一個詞的聚類主題的轉(zhuǎn)移概率中選擇轉(zhuǎn)移概率滿足預(yù)先設(shè)置條件的詞進行處理,得到文本的聚類結(jié)果。在本發(fā)明實施例中,第一服務(wù)器將從各第二服務(wù)器上分配的文本的每一個詞的聚類主題的轉(zhuǎn)移概率中選擇轉(zhuǎn)移概率滿足預(yù)先設(shè)置條件的詞進行處理,得到文本的聚類結(jié)果。其中,滿足預(yù)先設(shè)置條件的詞可以為:聚類主題的轉(zhuǎn)移概率在文本中的排序處于前N的詞,其中,N為正整數(shù),在實際應(yīng)用中,還可以根據(jù)實際情況確定該預(yù)先設(shè)置條件,此處不做限定。在本發(fā)明實施例中,第一服務(wù)器從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的文本集合中各文本分配到多個第二服務(wù)器,統(tǒng)計計算初始第三矩陣、第四矩陣及第五矩陣,其中,初始第三矩陣為文本集合中各文本主題集合中各主題出現(xiàn)的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,第四矩陣為文本集合中每一個詞屬于主題集合中各主題的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,第五矩陣問文本集合中屬于主題集合中各主題的詞的個數(shù)構(gòu)成的矩陣;將第四矩陣及第五矩陣進行分區(qū)映射,建立多個第二服務(wù)器上分配的每一個詞的初始映射關(guān)系;基于改 進的吉布斯采樣算法,由多個第二服務(wù)器分別根據(jù)分配的文本中的每一個詞的初始映射關(guān)系及初始第三矩陣計算每一個詞的轉(zhuǎn)移概率,且確定每一個詞的轉(zhuǎn)移概率在迭代收斂后的主題作為詞的聚類主題,從各第二服務(wù)器上分配的文本的每一個詞的聚類主題的轉(zhuǎn)移概率中選擇轉(zhuǎn)移概率滿足預(yù)先設(shè)置條件的詞進行處理,得到文本的聚類結(jié)果,通過上述分區(qū)映射及利用稠密數(shù)據(jù)結(jié)構(gòu)的矩陣及利用改進的吉布斯采樣算法對詞的轉(zhuǎn)移概率進行迭代采樣計算,能夠有效的減少每一個第二服務(wù)器數(shù)據(jù)處理過程中使用的資源及消耗的時間,且所需要的存儲空間小,且在多個第二服務(wù)器向第一服務(wù)器返回數(shù)據(jù)時也不會造成網(wǎng)絡(luò)瓶頸。下面將詳細描述第二服務(wù)器側(cè)進行采樣的過程,請參閱圖5,為本發(fā)明實施例中第二服務(wù)器進行采樣的方法的實施例,包括:501、第二服務(wù)器接收第一服務(wù)器分配的文本中每一個詞的主題,及每一個詞的初始映射關(guān)系;在本發(fā)明實施例中,第二服務(wù)器將接收到第一服務(wù)器分配的文本,及分配的文本中每一個詞的主題,及每一個詞的初始映射關(guān)系,其中,初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及詞的主題與第二矩陣之間的映射關(guān)系,第一矩陣為文本集合中屬于主題集合中各主題的詞的個數(shù)構(gòu)成的矩陣,第二矩陣為文本集合中屬于詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣。502、第二服務(wù)器基于改進的吉布斯采樣算法,根據(jù)每一個詞的初始映射關(guān)系采樣計算得到每一個詞更新后的主題的轉(zhuǎn)移概率,將每一個詞更新后的主題的轉(zhuǎn)移概率反饋給第一服務(wù)器,由第一服務(wù)器根據(jù)文本中各詞的更新后的主題的轉(zhuǎn)移概率確定文本的聚類結(jié)果。在本發(fā)明實施例中,第二服務(wù)器將基于改進的吉布斯采樣算法,根據(jù)每一個詞的初始映射關(guān)系采樣計算得到每一個詞更新后的主題的轉(zhuǎn)移概率,將每一個詞更新后的主題的轉(zhuǎn)移概率反饋給第一服務(wù)器,由第一服務(wù)器根據(jù)文本中各詞的更新后的主題的轉(zhuǎn)移概率確定文本的聚類結(jié)果。其中,改進的吉布斯采樣算法包括:s=αkββV+nkk;r=nmkk·ββV+nkk;q=(αk+nmkk)·nkvkβV+nkk]]>其中,表示第i個詞從上一個主題轉(zhuǎn)移到第k個主題的轉(zhuǎn)移概率,Zi表示第m篇文本中的第i個詞,表示使用的是第i個詞上一個主題的參數(shù),αk表示常量,β表示常量,表示αk和β的向量,nmkk表示上一次迭代后的第三矩陣中第k個主題的個數(shù)中第m篇文本中第k個主題出現(xiàn)的個數(shù),nkvk表示上一個主題下的第i個詞的第一矩陣,nkk表示上一個主題下的第i個詞的第二矩陣,V表示文本集合中文本的總數(shù)。其中,第二服務(wù)器還將接收第一服務(wù)器發(fā)送的初始第三矩陣,初始第三矩陣為第一服務(wù)器統(tǒng)計的文本集合的各文本中主題集合中的各主題出現(xiàn)的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣;在本發(fā)明實施例中,第二服務(wù)器基于改進的吉布斯采樣算法,根據(jù)每一個詞的初始映射關(guān)系采樣計算得到每一個詞更新后的主題的轉(zhuǎn)移概率,將每一個詞更新后的主題的轉(zhuǎn)移概率反饋給第一服務(wù)器,包括:q的初始值為1,且q為正整數(shù),其中,第0次迭代的映射關(guān)系為初始映射關(guān)系;第0次迭代的第三矩陣為初始第三矩陣;對分配的文本中的每一個詞按照如下的方式計算更新后的主題:1)基于改進的吉布斯采樣算法計算第m篇文本中的第i個詞從當前的主題轉(zhuǎn)移到主題集合中的每一個主題的轉(zhuǎn)移概率,將主題與轉(zhuǎn)移概率的對應(yīng)關(guān)系構(gòu)成概率集合;2)對概率集合中的轉(zhuǎn)移概率進行歸一化處理,并按照累加的方式確定每一個主題的轉(zhuǎn)移概率區(qū)間,確定并保存每一個轉(zhuǎn)移概率的s參數(shù)、r參數(shù)及q參數(shù),且歸一化處理為s區(qū)間、r區(qū)間及q區(qū)間;例如:若概率集合中包含10個主題的轉(zhuǎn)移概率,則對該10個主題的轉(zhuǎn)移概率進行歸一化處理,且歸一化后的轉(zhuǎn)移概率為C1、C2、C3、C4、C5、C6、C7、C8、C9、C10,則該10個主題的轉(zhuǎn)移概率區(qū)間分別為(0,C1),(C1,C1+C2),(C1+C2,C1+C2+C3),(C1+C2+C3,C1+C2+C3+C4),(C1+C2+C3+C4,C1+C2+C3+C4+C5),(C1+C2+C3+C4+C5,C1+C2+C3+C4+C5+C6),(C1+C2+C3+C4+C5+C6,C1+C2+C3+C4+C5+C6+C7),(C1+C2+C3+C4+C5+C6+C7, C1+C2+C3+C4+C5+C6+C7+C8),(C1+C2+C3+C4+C5+C6+C7+C8,C1+C2+C3+C4+C5+C6+C7+C8+C9),(C1+C2+C3+C4+C5+C6+C7+C8+C9,C1+C2+C3+C4+C5+C6+C7+C8+C9+C10)。例如:若對s參數(shù)、r參數(shù)及q參數(shù)歸一化后得到的是s0,r0及q0,則s區(qū)間為(0,s0),r區(qū)間為(s0,s0+r0),q區(qū)間為(s0+r0,s0+r0+q0)。3)隨機確定采樣值x,確定采樣值x是在s區(qū)間還是在r區(qū)間還是在q區(qū)間;確定采樣值x屬于每一個主題的轉(zhuǎn)移概率區(qū)間中的區(qū)間,并將采樣值x所屬的概率區(qū)間的主題作為第i個詞更新后的主題,x屬于(0,1);4)根據(jù)第i個詞更新后的主題更新第i個詞的映射關(guān)系,及更新包含第i個詞更新前的主題的詞的映射關(guān)系。在本發(fā)明實施例中,第二服務(wù)器在2)中確定了上述區(qū)間之后,將隨機確定采樣值x,確定該采樣值x是在s區(qū)間還是在r區(qū)間還是在q區(qū)間,確定采樣值x在上述的哪個轉(zhuǎn)移概率區(qū)間,并將其所在的轉(zhuǎn)移概率區(qū)間對應(yīng)的主題作為該第i個詞更新后的主題,其中,x屬于(0,1)。在本發(fā)明實施例中,第二服務(wù)器在得到第i個詞更新后的主題之后,將根據(jù)該第i個詞更新后的主題更新該第i個詞的映射關(guān)系,及更新包含第i個詞更新前的主題的詞的映射關(guān)系。需要說明的是,在本發(fā)明實施例中,第二服務(wù)器在按照上述方式得到各文本中各詞的更新后的主題及更新后的主題的轉(zhuǎn)移概率之后,將更新后的主題及更新后的主題的轉(zhuǎn)移概率發(fā)送給第一服務(wù)器,由第一服務(wù)器確定是否需要進行下一次迭代計算。需要說明的是,由于αk,β是常量,且數(shù)值較小,所以大部分采樣都會落在q區(qū)間,這樣分層計算時間便可進行優(yōu)化,即將每個主題的q值緩存起來,是的下一次迭代時不需要再次計算該主題的q值,能夠有效降低計算量,且減少計算的時間,且由于每次采樣只改動至多2個主題的映射關(guān)系,則循環(huán)計算轉(zhuǎn)移概率區(qū)間的復(fù)雜度由O(k)下降到O(2),而循環(huán)一步查找采樣屬于轉(zhuǎn)移概率區(qū)間的復(fù)雜度也由O(k)下降到O(k’),k’為該詞屬于的主題的個數(shù),即查找區(qū)間只需要在k’個區(qū)間遍歷。而當采樣落在s區(qū)間時,復(fù)雜度不變均為O(k);落在r區(qū)間時,復(fù)雜度為O(k”),k”為該文本中屬于 第k個的主題的個數(shù)。綜上,加速主要針對短文本,當?shù)揭欢ㄝ喆?往往只需要20次左右)后,主題與詞的矩陣將非常稀疏,采用本方法的加速效果可達到之前的5倍以上。在本發(fā)明實施例中,第二服務(wù)器上是局部變量,且使用稠密數(shù)據(jù)結(jié)構(gòu)的矩陣基于改進的吉布斯采樣算法進行采樣計算,能夠有效的降低第二服務(wù)器處理的數(shù)據(jù)量,加快第二服務(wù)器處理的速度,節(jié)約時間且提高效率。請參閱圖6為本發(fā)明實施例中第一服務(wù)器的結(jié)構(gòu)的示意圖,包括:分配模塊601,用于從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的所述文本集合中各文本分配到多個第二服務(wù)器;建立模塊602,用于建立多個所述第二服務(wù)器分配的文本中的每一個詞的初始映射關(guān)系,并分別發(fā)送給多個所述第二服務(wù)器,所述初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及所述詞的主題與第二矩陣之間的映射關(guān)系,所述第一矩陣為所述文本集合中屬于主題集合中各主題的所述詞的個數(shù)構(gòu)成的矩陣,所述第二矩陣為所述文本集合中屬于所述詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,所述第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣;輸出模塊603,用于根據(jù)所述第二服務(wù)器反饋的所述第二服務(wù)器分配的文本的每一個詞更新后的主題確定所述文本集合中各文本的聚類結(jié)果,所述每一個詞更新后的主題由所述第二服務(wù)器基于改進的吉布斯采樣算法,根據(jù)所述第二服務(wù)器上的詞的所述初始映射關(guān)系進行采樣計算得到的。在本發(fā)明實施例中,文本集合是需要進行預(yù)處理的,該預(yù)處理的過程是指利用分詞庫對文本集合中的每一篇文本進行切詞,去掉停用詞和非實意詞,且將標點符合轉(zhuǎn)換后得到預(yù)處理后的文本。在本發(fā)明實施例中,文本中的每一個詞都有一個與其具有映射關(guān)系的第一矩陣,且該第一矩陣是詞與主體集合中的主題構(gòu)成的矩陣,例如:若詞為“算法”,主題集合中包含10個主題,則第一服務(wù)器確定在文本集合中的所有文本中,該詞“算法”對應(yīng)的每一個主題中,該詞“算法”個數(shù)。且第一服務(wù)器還將使用稠密數(shù)據(jù)結(jié)構(gòu)的矩陣來保存該第一矩陣,例如:詞“算法”的第一矩陣為{(主題1,10),(主題2,8),(主題4,9),.......,(主題10,30)}。在本發(fā)明實施例中,第一服務(wù)器還將確定主題集合中的每一個主題具有的詞的個數(shù),以確定詞的主題與第二矩陣之間的映射關(guān)系,例如:當前詞為“算法”,隨機為其分配的主題為:主題5,則第一服務(wù)器確定在文本集合中的所有文本中,主題均為主題5的詞的個數(shù),其中,主題均為主題5的詞中當前詞“算法”,也可以包含其他不是“算法”的詞。例如:主題均為主題5的詞的個數(shù)為4,其中,該4個詞中,有一個詞是“蘋果”,有一個詞為“騰訊”,有一個詞為“視頻”,有一個詞為“算法”,且得到的當前文本的當前詞“算法”的主題5對應(yīng)的第二矩陣為[主題5,4]。在本發(fā)明實施中,第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,使得能夠有效的降低保存第一矩陣所需要的內(nèi)存空間,且能夠降低在采樣過程中處理該第一矩陣所需要的資源。在本發(fā)明實施例中,分配模塊601將從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的所述文本集合中各文本分配到多個第二服務(wù)器;接著建立模塊602建立多個所述第二服務(wù)器分配的文本中的每一個詞的初始映射關(guān)系,并分別發(fā)送給多個所述第二服務(wù)器,所述初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及所述詞的主題與第二矩陣之間的映射關(guān)系,所述第一矩陣為所述文本集合中屬于主題集合中各主題的所述詞的個數(shù)構(gòu)成的矩陣,所述第二矩陣為所述文本集合中屬于所述詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,所述第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣;并由輸出模塊603根據(jù)所述第二服務(wù)器反饋的所述第二服務(wù)器分配的文本的每一個詞更新后的主題確定所述文本集合中各文本的聚類結(jié)果,所述每一個詞更新后的主題由所述第二服務(wù)器基于改進的吉布斯采樣算法,根據(jù)所述第二服務(wù)器上的詞的所述初始映射關(guān)系進行采樣計算得到的。在本發(fā)明實施例中,第一服務(wù)器從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的文本集合中各文本分配到多個第二服務(wù)器,建立該多個第二服務(wù)器分配的文本中的每一個詞的初始映射關(guān)系,并分別發(fā)送給多個第二服務(wù)器,初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及詞的主題與第二矩陣之間的映射關(guān)系,該第一矩陣為文本集合中屬于主題集合中各主題的上述詞的個數(shù)構(gòu)成的矩 陣,第二矩陣為文本集合中屬于詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,其中,第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,第一服務(wù)器還將根據(jù)第二服務(wù)器反饋的第二服務(wù)器分配的文本的每一個詞更新后的主題確定文本集合中各文本的聚類結(jié)果,其中,每一個詞更新后的主題由第二服務(wù)器基于改進的吉布斯采樣算法,根據(jù)第二服務(wù)器上的詞的初始映射關(guān)系進行采樣計算得到的。通過本中的詞的映射關(guān)系,及使用稠密數(shù)據(jù)結(jié)構(gòu)的矩陣及利用改進的吉布斯采樣算法,使得每個第二服務(wù)器上的局部變量的尺寸減小,能夠有效的降低聚類過程中網(wǎng)絡(luò)開銷及資源消耗,且由于第二服務(wù)器上需要保持的局部變量的尺寸減小,內(nèi)存開銷也將減小,能夠有效節(jié)約內(nèi)存資源。為了更好的理解本發(fā)明實施例中第一服務(wù)器,請參閱圖7,為本發(fā)明實施例中文本聚類的第一服務(wù)器的結(jié)構(gòu)的實施例,包括:如圖6所示實施例中描述的分配模塊601,建立模塊602,輸出模塊603,且與圖6所示實施例中描述的內(nèi)容相似,此處不做贅述。在本發(fā)明實施例中,建立模塊602包括:統(tǒng)計模塊701,用于統(tǒng)計計算初始第三矩陣,第四矩陣及第五矩陣,初始第三矩陣為文本集合的各文本中主題集合中的各主題出現(xiàn)的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,第四矩陣為文本集合中的每一個詞屬于主題集合中各主題的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,第五矩陣為文本集合中屬于主題集合中各主題的詞的個數(shù)構(gòu)成的矩陣;映射模塊702,用于將所述第四矩陣及所述第五矩陣進行分區(qū)映射,建立多個所述第二服務(wù)器上分配的文本中的每一個詞的所述初始映射關(guān)系,并將多個所述第二服務(wù)器分配的文本中每一個詞的所述初始映射關(guān)系及所述初始第三矩陣發(fā)送給對應(yīng)的所述第二服務(wù)器。在本發(fā)明實施例中,文本中的詞出現(xiàn)在該文本中的頻率往往是長尾分布,即大部分是低頻詞,所以通過分區(qū)映射的方式相當于每個第二服務(wù)器上分配的文本中的詞的映射關(guān)系中包含的矩陣只是第四矩陣中的一部分,不會出現(xiàn)單第二服務(wù)器的大數(shù)據(jù)傳輸,且更新該結(jié)構(gòu)時用一個join過程來更新數(shù)據(jù),也能使得消耗由各第二服務(wù)器承擔,能夠有效減小第一服務(wù)器的負擔在本發(fā)明實施例中,輸出模塊603包括:主題確定模塊703,用于確定所述文本集合中各文本的每一個詞的聚類主題,所述聚類主題是所述第二服務(wù)器基于所述改進的吉布斯采樣算法得到的,所述第二服務(wù)器根據(jù)分配的文本中的每一個詞的所述初始映射關(guān)系及所述初始第三矩陣迭代采樣計算所述每一個詞的主題的轉(zhuǎn)移概率,且確定所述每一個詞的轉(zhuǎn)移概率收斂后的主題作為所述詞的聚類主題;結(jié)果輸出模塊704,用于從多個所述第二服務(wù)器上分配的文本的每一個詞的所述聚類主題的轉(zhuǎn)移概率中選擇轉(zhuǎn)移概率滿足預(yù)先設(shè)置條件的詞進行處理,得到所述文本的聚類結(jié)果。其中,滿足預(yù)先設(shè)置條件的詞可以為:聚類主題的轉(zhuǎn)移概率在文本中的排序處于前N的詞,其中,N為正整數(shù),在實際應(yīng)用中,還可以根據(jù)實際情況確定該預(yù)先設(shè)置條件,此處不做限定。在本發(fā)明實施例中,主題確定模塊703包括:q的初始值為1,且q為正整數(shù),其中,第0次迭代的映射關(guān)系為所述初始映射關(guān)系;第0次迭代的第三矩陣為初始第三矩陣;獲取模塊705,用于獲取多個所述第二服務(wù)器第q次反饋的基于所述改進的吉布斯采樣算法得到的所述第二服務(wù)器分配的文本中各詞的第q次迭代后的主題及所述各詞第q次迭代后的主題的轉(zhuǎn)移概率,其中,所述各詞的第q次迭代后的主題及所述各詞第q次迭代后的主題的轉(zhuǎn)移概率是所述第二服務(wù)器基于所述改進的吉布斯采樣算法對所述各詞的第q-1次迭代的映射關(guān)系及第q-1次迭代的第三矩陣計算得到的;處理模塊706,用于若多個所述第二服務(wù)器分配的各詞第q次迭代后的主題的轉(zhuǎn)移概率收斂,則確定所述第q次迭代后的主題為所述聚類主題;或者若所述第q次迭代后的主題的轉(zhuǎn)移概率中存在不收斂的轉(zhuǎn)移概率,則利用所述各詞第q次迭代后的主題更新所述各詞的映射關(guān)系,得到所述各詞第q次迭代的映射關(guān)系及第q次迭代的第三矩陣,并將所述第q次迭代的映射關(guān)系及第q次迭代的第三矩陣發(fā)送給多個所述第二服務(wù)器,令q=q+1,返回執(zhí)行所述獲取多個所述第二服務(wù)器第q次反饋的基于改進的吉布斯采樣算法得到的所述第二服務(wù)器分配的文本中各詞的第q次迭代后的主題及所述各詞第q次迭代后的主題的轉(zhuǎn)移概率的步驟。其中,改進的吉布斯采樣算法具體為:其中,表示第i個詞從上一個主題轉(zhuǎn)移到第k個主題的轉(zhuǎn)移概率,Zi表示第m篇文本中的第i個詞,表示使用的是第i個詞上一個主題的參數(shù),αk表示常量,β表示常量,表示αk和β的向量,nmkk表示上一個迭代后的第三矩陣中第k個主題的個數(shù),nkvk表示上一個主題下的第i個詞的第一矩陣,nkk表示上一個主題下的第i個詞的第二矩陣,V表示所述文本集合中文本的總數(shù)。在本發(fā)明實施例中,文本集合是需要進行預(yù)處理的,該預(yù)處理的過程是指利用分詞庫對文本集合中的每一篇文本進行切詞,去掉停用詞和非實意詞,且將標點符合轉(zhuǎn)換后得到預(yù)處理后的文本。在本發(fā)明實施例中,初始第三矩陣為文本集合中各文本中主題集合中的各主題出題出現(xiàn)的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,該初始第三矩陣是基于主題集合計算每一個主題在文本集合中各文本出現(xiàn)的個數(shù)的,例如:主題集合中有30個主題,第一服務(wù)器將分別統(tǒng)計該30個主題在文本集合中的各個文本中對應(yīng)的詞的個數(shù),以得到一個矩陣,即初始第三矩陣。為了更好的理解,下面將舉一個例子,請參閱表4,為初始第三矩陣中各數(shù)據(jù)構(gòu)成的表格,具體為:主題1主題2主題3主題4主題5......主題m文本1038100......6文本235092......0文本378921......8................................................文本n461242......5表4且基于表4中的數(shù)據(jù)可確定具有稠密數(shù)據(jù)結(jié)構(gòu)的初始第三矩陣為:{{(主題2,3),(主題3,8),(主題4,10),.....,(主題m,6)},{(主題1,3),(主題4,9),(主題5,2),.....},{(主題1,7),(主題2,8),(主題3,9),(主題4,2),(主題5,1),.....,(主題m,8)},{(主題1,4),(主題2,6),......,(主題m,5)}}。在本發(fā)明實施例中,第四矩陣為文本集合中的每一個詞屬于主題集合中各主題的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣。對于第二服務(wù)器分配的文本中的每一個詞,第一服務(wù)器都將統(tǒng)計每一個詞屬于各個主題的個數(shù),并得到所有詞屬于主題集合中各出題的個數(shù)的構(gòu)成的第四矩陣,例如:對于詞“算法”,第一服務(wù)器將獲取所有文本中詞“算法”隨機分配到的主題,并確定該算法對應(yīng)每一個主題的個數(shù),即可得到詞“算法”在第四矩陣中的子矩陣。需要說明的是,在本發(fā)明實施例中,第四矩陣是稠密數(shù)據(jù)結(jié)構(gòu)的矩陣。在現(xiàn)有技術(shù)中,第四矩陣的數(shù)據(jù)結(jié)構(gòu)一般是個word*主題*4字節(jié)的二維數(shù)據(jù),往往這個尺寸在50萬的文本數(shù)據(jù)量時,聚類1000個主題時文本集合中的每一個詞屬于主題集合中各主題的個數(shù)的矩陣就能達到1G左右,所需要的存儲空間大,而對大量短文本數(shù)據(jù)而言這個矩陣是非常稀疏的,將造成采樣過程中耗時長的問題。在本發(fā)明實施例中,第四矩陣是稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,是非稀疏矩陣,所需要的存儲空間小且在計算過程中的耗時也短。為了更好的理解,請參閱如下的兩個表格,表1a為現(xiàn)有技術(shù)中的第四矩陣的中的數(shù)據(jù)結(jié)構(gòu)的一個例子,表1b為本發(fā)明實施例中的第四矩陣中的數(shù)據(jù)結(jié)構(gòu)的一個例子,如下:主題1主題2......主題N詞1N10......0詞20N2......0..............................詞N00......Nn表1詞1(主題1,N1)......詞2(主題2,N2)..................詞4(主題N,Nn).......表2基于上述的表2可知,第四矩陣為{{(主題1,N1),.....},{(主題2,N2),......},......,{(主題N,Nn),......}}。在本發(fā)明實施例中,第五矩陣為文本集合中屬于主題集合中各主題的詞的個數(shù)構(gòu)成的矩陣,例如,若主題集合中有一千個主題,則第一服務(wù)器將分別統(tǒng)計該一千個主題在文本集合中多對應(yīng)的詞的個數(shù),為了更好的理解,以下為第五矩陣中的數(shù)據(jù)以表格形式展現(xiàn)的一個例子:主題1主題2主題3主題4主題5......主題1000詞的個數(shù)18537145987293......362表3從表3可以看出,第五矩陣為{(主題1,185),(主題2,371),(主題3,459),(主題4,87),(主題5,293),......,(主題1000,362)}。在本發(fā)明實施例中,詞的主題的轉(zhuǎn)移概率收斂是指每一個詞的轉(zhuǎn)移概率趨近一個固定值,每次采樣后的轉(zhuǎn)移概率變化都小于預(yù)先設(shè)置的數(shù)值。在本發(fā)明實施例中,分配模塊501從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的所述文本集合中各文本分配到多個第二服務(wù)器;接著建立模塊502建立多個第二服務(wù)器分配的文本中的每一個詞的初始映射關(guān)系,并發(fā)送給對應(yīng)的第二服務(wù)器,映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及詞的主題與第二矩陣之間的映射關(guān)系,第一矩陣為文本集合中屬于主題集合中各主題的詞的個數(shù)構(gòu)成的矩陣,第二矩陣為文本集合中屬于詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣;具體的:建立模塊602中的統(tǒng)計模塊701于統(tǒng)計計算初始第三矩陣,第四矩陣及第五矩陣,初始第三矩陣為文本集合的各文本中主題集合中的各主題出現(xiàn)的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,第四矩陣為文本集合中的每一個詞屬于主題集合中各主題的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,第五矩陣為文本集合中屬于主題集合中各主題的詞的個數(shù)構(gòu)成的矩陣;并由建立模塊602中的映射模塊702將所述第四矩陣及所述第五矩陣進行分區(qū)映射,建立多個所述第二服務(wù)器上分配的文本中的每一個詞的所述初始映射關(guān)系,并將多個所述第二服務(wù)器分配的文本中每一個詞的所述初始映射關(guān)系及所述初始第三矩陣發(fā)送給對應(yīng)的所述第二服務(wù)器。并由輸出模塊603根據(jù)所述第二服務(wù)器反饋的所述第二服務(wù)器分配的文本的詞更新后的主題確定所述文本集合中各文本的聚類結(jié)果,所述詞更新后的詞由所述第二服務(wù)器基于改進的吉布斯采樣算法,根 據(jù)所述第二服務(wù)器上的每一個詞的初始映射關(guān)系進行采樣計算得到的。具體的:輸出模塊603中的主題確定模塊703確定所述文本集合中各文本的每一個詞的聚類主題,所述聚類主題是所述第二服務(wù)器基于所述改進的吉布斯采樣算法得到的,所述第二服務(wù)器根據(jù)分配的文本中的每一個詞的所述初始映射關(guān)系及所述初始第三矩陣迭代采樣計算所述每一個詞的主題的轉(zhuǎn)移概率,且確定所述每一個詞的轉(zhuǎn)移概率收斂后的主題作為所述詞的聚類主題;并由輸出模塊603中的結(jié)果輸出模塊704從多個所述第二服務(wù)器上分配的文本的每一個詞的所述聚類主題的轉(zhuǎn)移概率中選擇轉(zhuǎn)移概率滿足預(yù)先設(shè)置條件的詞進行處理,得到所述文本的聚類結(jié)果。其中,主題確定模塊703具體的用于:在q的初始值為1,且q為正整數(shù),其中,第0次迭代的映射關(guān)系為所述初始映射關(guān)系;第0次迭代的第三矩陣為初始第三矩陣的情況下,獲取模塊705獲取多個所述第二服務(wù)器第q次反饋的基于所述改進的吉布斯采樣算法得到的所述第二服務(wù)器分配的文本中各詞的第q次迭代后的主題及所述各詞第q次迭代后的主題的轉(zhuǎn)移概率,其中,所述各詞的第q次迭代后的主題及所述各詞第q次迭代后的主題的轉(zhuǎn)移概率是所述第二服務(wù)器基于所述改進的吉布斯采樣算法對所述各詞的第q-1次迭代的映射關(guān)系及第q-1次迭代的第三矩陣計算得到的;若多個所述第二服務(wù)器分配的各詞第q次迭代后的主題的轉(zhuǎn)移概率收斂,則處理模塊706確定所述第q次迭代后的主題為所述聚類主題;或者若所述第q次迭代后的主題的轉(zhuǎn)移概率中存在不收斂的轉(zhuǎn)移概率,則處理模塊706利用所述各詞第q次迭代后的主題更新所述各詞的映射關(guān)系,得到所述各詞第q次迭代的映射關(guān)系及第q次迭代的第三矩陣,并將所述第q次迭代的映射關(guān)系及第q次迭代的第三矩陣發(fā)送給多個所述第二服務(wù)器,令q=q+1,返回執(zhí)行獲取模塊705。在本發(fā)明實施例中,第一服務(wù)器從主題集合中為預(yù)處理后的文本集合中各文本中每一個詞隨機分配一個主題,將分配主題后的所述文本集合中各文本分配到多個第二服務(wù)器,統(tǒng)計計算初始第三矩陣、第四矩陣及第五矩陣,其中,初始第三矩陣為文本集合中各文本主題集合中各主題出現(xiàn)的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,第四矩陣為文本集合中每一個詞屬于主題集合中各主題的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣,第五矩陣問文本集合 中屬于主題集合中各主題的詞的個數(shù)構(gòu)成的矩陣;將第四矩陣及第五矩陣進行分區(qū)映射,建立多個第二服務(wù)器上分配的每一個詞的初始映射關(guān)系并發(fā)送給對應(yīng)的服務(wù)器;第一服務(wù)器還將根據(jù)第二服務(wù)器反饋的第二服務(wù)器分配的文本的每一個詞更新后的主題確定文本集合中各文本的聚類結(jié)果,其中,每一個詞更新后的主題由第二服務(wù)器基于改進的吉布斯采樣算法,根據(jù)第二服務(wù)器上的詞的初始映射關(guān)系進行采樣計算得到的,通過上述分區(qū)映射及稠密數(shù)據(jù)結(jié)構(gòu)的矩陣及利用改進的吉布斯采樣算法對詞的轉(zhuǎn)移概率進行迭代采樣計算,能夠有效的減少每一個第二服務(wù)器數(shù)據(jù)處理過程中使用的資源及消耗的時間,且所需要的存儲空間小,且多個第二服務(wù)器在向第一服務(wù)器反饋數(shù)據(jù)也能夠避免發(fā)生瓶頸。請參閱圖8,為本發(fā)明實施例中第二服務(wù)器的結(jié)構(gòu)的示意圖,包括:接收模塊801,用于接收第一服務(wù)器分配的文本中每一個詞的主題,及所述每一個詞的初始映射關(guān)系,所述初始映射關(guān)系包括:詞與第一矩陣之間的映射關(guān)系及所述詞的主題與第二矩陣之間的映射關(guān)系,所述第一矩陣為所述文本集合中屬于主題集合中各主題的所述詞的個數(shù)構(gòu)成的矩陣,所述第二矩陣為所述文本集合中屬于所述詞的主題的所有詞的個數(shù)構(gòu)成的矩陣,所述第一矩陣為稠密數(shù)據(jù)結(jié)構(gòu)的矩陣;采樣模塊802,用于基于改進的吉布斯采樣算法,根據(jù)所述每一個詞的初始映射關(guān)系采樣計算得到所述每一個詞更新后的主題的轉(zhuǎn)移概率,將所述每一個詞更新后的主題及更新后的主題的轉(zhuǎn)移概率反饋給所述第一服務(wù)器,由所述第一服務(wù)器根據(jù)文本中各詞的更新后的主題及所述更新后的主題的轉(zhuǎn)移概率確定所述文本的聚類結(jié)果。其中,所述改進的吉布斯采樣算法包括:s=αkββV+nkk;r=nmkk·ββV+nkk;q=(αk+nmkk)·nkvkβV+nkk]]>其中,表示第i個詞從上一個主題轉(zhuǎn)移到第k個主題的轉(zhuǎn)移概率,Zi表示第m篇文本中的第i個詞,表示使用的是第i個詞上一個主題的參數(shù),αk表示常量,β表示常量,表示αk和β的向量,nmkk表示上一次迭代后的第三矩陣中第k個主題的個數(shù),nkvk表示上一個主題下的第 i個詞的第一矩陣,nkk表示上一個主題下的第i個詞的第二矩陣,V表示所述文本集合中文本的總數(shù)。在本發(fā)明實施例中,接收模塊801還用于:接收所述第一服務(wù)器發(fā)送的初始第三矩陣,所述初始第三矩陣為所述第一服務(wù)器統(tǒng)計的所述文本集合的各文本中所述主題集合中的各主題出現(xiàn)的個數(shù)構(gòu)成的稠密數(shù)據(jù)結(jié)構(gòu)的矩陣;所述采樣模塊802包括:q的初始值為1,且q為正整數(shù),其中,第0次迭代的映射關(guān)系為所述初始映射關(guān)系;第0次迭代的第三矩陣為所述初始第三矩陣;對分配的文本中的每一個詞按照如下的方式計算更新后的主題:第一計算模塊803,用于基于改進的吉布斯采樣算法計算第m篇文本中的第i個詞從當前的主題轉(zhuǎn)移到主題集合中的每一個主題的轉(zhuǎn)移概率,將主題與轉(zhuǎn)移概率的對應(yīng)關(guān)系構(gòu)成概率集合;第二計算模塊804,用于對所述概率集合中的轉(zhuǎn)移概率進行歸一化處理,并按照累加的方式確定每一個主題的轉(zhuǎn)移概率區(qū)間,確定并保存每一個轉(zhuǎn)移概率的s參數(shù)、r參數(shù)及q參數(shù),且歸一化處理為s區(qū)間、r區(qū)間及q區(qū)間;例如:若概率集合中包含10個主題的轉(zhuǎn)移概率,則對該10個主題的轉(zhuǎn)移概率進行歸一化處理,且歸一化后的轉(zhuǎn)移概率為C1、C2、C3、C4、C5、C6、C7、C8、C9、C10,則該10個主題的轉(zhuǎn)移概率區(qū)間分別為(0,C1),(C1,C1+C2),(C1+C2,C1+C2+C3),(C1+C2+C3,C1+C2+C3+C4),(C1+C2+C3+C4,C1+C2+C3+C4+C5),(C1+C2+C3+C4+C5,C1+C2+C3+C4+C5+C6),(C1+C2+C3+C4+C5+C6,C1+C2+C3+C4+C5+C6+C7),(C1+C2+C3+C4+C5+C6+C7,C1+C2+C3+C4+C5+C6+C7+C8),(C1+C2+C3+C4+C5+C6+C7+C8,C1+C2+C3+C4+C5+C6+C7+C8+C9),(C1+C2+C3+C4+C5+C6+C7+C8+C9,C1+C2+C3+C4+C5+C6+C7+C8+C9+C10)。例如:若對s參數(shù)、r參數(shù)及q參數(shù)歸一化后得到的是s0,r0及q0,則s區(qū)間為(0,s0),r區(qū)間為(s0,s0+r0),q區(qū)間為(s0+r0,s0+r0+q0)。區(qū)間確定模塊805,用于隨機確定采樣值x,確定所述采樣值x是在s區(qū)間還是在r區(qū)間還是在q區(qū)間;確定所述采樣值x屬于所述每一個主題的轉(zhuǎn)移概率區(qū)間中的區(qū)間,并將所述采樣值x所屬的概率區(qū)間的主題作為詞更新后的主題;更新模塊806,用于根據(jù)所述詞更新后的主題更新所述詞的映射關(guān)系,及更新包含所述詞更新前的主題的詞的映射關(guān)系。需要說明的是,由于αk,β是常量,且數(shù)值較小,所以大部分采樣都會落在q區(qū)間,這樣分層計算時間便可進行優(yōu)化,即將每個主題的q值緩存起來,是的下一次迭代時不需要再次計算該主題的q值,能夠有效降低計算量,且減少計算的時間,且由于每次采樣只改動至多2個主題的映射關(guān)系,則循環(huán)計算轉(zhuǎn)移概率區(qū)間的復(fù)雜度由O(k)下降到O(2),而循環(huán)一步查找采樣屬于轉(zhuǎn)移概率區(qū)間的復(fù)雜度也由O(k)下降到O(k’),k’為該詞屬于的主題的個數(shù),即查找區(qū)間只需要在k’個區(qū)間遍歷。而當采樣落在s區(qū)間時,復(fù)雜度不變均為O(k);落在r區(qū)間時,復(fù)雜度為O(k”),k”為該文本中屬于第k個的主題的個數(shù)。綜上,加速主要針對短文本,當?shù)揭欢ㄝ喆?往往只需要20次左右)后,主題與詞的矩陣將非常稀疏,采用本方法的加速效果可達到之前的5倍以上。在本發(fā)明實施例中,第二服務(wù)器上是局部變量,且使用稠密數(shù)據(jù)結(jié)構(gòu)的矩陣基于改進的吉布斯采樣算法進行采樣計算,能夠有效的降低第二服務(wù)器處理的數(shù)據(jù)量,加快第二服務(wù)器處理的速度,節(jié)約時間且提高效率。以上所述,僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實施例揭露如上,然而并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當可利用上述揭示的技術(shù)內(nèi)容做出些許更動或修飾為等同變化的等效實施例,但凡是未脫離本發(fā)明技術(shù)方案內(nèi)容,依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾,均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。當前第1頁1 2 3 
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1