專利名稱:短文本聚類設(shè)備及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理領(lǐng)域,具體涉及一種短文本聚類設(shè)備及方法。
背景技術(shù):
隨著手機短信、微博、搜索引擎、在線廣告等的廣泛應(yīng)用,短文本被人們使用的越來越頻繁,這些文本通常較短,例如一條手機短信不能超過70個字,搜索引擎返回的結(jié)果一般也只有幾十個字。短文本與長文本(例如新聞)有較大的區(qū)別。例如,在長文本環(huán)境下,一個主題可以被充分地描述,因而人們可以從這個長文本中了解到主題的幾乎所有內(nèi)容。與此不同,由于短文本的字數(shù)受到限制,所以通常只對主題的核心內(nèi)容進行描述,很多相關(guān)信息被省略。 傳統(tǒng)的文本挖掘的方法通常是針對長文本的,而應(yīng)用在短文本上會遇到困難,例如聚類。由于實現(xiàn)聚類常常要使用文字的并發(fā)信息(同時出現(xiàn)),而短文本中文字的并發(fā)信息比長文本少很多,因此聚類效果會受到影響。例如下面兩段新聞文本LI和L2 LI 清華大學(xué)第四教學(xué)樓被更名為“真維斯樓”,校園內(nèi)和互聯(lián)網(wǎng)上一片奚落之聲。反對意見主要是清華的教學(xué)樓和真維斯的服裝品牌形象太不搭。從高校樓房冠名的正當(dāng)程序這一角度看,清華大學(xué)顯然有可挑剔之處。拋開這一點不談,單就清華學(xué)子所關(guān)注的實質(zhì)問題一教學(xué)樓冠名的所謂品牌形象角度而言,“真維斯樓”是否過于折損清華的形象? ”L2 近日,清華大學(xué)一教學(xué)樓取名為“真維斯”,在網(wǎng)絡(luò)上引起了軒然大波。真維斯不是一服裝品牌嗎?清華大學(xué)的教學(xué)樓怎么也叫“真維斯”? 23日中午,清華大學(xué)第四教學(xué)樓外墻掛上“真維斯樓”的牌匾。幾個字的右下方,還懸掛有另一牌匾,專用來介紹真維斯這一服裝品牌。教學(xué)樓以企業(yè)品牌冠名,引發(fā)清華大學(xué)學(xué)生和網(wǎng)友的爭議。有人認為高校過分的商業(yè)化,不應(yīng)該用企業(yè)來冠名。而新浪博友@Young_pig認為,企業(yè)給學(xué)校提供了贊助,冠個名不影響學(xué)校形象?!盠I和L2因為都有“清華大學(xué),第四教學(xué)樓,真維斯,服裝,高校,冠名,形象”等詞,所以容易判斷出它們很相似,可以聚為一類。而以下兩個短文本SI和S2就不那么容易聚為一類了,因為它們共有的重要文字只有“清華大學(xué)”(“也,了”這種詞因為使用非常普遍,所以不太重要,常常在聚類之前去掉)SI 聽說了嗎,真維斯樓,和清華大學(xué)的形象也太不搭了”S2 不就是一服裝品牌嗎,清華大學(xué)冠名過于商業(yè)化了”為了提高短文本聚類的正確性,現(xiàn)有技術(shù)中已經(jīng)提出采用輔助信息來幫助進行聚類。例如,如果要聚類上述SI和S2這樣的短文本,就引入LI和L2這樣的長文本作為輔助信息,因為SI和LI比較相似(共享“真維斯,清華大學(xué),形象,不搭”等詞),而S2和L2比較相似(共享“服裝,清華大學(xué),冠名,商業(yè)化”等詞)。而且,由于LI和L2比較相似,因此SI和S2也就相似了,可以聚為一類。參考文獻1(XH Phan, LM Nguyen, S Horiguchi./‘Learning to classifty shortand sparse text & web with hidden topics from large-scale data collections,,,WWW2008)描述了一種根據(jù)輔助本文進行聚類的方法。如圖I所示,該方法包括以下步驟在步驟S100,對輔助文本集合執(zhí)行主題分析,得到一些主題和對應(yīng)的詞匯。具體地,參考文獻I中采用從維基百科(Wikipedia)下載的文本作為輔助信息,形成輔助文本集合。主題分析使用潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)方法。圖2示出了 LDA的模型。LDA是一種生成模型,其主要思想是模擬文本的生成過程對每一個詞,先從分布中選一個主題,再從主題中選一個詞。參考圖2,LDA的算法流程包括I對每一個主題k G [1,K],從Dir (0 )分布中做一個采樣,得到一個主題下的詞
的分布f。2 對每一個文本 m G [ I,M],2. I從Dir ( a )分布做一個采樣,得到一個主題分布€。2. 2對每一個詞n,2. 2. I從多項式分布Mult( 中做一個采樣,得到一個主題Z111,n。2. 2. 2從多項式分布Mult(灼)中做一個米樣,得到一個詞wm,n。算法I-LDA其中,a的值表示各個話題在取樣之前的權(quán)重分布,0的值表示各個主題詞的先驗分布。它們是預(yù)先確定的參數(shù),稱為超參數(shù)。LDA的任務(wù)是估計參數(shù)朽和9 d。其中,所有顯變量和隱變量的聯(lián)合分布密度如下
Pi V m ,Tm, t m, € IcF, d )
權(quán)利要求
1.ー種短文本聚類設(shè)備,包括 主題分析単元,對輔助文本集合與短文本集合中的每ー個文本執(zhí)行主題分析,以獲得短文本集合中的每個短文本對應(yīng)于輔助文本集合的主題和短文本集合的主題的可能性; 向量生成単元,將每個短文本對應(yīng)于輔助文本集合的主題和短文本集合的主題的可能性進行歸一化,以生成向量;以及 聚類單元,基于生成的向量對短文本集合中的短文本進行聚類。
2.根據(jù)權(quán)利要求I所述的短文本聚類設(shè)備,其中,所述主題分析単元通過開關(guān)參數(shù)來確定輔助文本集合與短文本集合中的每ー個文本中的詞對應(yīng)于輔助文本集合的主題還是短文本集合的主題;如果對應(yīng)于輔助文本集合的主題,則所述主題分析単元通過第一潛在狄利克雷分配執(zhí)行主題分析,如果對應(yīng)于短文本集合的主題,則所述主題分析単元通過第ニ潛在狄利克雷分配執(zhí)行主題分析。
3.根據(jù)權(quán)利要求2所述的短文本聚類設(shè)備,其中,所述主題分析単元利用吉布斯采樣算法來估計第一潛在狄利克雷分配和第二潛在狄利克雷分配中使用的參數(shù),其中輔助文本集合的主題的采樣頻率正比于除去當(dāng)前詞在上一個循環(huán)中的采樣后、所有其它詞選中輔助文本集合的主題的次數(shù),短文本集合的主題的采樣頻率正比于除去當(dāng)前詞在上一個循環(huán)中的采樣后、所有其它詞選中短文本集合的主題的次數(shù)。
4.根據(jù)權(quán)利要求I所述的短文本聚類設(shè)備,其中,所述向量生成単元在輔助文本集合的主題和短文本集合的主題的合集上生成向量。
5.根據(jù)權(quán)利要求2所述的短文本聚類設(shè)備,其中,所述開關(guān)參數(shù)的值服從ニ項分布。
6.根據(jù)權(quán)利要求2所述的短文本聚類設(shè)備,其中,所述主題分析單元確定開關(guān)參數(shù)以保證輔助文本中的詞對應(yīng)于輔助文本集合的主題的可能性大于對應(yīng)于短文本集合的主題的可能性,并且短文本中的詞對應(yīng)于短文本集合的主題的可能性大于對應(yīng)于輔助文本集合的主題的可能性。
7.—種短文本聚類方法,包括 主題分析步驟,對輔助文本集合與短文本集合中的每ー個文本執(zhí)行主題分析,以獲得短文本集合中的每個短文本對應(yīng)于輔助文本集合的主題和短文本集合的主題的可能性; 向量生成步驟,將每個短文本對應(yīng)于輔助文本集合的主題和短文本集合的主題的可能性進行歸一化,以生成向量;以及 聚類步驟,基于生成的向量對短文本集合中的短文本進行聚類。
8.根據(jù)權(quán)利要求7所述的短文本聚類方法,其中,所述主題分析步驟包括通過開關(guān)參數(shù)來確定輔助文本集合與短文本集合中的每ー個文本中的詞對應(yīng)于輔助文本集合的主題還是短文本集合的主題;如果對應(yīng)于輔助文本集合的主題,則通過第一潛在狄利克雷分配執(zhí)行主題分析,如果對應(yīng)于短文本集合的主題,則通過第二潛在狄利克雷分配執(zhí)行主題分析。
9.根據(jù)權(quán)利要求8所述的短文本聚類方法,其中,利用吉布斯采樣算法來估計第一潛在狄利克雷分配和第二潛在狄利克雷分配中使用的參數(shù),其中輔助文本集合的主題的采樣頻率正比于除去當(dāng)前詞在上一個循環(huán)中的采樣后、所有其它詞選中輔助文本集合的主題的次數(shù),短文本集合的主題的采樣頻率正比于除去當(dāng)前詞在上一個循環(huán)中的采樣后、所有其它詞選中短文本集合的主題的次數(shù)。
10.根據(jù)權(quán)利要求7所述的短文本聚類方法,其中,所述向量生成步驟包括在輔助文本集合的主題和短文本集合的主題的合集上生成向量。
11.根據(jù)權(quán)利要求8所述的短文本聚類方法,其中,所述開關(guān)參數(shù)的值服從ニ項分布。
12.根據(jù)權(quán)利要求8所述的短文本聚類方法,其中,確定開關(guān)參數(shù)以保證輔助文本中的詞對應(yīng)于輔助文本集合的主題的可能性大于對應(yīng)于短文本集合的主題的可能性,并且短文本中的詞對應(yīng)于短文本集合的主題的可能性大于對應(yīng)于輔助文本集合的主題的可能性。
全文摘要
本發(fā)明提供了一種短文本聚類設(shè)備,包括主題分析單元,對輔助文本集合與短文本集合中的每一個文本執(zhí)行主題分析,以獲得短文本集合中的每個短文本對應(yīng)于輔助文本集合的主題和短文本集合的主題的可能性;向量生成單元,將每個短文本對應(yīng)于輔助文本集合的主題和短文本集合的主題的可能性進行歸一化,以生成向量;以及聚類單元,基于生成的向量對短文本集合中的短文本進行聚類。本發(fā)明還提供了一種短文本聚類方法。本發(fā)明實現(xiàn)了輔助文本主題和短文本主題的各自發(fā)現(xiàn),從而能夠更準確地對短文本進行聚類。
文檔編號G06F17/27GK102831119SQ20111016056
公開日2012年12月19日 申請日期2011年6月15日 優(yōu)先權(quán)日2011年6月15日
發(fā)明者趙凱, 胡長建, 王大亮, 許洪志 申請人:日電(中國)有限公司