基于dmr的混合長度文本集的文本聚類方法
【專利摘要】本發(fā)明公開了一種基于DMR的混合長度文本集的文本聚類方法。本發(fā)明是混合長度文本集,與傳統(tǒng)的長文本集相比,具有普適性;并且采用了DMR方法確定模型的先驗參數(shù),改進了傳統(tǒng)聚類使用人為設(shè)定先驗值得方法;較傳統(tǒng)混合文本集而言,長短文本集共享相同的主題。本發(fā)明簡單易行,使用效果好。
【專利說明】
基于DMR的混合長度文本集的文本聚類方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其是一種基于DMR的混合長度文本集的文本聚類 方法。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)時代的到來,從海量文本數(shù)據(jù)中挖掘潛在的主題信息變得越來越重 要。
[0003] 為了在海量的數(shù)據(jù)中找到滿足用戶需求且有價值的內(nèi)容,在文本挖掘領(lǐng)域,通常 采用的是文本聚類方法。文本聚類是指將一個給定的文本數(shù)據(jù)集分成多個數(shù)據(jù)類,每個類 內(nèi)的文本語義高度相似,而類間語義相似度極低。目前,文本聚類方法廣泛地被用于文本挖 掘領(lǐng)域,尤其是在信息檢索、智能搜索引擎等領(lǐng)域。
[0004] 文本根據(jù)長度的不同分為長文本和短文本兩類。現(xiàn)有的技術(shù)對單獨的長文本聚類 已經(jīng)做得相當成熟,在對單獨的短文本聚類方面也取得了一些成績,但由于短文本自身的 兩大特點:特征高度稀疏和上下文依賴性強。針對短文本的聚類方法依然需要探索和改進。 同樣針對混合長度文本集的聚類依然由于短文本的特征問題無法獲得理想的聚類效果。
[0005] 目前,基于概率主題模型的文本聚類算法層出不群,它們針對長文本(新聞、博客 以及郵件等)往往有很好的聚類效果。但是隨著微博等社交形式爆發(fā)式的發(fā)展,挖掘潛藏在 這類短文本中的語義是非常必要的,然而由于短文本的關(guān)鍵特征非常稀疏且上下文依賴性 強,直接應(yīng)用長文本的聚類方法,產(chǎn)生的聚類效果不如人意。當然,我們知道,實際生活中的 文本集包括長文本集和短文本集兩種,目前為止,針對混合長度文本集的聚類方法還處于 不成熟階段,仍有許多改進之處。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明所要解決的技術(shù)問題是:提供一種基于DMR的混合長度文本集的文本聚類 方法,它能實現(xiàn)優(yōu)于現(xiàn)有技術(shù)的聚類效果。
[0007] 本發(fā)明是這樣實現(xiàn)的:基于DMR的混合長度文本集的文本聚類方法,包括如下步 驟: 1) 將原始的混合長度文本集進行文本預(yù)處理; 2) 將預(yù)處理好的文本集分為長文本集和短文本集; 3) 運用DMR方法對文本集進行建模; 4) 根據(jù)模型,獲得整個語料庫的主題-詞分布以及長短文本各自的文檔-主題分布; 5) 根據(jù)所述分布實現(xiàn)相應(yīng)的混合長度文本聚類。
[0008] 在步驟1)中所述的進行文本預(yù)處理,文本集采用與數(shù)據(jù)庫、圖形圖像或計算機網(wǎng) 絡(luò)相關(guān)的論文集,預(yù)處理包括分詞及去停用詞過程。
[0009] 步驟2)中將預(yù)處理好的文本集分為長文本集和短文本集,內(nèi)容小于140個字符的 文本集術(shù)語短文本集,否則則為長文本集;將文本集的每篇論文的Abstractb部分劃分到長 文本集,將文本集中每篇論文的標題劃分到短文本集中。
[0010] 步驟3)中所述的建模是利用長文本集輔助短文本集建模,兩者具有相同的詞-主 題分布。
[0011] 建模過程中,采用了狄利克雷多項式回歸的方法即DMR方法作為文檔-主題的對數(shù) 線性先驗。由于長短文本集各自的先驗信息不同,故長短文本會產(chǎn)生不同的先驗參數(shù),本模 型采用的先驗信息為當前文檔是長文本還是短文本,若為長文本則標記為1,若為短文本標 記為0。
[0012] 由于短文本具有特征稀疏性和上下文依賴性強的缺點,因此在對混合長度文本集 的建模過程中,借助長文本信息輔助短文本有助于產(chǎn)生相對較好的效果。在所述的建模過 程中,長短文本集具有相同的主題-詞分布,因此能夠達到長文本信息輔助短文本的目標。
[0013] 與現(xiàn)有技術(shù)相比,本發(fā)明是混合長度文本集,與傳統(tǒng)的長文本集相比,具有普適 性;并且采用了 DMR方法確定模型的先驗參數(shù),改進了傳統(tǒng)聚類使用人為設(shè)定先驗值得方 法;較傳統(tǒng)混合文本集而言,長短文本集共享相同的主題。本發(fā)明簡單易行,使用效果好。
【附圖說明】
[0014] 圖1是本發(fā)明的實施例的執(zhí)行流程圖; 圖2是本發(fā)明的實施例的模型。
【具體實施方式】
[0015] 本發(fā)明的實施例1:基于DMR的混合長度文本集的文本聚類方法,本實施例的流程 如圖所示: 首先執(zhí)行si步驟,獲取待聚類的混合文本集,本實施例采用的是源自Twitter的數(shù)據(jù) 集; 其次執(zhí)行s2,對混合長度文本集進行文本預(yù)處理工作;對英文文本來說,需要進行分 詞、去除停用詞、詞根還原等工作;經(jīng)過預(yù)處理步驟之后,去除文本中冗余的信息,使得文本 集變得簡潔工整非常節(jié)省資源且便于計算; 為了實現(xiàn)長文本更好的輔助短文本,執(zhí)行s3步驟,提取論文集中每篇論文中的 Abstract部分,將其納入到長文本集中,形成輔助文本集,否則提取每篇論文的標題,納入 到短文本集中,形成待輔助文本集; 長短文本被劃分完畢以后,執(zhí)行s4步驟建立模型;在該模型中,長短文本集共同使用了 一個主題-詞分布矩陣,是使用長文本輔助短文本的精髓所在;但另一方面因為要通過狄利 克雷多項式回歸方法確定各自不同的先驗參數(shù),所以各自的主題分布也是不相同的。如圖2 所示。
[0016] 首先解釋模型中的符號。本實例中主要的符號標量如表1所示。
[0017] 表1
下面說明本實例模型的生成過程:
建立模型之后,執(zhí)行本發(fā)明的s5步驟,在該步驟中,給每篇文檔中的每個詞賦予一個隨 機的主題,作為馬氏鏈的初始狀態(tài)。
[0018] 由于本實施例使用的是混合長度文本集,所以在更新文本主題時,若為長文本,則 執(zhí)行s6步驟,若為短文本,則執(zhí)行s7步驟。在這兩個步驟中,均使用吉布斯(Gibbs)采樣進行 主題更新,其更新規(guī)則如下:
當吉布斯取樣器達到收斂狀態(tài)時就可以得到采樣結(jié)果并通過統(tǒng)計得到參數(shù)估計。
[0019] 執(zhí)行s8步驟獲得短文本的文檔-主題分布,執(zhí)行s9獲取整個語料庫的主題-詞分 布,執(zhí)行slO步驟,獲得長文本的文檔-主題分布。
[0020] 執(zhí)行本發(fā)明的sll步驟,實現(xiàn)文本的聚類。
[0021] 以上是本發(fā)明的實施方式,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不 脫離本發(fā)明原理的情況下,可以做出若干改進,而這些改進也視為本發(fā)明的保護范圍。
【主權(quán)項】
1. 一種基于DMR的混合長度文本集的文本聚類方法,其特征在于:包括如下步驟: 1) 將原始的混合長度文本集進行文本預(yù)處理; 2) 將預(yù)處理好的文本集分為長文本集和短文本集; 3) 運用DMR方法對文本集進行建模; 4) 根據(jù)模型,獲得整個語料庫的主題-詞分布以及長短文本各自的文檔-主題分布; 5) 根據(jù)所述分布實現(xiàn)相應(yīng)的混合長度文本聚類。2. 根據(jù)權(quán)利要求1所述的基于DMR的混合長度文本集的文本聚類方法,其特征在于:在 步驟1)中所述的進行文本預(yù)處理,文本集采用與數(shù)據(jù)庫、圖形圖像或計算機網(wǎng)絡(luò)相關(guān)的論 文集,預(yù)處理包括分詞及去停用詞過程。3. 根據(jù)權(quán)利要求1所述的基于DMR的混合長度文本集的文本聚類方法,其特征在于:步 驟2)中將預(yù)處理好的文本集分為長文本集和短文本集,內(nèi)容小于140個字符的文本集術(shù)語 短文本集,否則則為長文本集;將文本集的每篇論文的Abstractb部分劃分到長文本集,將 文本集中每篇論文的標題劃分到短文本集中。4. 根據(jù)權(quán)利要求3所述的基于DMR的混合長度文本集的文本聚類方法,其特征在于:步 驟3)中所述的建模是利用長文本集輔助短文本集建模,兩者具有相同的詞-主題分布。
【文檔編號】G06F17/27GK106096014SQ201610469360
【公開日】2016年11月9日
【申請日】2016年6月25日
【發(fā)明人】黃瑞章, 閆盈盈, 王瑞, 鐘文良, 黃庭, 李晶, 陳功, 劉博偉, 朱坤, 王振軍
【申請人】貴州大學, 貴州耕云科技有限公司