專利名稱:一種基于分詞和詞性分析的后綴樹聚類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及應(yīng)用于搜索引擎的一種基于分詞和詞性分析的后綴樹聚類方法,屬于計算機(jī)科學(xué)技術(shù)領(lǐng)域。
背景技術(shù):
隨著信息技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)上的數(shù)據(jù)正在以驚人的速度增長,人們對網(wǎng)絡(luò)內(nèi)容的需求也越來越大,網(wǎng)絡(luò)內(nèi)容搜索成為目前應(yīng)用最為廣泛的一種互聯(lián)網(wǎng)服務(wù)。搜索引擎是進(jìn)行網(wǎng)絡(luò)內(nèi)容搜索的主要渠道,各國都在發(fā)展具有自主知識產(chǎn)權(quán)的搜索引擎,不斷開展對搜索引擎關(guān)鍵技術(shù)的研究。網(wǎng)絡(luò)上的內(nèi)容涉及方方面面,并且存在大量未經(jīng)整理與分類的信息,而這對想要快速獲取特定方面信息的人們來說造成了一定的困難。為幫助人們從這些大量的數(shù)據(jù)中分析出期間所蘊含的有價值的信息,數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取隱含在其中的知識的過程。聚類是數(shù)據(jù)挖掘采用的一種重要方法。它從數(shù)據(jù)庫中尋找數(shù)據(jù)間的相似性,并依次對數(shù)據(jù)進(jìn)行分類,使得同一類數(shù)據(jù)間的相似性盡可能高,不同類數(shù)據(jù)間的相似性盡可能低。不同的聚類算法有著不同的應(yīng)用背景,后綴樹聚類方法采用后綴樹模型來處理文本信息,能快速解決很多字符串方面的問題,其聚類準(zhǔn)確率比經(jīng)典的聚類算法(如K-Means算法)高,更適合應(yīng)用于文本數(shù)據(jù)的聚類。后綴樹聚類方法在處理的過程中仍有一些需要改進(jìn)的地方,比如,原始文檔過長,則計算機(jī)在處理的時候要求更多的時間;文本中存在很多冗余信息,計算機(jī)處理這些文本需要耗費大量的計算資源。不同類型的文本在詞語的結(jié)構(gòu)上有明顯的不同之處,采用相同的方式處理它們顯然并不是最佳的選擇。本發(fā)明提出一種基于分詞和詞性分析的后綴樹聚類方法,該發(fā)明通過對文檔進(jìn)行分詞處理、詞性統(tǒng)計、權(quán)重計算和主要成分提取的手段,提取文檔中的關(guān)鍵信息,降低待聚類信息的維度,從而降低后綴樹聚類的復(fù)雜度,同時可提高聚類結(jié)果的精確性。
發(fā)明內(nèi)容
本發(fā)明“一種基于分詞和詞性分析的后綴樹聚類方法”的目的在于提出一種改進(jìn)型的后綴樹聚類算法。該方法應(yīng)用于后綴樹聚類方法的文檔預(yù)處理階段,通過分詞和詞性分析從包含大量文字的待聚類文檔中提取摘要,以降低后綴樹聚類的復(fù)雜度。本發(fā)明的主要方法包括文檔分詞處理模塊、詞性分析模塊,后綴樹聚類模塊三部分。參照圖1:( I)文檔分詞處理模塊文檔分詞處理模塊完成去除停頓詞和文檔分詞處理兩個功能。無論是英 文還是中文,頁面內(nèi)容中都會有一些出現(xiàn)頻率很高,卻對內(nèi)容沒有任何影響的詞,如的、滴、得之類的助詞,啊、哈、呀之類的感嘆詞,從而,以、卻之類的副詞或者介詞,這些詞被稱為停頓詞。由于他們對頁面的主要意思沒有什么影響,在文檔預(yù)處理階段應(yīng)首先將其去掉。在英文的行文中,單詞之間是以空格作為自然分界符的,但中文只是字、句、段才能通過明顯的分界符來簡單劃界,詞語之間沒有一個形式上的分界符。雖然英文也同樣存在短語的劃分問題,不過在詞語這一層面上,中文比英文要復(fù)雜的多。目前中科院和復(fù)旦大學(xué)等都對分詞技術(shù)進(jìn)行了研究,并取得了良好的效果。在本發(fā)明中,文檔(如txt文檔)分詞處理模塊(如使用中科院的ICTCLAS分詞系統(tǒng))的功能為:分詞器把一個漢字序列切分成一個一個的詞語,同時,還為每個切分出來的詞語標(biāo)注出詞性信息。(2)詞性分析模塊詞性分析模塊完成詞性權(quán)重計算、句子主要成分提取兩個功能。該模塊旨在去除文檔中的非重要信息,僅把經(jīng)過降維處理后的文檔的主要成分交給后綴樹聚類方法,以降低聚類方法需要處理的維度和聚類過程的復(fù)雜度。目前聚類主要考慮的因素是語義而不是情感,因此詞性分析只需考慮包含語義信息的詞語即可。在各種詞性的詞語中,名詞和動詞包含了大量的語義信息,形容詞則反應(yīng)了情感傾向,因此在本發(fā)明中,詞性分析模塊只考查名詞和動詞這兩種詞性的詞語,其他詞性的詞語詞性分析模塊不予計算。本發(fā)明中的詞性分 析模塊分別計算文檔中名詞和動詞的比重,對兩者進(jìn)行比較,其中某種詞性比重大,則說明該種詞性的詞語區(qū)分能力強(qiáng),也即信息量更大,在本發(fā)明中把詞性比重大的詞語稱作為文檔的主要成分。該模塊功能的具體實現(xiàn)方式為:首先計算文檔中不重復(fù)的詞語的權(quán)重,然后分別計算動詞和名詞的權(quán)重和,最后,比較兩種詞性的詞語的權(quán)重和,取其大者作為句子的主要成分進(jìn)行提取。(3)后綴樹聚類模塊在搜索引擎中,數(shù)據(jù)聚類是為了將內(nèi)容相似的檢索結(jié)果聚合成一類,內(nèi)容不相似的檢索結(jié)果分開,以方便用戶能夠更加方便和快速地找到自己需要的內(nèi)容,而不用關(guān)注不相關(guān)的檢索結(jié)果。本發(fā)明采用了后綴樹聚類方法進(jìn)行文檔聚類。后綴的定義為:假設(shè)字符串S=sis2...fSn,其中Si屬于字符串集,那么Si=SiSw…8 是從位置i開始的后綴。后綴樹是一種基本的數(shù)據(jù)結(jié)構(gòu),它將字符串的所有后綴以樹的形式索引起來,使原字符串的任何一個子串都出現(xiàn)在樹中由根節(jié)點到某一個節(jié)點的路徑上。后綴樹聚類方法是一種線性時間復(fù)雜度的文檔聚類算法,主要思想是將每一個文檔看成一個字符串,構(gòu)建后綴樹,后綴樹中出現(xiàn)的相同的字符串被認(rèn)為是基本類,然后對基本類進(jìn)行合并,根據(jù)基本類的合并確定聚類結(jié)果。后綴樹聚類方法不是把文檔抽象為多維數(shù)組,也即一套詞的集合,而是將文檔看成字符串,一個有序的詞語的序列,因此后綴樹聚類方法保留了更多的原文檔中的信息,聚類結(jié)果更加準(zhǔn)確。本發(fā)明使用詞性分析模塊提取出的文檔的主要成分作為后綴樹聚類方法的輸入,這樣即可降低后綴樹聚類過程中的處理維度。
(4)本發(fā)明的執(zhí)行步驟參照圖2,下面給出該發(fā)明的具體實現(xiàn)步驟如下:步驟1:文檔分詞處理模塊去除停頓詞。文檔分詞處理模塊首先對進(jìn)入本發(fā)明的文檔進(jìn)行掃描,去除停頓詞,為了使計算機(jī)減少處理停頓詞的計算量。步驟2:文檔分詞處理模塊的分詞。文檔分詞處理模塊使用分詞工具對去除了停頓詞的文檔進(jìn)行分詞。分詞結(jié)束后,文檔分詞處理模塊對詞語標(biāo)注對應(yīng)的詞性,去除名詞和動詞以外詞性的詞語。步驟3:詞性分析模塊的詞性權(quán)重計算。詞性分析模塊計算分詞分出來的各個詞
語權(quán)重。步驟4:詞性分析模塊的句子主要成分提取。詞性分析模塊比較相同詞性的詞語的權(quán)重和,詞語權(quán)重越大,則說明該詞性詞語的集合能夠更好的代表原文檔的特征,也即可以當(dāng)做為原文檔的主要成分。從原文檔中提取該種詞性的詞語作為作為后綴樹聚類方法的輸入。步驟5:后綴樹聚類。后綴樹聚類模塊提取文檔的主要成分作為后綴樹聚類方法的輸入,使用后綴樹聚類方法進(jìn)行聚類,得到聚類結(jié)果。
圖1基于分詞方法和詞性分析的后綴樹聚類方法總體結(jié)構(gòu)示意2基于分詞方法和詞性分析的后綴樹聚類方法步驟示意圖
具體實施例方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例也僅僅是本發(fā)明的一部分實施例,而不是全部實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。為了說明“一種基于分詞和詞性分析的后綴樹聚類方法”,這里給出一個關(guān)于處理和聚類文檔“A.txt”的實例。A.txt各包含了一條有關(guān)“籃球”的介紹性語句,具體內(nèi)容為:“籃球是一個由兩隊參與的球類運動,每隊出場5名隊員。”—種基于分詞和詞性分析的后綴樹聚類方法的處理過程是:(I)去除停止詞階段。文檔分詞處理模塊首先掃描每個文檔,去除文檔中的停止詞(如“是”、“的”、“與”等),處理完成后的結(jié)果為:“籃球兩隊參與球類運動隊出場5名隊員”。(2)分詞階段。文檔分詞處理模塊把文檔分成分詞集合[籃球,參與,運動,…],并且詞性分析模塊為每個詞語標(biāo)注上詞性信息。具體的分詞及標(biāo)注結(jié)果為:“籃球/n兩/m隊/q參與/v球類/n運動隊/n出場/v5/f名/q隊員/η”。(3)權(quán)重計算階段。首先詞性分析模塊計算待考查的詞性的詞語(在本發(fā)明中為名詞和動詞)在文章中的 權(quán)重,例如,我們計算出詞語[籃球,參與,球類,運動隊,出場,隊員]的權(quán)重為=S1=0.15,S2=0.06,S3=0.18,S4=0.08,S5=0.05,S6=0.12。則 A.txt 文檔中名詞的權(quán)重和為=Sn=SASJSJS6=0.53,動詞的權(quán)重和為:Sv=S2+S5=0.11。(4)主要成分提取階段。詞性分析模塊比較A.txt文檔中名詞和動詞的權(quán)重和,如果Sn大于Sv,則說明名詞為文檔的主要成分,需要對名詞進(jìn)行提??;反之,如果Sv大于sn,則把動詞當(dāng)做主要成分進(jìn)行提取。顯然,對于在例句中,Sn大于Sv,也即在A.txt中,名詞為主要成分,提取的結(jié)果為:“籃球球類運動隊隊員”。(5)聚類階段。后綴樹聚類模塊把提取的文檔的主要成分作為聚類算法的輸入,利用后綴樹聚類方法進(jìn)行聚類,得到聚類結(jié)果。本發(fā)明的優(yōu)勢本發(fā)明提出一種基于分詞和詞性分析的后綴樹聚類方法,該發(fā)明用于降低文檔信息的維度并且提高聚類的精度。它與傳統(tǒng)后綴樹聚類方法的區(qū)別在于,該方法只對提取出來的文檔主要成分進(jìn)行聚類,在保證 聚類精度的情況下降低了處理的復(fù)雜度。
權(quán)利要求
1.本發(fā)明提出一種基于分詞和詞性分析的后綴樹聚類方法,包括分詞方法、詞性分析、基于主要成分的后綴樹聚類,該發(fā)明應(yīng)用于搜索引擎中。
本發(fā)明的主要特點有: (1)該方法在分詞中,按名詞和動詞進(jìn)行分詞,并去除其它詞性詞。
(2)該方法在詞性分析中,區(qū)分詞語的詞性,按詞性計算詞語的權(quán)重,確定詞語的重要成分。
(3)該方法在權(quán)重計算中,計算單個詞語的權(quán)重,再計算相同詞性詞語的權(quán)重和。
(4)該方法在 聚類中,只針對某一詞性的詞語進(jìn)行提取,具有降維的能力。
全文摘要
本發(fā)明提出一種基于分詞和詞性分析的后綴樹聚類方法,該發(fā)明由文檔分詞處理模塊、詞性分析模塊和后綴樹聚類模塊三部分組成,完成文檔的分詞處理,詞性標(biāo)注,詞語權(quán)重的計算和文檔主要成分的提取,能夠?qū)崿F(xiàn)對原始文檔降維處理,降低了后綴樹聚類方法在處理過程中的復(fù)雜度,同時保證了聚類的精度。
文檔編號G06F17/30GK103226546SQ20131012977
公開日2013年7月31日 申請日期2013年4月15日 優(yōu)先權(quán)日2013年4月15日
發(fā)明者陸月明, 張吉偉, 黨秋月 申請人:北京郵電大學(xué)