專利名稱::基于偏最小二乘的文本語義提取方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種文本語義提取方法,特別是一種利用偏最小二乘分析文本結(jié)構(gòu)的文檔語義提取方法。技術(shù)背景對于文本的語義分析對于提高文檔分析的性能具有十分顯著的效果。特別是隨著信息化和實(shí)際生活中各類電子文檔的大量增加,文檔的自動語義分析在有著越來越重要的應(yīng)用價值。比如數(shù)字圖書館、信息檢索、文本分類、垃圾郵件過濾等等應(yīng)用問題,語義知識的分析均是相關(guān)的關(guān)鍵技術(shù)之一。文本語義提取的方法分為兩大類手工標(biāo)定和自動抽取。手工標(biāo)定的方法又可以分為完全手工和半手工標(biāo)定。其特點(diǎn)是準(zhǔn)確度比較高,但需要領(lǐng)域?qū)<业膮⑴c。由于領(lǐng)域?qū)<抑R的獲取有很大的成本,限制了這種方法的應(yīng)用。自動抽取的方法利用文檔集內(nèi)在的統(tǒng)計(jì)特性,提取潛在語義。語義的提取過程自動完成,不需要領(lǐng)域?qū)<业膮⑴c;其缺點(diǎn)是提取出的語義的可解釋性稍差。自動語義提取技術(shù)在實(shí)際問題中已有比較廣泛的應(yīng)用,但常規(guī)方法在語義提取過程中并未考慮類標(biāo)信息。比如最常用的潛在語義索引(LatentSemanticIndexing:LSI)方法,利用奇異值分解得到對原始文檔集具有最大解釋能力的潛在語義,而并未利用任何有監(jiān)督問題中的類標(biāo)信息。在有監(jiān)督問題中,如何快速有效的提取出文檔的潛在語義是自動語義提取技術(shù)的難點(diǎn)之一。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種適用于有監(jiān)督問題的基于偏最小二乘的文本語義提取方法,能可靠、快速的提取文檔語義。為了實(shí)現(xiàn)這個目的,本發(fā)明的構(gòu)思是文本先采用向量空間模型表示成向量形式,這樣可以得到文檔集矩陣X和其對應(yīng)的類標(biāo)信息矩陣Y,然后利用偏最小二乘模型對X和Y進(jìn)行分析,抽取出文檔的潛在語義,最后在提取出的語義空間進(jìn)行文本的各種分析。根據(jù)上述的發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案一種基于偏最小二乘的文本語義提取方法,其特征在于將文檔在向量空間模型表示后,利用偏最小二乘模型對數(shù)據(jù)進(jìn)行分析,提取出對原始數(shù)據(jù)具有最大表示能力同時又與類標(biāo)信息相關(guān)的潛在語義,而后在該語義空間上進(jìn)行文檔分析。其具體操作步驟如下(1)文檔預(yù)處理,包括中文分詞(將連續(xù)的文檔拆分為一個個獨(dú)立的詞,英文文檔可省略本步驟)和去除停用詞(如中文的"的"、"了",英文的"the"、"a"等無具體意義的詞)兩個步驟;(2)統(tǒng)計(jì)詞頻,建立文檔的在向量空間模型下的向量表示,得到數(shù)據(jù)矩陣X和類別矩陣Y;(3)基于矩陣X和矩陣Y,進(jìn)行偏最小二乘分析,得到各個潛在語義的投影方向;(4)利用得到的語義投影方向,得到待分析文檔在語義空間上的語義表示;(5)在新的語義空間下,對文檔進(jìn)行各種分析。上述的基于偏最小二乘的文本語義提取方法,所述的步驟(3)中的偏最小二乘分析的具體算法如下-輸入數(shù)據(jù)矩陣X、類別矩陣Y、閾值e(缺省為0.01)輸出語義投影方向矩陣SE0=X;F0=Y;k=0;ESP,。I;DOWHILEESP〉ek=k+l;ut=Ft—,的第一行;DOuntil^收斂<formula>formulaseeoriginaldocumentpage5</formula><formula>formulaseeoriginaldocumentpage6</formula>上述的語義提取方法的步驟(4)中,給定文檔向量x『,其對應(yīng)的在潛在語義空間的表示f的計(jì)算方法如下-本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下顯而易見的突出實(shí)質(zhì)性特點(diǎn)和顯著優(yōu)點(diǎn)本發(fā)明利用偏最小二乘模型對數(shù)據(jù)進(jìn)行分析,能可靠、快速提取文檔語義。圖1為本發(fā)明的提取潛在語義的原理圖。圖2為本發(fā)明的文檔語義提取的流程圖。圖3是對實(shí)施例文檔集的整體進(jìn)行語義分析,并將其表示在語義空間下的結(jié)果圖。圖4是將實(shí)施例文檔集為訓(xùn)練集和測試集后進(jìn)行語義分析,并將其表示在語義空間下的結(jié)果圖。具體實(shí)施例方式本發(fā)明的一個優(yōu)選實(shí)施例結(jié)合附圖詳述如下-參見圖1和圖2,本基于最小二乘的文本語義提取方法是將文檔在向量空間模型表示后,利用偏最小二乘模型對數(shù)據(jù)進(jìn)行分析,提取出對原始數(shù)據(jù)具有最大表示能力同時又與類標(biāo)信息相關(guān)的潛在語義,而后在該語義空間上進(jìn)行文檔分析,其具體操作步驟如下(1)給定待分析的文檔集本例子采用了一個有9篇文檔的英文文檔集,文檔分為兩個類別,具體的文檔集詳見表l。(2)建立文檔的在向量空間模型下的向量表示去除停用詞后,共保留了12個詞,通過對這些詞進(jìn)行詞頻統(tǒng)計(jì),將文檔表示為相應(yīng)的向量形式,并得到相應(yīng)的數(shù)據(jù)矩陣X和類標(biāo)矩陣Y,詳見表2;(3)對文檔集整體進(jìn)行偏最小二乘分析,并得到相應(yīng)的語義投影方向取前兩個語義的投影方向,具體如下-《=(0.28,0.28,0.28,0.42,0.57,0.28,0.28,0.28,0.15,0.01,0.01,0.01)7《2=(0.02,0.02,0.01,0.02,0.03,0.01,0.01,0.01,-0.02,-0.63,-0.63,-0.42)r將9篇文檔投影到這兩個語義方向上,得到文檔在語義空間下的表示,詳見圖3;(4)將9篇分為訓(xùn)練集和測試集訓(xùn)練集包括c2、c3、c4、c5、m3、m4共6篇文檔,測試集包括cl、iiil、m2共3篇文檔。對訓(xùn)練文檔集進(jìn)行偏最小二乘分析,并得到相應(yīng)的語義投影方向取前兩個語義的投影方向,具體如下《=(0.16,0.16,0.16,0.47,0.62,0.31,0.31,0.31,0.16,0.00,0.01,0,Olf《2=(0.01,0.01,0.01,0.03,0.03,0.02,0.02,0.02,-0.31,-0.32,-0.63,-0.63)7'將6篇訓(xùn)練文檔和3篇測試文檔投影到這兩個語義方向上,得到文檔在語義空間下的表示,詳見圖4;(5)進(jìn)行文檔分析從步驟(3)和步驟(4)的結(jié)果可以看出,語義空間下的文檔表示具有很高的區(qū)分能力;同一個類別的文檔被表示到同一個語義軸上。如對步驟(4)的測試文檔進(jìn)行文本分類實(shí)驗(yàn),以簡單的基于質(zhì)心的分類算法進(jìn)行分類,3篇測試文檔均能被正確分類。表1待處理的例子文檔集<table>tableseeoriginaldocumentpage7</column></row><table>表2文檔集在向量空間模型下的表示結(jié)果<table>tableseeoriginaldocumentpage8</column></row><table>權(quán)利要求1.一種基于偏最小二乘的文本語義提取方法,其特征在于將文檔在向量空間模型表示后,利用偏最小二乘模型對數(shù)據(jù)進(jìn)行分析,提取出對原始數(shù)據(jù)具有最大表示能力同時又與類標(biāo)信息相關(guān)的潛在語義,而后在該語義空間上進(jìn)行文檔分析,其具體操作步驟如下a.文檔預(yù)處理。包括中文分詞和去除停用詞步驟;b.統(tǒng)計(jì)詞頻,建立文檔在向量空間模型下的向量表示,得到數(shù)據(jù)矩陣X和類別矩陣Y;c.基于矩陣X和矩陣Y,進(jìn)行偏最小二乘分析,得到各個潛在語義的投影方向;d.利用得到的語義投影方向,得到待分析文檔在語義空間上的語義表示;e.在新的語義空間下,對文檔進(jìn)行各種分析。2.根據(jù)權(quán)利要求1所述的基于偏最小二乘的文本語義提取方法,其特征在于所述的步驟(3)中的偏最小二乘分析的具體方法如下輸入數(shù)據(jù)矩陣X、類別矩陣Y、閾值e,缺省為0.01,輸出語義投影方向矩陣SE0=X;F0=Y;k=0;ESP=||E0|;DOWHILEESP>ek=k+l;ut=Fy的第一行;DOuntil^收斂&=E:_lUjt/u;X;ENDDO<formula>formulaseeoriginaldocumentpage2</formula>3.根據(jù)權(quán)利要求l所述的基于偏最小二乘的文本語義提取方法,其特征在于所述的步驟(4)中,給定文檔向量Z,其對應(yīng)的在潛在語義空間的表示產(chǎn)的計(jì)算方法如下全文摘要本發(fā)明涉及一種基于偏最小二乘的文本語義提取方法。它是將文檔在向量空間模型表示后,利用偏最小二乘模型對數(shù)據(jù)進(jìn)行分析,提取出對原始數(shù)據(jù)具有最大表示能力同時又與類標(biāo)信息相關(guān)的潛在語義,而后在該語義空間上進(jìn)行文檔分析。本方法能可靠、快速提取文檔語義。文檔編號G06F17/27GK101261624SQ20081003639公開日2008年9月10日申請日期2008年4月21日優(yōu)先權(quán)日2008年4月21日發(fā)明者曾雪強(qiáng),李國正申請人:上海大學(xué)