本發(fā)明涉及自然語言處理領(lǐng)域,特別涉及基于潛在語義分析的自動摘要抽取方法及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為了人們獲取信息的主要渠道,互聯(lián)網(wǎng)上的文檔數(shù)據(jù)內(nèi)容也呈現(xiàn)出指數(shù)級增長的趨勢?;ヂ?lián)網(wǎng)上的文檔數(shù)據(jù)中包含了豐富的信息,如何有效的閱讀和篩選對我們有用的信息已經(jīng)成為我們關(guān)注的重點。自動文檔摘要技術(shù)對文檔信息進行壓縮表示,幫助用戶更好的瀏覽和吸收互聯(lián)網(wǎng)上的海量信息。
自動摘要技術(shù)是自然語言處理領(lǐng)域的一個研究熱點。根據(jù)摘要內(nèi)容的生產(chǎn)方式,可以分為抽取式摘要和生成式摘要;根據(jù)生成的摘要是否依賴查詢關(guān)鍵字,可以分為查詢相關(guān)自動摘要和查詢無關(guān)自動摘要;根據(jù)摘要生成依賴的文檔數(shù)量,可以分為單文檔摘要和多文檔摘要。
目前成熟的摘要系統(tǒng)都是基于抽取式摘要生成技術(shù),通常的做法是將文檔切分為句子集合,對句子進行打分,選取得分高的句子作為摘要。可以使用tf-idf技術(shù)計算每個句子的得分,或使用基于圖的算法對句子進行打分,如textrank和lexpagerank算法等。目前的自動摘要技術(shù)中,基于tf-idf技術(shù)計算句子得分時,并沒有考慮語義信息,具有相同意義的詞往往tf-idf值是不同的,會導(dǎo)致具有相同意義的句子最終的得分差距較大,進而影響生產(chǎn)的摘要質(zhì)量;基于圖模型的摘要生成算法,將句子作為圖中的節(jié)點,將句子之間的關(guān)系作為圖中的邊,通常使用相似性來度量句子間的關(guān)系,然而目前的相似度度量大多還是基于字面而不是語義相似的;生成式摘要技術(shù)通過使用句子融合、句子壓縮及語言生成等自然語言處理技術(shù)生成文檔的摘要,但目前句子融合、句子壓縮和語言生成的相關(guān)技術(shù)還不夠成熟,導(dǎo)致生成的摘要存在語法錯誤、邏輯不連貫或上下文銜接生硬等問題。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供基于潛在語義分析的自動摘要抽取方法及系統(tǒng),在抽取句子生成摘要的時候,采用了潛在語義分析模型,充分考慮了詞語在文檔中的共現(xiàn)信息和語義信息,而不是簡單基于詞頻或句子間的相互“推薦”而進行句子選擇,使得生成的摘要能更好的反應(yīng)文檔所表述的主題。
為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:基于潛在語義分析的自動摘要抽取方法,使用潛在語義分析計算出待抽取文檔的潛在語義分析表示向量q1;構(gòu)建出待抽取文檔中語義單元的潛在語義表示向量q2;計算q1和q2的余弦相似度;抽取相似度數(shù)值最大的前n個語義單元作為待抽取文檔的摘要。
所述方法包含以下實現(xiàn)步驟:
(1)對語料庫進行分詞,構(gòu)建出對應(yīng)的詞語索引庫;
(2)構(gòu)建出語料庫中文檔和詞語的共現(xiàn)矩陣a;其中矩陣的一列代表一篇文檔,矩陣的一行代表一個詞;
(3)對矩陣a進行奇異值分解,公式如下:a=usvt;
(4)在矩陣s中選取值較大的前k個奇異值,對矩陣a進行降維處理,得到
(5)計算待抽取文檔的潛在語義表示向量
(6)對待抽取文檔,進行語義單元的切分;切分后的語義單元形成語義單元集合;計算語義單元的潛在語義表示向量
(7)計算待抽取文檔潛在語義表示向量q1與其切分后每個語義單元的潛在語義表示向量q2的余弦相似度;保留余弦相似度值最高的前n個語義單元作為待抽取文檔的摘要。
進一步的,所述步驟(1)中對分詞后語料庫中的文檔還包含去高頻詞、去停用詞的預(yù)處理步驟。
進一步的,所述步驟(6)中,根據(jù)來句號、感嘆號、問號、省略號為基準(zhǔn)來進行語義單元的切分。
進一步的,還包含對所述步驟(7)中已抽取為待選語義單元進行進一步篩選的,所述過程是指:通過上述方法抽取出的摘要后,計算摘要各個語義單元中,各個語義單元之間的余弦相似度,當(dāng)兩個語義單元之間的余弦相似度值高于設(shè)置的閾值,時僅保留與文檔的潛在語義表示向量余弦相似度值較大的語義單元作為摘要句,而將另外一個語義單元舍棄。
基于潛在語義分析模型的摘要自動生成系統(tǒng);所述系統(tǒng)加載有本基于潛在語義分析的自動摘要抽取方法功能程序的計算機或者服務(wù)器。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明提供基于潛在語義分析的自動摘要抽取方法及系統(tǒng),所述方法在抽取句子生成摘要的時候,采用了潛在語義分析模型,使用一個較大的語料庫來構(gòu)造潛在語義分析模型,根據(jù)模型計算待抽取文本和待抽取語義單元的語義相似度;充分考慮了詞語在文檔中的共現(xiàn)信息和語義信息,而不是簡單基于詞頻或句子間的相互“推薦”而進行句子選擇,使得生成的摘要能更好的反應(yīng)文檔所表述的主題。本發(fā)明方法不進行語義壓縮、句子融合和語言生成,以句子來作為摘要抽取語義單元,有效減低所生成摘要的語法錯誤,使得摘要信息的表達(dá)語義連貫,銜接順暢。不僅如此本發(fā)明方法在初步抽取出摘要句子的基礎(chǔ)上,進行進一步的計算,計算待選句之間的語義相似度,去除語義重復(fù)的待選句,有效降低摘要中的冗余信息,使得生成的摘要句更具多樣性。此外本發(fā)明系統(tǒng)基于本發(fā)明方法為文檔摘要的自動抽取提供工具。
附圖說明:
圖1為本基于潛在語義分析模型的摘要抽取方法的實現(xiàn)過程示意圖;
圖2為本基于潛在語義分析模型的摘要抽取方法的lsa模型構(gòu)建過程;
圖3為本基于潛在語義分析模型的摘要抽取方法中帶抽取文檔的lsa向量的獲取過程。
具體實施方式
下面結(jié)合試驗例及具體實施方式對本發(fā)明作進一步的詳細(xì)描述。但不應(yīng)將此理解為本發(fā)明上述主題的范圍僅限于以下的實施例,凡基于本發(fā)明內(nèi)容所實現(xiàn)的技術(shù)均屬于本發(fā)明的范圍。
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供基于潛在語義分析的自動摘要抽取方法,在抽取句子生成摘要的時候,采用了潛在語義分析模型,充分考慮了詞語在文檔中的共現(xiàn)信息和語義信息,而不是簡單基于詞頻或句子間的相互“推薦”而進行句子選擇,使得生成的摘要能更好的反應(yīng)文檔所表述的主題。
為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:基于潛在語義分析的自動摘要抽取方法,使用潛在語義分析計算出待抽取文檔的潛在語義分析表示向量q1,構(gòu)建出待抽取文檔中語義單元的潛在語義表示向量q2,計算q1和q2的余弦相似度;抽取相似度數(shù)值最大的前n個語義單元作為待抽取文檔的摘要。
所述方法實現(xiàn)過程如圖1所示:包含以下實現(xiàn)步驟:
(1)對語料庫進行分詞,構(gòu)建出對應(yīng)的詞語索引庫。語料的選擇根據(jù)所要抽取摘要的文檔類型而定,比如說,待抽取摘要的文檔,主要涉及財經(jīng)新聞類,那么語料庫中所包含的文檔主要為財經(jīng)新聞;或者待抽取摘要的文檔為某一領(lǐng)學(xué)術(shù)論文,則語料庫中以該領(lǐng)域的對應(yīng)文檔為主。此外本步驟中的語料庫所包含的文檔數(shù)量大于等于待抽取摘要的文檔總數(shù),比如說待抽取文檔數(shù)量為500篇,語料庫中包含的文檔數(shù)量是2000篇?;蛘叽送猱?dāng)待抽取文檔的數(shù)量足夠多時,比如大于2000篇,此時語料庫可以由所有待抽取摘要文檔構(gòu)成。
本步驟中構(gòu)建詞語索引庫時,包含對語料庫中文檔進行預(yù)處理的步驟,所述預(yù)處理包括:分詞,對分詞后的結(jié)果進行去高頻詞,去停用詞等,預(yù)處理的目的在于,去除不反應(yīng)文檔主題的常用詞匯,降低后續(xù)計算的復(fù)雜度,提高分析的準(zhǔn)確率。
(2)構(gòu)建出語料庫中文檔和詞語的共現(xiàn)矩陣a;其中矩陣的一列代表一篇文檔,矩陣的一行代表一個詞。文檔和詞語的共現(xiàn)矩陣a,是指經(jīng)過預(yù)處理后的語料庫中的每篇文檔,統(tǒng)計其中每個詞的在每篇文檔中的出現(xiàn)次數(shù),并將每篇文檔映射成矩陣a的對應(yīng)一列向量,將每個詞根據(jù)其在各個文檔中的出次數(shù),映射成矩陣a的一行向量。矩陣a的每個元素值對應(yīng)表示該行所代表的詞在該列所代表的文檔中的出現(xiàn)次數(shù)。比如說:語料庫中包含5篇文檔,經(jīng)過預(yù)處理后包含的詞語數(shù)是500個,對應(yīng)a為一個500*5的矩陣,其中元素aij表示的第i行向量代表的詞在第j列向量所代表的文檔中的出現(xiàn)次數(shù)。
(3)對矩陣a進行奇異值分解,公式如下:a=usvt;
(4)在矩陣s中選取值較大的前k個奇異值,對矩陣a進行降維處理,得到
(5)計算待抽取文檔的潛在語義表示向量
(6)將待抽取文檔,根據(jù)包含句號、感嘆號、問號、省略號為基準(zhǔn)進行語義單元的切分;切分后的語義單元形成語義單元集合;計算語義單元的潛在語義表示向量
(7)計算待抽取文檔潛在語義表示向量q1與其對應(yīng)每個語義單元的潛在語義表示向量q2的余弦相似度;
對計算出的相似度進行從大到小的排列,保留余弦相似度值最高的前n個語義單元作為待抽取文檔的摘要。
經(jīng)過潛在語義分析模型得到了文檔的潛在語義表示向量q1,經(jīng)過同樣的方法獲得了語義單元的潛在語義表示向量q2;充分考慮了詞語在文檔中的共現(xiàn)信息和語義信息,而不是簡單基于詞頻或句子間的相互“推薦”而進行句子選擇,使得生成的摘要能更好的反應(yīng)文檔所表述的主題。
進一步的,通過上述方法抽取出的摘要后,計算摘要句子中,各個句子之間的余弦相似度,當(dāng)兩個句子之間的余弦相似度值高于設(shè)置的閾值,時僅保留與文檔的潛在語義表示向量余弦相似度值較大的句子作為摘要句,而將另外一個句子舍棄,通過這樣的計算方法比較已抽取摘要句子之間的相似程度,將相似程度很高的句子進行篩選,刪減;去除語義重復(fù)的語義單元;有效降低摘要中的冗余信息。
進一步的,本發(fā)提供基于潛在語義分析的自動摘要抽取系統(tǒng);所述系統(tǒng)加載有本基于潛在語義分析的自動摘要抽取方法功能程序的計算機或者服務(wù)器。為文檔的摘要自動抽取提供有力的工具。