專利名稱:一種基于文檔擴(kuò)展的單文檔摘要方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語言文字處理及信息檢索技術(shù)領(lǐng)域,具體涉及一種基于文檔擴(kuò)展的單文檔摘要方法。
背景技術(shù):
單文檔自動摘要指自動從給定文檔中摘取精要或要點,其目的是通過對原文本進(jìn)行壓縮、提煉,為用戶提供簡明扼要的內(nèi)容描述。單文檔自動摘要是自然語言處理領(lǐng)域的核心問題之一,廣泛應(yīng)用于文檔/Web搜索引擎、企業(yè)內(nèi)容管理系統(tǒng)和知識管理系統(tǒng)(如方正博思和方正智思)等。
概括來說,多文檔摘要的方法可分為基于句子生成的方法(Extraction)和基于句子抽取的方法(Abstraction)?;诰渥由傻姆椒▌t需要利用深層的自然語言理解技術(shù),在對原文檔進(jìn)行句法、語義分析之后,利用信息抽取或自然語言生成技術(shù)產(chǎn)生新的句子,從而形成摘要?;诰渥映槿〉姆椒ū容^簡單實用,不需要利用深層的自然語言理解技術(shù);該方法在對文本進(jìn)行分句之后,對每個句子賦予一定權(quán)重,反映其重要性,然后選取權(quán)重最大的若干個句子形成摘要。抽取句子的關(guān)鍵一步是對句子賦予權(quán)值反映其重要性,這個過程通常需要綜合考慮句子的不同特征,例如詞頻、句子位置、線索詞(Cue Words)、垃圾詞(Stigma Words)等。目前大部分多文檔摘要的方法都是基于句子抽取技術(shù),現(xiàn)有文獻(xiàn)中記載了多種關(guān)于單文檔自動摘要的方法。
文章The automated acquisition of topic signatures for textSummarization(作者為C.-Y.Lin和E.Hovy,發(fā)表于2000年出版的論文集Proceedings of ACL2000)描述了SUMMARIST系統(tǒng),該系統(tǒng)利用主題簽名(Topic Signature)來表示文檔主題,一個主題簽名由一個主題概念和若干相關(guān)詞匯組成,然后根據(jù)主題簽名抽取句子形成摘要。文章Efficient text summarization using lexical chains(作者為H.G.Silber和K.McCoy,發(fā)表于2000年出版的論文集Proceedings of the 5thInternational Conference on Intelligent User Interfaces)先對文檔進(jìn)行分析,得到詞匯鏈(Lexical Chain),一個詞匯鏈?zhǔn)俏臋n中一個相關(guān)詞的序列。每個句子以其包含的總詞鏈值作為權(quán)重。文章A.trainabledocument summarizer(作者為J.Kupiec,J.Pedersen和F.Chen,發(fā)表于1995年出版的論文集Proceedings of SIGIR1995)將摘要問題看作是句子是否屬于摘要的二類劃分問題,利用貝葉斯分類器綜合多種特征對句子進(jìn)行選擇。文章The use of MMR,diversity-based reranking forreordering documents and producing summaries(作者為Jaime Carbonell和Jade Goldstein,發(fā)表于1998年出版的論文集Proceedings ofSIGIR1998)描述了最大邊緣相關(guān)性(MMR)技術(shù),常用來抽取既跟文檔查詢相關(guān)又具有一定新穎性的句子。文章Generic text summarization usingrelevanee measure and latent semantic analysis(作者為Y.H.Gong和X.Liu,發(fā)表于2001年出版的論文集Proceedings of SIGIR2001)采用了隱含語義分析(LSA)從新的語義空間抽取句子,并且根據(jù)相關(guān)度量準(zhǔn)則(Relevance Measure)在每次抽取一個跟文檔最相關(guān)的句子后,就從文檔中去掉這個句子中包含的詞,這樣保證每次抽取句子的新穎性。此外,文章TextRankbringing order into texts(作者為R.Mihalcea和P.Tarau,發(fā)表于2004年出版的論文集Proceedings of EMNLP2004)和文章Alanguage independent algorithm for single and multiple documentsummarization(作者為R.Mihalcea和P.Tarau,發(fā)表于2005年出版的論文集Proceedings of IJCNLP2005)提出了基于圖排列的方法對文檔中句子進(jìn)行排列。文檔中的句子作為圖中的頂點,根據(jù)句子之間的相似關(guān)系建立連接,然后基于該圖利用類似PageRank或HITS算法計算句子重要性。這類方法基于句子對句子的“選舉”或“推薦”,相鄰的句子之間互相“選舉”或“推薦”,一個句子獲得的“選舉”或“推薦”越多,該句子越重要?!斑x舉”或“推薦”者的重要程度決定了其做出的“選舉”或“推薦”的重要性。
以上單文檔自動摘要方法都只利用了單篇文檔自身的信息,沒有利用其他相關(guān)文檔的信息?,F(xiàn)實中大量文檔是主題相關(guān)的,具有信息冗余特性,一篇文檔所反映的重要信息通常也被反映在跟這篇文檔主題相似的多個其他文檔中。
發(fā)明內(nèi)容
針對現(xiàn)有單文檔自動摘要技術(shù)中存在的缺陷,本發(fā)明的目的是提供一種基于文檔擴(kuò)展的單文檔摘要方法,該方法能夠利用重要信息在多個相似文檔中冗余存在的特性更好地衡量待摘要文檔中句子的重要性,從而為該文檔生成更好的單文檔摘要。
為達(dá)到以上目的,本發(fā)明采用的技術(shù)方案是一種基于文檔擴(kuò)展的單文檔摘要方法,包括以下步驟(1)給定某個待摘要文檔d,從文檔集D中找到與該文檔最相似的k篇文檔,k為正整數(shù);(2)讀入這k+1篇文檔,對每篇文檔分句、分詞,得到句子集合S={s1,s2,...,sn},n為句子集合S中所有句子的數(shù)量;然后對該句子集合S構(gòu)建句子關(guān)系圖G;(3)基于步驟(2)得到的句子關(guān)系圖G迭代計算每個句子的信息豐富程度;(4)對文檔d中的句子進(jìn)行文檔內(nèi)差異性懲罰,得到文檔d中每個句子的最終權(quán)重值;(5)根據(jù)文檔d中每個句子的最終權(quán)重值,選擇權(quán)重值大的句子形成摘要。
進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(1)為給定文檔d從文檔集D中查找與該文檔最相似的k篇文檔時,具體方法為基于文檔搜索引擎以文檔d作為查詢,從文檔集中檢索出與d最相似的k篇文檔。通常檢索函數(shù)為常用的余弦相似度計算公式,詞權(quán)重的計算采用典型的tf*idf計算方法,其中tf為詞在文檔中的頻率,idf為詞的倒排文檔頻率。為確保能夠檢索到與給定文檔相似的文檔,文檔集應(yīng)盡可能與待摘要文檔屬于同一領(lǐng)域(例如娛樂或體育等)。
再一步,為使本發(fā)明獲得更好的發(fā)明效果,所述步驟(1)中給定文檔d從文檔集D中查找與該文檔最相似的k篇文檔時,k的范圍通常為5-15。
進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(2)對得到的k+1篇文檔(包括給定文檔d)對應(yīng)的句子集合S構(gòu)建句子關(guān)系圖G的步驟如下對S中任意兩個不同的句子si和sj利用下列余弦公式計算相似度值sim(si,sj)=cos(sρi,sρj)=sρi·sρj||sρi||·||sρj||---(1)]]>其中,1≤i,j≤n,i≠j,每個句子向量的每一維為句子中的一個詞,詞t權(quán)重為tft*isft,tft為詞t在句子中的頻率,isft為詞t的倒排句子頻率,也就是1+log(N/nt),其中N是背景文檔集合中所有句子的數(shù)量,nt是其中包含詞t的句子的數(shù)量,所述的背景文檔集合通常比較大,使得計算出來的isf值更為準(zhǔn)確。
如果sim(si,sj)>0,那么在si和sj之間建立一條連接,也就是在圖G中si和sj之間添加一條邊;得到的圖G的鄰接矩陣為M=(Mi,j)n×n定義如下 矩陣M經(jīng)過如下規(guī)范化使得每一行元素值之和為1,得到新的鄰接矩陣 進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(3)中根據(jù)圖G迭代計算句子的信息豐富程度時,采用如下方法句子的信息豐富程度反映了該句子包含的主題信息的多少,在得到句子鄰接矩陣 之后,利用如下的公式迭代計算句子集合S中每個句子si的信息豐富程度InfoRich(si)InfoRich(si)=d·Σall j≠iInfoRich(sj)·M~j,i+(1-d)n---(4)]]>其中公式(4)等號右邊的InfoRich(sj)表示經(jīng)過上次迭代過程計算得到的句子sj的信息豐富程度,而公式(4)等號左邊的InfoRich(si)則表示當(dāng)前得到的句子si的新的信息豐富程度;d為阻尼因子,通常設(shè)為0.85。
上式用矩陣形式表示為λρ=dM~Tλρ+(1-d)neρ---(5)]]>其中 為一個n維向量,每一維表示一個句子的信息豐富程度,上標(biāo)T表示矩陣的轉(zhuǎn)置, 是一個n維單位向量。
每一次迭代過程均基于上次迭代計算得到的句子信息豐富程度,利用上式計算每個句子的新的信息豐富程度,直到所有句子的前后兩次迭代計算得到的信息豐富程度不再變化為止,或者實際計算時所有句子的信息豐富程度的變化小于設(shè)定的閾值。
再一步,為使本發(fā)明獲得更好的發(fā)明效果,所述步驟(3)中設(shè)定句子的信息豐富程度的變化小于閾值時,所述閾值設(shè)定為0.0001。
進(jìn)一步,為使本發(fā)明獲得更好的發(fā)明效果,步驟(4)中對文檔d中的句子進(jìn)行文檔內(nèi)差異性懲罰,從而保證候選句子的新穎性的具體方法如下1)令待摘要文檔d對應(yīng)的句子集合為Sd,句子個數(shù)為m(m<n),令該文檔對應(yīng)的局部句子關(guān)系圖為Gd,其中的頂點集合為sdk,鄰接矩陣Md=(Md)m×m可從步驟(2)所得到的句子關(guān)系圖G對應(yīng)的鄰接矩陣M中抽取相對應(yīng)的元素得到,也就是如果文檔d中的兩個句子在局部關(guān)系圖Gd中的表示為si和sj,在句子關(guān)系圖G中表示為si′和sj′,那么有(Md)i,j=Mi′,j′。然后將Md規(guī)范化到Md使得每一行元素值之和為1。
2)對文檔d初始化兩個集合A=φ,B={si|i=1,2,...,m},B包括文檔d中的所有句子。每個句子的最終權(quán)重值初始化為其信息豐富程度,也就是說ARScore(si)=InfoRich(si),i=1,2,...m;3)按照當(dāng)前最終權(quán)重值降序排列B中的句子;4)假定si是排名最高的句子,也就是序列中第一個句子,將si從B移到A,并且對B中每一個和si相鄰接的句子sj(j≠i)進(jìn)行如下的差異性懲罰ARScore(sj)=ARScore(sj)-(M~d)j,i·InfoRich(si)---(6)]]>5)循環(huán)執(zhí)行步驟3)和步驟4),直到B=φ。
根據(jù)上述步驟得到的文檔d中每個句子的最終權(quán)重值綜合反映了該句子的信息豐富程度和信息新穎程度。
進(jìn)一步,步驟(4)中,選擇權(quán)重值最大的2-10個句子形成摘要。
本發(fā)明的效果在于采用本發(fā)明所述的方法克服了現(xiàn)有單文檔摘要方法沒有考慮相似文檔間信息冗余特性的缺點,能夠從單文檔中抽取真正重要的句子。
本發(fā)明之所以具有上述發(fā)明效果,是因為本發(fā)明在基于句子關(guān)系的文檔摘要框架內(nèi),利用相似文檔之間的句子關(guān)系進(jìn)行單文檔摘要,充分利用相似文檔之間句子的“選舉”或“推薦”來評價句子的重要性。這主要是由于相似文檔中具有的信息冗余特性,也就是說,給定的待摘要的文檔中所包含的重要信息一般會被跟該文檔相似的其他文檔所包含。
圖1是本發(fā)明所述方法的流程圖。
具體實施例方式
下面結(jié)合實施例和附圖進(jìn)一步闡明本發(fā)明所述的方法如圖1所示,一種基于文檔擴(kuò)展的單文檔摘要方法,包括以下步驟(1)給定某個待摘要文檔d,從文檔集D中找到與該文檔最相似的k篇文檔;為給定文檔d從文檔集D中查找與該文檔最相似的k篇文檔時,具體方法為基于文檔搜索引擎以文檔d作為查詢,從文檔集中檢索出與d最相似的k篇文檔。本實施例檢索函數(shù)為常用的余弦相似度計算公式,詞權(quán)重的計算采用典型的tf*idf計算方法,其中tf為詞在文檔中的頻率,idf為詞的倒排文檔頻率。為確保能夠檢索到與給定文檔相似的文檔,本實施例中文檔集中的文檔屬于同一領(lǐng)域(例如娛樂或體育等)。
k的取值范圍一般為5-15,本實施例中設(shè)為10。
(2)讀入這k+1篇文檔,對每篇文檔分句、分詞,得到句子集合S={s1,s2,...,sn},n為這k+1篇文檔中所有句子的數(shù)量;然后對該句子集合構(gòu)建句子關(guān)系圖G;對得到的k+1篇文檔(包括給定文檔d)對應(yīng)的句子集合S構(gòu)建句子關(guān)系圖G的步驟如下對S中任意兩個不同的句子si和sj利用下列余弦公式計算相似度值sim(si,sj)=cos(sρi,sρj)=sρi·sρj||sρi||·||sρj||---(1)]]>其中每個句子向量的每一維為句子中的一個詞,詞t權(quán)重為tft*isft,tft為詞t在句子中的頻率,isft為詞t的倒排句子頻率,也就是1+log(N/nt),其中N是背景文檔集合中所有句子的數(shù)量,nt是其中包含詞t的句子的數(shù)量,背景文檔集合通常較大;如果sim(si,sj)>0,那么在si和sj之間建立一條連接,也就是在圖G中si和sj之間添加一條邊;得到的圖G的鄰接矩陣為M=(Mi,j)n×n定義如下 矩陣M經(jīng)過如下規(guī)范化使得每一行元素值之和為1,得到新的鄰接矩陣 (3)基于步驟(2)得到的句子關(guān)系圖G迭代計算每個句子的信息豐富程度;根據(jù)圖G迭代計算句子的信息豐富程度時,本實施例采用如下方法句子的信息豐富程度反映了該句子包含的主題信息的多少,在得到句子鄰接矩陣 之后,利用如下的公式迭代計算句子集合S中每個句子si的信息豐富程度InfoRich(si)InfoRich(si)=d·Σall j≠iInfoRich(sj)·M~j,i+(1-d)n---(4)]]>其中公式(4)等號右邊的InfoRich(sj)表示經(jīng)過上次迭代過程計算得到的句子sj的信息豐富程度,而公式(4)等號左邊的InfoRich(si)則表示當(dāng)前得到的句子si的新的信息豐富程度;d為阻尼因子,本實施例中設(shè)為0.85。
上式用矩陣形式表示為λρ=dM~Tλρ+(1-d)neρ---(5)]]>其中 為一個n維向量,每一維表示一個句子的信息豐富程度,上標(biāo)T表示矩陣的轉(zhuǎn)置, 是一個n維單位向量。
每一次迭代過程均基于上次迭代計算得到的句子信息豐富程度,利用上式計算每個句子的新的信息豐富程度,直到所有句子的前后兩次迭代計算得到的信息豐富程度不再變化為止,或者實際計算時所有句子的信息豐富程度的變化小于設(shè)定的閾值。本實施例中,閾值設(shè)定為0.0001。
(4)對文檔d中的句子進(jìn)行文檔內(nèi)差異性懲罰,得到該文檔中每個句子的最終權(quán)重值;對文檔d中的句子進(jìn)行文檔內(nèi)差異性懲罰,從而保證候選句子的新穎性的具體方法如下1)令待摘要文檔d對應(yīng)的句子集合為Sd,句子個數(shù)為m(m<n),令該文檔對應(yīng)的局部句子關(guān)系圖為Gd,其中的頂點集合為sdk,鄰接矩陣Md=(Md)m×m可從步驟(2)所得到的句子關(guān)系圖G對應(yīng)的鄰接矩陣M中抽取相對應(yīng)的元素得到,也就是如果文檔d中的兩個句子在局部關(guān)系圖Gd中的表示為si和sj,在句子關(guān)系圖G中表示為si′和si′,那么有(Md)i,j=Mi′,j′。然后將Md規(guī)范化到Md使得每一行元素值之和為1。
2)對文檔d初始化兩個集合A=φ,B={si|i=1,2,...,m},B包括文檔d中的所有句子。每個句子的最終權(quán)重值初始化為其信息豐富程度,也就是說ARScore(si)=InfoRich(si),i=1,2,...m;3)按照當(dāng)前最終權(quán)重值降序排列B中的句子;4)假定si是排名最高的句子,也就是序列中第一個句子,將si從B移到A,并且對B中每一個和si相鄰接的句子sj(j≠i)進(jìn)行如下的差異性懲罰ARScore(sj)=ARScore(sj)-(M~d)j,i·InfoRich(si)---(6)]]>5)循環(huán)執(zhí)行步驟3)和步驟4),直到B=φ。
根據(jù)上述步驟得到的文檔d中每個句子的最終權(quán)重值綜合反映了該句子的信息豐富程度和信息新穎程度。
(5)根據(jù)文檔d中每個句子的最終權(quán)重值,選擇權(quán)重值最大的若干個句子形成摘要。一般來說,選擇2-10個句子形成摘要即可,本實施例中選擇8個句子形成摘要。
為了驗證本發(fā)明的有效性,采用文檔理解大會(DUC)的評測數(shù)據(jù)和任務(wù)。本實施例中采用了DUC2002的單文檔摘要評測任務(wù),也就是DUC2002的第1個評測任務(wù)。DUC2002的單文檔摘要任務(wù)提供了567篇文檔,要求參評者為每篇文檔提供100字以內(nèi)長度的摘要,文檔來源于TREC-9。參評者提交的摘要將與人工摘要進(jìn)行對比。采用流行的文檔摘要評測方法ROUGE評測方法來評測本發(fā)明的方法,包括三個評價指標(biāo)ROUGE-1,ROUGE-2和ROUGE-W,ROUGE值越大,效果越好,ROUGE-1值是最主要的評價指標(biāo)。本發(fā)明對于給定的待摘要文檔,從這567篇文檔組成的文檔集中搜索與該文檔最相似的k篇文檔(不包括文檔自身)。本發(fā)明所述的方法和不考慮相似文檔信息冗余特性的圖排列方法進(jìn)行比較,實驗結(jié)果如表1所示。表中給出了k取值從5到15的11個實施例的結(jié)果。
表1在DUC2002評測數(shù)據(jù)上的比較結(jié)果
實驗結(jié)果表明,本發(fā)明所述的方法在k取值5-15之間的任意值時,表現(xiàn)都比較優(yōu)異,在三個評價指標(biāo)上都優(yōu)于只利用單篇文檔信息的摘要方法。
ROUGE評測方法可以參見文獻(xiàn)Automatic Evaluation of SummariesUsing N-gram Co-occurrence Statistics(作者C.-Y.Lin and E.H.Hovy,發(fā)表于2003年出版的期刊Proceedings of 2003 Language TechnologyConference(HLT-NAACL 2003))本發(fā)明所述的方法并不限于具體實施方式
中所述的實施例,步驟(1)中從文檔集中找到與給定文檔d最相似的k篇文檔時所采用的檢索方法不僅僅局限于余弦公式,還包括信息檢索系統(tǒng)中常用的BM25模型、語言模型等。步驟(2)中計算句子之間的相似度值的方法不僅僅局限于余弦公式,還包括accard公式,Dice公式,Overlap公式等其他相似度計算方法。步驟(3)中計算每個句子的信息豐富程度的方法也可以采用其他的方法,如傳統(tǒng)的直接按照句子所包含的關(guān)鍵詞的重要性對句子打分的方法等。步驟(4)中計算該文檔中每個句子的最終權(quán)重值也可以采用其他的方法,如最大邊緣相關(guān)(MMR)技術(shù)等。本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
權(quán)利要求
1.一種基于文檔擴(kuò)展的單文檔摘要方法,包括以下步驟(1)給定某個待摘要文檔d,從文檔集D中找到與該文檔最相似的k篇文檔,k為正整數(shù);(2)讀入這k+1篇文檔,對每篇文檔分句、分詞,得到句子集合S={s1,s2,...,sn},n為句子集合S中所有句子的數(shù)量;然后對該句子集合S構(gòu)建句子關(guān)系圖G;(3)基于步驟(2)得到的句子關(guān)系圖G迭代計算每個句子的信息豐富程度;(4)對文檔d中的句子進(jìn)行文檔內(nèi)差異性懲罰,得到文檔d中每個句子的最終權(quán)重值;(5)根據(jù)文檔d中每個句子的最終權(quán)重值,選擇權(quán)重值大的句子形成摘要。
2.如權(quán)利要求1所述的一種基于文檔擴(kuò)展的單文檔摘要方法,其特征在于步驟(1)為給定文檔d從文檔集D中查找與該文檔最相似的k篇文檔時,具體方法為基于文檔搜索引擎以文檔d作為查詢,從文檔集中檢索出與d最相似的k篇文檔,檢索函數(shù)為余弦相似度計算公式,詞權(quán)重的計算采用典型的tf*idf計算方法,其中tf為詞在文檔中的頻率,idf為詞的倒排文檔頻率。
3.如權(quán)利要求2所述的一種基于文檔擴(kuò)展的單文檔摘要方法,其特征在于步驟(1)中,k取值范圍為5-15。
4.如權(quán)利要求1、2或3所述的一種基于文檔擴(kuò)展的單文檔摘要方法,其特征在于步驟(2)對得到的k+1篇文檔對應(yīng)的句子集合S構(gòu)建句子關(guān)系圖G的步驟如下對S中任意兩個不同的句子si和sj利用下列余弦公式計算相似度值sim(si,sj)=cos(sρi,sρj)=sρi·sρj||sρi||·||sρj||---(1)]]>其中1≤i,j≤n,i≠j,每個句子向量的每一維為句子中的一個詞,詞t權(quán)重為tft*isft,tft為詞t在句子中的頻率,isft為詞t的倒排句子頻率,也就是1+log(N/nt),其中N是背景文檔集合中所有句子的數(shù)量,nt是其中包含詞t的句子的數(shù)量;如果sim(si,sj)>0,那么在si和sj之間建立一條連接,也就是在圖G中si和sj之間添加一條邊;得到的圖G的鄰接矩陣為M=(Mi,j)n×n定義如下 矩陣M經(jīng)過如下規(guī)范化使得每一行元素值之和為1,得到新的鄰接矩陣
5.如權(quán)利要求4所述的一種基于文檔擴(kuò)展的單文檔摘要方法,其特征在于步驟(3)根據(jù)圖G迭代計算句子的信息豐富程度時,采用如下方法在得到句子鄰接矩陣 之后,利用如下的公式迭代計算句子集合S中每個句子si的信息豐富程度InfoRich(si)InfoRich(si)=d·Σallj≠iInfoRich(sj)·M~j,i+(1-d)n---(4)]]>其中公式(4)等號右邊的InfoRich(sj)表示經(jīng)過上次迭代過程計算得到的句子sj的信息豐富程度,而公式(4)等號左邊的InfoRich(si)則表示當(dāng)前得到的句子si的新的信息豐富程度,d為阻尼因子;上式用矩陣形式表示為λρ=dM~Tλρ+(1-d)neρ---(5)]]>其中 為一個n維向量,每一維表示一個句子的信息豐富程度,上標(biāo)T表示矩陣的轉(zhuǎn)置, 是一個n維單位向量;每一次迭代過程均基于上次迭代計算得到的句子信息豐富程度,利用上式計算每個句子的新的信息豐富程度,直到所有句子的前后兩次迭代計算得到的信息豐富程度不再變化為止,或者實際計算時所有句子的信息豐富程度的變化小于設(shè)定的閾值。
6.如權(quán)利要求5所述的一種基于文檔擴(kuò)展的單文檔摘要方法,其特征在于步驟(3)中阻尼因子d為0.85,設(shè)定句子的信息豐富程度的變化小于閾值時,所述閾值設(shè)定為0.0001。
7.如權(quán)利要求6所述的一種基于文檔擴(kuò)展的單文檔摘要方法,其特征在于步驟(4)中對文檔d中的句子進(jìn)行文檔內(nèi)差異性懲罰,從而保證候選句子的新穎性的具體方法如下1)令待摘要文檔d對應(yīng)的句子集合為Sd,句子個數(shù)為m,m<n,今該文檔對應(yīng)的局部句子關(guān)系圖為Gd,其中的頂點集合為Sdk,鄰接矩陣Md=(Md)m×m可從步驟(2)所得到的句子關(guān)系圖G對應(yīng)的鄰接矩陣M中抽取相對應(yīng)的元素得到,也就是如果文檔d中的兩個句子在局部關(guān)系圖Gd中的表示為si和sj,在句子關(guān)系圖G中表示為si′和sj′,那么有(Md)i,j=Mi′,j′,然后將Md規(guī)范化到 使得每一行元素值之和為1;2)對文檔d初始化兩個集合A=φ,B={si|i=1,2,...,m},B包括文檔d中的所有句子,每個句子的最終權(quán)重值初始化為其信息豐富程度,也就是說ARScore(si)=InfoRich(si),i=1,2,...m;3)按照當(dāng)前最終權(quán)重值降序排列B中的句子;4)假定si是排名最高的句子,也就是序列中第一個句子,將si從B移到A,并且對B中每一個和si相鄰接的句子sj進(jìn)行如下的差異性懲罰,j≠iARScore(sj)=ARScore(sj)-(M~d)j,i·InfoRich(si)---(6)]]>5)循環(huán)執(zhí)行步驟3)和步驟4),直到B=φ。
8.如權(quán)利要求1、2或3所述的一種基于文檔擴(kuò)展的單文檔摘要方法,其特征在于步驟(5)中,選擇權(quán)重值最大的2-10個句子形成摘要。
全文摘要
本發(fā)明涉及一種基于文檔擴(kuò)展的單文檔摘要方法,屬于語言文字處理技術(shù)領(lǐng)域?,F(xiàn)有的幾乎所有單文檔自動摘要方法均只利用單篇文檔自身的信息進(jìn)行摘要。例如,目前的基于圖排列的單文檔自動摘要方法只利用了單篇文檔內(nèi)句子之間的相似關(guān)系選擇重要的句子生成摘要。本發(fā)明所述的方法充分利用了相似文檔之間的信息冗余性來改進(jìn)現(xiàn)有的單文檔自動摘要方法,該方法首先從文檔集中找到與當(dāng)前文檔最相似的少數(shù)幾篇文檔,然后基于這些文檔對當(dāng)前文檔中的句子進(jìn)行全局重要性評價,進(jìn)而從當(dāng)前文檔中挑選真正重要的句子生成摘要。采用本發(fā)明所述的方法,改進(jìn)了現(xiàn)有的基于圖排列的單文檔自動摘要方法,在實際評測中取得了比較好的效果。
文檔編號G06F17/27GK1916904SQ200610112788
公開日2007年2月21日 申請日期2006年9月1日 優(yōu)先權(quán)日2006年9月1日
發(fā)明者萬小軍, 楊建武, 吳於茜, 陳曉鷗 申請人:北大方正集團(tuán)有限公司, 北京大學(xué), 北京北大方正技術(shù)研究院有限公司