專利名稱::一種多文檔摘要的生成方法及裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及語言文字處理
技術(shù)領(lǐng)域:
,尤其涉及一種多文檔摘要的生成方法及裝置。
背景技術(shù):
:多文檔摘要可以為含有多篇文檔的文檔集提供一種壓縮的文本描述,從而解決該文檔集中信息超載的問題,進而方便用戶快速了解該文檔集的內(nèi)容。目前,也有一些多文檔摘要的生成方法,但是由于多文檔摘要中每個句子可能來自于不同的文檔,而每個文檔的寫作風格不同,發(fā)表的時間不同,并且所依賴的背景知識可能也不同,因此,將這些句子進行排序構(gòu)成摘要時,往往在某些詞上會出現(xiàn)指代稱謂不明,并且上下文不連貫的情況。這樣的多文檔摘要很可能不能幫助讀者快速了解該文檔集的主要內(nèi)容,并且還可能引起歧義,從而造成讀者閱讀上的困難。經(jīng)過排序生成多文檔的摘要時,合理的排序方法可以顯著提高多文檔摘要的可讀性?,F(xiàn)有技術(shù)中,在進行排序生成多文檔摘要時,可以推算出某個話題下包含的潛在有用信息,根據(jù)該有用信息確定句子之間的順序,但是該方法局限于某些特定的領(lǐng)域的話題,應(yīng)用范圍收到了明顯的限制。或者,當從每個文檔中選擇出幾個摘要句子后,將該選擇出來的句子隨機進行排序,沒有考慮這些句子在時間上的連續(xù)性及話題內(nèi)容上的連續(xù)性,因此,生成的多文檔摘要在時間上的連續(xù)性或話題上連續(xù)性較差。因此,按照現(xiàn)有技術(shù)中多文檔摘要的生成方法,生成的多文檔摘要的可讀性不高,從而影響了讀者的閱讀。
發(fā)明內(nèi)容有鑒于此,本發(fā)明實施例提供一種多文檔摘要的生成方法及裝置,用以解決現(xiàn)有技術(shù)中生成的多文檔摘要的可讀性不高的問題。本發(fā)明實施例提供的一種多文檔摘要的生成方法,包括從多篇文檔中選擇若干個摘要句;按照設(shè)置的至少一種排序規(guī)則將所述若干個摘要句進行排序生成多文檔摘要,其中,每種排序規(guī)則根據(jù)摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置。本發(fā)明實施例提供的一種多文檔摘要的生成方法,包括將每篇文檔劃分為多個分句;按照設(shè)置的至少一個特征,從多個分句中確定若干個摘要句;按照設(shè)置的至少一種排序規(guī)則將所述若干個摘要句進行排序生成多文檔摘要,其中,每種排序規(guī)則根據(jù)摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置。本發(fā)明實施例提供的一種多文檔摘要的生成裝置,包括摘要句選擇模塊,用于從多篇文檔中選擇若干個摘要句;摘要句排序模塊,用于按照設(shè)置的至少一種排序規(guī)則將所述若干個摘要句進行排序生成多文檔摘要,其中,每種排序規(guī)則根據(jù)摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置。本發(fā)明實施例提供的一種多文檔摘要的生成裝置,包括劃分模塊,用于將每篇文檔劃分為多個分句;摘要句選擇模塊,用于按照設(shè)置的至少一個特征,從多個分句中確定若干個摘要句;摘要句排序模塊,用于按照設(shè)置的至少一種排序規(guī)則將所述若干個摘要句進行排序生成多文檔摘要,其中,每種排序規(guī)則根據(jù)摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置。本發(fā)明實施例提供了一種多文檔摘要的生成方法及裝置,該方法通過從多篇文檔中選擇出的若干個摘要句,按照摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性,將該若干個摘要句排序生成多文檔摘要,因此,本發(fā)明實施例充分考慮了摘要句間的連續(xù)性和與主題內(nèi)容的相關(guān)性,從而可以有效的提高生成的多文檔摘要的可讀性。圖1為本發(fā)明實施例提供的一種生成多文檔摘要的方法流程圖;圖2為本發(fā)明實施例提供的從摘要候選句中選擇摘要句的具體實施過程;圖3為本發(fā)明實施例提供的根據(jù)設(shè)置的至少一個特征,確定每個摘要候選句的總分值的流程圖;圖4為本發(fā)明實施例提供的一種多文檔摘要的生成裝置結(jié)構(gòu)示意圖;圖5為本發(fā)明實施例提供的另一種多文檔摘要的生成裝置結(jié)構(gòu)示意圖。具體實施例方式本發(fā)明實施例中為了提高生成的多文檔摘要的可讀性,充分考慮了摘要句間的連續(xù)性或每個摘要句與該多篇文檔的主題內(nèi)容的連續(xù)性,如圖1所示,提供了一種多文檔摘要的生成方法,具體包括以下步驟S101:從多篇文檔中選擇若干個摘要句;選擇該摘要句的方法可以是任意選擇,也可以是按照一定的規(guī)則或順序選擇。S102:按照設(shè)置的至少一種排序規(guī)則將所述若干個摘要句進行排序生成多文檔摘要,其中,每種排序規(guī)則根據(jù)摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置。或者,在本發(fā)明實施例中,也可以首先,將每篇文檔劃分為多個分句??梢园凑諛它c符號將每篇文檔劃分為多個分句。然后,按照設(shè)置的至少一個特征,從多個分句中確定若干個摘要句。其中,該設(shè)置的至少一個特征包括按照每個分句與摘要主題中心句的相似程度設(shè)置的特征,其中,所述摘要主題中心句由所述每篇文檔中出現(xiàn)頻率較高的至少一個詞組成;按照每個分句與該分句所在的文檔對應(yīng)的文檔中心句的相似程度設(shè)置的特征,其中,文檔中心句由所述文檔中出現(xiàn)頻率較高的至少一個詞組成;和,根據(jù)每個分句位于其所在文檔中的位置信息設(shè)置的特征中的一個或任意幾個的組合。最后,按照設(shè)置的至少一種排序規(guī)則將所述若干個摘要句進行排序生成多文檔摘要,其中,每種排序規(guī)則根據(jù)摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置。下面結(jié)合說明書附圖,對本發(fā)明實施例進行詳細說明。在本發(fā)明實施例中,首先,需要將選定的多篇文檔中的每篇文檔,劃分為多個分句。在將每篇文檔劃分為多個分句的過程中,可以根據(jù)文檔中的標點符號進行劃分,將兩個結(jié)尾標點符號之間的內(nèi)容作為一個完整的分句,并且在每個分句的結(jié)尾處包括對應(yīng)的結(jié)尾標點符號,第一個分句為從文檔的起始點到第一個結(jié)尾標點符號之間的內(nèi)容。其中,結(jié)尾標點符號包括句號、問號、感嘆號或省略號等。然后,對劃分出的每個分句按照過濾規(guī)則進行過濾,選擇出摘要候選句。其中過濾規(guī)則包括過濾掉不完整的分句,該不完整的分句包括由過短的詞組或無標點的詞串構(gòu)成的分句;過濾掉非陳述語態(tài)的分句,該非陳述語態(tài)的分句包括疑問句和祈使句,例如以問號結(jié)尾的疑問句的分句;過濾掉其他不滿足條件的分句,主要包括省略分句和對話分句。例如分句中包括省略號的分句,或含有冒號和雙引號的分句。當然,也可以不對該每個分句按照過濾規(guī)則進行過濾,直接將劃分后的分句作為摘要候選句進行后續(xù)處理。采用該過濾的方法可以減少后續(xù)處理的計算量,從而有效的提高多文檔摘要的生成效率。將文檔劃分為分句,過濾得到滿足條件的分句,即摘要候選句后,從該摘要候選句中選擇出摘要句,如圖2所示,從摘要句候選句中選擇摘要句的具體實施過程包括S201:根據(jù)設(shè)置的至少一個特征,確定每個摘要候選句相對每個特征的重要性分值。其中,該設(shè)置的至少一個特征包括按照每個分句與摘要主題中心句的相似程度設(shè)置的特征,其中,摘要主題中心句由多文檔中出現(xiàn)頻率較高的至少一個詞語組成;按照每個分句與該分句所在的文檔對應(yīng)的文檔中心句的相似程度設(shè)置的特征,其中,文檔中心句由該文檔中出現(xiàn)頻率較高的至少一個詞語組成;和,根據(jù)每個分句位于其所在文檔中的位置信息設(shè)置的特征中的一個或任意幾個的組合。S202:根據(jù)每個摘要候選句相對每個特征的重要性分值,確定每個摘要候選句的總分值??梢园ǜ鶕?jù)每個摘要候選句相對每個特征的重要性分值,以及與每個特征對應(yīng)的權(quán)重系數(shù),確定每個摘要候選句的總分值。S203:根據(jù)總分值,選擇滿足要求的分句作為摘要句。選擇滿足要求的分句作為摘要句包括選擇總分值較高的N個分句作為摘要句,其中,N為不小于1的自然數(shù),例如,N為10、15等。在本發(fā)明實施例中,將每一個分句及每一篇文檔處理為一個K維向量,其中K為分句中或文檔中包含的詞的總數(shù),每一維對應(yīng)一個詞,并且,每一維對應(yīng)的權(quán)值,根據(jù)該維對應(yīng)的詞在該文檔中出現(xiàn)的頻率,以及該詞的倒排文檔頻率確定。其中,如圖3所示,根據(jù)設(shè)7置的至少一個特征,確定每個摘要候選句相對每個特征的重要性分值,根據(jù)該每個重要性分值確定總分值的過程包括以下步驟S301:確定每個摘要候選句與主題中心句的相似度,根據(jù)該相似度確定每個摘要候選句對應(yīng)的第一重要性分值。主要包括確定每個摘要候選句對應(yīng)的向量與主題中心句對應(yīng)的主題中心向量的相似度。主題中心向量包括由該多篇文檔中出現(xiàn)頻率較高的L個詞組成的L維向量,L為不小于l的自然數(shù)。每一維對應(yīng)一個詞,每一維的權(quán)值由該維對應(yīng)的詞在該多篇文檔中出現(xiàn)的頻率,以及該詞的倒排文檔頻率確定。計算每個摘要候選句對應(yīng)的向量與主題中心句對應(yīng)的主題中心向量的相似度的方法包括,根據(jù)每個摘要候選句對應(yīng)的向量和主題中心句對應(yīng)的向量的余弦值確定,具體為&=C)=COS(,5)=HH在上述公式中,Si為摘要候選句s對應(yīng)的第一重要性分值,sim(x,y)表示x和y的相似度,cos(x,y)表示x和y的余弦值,其中,s為摘要候選句對應(yīng)的向量,c為主題中心句對應(yīng)的主題中心向量。其中,在確定每個摘要候選句對應(yīng)的第一重要性分值時也可以根據(jù)摘要候選句中出現(xiàn)的詞與主題中心句內(nèi)出現(xiàn)詞的完全匹配的個數(shù),確定每個摘要候選句對應(yīng)的第一重要性分值。例如摘要候選句由5個詞組成,其中有3個詞在主題中心句中出現(xiàn),則可以認為該摘要候選句對應(yīng)的第一重要性分值為0.6。S302:確定每個摘要候選句與文檔中心句的相似度,根據(jù)該相似度確定每個摘要候選句對應(yīng)的第二重要性分值。主要包括根據(jù)每個摘要句對應(yīng)的向量與文檔中心句對應(yīng)的文檔中心向量的相似度。文檔中心向量包括摘要候選句所在的文檔中出現(xiàn)頻率較高的M個詞組成的M維向量,M為不小于1自然數(shù)。每一維對應(yīng)一個詞,每一維的權(quán)值由該維對應(yīng)的詞在此文檔中出現(xiàn)的頻率,以及該詞的倒排文檔頻率確定。計算每個摘要候選句與其文檔中心句的相似度的方法包括,根據(jù)每個摘要候選句對應(yīng)的向量和文檔中心句對應(yīng)的文檔中心向量的余弦值確定,例如摘要候選句a位于文檔A中,則計算摘要候選句a對應(yīng)的向量與文檔A的文檔中心句對應(yīng)的文檔中心向量的相似度,從而確定每個摘要候選句對應(yīng)的第二重要性分值;摘要候選句b位于文檔B中,則計算摘要候選句b對應(yīng)的向量與文檔B的文檔中心句對應(yīng)的文檔中心向量的相似度,從而確定每個摘要候選句對應(yīng)的第二重要性分值,具體為在上述公式中,S2為摘要候選句s對應(yīng)的第二重要性分值,sim(x,y)表示x和y的相似度,cos(x,y)表示x和y的余弦值,其中,s為摘要候選句對應(yīng)的向量,t為s所在的文檔中文檔中心句對應(yīng)的文檔中心向量。S303:確定每個摘要候選句位于文檔中的位置,確定每個摘要候選句對應(yīng)的第三重要性分值。由于在文檔中,分句位置對其重要性也有可能有一定的影B向,一般文檔開始的分句較文檔結(jié)尾分句的重要性高。因此,可以根據(jù)每個摘要候選句位于文檔中的位置,確定每個摘要候選句對應(yīng)的第三重要性分值,具體包括&=丄xniax(512)x(/_/+1)在上述公式中,S3為該摘要候選句對應(yīng)的第三重要性分值,max(S》為該摘要候選句所在的文檔中摘要候選句對應(yīng)的第二重要性值的最大值,P為該摘要候選句所在的文檔中總的分句數(shù),i為該摘要候選句為該文檔中第i個分句。S304:根據(jù)摘要候選句對應(yīng)的每個重要性分值,確定每個摘要候選句對應(yīng)的總分值。可以對應(yīng)每個特征設(shè)置一個權(quán)重系數(shù),根據(jù)每個摘要候選句對應(yīng)每個特征的重要性分值和每個特征對應(yīng)的權(quán)重系數(shù),確定每個摘要候選句對應(yīng)的總分值,具體包括S函O)="x&+r2xS2+r3xS3)/其中,&^<"為摘要候選句s對應(yīng)的總分值,S^S^Ss為摘要候選句s對應(yīng)第一、第二、第三特征的第一、第二、第三重要性分值,巧、r2、r3分別為對應(yīng)每個特征的權(quán)重系數(shù),巧、ivr3都為0和l之間的實數(shù),|s|為該摘要候選句的長度,具體可以為該摘要候選句包含的維數(shù),即包含的詞的個數(shù),當然也可以為該摘要候選句中包含的字數(shù)。當然,在具體的計算過程中,也可以根據(jù)上述至少一個特征計算,相信本領(lǐng)域技術(shù)人員可以根據(jù)上述具體實施方式,推導出采用任意一個或兩個特征計算每個候選句總分值的實施方法。在本發(fā)明實施例中,根據(jù)每個分句與主題內(nèi)容關(guān)聯(lián)程度,設(shè)置不同的特征,從而確定每個摘要候選句對應(yīng)每個特征的重要性分值,根據(jù)該重要性分值,選擇出與該多文檔內(nèi)容的密切相關(guān)的分句,從而可以有效的提高生成的多文檔摘要的可讀性。在摘要候選句中選擇出組成多文檔摘要的若干個摘要句后,需要按照一定的順序?qū)⑺械恼溥M行排列,組成一段可讀性較強的文檔。在本發(fā)明實施例中,將選擇出的若干個摘要句進行排序的方法包括按照摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性進行排序等。例如,當可以直接確定兩個摘要句包含的日期時,按照日期上的先后順序?qū)⒃搩蓚€摘要句進行排序;或,當兩個摘要句屬于同一篇文檔時,按照該文檔中每個摘要句出現(xiàn)的先后順序,將該屬于同一篇文檔的兩個摘要句進行排序;或,當?shù)谝徽浜偷诙鋪韺儆诓煌膯柈敃r,第一摘要句屬于第一文檔,第二摘要句屬于第二文檔,在第二摘要句的第二文檔中找到與第一摘要句相似度最高的第一分句,在同一篇文檔中按照分句出現(xiàn)的先后順序,確定第二摘要句和第一分句的先后順序,從而確定第一摘要句和第二摘要句的先后順序,或者比較排在第一摘要句和第二摘要句之前或之后的分句的順序,從而確定第一摘要句和第二摘要句的先后順序;或,根據(jù)每個摘要句與話題中心句的相似度確定的第一重要性分值,確定每個摘要句的先后順序。其中,比較排在第一摘要句和第二摘要句之前或之后的分句的順序,從而確定第9一摘要句和第二摘要句的先后順序包括比較排在第一摘要句之后的任意第二分句與排在第二摘要句之前的任意第三分句,當?shù)诙志淠軌蚺旁诘谌志渲皶r,則第一摘要句排在第二摘要句之前;或,比較排在第二摘要句之后的第三分句與排在第一摘要句之前的第二分句,當?shù)谌志淠軌蚺旁诘诙志渲皶r,則第二摘要句排在第一摘要句之前。實施一在本發(fā)明實施例中,確定兩個摘要句a、b先后順序的方法包括確定兩個摘要句包含的日期,分別為date(a)和date(b),其中,在本發(fā)明實施例中,可以將摘要句中包含的日期信息轉(zhuǎn)化為032之間的數(shù)值,例如摘要句包含的日期為12號,則將該日期信息轉(zhuǎn)化為12,根據(jù)該兩個日期確定兩個摘要句的先后順序包括■sew""")=2dsgn(ctoe(6)—在上述公式中,scwe(a卜6)表示摘要句a和摘要句b的先后關(guān)系以及兩個摘要句的先后的聯(lián)系緊密程度,a卜6表示摘要句a排在摘要句b之前;當"o^(fl(—6)>0時,則wore(a卜6)表示摘要句a排在摘要句b之前的可能性大?。划?o"(a—6)<0時,則-卜6)表示摘要句a排在摘要句b之后的可能性大?。划?we(a卜6)>0,scwe(a卜c)>0,且wwe(a卜6)>—c),則表示"卜6可能性要大于^卜c的可能性,那么摘要句a、b、c的先后次序為"卜6卜c,艮卩a排在b前,b排在c前;Ad為根據(jù)時間順序確定的^we(a卜6)對應(yīng)的權(quán)值,并且Ad為大于0的實數(shù),例如Ad為5等,當入d為l時,該兩個摘要句的先后順序為兩個摘要句包含的日期差值的符號函數(shù),sgn(x)為符號函數(shù),具體包括1if;c>0sgn(x)='0ifx=0—1if"0當符號函數(shù)的參數(shù)X為大于O的數(shù)值時,則符號函數(shù)的取值為1;當符號函數(shù)的參數(shù)x為等與0的數(shù)值時,則符號函數(shù)的取值為0;當符號函數(shù)的參數(shù)x為小于0的數(shù)值時,則符號函數(shù)的取值為-1。實施例二在本發(fā)明實施例中,當兩個摘要句a和b屬于同一篇文檔時,確定該兩個摘要句先后順序的方法包括根據(jù)兩個摘要句位于文檔中的位置,確定兩個摘要句的先后順序,包括score(a")=義p.sgn(j:o51(6)-/os(a))在上述公式中pos(x)表示摘要句x在文檔中的位置,例如該摘要句x為該文檔中第幾個分句,Ap為根據(jù)位置順序確定的SCO"(flf卜6)對應(yīng)的權(quán)值,并且Ap為大于0的實數(shù),例如入p為4等,當入p為1時,該兩個摘要句的先后順序為兩個摘要句在文檔中位置差值的符號函數(shù)。sgn(x)為符號函數(shù)。實施三當兩個摘要句屬于不同的文檔時,例如分別為摘要句a、b,其中,摘要句a為文檔A中的分句,摘要句b為文檔B中的分句。則確定兩個摘要句先后順序的方法包括首先,將摘要句a與文檔B中的每個分句進行相似度的比較,或?qū)⒄鋋與文檔B中的每個摘要候選句進行相似度的比較,也可以理解為摘要句a中所有詞,與文檔B中每個分句或每個摘要候選句中所有詞的匹配程度。假設(shè)文檔B中有n個分句,分別為bp......,bx,bx+1,......,bn,計算摘要句a與文檔B中每個分句bx的相似度sim(a,bx),其中x為位于1和n之間的整數(shù),確定相似度最大值MaxSim=Max{sim(a,bx)},并確定該相似度最大值對應(yīng)的文檔B中的分句bm,其中m為位于1和n之間的整數(shù)。然后,根據(jù)在文檔B中確定該分句bm與摘要句b的先后順序,根據(jù)分句bm與摘要句b的先后順序確定摘要句a和摘要句b的先后順序。在本發(fā)明實施例中,判斷該相似度最大值與設(shè)置的相似度閾值s的大小,其中該相似度閾值為位于0和1之間的實數(shù),例如為0.35等。當該相似度最大值大于設(shè)置的相似度閾值s時,即判斷MaxSim>s時,根據(jù)分句bm與摘要句b包含的日期,或分句bm與摘要句b在文檔B中出現(xiàn)的先后順序,確定分句bm與摘要句b的先后順序"we(^卜6),根據(jù)該"ow(6m卜W的值判斷摘要句a和摘要句b的先后順序,具體包括scwe(a卜6)=sgn(6m")).(6m>~6)-義|在上述公式中A為衰減因子,其中該衰減因子為大于O的實數(shù),例如A為0.5等,sgn(x)為符號函數(shù)。當該相似度最大值不大于設(shè)置的相似度閾值s時,從文檔A中取出排在摘要a之后的任意分句c,從文檔B中取出排在候選句b之前的任意分句d,當分句c排在分句d之前時,則判斷摘要句a排在摘要句b之前。其中,比較分句c和分句d的先后順序的方法,可以判斷分句c與文檔B中所有分句的相似度,確定分句c與文檔B中所有分句的相似度最大值,確定該相似度最大值對應(yīng)的文檔B中的分句dt,根據(jù)文檔B中分句dt與分句d的先后順序,判斷分句c和分句d的先后順序。或者,在該相似度最大值不大于設(shè)置的相似度閾值s時,從文檔A中取出排在摘要句a之前的任意、分句c,從文檔B中取出排在候選句b之后的任意分句d,當分句c排在分句d之后時,則判斷摘要句a排在摘要句b之后。其中,比較分句c和分句d的先后順序的方法,可以判斷分句c與文檔B中所有分句的相似度,確定分句c與文檔B中所有分句的相似度最大值,確定該相似度最大值對應(yīng)的文檔B中的分句dt,根據(jù)文檔B中分句dt與分句d的先后順序,判斷分句c和分句d的先后順序。貝U,確定摘要句a和摘要句b先后順序的方法具體包括々^core(cd);(取出<壬意分句c和d(ceJ、de5,并JL;as(c)>、/>cw(fi0<可知score(c卜力>0)—;i,.scwe(c卜c/);(取出任意分句c和(/(ceAde及并且;as(c)<、pas(y)>pos(6),可知score(c卜d)<0)在上述公式中As為根據(jù)該方法確定的^we(fl卜6)對應(yīng)的權(quán)值,其中該As為大于0的實數(shù),例如、為3等。實施四當確定兩個候選句的先后順序時,也可以根據(jù)候選句a和候選句b對應(yīng)的向量與主題中心句對應(yīng)的主題中心向量c的相似度sim(a,c)=simcen(a),和sim(b,c)=simcen(b),從而確定兩個候選句的先后順序,可以包括判斷兩個相似度的大小,將相似度大的值對應(yīng)的候選句排在較前的位置,具體包括在上述公式中,sgn(x)為符號函數(shù),A。為根據(jù)該方法確定的scwe(a卜6)對應(yīng)的權(quán)值,其中,該、為大于0的實數(shù),例如、為2.5等。在上述實施例中,可以根據(jù)^o"(fl^6)的正負值判斷分句在多文檔摘要中的先后順序,"cw("—6)的絕對值可以判斷兩個分句前后緊密程度,當該^w咖卜6)的值為大于0的數(shù)值時,則分句a排在分句b之前,否則分句a排在分句b之后,當kow("—6)的值為0,則分句a可以排在分句b之前,也可以排在分句b之后。當scweO、6)>0,"we(a>■c)>0,并且"oreO—c)>^we(fl—6)時,則判斷分句a、b、c的先后順序分別為a排在c前,c排在b前。下面通過具體的試驗數(shù)據(jù),對本發(fā)明實施例提供的多文檔摘要的生成方法,可以提高生成的多文檔摘要的可讀性進行詳細說明。首先,人工從互聯(lián)網(wǎng)上選擇針對某些話題的若干篇文檔。在本驗證過程中,選擇了10個話題,針對每個話題選擇了8-11個文檔。然后,在選擇的針對某個話題的若干篇文檔中,選擇8個摘要句,分別按照本發(fā)明實施例提供的生成多文檔摘要的方法,或人工排序生成多文檔摘要的方法,將該8個摘要分句進行排序生成一個多文檔摘要。句子隨機排序人工排序差異A58-3B761C45-1D624E211F871G330H14-3表1表1為根據(jù)現(xiàn)有技術(shù)中的隨機排序和人工排序方法分別對該8個摘要句進行排序生成多文檔摘要,其中AH分別代表8個摘要句,隨機排序的縱行代表按照隨機排序的方12法每個摘要分句的位置,人工排序的縱行為按照人工排序的方法每個摘要分句的位置,差異縱行為采用隨機排序和人工排序的方法每個摘要分句所排位置的差異。在本驗證過程中,采用Spearman秩相關(guān)系數(shù)來衡量,采用現(xiàn)有技術(shù)中的隨機排序方法和人工排序方法的進行排序后生成多文檔摘要,排序結(jié)果的一致性。Spearman秩相關(guān),又稱為"順序相關(guān)檢驗",是分析兩個指標的等級(秩次)之間是否相關(guān)的非參數(shù)分析方法。在采用Spearman秩相關(guān)系數(shù)檢驗過程中,一組句子的排序結(jié)果可以表示為一個向量,假設(shè)排序結(jié)果為^—X2—…卜A卜…—^",那么可以將其表示為向量Xi={Xl,x2,...,Xi...xn}。若該組句子的兩組排序向量分別為&和Yi,Spearman秩相關(guān)系數(shù)P可以衡量該組句子兩組排序結(jié)果的一致性,具體可以為<formula>formulaseeoriginaldocumentpage13</formula>在上述公式中n為該組句子的個數(shù),P為位于-1和1之間的實數(shù),當P>0時,表明兩組排序結(jié)果正相關(guān),P值越大表明兩組排序結(jié)果的一致性越高,則排序結(jié)果約準確,即可讀性較高,P<0時,表明兩組排序結(jié)果負相關(guān)。根據(jù)表1的相關(guān)數(shù)據(jù),對采用隨機排序和人工排序方法對該8個摘要句的排序結(jié)果的一致性分析可知/3=1——=0.534"x("2-l)8x(64-l)針對本發(fā)明實施例提供的生成多文檔摘要的方法,以及現(xiàn)有技術(shù)中的隨機排序生成多文檔摘要方法,分別計算該兩個方法與人工排序生成多文檔方法的Spearman秩相關(guān)系數(shù),分別記為Pw和PK。表2為針對不同的話題計算的P,和P^的值。<table>tableseeoriginaldocumentpage13</column></row><table>表2從該表2中可以看出Spearman秩相關(guān)系數(shù)PN的計算結(jié)果均為正,PK的部分計算結(jié)果為正,并且,Pw的絕對值較P^的絕對值大。因此可知,本發(fā)明實施例提供的排序方法與人工排序方法的一致性程度較高,證明了本發(fā)明實施例提供的排序方法具有較高的優(yōu)越性。在本發(fā)明實施例中,采用上述生成多文檔摘要的方法,由于根據(jù)設(shè)置至少一個特征,確定分句對應(yīng)的每個重要性分值,根據(jù)該重要性分值選擇若干個摘要句,并按照設(shè)置的至少一種排序方法對所述若干個分句進行排序,從而生成可讀性較強的多文檔摘要。如圖4所示,本發(fā)明實施例提供了一種生成多文檔摘要的裝置,包括摘要句選擇模塊40,用于從多篇文檔中選擇若干個摘要句;摘要句排序模塊41,用于按照設(shè)置的至少一種排序規(guī)則將所述若干個摘要句進行排序生成多文檔摘要,其中,每種排序規(guī)則根據(jù)摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置。所述摘要句排序模塊41包括存儲單元411,用于存儲按照摘要句包含的日期信息進行排序的排序規(guī)則,按照摘要句位于文檔的位置信息進行排序的排序規(guī)則,和按照摘要句與摘要主題內(nèi)容上的相關(guān)性進行排序的排序規(guī)則;排序單元412,用于從所述存儲單元中選擇至少一種排序規(guī)則,根據(jù)所述至少一種排序規(guī)則對所述若干個摘要句進行排序生成多文檔摘要。所述排序單元412包括第一排序子單元4120,用于按照摘要句位于文檔的位置信息進行排序,當兩個摘要句屬于同一篇文檔時,按照兩個摘要句位于所述文檔中的位置信息進行排序;當?shù)谝徽鋵儆诘谝晃臋n,第二摘要句屬于第二文檔時,計算第二文檔中的每個分句與所述第一摘要句的相似度,根據(jù)確定的相似度最大值與設(shè)置的相似度閾值,將所述第一摘要句與第二摘要句進行排序。所述排序單元412包括第二排序子單元4121,按照摘要句與摘要主題內(nèi)容上的相關(guān)性進行排序,計算摘要句與摘要主題中心句的相似度,根據(jù)所述相似度將每個摘要句進行排序,其中,所述摘要主題中心句由所述多篇文檔中出現(xiàn)頻率較高的至少一個詞組成。如圖5所示,本發(fā)明實施例提供了一種多文檔摘要的生成裝置,包括劃分模塊50,用于將每篇文檔劃分為多個分句;摘要句選擇模塊51,用于按照設(shè)置的至少一個特征,從多個分句中確定若干個摘要句;摘要句排序模塊52,用于按照設(shè)置的至少一種排序規(guī)則將所述若干個摘要句進行排序生成多文檔摘要,其中,每種排序規(guī)則根據(jù)摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置。所述裝置還包括過濾模塊53,用于按照設(shè)置的過濾規(guī)則將所述多個分句進行過濾,確定摘要候選句。所述摘要句選擇模塊51包括特征存儲單元510,用于保存按照每個分句與摘要主題中心句的相似程度設(shè)置的特征,其中,所述摘要主題中心句由所述每篇文檔中出現(xiàn)頻率較高的至少一個詞語組成,保存按照每個分句與該分句所在的文檔對應(yīng)的文檔中心句的相似程度設(shè)置的特征,其中,文檔中心句由所述文檔中出現(xiàn)頻率較高的至少一個詞語組成,保存根據(jù)每個分句位于其所在14文檔中的位置信息設(shè)置的特征;選擇單元511,用于從所述特征存儲單元中選擇至少一個特征,從多個分句中確定若干個摘要句。所述摘要句排序模塊52包括存儲單元520,用于存儲按照摘要句包含的日期信息進行排序的排序規(guī)則,按照摘要句位于文檔的位置信息進行排序的排序規(guī)則,和按照摘要句與摘要主題內(nèi)容上的相關(guān)性進行排序的排序規(guī)則;排序單元521,用于從所述存儲單元中選擇至少一種排序規(guī)則,根據(jù)所述至少一種排序規(guī)則對所述若干個摘要句進行排序生成多文檔摘要。所述排序單元521包括第一排序子單元5210,用于按照摘要句位于文檔的位置信息進行排序,當兩個摘要句屬于同一篇文檔時,按照兩個摘要句位于所述文檔中的位置信息進行排序;當?shù)谝徽鋵儆诘谝晃臋n,第二摘要句屬于第二文檔時,計算第二文檔中的每個分句與所述第一摘要句的相似度,根據(jù)確定的相似度最大值與設(shè)置的相似度閾值,將所述第一摘要句與第二摘要句進行排序。所述排序單元521包括第二排序子單元5211,用于按照摘要句與摘要主題內(nèi)容上的相關(guān)性進行排序,計算摘要句與摘要主題中心句的相似度,根據(jù)所述相似度將每個摘要句進行排序,其中,所述摘要主題中心句由所述每篇文檔中出現(xiàn)頻率較高的至少一個詞語組成。本發(fā)明實施例提供了一種多文檔摘要的生成方法及裝置,該方法通過從多篇文檔中選擇出的若干個摘要句,按照摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性,將該若干個摘要句排序生成多文檔摘要,因此,本發(fā)明實施例充分考慮了摘要句間的連續(xù)性和與主題內(nèi)容的相關(guān)性,從而可以有效的提高生成的多文檔摘要的可讀性。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。權(quán)利要求一種多文檔摘要的生成方法,其特征在于,包括從多篇文檔中選擇若干個摘要句;按照設(shè)置的至少一種排序規(guī)則將所述若干個摘要句進行排序生成多文檔摘要,其中,每種排序規(guī)則根據(jù)摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置。2.如權(quán)利要求1所述的方法,其特征在于,當排序規(guī)則根據(jù)摘要句位于文檔的位置信息設(shè)置時,將所述若干個摘要句進行排序包括當兩個摘要句屬于同一篇文檔時,按照兩個摘要句位于所述文檔中的位置信息進行排序;當?shù)谝徽鋵儆诘谝晃臋n,第二摘要句屬于第二文檔時,計算第二文檔中的每個分句與所述第一摘要句的相似度,根據(jù)計算的相似度最大值與設(shè)置的相似度閾值,將所述第一摘要句與第二摘要句進行排序。3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)計算的相似度最大值與設(shè)置的相似度閾值,將所述第一摘要句與第二摘要句進行排序包括當所述相似度最大值大于設(shè)置的相似度閾值時,確定所述相似度最大值對應(yīng)的所述第二文檔中的第一分句,根據(jù)所述第二文檔中的第一分句與所述第二摘要句在所述第二文檔中的位置信息,將所述第一摘要句與第二摘要句進行排序;當所述相似度最大值不大于設(shè)置的相似度閾值時,確定第一文檔中第一摘要句之后的任意第二分句,與第二文檔中第二摘要句之前的任意第三分句的先后順序,根據(jù)所述第二分句與第三分句的先后順序,將所述第一摘要句與第二摘要句進行排序。4.如權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述第二分句與所述第三分句的先后順序,將所述第一摘要句與第二摘要句進行排序包括當所述第二分句排列在所述第三分句之前時,則所述第一摘要句排列在所述第二摘要句之前。5.如權(quán)利要求1所述的方法,其特征在于,當排序規(guī)則根據(jù)摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置時,將所述若干個摘要句進行排序包括計算摘要句與摘要主題中心句的相似度,根據(jù)所述相似度將每個摘要句進行排序,其中,所述摘要主題中心句由所述多篇文檔中出現(xiàn)頻率較高的至少一個詞組成。6.—種多文檔摘要的生成方法,其特征在于,包括將每篇文檔劃分為多個分句;按照設(shè)置的至少一個特征,從多個分句中確定若干個摘要句;按照設(shè)置的至少一種排序規(guī)則將所述若干個摘要句進行排序生成多文檔摘要,其中,每種排序規(guī)則根據(jù)摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置。7.如權(quán)利要求6所述的方法,其特征在于,所述按照設(shè)置的至少一個特征,從多個分句中確定若干個摘要句之前所述方法還包括按照設(shè)置的過濾規(guī)則將所述多個分句進行過濾,確定摘要候選句。8.如權(quán)利要求6所述的方法,其特征在于,所述設(shè)置的至少一個特征包括按照每個分句與摘要主題中心句的相似程度設(shè)置的特征,其中,所述摘要主題中心句由所述每篇文檔中出現(xiàn)頻率較高的至少一個詞組成;按照每個分句與該分句所在的文檔對應(yīng)的文檔中心句的相似程度設(shè)置的特征,其中,文檔中心句由所述文檔中出現(xiàn)頻率較高的至少一個詞組成;禾口根據(jù)每個分句位于其所在文檔中的位置信息設(shè)置的特征中的一個或任意幾個的組合。9.如權(quán)利要求6所述的方法,其特征在于,當排序規(guī)則根據(jù)摘要句位于文檔的位置信息設(shè)置時,將所述若干個摘要句進行排序包括當兩個摘要句屬于同一篇文檔時,按照兩個摘要句位于所述文檔中的位置信息進行排序;當?shù)谝徽鋵儆诘谝晃臋n,第二摘要句屬于第二文檔時,計算第二文檔中的每個分句與所述第一摘要句的相似度,根據(jù)計算的相似度最大值與設(shè)置的相似度閾值,將所述第一摘要句與第二摘要句進行排序。10.如權(quán)利要求9所述的方法,其特征在于,所述根據(jù)計算的相似度最大值與設(shè)置的相似度閾值,將所述第一摘要句與第二摘要句進行排序包括當所述相似度最大值大于設(shè)置的相似度閾值時,確定所述相似度最大值對應(yīng)的所述第二文檔中的第一分句,根據(jù)所述第二文檔中的第一分句與所述第二摘要句在所述第二文檔中的位置信息,將所述第一摘要句與第二摘要句進行排序;當所述相似度最大值不大于設(shè)置的相似度閾值時,確定第一文檔中第一摘要句之后的任意第二分句,與第二文檔中第二摘要句之前的任意第三分句的先后順序,根據(jù)所述第二分句與所述第三分句的先后順序,將所述第一摘要句與第二摘要句進行排序。11.如權(quán)利要求io所述的方法,其特征在于,所述根據(jù)所述第二分句與所述第三分句的先后順序,將所述第一摘要句與第二摘要句進行排序包括當所述第二分句排列在所述第三分句之前時,則所述第一摘要句排列在所述第二摘要句之前。12.如權(quán)利要求6所述的方法,其特征在于,當排序規(guī)則根據(jù)摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置時,將所述若干個摘要句進行排序包括計算摘要句與摘要主題中心句的相似度,根據(jù)所述相似度將每個摘要句進行排序,其中,所述摘要主題中心句由所述每篇文檔中出現(xiàn)頻率較高的至少一個詞組成。13.—種多文檔摘要的生成裝置,其特征在于,包括摘要句選擇模塊,用于從多篇文檔中選擇若干個摘要句;摘要句排序模塊,用于按照設(shè)置的至少一種排序規(guī)則將所述若干個摘要句進行排序生成多文檔摘要,其中,每種排序規(guī)則根據(jù)摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置。14.如權(quán)利要求13所述的裝置,其特征在于,所述摘要句排序模塊包括存儲單元,用于存儲按照摘要句包含的日期信息進行排序的排序規(guī)則,按照摘要句位于文檔的位置信息進行排序的排序規(guī)則,和按照摘要句與摘要主題內(nèi)容上的相關(guān)性進行排序的排序規(guī)則;排序單元,用于從所述存儲單元中選擇至少一種排序規(guī)則,根據(jù)所述至少一種排序規(guī)則對所述若干個摘要句進行排序生成多文檔摘要。15.如權(quán)利要求14所述的裝置,其特征在于,所述排序單元包括第一排序子單元,用于按照摘要句位于文檔的位置信息進行排序,當兩個摘要句屬于同一篇文檔時,按照兩個摘要句位于所述文檔中的位置信息進行排序;當?shù)谝徽鋵儆诘谝晃臋n,第二摘要句屬于第二文檔時,計算第二文檔中的每個分句與所述第一摘要句的相似度,根據(jù)確定的相似度最大值與設(shè)置的相似度閾值,將所述第一摘要句與第二摘要句進行排序。16.如權(quán)利要求14所述的裝置,其特征在于,所述排序單元包括第二排序子單元,用于按照摘要句與摘要主題內(nèi)容上的相關(guān)性進行排序,計算摘要句與摘要主題中心句的相似度,根據(jù)所述相似度將每個摘要句進行排序,其中,所述摘要主題中心句由所述多篇文檔中出現(xiàn)頻率較高的至少一個詞語組成。17.—種多文檔摘要的生成裝置,其特征在于,包括劃分模塊,用于將每篇文檔劃分為多個分句;摘要句選擇模塊,用于按照設(shè)置的至少一個特征,從多個分句中確定若干個摘要句;摘要句排序模塊,用于按照設(shè)置的至少一種排序規(guī)則將所述若干個摘要句進行排序生成多文檔摘要,其中,每種排序規(guī)則根據(jù)摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置。18.如權(quán)利要求17所述的裝置,其特征在于,所述裝置還包括過濾模塊,用于按照設(shè)置的過濾規(guī)則將所述多個分句進行過濾,確定摘要候選句。19.如權(quán)利要求17所述的裝置,其特征在于,所述摘要句選擇模塊包括特征存儲單元,用于保存按照每個分句與摘要主題中心句的相似程度設(shè)置的特征,其中,所述摘要主題中心句由所述每篇文檔中出現(xiàn)頻率較高的至少一個詞組成,保存按照每個分句與該分句所在的文檔對應(yīng)的文檔中心句的相似程度設(shè)置的特征,其中,文檔中心句由所述文檔中出現(xiàn)頻率較高的至少一個詞組成,保存根據(jù)每個分句位于其所在文檔中的位置信息設(shè)置的特征;選擇單元,用于從所述特征存儲單元中選擇至少一個特征,從多個分句中確定若干個摘要句。20.如權(quán)利要求17所述的裝置,其特征在于,所述摘要句排序模塊包括存儲單元,用于存儲按照摘要句包含的日期信息進行排序的排序規(guī)則,按照摘要句位于文檔的位置信息進行排序的排序規(guī)則,和按照摘要句與摘要主題內(nèi)容上的相關(guān)性進行排序的排序規(guī)則;排序單元,用于從所述存儲單元中選擇至少一種排序規(guī)則,根據(jù)所述至少一種排序規(guī)則對所述若干個摘要句進行排序生成多文檔摘要。全文摘要本發(fā)明公開了一種多文檔摘要的生成方法及裝置,用以解決現(xiàn)有技術(shù)中生成的多文檔摘要的可讀性差的問題。該方法從多篇文檔中選擇若干個摘要句;按照設(shè)置的至少一種排序規(guī)則將所述若干個摘要句進行排序生成多文檔摘要,其中,每種排序規(guī)則根據(jù)摘要句包含的日期信息、摘要句位于文檔的位置信息或摘要句與摘要主題內(nèi)容上的相關(guān)性設(shè)置。如本發(fā)明提出的方案,充分考慮了摘要句間的連續(xù)性和與主題內(nèi)容的相關(guān)性,從而可以有效的提高生成的多文檔摘要的可讀性。文檔編號G06F17/30GK101739426SQ20081022610公開日2010年6月16日申請日期2008年11月13日優(yōu)先權(quán)日2008年11月13日發(fā)明者萬小軍,楊建武,肖建國,賈候萍,黃小江申請人:北京大學;北大方正集團有限公司;北京方正電子政務(wù)信息科技有限公司