文檔摘要的生成方法及裝置制造方法
【專利摘要】本發(fā)明提供了一種文檔摘要的生成方法及裝置,其中,該方法包括:獲得文檔,并使用預設特征對文檔進行處理,以獲得摘要候選句,其中,預設特征包括摘要關鍵詞、數(shù)詞、與文檔中包含的標題的距離在預定范圍內(nèi)的句子和子標題中的一種或幾種;對摘要候選句進行壓縮處理;以及對壓縮處理后的摘要候選句進行后處理,以生成文檔的摘要。本發(fā)明實施例提供的文檔摘要的生成方法及裝置,生成的摘要精煉、準確,并且摘要中不存在冗余信息,生成過程簡單,無需人工參與,可大大降低文檔的摘要的生成時間,提高文檔生成摘要的效率。
【專利說明】文檔摘要的生成方法及裝置
【技術領域】
[0001] 本發(fā)明設及計算機【技術領域】,尤其設及一種文檔摘要的生成方法及裝置。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)技術的迅速發(fā)展,越來越多的用戶越傾向于通過互聯(lián)網(wǎng)查看新聞信 息,目前用戶通過移動終端例如手機查看互聯(lián)網(wǎng)上提供的新聞信息是一種常用方式。然而 隨著科技的飛速發(fā)展,每天在互聯(lián)網(wǎng)上更新的新聞量非常龐大,類別多樣,形式變化多端, 人們要在有限的時間內(nèi)閱讀該么多的新聞內(nèi)容,了解其要點信息是非常困難的事情,并且 對于內(nèi)容量大的新聞,由于移動終端例如手機的屏幕有限,往往手機的首屏中無法展現(xiàn)新 聞的全部內(nèi)容,用戶查看不方便,并且用戶閱讀大量新聞內(nèi)容后容易忘記前部分新聞內(nèi)容 核屯、內(nèi)容,用戶查看新聞的用戶體驗差。
[0003] 為了方便用戶閱讀新聞信息,了解新聞的核屯、內(nèi)容,現(xiàn)有的展現(xiàn)新聞方式主要是 在頁面上顯示新聞文檔對應的標題和對應的一句話摘要或者小于100字的短摘要,移動終 端例如智能手機中的新聞客戶端上所顯示的新聞信息如圖1所示。用戶通過查看圖1中的 標題和對應的摘要即可獲得新聞的核屯、內(nèi)容,當用戶對查看的新聞信息感興趣后,可通過 點擊對應的新聞標題查看詳細新聞。
[0004] 現(xiàn)有的生成新聞摘要的方式主要有兩種方式,第一種方式為人工編輯新聞摘要, 編輯人員人工對新聞文檔中的內(nèi)容和結(jié)構(gòu)進行分析,W獲得對應新聞文檔的摘要,然而,通 過人工編輯摘要的方式耗時耗力,新聞摘要更新效率。第二種方式為通過自動摘要系統(tǒng)自 動生成摘要,現(xiàn)有的自動摘要系統(tǒng)可根據(jù)用戶輸入的文檔,對文檔中的段落進行抽取,然而 現(xiàn)有的自動生成方式僅能對從段落中抽取到的句子進行簡單提取,無法直接生成精煉、準 確的新聞摘要。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明旨在至少在一定程度上解決相關技術中的技術問題之一。為此,本發(fā)明第 一方面實施例在于提出一種文檔摘要的生成方法,該方法生成的摘要精煉、準確,并且摘要 中不存在冗余信息,生成過程簡單,無需人工參與,可大大降低文檔的摘要的生成時間,提 高文檔生成摘要的效率。
[0006] 本發(fā)明的第二方面實施例在于提出一種文檔摘要的生成裝置。
[0007] 為了實現(xiàn)上述目的,本發(fā)明第一方面實施例的文檔摘要的生成方法,包括;獲得文 檔,并使用預設特征對所述文檔進行處理,W獲得摘要候選句,其中,所述預設特征包括摘 要關鍵詞、數(shù)詞、與所述文檔中包含的標題的距離在預定范圍內(nèi)的句子和子標題中的一種 或幾種;對所述摘要候選句進行壓縮處理;W及對壓縮處理后的摘要候選句進行后處理, W生成所述文檔的摘要。
[000引根據(jù)本發(fā)明實施例的文檔摘要的生成方法,獲得文檔,并使用預設特征對文檔進 行處理,W獲得摘要候選句,W及對摘要候選句進行壓縮處理,并對壓縮處理后的摘要候選 句進行后處理,w生成文檔的摘要,該實施例生成的摘要精煉、準確,并且摘要中不存在冗 余信息,生成過程簡單,無需人工參與,可大大降低文檔的摘要的生成時間,提高文檔生成 摘要的效率。
[0009] 為了實現(xiàn)上述目的,本發(fā)明第二方面實施例的文檔摘要的生成裝置,包括;獲得模 塊,用于獲得文檔,并使用預設特征對所述文檔進行處理,W獲得摘要候選句,其中,所述預 設特征包括摘要關鍵詞、數(shù)詞、與所述文檔中包含的標題的距離在預定范圍內(nèi)的句子和子 標題中的一種或幾種;壓縮處理,用于對所述摘要候選句進行壓縮處理;W及生成模塊,用 于對壓縮處理后的摘要候選句進行后處理,W生成所述文檔的摘要。
[0010] 根據(jù)本發(fā)明實施例的文檔摘要的生成裝置,通過獲得模塊獲得文檔,并使用預設 特征對文檔進行處理,W獲得摘要候選句,并通過壓縮模塊對摘要候選句進行壓縮處理,W 及通過生成模塊對壓縮處理后的摘要候選句進行后處理,W生成文檔的摘要,該實施例生 成的摘要精煉、準確,并且摘要中不存在冗余信息,生成過程簡單,無需人工參與,可大大降 低文檔的摘要的生成時間,提高文檔生成摘要的效率。
【專利附圖】
【附圖說明】
[0011] 圖1是一個包含新聞信息的頁面的示意圖。
[0012] 圖2是根據(jù)本發(fā)明一個實施例的文檔摘要的生成方法的流程圖。
[0013] 圖3是根據(jù)本發(fā)明一個實施例的摘要文章的示意圖。
[0014] 圖4是根據(jù)本發(fā)明一個實施例的壓縮摘要候選句的流程圖。
[0015] 圖5是根據(jù)本發(fā)明一個實施例的文檔摘要的生成裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0016] 下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0017] 下面參考附圖描述本發(fā)明實施例的文檔摘要的生成方法及裝置。
[0018] 圖2是根據(jù)本發(fā)明一個實施例的文檔摘要的生成方法的流程圖,如圖2所示,該文 檔摘要的生成方法包括:
[0019] S201,獲得文檔,并使用預設特征對文檔進行處理,W獲得摘要候選句。
[0020] 其中,除了使用文本處理的通用特征外,本實施例還針對摘要特點引入預設特征, 并使用預設特征對文檔進行處理,需要說明的是,上述預設特征為本發(fā)明提出的特有特征。 該預設特征可W包括但不限于摘要關鍵詞、數(shù)詞、與文檔中包含的標題的距離在預定范圍 內(nèi)的句子和子標題中的一種或幾種。
[0021] 在該實施例中,獲得待生成摘要的文檔后,可先對該文檔進行預處理,并在預處理 后,使用現(xiàn)有的通用特征例如句子位置信息、段落信息、肥R等特征對預處理后的文檔進行 特征提取的同時,還使用預設特征(例如摘要關鍵詞、數(shù)詞、與文檔中包含的標題的距離在 預定范圍內(nèi)的句子和子標題等)對預處理后的文檔進行特征提取,然后獲得所提取特征的 權重,并根據(jù)權重計算預處理后的文檔中每個句子的分數(shù),W及按照分數(shù)由高到低的順序 對句子進行排序,根據(jù)排序結(jié)果獲得摘要候選句。
[0022] 具體地,可基于摘要生成系統(tǒng)中預先保存的詞典W及規(guī)則詞表對W標題和正文形 式輸入的文檔進行預處理,通過預處理可將文檔中無效信息去除,例如,可過濾數(shù)據(jù)中的圖 標題、報頭等無效信息。
[0023] 在對文檔進行預處理后,可基于預設特征對文檔進行特征提取,W提取出滿足預 設特征的句子,針對不同的特征所對應的特征提取方式不同。下面分別對使用摘要關鍵詞、 數(shù)詞、與文檔中包含的標題的距離在預定范圍內(nèi)的句子(即標題附近的句子)或者子標題 等預設特征對文檔進行特征提取的過程進行介紹。
[0024] (1)摘要關鍵詞
[0025] 對于摘要關鍵詞特征,在提取文檔中包含關鍵詞的句子的過程中,可根據(jù)摘要生 成系統(tǒng)中預先保存的摘要關鍵詞表對文檔進行處理,具體地,可判斷文檔中的每個句子中 是否包含摘要關鍵詞表中的詞語,若文檔中的句子中包含摘要關鍵詞表中的詞語,則提取 對應的句子。其中,所提取出的句子可W成為摘要候選句。
[0026] 其中,摘要關鍵詞表中保存了一些可W高度概括文檔的中屯、內(nèi)容的摘要關鍵詞, 摘要關鍵詞是指經(jīng)常出現(xiàn)在摘要中的詞語,該些詞語可從真實的人工編輯摘要中獲得。通 過摘要關鍵詞可W準確定位出文檔的摘要候選句。摘要關鍵詞表如表1所示,并且表1中 僅是摘要關鍵詞表中的部分內(nèi)容。
[0027] 表1摘要關鍵詞表 [002引
【權利要求】
1. 一種文檔摘要的生成方法,其特征在于,包括: 獲得文檔,并使用預設特征對所述文檔進行處理,以獲得摘要候選句,其中,所述預設 特征包括摘要關鍵詞、數(shù)詞、與所述文檔中包含的標題的距離在預定范圍內(nèi)的句子和子標 題中的一種或幾種; 對所述摘要候選句進行壓縮處理;以及 對壓縮處理后的摘要候選句進行后處理,以生成所述文檔的摘要。
2. 根據(jù)權利要求1所述的方法,其特征在于,所述使用預設特征對所述文檔進行處理, 以獲得摘要候選句,包括: 對所述文檔進行預處理,使用所述預設特征對預處理后的文檔進行特征提?。? 獲得所提取特征的權重,并根據(jù)所述權重計算所述預處理后的文檔中每個句子的分 數(shù);以及 按照分數(shù)由高到低的順序?qū)λ鼍渥舆M行排序,根據(jù)排序結(jié)果獲得所述摘要候選句。
3. 根據(jù)權利要求1所述的方法,其特征在于,所述對所述摘要候選句進行壓縮處理,包 括: 以子句為單位對所述摘要候選句進行壓縮處理。
4. 根據(jù)權利要求1所述的方法,其特征在于,所述對壓縮處理后的摘要候選句進行后 處理,以生成所述文檔的摘要,包括: 對壓縮處理后的摘要候選句進行去冗余和重排序處理,以生成所述文檔的摘要。
5. 根據(jù)權利要求3所述的方法,其特征在于,所述以子句為單位對所述摘要候選句進 行壓縮處理,包括: 確定子句區(qū)分標識符,根據(jù)所述子句區(qū)分標識符將所述摘要候選句拆分成子句集合; 基于預設識別特征將所述子句集合劃分為可壓縮子句集合和不可壓縮子句集合;以及 基于預設的規(guī)則詞表對可壓縮子句集合進行修正,并對修正后的可壓縮子句集合進行 壓縮。
6. 根據(jù)權利要求4所述的方法,其特征在于,所述對壓縮處理后的摘要候選句進行去 冗余和重排序處理,以生成所述文檔的摘要,包括: 針對壓縮處理后的每個摘要候選句,計算當前摘要候選句與所述標題的第一相似度, 若所述第一相似度大于第一預設閾值,則刪除所述當前摘要候選句,若所述第一相似度小 于等于所述第一預設閾值,則保留所述當前摘要候選句; 計算任意兩個保留的摘要候選句之間的第二相似度,若所述第二相似度大于第二預設 閾值,則刪除參與計算的一個摘要候選句,若所述第二相似度小于等于所述第二預設閾值, 則保留參與計算的兩個摘要候選句;以及 按照所保留的摘要候選句在所述文檔中出現(xiàn)的順序依次連接所保留的摘要候選句,生 成所述文檔的摘要。
7. -種文檔摘要的生成裝置,其特征在于,包括: 獲得模塊,用于獲得文檔,并使用預設特征對所述文檔進行處理,以獲得摘要候選句, 其中,所述預設特征包括摘要關鍵詞、數(shù)詞、與所述文檔中包含的標題的距離在預定范圍內(nèi) 的句子和子標題中的一種或幾種; 壓縮處理,用于對所述摘要候選句進行壓縮處理;以及 生成模塊,用于對壓縮處理后的摘要候選句進行后處理,以生成所述文檔的摘要。
8. 根據(jù)權利要求7所述的裝置,其特征在于,所述獲得模塊,具體用于: 對所述文檔進行預處理,使用所述預設特征對預處理后的文檔進行特征提取;獲得所 提取特征的權重,并根據(jù)所述權重計算所述預處理后的文檔中每個句子的分數(shù);以及按照 分數(shù)由高到低的順序?qū)λ鼍渥舆M行排序,根據(jù)排序結(jié)果獲得所述摘要候選句。
9. 根據(jù)權利要求8所述的裝置,其特征在于,所述壓縮模塊,具體用于: 以子句為單位對所述摘要候選句進行壓縮處理。
10. 根據(jù)權利要求7所述的裝置,其特征在于,所述生成模塊,具體用于: 對壓縮處理后的摘要候選句進行去冗余和重排序處理,以生成所述文檔的摘要。
11. 根據(jù)權利要求9所述的裝置,其特征在于,所述壓縮模塊,具體用于: 確定子句區(qū)分標識符,根據(jù)所述子句區(qū)分標識符將所述摘要候選句拆分成子句集合; 基于預設識別特征將所述子句集合劃分為可壓縮子句集合和不可壓縮子句集合;以及基于 預設的規(guī)則詞表對可壓縮子句集合進行修正,并對修正后的可壓縮子句集合進行壓縮。
12. 根據(jù)權利要求10所述的裝置,其特征在于,所述生成模塊,具體用于: 針對壓縮處理后的每個摘要候選句,計算當前摘要候選句與所述標題的第一相似度, 若所述第一相似度大于第一預設閾值,則刪除所述當前摘要候選句,若所述第一相似度小 于等于所述第一預設閾值,則保留所述當前摘要候選句; 計算任意兩個保留的摘要候選句之間的第二相似度,若所述第二相似度大于第二預設 閾值,則刪除參與計算的一個摘要候選句,若所述第二相似度小于等于所述第二預設閾值, 則保留參與計算的兩個摘要候選句;以及 按照所保留的摘要候選句在所述文檔中出現(xiàn)的順序依次連接所保留的摘要候選句,生 成所述文檔的摘要。
【文檔編號】G06F17/27GK104503958SQ201410665760
【公開日】2015年4月8日 申請日期:2014年11月19日 優(yōu)先權日:2014年11月19日
【發(fā)明者】朱少杰, 呂雅娟, 肖欣延, 付波 申請人:百度在線網(wǎng)絡技術(北京)有限公司