專利名稱:數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,確切地說涉及一種數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法。
背景技術(shù):
基于查詢的自動(dòng)文摘,即對(duì)于給定的文檔,返回一個(gè)或者多個(gè)與查詢相關(guān)的摘要信息,當(dāng)一個(gè)文本集合建立好或者更新之后,自動(dòng)將文檔分為多個(gè)離散的摘要信息?,F(xiàn)在的自動(dòng)文摘處理,一種方法是根據(jù)與當(dāng)前文檔相關(guān)的一些文檔,預(yù)先估計(jì)摘要信息長度,有了文檔摘要的大概長度之后,查找與查詢最匹配的指定長度的信息片段作為文章摘要。另一種方法是通過預(yù)處理,先把文檔切分成一個(gè)或者多個(gè)語義信息塊。語義信息塊確定之后,匹配查詢語句和語義信息塊之間的關(guān)聯(lián)度,選擇與查詢語句關(guān)聯(lián)度最高的,并能覆蓋文檔主要信息的信息塊作為文檔摘要。然而,第一種方法中摘要信息的長度很難預(yù)先確定;而第二種方法,通過預(yù)處理之后,固定了摘要信息的始末位置,而且文檔預(yù)處理之后,如果文檔的主要信息出現(xiàn)在幾個(gè)不同的分割片段中,這種情況下提取的摘要信息對(duì)文檔主要信息的覆蓋率較低。比如,一篇文檔可以被切分為多個(gè)沒有重合的片段,但這樣切分會(huì)有一個(gè)潛在的問題,當(dāng)最佳文檔摘要需要覆蓋兩個(gè)相鄰片段的內(nèi)容時(shí),由于預(yù)處理分離了文檔片段,自動(dòng)提取的摘要信息不完離
iF. ο如公開號(hào)為CN 101231634,
公開日為2008年7月30日得中國專利文獻(xiàn)公開了一種利用圖劃分方法來自動(dòng)提取多文檔文摘的方法,包括以下步驟進(jìn)行句子邊界切分,把文檔用切分出來的句子表示;將句子表示成向量,計(jì)算句子兩兩間的相似度構(gòu)成句子關(guān)聯(lián)矩陣,并按指定的閾值對(duì)關(guān)聯(lián)矩陣進(jìn)行約簡,同時(shí)進(jìn)行規(guī)范化處理;在多文檔文摘中引入主題的隱性邏輯結(jié)構(gòu)的挖掘,將文檔集按主題劃分成不同的隱性子主題,從而把文摘任務(wù)轉(zhuǎn)化為對(duì)子主題的選取和抽取過程;利用圖劃分的方法,既從全局特性上保證句子所在子主題的重要度,又從局部特性上保證不同子主題之間內(nèi)容的低冗余性,從而有效提高了文摘質(zhì)量。但以上述專利文獻(xiàn)為代表的現(xiàn)有技術(shù),仍然存在著如下技術(shù)問題CN 101231634 專利中按照句子計(jì)算權(quán)重向量,導(dǎo)致摘要信息按句子分割,這種情況下提取的摘要信息對(duì)文檔主要信息的覆蓋率較低。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明提出了一種數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法,采用本方法,能解決上述現(xiàn)有技術(shù)中所存在的“提取的摘要信息對(duì)文檔主要信息的覆蓋率較低”的技術(shù)問題,并且,不會(huì)固定摘要信息的長度,能靈活的獲得摘要信息,在提取文檔摘要時(shí),能很好的判斷出文檔片段和查詢的相關(guān)度,提取的摘要信息抗干擾能力強(qiáng),并且采用本方法所獲取的文章摘要,比用傳統(tǒng)的摘要算法獲得的文章摘要的準(zhǔn)確率高。本發(fā)明是通過采用下述技術(shù)方案實(shí)現(xiàn)的
一種數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法,其特征在于包括如下步驟
權(quán)利要求
1.一種數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法,其特征在于包括如下步驟a、輸入查詢信息,所述查詢信息包括關(guān)鍵字和和用戶的個(gè)性化信息;b、根據(jù)所輸入的查詢信息建立相關(guān)模型和不相關(guān)模型,所述相關(guān)模型是指查詢語句的自然語言模型的概率分布函數(shù),用關(guān)鍵字查詢數(shù)字圖書系統(tǒng),得到最前面的5-50篇文檔;所述的不相關(guān)模型是所述相關(guān)模型的補(bǔ)充概率分布函數(shù),指數(shù)字圖書系統(tǒng)中的所有文檔集合;C、對(duì)需要得到摘要信息的文檔中的每一個(gè)字,計(jì)算所述字在相關(guān)模型和不相關(guān)模型下產(chǎn)生的概率,并用相關(guān)模型下的概率減去不相關(guān)模型下得概率作為所述字和查詢信息的相關(guān)度;d、將每個(gè)關(guān)鍵字的所述相關(guān)度保存到一個(gè)隊(duì)列中,并對(duì)隊(duì)列進(jìn)行平滑處理;e、選取所述隊(duì)列中一組連續(xù)關(guān)鍵字相關(guān)度相加,相關(guān)度最高的文檔片段做為一條文檔摘要,將這條相關(guān)度最高的文檔片段放入摘要數(shù)據(jù)集合中,并在所述隊(duì)列中刪除這條相關(guān)度最高的文檔片段;f、根據(jù)閾值大小判斷是否繼續(xù)尋找下條文摘;g、如果需要,繼續(xù)e步驟操作,如果不需要,就返回摘要數(shù)據(jù)集合中的所有文檔作為摘要信息。
2.根據(jù)權(quán)利要求1所述的數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法,其特征在于 所述c步驟中,計(jì)算所述字在相關(guān)模型和不相關(guān)模型下產(chǎn)生的概率具體包括所述字在不相關(guān)模型下產(chǎn)生的概率方法為在給定關(guān)鍵字w和整個(gè)文檔集合的情況下,文檔中出現(xiàn)關(guān)鍵字“^的次數(shù)用J&表示,而整個(gè)文檔集合中的數(shù)量用J 表示,不相關(guān)模型中關(guān)鍵字·》產(chǎn)生的概率為
3.根據(jù)權(quán)利要求1或2所述的數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法,其特征在于 所述d步驟中,對(duì)隊(duì)列進(jìn)行平滑處理具體是指計(jì)算需要得到摘要信息的文檔中的每一個(gè)字與查詢信息的相關(guān)度,每個(gè)相關(guān)度和前后十個(gè)字的相關(guān)度比較過高或者過低,則認(rèn)為當(dāng)前字處于波動(dòng)較大的情況,在運(yùn)算前將其去掉。
4.根據(jù)權(quán)利要求3所述的數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法,其特征在于所述f步驟中,根據(jù)閾值大小判斷是否繼續(xù)尋找下條文摘具體是指預(yù)先設(shè)定閾值的值,之前取出來的摘要片段的相關(guān)度總和除以當(dāng)前取出來的摘要片段的相關(guān)度總和小于所述設(shè)定的閾值,則保留當(dāng)前文摘信息,并重復(fù)e步驟;如大于所述設(shè)定的閾值,則丟棄當(dāng)前的文摘信息, 并結(jié)束文摘提取算法,返回摘要數(shù)據(jù)集合中的所有文檔作為摘要信息。
5.根據(jù)權(quán)利要求1所述的數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法,其特征在于所述 c步驟中,用相關(guān)模型下的概率減去不相關(guān)模型下得概率作為所述字和查詢信息的相關(guān)度, 相關(guān)度的分布在[-1,1]之間。
6.根據(jù)權(quán)利要求1所述的數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法,其特征在于所述的a步驟中,用戶的個(gè)性化信息是指用戶的歷史瀏覽數(shù)據(jù)或用戶在數(shù)字圖書系統(tǒng)中曾經(jīng)使用的個(gè)人偏好信息。
全文摘要
本發(fā)明公開了一種數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法,涉及信息處理技術(shù)領(lǐng)域,包括a、輸入查詢信息;b、根據(jù)所輸入的查詢信息建立相關(guān)模型和不相關(guān)模型;c、對(duì)需要得到摘要信息的文檔中的每一個(gè)字,計(jì)算所述字在相關(guān)模型和不相關(guān)模型下產(chǎn)生的概率;d、將每個(gè)關(guān)鍵字的所述相關(guān)度保存到一個(gè)隊(duì)列中;e、選取所述隊(duì)列中一組連續(xù)關(guān)鍵字相關(guān)度相加,相關(guān)度最高的文檔片段做為一條文檔摘要;f、根據(jù)閾值大小判斷是否繼續(xù)尋找下條文摘;g、如果需要,繼續(xù)e步驟操作,如果不需要,就返回摘要數(shù)據(jù)集合中的所有文檔作為摘要信息。本方法比用傳統(tǒng)的摘要算法獲得的文章摘要的準(zhǔn)確率高。并且,在模擬真實(shí)數(shù)據(jù)情況時(shí),本方法具有很強(qiáng)的抗干擾能力。
文檔編號(hào)G06F17/30GK102222119SQ201110213750
公開日2011年10月19日 申請日期2011年7月28日 優(yōu)先權(quán)日2011年7月28日
發(fā)明者劉家芬, 張晨, 李慶, 羅旭斌, 胡川 申請人:成都希創(chuàng)掌中科技有限公司