數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法

文檔序號(hào)：6561591閱讀：169來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息處理技術(shù)領(lǐng)域，確切地說涉及一種數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法。
背景技術(shù)：
基于查詢的自動(dòng)文摘，即對(duì)于給定的文檔，返回一個(gè)或者多個(gè)與查詢相關(guān)的摘要信息，當(dāng)一個(gè)文本集合建立好或者更新之后，自動(dòng)將文檔分為多個(gè)離散的摘要信息?，F(xiàn)在的自動(dòng)文摘處理，一種方法是根據(jù)與當(dāng)前文檔相關(guān)的一些文檔，預(yù)先估計(jì)摘要信息長度，有了文檔摘要的大概長度之后，查找與查詢最匹配的指定長度的信息片段作為文章摘要。另一種方法是通過預(yù)處理，先把文檔切分成一個(gè)或者多個(gè)語義信息塊。語義信息塊確定之后，匹配查詢語句和語義信息塊之間的關(guān)聯(lián)度，選擇與查詢語句關(guān)聯(lián)度最高的，并能覆蓋文檔主要信息的信息塊作為文檔摘要。然而，第一種方法中摘要信息的長度很難預(yù)先確定；而第二種方法，通過預(yù)處理之后，固定了摘要信息的始末位置，而且文檔預(yù)處理之后，如果文檔的主要信息出現(xiàn)在幾個(gè)不同的分割片段中，這種情況下提取的摘要信息對(duì)文檔主要信息的覆蓋率較低。比如，一篇文檔可以被切分為多個(gè)沒有重合的片段，但這樣切分會(huì)有一個(gè)潛在的問題，當(dāng)最佳文檔摘要需要覆蓋兩個(gè)相鄰片段的內(nèi)容時(shí)，由于預(yù)處理分離了文檔片段，自動(dòng)提取的摘要信息不完離
iF. ο如公開號(hào)為CN 101231634，
公開日為2008年7月30日得中國專利文獻(xiàn)公開了一種利用圖劃分方法來自動(dòng)提取多文檔文摘的方法，包括以下步驟進(jìn)行句子邊界切分，把文檔用切分出來的句子表示；將句子表示成向量，計(jì)算句子兩兩間的相似度構(gòu)成句子關(guān)聯(lián)矩陣，并按指定的閾值對(duì)關(guān)聯(lián)矩陣進(jìn)行約簡，同時(shí)進(jìn)行規(guī)范化處理；在多文檔文摘中引入主題的隱性邏輯結(jié)構(gòu)的挖掘，將文檔集按主題劃分成不同的隱性子主題，從而把文摘任務(wù)轉(zhuǎn)化為對(duì)子主題的選取和抽取過程；利用圖劃分的方法，既從全局特性上保證句子所在子主題的重要度，又從局部特性上保證不同子主題之間內(nèi)容的低冗余性，從而有效提高了文摘質(zhì)量。但以上述專利文獻(xiàn)為代表的現(xiàn)有技術(shù)，仍然存在著如下技術(shù)問題CN 101231634 專利中按照句子計(jì)算權(quán)重向量，導(dǎo)致摘要信息按句子分割，這種情況下提取的摘要信息對(duì)文檔主要信息的覆蓋率較低。

發(fā)明內(nèi)容
為解決上述技術(shù)問題，本發(fā)明提出了一種數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法，采用本方法，能解決上述現(xiàn)有技術(shù)中所存在的“提取的摘要信息對(duì)文檔主要信息的覆蓋率較低”的技術(shù)問題，并且，不會(huì)固定摘要信息的長度，能靈活的獲得摘要信息，在提取文檔摘要時(shí)，能很好的判斷出文檔片段和查詢的相關(guān)度，提取的摘要信息抗干擾能力強(qiáng)，并且采用本方法所獲取的文章摘要，比用傳統(tǒng)的摘要算法獲得的文章摘要的準(zhǔn)確率高。本發(fā)明是通過采用下述技術(shù)方案實(shí)現(xiàn)的
一種數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法，其特征在于包括如下步驟
權(quán)利要求
1.一種數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法，其特征在于包括如下步驟a、輸入查詢信息，所述查詢信息包括關(guān)鍵字和和用戶的個(gè)性化信息；b、根據(jù)所輸入的查詢信息建立相關(guān)模型和不相關(guān)模型，所述相關(guān)模型是指查詢語句的自然語言模型的概率分布函數(shù)，用關(guān)鍵字查詢數(shù)字圖書系統(tǒng)，得到最前面的5-50篇文檔；所述的不相關(guān)模型是所述相關(guān)模型的補(bǔ)充概率分布函數(shù)，指數(shù)字圖書系統(tǒng)中的所有文檔集合；C、對(duì)需要得到摘要信息的文檔中的每一個(gè)字，計(jì)算所述字在相關(guān)模型和不相關(guān)模型下產(chǎn)生的概率，并用相關(guān)模型下的概率減去不相關(guān)模型下得概率作為所述字和查詢信息的相關(guān)度；d、將每個(gè)關(guān)鍵字的所述相關(guān)度保存到一個(gè)隊(duì)列中，并對(duì)隊(duì)列進(jìn)行平滑處理；e、選取所述隊(duì)列中一組連續(xù)關(guān)鍵字相關(guān)度相加，相關(guān)度最高的文檔片段做為一條文檔摘要，將這條相關(guān)度最高的文檔片段放入摘要數(shù)據(jù)集合中，并在所述隊(duì)列中刪除這條相關(guān)度最高的文檔片段；f、根據(jù)閾值大小判斷是否繼續(xù)尋找下條文摘；g、如果需要，繼續(xù)e步驟操作，如果不需要，就返回摘要數(shù)據(jù)集合中的所有文檔作為摘要信息。
2.根據(jù)權(quán)利要求1所述的數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法，其特征在于所述c步驟中，計(jì)算所述字在相關(guān)模型和不相關(guān)模型下產(chǎn)生的概率具體包括所述字在不相關(guān)模型下產(chǎn)生的概率方法為在給定關(guān)鍵字w和整個(gè)文檔集合的情況下，文檔中出現(xiàn)關(guān)鍵字“^的次數(shù)用J&表示，而整個(gè)文檔集合中的數(shù)量用J 表示，不相關(guān)模型中關(guān)鍵字·》產(chǎn)生的概率為
3.根據(jù)權(quán)利要求1或2所述的數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法，其特征在于所述d步驟中，對(duì)隊(duì)列進(jìn)行平滑處理具體是指計(jì)算需要得到摘要信息的文檔中的每一個(gè)字與查詢信息的相關(guān)度，每個(gè)相關(guān)度和前后十個(gè)字的相關(guān)度比較過高或者過低，則認(rèn)為當(dāng)前字處于波動(dòng)較大的情況，在運(yùn)算前將其去掉。
4.根據(jù)權(quán)利要求3所述的數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法，其特征在于所述f步驟中，根據(jù)閾值大小判斷是否繼續(xù)尋找下條文摘具體是指預(yù)先設(shè)定閾值的值，之前取出來的摘要片段的相關(guān)度總和除以當(dāng)前取出來的摘要片段的相關(guān)度總和小于所述設(shè)定的閾值，則保留當(dāng)前文摘信息，并重復(fù)e步驟；如大于所述設(shè)定的閾值，則丟棄當(dāng)前的文摘信息，并結(jié)束文摘提取算法，返回摘要數(shù)據(jù)集合中的所有文檔作為摘要信息。
5.根據(jù)權(quán)利要求1所述的數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法，其特征在于所述 c步驟中，用相關(guān)模型下的概率減去不相關(guān)模型下得概率作為所述字和查詢信息的相關(guān)度，相關(guān)度的分布在[-1,1]之間。
6.根據(jù)權(quán)利要求1所述的數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法，其特征在于所述的a步驟中，用戶的個(gè)性化信息是指用戶的歷史瀏覽數(shù)據(jù)或用戶在數(shù)字圖書系統(tǒng)中曾經(jīng)使用的個(gè)人偏好信息。
全文摘要
本發(fā)明公開了一種數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法，涉及信息處理技術(shù)領(lǐng)域，包括a、輸入查詢信息；b、根據(jù)所輸入的查詢信息建立相關(guān)模型和不相關(guān)模型；c、對(duì)需要得到摘要信息的文檔中的每一個(gè)字，計(jì)算所述字在相關(guān)模型和不相關(guān)模型下產(chǎn)生的概率；d、將每個(gè)關(guān)鍵字的所述相關(guān)度保存到一個(gè)隊(duì)列中；e、選取所述隊(duì)列中一組連續(xù)關(guān)鍵字相關(guān)度相加，相關(guān)度最高的文檔片段做為一條文檔摘要；f、根據(jù)閾值大小判斷是否繼續(xù)尋找下條文摘；g、如果需要，繼續(xù)e步驟操作，如果不需要，就返回摘要數(shù)據(jù)集合中的所有文檔作為摘要信息。本方法比用傳統(tǒng)的摘要算法獲得的文章摘要的準(zhǔn)確率高。并且，在模擬真實(shí)數(shù)據(jù)情況時(shí)，本方法具有很強(qiáng)的抗干擾能力。
文檔編號(hào)G06F17/30GK102222119SQ201110213750
公開日2011年10月19日申請日期2011年7月28日優(yōu)先權(quán)日2011年7月28日
發(fā)明者劉家芬, 張晨, 李慶, 羅旭斌, 胡川申請人:成都希創(chuàng)掌中科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李慶;劉家芬;羅旭斌;張晨;胡川
技術(shù)所有人：成都希創(chuàng)掌中科技有限公司
我是此專利的發(fā)明人

上一篇：基于javascript的saas服務(wù)測試引擎的制作方法
上一篇：一種降低可重構(gòu)硬件任務(wù)布局沖突的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

個(gè)性化推薦系統(tǒng)相關(guān)技術(shù)

個(gè)性化推薦系統(tǒng)架構(gòu)相關(guān)技術(shù)

亞馬遜個(gè)性化推薦系統(tǒng)相關(guān)技術(shù)

個(gè)性化推薦系統(tǒng)代碼相關(guān)技術(shù)

系統(tǒng)個(gè)性化設(shè)置工具相關(guān)技術(shù)

個(gè)性化推薦系統(tǒng)綜述相關(guān)技術(shù)

個(gè)性化教育測評(píng)系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)字圖書系統(tǒng)中的個(gè)性化自動(dòng)文摘方法