基于特征信息的Blog自動(dòng)摘要方法

文檔序號(hào)：6370595閱讀：219來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于特征信息的Blog自動(dòng)摘要方法
技術(shù)領(lǐng)域：
本發(fā)明涉及自動(dòng)摘要領(lǐng)域，尤其涉及一種基于特征信息的Blog自動(dòng)摘要方法。
背景技術(shù)：
隨著Web2.0的興起，Blog這種新的信息傳播和交互方式不斷流行，其影響力也在日益擴(kuò)大，在即時(shí)性與多樣性方面已經(jīng)超過傳統(tǒng)媒體，給現(xiàn)實(shí)世界帶來了巨大影響，越來越受到網(wǎng)民和企業(yè)界的重視。面對(duì)巨大的Blog用戶規(guī)模所帶來的海量Blog信息，讀者如何去查找和閱讀自己感興趣的內(nèi)容就變成了一個(gè)難題。在自動(dòng)摘要研究中，一方面更為多樣化的表達(dá)方式和更為復(fù)雜的段落結(jié)構(gòu)給面向Blog的自動(dòng)摘要帶來了挑戰(zhàn)，但另一方面，由于Blog本身比傳統(tǒng)網(wǎng)頁增加了標(biāo)簽、評(píng)論等額外信息，也提供了生成更為準(zhǔn)確的自動(dòng)摘要的可能。傳統(tǒng)搜索引擎基于截取式的摘要提供，往往不能準(zhǔn)確反映文章內(nèi)容的大意，而一個(gè)好的摘要能夠讓用戶在不瀏覽詳細(xì)內(nèi)容的情況下快速地了解文章的大意，并迅速判斷有無必要繼續(xù)深入閱讀，在如今這個(gè)信息爆炸的時(shí)代，這無疑具有十分重要的意義。

發(fā)明內(nèi)容
針對(duì)現(xiàn)有摘要方法所存在的問題和不足，本發(fā)明的目的是提供一種基于特征信息的Blog自動(dòng)摘要方法，從而提高摘要的準(zhǔn)確率和用戶閱讀的閱讀體驗(yàn)。為實(shí)現(xiàn)上述技術(shù)目的，達(dá)到上述技術(shù)效果，本發(fā)明通過以下技術(shù)方案實(shí)現(xiàn):
基于特征信息的Blog自動(dòng)摘要方法，包括以下步驟:
步驟I)基于特征信息的語句得分，其包括詞條特征信息得分和語句特征信息得分； Ca)詞條特征信息得分
利用分詞工具對(duì)待處理的博文進(jìn)行分詞和詞性標(biāo)注，過濾掉數(shù)詞、量詞、介詞等對(duì)句意表達(dá)不大的詞，將預(yù)處理后得到的詞條集合記為
權(quán)利要求
1.基于特征信息的Blog自動(dòng)摘要方法，其特征在于，包括以下步驟: 步驟I)基于特征信息的語句得分，其包括詞條特征信息得分和語句特征信息得分； Ca)詞條特征信息得分利用分詞工具對(duì)待處理的博文進(jìn)行分詞和詞性標(biāo)注，過濾掉數(shù)詞、量詞、介詞等對(duì)句意表達(dá)不大的詞，將預(yù)處理后得到的詞條集合記為.Iinmm C 然后綜合考慮博文詞頻、圖的描述信息、標(biāo)題和標(biāo)簽等因素對(duì)WS中的詞條進(jìn)行打分，詞條的綜合得分公式如下: r(參驟F(Wi); (b)語句特征信息得分所述語句特征信息得分所考慮的特征包括位置信息、格式信息和提示詞；在綜合考慮句子的特征以及其所包含的詞條信息的基礎(chǔ)上，可以利用公式計(jì)算句子的權(quán)重得分，公式如下:膠_=.......................................................-; 獨(dú) 步驟2)基于潛在語義的評(píng)論關(guān)注得分 Ca)找出原文中的每個(gè)句子被哪些評(píng)論所關(guān)注以及關(guān)注的程度； (b)根據(jù)每個(gè)句子所得到的評(píng)論關(guān)注程度和評(píng)論價(jià)值，來確定該句子被關(guān)注的權(quán)重得分；步驟3)摘要復(fù)選與合并(a)初次摘要生成經(jīng)過上述兩步處理后，每條語句最終的得分由特征得分和評(píng)論關(guān)注得分兩部分組成，可以記為哪⑷，并計(jì)算權(quán)值；在得到博文內(nèi)每條語句的權(quán)值后，首先依據(jù)壓縮比例和博文總的句子數(shù)量計(jì)算出所需抽取出的摘要句子數(shù)n，然后將博文內(nèi)的句子按權(quán)值進(jìn)行排名，取出排名前η位的句子，SP為初次生成的摘要，記為FA ； (b) 二次摘要的抽取把沒有包含摘要句的自然段落提取出來，組成候選自然段落集合CPS: 假定CPS中某個(gè)自然段落IJ，其前面包含摘要句的最相鄰自然段落內(nèi)的摘要句集合為PAS (后面為NAS)，分別計(jì)算《ζ和這兩個(gè)集合的相似度，直接以余弦相似度來衡量SlJf(PMiPk)；.....；.........ft* "^2 灑#1-V2以同樣的方式計(jì)算出NAS和
2.根據(jù)權(quán)利要求1所述的基于特征信息的Blog自動(dòng)摘要方法，其特征在于:步驟1(a)中所述因素包括博文詞頻得分、圖的描述信息、標(biāo)題和標(biāo)簽；所述博文詞頻得分:詞頻信息對(duì)于詞條權(quán)重的貢獻(xiàn)采用TF-1DF的方式來判定，計(jì)算方法如式
3.根據(jù)權(quán)利要求1所述的基于特征信息的Blog自動(dòng)摘要方法，其特征在于:步驟1(b)中所述語句特征信息得分所考慮的特征包括位置信息、格式信息和提示詞；所述位置信息:位于段首或者段尾的句子通常會(huì)用來概括整段的內(nèi)容，所以對(duì)于位置信息采用加權(quán)規(guī)則，設(shè)定加權(quán)系數(shù)；所述格式信息:對(duì)于一些重要的信息，或者想提示給讀者的信息，往往會(huì)被用特殊的字體，或者不同的顏色表示出來，這里設(shè)定加權(quán)系數(shù)；所述提示詞:在進(jìn)行主題或者內(nèi)容概括時(shí)，往往會(huì)用一些提示詞來弓I出，對(duì)于包含這些詞的句子，設(shè)定加權(quán)系數(shù)#_ ；在綜合考慮句子的特征以及其所包含的詞條信息的基礎(chǔ)上，可以利用公式計(jì)算句子的權(quán)重得分，公式如下:
4.根據(jù)權(quán)利要求1所述的基于特征信息的Blog自動(dòng)摘要方法，其特征在于: 步驟2的具體方法為，假定語句i|衍生出的評(píng)論集合為CS，則語句i|的評(píng)論關(guān)注得分可以用下式進(jìn)行衡量，為相似度
5.根據(jù)權(quán)利要求1所述的基于特征信息的Blog自動(dòng)摘要方法，其特征在于:步驟3(a)中，所述的計(jì)算如下式，其中_為權(quán)重參數(shù)用來調(diào)節(jié)兩者對(duì)總得分的貢獻(xiàn)比:
6.根據(jù)權(quán)利要求1所述的基于特征信息的Blog自動(dòng)摘要方法，其特征在于:步驟3(c)的第一步中，所述警為SA中子集合的數(shù)量。
全文摘要
本發(fā)明在于公開了一種基于特征信息的Blog自動(dòng)摘要方法，其步驟包括基于特征信息的語句得分；基于潛在語義的評(píng)論關(guān)注得分；摘要復(fù)選與合并；經(jīng)過如上處理后，即為本發(fā)明最終所得到的摘要句集合；該方法在充分利用Blog特征信息的基礎(chǔ)上，基于潛在語義相關(guān)性來融合評(píng)論中的關(guān)注點(diǎn)，生成對(duì)讀者更為友好的摘要，同時(shí)通過摘要復(fù)選的方法平衡了主題覆蓋與信息冗余；本發(fā)明利用潛在語義相關(guān)性解決了評(píng)論和正文間的同義噪音問題；本方法生成的摘要對(duì)讀者更為友好，準(zhǔn)確性更高。
文檔編號(hào)G06F17/30GK103246687SQ20121019388
公開日2013年8月14日申請(qǐng)日期2012年6月13日優(yōu)先權(quán)日2012年6月13日
發(fā)明者趙朋朋, 鮮學(xué)豐, 陳明, 劉全, 崔志明申請(qǐng)人:蘇州大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙朋朋;鮮學(xué)豐;陳明;劉全;崔志明
技術(shù)所有人：蘇州大學(xué)
我是此專利的發(fā)明人

上一篇：一種風(fēng)電功率預(yù)測(cè)方法
上一篇：一種基于信息熵的純凈和混合像元自動(dòng)劃分方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

自動(dòng)生成摘要相關(guān)技術(shù)

wps自動(dòng)生成摘要相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于特征信息的Blog自動(dòng)摘要方法