專利名稱:基于特征信息的Blog自動(dòng)摘要方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自動(dòng)摘要領(lǐng)域,尤其涉及一種基于特征信息的Blog自動(dòng)摘要方法。
背景技術(shù):
隨著Web2.0的興起,Blog這種新的信息傳播和交互方式不斷流行,其影響力也在日益擴(kuò)大,在即時(shí)性與多樣性方面已經(jīng)超過傳統(tǒng)媒體,給現(xiàn)實(shí)世界帶來了巨大影響,越來越受到網(wǎng)民和企業(yè)界的重視。面對(duì)巨大的Blog用戶規(guī)模所帶來的海量Blog信息,讀者如何去查找和閱讀自己感興趣的內(nèi)容就變成了一個(gè)難題。在自動(dòng)摘要研究中,一方面更為多樣化的表達(dá)方式和更為復(fù)雜的段落結(jié)構(gòu)給面向Blog的自動(dòng)摘要帶來了挑戰(zhàn),但另一方面,由于Blog本身比傳統(tǒng)網(wǎng)頁增加了標(biāo)簽、評(píng)論等額外信息,也提供了生成更為準(zhǔn)確的自動(dòng)摘要的可能。傳統(tǒng)搜索引擎基于截取式的摘要提供,往往不能準(zhǔn)確反映文章內(nèi)容的大意,而一個(gè)好的摘要能夠讓用戶在不瀏覽詳細(xì)內(nèi)容的情況下快速地了解文章的大意,并迅速判斷有無必要繼續(xù)深入閱讀,在如今這個(gè)信息爆炸的時(shí)代,這無疑具有十分重要的意義。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有摘要方法所存在的問題和不足,本發(fā)明的目的是提供一種基于特征信息的Blog自動(dòng)摘要方法,從而提高摘要的準(zhǔn)確率和用戶閱讀的閱讀體驗(yàn)。為實(shí)現(xiàn)上述技術(shù)目的,達(dá)到上述技術(shù)效果,本發(fā)明通過以下技術(shù)方案實(shí)現(xiàn):
基于特征信息的Blog自動(dòng)摘要方法,包括以下步驟:
步驟I)基于特征信息的語句得分,其包括詞條特征信息得分和語句特征信息得分; Ca)詞條特征信息得分
利用分詞工具對(duì)待處理的博文進(jìn)行分詞和詞性標(biāo)注,過濾掉數(shù)詞、量詞、介詞等對(duì)句意表達(dá)不大的詞,將預(yù)處理后得到的詞條集合記為
權(quán)利要求
1.基于特征信息的Blog自動(dòng)摘要方法,其特征在于,包括以下步驟: 步驟I)基于特征信息的語句得分,其包括詞條特征信息得分和語句特征信息得分; Ca)詞條特征信息得分 利用分詞工具對(duì)待處理的博文進(jìn)行分詞和詞性標(biāo)注,過濾掉數(shù)詞、量詞、介詞等對(duì)句意表達(dá)不大的詞,將預(yù)處理后得到的詞條集合記為.Iinmm C 然后綜合考慮博文詞頻、圖的描述信息、標(biāo)題和標(biāo)簽等因素對(duì)WS中的詞條進(jìn)行打分,詞條的綜合得分公式如下: r(參驟F(Wi); (b)語句特征信息得分 所述語句特征信息得分所考慮的特征包括位置信息、格式信息和提示詞; 在綜合考慮句子的特征以及其所包含的詞條信息的基礎(chǔ)上,可以利用公式計(jì)算句子的權(quán)重得分,公式如下:膠_=.......................................................-; 獨(dú) 步驟2)基于潛在語義的評(píng)論關(guān)注得分 Ca)找出原文中的每個(gè)句子被哪些評(píng)論所關(guān)注以及關(guān)注的程度; (b)根據(jù)每個(gè)句子 所得到的評(píng)論關(guān)注程度和評(píng)論價(jià)值,來確定該句子被關(guān)注的權(quán)重得分; 步驟3)摘要復(fù)選與合并(a)初次摘要生成 經(jīng)過上述兩步處理后,每條語句最終的得分由特征得分和評(píng)論關(guān)注得分兩部分組成,可以記為哪⑷,并計(jì)算權(quán)值; 在得到博文內(nèi)每條語句的權(quán)值后,首先依據(jù)壓縮比例和博文總的句子數(shù)量計(jì)算出所需抽取出的摘要句子數(shù)n,然后將博文內(nèi)的句子按權(quán)值進(jìn)行排名,取出排名前η位的句子,SP為初次生成的摘要,記為FA ; (b) 二次摘要的抽取 把沒有包含摘要句的自然段落提取出來,組成候選自然段落集合CPS: 假定CPS中某個(gè)自然段落IJ,其前面包含摘要句的最相鄰自然段落內(nèi)的摘要句集合為PAS (后面為NAS),分別計(jì)算《ζ和這兩個(gè)集合的相似度,直接以余弦相似度來衡量SlJf(PMiPk);.....;.........ft* "^2 灑#1-V2以同樣的方式計(jì)算出NAS和
2.根據(jù)權(quán)利要求1所述的基于特征信息的Blog自動(dòng)摘要方法,其特征在于:步驟1(a)中所述因素包括博文詞頻得分、圖的描述信息、標(biāo)題和標(biāo)簽; 所述博文詞頻得分:詞頻信息對(duì)于詞條權(quán)重的貢獻(xiàn)采用TF-1DF的方式來判定,計(jì)算方法如式
3.根據(jù)權(quán)利要求1所述的基于特征信息的Blog自動(dòng)摘要方法,其特征在于:步驟1(b)中所述語句特征信息得分所考慮的特征包括位置信息、格式信息和提示詞; 所述位置信息:位于段首或者段尾的句子通常會(huì)用來概括整段的內(nèi)容,所以對(duì)于位置信息采用加權(quán)規(guī)則,設(shè)定加權(quán)系數(shù); 所述格式信息:對(duì)于一些重要的信息,或者想提示給讀者的信息,往往會(huì)被用特殊的字體,或者不同的顏色表示出來,這里設(shè)定加權(quán)系數(shù); 所述提示詞:在進(jìn)行主題或者內(nèi)容概括時(shí),往往會(huì)用一些提示詞來弓I出,對(duì)于包含這些詞的句子,設(shè)定加權(quán)系數(shù)#_ ; 在綜合考慮句子的特征以及其所包含的詞條信息的基礎(chǔ)上,可以利用公式計(jì)算句子的權(quán)重得分,公式如下:
4.根據(jù)權(quán)利要求1所述的基于特征信息的Blog自動(dòng)摘要方法,其特征在于: 步驟2的具體方法為,假定語句i|衍生出的評(píng)論集合為CS,則語句i|的評(píng)論關(guān)注得分可以用下式進(jìn)行衡量,為相似度
5.根據(jù)權(quán)利要求1所述的基于特征信息的Blog自動(dòng)摘要方法,其特征在于:步驟3(a)中,所述的計(jì)算如下式,其中_為權(quán)重參數(shù)用來調(diào)節(jié)兩者對(duì)總得分的貢獻(xiàn)比:
6.根據(jù)權(quán)利要求1所述的基于特征信息的Blog自動(dòng)摘要方法,其特征在于:步驟3(c)的第一步中,所述警為SA中子集合的數(shù)量。
全文摘要
本發(fā)明在于公開了一種基于特征信息的Blog自動(dòng)摘要方法,其步驟包括基于特征信息的語句得分;基于潛在語義的評(píng)論關(guān)注得分;摘要復(fù)選與合并;經(jīng)過如上處理后,即為本發(fā)明最終所得到的摘要句集合;該方法在充分利用Blog特征信息的基礎(chǔ)上,基于潛在語義相關(guān)性來融合評(píng)論中的關(guān)注點(diǎn),生成對(duì)讀者更為友好的摘要,同時(shí)通過摘要復(fù)選的方法平衡了主題覆蓋與信息冗余;本發(fā)明利用潛在語義相關(guān)性解決了評(píng)論和正文間的同義噪音問題;本方法生成的摘要對(duì)讀者更為友好,準(zhǔn)確性更高。
文檔編號(hào)G06F17/30GK103246687SQ20121019388
公開日2013年8月14日 申請(qǐng)日期2012年6月13日 優(yōu)先權(quán)日2012年6月13日
發(fā)明者趙朋朋, 鮮學(xué)豐, 陳明, 劉全, 崔志明 申請(qǐng)人:蘇州大學(xué)