wn>,最終句子重要度由兩者結(jié)合得到。對(duì)于上一步得到的每一個(gè)特 征值fi,到底哪個(gè)特征最重要,哪個(gè)特征一般重要,傳統(tǒng)的做法是利用人工經(jīng)驗(yàn)來對(duì)每個(gè) 特征定一個(gè)權(quán)重值,比如認(rèn)為fl比f2重要,那么將wl定得高于w2。這種做法的缺點(diǎn)在 于:人工經(jīng)驗(yàn)有時(shí)候會(huì)與事實(shí)不符,這樣導(dǎo)致最終確定的公式不是最優(yōu)的;另外,權(quán)重向量 <wl,w2,中各值之間的相對(duì)關(guān)系到底差多少,人工的方式也相對(duì)主觀一些。
[0076] 本發(fā)明實(shí)施例利用類似于機(jī)器學(xué)習(xí)里"訓(xùn)練"的思路,即利用已知數(shù)據(jù)來確定特征 權(quán)重。具體做法是:挑選N篇網(wǎng)頁,每個(gè)網(wǎng)頁人工標(biāo)注最重要的句子是哪一個(gè),這樣得到訓(xùn) 練數(shù)據(jù)集。然后找到一種特征權(quán)重組合<wl,w2,…,wn>,使得其在人工標(biāo)注的數(shù)據(jù)集上的 效果最優(yōu)。最優(yōu)的效果是指在訓(xùn)練集上最重要句子的平均排名最高。具體舉例如下:對(duì)于 一個(gè)特征權(quán)重組合〈wl,w2,…,wn>,利用句子打分公式Score(s)=fI*wl+f2*w2+…+fn*wn, 來得到N篇網(wǎng)頁里每一個(gè)網(wǎng)頁的句子重要度排序結(jié)果,然后分析人工標(biāo)注的最重要句子的 排名情況,最優(yōu)效果是最重要句子的平均排名avgR=sum(Ri)/N最高,即max(avgR)對(duì)應(yīng)的 w是最好的w。這種方法不僅科學(xué),而且利于后續(xù)的分析及優(yōu)化。
[0077] 以上算式中avg是SQL(StructuredQueryLanguage,結(jié)構(gòu)化查詢語言)數(shù)據(jù)庫 中求平均值函數(shù),sum是求數(shù)組元素和的函數(shù)。
[0078] 二、在線判定:
[0079] 1、句子排序。具體的步驟:將正文的每個(gè)句子進(jìn)行句子拆分、然后用打分公式進(jìn)行 評(píng)分確定重要程度,具體可以參閱離線訓(xùn)練中的方法。
[0080] 2、摘要生成。
[0081]本步驟需要提取重要程度較高的句子作為摘要。本發(fā)明實(shí)施例還在簡(jiǎn)單提取重要 程度較高的句子的基礎(chǔ)上進(jìn)行了幾種優(yōu)選的優(yōu)化操作,具體如下:
[0082] A :多樣性控制:即將比較相似的句子只保留一條;
[0083] B :代詞替換,比如將"他"替換為文中的人物名字;
[0084] C :順序控制,按句子在文章出現(xiàn)次數(shù)進(jìn)行排列。
[0085] 后續(xù)的優(yōu)化操作還可以有其他,并不僅限于以上三種,以上三種優(yōu)化的舉例不應(yīng) 理解為對(duì)可選的優(yōu)化方案的窮舉。
[0086] 以下是利用本發(fā)明實(shí)施例方案生成摘要的兩個(gè)實(shí)例:
[0087]表1
[0088]
[0091] 以上方案不需要維護(hù)詞典,因此成本較低;不需要采用海量的詞庫進(jìn)行匹配速度 更快、不受詞典是否收錄詞語全面的影響因此效果更好。該方案可以自動(dòng)摘要生成,同時(shí)避 免了詞典建設(shè)和人工成本,能夠達(dá)到一般網(wǎng)頁的摘要提取需求,內(nèi)部評(píng)測(cè)摘要提取準(zhǔn)確率 在90%以上。
[0092]本發(fā)明實(shí)施例還提供了一種摘要生成裝置,如圖3所示,包括:
[0093]句子提取單元301,用于獲取正文內(nèi)容并獲取上述正文內(nèi)容的句子;
[0094]計(jì)算單元302,用于對(duì)上述句子提取單元301提取的正文內(nèi)容的各句子使用多元 語言模型算法進(jìn)行分詞得到分詞結(jié)果,確定上述分詞結(jié)果的特征向量;上述特征向量包含 典型特征,典型特征對(duì)應(yīng)有特征權(quán)重;依據(jù)典型特征的特征權(quán)重計(jì)算正文內(nèi)容的各句子的 重要度;
[0095] 摘要提取單元302,用于依據(jù)上述計(jì)算單元302計(jì)算得到的重要度由高往低從上 述正文內(nèi)容中提取句子作為摘要。
[0096]本發(fā)明實(shí)施例方案可以在服務(wù)器一側(cè)執(zhí)行也可以在移動(dòng)終端一側(cè)執(zhí)行,對(duì)此本發(fā) 明實(shí)施例不予限定。若在移動(dòng)終端一側(cè)執(zhí)行,那么本步驟中獲取正文內(nèi)容可以是接收到來 自網(wǎng)絡(luò)側(cè)的正文內(nèi)容;如果在服務(wù)器一側(cè)執(zhí)行,那么本步驟則可以是批量的獲取正文內(nèi)容, 然后依此對(duì)各正文內(nèi)容采用本發(fā)明實(shí)施例方案進(jìn)行摘要生成。在正文獲取以后,獲取句子 的方式可以采用獲取句號(hào)對(duì)正文進(jìn)行分?jǐn)嗟姆绞絹泶_定,具體實(shí)現(xiàn)方式本發(fā)明實(shí)施例不予 限定。
[0097]在本發(fā)明實(shí)施例中使用多元語言模型算法進(jìn)行分詞。N-GRAM (N-gram language model,多元語言模型,其中N彡2)算法,N-GRAM是大詞匯連續(xù)語音識(shí)別中的一種語言模型, 對(duì)于中文而言也有稱為:漢語語言模型(CLM, Chinese Language Model)。本方案擯棄了依 賴于詞典的分詞的做法,采用N-GRAM算法來對(duì)句子進(jìn)行拆分,這樣不僅不依賴于分詞和詞 典,而且能夠最大程度地保留信息量,為句子的挑選提供更多可利用的特征。N-GRAM的做 法是利用固定大小的滑動(dòng)窗口對(duì)句子進(jìn)行遍歷,并將窗口內(nèi)的詞串予以提取。比如窗口大 小為2時(shí),"王力宏要結(jié)婚了"可提取為"王力/力宏/宏要/要結(jié)/結(jié)婚/婚了"共6個(gè)詞 串。詞串的數(shù)量遠(yuǎn)遠(yuǎn)大于分詞得到的詞串?dāng)?shù)。其中雖然存在一些無意義的詞串,但是由于 最終提取的是句子,且無意義串對(duì)句子重要度計(jì)算沒有影響,所以此做法很有意義。
[0098] 本發(fā)明實(shí)施例,使用多元語言模型算法進(jìn)行分詞,使分詞不再依賴于詞典,而且能 夠最大程度地保留信息量;通過確定分詞結(jié)果的特征向量,特征向量包含典型特征,典型特 征對(duì)應(yīng)有特征權(quán)重;再依據(jù)典型特征的特征權(quán)重計(jì)算正文內(nèi)容的各句子的重要度;從而可 以從正文內(nèi)容中獲取到重要度高的句子并作為摘要使用。以上方案不再依賴于詞典也不必 維護(hù)詞典,可以準(zhǔn)確并且高效的生成摘要。
[0099]可選地,在本發(fā)明實(shí)施例中特征向量以及特征向量?jī)?nèi)的典型特征均可以是預(yù)置 的,更具體地:上述計(jì)算單元302,用于確定上述分詞結(jié)果的特征向量所使用的上述典型特 征的值包含:句子包含標(biāo)題詞串的數(shù)量、句子包含重要詞串的數(shù)量、句子的長(zhǎng)度、句子在正 文中的位置以及句子是否包含總結(jié)性詞匯中的至少一項(xiàng)。
[0100] 在本發(fā)明實(shí)施例中,可以對(duì)分詞得到的分詞結(jié)果提取各種預(yù)先定義好的特征值 (即典型特征),這樣可將其格式化為一個(gè)特征向量<fl,f2,…,fn>,其中fi表示第i個(gè)特征 的值。目前一般可以有約10個(gè)特征,每一個(gè)特征都對(duì)于衡量句子重要度較有作用,其中幾 個(gè)典型特征如下:
[0101] 特征fl:句子包含標(biāo)題詞串的數(shù)量;
[0102] 特征f2 :句子包含重要詞串的數(shù)量;
[0103] 特征f3 :句子的長(zhǎng)度;
[0104] 特征f4 :句子在網(wǎng)頁中的位置(段首、段中、段尾等);
[0105] 特征f5 :句子是否包含總結(jié)性詞匯(如:總之、綜上上述等)。
[0106] 其中在f2中,重要詞串的識(shí)別方式可以采用TFIDF(termfrequency-inverse documentfrequency,詞頻逆文檔頻率)的相關(guān)方法實(shí)現(xiàn),TFIDF是一種用于資訊檢索與資 訊探勘的加權(quán)技術(shù)。另需說明的是,以上方案中典型特征的舉例是本發(fā)明實(shí)施例做出的幾 個(gè)優(yōu)選典型特征的舉例,基于人們對(duì)正文內(nèi)容的規(guī)律性分析總結(jié),是可以獲知其他影響句 子重要性的特征的,并且基于不同的文章類型(例如:時(shí)事新聞、財(cái)經(jīng)新聞、文學(xué)作品、科技 文獻(xiàn)等)還可能采用不同典型特征;因此以上舉例不應(yīng)理解為對(duì)本發(fā)明實(shí)施例的唯一性限 定。
[0107] 可選地,本發(fā)明實(shí)施例還提供了特征權(quán)重的獲得方式,本實(shí)施例中特征權(quán)重的獲 得方式可以在摘要生成過程中進(jìn)行對(duì)特征權(quán)重進(jìn)行調(diào)整,也是可以在諸如測(cè)試過程或者預(yù) 置過程中進(jìn)行特征權(quán)重的生成,本實(shí)施例采用的是通過機(jī)器學(xué)習(xí)里的"訓(xùn)練"的方案來實(shí)現(xiàn) 的,具體可以如下:如圖4所示,上述句子提取單元301,還用于獲取訓(xùn)練正文,上述訓(xùn)練正 文包含已知重要度的句子;
[0108] 上述計(jì)算單元302,還用于循環(huán)執(zhí)行:對(duì)訓(xùn)練正文的句子使用多元語言模型算法 進(jìn)行分詞得到分詞結(jié)果,并確定分詞結(jié)果的特征向量,然后使用典型特征的初始特征權(quán)重 計(jì)算訓(xùn)練正文的句子的重要度;上述裝置還包括:
[0109] 權(quán)重調(diào)整單元401,用于調(diào)整初始特征權(quán)重,直到上述計(jì)算單元302計(jì)算得到的重 要度與已知重要度的接近程度高于預(yù)定閾值時(shí),停止循環(huán)執(zhí)行過程,并將最后一次調(diào)整后 的初始特征權(quán)重作為上述典型特征的特征權(quán)重。
[0110] 在以上"訓(xùn)練"的方案中,"計(jì)算得到的重要度與已知重要度的接近程度高于預(yù)定 閾值"的判定方式有很多種,訓(xùn)練正文的數(shù)量可以是N篇,N3 1,具體的判定方式可以參考 前面方法實(shí)施例中的判定方式,在此不再贅述。
[0111] 進(jìn)一步地,對(duì)于相似度較高的句子而言,它們的重要度也會(huì)較為接近,但是由于相 似度較高的句子通常會(huì)表達(dá)相近的語義,在摘要中使用多個(gè)相似的句子則會(huì)浪費(fèi)摘要寶貴 的可用字?jǐn)?shù),本發(fā)明實(shí)施例基于此提出了如下方案:如圖5所示,上述裝置還包括:
[0112] 刪除控制單元501,用于在上述摘要提取單元302依據(jù)計(jì)算得到的重要度由高往 低從上述正文內(nèi)容中提取句子之后,刪除提取得到的句子,刪除的句子滿足如下條件:刪除 的句子與保留的句子的相